ตัวอย่างการคำนวณ Simple Linear Regression Analysis

ตัวอย่าง คณะนักวิจัยที่ทำการศึกษาเกี่ยวกับชีวิตของหมีป่าต้องการหาวิธีการจะประมาณค่าน้ำหนักของหมีที่อาศัยอยู่ตามธรรมชาติในป่า โดยมีจุดประสงค์ที่สำคัญคือในอนาคตข้างหน้านักวิจัยกลุ่มนี้ไม่ต้องการใช้เครื่องชั่งน้ำหนักในการทำการศึกษาเกี่ยวกับชีวิตหมีอีก ทั้งนี้เพราะมีความลำบากในการขนย้ายเหลือเกิน จึงทำการออกสำรวจกลุ่มตัวอย่างหมีป่า 10 ตัว หลากหลายขนาด ทั้งเพศผู้และเพศเมีย แล้วทำการชั่งน้ำหนักและวัดความยาวรอบอกบริเวณราวนมของหมีป่า ทั้ง 10 ตัว ได้ข้อมูลดังตารางต่อไปนี้

หมีตัวที่ 1 2 3 4 5 6 7 8 9 10
รอบอก (ซม.) 112 130 148 151 162 189 218 247 315 350
น้ำหนัก (กก.) 225 200 459 445 439 577 722 903 1350 1360

 ตารางที่ 1.

เมื่อมีตัวแปรต้นและตัวแปรตามเพียงอย่างละ 1 ตัวแปร สมการหรือ Model ที่ได้จะเป็นดังนี้

 ขั้นตอนที่ 1 เตรียมข้อมูล X, Y จากตาราง ค่าที่เป็นตัวแปรต้นหรือ X คือความยาวเส้นรอบอก และค่าที่เป็นตัวแปรตามหรือ Y ก็คือค่าน้ำหนักนั่นเอง ซึ่งต้องเลือกให้ตรงด้วย หากท่านผู้อ่านสงสัยว่าเหตุใดผู้เขียนถึงเลือกแบบนี้ ที่จริงไม่ใช่เลือกครับแต่ความเป็นจริงต่างหาก วิธีสังเกตคือค่าที่เราจะหาหรือจะเป็นคำตอบในอนาคตคือตัวแปรตาม (Y) ส่วนค่าที่เราจะต้องใส่ในสมการ (Model) เพื่อให้เห็นคำตอบคือตัวแปรต้น ในโจทย์นี้ค่าที่จะเป็นคำตอบจากการใช้ Model คือค่าน้ำหนักนั่นเอง

เมื่อเอาข้อมูล X,Y มาทำ Scatter plot พบว่าการเรียงตัวของจุดมีลักษณะเป็นเส้นตรง พอจะมองเห็นว่ามีความสัมพันธ์เป็นแบบเชิงเส้น และแนวของจุดชันขึ้นทำมุมกับแกน X มากพอประมาณ แสดงว่าค่าสัมประสิทธิ์ของตัวแปรต้นมากกว่า 0 หรือ Slope > 0 เข้าข่ายที่จะพิสูจน์ด้วย Regression analysis ได้

ขั้นตอนที่ 2 หาค่าผลรวม ค่าเฉลี่ย ผลคูณ ผลรวมของการคูณกันของตัวแปรต้นและตัวแปรตาม และค่ายกกำลังสองของตัวแปรต้น ท่านผู้อ่านต้องใช้โปรแกรม Excel ช่วยในการคำนวณ โดยคัดลอกข้อมูลจากตารางไปวางในตาราง Excel  จากการคำนวณจะได้ค่าต่างๆดังตารางต่อไปนี้

Sum Average
X 112 130 148 151 162 189 218 247 315 350 2022 202.2
Y 225 200 459 445 439 577 722 903 1350 1360 6680 668
XY 25200 26000 67932 67195 71118 109053 157396 223041 425250 476000 1648185  
X2 12544 16900 21904 22801 26244 35721 47524 61009 99225 122500 466372  

 ตารางที่ 2.

ขั้นตอนที่ 3 คำนวณหาค่าคงที่และค่าสัมประสิทธิ์ของตัวแปรต้นในสมการ โดยนำค่าที่คำนวณได้จากตารางที่ 2 มาใส่ในสมการ ซึ่งสมการคำนวณดังกล่าวนี้ได้มีการคิดไว้แล้ว ผู้เขียนขอไม่พูดถึงที่มาของสมการในขั้นตอนนี้

 

ดังนั้น Regression model ที่ได้ คือ

หรือเขียนเป็นสมการความสัมพันธ์ตามข้อมูลจากตารางแรก คือ

   น้ำหนักหมี(โดยประมาณ) = -377.7 + 5.17 (ขนาดเส้นรอบวงบริเวณอก ซม. )    กก.  

ขั้นตอนที่ 4 ทดสอบสมมติฐานว่าค่าคงที่ (b0) และค่าสัมประสิทธิ์ (b1) ใน Model ที่คำนวณได้นั้นมีความจำเป็นต้องคงไว้ใน Model หรือไม่ ท่านผู้อ่านต้องนึกภาพตามนะครับว่าค่า  b0 และ b1 ที่เรากำลังกล่าวถึงนี้เป็นตัวอย่างที่มาจากประชากรจำนวนหนึ่ง ซึ่งจะมีการกระจายรอบๆค่าๆหนึ่ง ซึ่งจริงๆแล้วค่าที่เราเห็นก็เป็นเพียงตัวอย่างหนึ่งที่ถูกดึงออกมาจากกลุ่ม ที่เราสนใจคือว่าค่าดังกล่าวนี้ เป็น 0 หรือไม่ ถึงเราจะเห็นค่าไม่เท่ากับ 0 แต่จริงๆค่าการกระจายกลุ่มนั้นอาจจะอยู่รอบๆ 0 ก็ได้ ถ้าเป็นเช่นนั้นถือว่าค่าดังกล่าวไม่มีนัยสำคัญของความต่างกับ 0 เราก็สามารถตัดค่า b0 หรือตัดพจน์ที่  b1 คูณอยู่ออกจาก Model ได้เลย โดยจะไม่ทำให้ค่า Y ที่ได้มีความแตกต่างกับเมื่อคงค่าดังกล่าวไว้ใน Model แต่อย่างใด และการกระจายของตัวของค่า  b0 และ b1 นี้ก็เป็น Normal distribution ด้วย  เหตุผลนี้เองที่เราต้องใช้ T-Test เพื่อทดสอบสมมติฐาน ว่ามีค่าเท่ากับ 0 หรือไม่

โดยสมมติฐานในการทดสอบ b0  คือ

การพิสูจน์สมมติฐานนั้นเราจะใช้ t-statistic โดยมีสมการดังนี้ 

จากสมการข้างบน เราจะเริ่มจากการหาค่า b0(i) และ sb0 เพื่อจะนำไปใช้หาค่า tb0 ในขั้นตอนสุดท้าย ผู้เขียนขอใช้ตาราง Excel ช่วยในการคำนวณ จาก Model ค่า  b0 = -377.7  และ b1 = 5.17

X ( i ) Y ( i ) b0 ( i ) (b0 ( i ) -b0) (b0 ( i ) -b0)2
112 225 -354.22 23.48 551.23
130 200 -472.31 -94.61 8951.15
148 459 -306.40 71.30 5083.79
151 445 -335.91 41.79 1746.06
162 439 -398.80 -21.10 445.28
189 577 -400.43 -22.73 516.88
218 722 -405.41 -27.71 767.91
247 903 -374.38 3.31 10.97
315 1350 -279.05 98.64 9730.56
350 1360 -450.06 -72.36 5236.31
  Sum 33040.14
  (sb0)2 3304.01

 ตารางที่ 3.

จากตารางที่  3 จะได้

เราจะปฏิเสธสมมติฐาน H0 : b0= 0 ถ้า  

( a = 0.05 , df = n-2)

จากตาราง T เราพบว่า t0.025,8 = 2.306 ซึ่งน้อยกว่า |tb0 | ที่คำนวณได้ ดังนั้นสมมติฐาน H0 : b0= 0 จึงไม่เป็นจริง นั่นคือค่า b0 มีค่ามากกว่า 0 อย่างมีนัยสำคัญ จึงต้องคงค่าไว้ใน Model 

 สมมติฐานในการทดสอบ b1  คือ

การพิสูจน์สมมติฐานนั้นเราจะใช้ t-statistic โดยมีสมการดังนี้

เมื่อ คือค่าที่ได้จากการนำ Model ที่ได้มานั้นมาใส่ค่า X แล้วหาค่า Y 

X Y
112 225 -90.2 8136.04 201.34 23.66 559.7956
130 200 -72.2 5212.84 294.4 -94.4 8911.36
148 459 -54.2 2937.64 387.46 71.54 5117.972
151 445 -51.2 2621.44 402.97 42.03 1766.521
162 439 -40.2 1616.04 459.84 -20.84 434.3056
189 577 -13.2 174.24 599.43 -22.43 503.1049
218 722 15.8 249.64 749.36 -27.36 748.5696
247 903 44.8 2007.04 899.29 3.71 13.7641
315 1350 112.8 12723.84 1250.85 99.15 9830.723
350 1360 147.8 21844.84 1431.8 -71.8 5155.24
Average 202.2            
Sum       57523.6     33041.35

 ตารางที่ 4.

จากตารางที่ 4 จะได้

เราจะปฏิเสธสมมติฐาน H0 : b1= 0 ถ้า

( a = 0.05 , df = n-2)

จากตาราง T เราพบว่า t0.025,8 = 2.306 ซึ่งน้อยกว่า |tb1 |  ที่คำนวณได้ ดังนั้นสมมติฐาน H0 : b1= 0 จึงไม่เป็นจริง นั่นคือค่า b1 มีค่ามากกว่า 0 อย่างมีนัยสำคัญ จึงต้องคงพจน์ที่มี  b1 เป็นสัมประสิทธิ์คูณอยู่ไว้ใน Model ไม่สามารถตัดทิ้งได้

นั่นคือ Regression model ยังคงเป็น

ขั้นตอนที่ 5 การพิสูจน์ว่า Regression model ที่ได้มานั้นเหมาะที่จะนำไปใช้คาดการณ์ ( Predict ) ค่า Y ในอนคตมากน้อยเพียงใด ซึ่งจะใช้วิธีพิสูจน์ค่าความคลาดเคลื่อน (Error) ระหว่างค่า Y ที่เก็บข้อมูลมาได้กับค่าที่ได้จากการใส่ค่า X ใน Model ที่ได้มา ( ) ซึ่งเรียกว่า Residual นั่นเอง ตัวสถิติที่จะใช้ทดสอบความคลาดเคลื่อนนี้ เราเรียกว่า F-Statistic และสมมติฐานคือ

H0 : Error จากการใช้ Model นี้ Predict ค่า Y เป็น Error ที่ไม่สามารถอธิบายได้เป็นส่วนใหญ่

Ha: Error จากการใช้ Model นี้ Predict ค่า Y เป็น Error ที่สามารถอธิบายได้เป็นส่วนใหญ่

 สมการทางคณิตศาสตร์ที่ใช้ในการคำนวณ มีดังนี้

โดยที่

่              SS : Sum Square หมายถึงค่าแต่ละค่ายกกำลังสองแล้วนำมาหาผลรวม

              MS : Mean Square หมายถึงค่าการเอาค่า  SS มาหาค่าเฉลี่ยอีกโดยหารด้วย  Degree of freedom.

 

X Y
112 225 -443 196249 201.34 23.66 559.7956
130 200 -468 219024 294.4 -94.4 8911.36
148 459 -209 43681 387.46 71.54 5117.972
151 445 -223 49729 402.97 42.03 1766.521
162 439 -229 52441 459.84 -20.84 434.3056
189 577 -91 8281 599.43 -22.43 503.1049
218 722 54 2916 749.36 -27.36 748.5696
247 903 235 55225 899.29 3.71 13.7641
315 1350 682 465124 1250.85 99.15 9830.723
350 1360 692 478864 1431.8 -71.8 5155.24
Average   668          
Sum       1571534     33041.35

 ตารางที่ 5.

 จากตารางที่ 5  

                             SSError = 33041.35

                 SSTotal = 1571534

ดังนั้น 

                 SSRegression = 1571534 - 33041.35 = 1538492.645

หาค่า Degree of freedom 

                      SSTotal :  df = n -1 =10 -1 = 9 

                      SSError :  df = n -1-1 =10 -1 -1 = 8         >> มาจาก (dfTotal - 1 )

                     SSRegression :  df = n -1 - 8 =10 -1-8 = 1        >> มาจาก (dfTotal - dfError  )

ดังนั้น 

เราจะปฏิเสธสมมติฐาน H0 ถ้า   F > FCritical  ( a = 0.05 , df >>  n1=1, n2=8 )

จากตาราง F เราพบว่า F0.05,1,8 = 5.32  ซึ่งน้อยกว่า F  ที่คำนวณได้ ดังนั้นสมมติฐาน H0  จึงไม่เป็นจริง นั่นคือ Error จากการใช้ Model นี้ Predict ค่า Y เป็น Error ที่สามารถอธิบายได้เป็นส่วนใหญ่  หมายความว่าความแตกต่างของค่า Y ที่เห็นส่วนใหญ่เกิดจากการใส่ค่า X ที่ต่างกัน ซึ่งเป็นสิ่งที่อธิบายได้ ส่วนเหตุอื่นๆที่มีผลทำให้เกิดความแตกต่างของค่า Y ในการใช้ Model นี้ มีน้อยมาก 

เราใช้ F -Statistics เพื่อรับรองว่า หากใช้ Regression model นี้ไปใช้ Predict ค่า Y แล้วจะให้ความคลาดเคลื่อนน้อย หรือพูดอีกอย่างคือมีความแม่นยำสูงนั่นเอง

ขั้นตอนที่ 6 การหา Coefficient of Determination เป็นการคำนวณหาตัวชี้วัดว่า Model นี้สมควรจะได้รับการยอมรับมากน้อยเพียงใด ถึงแม้จะรับรองด้วย F-Statistics แล้วก็ตาม หลักการคือหาค่า Error จากการเปลี่ยนแปลงค่า X ซึ่งเป็นการเปลี่ยนแปลงที่เราจงใจ กับค่า Error รวมทั้งหมด ถ้าค่าที่ได้ใกล้เคียงกัน ก็ถือว่า ยอมรับได้ ถ้าน้อย ก็แสดงว่าค่า Error อื่นๆที่ไม่รู้ที่ไปที่มา มีปนอยู่มาก ถึงระดับหนึ่งอาจจะไม่สามารถยอมรับ Model นี้ได้เลย เราเรียกตัวชีวัดนี้ว่า R2 (อ่านว่า R - Square )

อาจจะเป็นไปได้ว่าเพราะความบังเอิญค่า R2  ที่คำนวณได้จึงสูง เราจะต้องทดสอบดูว่า ที่ค่า R2  สูงนั้นไม่ได้เป็นเรื่องบังเอิญ หลักการคือให้ทำการลด n ลง 1 ตัวแล้วหาค่า R2 อีกครั้ง หากยังสูงอยู่ก็ถือว่าไม่ได้เป็นเรื่องบังเอิญ แต่ถ้า R2  ใหม่นี้มีค่าต่ำกว่าค่าเดิมมาก แสดงว่าค่า R2  มีความไว (Sensitivity) ต่อการเปลี่ยนแปลง n มาก ควรจะต้องแก้ไข โดยอาจถึงขั้นต้องไปเก็บข้อมูลเพิ่ม เก็บข้อมูลใหม่ เลยทีเดียว เราเรียกว่า R2 -Adjusted

โดยที่ p คือจำนวนค่าคงที่และค่าสัมประสิทธิ์ของตัวแปรต้นใน Regression model  (b0,b1,b2,....bn) ซึ่งในตัวอย่างนี้คือ 2 คือ b0,b1 นั่นเอง

หากนำค่าที่ได้จากการคำนวณมาเขียนสรุปเป็นตารางจะได้ดังต่อไปนี้

b0 = -377.7 t  = -6.57 

F = 372.5

b1 = 5.17 t = -19.3
R2 = 0.979
R2-Adjusted = 0.9763

ตารางที่ 6.

ในกรณีที่เราใช้โปรแกรม  Microsoft Excel ช่วยในการวิเคราะห์ จะได้ตารางออกมาดังต่อไปนี้ 

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.989
R Square 0.979
Adjusted R Square 0.976
Standard Error 64.265
Observations 10
ANOVA
  df SS MS F Significance F
Regression 1 1538493.86 1538493.86 372.52 0.00000
Residual 8 33040.14 4130.02
Total 9 1571534      
  Coefficients Standard Error t Stat P-value
Intercept -377.70 57.87 -6.53 0.00
X 5.17 0.27 19.30 0.00

ตารางที่ 7.

จะเห็นว่าถ้าเราใช้โปรแกรมช่วยวิเคราะห์ เราจะเห็นตารางค่าคงที่ ค่าสัมประสิทธิ์ของตัวแปรต้น และค่า T-Statistics (ตารางสีเทา) ซึ่งได้ค่า P-Value เป็น 0.00 แสดงว่าเราต้องปฎิเสธสมมติฐาน H0: ในขั้นตอนที่ 4 ทั้งกรณีสมมติฐานของค่า  b0 และ b1 ในส่วนตาราง Anova (ตารางสีชมพู)  ใช้เพื่อหาค่า F Statistics ได้ค่า P-Value เป็น 0.00  นั่นคือปฎิเสธสมมติฐาน H0 : ตามขั้นตอนที่ 5 เช่นกัน ในส่วนตาราง  Regression statistics (ส่วนสีฟ้าอ่อน)  ที่สรุปค่า Coefficient of Determination ที่ได้ตามขั้นตอนที่ 6 สุดท้ายเราสรุปว่าค่าที่คำนวณตามขั้นตอนที่ 1 ถึง 6 ได้ตรงกับค่าที่ได้จากการใช้โปรแกรม Micrsoft Excel 

 ขั้นตอนที่ 7 การพิสูจน์คุณสมบัติ 3 ประการ  เนื่องจากในการคำนวณด้วยมือตามขั้นตอนที่ 1-6 มีความยุ่งยากในการเตรียมข้อมูลในการแสดงกราฟ ผู้เขียนขอใช้กราฟที่ได้จากการวิเคราะห์ด้วยโปรแกรม Mocrosoft Excel 

                    -  Normality 

จากกราฟ การเรียงตัวของจุดค่า Y เทียบกับ Percentile เป็นแนว แม้จะไม่เป็นเส้นตรง โอกาสที่จะไม่เป็น Normal ค่อนข้างสูงทีเดียว แต่หากจะยอมรับว่าเข้าใกล้ Normal distribution ก็ไม่น่าเกลียดเกินไป

                   -  Independence 

การทดสอบ Independence หรือความเป็นอิสระต่อกันของค่า X แต่ละค่าทำได้โดยการพล้อตค่า Residual เทียบกับหมายเลขของ X ที่เรากำหนดในตาราง จะพบว่า แนวของจุดถือได้ว่า ไม่มีทิศทางใดแน่นอน ไม่ได้อยู่ทางด้านลบหรือบวกอย่างเดียว ไม่ได้ขึ้นหรือลงอย่างเดียว ลักษณะเช่นนี้เราถือว่าความเป็นอิสระของ X แต่ละตัวอยู่ในเกณฑ์ที่ยอมรับได้

                   -  Homoscedasticity

การทดสอบ Homoscedasticity มีวัตถุประสงค์คือ พิสูจน์ว่าค่าความคลาดเคลื่อนทุกๆย่านของค่า X ไม่ได้แตกต่างกันมากจนเกินไป โดยการพล้อต Residual กับค่า X (Fit) หากมีลักษณะอยู่ด้านบวก หรือลบตลอด เป็น 0 ตลอด กว้างออกตลอด เมื่อค่า X สูงขึ้น เราจะถือว่าไม่ผ่านเงื่อนไขนี้ จากกราฟเราพอจะอนุมานได้ว่า Residual ตลอดย่านค่า X ไม่ได้แตกต่างกันจนเกินเหตุ

ดังนั้น เงื่อนไขที่สำคัญทั้ง 3 ก็ถือว่ายอมรับได้ เราจึงยอมรับว่า Regression model ที่ได้มานั้นสามารถเอาไปใช้ในการคาดการณ์ค่าน้ำหนักหมีป่าในอนาคต โดยจะได้คำตอบโดยประมาณที่ใกล้เคียงกับความเป็นจริงพอสมควร ซึ่งเพียงพอที่นักวิจัยจะใช้ค่าน้ำหนักที่คำนวณได้ไปใช้ในการพิสูจน์หรือวิเคราะห์อะไรก็ตามที่ต้องใช้ค่าน้ำหนักหมีมาเกี่ยวข้อง แล้วยังให้ข้อสรุปที่ถูกต้องยอมรับได้อยู่ เช่น ถ้าต่อไปนักวิจัยกลุ่มนี้ไปสำรวจหมีตัวที่ 11 พบว่ามีเส้นรอบอก 275 ซม. เมื่อใส่ค่าใน Regression model ก็จะได้ค่าน้ำหนักหมีประมาณ 1044 กก. อย่าลืมว่าคำตอบที่ได้ต้องเป็นค่าประมาณการณ์เท่านั้น 

ถึงแม้ขั้นตอนการวิเคราะห์ Regression จะดูยาวและต้องทำหลายอย่าง แต่เนื่องจากในปัจจุบันนี้ เรามีโอกาสใช้โปรแกรมคอมพิวเตอร์ช่วยในการวิเคราะห์ โดยที่เราไม่ต้องทำเอง ซึ่งก็จะได้ค่าเป็นตารางรายงานและกราฟออกมาให้เห็นเลย แต่ถ้าหากเราไม่เข้าใจว่าการวิเคราะห์หรือการคำนวณมีที่ไปที่มาอย่างไร ค่าที่เห็นในตารางที่คอมพิวเตอร์ให้มานั้น แต่ละค่ามาอย่างไร กราฟแต่กราฟหมายถึงอะไร และจะตีความอย่างไรดี ผู้เขียนก็ขอบอกว่าคอมพิวเตอร์ก็ช่วยไม่ได้ แต่เมื่อท่านผู้อ่านเข้าใจขั้นตอนวิเคราะห์ แต่ละค่าในตารางมีสมการในการคิดอย่างไรอยู่ กราฟแต่ละกราฟใช้ค่าอะไรพล้อต ใช้ดูอะไรแล้ว ก็จะสามารถอ่านและสรุปผลจากคอมพิวเตอร์ได้ถูกต้อง แม้แต่หากใส่ข้อมูลผิดก็ยังสามารถมองเห็นข้อผิดพลาดได้ คอมพิวเตอร์ก็มีความหมายเพียงเครื่องช่วยประมวลผลให้เราเท่านั้น

 


[ HOME ]             [ CONTENTS ]     

Hosted by www.Geocities.ws

1