Regression Analysis

ตัวอย่างการคำนวณ Simple Linear Regression Analysis

ตัวอย่าง คณะนักวิจัยที่ทำการศึกษาเกี่ยวกับชีวิตของหมีป่าต้องการหาวิธีการจะประมาณค่าน้ำหนักของหมีที่อาศัยอยู่ตามธรรมชาติในป่า โดยมีจุดประสงค์ที่สำคัญคือในอนาคตข้างหน้านักวิจัยกลุ่มนี้ไม่ต้องการใช้เครื่องชั่งน้ำหนักในการทำการศึกษาเกี่ยวกับชีวิตหมีอีก ทั้งนี้เพราะมีความลำบากในการขนย้ายเหลือเกิน จึงทำการออกสำรวจกลุ่มตัวอย่างหมีป่า 10 ตัว หลากหลายขนาด ทั้งเพศผู้และเพศเมีย แล้วทำการชั่งน้ำหนักและวัดความยาวรอบอกบริเวณราวนมของหมีป่า ทั้ง 10 ตัว ได้ข้อมูลดังตารางต่อไปนี้

หมีตัวที่	1	2	3	4	5	6	7	8	9	10
รอบอก (ซม.)	112	130	148	151	162	189	218	247	315	350
น้ำหนัก (กก.)	225	200	459	445	439	577	722	903	1350	1360

ตารางที่ 1.

เมื่อมีตัวแปรต้นและตัวแปรตามเพียงอย่างละ 1 ตัวแปร สมการหรือ Model ที่ได้จะเป็นดังนี้

ขั้นตอนที่ 1 เตรียมข้อมูล X, Y จากตาราง ค่าที่เป็นตัวแปรต้นหรือ X คือความยาวเส้นรอบอก และค่าที่เป็นตัวแปรตามหรือ Y ก็คือค่าน้ำหนักนั่นเอง ซึ่งต้องเลือกให้ตรงด้วย หากท่านผู้อ่านสงสัยว่าเหตุใดผู้เขียนถึงเลือกแบบนี้ ที่จริงไม่ใช่เลือกครับแต่ความเป็นจริงต่างหาก วิธีสังเกตคือค่าที่เราจะหาหรือจะเป็นคำตอบในอนาคตคือตัวแปรตาม (Y) ส่วนค่าที่เราจะต้องใส่ในสมการ (Model) เพื่อให้เห็นคำตอบคือตัวแปรต้น ในโจทย์นี้ค่าที่จะเป็นคำตอบจากการใช้ Model คือค่าน้ำหนักนั่นเอง

เมื่อเอาข้อมูล X,Y มาทำ Scatter plot พบว่าการเรียงตัวของจุดมีลักษณะเป็นเส้นตรง พอจะมองเห็นว่ามีความสัมพันธ์เป็นแบบเชิงเส้น และแนวของจุดชันขึ้นทำมุมกับแกน X มากพอประมาณ แสดงว่าค่าสัมประสิทธิ์ของตัวแปรต้นมากกว่า 0 หรือ Slope > 0 เข้าข่ายที่จะพิสูจน์ด้วย Regression analysis ได้

ขั้นตอนที่ 2 หาค่าผลรวม ค่าเฉลี่ย ผลคูณ ผลรวมของการคูณกันของตัวแปรต้นและตัวแปรตาม และค่ายกกำลังสองของตัวแปรต้น ท่านผู้อ่านต้องใช้โปรแกรม Excel ช่วยในการคำนวณ โดยคัดลอกข้อมูลจากตารางไปวางในตาราง Excel จากการคำนวณจะได้ค่าต่างๆดังตารางต่อไปนี้

											Sum	Average
X	112	130	148	151	162	189	218	247	315	350	2022	202.2
Y	225	200	459	445	439	577	722	903	1350	1360	6680	668
XY	25200	26000	67932	67195	71118	109053	157396	223041	425250	476000	1648185
X²	12544	16900	21904	22801	26244	35721	47524	61009	99225	122500	466372

ตารางที่ 2.

ขั้นตอนที่ 3 คำนวณหาค่าคงที่และค่าสัมประสิทธิ์ของตัวแปรต้นในสมการ โดยนำค่าที่คำนวณได้จากตารางที่ 2 มาใส่ในสมการ ซึ่งสมการคำนวณดังกล่าวนี้ได้มีการคิดไว้แล้ว ผู้เขียนขอไม่พูดถึงที่มาของสมการในขั้นตอนนี้

ดังนั้น Regression model ที่ได้ คือ

หรือเขียนเป็นสมการความสัมพันธ์ตามข้อมูลจากตารางแรก คือ

น้ำหนักหมี(โดยประมาณ) = -377.7 + 5.17 (ขนาดเส้นรอบวงบริเวณอก ซม. ) กก.

ขั้นตอนที่ 4 ทดสอบสมมติฐานว่าค่าคงที่ (b₀) และค่าสัมประสิทธิ์ (b₁) ใน Model ที่คำนวณได้นั้นมีความจำเป็นต้องคงไว้ใน Model หรือไม่ ท่านผู้อ่านต้องนึกภาพตามนะครับว่าค่า b₀ และ b₁ ที่เรากำลังกล่าวถึงนี้เป็นตัวอย่างที่มาจากประชากรจำนวนหนึ่ง ซึ่งจะมีการกระจายรอบๆค่าๆหนึ่ง ซึ่งจริงๆแล้วค่าที่เราเห็นก็เป็นเพียงตัวอย่างหนึ่งที่ถูกดึงออกมาจากกลุ่ม ที่เราสนใจคือว่าค่าดังกล่าวนี้ เป็น 0 หรือไม่ ถึงเราจะเห็นค่าไม่เท่ากับ 0 แต่จริงๆค่าการกระจายกลุ่มนั้นอาจจะอยู่รอบๆ 0 ก็ได้ ถ้าเป็นเช่นนั้นถือว่าค่าดังกล่าวไม่มีนัยสำคัญของความต่างกับ 0 เราก็สามารถตัดค่า b₀หรือตัดพจน์ที่ b₁คูณอยู่ออกจาก Model ได้เลย โดยจะไม่ทำให้ค่า Y ที่ได้มีความแตกต่างกับเมื่อคงค่าดังกล่าวไว้ใน Model แต่อย่างใด และการกระจายของตัวของค่า b₀ และ b₁ นี้ก็เป็น Normal distribution ด้วย เหตุผลนี้เองที่เราต้องใช้ T-Test เพื่อทดสอบสมมติฐาน ว่ามีค่าเท่ากับ 0 หรือไม่

โดยสมมติฐานในการทดสอบ b₀ คือ

การพิสูจน์สมมติฐานนั้นเราจะใช้ t-statistic โดยมีสมการดังนี้

จากสมการข้างบน เราจะเริ่มจากการหาค่า b_0(i) และ s_b₀ เพื่อจะนำไปใช้หาค่า t_b₀ ในขั้นตอนสุดท้าย ผู้เขียนขอใช้ตาราง Excel ช่วยในการคำนวณ จาก Model ค่า b₀ = -377.7 และ b₁ = 5.17

X ( i )	Y ( i )	b₀_{( i )}	(b₀_{( i )}-b₀)	(b₀_{( i )}-b₀)²
112	225	-354.22	23.48	551.23
130	200	-472.31	-94.61	8951.15
148	459	-306.40	71.30	5083.79
151	445	-335.91	41.79	1746.06
162	439	-398.80	-21.10	445.28
189	577	-400.43	-22.73	516.88
218	722	-405.41	-27.71	767.91
247	903	-374.38	3.31	10.97
315	1350	-279.05	98.64	9730.56
350	1360	-450.06	-72.36	5236.31
			Sum	33040.14
			(s_b₀)²	3304.01

ตารางที่ 3.

จากตารางที่ 3 จะได้

เราจะปฏิเสธสมมติฐาน H₀ : b₀= 0 ถ้า

( a = 0.05 , df = n-2)

จากตาราง T เราพบว่า t_0.025,8 = 2.306 ซึ่งน้อยกว่า |t_b₀ | ที่คำนวณได้ ดังนั้นสมมติฐาน H₀ : b₀= 0 จึงไม่เป็นจริง นั่นคือค่า b₀ มีค่ามากกว่า 0 อย่างมีนัยสำคัญ จึงต้องคงค่าไว้ใน Model

สมมติฐานในการทดสอบ b₁ คือ

การพิสูจน์สมมติฐานนั้นเราจะใช้ t-statistic โดยมีสมการดังนี้

เมื่อ คือค่าที่ได้จากการนำ Model ที่ได้มานั้นมาใส่ค่า X แล้วหาค่า Y

	X	Y
	112	225	-90.2	8136.04	201.34	23.66	559.7956
	130	200	-72.2	5212.84	294.4	-94.4	8911.36
	148	459	-54.2	2937.64	387.46	71.54	5117.972
	151	445	-51.2	2621.44	402.97	42.03	1766.521
	162	439	-40.2	1616.04	459.84	-20.84	434.3056
	189	577	-13.2	174.24	599.43	-22.43	503.1049
	218	722	15.8	249.64	749.36	-27.36	748.5696
	247	903	44.8	2007.04	899.29	3.71	13.7641
	315	1350	112.8	12723.84	1250.85	99.15	9830.723
	350	1360	147.8	21844.84	1431.8	-71.8	5155.24
Average	202.2
Sum				57523.6			33041.35

ตารางที่ 4.

จากตารางที่ 4 จะได้

เราจะปฏิเสธสมมติฐาน H₀ : b₁= 0 ถ้า

( a = 0.05 , df = n-2)

จากตาราง T เราพบว่า t_0.025,8 = 2.306 ซึ่งน้อยกว่า |t_b₁ | ที่คำนวณได้ ดังนั้นสมมติฐาน H₀ : b₁= 0 จึงไม่เป็นจริง นั่นคือค่า b₁ มีค่ามากกว่า 0 อย่างมีนัยสำคัญ จึงต้องคงพจน์ที่มี b₁ เป็นสัมประสิทธิ์คูณอยู่ไว้ใน Model ไม่สามารถตัดทิ้งได้

นั่นคือ Regression model ยังคงเป็น

ขั้นตอนที่ 5 การพิสูจน์ว่า Regression model ที่ได้มานั้นเหมาะที่จะนำไปใช้คาดการณ์ ( Predict ) ค่า Y ในอนคตมากน้อยเพียงใด ซึ่งจะใช้วิธีพิสูจน์ค่าความคลาดเคลื่อน (Error) ระหว่างค่า Y ที่เก็บข้อมูลมาได้กับค่าที่ได้จากการใส่ค่า X ใน Model ที่ได้มา ( ) ซึ่งเรียกว่า Residual นั่นเอง ตัวสถิติที่จะใช้ทดสอบความคลาดเคลื่อนนี้ เราเรียกว่า F-Statistic และสมมติฐานคือ

H₀ : Error จากการใช้ Model นี้ Predict ค่า Y เป็น Error ที่ไม่สามารถอธิบายได้เป็นส่วนใหญ่

H_a: Error จากการใช้ Model นี้ Predict ค่า Y เป็น Error ที่สามารถอธิบายได้เป็นส่วนใหญ่

สมการทางคณิตศาสตร์ที่ใช้ในการคำนวณ มีดังนี้

โดยที่

่ SS : Sum Square หมายถึงค่าแต่ละค่ายกกำลังสองแล้วนำมาหาผลรวม

MS : Mean Square หมายถึงค่าการเอาค่า SS มาหาค่าเฉลี่ยอีกโดยหารด้วย Degree of freedom.

	X	Y
	112	225	-443	196249	201.34	23.66	559.7956
	130	200	-468	219024	294.4	-94.4	8911.36
	148	459	-209	43681	387.46	71.54	5117.972
	151	445	-223	49729	402.97	42.03	1766.521
	162	439	-229	52441	459.84	-20.84	434.3056
	189	577	-91	8281	599.43	-22.43	503.1049
	218	722	54	2916	749.36	-27.36	748.5696
	247	903	235	55225	899.29	3.71	13.7641
	315	1350	682	465124	1250.85	99.15	9830.723
	350	1360	692	478864	1431.8	-71.8	5155.24
Average		668
Sum				1571534			33041.35

ตารางที่ 5.

จากตารางที่ 5

SS_Error = 33041.35

SS_Total = 1571534

ดังนั้น

SS_Regression = 1571534 - 33041.35 = 1538492.645

หาค่า Degree of freedom

SS_Total : df = n -1 =10 -1 = 9

SS_Error : df = n -1-1 =10 -1 -1 = 8 >> มาจาก (df_Total - 1 )

SS_Regression : df = n -1 - 8 =10 -1-8 = 1 >> มาจาก (df_Total - df_Error )

ดังนั้น

เราจะปฏิเสธสมมติฐาน H₀ ถ้า F > F_Critical ( a = 0.05 , df >> n₁=1, n₂=8 )

จากตาราง F เราพบว่า F_0.05,1,8 = 5.32 ซึ่งน้อยกว่า F ที่คำนวณได้ ดังนั้นสมมติฐาน H₀ จึงไม่เป็นจริง นั่นคือ Error จากการใช้ Model นี้ Predict ค่า Y เป็น Error ที่สามารถอธิบายได้เป็นส่วนใหญ่ หมายความว่าความแตกต่างของค่า Y ที่เห็นส่วนใหญ่เกิดจากการใส่ค่า X ที่ต่างกัน ซึ่งเป็นสิ่งที่อธิบายได้ ส่วนเหตุอื่นๆที่มีผลทำให้เกิดความแตกต่างของค่า Y ในการใช้ Model นี้ มีน้อยมาก

เราใช้ F -Statistics เพื่อรับรองว่า หากใช้ Regression model นี้ไปใช้ Predict ค่า Y แล้วจะให้ความคลาดเคลื่อนน้อย หรือพูดอีกอย่างคือมีความแม่นยำสูงนั่นเอง

ขั้นตอนที่ 6 การหา Coefficient of Determination เป็นการคำนวณหาตัวชี้วัดว่า Model นี้สมควรจะได้รับการยอมรับมากน้อยเพียงใด ถึงแม้จะรับรองด้วย F-Statistics แล้วก็ตาม หลักการคือหาค่า Error จากการเปลี่ยนแปลงค่า X ซึ่งเป็นการเปลี่ยนแปลงที่เราจงใจ กับค่า Error รวมทั้งหมด ถ้าค่าที่ได้ใกล้เคียงกัน ก็ถือว่า ยอมรับได้ ถ้าน้อย ก็แสดงว่าค่า Error อื่นๆที่ไม่รู้ที่ไปที่มา มีปนอยู่มาก ถึงระดับหนึ่งอาจจะไม่สามารถยอมรับ Model นี้ได้เลย เราเรียกตัวชีวัดนี้ว่า R² (อ่านว่า R - Square )

อาจจะเป็นไปได้ว่าเพราะความบังเอิญค่า R² ที่คำนวณได้จึงสูง เราจะต้องทดสอบดูว่า ที่ค่า R² สูงนั้นไม่ได้เป็นเรื่องบังเอิญ หลักการคือให้ทำการลด n ลง 1 ตัวแล้วหาค่า R² อีกครั้ง หากยังสูงอยู่ก็ถือว่าไม่ได้เป็นเรื่องบังเอิญ แต่ถ้า R² ใหม่นี้มีค่าต่ำกว่าค่าเดิมมาก แสดงว่าค่า R² มีความไว (Sensitivity) ต่อการเปลี่ยนแปลง n มาก ควรจะต้องแก้ไข โดยอาจถึงขั้นต้องไปเก็บข้อมูลเพิ่ม เก็บข้อมูลใหม่ เลยทีเดียว เราเรียกว่า R² -Adjusted

โดยที่ p คือจำนวนค่าคงที่และค่าสัมประสิทธิ์ของตัวแปรต้นใน Regression model (b₀,b₁,b₂,....b_n) ซึ่งในตัวอย่างนี้คือ 2 คือ b₀,b₁นั่นเอง

หากนำค่าที่ได้จากการคำนวณมาเขียนสรุปเป็นตารางจะได้ดังต่อไปนี้

b₀=	-377.7	t = -6.57	F = 372.5
b₁ =	5.17	t = -19.3
R²=	0.979
R²-Adjusted =	0.9763

ตารางที่ 6.

ในกรณีที่เราใช้โปรแกรม Microsoft Excel ช่วยในการวิเคราะห์ จะได้ตารางออกมาดังต่อไปนี้

SUMMARY OUTPUT

Regression Statistics
Multiple R	0.989
R Square	0.979
Adjusted R Square	0.976
Standard Error	64.265
Observations	10

ANOVA
	df	SS	MS	F	Significance F
Regression	1	1538493.86	1538493.86	372.52	0.00000
Residual	8	33040.14	4130.02
Total	9	1571534

	Coefficients	Standard Error	t Stat	P-value
Intercept	-377.70	57.87	-6.53	0.00
X	5.17	0.27	19.30	0.00

ตารางที่ 7.

จะเห็นว่าถ้าเราใช้โปรแกรมช่วยวิเคราะห์ เราจะเห็นตารางค่าคงที่ ค่าสัมประสิทธิ์ของตัวแปรต้น และค่า T-Statistics (ตารางสีเทา) ซึ่งได้ค่า P-Value เป็น 0.00 แสดงว่าเราต้องปฎิเสธสมมติฐาน H₀: ในขั้นตอนที่ 4 ทั้งกรณีสมมติฐานของค่า b₀ และ b₁ ในส่วนตาราง Anova (ตารางสีชมพู) ใช้เพื่อหาค่า F Statistics ได้ค่า P-Value เป็น 0.00 นั่นคือปฎิเสธสมมติฐาน H₀ : ตามขั้นตอนที่ 5 เช่นกัน ในส่วนตาราง Regression statistics (ส่วนสีฟ้าอ่อน) ที่สรุปค่า Coefficient of Determination ที่ได้ตามขั้นตอนที่ 6 สุดท้ายเราสรุปว่าค่าที่คำนวณตามขั้นตอนที่ 1 ถึง 6 ได้ตรงกับค่าที่ได้จากการใช้โปรแกรม Micrsoft Excel

ขั้นตอนที่ 7 การพิสูจน์คุณสมบัติ 3 ประการ เนื่องจากในการคำนวณด้วยมือตามขั้นตอนที่ 1-6 มีความยุ่งยากในการเตรียมข้อมูลในการแสดงกราฟ ผู้เขียนขอใช้กราฟที่ได้จากการวิเคราะห์ด้วยโปรแกรม Mocrosoft Excel

- Normality

จากกราฟ การเรียงตัวของจุดค่า Y เทียบกับ Percentile เป็นแนว แม้จะไม่เป็นเส้นตรง โอกาสที่จะไม่เป็น Normal ค่อนข้างสูงทีเดียว แต่หากจะยอมรับว่าเข้าใกล้ Normal distribution ก็ไม่น่าเกลียดเกินไป

- Independence

การทดสอบ Independence หรือความเป็นอิสระต่อกันของค่า X แต่ละค่าทำได้โดยการพล้อตค่า Residual เทียบกับหมายเลขของ X ที่เรากำหนดในตาราง จะพบว่า แนวของจุดถือได้ว่า ไม่มีทิศทางใดแน่นอน ไม่ได้อยู่ทางด้านลบหรือบวกอย่างเดียว ไม่ได้ขึ้นหรือลงอย่างเดียว ลักษณะเช่นนี้เราถือว่าความเป็นอิสระของ X แต่ละตัวอยู่ในเกณฑ์ที่ยอมรับได้

- Homoscedasticity

การทดสอบ Homoscedasticity มีวัตถุประสงค์คือ พิสูจน์ว่าค่าความคลาดเคลื่อนทุกๆย่านของค่า X ไม่ได้แตกต่างกันมากจนเกินไป โดยการพล้อต Residual กับค่า X (Fit) หากมีลักษณะอยู่ด้านบวก หรือลบตลอด เป็น 0 ตลอด กว้างออกตลอด เมื่อค่า X สูงขึ้น เราจะถือว่าไม่ผ่านเงื่อนไขนี้ จากกราฟเราพอจะอนุมานได้ว่า Residual ตลอดย่านค่า X ไม่ได้แตกต่างกันจนเกินเหตุ

ดังนั้น เงื่อนไขที่สำคัญทั้ง 3 ก็ถือว่ายอมรับได้ เราจึงยอมรับว่า Regression model ที่ได้มานั้นสามารถเอาไปใช้ในการคาดการณ์ค่าน้ำหนักหมีป่าในอนาคต โดยจะได้คำตอบโดยประมาณที่ใกล้เคียงกับความเป็นจริงพอสมควร ซึ่งเพียงพอที่นักวิจัยจะใช้ค่าน้ำหนักที่คำนวณได้ไปใช้ในการพิสูจน์หรือวิเคราะห์อะไรก็ตามที่ต้องใช้ค่าน้ำหนักหมีมาเกี่ยวข้อง แล้วยังให้ข้อสรุปที่ถูกต้องยอมรับได้อยู่ เช่น ถ้าต่อไปนักวิจัยกลุ่มนี้ไปสำรวจหมีตัวที่ 11 พบว่ามีเส้นรอบอก 275 ซม. เมื่อใส่ค่าใน Regression model ก็จะได้ค่าน้ำหนักหมีประมาณ 1044 กก. อย่าลืมว่าคำตอบที่ได้ต้องเป็นค่าประมาณการณ์เท่านั้น

ถึงแม้ขั้นตอนการวิเคราะห์ Regression จะดูยาวและต้องทำหลายอย่าง แต่เนื่องจากในปัจจุบันนี้ เรามีโอกาสใช้โปรแกรมคอมพิวเตอร์ช่วยในการวิเคราะห์ โดยที่เราไม่ต้องทำเอง ซึ่งก็จะได้ค่าเป็นตารางรายงานและกราฟออกมาให้เห็นเลย แต่ถ้าหากเราไม่เข้าใจว่าการวิเคราะห์หรือการคำนวณมีที่ไปที่มาอย่างไร ค่าที่เห็นในตารางที่คอมพิวเตอร์ให้มานั้น แต่ละค่ามาอย่างไร กราฟแต่กราฟหมายถึงอะไร และจะตีความอย่างไรดี ผู้เขียนก็ขอบอกว่าคอมพิวเตอร์ก็ช่วยไม่ได้ แต่เมื่อท่านผู้อ่านเข้าใจขั้นตอนวิเคราะห์ แต่ละค่าในตารางมีสมการในการคิดอย่างไรอยู่ กราฟแต่ละกราฟใช้ค่าอะไรพล้อต ใช้ดูอะไรแล้ว ก็จะสามารถอ่านและสรุปผลจากคอมพิวเตอร์ได้ถูกต้อง แม้แต่หากใส่ข้อมูลผิดก็ยังสามารถมองเห็นข้อผิดพลาดได้ คอมพิวเตอร์ก็มีความหมายเพียงเครื่องช่วยประมวลผลให้เราเท่านั้น