Correlation Analysis.

Correlation Analysis

ในหัวข้อนี้ จะเป็นการศึกษาความสัมพันธ์ระหว่าง ตัวแปรอิสระสองตัว ในบางครั้งผู้ทำการวิเคราะห์จะรู้สึกว่า Correlation กับ Regression สามารถใช้ด้วยกันได้ และบางครั้งอาจจะมองความแตกต่าง ระหว่าง Correlation กับ Regression ไม่ออก ผู้เขียนมีตัวอย่าง(สมมติขึ้นมา) ให้ท่านผู้อ่านลองพิจารณา

ตัวอย่าง 1 มีสูตินารีแพทย์คนหนึ่ง นอกจากจะมีอาชีพหลักคือทำคลอดให้กับคุณแม่และรักษาผู้ป่วยแล้ว ยังเป็นคนที่ชอบธรรมชาติ ชอบศึกษานกที่บึงที่อยู่ติดกับบ้านพักของเข และนกที่ชอบส่องดูคือนกเป็ดน้ำ แต่ละวันหมอท่านนี้จะจดบันทึกจำนวนนกที่พบ ไว้อย่างแม่นยำ และเช่นเดียวกันงานที่ทำ หมอท่านนี้ก็จะมีการบันทึกจำนวนทารกที่เกิดในแต่ละวัน มาวันหนึ่งคุณหมอลองเอาตัวเลขจำนวนทารกที่เกิดในโรงพยาบาล กับจำนวนนกเป็ดน้ำที่พบแต่ละวัน มาลองเทียบกันดู ด้วยความตื่นเต้นเขาพบว่า มีความสัมพันธ์กันอย่างน่าประหลาด ดังตารางต่อไปนี้

วันที่	จำนวนนกเป็ดน้ำ (ตัว)	จำนวนทารกที่เกิด (คน)
1	17	18
2	13	11
3	20	23
4	9	10
5	11	9
6	6	7
7	15	14
8	24	21
10	10	8
11	6	5
12	12	15
13	33	29
14	18	20
15	27	25

เมื่อใช้เทคนิคของ Regression analysis เพื่อค้นหา Regression model เพื่อหวังจะนำเอา Model ดังกล่าวไปใช้วางแผนว่า แต่ละวันเขาต้องทำคลอดกี่ครั้ง แต่ละวันเขาจะมีงานต้องทำมากมายแค่ไหน

เริ่มจากการใช้ Scatter plot เพื่อแสดงความสัมพันธ์ดังกล่าวออกมาเป็นกราฟ ความสัมพันธ์

เมื่อใช้ MS Excel ในการวิเคราะห์ จะได้ผลดังต่อไปนี้

SUMMARY OUTPUT

Regression Statistics
Multiple R	0.960249512
R Square	0.922079125
Adjusted R Square	0.915585719
Standard Error	2.161053108
Observations	14

ANOVA
	df	SS	MS	F	Significance F
Regression	1	663.1724793	663.1724793	142.0023774	0
Residual	12	56.04180645	4.670150538
Total	13	719.2142857

	Coefficients	Standard Error	t Stat	P-value
Intercept	1.249806452	1.317226809	0.94881644	0.361431529
จำนวนนกเป็ดน้ำ (ตัว)	0.893677419	0.074995115	11.91647504	5.22712E-08

เมื่อนำข้อมูลมาตีความหมาย พบว่า R-Square ที่บ่งบอกนัยแห่งความสัมพันธ์ ก็สูงมาก Error ก็ต่ำ เมื่อดู ANOVA ก็พบว่า Regression มีนัยสำคัญความเป็น Linear relation ระหว่างจำนวนนกเป็ดน้ำกับจำนวนทารกที่เกิด แกก็ได้ Regression model ในท้ายที่สุดดังนี้

จำนวนทารกที่จะเกิด = 1.25 + 0.89 * จำนวนนกเป็ดน้ำ

ที่จริงหากเราดูผลการวิเคราะห์ ทุกอย่างดูดีและถูกต้องหมด Regression Model นี้น่าจะเป็น Model ที่ถูกต้องและใช้ได้ แต่จริงๆแล้วที่ผ่านมาทั้งหมด การวิเคราะห์ไม่ผิด แต่ผิดตรงที่มาแห่งความสัมพันธ์ และชนิดของตัวแปรที่จะนำมาวิเคราะห์ โดยตรรกะ โดยเหตุและผล และโดยความเป็นจริงทางวิทยาศาสตร์ ปริมาณนกจะไม่เป็นเหตุแก่จำนวนทารกที่เกิดในแต่ละวัน โดยเด็ดขาด แต่สิ่งที่คุณหมอท่านนี้ค้นพบเป็นเพียงเหตุบังเอิญ ซึ่งทางสถิติไม่สามารถนำมาอธิบายความสัมพันธ์เชิงเหตุและผลได้เลย

ตัวอย่างที่ 2 นักลงทุนท่านหนึ่งได้นำข้อมูลการเปลี่ยนแปลงของราคาหุ้น ของ 2 บริษัท ที่มีการซื้อขายในตลาดหลักทรัพย์มาทดลองเปรียบเทียบเพื่อหาความสัมพันธ์กัน โดยมีข้อมูลดังในตารางนี้

วันที่	ราคาหุ้น บริษัท A (บาท)	ราคาหุ้น บริษัท B (บาท)
1	117	18
2	113	15
3	120	23
4	109	10
5	111	16
6	116	17
7	105	14
8	94	21
10	90	8
11	96	15
12	112	15
13	123	19
14	118	20
15	127	25

เมื่อเขานำข้อมูลดังกล่าวมาทำ Scatter plot เพื่อให้มองเห็นลักษณะความสัมพันธ์ดังกล่าว ได้ดังรูปต่อไปนี้ โดยพบว่าระดับความสัมพันธ์สูงที่เดียว โดยดูจากการเรียงตัวของจุดเป็นแนวอย่างดีทีเดียว

ตัวอย่างที่ 3 นักวิจัยท่านหนึ่งทำการศึกษาเพื่อหาข้อสรุปว่า น้ำหนักมารดาก่อนตั้งครรภ์กับน้ำหนักทารกแรกคลอดมีความสัมพันธ์กันอย่างไร เขาจึงค้นหาข้อมูลจากแฟ้มประวัติการตรวจสุขภาพ ของมารดาและบุตรแรกคลอด แล้วนำมาศึกษา ดังตารางต่อไปนี้

ตัวอย่างที่	น้ำหนักมารดา(กก.)	น้ำหนักบุตรแรกคลอด (กรัม)
1	53	3405
2	48.8	3100
3	65.3	2880
4	71	4000
5	66.2	3200
6	50.5	3240
7	75.3	3080
8	80.1	2980
10	49.5	3010
11	58.4	3580
12	60.8	4020
13	58.7	4010
14	59.3	3700
15	62	3620

เมื่อเขานำข้อมูลดังกล่าวมาทำ Scatter plot เพื่อให้มองเห็นลักษณะความสัมพันธ์ดังกล่าว ได้ดังรูปต่อไปนี้ พบว่าระดับความสัมพันธ์ต่ำมาก โดยดูได้จากจุดตัดของ 2 ข้อมูล เรียงกันกระจัดกระจาย

จากตัวอย่างที่นำเสนอมาทั้งสามตัวอย่างนั้น พอจะสรุปใจความสำคัญของ Correlation และความแตกต่างระหว่าง Correlation analysis กับ Regression analysis ได้ดังนี้

1. Regression analysis จะว่าด้วยเรื่องความสัมพันธ์ ระหว่างตัวแปรอิสระ ที่เป็นเหตุ และตัวแปรตามซึ่งเป็นผลที่เกิดจากเหตุ หากตัวแปร 2 ตัวนั้น ในความเป็นจริงไม่มีความสัมพันธ์กันเชิงเหตุและผล (ดังตัวอย่างที่ 1 ) เราจะใช้ Regression Analysis ไม่ได้

2 . Regression Analysis เมื่อแรกเริ่มทำการเก็บข้อมูลตัวแปรตามหรือผล (Y) จะได้มาจากการวัด ซึ่งจะเกิด Variation หรือความคลาดเคลื่อนโดยธรรมชาติ แต่ค่าตัวแปรอิสระหรือเหตุ (X) อาจจะได้จากการวัดหรือกำหนดขึ้น หรือตั้งขึ้นมา แต่เราจะตั้งข้อกำหนด (Assumption) ว่าเป็นค่าที่กำหนดขึ้นมา ดังนั้นจึงไม่มี Variation เช่น

มีสมการความสัมพันธ์ ค่าเช่าต่อเดือน = -2487.47 + 214.52 x พื้นที่ห้อง

ถ้าเราอยากรู้ว่า ถ้าสร้างห้องพัก ขนาด 35 ตารางเมตร , 40 ตารางเมตร หรือ 50 ตารางเมตร ควรจะเก็บค่าที่พักเท่าใด จริงพื้นที่ห้องก็คงจะได้มาจากการวัดขนาด กว้าง x ยาว แต่ในที่นี้เราจะถือว่าเรารู้ค่าแล้ว และนำมาเป็นคำถามเพื่อหาค่าคำตอบ

จะเห็นว่า พื้นที่ห้องเป็นตัวแปรอิสระ (X) ที่เราจะกำหนดใส่ในสมการ ส่วนค่าเช่าต่อเดือนจะเป็นผล (Y) มาจากการที่เราใส่ค่า พื้นที่ห้องในสมการ แต่มันมี Variation ยังไง ท่านผู้อ่านคงยังจำเนื้อหา Regression ที่ผู้เขียนได้ยกตัวอย่าง ดังสมการนี้มาแล้ว ราคาค่าเช่าต่อเดือนนั้นได้มาจากการสำรวจมา ซึ่งเป็นค่าที่ไม่ได้ตั้งขึ้นมาเอง (เปรียบเหมือนการวัดมา) หากมองดีๆ จะพบว่าบางที่ พื้นที่ห้องเท่ากัน ค่าเช่าต่อเดือนก็จะต่างกันก็มี ซึ่งลักษณะนั้นเราเรียกว่ามี Variation

3. Correlation Analysis จะไม่สนใจว่าตัวแปรทั้งสอง จะเป็นเหตุและผลซึ่งกันและกันหรือไม่ หมายความว่าเป็นก็ได้ ไม่เป็นก็ได้ แต่ผลสรุปที่ได้จะจบลงตรงแค่ว่า มีความสัมพันธ์ (Correlation) กันหรือไม่ จะไม่มีการนำไปเขียนเป็นสมการความสัมพันธ์ หรือ Mathematics Model แล้วนำ Model ดังกล่าวไปประมาณค่าตัวแปร อีกค่าหนึ่ง (ดังตัวอย่างที่ 2 เรารู้แต่ระดับความสัมพันธ์ของหุ้นทั้งสองบริษัท)

4. Correlation Analysis ตัวแปรทังคู่จะเป็นค่าที่ได้จากการวัดมา นับมา (ดังตัวอย่างที่ 2 )ไม่มีค่าใดที่เกิดจากการตั้งขึ้น สมมติขึ้นเหมือนกับ Regression Analysis ดังนั้น แปรว่าตัวแปรทั้งหมดในการวิเคราะห์นั้น จะมี Variation เกิดขึ้นเสมอ และเช่นกัน ถ้ามีข้อมูลลักษณะเช่นนี้จะใช้ Regression Analysis ไม่ได้ เช่นเดียวกัน

Coefficient of Correlation ( r )

เราอยากจะอธิบายความสัมพันธ์ของตัวแปร 2 ตัว โดยใช้ค่าเชิงปริมาณ เพราะบางครั้งการดูแต่ Scatter plot เพียงอย่างเดียวก็อธิบายระดับความแตกต่างได้ไม่ละเอียดพอ Coefficient of correlation คือค่าที่ใช้บอกระดับความสัมพันธ์ และยังบอกด้วยว่าความสัมพันธ์ดังกล่าวเป็นชนิดใด

Coefficient of correlation รู้จักในอีกคำหนึ่งว่า Pearson's product moment ตามชื่อของ Karl Pearson ซึ่งเป็นผู้นิยาม Coefficient of correlation ขึ้นมา เป็นค่าที่ใช้บ่งบอกระดับความสัมพันธ์เชิงเส้นดังกล่าว โดยจะมีค่าอยู่ระหว่าง -1.0 ถึง +1.0 โดยที่ค่าที่อยู่ใกล้ -1.0 หรือ +1.0 ถือว่ามีความสัมพันธ์กันมากที่สุด ส่วน 0 หมายความว่า ตัวแปรทั้งสองไม่มีความสัมพันธ์กันแม้แต่น้อย ส่วนเครื่องหมาย + หรือ - บงบอกว่าความสัมพันธ์นั้น เป็นตามกันหรือตรงกันข้าม เช่น ตัวแปรหนึ่งเพิ่มค่าขึ้นอีกตัวแปรหนึ่งก็จะเพิ่มตาม แต่ถ้าลดก็จะลดตาม ลักษณะเช่นนี้ ค่า r จะเป็นบวก แต่ในกรณีที่ตัวแปรหนึ่งเพิ่มค่า แต่อีกตัวแปรจะลดค่าลง แต่ตัวแปรหนึ่งลดลงอีกตัวแปรจะเพิ่มขึ้น ลักษณะเช่นนี้ค่า r จะมีเครื่องหมาย -

เมื่อ คือค่าใดๆของแต่ละตัวแปร ที่เป็นคู่กัน

คือค่า เฉลี่ยของแต่ละตัวแปร

Karl Pearson (1857-1936)

รูป Scatter plot แสดงตัวอย่างความสัมพันธ์ระหว่าง 2 ตัวแปร ใน 3 ลักษณะ

ตัวอย่าง มีข้อมูลที่วัดมาจากแหล่งข้อมูล 2 แหล่ง ดังตารางต่อไปนี้ จงหาค่าความสัมพันธ์

Data	x	y
1	37.79	38.27
2	39.41	39.62
3	35.16	35.62
4	40.31	39.73
5	40.04	39.40
6	37.48	36.59
7	39.11	39.47
8	38.04	38.62
9	39.13	37.78
10	38.38	38.75
11	42.15	42.46
12	37.30	36.28
13	39.57	40.01
14	37.11	38.20

ผู้เขียนใช้ Excel sheet ช่วยในการคำนวณหาค่า r โดยจะได้ค่าต่างๆดังในตารางต่อไปนี้

	x			y
	37.79	-0.85	0.73	38.27	-0.35	0.13	0.30
	39.41	0.77	0.59	39.62	0.99	0.98	0.76
	35.16	-3.48	12.09	35.62	-3.00	9.03	10.45
	40.31	1.67	2.79	39.73	1.10	1.20	1.83
	40.04	1.40	1.96	39.40	0.77	0.59	1.08
	37.48	-1.16	1.36	36.59	-2.04	4.14	2.37
	39.11	0.47	0.22	39.47	0.84	0.70	0.40
	38.04	-0.60	0.36	38.62	-0.01	0.00	0.00
	39.13	0.49	0.24	37.78	-0.85	0.72	-0.41
	38.38	-0.26	0.07	38.75	0.12	0.01	-0.03
	42.15	3.51	12.32	42.46	3.83	14.65	13.43
	37.30	-1.34	1.81	36.28	-2.35	5.51	3.15
	39.57	0.93	0.86	40.01	1.38	1.91	1.28
	37.11	-1.53	2.34	38.20	-0.43	0.18	0.65
Average	38.640			38.628
Sum			37.73			39.76	35.27

ค่า r เป็นบวกแสดงว่าข้อมูลทั้งสองมี่ความสัมพันธ์แบบตามกัน คือค่าตัวแปรหนึ่งมากขึ้น อีกตัวแปรก็มากด้วย หากน้อยลง ก็น้อยลงเหมือนกัน และค่าที่คำนวณได้ 0.91 ซึ่งสูงมาก มีความหมายว่าข้อมูลทั้งสองมีระดับความสัมพันธ์กันสูงมากที่เดียว

เมื่อใช้ Analysis tool ของ Excel ในการวิเคราะห์ จะได้ผลดังนี้ ( โปรดดูวิธีการทำ )

	X	Y
X	1
Y	0.910563	1

ช่องตารางที่ตัดกันระหว่าง X , Y คือค่า r