Correlation Analysis

ในหัวข้อนี้ จะเป็นการศึกษาความสัมพันธ์ระหว่าง ตัวแปรอิสระสองตัว ในบางครั้งผู้ทำการวิเคราะห์จะรู้สึกว่า Correlation กับ Regression สามารถใช้ด้วยกันได้ และบางครั้งอาจจะมองความแตกต่าง ระหว่าง Correlation กับ Regression ไม่ออก  ผู้เขียนมีตัวอย่าง(สมมติขึ้นมา) ให้ท่านผู้อ่านลองพิจารณา

ตัวอย่าง 1  มีสูตินารีแพทย์คนหนึ่ง นอกจากจะมีอาชีพหลักคือทำคลอดให้กับคุณแม่และรักษาผู้ป่วยแล้ว ยังเป็นคนที่ชอบธรรมชาติ ชอบศึกษานกที่บึงที่อยู่ติดกับบ้านพักของเข และนกที่ชอบส่องดูคือนกเป็ดน้ำ แต่ละวันหมอท่านนี้จะจดบันทึกจำนวนนกที่พบ ไว้อย่างแม่นยำ  และเช่นเดียวกันงานที่ทำ หมอท่านนี้ก็จะมีการบันทึกจำนวนทารกที่เกิดในแต่ละวัน มาวันหนึ่งคุณหมอลองเอาตัวเลขจำนวนทารกที่เกิดในโรงพยาบาล กับจำนวนนกเป็ดน้ำที่พบแต่ละวัน มาลองเทียบกันดู ด้วยความตื่นเต้นเขาพบว่า มีความสัมพันธ์กันอย่างน่าประหลาด ดังตารางต่อไปนี้

 

วันที่ จำนวนนกเป็ดน้ำ (ตัว) จำนวนทารกที่เกิด (คน)
1 17 18
2 13 11
3 20 23
4 9 10
5 11 9
6 6 7
7 15 14
8 24 21
10 10 8
11 6 5
12 12 15
13 33 29
14 18 20
15 27 25

 เมื่อใช้เทคนิคของ Regression analysis เพื่อค้นหา Regression model เพื่อหวังจะนำเอา Model ดังกล่าวไปใช้วางแผนว่า แต่ละวันเขาต้องทำคลอดกี่ครั้ง แต่ละวันเขาจะมีงานต้องทำมากมายแค่ไหน

เริ่มจากการใช้ Scatter plot เพื่อแสดงความสัมพันธ์ดังกล่าวออกมาเป็นกราฟ ความสัมพันธ์

 

 เมื่อใช้ MS Excel ในการวิเคราะห์ จะได้ผลดังต่อไปนี้

SUMMARY OUTPUT          
           
Regression Statistics        
Multiple R 0.960249512        
R Square 0.922079125        
Adjusted R Square 0.915585719        
Standard Error 2.161053108        
Observations 14        
           
ANOVA          

df

SS MS F Significance F
Regression 1 663.1724793 663.1724793 142.0023774           0
Residual 12 56.04180645 4.670150538    
Total 13 719.2142857      
           
Coefficients Standard Error t Stat P-value  
Intercept 1.249806452 1.317226809 0.94881644 0.361431529  
จำนวนนกเป็ดน้ำ (ตัว) 0.893677419 0.074995115 11.91647504 5.22712E-08  

เมื่อนำข้อมูลมาตีความหมาย พบว่า R-Square ที่บ่งบอกนัยแห่งความสัมพันธ์ ก็สูงมาก Error ก็ต่ำ เมื่อดู ANOVA ก็พบว่า Regression มีนัยสำคัญความเป็น Linear relation ระหว่างจำนวนนกเป็ดน้ำกับจำนวนทารกที่เกิด แกก็ได้ Regression model ในท้ายที่สุดดังนี้

                                                 จำนวนทารกที่จะเกิด  = 1.25 + 0.89 * จำนวนนกเป็ดน้ำ

ที่จริงหากเราดูผลการวิเคราะห์ ทุกอย่างดูดีและถูกต้องหมด Regression Model นี้น่าจะเป็น Model ที่ถูกต้องและใช้ได้  แต่จริงๆแล้วที่ผ่านมาทั้งหมด การวิเคราะห์ไม่ผิด แต่ผิดตรงที่มาแห่งความสัมพันธ์ และชนิดของตัวแปรที่จะนำมาวิเคราะห์ โดยตรรกะ โดยเหตุและผล และโดยความเป็นจริงทางวิทยาศาสตร์ ปริมาณนกจะไม่เป็นเหตุแก่จำนวนทารกที่เกิดในแต่ละวัน โดยเด็ดขาด แต่สิ่งที่คุณหมอท่านนี้ค้นพบเป็นเพียงเหตุบังเอิญ ซึ่งทางสถิติไม่สามารถนำมาอธิบายความสัมพันธ์เชิงเหตุและผลได้เลย

ตัวอย่างที่ 2 นักลงทุนท่านหนึ่งได้นำข้อมูลการเปลี่ยนแปลงของราคาหุ้น ของ 2 บริษัท ที่มีการซื้อขายในตลาดหลักทรัพย์มาทดลองเปรียบเทียบเพื่อหาความสัมพันธ์กัน โดยมีข้อมูลดังในตารางนี้

 

วันที่ ราคาหุ้น บริษัท A (บาท) ราคาหุ้น บริษัท B (บาท)
1 117 18
2 113 15
3 120 23
4 109 10
5 111 16
6 116 17
7 105 14
8 94 21
10 90 8
11 96 15
12 112 15
13 123 19
14 118 20
15 127 25

 

 เมื่อเขานำข้อมูลดังกล่าวมาทำ Scatter plot เพื่อให้มองเห็นลักษณะความสัมพันธ์ดังกล่าว ได้ดังรูปต่อไปนี้  โดยพบว่าระดับความสัมพันธ์สูงที่เดียว โดยดูจากการเรียงตัวของจุดเป็นแนวอย่างดีทีเดียว

 ตัวอย่างที่ 3 นักวิจัยท่านหนึ่งทำการศึกษาเพื่อหาข้อสรุปว่า น้ำหนักมารดาก่อนตั้งครรภ์กับน้ำหนักทารกแรกคลอดมีความสัมพันธ์กันอย่างไร เขาจึงค้นหาข้อมูลจากแฟ้มประวัติการตรวจสุขภาพ ของมารดาและบุตรแรกคลอด แล้วนำมาศึกษา ดังตารางต่อไปนี้

ตัวอย่างที่ น้ำหนักมารดา(กก.) น้ำหนักบุตรแรกคลอด (กรัม)
1 53 3405
2 48.8 3100
3 65.3 2880
4 71 4000
5 66.2 3200
6 50.5 3240
7 75.3 3080
8 80.1 2980
10 49.5 3010
11 58.4 3580
12 60.8 4020
13 58.7 4010
14 59.3 3700
15 62 3620

เมื่อเขานำข้อมูลดังกล่าวมาทำ Scatter plot เพื่อให้มองเห็นลักษณะความสัมพันธ์ดังกล่าว ได้ดังรูปต่อไปนี้  พบว่าระดับความสัมพันธ์ต่ำมาก โดยดูได้จากจุดตัดของ 2 ข้อมูล เรียงกันกระจัดกระจาย

จากตัวอย่างที่นำเสนอมาทั้งสามตัวอย่างนั้น พอจะสรุปใจความสำคัญของ Correlation และความแตกต่างระหว่าง Correlation analysis กับ Regression analysis  ได้ดังนี้

1. Regression analysis จะว่าด้วยเรื่องความสัมพันธ์ ระหว่างตัวแปรอิสระ ที่เป็นเหตุ และตัวแปรตามซึ่งเป็นผลที่เกิดจากเหตุ หากตัวแปร 2 ตัวนั้น ในความเป็นจริงไม่มีความสัมพันธ์กันเชิงเหตุและผล (ดังตัวอย่างที่ 1 ) เราจะใช้ Regression Analysis ไม่ได้ 

2 . Regression Analysis เมื่อแรกเริ่มทำการเก็บข้อมูลตัวแปรตามหรือผล (Y) จะได้มาจากการวัด ซึ่งจะเกิด Variation หรือความคลาดเคลื่อนโดยธรรมชาติ แต่ค่าตัวแปรอิสระหรือเหตุ (X) อาจจะได้จากการวัดหรือกำหนดขึ้น หรือตั้งขึ้นมา แต่เราจะตั้งข้อกำหนด (Assumption) ว่าเป็นค่าที่กำหนดขึ้นมา ดังนั้นจึงไม่มี Variation เช่น

            มีสมการความสัมพันธ์      ค่าเช่าต่อเดือน = -2487.47 + 214.52 x พื้นที่ห้อง

ถ้าเราอยากรู้ว่า ถ้าสร้างห้องพัก ขนาด 35 ตารางเมตร , 40 ตารางเมตร หรือ 50 ตารางเมตร ควรจะเก็บค่าที่พักเท่าใด จริงพื้นที่ห้องก็คงจะได้มาจากการวัดขนาด กว้าง x ยาว แต่ในที่นี้เราจะถือว่าเรารู้ค่าแล้ว และนำมาเป็นคำถามเพื่อหาค่าคำตอบ 

           จะเห็นว่า พื้นที่ห้องเป็นตัวแปรอิสระ (X) ที่เราจะกำหนดใส่ในสมการ ส่วนค่าเช่าต่อเดือนจะเป็นผล (Y) มาจากการที่เราใส่ค่า พื้นที่ห้องในสมการ แต่มันมี Variation ยังไง ท่านผู้อ่านคงยังจำเนื้อหา Regression ที่ผู้เขียนได้ยกตัวอย่าง ดังสมการนี้มาแล้ว ราคาค่าเช่าต่อเดือนนั้นได้มาจากการสำรวจมา ซึ่งเป็นค่าที่ไม่ได้ตั้งขึ้นมาเอง (เปรียบเหมือนการวัดมา) หากมองดีๆ จะพบว่าบางที่ พื้นที่ห้องเท่ากัน ค่าเช่าต่อเดือนก็จะต่างกันก็มี ซึ่งลักษณะนั้นเราเรียกว่ามี Variation

3. Correlation Analysis จะไม่สนใจว่าตัวแปรทั้งสอง จะเป็นเหตุและผลซึ่งกันและกันหรือไม่ หมายความว่าเป็นก็ได้ ไม่เป็นก็ได้ แต่ผลสรุปที่ได้จะจบลงตรงแค่ว่า มีความสัมพันธ์ (Correlation) กันหรือไม่ จะไม่มีการนำไปเขียนเป็นสมการความสัมพันธ์ หรือ Mathematics Model แล้วนำ Model ดังกล่าวไปประมาณค่าตัวแปร อีกค่าหนึ่ง (ดังตัวอย่างที่ 2 เรารู้แต่ระดับความสัมพันธ์ของหุ้นทั้งสองบริษัท)

4. Correlation Analysis ตัวแปรทังคู่จะเป็นค่าที่ได้จากการวัดมา นับมา (ดังตัวอย่างที่ 2 )ไม่มีค่าใดที่เกิดจากการตั้งขึ้น สมมติขึ้นเหมือนกับ Regression Analysis ดังนั้น แปรว่าตัวแปรทั้งหมดในการวิเคราะห์นั้น จะมี Variation เกิดขึ้นเสมอ และเช่นกัน ถ้ามีข้อมูลลักษณะเช่นนี้จะใช้ Regression Analysis ไม่ได้ เช่นเดียวกัน

Coefficient of Correlation ( r )

เราอยากจะอธิบายความสัมพันธ์ของตัวแปร 2 ตัว โดยใช้ค่าเชิงปริมาณ เพราะบางครั้งการดูแต่ Scatter plot เพียงอย่างเดียวก็อธิบายระดับความแตกต่างได้ไม่ละเอียดพอ Coefficient of correlation คือค่าที่ใช้บอกระดับความสัมพันธ์ และยังบอกด้วยว่าความสัมพันธ์ดังกล่าวเป็นชนิดใด

 Coefficient of correlation รู้จักในอีกคำหนึ่งว่า Pearson's product moment ตามชื่อของ Karl Pearson ซึ่งเป็นผู้นิยาม Coefficient of correlation ขึ้นมา เป็นค่าที่ใช้บ่งบอกระดับความสัมพันธ์เชิงเส้นดังกล่าว  โดยจะมีค่าอยู่ระหว่าง -1.0  ถึง +1.0  โดยที่ค่าที่อยู่ใกล้ -1.0 หรือ +1.0 ถือว่ามีความสัมพันธ์กันมากที่สุด ส่วน 0 หมายความว่า ตัวแปรทั้งสองไม่มีความสัมพันธ์กันแม้แต่น้อย ส่วนเครื่องหมาย + หรือ - บงบอกว่าความสัมพันธ์นั้น เป็นตามกันหรือตรงกันข้าม เช่น ตัวแปรหนึ่งเพิ่มค่าขึ้นอีกตัวแปรหนึ่งก็จะเพิ่มตาม แต่ถ้าลดก็จะลดตาม ลักษณะเช่นนี้ ค่า r จะเป็นบวก  แต่ในกรณีที่ตัวแปรหนึ่งเพิ่มค่า แต่อีกตัวแปรจะลดค่าลง แต่ตัวแปรหนึ่งลดลงอีกตัวแปรจะเพิ่มขึ้น ลักษณะเช่นนี้ค่า r จะมีเครื่องหมาย -

      เมื่อ  คือค่าใดๆของแต่ละตัวแปร ที่เป็นคู่กัน

          คือค่า เฉลี่ยของแต่ละตัวแปร

Karl Pearson (1857-1936)

รูป  Scatter plot แสดงตัวอย่างความสัมพันธ์ระหว่าง 2 ตัวแปร ใน 3 ลักษณะ

ตัวอย่าง  มีข้อมูลที่วัดมาจากแหล่งข้อมูล 2 แหล่ง ดังตารางต่อไปนี้ จงหาค่าความสัมพันธ์

Data x y
1 37.79 38.27
2 39.41 39.62
3 35.16 35.62
4 40.31 39.73
5 40.04 39.40
6 37.48 36.59
7 39.11 39.47
8 38.04 38.62
9 39.13 37.78
10 38.38 38.75
11 42.15 42.46
12 37.30 36.28
13 39.57 40.01
14 37.11 38.20

  ผู้เขียนใช้ Excel sheet ช่วยในการคำนวณหาค่า  r  โดยจะได้ค่าต่างๆดังในตารางต่อไปนี้

  x

y  

37.79 -0.85 0.73 38.27 -0.35 0.13 0.30
  39.41 0.77 0.59 39.62 0.99 0.98 0.76
  35.16 -3.48 12.09 35.62 -3.00 9.03 10.45
  40.31 1.67 2.79 39.73 1.10 1.20 1.83
  40.04 1.40 1.96 39.40 0.77 0.59 1.08
  37.48 -1.16 1.36 36.59 -2.04 4.14 2.37
  39.11 0.47 0.22 39.47 0.84 0.70 0.40
  38.04 -0.60 0.36 38.62 -0.01 0.00 0.00
  39.13 0.49 0.24 37.78 -0.85 0.72 -0.41
  38.38 -0.26 0.07 38.75 0.12 0.01 -0.03
  42.15 3.51 12.32 42.46 3.83 14.65 13.43
  37.30 -1.34 1.81 36.28 -2.35 5.51 3.15
  39.57 0.93 0.86 40.01 1.38 1.91 1.28
  37.11 -1.53 2.34 38.20 -0.43 0.18 0.65
Average 38.640     38.628      
Sum     37.73     39.76 35.27

 

         ค่า  r  เป็นบวกแสดงว่าข้อมูลทั้งสองมี่ความสัมพันธ์แบบตามกัน คือค่าตัวแปรหนึ่งมากขึ้น อีกตัวแปรก็มากด้วย หากน้อยลง ก็น้อยลงเหมือนกัน และค่าที่คำนวณได้ 0.91 ซึ่งสูงมาก มีความหมายว่าข้อมูลทั้งสองมีระดับความสัมพันธ์กันสูงมากที่เดียว

          เมื่อใช้ Analysis tool ของ Excel ในการวิเคราะห์ จะได้ผลดังนี้   ( โปรดดูวิธีการทำ )

X

Y
X 1  
Y 0.910563          1

           ช่องตารางที่ตัดกันระหว่าง X , Y คือค่า   r


[ HOME ]             [ CONTENTS ]   

                                            

Hosted by www.Geocities.ws

1