Collinearity

 คือสภาพที่เกิดสหสัมพันธ์ ( Correlation) กันเองระหว่างตัวแปรอิสระในระดับค่อนข้างสูง เมื่อทำการวิเคราะห์ Multiple linear regressions  เพื่อให้ท่านผู้อ่านเห็นภาพ ผู้เขียนขอยกตัวอย่างการเก็บข้อมูลเพื่อทำการศึกษาในเรื่องอัตราการเสียชีวิตของทารกตั้งแต่แรกเกิดไปถึงระยะเวลา 3 สัปดาห์หลังคลอด โดยมีการระบุตัวแปรอิสระใน Regression model ดังต่อไปนี้

 อัตราการเสียชีวิตหลังคลอดของทารก ขึ้นอยู่กับระยะเวลาตั้งครรภ์ (สัปดาห์) และ น้ำหนักทารกแรกเกิด(กก.)

 ท่านลองสังเกตดูดีๆจะพบว่าในความเป็นจริงแล้ว ระยะเวลาที่อยู่ในครรภ์มารดาก่อนคลอดของทารกที่สั้นเกินไป นอกจากจะเป็นสาเหตุที่ทำให้อัตราการเสียชีวิตหลังคลอดสูงแล้ว ยังเป็นสาเหตุที่ทำให้ทารกแรกเกิดมีน้ำหนักน้อยกว่ามาตรฐานอีกด้วย  ครั้นผู้ทำการวิจัยจะสรุปว่าน้ำหนักของทารกเป็นหนึ่งในสาเหตุของการเสียชีวิตของทารกหลังคลอดก็สรุปไม่ได้เต็มปากนัก เพราะระยะเวลาที่ทารกอยู่ในครรภ์ก็เป็นเหตุให้น้ำหนักทารกต่ำกว่าเกณฑ์มาตรฐานด้วย ครั้นจะเลือกเอาตัวแปร ระยะเวลาที่ทารกอยู่ในครรภ์ เป็นตัวแปรอิสระเพียงตัวเดียว ในความเป็นจริงก็จะมีกรณีที่อายุครรภ์ได้ตามเกณฑ์มาตรฐาน แต่น้ำหนักทารกไม่ได้มาตรฐานก็มี หรืออายุครรภ์น้อยกว่าเกณฑ์มาตรฐานแต่น้ำหนักได้มาตรฐานก็มีเช่นกัน ถ้าสมมติผู้ทำการวิจัยเลือกใช้ Model ที่มีตัวแปรอิสระสองตัวอย่างที่ว่านี้ ก็จะเกิดสภาพที่เรียกว่ามีสหสัมพันธ์กัน ระหว่างตัวแปร ระยะเวลาตั้งครรภ์ (สัปดาห์) และ น้ำหนักทารกแรกเกิด (กก.)  ค่อนข้างสูง ที่เราเรียกว่า Collinearity

           หรืออีกตัวอย่างหนึ่ง เรารู้ว่าอัตราสิ้นเปลืองน้ำมันของรถยนต์ขึ้นอยู่กับตัวแปรอิสระหลายตัวคือ ขนาดของเครื่องยนต์ ความเร็วที่ใช้ขับขี่ น้ำหนักบรรทุกและสัมประสิทธ์ความเสียดทานระหว่างยางล้อรถกับผิวถนน (เป็นต้น) เราพบว่ายิ่งน้ำหนักบรรทุกมากขึ้นเท่าใด ค่าสัมประสิทธ์ความเสียดทานระหว่างยางล้อรถกับผิวถนนก็จะมากขึ้น   ลักษณะเช่นนี้คือการมีสหสัมพันธ์ระหว่างตัวแปรน้ำหนักบรรทุกและสัมประสิทธ์ความเสียดทานระหว่างยางล้อรถกับผิวถนน แล้วยังไปเกิดสหสัมพันธ์กับความเร็วรถยนต์อีกด้วย วนเวียนกันหลายความสัมพันธ์ ลักษณะเช่นนี้จะเรียกว่า Multicollinearity คือมีสหสัมพันธ์กันเองระหว่างตัวแปรอิสระมากกว่า 2 ตัวขึ้นไป นั่นเอง

 Collinearity หรือ Multicollinearity ถึงแม้จะไม่ได้ทำให้ Model นั้นใช้ Predict ตัวแปรตามไม่ได้เลยก็ตาม แต่ปัญหาจะเกิดที่การจะควบคุมตัวแปรอิสระให้เป็นไปตาม Model จะไม่ใช่เรื่องงายอีกต่อไป ลักษณะเช่นนี้เราเรียกว่ามีปัญหา Reliability ของ Model คือลักษณะที่ใช้พยากรณ์แล้วจะได้ค่าตัวแปรตาม ไม่เหมือนเดิมตลอดเวลา ขึ้นอยู่กับสภาวะของตัวแปรอิสระที่มีสหสัมพันธ์กันด้วย เพราะนอกจากตัวแปรตามจะเปลี่ยนแปลงตามตัวแปรอิสระที่เปลี่ยนไปแล้ว ตัวแปรอิสระบางตัวยังเปลี่ยนแปลงโดยขึ้นอยู่กับตัวแปรอิสระตัวอื่นๆ อีกขั้น เลยเกิดความไม่มีเสถียรภาพของ Model ในต่างเวลากัน 

ตัวอย่าง ถ้ามีข้อมูลดังในตารางและจะวิเคราะห์โดยใช้ Multiple regression ให้พิจารณา Multicollinearity

Y X1 X2 X3 X4
125 13 18 25 11
158 39 18 39 30
207 52 50 62 43
182 42 43 50 29
196 50 37 65 46
175 44 29 59 32
145 11 27 24 14
144 22 23 31 17
160 30 18 34 22
175 51 31 58 30
151 27 25 29 21
161 41 22 53 22
200 51 52 75 36
173 37 36 44 27
175 43 38 37 20
162 43 28 45 16
155 38 19 40 18
230 62 56 75 50
162 28 30 36 20
153 30 25 41 23

ตารางที่ 1 ข้อมูลที่บันทึกไว้ก่อนทำการวิเคราะห์

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.987
R Square 0.974
Adjusted R Square 0.968
Standard Error 4.420
Observations 20
ANOVA
  df SS MS F Significance F
Regression 4 11127.940 2781.985 142.418 0.000
Residual 15 293.010 19.534
Total 19 11420.950      
  Coefficients Standard Error t Stat P-value
Intercept 99.513 3.313 30.037 0.0000
X Variable 1 0.677 0.183 3.706 0.0021
X Variable 2 0.925 0.138 6.722 0.0000
X Variable 3 -0.147 0.188 -0.781 0.4471
X Variable 4 0.845 0.202 4.192 0.0008

ตารางที่ 2 ผลการวิเคราะห์ Multiple regression โดยโปรแกรม Excel

จะรู้ได้อย่างไรว่าเกิด Collinearity หรือ Multicollinearity ขึ้นแล้วเมื่อเราทำการวิเคราะห์ข้อมูลโดย Multiple regression

วิธีที่ 1 ง่ายที่สุดคือดูจากค่า F- Significane ของ Model (Regression) จากตาราง ANOVA และค่าทดสอบทางสถิติของสัมประสิทธิ์ตัวแปรอิสระแต่ละตัว โดยที่หาก F-Significane น้อยกว่า a (0.05) แปลว่า Regression model ดังกล่าวมีค่านัยสำคัญ แต่ถ้าค่าทดสอบทางสถิติของสัมประสิทธิ์ตัวแปรอิสระทั้งหมด หรือบางตัวไม่มีนัยสำคัญ (P-Value มากกว่า a ) แปลว่ามีโอกาสเกิด Collinearity ระหว่างตัวแปรอิสระอย่างมากทีเดียว จากตารางที่ 2 เมื่อวิเคราะห์ Multiple linear regression โดยโปรแกรม Excel ตามขั้นตอนปกติ จะพบว่าค่า F-Significance บ่งบอกว่า Regression model มีนัยสำคัญ แต่เมื่อดู P-Value ของ X3 บ่งบอกว่า X3 ไม่มีนัยสำคัญต่อ Regression model เลยหรือบอกว่า ไม่จำเป็นต้องมี X3 เลยก็ได้  ลักษณะเช่นนี้คือมีโอกาสเกิด Collinearity สูงมาก

จริงหรือที่ไม่จำเป็นต้องมี X3 ใน Model ที่ได้

วิธีที่ 2 ใช้ Scatter plot ระหว่างตัวแปรอิสระทุกกคู่ จากรูปที่ 1 จะพบว่า คู่ X3,X4 คู่ X1,X3 และคู่ X1,X4 มีความสัมพันธ์กันอย่างมากทีเดียว ในขณะที่คู่อื่นๆที่เหลือก็่มีความสัมพันธ์เชิงเส้นต่อกันเองพอสมควรทีเดียว โดยดูจากแนวการเรียงตัวของจุด กราฟที่ได้บ่งบอกว่าเกิด Multicollinearity ขึ้นแล้ว

 

รูปที่ 1 ตัวอย่าง Scatter plot ระหว่างตัวแปรอิสระ 6 คู่

วิธีที่ 3 ทดสอบหาค่าสหสัมพันธ์ระหว่างตัวแปรอิสระแต่ละตัวกับตัวแปรตามและกับตัวแปรอิสระตัวอื่นๆ 

  Y X1 X2 X3
X1 0.887      
X2 0.896 0.687    
X3 0.892 0.905 0.754  
X4 0.916 0.819 0.744 0.871

ตารางที่ 3 Matrix ค่าสหสัมพันธ์ของทั้งตัวแปรตามและตัวแปรอิสระ

เมื่อใช้โปรแกรมคอมพิวเตอร์ วิเคราะห์จะได้ค่าสหสัมพันธ์ ( Pearson correlation : r ) ดังตารางที่ 3 ตัวแปรอิสระทุกตัวมีความสัมพันธ์กับตัวแปรตาม โดยดูได้จากที่ค่าต่ำที่สุดก็ 0.887  (Y กับ X1) แล้ว ในขณะที่ ค่าสหสัมพันธ์ระหว่างคู่ตัวแปรอิสระเองก็ มีค่ามากตั้งแต่ 0.687 (X1 กับ X2) ขึ้นไปเลยทีเดียว ซึ่งถือว่าสูงมาก ยืนยันได้ว่าเกิด Multicollinearity ใน Regression model นี้ ทั้งๆที่จากตารางที่ 1 เราพบว่า X3 ไม่มีนัยสำคัญ แต่ค่าจากตารางที่ 3 บ่งบอกว่า X3 มีความสัมพันธ์กับ Y ในระดับที่สูงมาก 

ค่าเท่าใดถึงจะถือว่ามี Collinearity โดยทั่วไปเราจะเปรียบเทียบค่าสหสัมพันธ์ระหว่าง X นั้นๆ กับ Y ถ้าน้อยกว่าเมื่อเทียบกับค่าสหสัมพันธ์กับ X ตัวอื่นๆ แสดงว่ามีโอกาสเกิด Collinearity สูง

วิธีที่ 4 วัดระดับ Multicollinearity ด้วยค่า  Variance Inflation Factor ( VIF )

เริ่มต้นเราพิจารณาค่า Variance ของค่าสัมประสิทธิ์แต่ละตัวแปรอิสระตามสมการ

เราจะเปลี่ยนการหา Regression model ใหม่ โดยแยกค่า Y ออกไป แล้วเปลี่ยน X หนึ่งตัวให้เป็น Y แทนชั่วคราว แล้วทำการวิเคราะห์หา Regression model ระหว่าง X ที่เปลี่ยนมามีฐานะเป็น Y ชั่วคราว กับ X อื่นๆที่เหลือ แล้วนำค่า R2 (un-adjusted) ที่ได้มาคำนวณหาค่า Variance ของค่าสัมประสิทธ์ แล้วก็เปลี่ยน X ตัวอื่นๆมาเป็น Y ชั่วคราวแทนบ้าง หาค่า Un-adjusted R2 ของแต่ละ X และคำนวณหาค่า Variance ของค่าสัมประสิทธ์ จนครบทุก X 

ถ้าสมมติว่าไม่มีความสัมพันธ์กันเลยระหว่าง X ที่ถูกเปลี่ยนมาเป็น Y ชั่วคราว กับ X ที่เหลืออื่นๆ ค่า Un-adjusted R2 จะเท่ากับ 0 นั่นคือจะเหลือ

แสดงว่าค่า Variance ของค่าสัมประสิทธ์ตัวนั้นๆจะเพิ่มมากขึ้น (เฟ้อ) กว่าที่เป็นอยู่นี้หรือไม่ ขึ้นอยู่กับระดับความสัมพันธ์ของ X ตัวนั้น(ที่เปลี่ยนมามีฐานะเป็น Y ชั่วคราว) กับ X อื่นๆที่เหลือ จะมากน้อยเพียงใด เราเลยเรียกเทอมนี้ว่า ตัวชี้วัดความเฟ้อ ของ Variance ของค่าสัมประสิทธ์ หรือ Variance Inflation Factor (VIF) มีสมการดังนี้

จากตารางที่ 1 เมื่อเราให้ X1 มีฐานะเป็นตัวแปรตาม และ X2,X3 และ X4 เป็นตัวแปรอิสระ เมื่อวิเคราะห์ด้วยวิธี Multiple linear regression จะได้ดังต่อไปนี้

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.908
R Square 0.824
Adjusted R Square 0.791
Standard Error 6.050
Observations 20
ANOVA
  df SS MS F Significance F
Regression 3 2738.591 912.864 24.941 0.000
Residual 16 585.609 36.601    
Total 19 3324.200      
  Coefficients Standard Error t Stat P-value
Intercept 2.376 4.496 0.529 0.604
X2 -0.017 0.188 -0.091 0.928
X3 0.685 0.192 3.559 0.003
X4 0.163 0.273 0.599 0.558

ตารางที่ 4 ผลการวิเคราะห์ Multiple regression โดยโปรแกรม Excel เมื่อ X1 เป็นตัวแปรตาม

จากตารางที่ 4 จะได้

เมื่อดูค่า F-Significance และค่า P-Value ของ X2 และ X4 จะพบว่า Model ที่เกิดขึ้นใหม่นี้ยังเกิด Multicollinearity อยู่และ X3 กลายเป็นตัวแปรอิสระที่มีค่านัยสำคัญ ทั้งๆที่ครั้งแรกไม่เป็นเช่นนี้ 

หากทำการวิเคราะห์ Multiple linear regression เมื่อเปลี่ยน X2,X3และ X4 ไปเป็นตัวแปรตาม แล้วคำนวณหาค่า Variance Inflation Factor จะได้ค่าดังตารางต่อไปนี้

ตัวแปรอิสระ

VIF
X1 5.68
X2 2.50
X3 8.25
X4 4.55

ตารางที่ 5 ค่า VIF ของแต่ละตัวแปรอิสระ 

 VIF เท่าไหร่ ถึงจะถือว่า Multicollinearity ใน Model นั้นจะเกิดปัญหา

เป็นเรื่องจริงที่ว่า ไม่มีการระบุว่า VIF เท่าใด Multicollinearity จะสร้างปัญหาให้กับการนำ Regression model ที่ได้เมื่อนำไปใช้พยากรณ์ค่าตัวแปรตาม แม้แต่จะสรุปว่าเมื่อเกิด Multicollinearity แล้ว จะแก้ปัญหาอย่างไร จะเกิดความผิดพลาดอะไรบ้าง จะยังสามารถใช้ Model นั้นได้อยู่หรือไม่ ก็ไม่มีตำราที่ไหนเขียนหรือระบุเจาะจงไว้ คงต้องปล่อยให้ผู้ทำการวิเคราะห์ข้อมูลใช้วิจารณญาณส่วนตัวในการจะแก้ปัญหาหรือดำเนินการอย่างหนึ่งอย่างใดต่อไป ถึงแม้ว่าบางตำราจะบอกว่า VIF ตั้งแต่ 10 ขึ้นไป ถือว่า Multicollinearity อาจจะสร้างปัญหาต่อ Regression model ที่ได้ แต่อย่างไรก็ตาม แม้ต่ำกว่า 10 ก็ยังถือว่า สร้างปัญหาได้เช่นกัน

 จะทำอย่างไรเมื่อต้องเผชิญกับปัญหา Collinearity  หรือ Multicollinearity

วิธีที่ 1 ตัดตัวแปรที่มี Collinearity หรือ Multicollinearity ออกจากการวิเคราะห์หา Regression model จากตัวอย่างที่ผ่านมา พบว่า X3 เป็นตัวแปรที่สมควรตัดออกมากที่สุด ด้วยเหตุผลคือ

                  - ค่า VIF สูงที่สุด (8.25)

                  - ค่าสหสัมพันธ์ของ X3 กับ X1 สูงกว่า ค่าสหสัมพันธ์ X3 กับ Y

                  - เมื่อวิเคราะห์ด้วย Multiple linear regression พบว่า ค่า P-Value ของสัมประสิทธิ์ของ X3 มากกว่า a แสดงว่า

                      X3 เป็นตัวแปรที่ควรตัดออกจาก Regression model 

วิธีที่ 2 รวมตัวแปรที่มี Collinearity กันให้เป็นตัวแปรใหม่ที่ยังให้ความสัมพันธ์กับตัวแปรตามอยู่ เช่นตัวอย่างต่อไปนี้

               - ส่วนสูงและน้ำหนัก เป็นตัวแปรอิสระที่มี Correlation กันค่อนข้างมาก เราอาจจะเปลี่ยนไปใช้ตัวแปรใหม่คือ ้ดัชนีมวลกาย แทน ก็จะตัดปัญหา Collinearity ได้

               - ความสูงกับความกว้างของสิ่งของที่เรากำลังศึกษา ถ้ามี Correlation กันค่อนข้างมาก เราอาจจะเปลี่ยนไปใช้ตัวแปรปริมาตร แทน

 แต่ก็ไม่ใช่ทุกตัวแปรจะรวมกันได้ อย่างเช่น ระยะเวลาที่อยู่ในครรภ์มารดา (สัปดาห์) และ น้ำหนักทารกแรกเกิด(กก.) ถึงแม้จะมี Correlation กันมาก แต่หากตัดตัวแปรใดตัวแปรหนึ่งออก อาจจะทำให้ Regression model ที่ได้ผิดพลาดมากกว่าที่มีสองตัวแปรนี้อยู่ก็เป็นได้ 

วิธีที่ 3 ใช้วิธีวิเคราะห์ข้อมูลแบบอื่นที่ไม่สนใจ Collinearity หรือ Multicollinearity เลย เช่น Ridge regression แต่ก็เจอกับความยุ่งยากในการวิเคราะห์มากขึ้นไปอีก เพราะใช้คณิตศาสตร์ค่อนข้างมาก

วิธีที่ 4 ยอมรับว่าต้องมี Collinearity หรือ Multicollinearity แน่ๆ เพราะบางครั้งเราก็ไม่มีทางเลือกที่ดีกว่านี้ ในทางปฏิบัติการที่ Regression model มี Collinearity หรือ Multicollinearity แต่ก็ยังสามารถใช้ในการพยากรณ์ตัวแปรตามได้อยู่ เพียงแต่ผู้ใช้ต้องตรวจสอบความถูกต้อง เพิ่มการวิเคราะห์ข้อมูลมากขึ้น

 


[ HOME ]             [ CONTENTS ]    

Hosted by www.Geocities.ws

1