Collinearity คือสภาพที่เกิดสหสัมพันธ์ ( Correlation) กันเองระหว่างตัวแปรอิสระในระดับค่อนข้างสูง เมื่อทำการวิเคราะห์ Multiple linear regressions เพื่อให้ท่านผู้อ่านเห็นภาพ ผู้เขียนขอยกตัวอย่างการเก็บข้อมูลเพื่อทำการศึกษาในเรื่องอัตราการเสียชีวิตของทารกตั้งแต่แรกเกิดไปถึงระยะเวลา 3 สัปดาห์หลังคลอด โดยมีการระบุตัวแปรอิสระใน Regression model ดังต่อไปนี้ อัตราการเสียชีวิตหลังคลอดของทารก ขึ้นอยู่กับระยะเวลาตั้งครรภ์ (สัปดาห์) และ น้ำหนักทารกแรกเกิด(กก.) ท่านลองสังเกตดูดีๆจะพบว่าในความเป็นจริงแล้ว
ระยะเวลาที่อยู่ในครรภ์มารดาก่อนคลอดของทารกที่สั้นเกินไป
นอกจากจะเป็นสาเหตุที่ทำให้อัตราการเสียชีวิตหลังคลอดสูงแล้ว
ยังเป็นสาเหตุที่ทำให้ทารกแรกเกิดมีน้ำหนักน้อยกว่ามาตรฐานอีกด้วย หรืออีกตัวอย่างหนึ่ง เรารู้ว่าอัตราสิ้นเปลืองน้ำมันของรถยนต์ขึ้นอยู่กับตัวแปรอิสระหลายตัวคือ ขนาดของเครื่องยนต์ ความเร็วที่ใช้ขับขี่ น้ำหนักบรรทุกและสัมประสิทธ์ความเสียดทานระหว่างยางล้อรถกับผิวถนน (เป็นต้น) เราพบว่ายิ่งน้ำหนักบรรทุกมากขึ้นเท่าใด ค่าสัมประสิทธ์ความเสียดทานระหว่างยางล้อรถกับผิวถนนก็จะมากขึ้น ลักษณะเช่นนี้คือการมีสหสัมพันธ์ระหว่างตัวแปรน้ำหนักบรรทุกและสัมประสิทธ์ความเสียดทานระหว่างยางล้อรถกับผิวถนน แล้วยังไปเกิดสหสัมพันธ์กับความเร็วรถยนต์อีกด้วย วนเวียนกันหลายความสัมพันธ์ ลักษณะเช่นนี้จะเรียกว่า Multicollinearity คือมีสหสัมพันธ์กันเองระหว่างตัวแปรอิสระมากกว่า 2 ตัวขึ้นไป นั่นเอง Collinearity หรือ
Multicollinearity
ถึงแม้จะไม่ได้ทำให้ Model นั้นใช้
Predict ตัวแปรตามไม่ได้เลยก็ตาม
แต่ปัญหาจะเกิดที่การจะควบคุมตัวแปรอิสระให้เป็นไปตาม
Model จะไม่ใช่เรื่องงายอีกต่อไป
ลักษณะเช่นนี้เราเรียกว่ามีปัญหา
Reliability ของ Model
คือลักษณะที่ใช้พยากรณ์แล้วจะได้ค่าตัวแปรตาม
ไม่เหมือนเดิมตลอดเวลา
ขึ้นอยู่กับสภาวะของตัวแปรอิสระที่มีสหสัมพันธ์กันด้วย
เพราะนอกจากตัวแปรตามจะเปลี่ยนแปลงตามตัวแปรอิสระที่เปลี่ยนไปแล้ว
ตัวแปรอิสระบางตัวยังเปลี่ยนแปลงโดยขึ้นอยู่กับตัวแปรอิสระตัวอื่นๆ
อีกขั้น
เลยเกิดความไม่มีเสถียรภาพของ
Model ในต่างเวลากัน ตัวอย่าง ถ้ามีข้อมูลดังในตารางและจะวิเคราะห์โดยใช้ Multiple regression ให้พิจารณา Multicollinearity
ตารางที่ 1 ข้อมูลที่บันทึกไว้ก่อนทำการวิเคราะห์
ตารางที่ 2 ผลการวิเคราะห์ Multiple regression โดยโปรแกรม Excel จะรู้ได้อย่างไรว่าเกิด Collinearity หรือ Multicollinearity ขึ้นแล้วเมื่อเราทำการวิเคราะห์ข้อมูลโดย Multiple regression วิธีที่ 1 ง่ายที่สุดคือดูจากค่า F- Significane ของ Model (Regression) จากตาราง ANOVA และค่าทดสอบทางสถิติของสัมประสิทธิ์ตัวแปรอิสระแต่ละตัว โดยที่หาก F-Significane น้อยกว่า a (0.05) แปลว่า Regression model ดังกล่าวมีค่านัยสำคัญ แต่ถ้าค่าทดสอบทางสถิติของสัมประสิทธิ์ตัวแปรอิสระทั้งหมด หรือบางตัวไม่มีนัยสำคัญ (P-Value มากกว่า a ) แปลว่ามีโอกาสเกิด Collinearity ระหว่างตัวแปรอิสระอย่างมากทีเดียว จากตารางที่ 2 เมื่อวิเคราะห์ Multiple linear regression โดยโปรแกรม Excel ตามขั้นตอนปกติ จะพบว่าค่า F-Significance บ่งบอกว่า Regression model มีนัยสำคัญ แต่เมื่อดู P-Value ของ X3 บ่งบอกว่า X3 ไม่มีนัยสำคัญต่อ Regression model เลยหรือบอกว่า ไม่จำเป็นต้องมี X3 เลยก็ได้ ลักษณะเช่นนี้คือมีโอกาสเกิด Collinearity สูงมาก จริงหรือที่ไม่จำเป็นต้องมี X3 ใน Model ที่ได้ วิธีที่ 2 ใช้ Scatter plot ระหว่างตัวแปรอิสระทุกกคู่ จากรูปที่ 1 จะพบว่า คู่ X3,X4 คู่ X1,X3 และคู่ X1,X4 มีความสัมพันธ์กันอย่างมากทีเดียว ในขณะที่คู่อื่นๆที่เหลือก็่มีความสัมพันธ์เชิงเส้นต่อกันเองพอสมควรทีเดียว โดยดูจากแนวการเรียงตัวของจุด กราฟที่ได้บ่งบอกว่าเกิด Multicollinearity ขึ้นแล้ว
รูปที่ 1 ตัวอย่าง Scatter plot ระหว่างตัวแปรอิสระ 6 คู่ วิธีที่ 3 ทดสอบหาค่าสหสัมพันธ์ระหว่างตัวแปรอิสระแต่ละตัวกับตัวแปรตามและกับตัวแปรอิสระตัวอื่นๆ
ตารางที่ 3 Matrix ค่าสหสัมพันธ์ของทั้งตัวแปรตามและตัวแปรอิสระ เมื่อใช้โปรแกรมคอมพิวเตอร์ วิเคราะห์จะได้ค่าสหสัมพันธ์ ( Pearson correlation : r ) ดังตารางที่ 3 ตัวแปรอิสระทุกตัวมีความสัมพันธ์กับตัวแปรตาม โดยดูได้จากที่ค่าต่ำที่สุดก็ 0.887 (Y กับ X1) แล้ว ในขณะที่ ค่าสหสัมพันธ์ระหว่างคู่ตัวแปรอิสระเองก็ มีค่ามากตั้งแต่ 0.687 (X1 กับ X2) ขึ้นไปเลยทีเดียว ซึ่งถือว่าสูงมาก ยืนยันได้ว่าเกิด Multicollinearity ใน Regression model นี้ ทั้งๆที่จากตารางที่ 1 เราพบว่า X3 ไม่มีนัยสำคัญ แต่ค่าจากตารางที่ 3 บ่งบอกว่า X3 มีความสัมพันธ์กับ Y ในระดับที่สูงมาก ค่าเท่าใดถึงจะถือว่ามี Collinearity โดยทั่วไปเราจะเปรียบเทียบค่าสหสัมพันธ์ระหว่าง X นั้นๆ กับ Y ถ้าน้อยกว่าเมื่อเทียบกับค่าสหสัมพันธ์กับ X ตัวอื่นๆ แสดงว่ามีโอกาสเกิด Collinearity สูง วิธีที่ 4 วัดระดับ Multicollinearity ด้วยค่า Variance Inflation Factor ( VIF ) เริ่มต้นเราพิจารณาค่า Variance ของค่าสัมประสิทธิ์แต่ละตัวแปรอิสระตามสมการ เราจะเปลี่ยนการหา Regression model ใหม่ โดยแยกค่า Y ออกไป แล้วเปลี่ยน X หนึ่งตัวให้เป็น Y แทนชั่วคราว แล้วทำการวิเคราะห์หา Regression model ระหว่าง X ที่เปลี่ยนมามีฐานะเป็น Y ชั่วคราว กับ X อื่นๆที่เหลือ แล้วนำค่า R2 (un-adjusted) ที่ได้มาคำนวณหาค่า Variance ของค่าสัมประสิทธ์ แล้วก็เปลี่ยน X ตัวอื่นๆมาเป็น Y ชั่วคราวแทนบ้าง หาค่า Un-adjusted R2 ของแต่ละ X และคำนวณหาค่า Variance ของค่าสัมประสิทธ์ จนครบทุก X ถ้าสมมติว่าไม่มีความสัมพันธ์กันเลยระหว่าง X ที่ถูกเปลี่ยนมาเป็น Y ชั่วคราว กับ X ที่เหลืออื่นๆ ค่า Un-adjusted R2 จะเท่ากับ 0 นั่นคือจะเหลือ แสดงว่าค่า Variance ของค่าสัมประสิทธ์ตัวนั้นๆจะเพิ่มมากขึ้น (เฟ้อ) กว่าที่เป็นอยู่นี้หรือไม่ ขึ้นอยู่กับระดับความสัมพันธ์ของ X ตัวนั้น(ที่เปลี่ยนมามีฐานะเป็น Y ชั่วคราว) กับ X อื่นๆที่เหลือ จะมากน้อยเพียงใด เราเลยเรียกเทอมนี้ว่า ตัวชี้วัดความเฟ้อ ของ Variance ของค่าสัมประสิทธ์ หรือ Variance Inflation Factor (VIF) มีสมการดังนี้ จากตารางที่ 1 เมื่อเราให้ X1 มีฐานะเป็นตัวแปรตาม และ X2,X3 และ X4 เป็นตัวแปรอิสระ เมื่อวิเคราะห์ด้วยวิธี Multiple linear regression จะได้ดังต่อไปนี้
ตารางที่ 4 ผลการวิเคราะห์ Multiple regression โดยโปรแกรม Excel เมื่อ X1 เป็นตัวแปรตาม จากตารางที่ 4 จะได้ เมื่อดูค่า F-Significance และค่า P-Value ของ X2 และ X4 จะพบว่า Model ที่เกิดขึ้นใหม่นี้ยังเกิด Multicollinearity อยู่และ X3 กลายเป็นตัวแปรอิสระที่มีค่านัยสำคัญ ทั้งๆที่ครั้งแรกไม่เป็นเช่นนี้ หากทำการวิเคราะห์ Multiple linear regression เมื่อเปลี่ยน X2,X3และ X4 ไปเป็นตัวแปรตาม แล้วคำนวณหาค่า Variance Inflation Factor จะได้ค่าดังตารางต่อไปนี้
ตารางที่ 5 ค่า VIF ของแต่ละตัวแปรอิสระ VIF เท่าไหร่ ถึงจะถือว่า Multicollinearity ใน Model นั้นจะเกิดปัญหา เป็นเรื่องจริงที่ว่า ไม่มีการระบุว่า VIF เท่าใด Multicollinearity จะสร้างปัญหาให้กับการนำ Regression model ที่ได้เมื่อนำไปใช้พยากรณ์ค่าตัวแปรตาม แม้แต่จะสรุปว่าเมื่อเกิด Multicollinearity แล้ว จะแก้ปัญหาอย่างไร จะเกิดความผิดพลาดอะไรบ้าง จะยังสามารถใช้ Model นั้นได้อยู่หรือไม่ ก็ไม่มีตำราที่ไหนเขียนหรือระบุเจาะจงไว้ คงต้องปล่อยให้ผู้ทำการวิเคราะห์ข้อมูลใช้วิจารณญาณส่วนตัวในการจะแก้ปัญหาหรือดำเนินการอย่างหนึ่งอย่างใดต่อไป ถึงแม้ว่าบางตำราจะบอกว่า VIF ตั้งแต่ 10 ขึ้นไป ถือว่า Multicollinearity อาจจะสร้างปัญหาต่อ Regression model ที่ได้ แต่อย่างไรก็ตาม แม้ต่ำกว่า 10 ก็ยังถือว่า สร้างปัญหาได้เช่นกัน จะทำอย่างไรเมื่อต้องเผชิญกับปัญหา
Collinearity วิธีที่ 1 ตัดตัวแปรที่มี Collinearity หรือ Multicollinearity ออกจากการวิเคราะห์หา Regression model จากตัวอย่างที่ผ่านมา พบว่า X3 เป็นตัวแปรที่สมควรตัดออกมากที่สุด ด้วยเหตุผลคือ - ค่า VIF สูงที่สุด (8.25) - ค่าสหสัมพันธ์ของ X3 กับ X1 สูงกว่า ค่าสหสัมพันธ์ X3 กับ Y - เมื่อวิเคราะห์ด้วย Multiple linear regression พบว่า ค่า P-Value ของสัมประสิทธิ์ของ X3 มากกว่า a แสดงว่า X3 เป็นตัวแปรที่ควรตัดออกจาก Regression model วิธีที่ 2 รวมตัวแปรที่มี Collinearity กันให้เป็นตัวแปรใหม่ที่ยังให้ความสัมพันธ์กับตัวแปรตามอยู่ เช่นตัวอย่างต่อไปนี้ - ส่วนสูงและน้ำหนัก เป็นตัวแปรอิสระที่มี Correlation กันค่อนข้างมาก เราอาจจะเปลี่ยนไปใช้ตัวแปรใหม่คือ ้ดัชนีมวลกาย แทน ก็จะตัดปัญหา Collinearity ได้ - ความสูงกับความกว้างของสิ่งของที่เรากำลังศึกษา ถ้ามี Correlation กันค่อนข้างมาก เราอาจจะเปลี่ยนไปใช้ตัวแปรปริมาตร แทน แต่ก็ไม่ใช่ทุกตัวแปรจะรวมกันได้ อย่างเช่น ระยะเวลาที่อยู่ในครรภ์มารดา (สัปดาห์) และ น้ำหนักทารกแรกเกิด(กก.) ถึงแม้จะมี Correlation กันมาก แต่หากตัดตัวแปรใดตัวแปรหนึ่งออก อาจจะทำให้ Regression model ที่ได้ผิดพลาดมากกว่าที่มีสองตัวแปรนี้อยู่ก็เป็นได้ วิธีที่ 3 ใช้วิธีวิเคราะห์ข้อมูลแบบอื่นที่ไม่สนใจ Collinearity หรือ Multicollinearity เลย เช่น Ridge regression แต่ก็เจอกับความยุ่งยากในการวิเคราะห์มากขึ้นไปอีก เพราะใช้คณิตศาสตร์ค่อนข้างมาก วิธีที่ 4 ยอมรับว่าต้องมี Collinearity หรือ Multicollinearity แน่ๆ เพราะบางครั้งเราก็ไม่มีทางเลือกที่ดีกว่านี้ ในทางปฏิบัติการที่ Regression model มี Collinearity หรือ Multicollinearity แต่ก็ยังสามารถใช้ในการพยากรณ์ตัวแปรตามได้อยู่ เพียงแต่ผู้ใช้ต้องตรวจสอบความถูกต้อง เพิ่มการวิเคราะห์ข้อมูลมากขึ้น
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||