Correlation Analysis ในหัวข้อนี้ จะเป็นการศึกษาความสัมพันธ์ระหว่าง ตัวแปรอิสระสองตัว ในบางครั้งผู้ทำการวิเคราะห์จะรู้สึกว่า Correlation กับ Regression สามารถใช้ด้วยกันได้ และบางครั้งอาจจะมองความแตกต่าง ระหว่าง Correlation กับ Regression ไม่ออก ผู้เขียนมีตัวอย่าง(สมมติขึ้นมา) ให้ท่านผู้อ่านลองพิจารณา ตัวอย่าง 1 มีสูตินารีแพทย์คนหนึ่ง นอกจากจะมีอาชีพหลักคือทำคลอดให้กับคุณแม่และรักษาผู้ป่วยแล้ว ยังเป็นคนที่ชอบธรรมชาติ ชอบศึกษานกที่บึงที่อยู่ติดกับบ้านพักของเข และนกที่ชอบส่องดูคือนกเป็ดน้ำ แต่ละวันหมอท่านนี้จะจดบันทึกจำนวนนกที่พบ ไว้อย่างแม่นยำ และเช่นเดียวกันงานที่ทำ หมอท่านนี้ก็จะมีการบันทึกจำนวนทารกที่เกิดในแต่ละวัน มาวันหนึ่งคุณหมอลองเอาตัวเลขจำนวนทารกที่เกิดในโรงพยาบาล กับจำนวนนกเป็ดน้ำที่พบแต่ละวัน มาลองเทียบกันดู ด้วยความตื่นเต้นเขาพบว่า มีความสัมพันธ์กันอย่างน่าประหลาด ดังตารางต่อไปนี้
เมื่อใช้เทคนิคของ Regression analysis เพื่อค้นหา Regression model เพื่อหวังจะนำเอา Model ดังกล่าวไปใช้วางแผนว่า แต่ละวันเขาต้องทำคลอดกี่ครั้ง แต่ละวันเขาจะมีงานต้องทำมากมายแค่ไหน เริ่มจากการใช้ Scatter plot เพื่อแสดงความสัมพันธ์ดังกล่าวออกมาเป็นกราฟ ความสัมพันธ์
เมื่อใช้ MS Excel ในการวิเคราะห์ จะได้ผลดังต่อไปนี้
เมื่อนำข้อมูลมาตีความหมาย พบว่า R-Square ที่บ่งบอกนัยแห่งความสัมพันธ์ ก็สูงมาก Error ก็ต่ำ เมื่อดู ANOVA ก็พบว่า Regression มีนัยสำคัญความเป็น Linear relation ระหว่างจำนวนนกเป็ดน้ำกับจำนวนทารกที่เกิด แกก็ได้ Regression model ในท้ายที่สุดดังนี้ จำนวนทารกที่จะเกิด = 1.25 + 0.89 * จำนวนนกเป็ดน้ำ ที่จริงหากเราดูผลการวิเคราะห์ ทุกอย่างดูดีและถูกต้องหมด Regression Model นี้น่าจะเป็น Model ที่ถูกต้องและใช้ได้ แต่จริงๆแล้วที่ผ่านมาทั้งหมด การวิเคราะห์ไม่ผิด แต่ผิดตรงที่มาแห่งความสัมพันธ์ และชนิดของตัวแปรที่จะนำมาวิเคราะห์ โดยตรรกะ โดยเหตุและผล และโดยความเป็นจริงทางวิทยาศาสตร์ ปริมาณนกจะไม่เป็นเหตุแก่จำนวนทารกที่เกิดในแต่ละวัน โดยเด็ดขาด แต่สิ่งที่คุณหมอท่านนี้ค้นพบเป็นเพียงเหตุบังเอิญ ซึ่งทางสถิติไม่สามารถนำมาอธิบายความสัมพันธ์เชิงเหตุและผลได้เลย ตัวอย่างที่ 2 นักลงทุนท่านหนึ่งได้นำข้อมูลการเปลี่ยนแปลงของราคาหุ้น ของ 2 บริษัท ที่มีการซื้อขายในตลาดหลักทรัพย์มาทดลองเปรียบเทียบเพื่อหาความสัมพันธ์กัน โดยมีข้อมูลดังในตารางนี้
เมื่อเขานำข้อมูลดังกล่าวมาทำ Scatter plot เพื่อให้มองเห็นลักษณะความสัมพันธ์ดังกล่าว ได้ดังรูปต่อไปนี้ โดยพบว่าระดับความสัมพันธ์สูงที่เดียว โดยดูจากการเรียงตัวของจุดเป็นแนวอย่างดีทีเดียว ตัวอย่างที่ 3 นักวิจัยท่านหนึ่งทำการศึกษาเพื่อหาข้อสรุปว่า น้ำหนักมารดาก่อนตั้งครรภ์กับน้ำหนักทารกแรกคลอดมีความสัมพันธ์กันอย่างไร เขาจึงค้นหาข้อมูลจากแฟ้มประวัติการตรวจสุขภาพ ของมารดาและบุตรแรกคลอด แล้วนำมาศึกษา ดังตารางต่อไปนี้
เมื่อเขานำข้อมูลดังกล่าวมาทำ Scatter plot เพื่อให้มองเห็นลักษณะความสัมพันธ์ดังกล่าว ได้ดังรูปต่อไปนี้ พบว่าระดับความสัมพันธ์ต่ำมาก โดยดูได้จากจุดตัดของ 2 ข้อมูล เรียงกันกระจัดกระจาย จากตัวอย่างที่นำเสนอมาทั้งสามตัวอย่างนั้น พอจะสรุปใจความสำคัญของ Correlation และความแตกต่างระหว่าง Correlation analysis กับ Regression analysis ได้ดังนี้ 1. Regression analysis จะว่าด้วยเรื่องความสัมพันธ์ ระหว่างตัวแปรอิสระ ที่เป็นเหตุ และตัวแปรตามซึ่งเป็นผลที่เกิดจากเหตุ หากตัวแปร 2 ตัวนั้น ในความเป็นจริงไม่มีความสัมพันธ์กันเชิงเหตุและผล (ดังตัวอย่างที่ 1 ) เราจะใช้ Regression Analysis ไม่ได้ 2 . Regression Analysis เมื่อแรกเริ่มทำการเก็บข้อมูลตัวแปรตามหรือผล (Y) จะได้มาจากการวัด ซึ่งจะเกิด Variation หรือความคลาดเคลื่อนโดยธรรมชาติ แต่ค่าตัวแปรอิสระหรือเหตุ (X) อาจจะได้จากการวัดหรือกำหนดขึ้น หรือตั้งขึ้นมา แต่เราจะตั้งข้อกำหนด (Assumption) ว่าเป็นค่าที่กำหนดขึ้นมา ดังนั้นจึงไม่มี Variation เช่น มีสมการความสัมพันธ์ ค่าเช่าต่อเดือน = -2487.47 + 214.52 x พื้นที่ห้อง ถ้าเราอยากรู้ว่า ถ้าสร้างห้องพัก ขนาด 35 ตารางเมตร , 40 ตารางเมตร หรือ 50 ตารางเมตร ควรจะเก็บค่าที่พักเท่าใด จริงพื้นที่ห้องก็คงจะได้มาจากการวัดขนาด กว้าง x ยาว แต่ในที่นี้เราจะถือว่าเรารู้ค่าแล้ว และนำมาเป็นคำถามเพื่อหาค่าคำตอบ จะเห็นว่า พื้นที่ห้องเป็นตัวแปรอิสระ (X) ที่เราจะกำหนดใส่ในสมการ ส่วนค่าเช่าต่อเดือนจะเป็นผล (Y) มาจากการที่เราใส่ค่า พื้นที่ห้องในสมการ แต่มันมี Variation ยังไง ท่านผู้อ่านคงยังจำเนื้อหา Regression ที่ผู้เขียนได้ยกตัวอย่าง ดังสมการนี้มาแล้ว ราคาค่าเช่าต่อเดือนนั้นได้มาจากการสำรวจมา ซึ่งเป็นค่าที่ไม่ได้ตั้งขึ้นมาเอง (เปรียบเหมือนการวัดมา) หากมองดีๆ จะพบว่าบางที่ พื้นที่ห้องเท่ากัน ค่าเช่าต่อเดือนก็จะต่างกันก็มี ซึ่งลักษณะนั้นเราเรียกว่ามี Variation 3. Correlation Analysis จะไม่สนใจว่าตัวแปรทั้งสอง จะเป็นเหตุและผลซึ่งกันและกันหรือไม่ หมายความว่าเป็นก็ได้ ไม่เป็นก็ได้ แต่ผลสรุปที่ได้จะจบลงตรงแค่ว่า มีความสัมพันธ์ (Correlation) กันหรือไม่ จะไม่มีการนำไปเขียนเป็นสมการความสัมพันธ์ หรือ Mathematics Model แล้วนำ Model ดังกล่าวไปประมาณค่าตัวแปร อีกค่าหนึ่ง (ดังตัวอย่างที่ 2 เรารู้แต่ระดับความสัมพันธ์ของหุ้นทั้งสองบริษัท) 4. Correlation Analysis ตัวแปรทังคู่จะเป็นค่าที่ได้จากการวัดมา นับมา (ดังตัวอย่างที่ 2 )ไม่มีค่าใดที่เกิดจากการตั้งขึ้น สมมติขึ้นเหมือนกับ Regression Analysis ดังนั้น แปรว่าตัวแปรทั้งหมดในการวิเคราะห์นั้น จะมี Variation เกิดขึ้นเสมอ และเช่นกัน ถ้ามีข้อมูลลักษณะเช่นนี้จะใช้ Regression Analysis ไม่ได้ เช่นเดียวกัน Coefficient of Correlation ( r ) เราอยากจะอธิบายความสัมพันธ์ของตัวแปร 2 ตัว โดยใช้ค่าเชิงปริมาณ เพราะบางครั้งการดูแต่ Scatter plot เพียงอย่างเดียวก็อธิบายระดับความแตกต่างได้ไม่ละเอียดพอ Coefficient of correlation คือค่าที่ใช้บอกระดับความสัมพันธ์ และยังบอกด้วยว่าความสัมพันธ์ดังกล่าวเป็นชนิดใด
รูป Scatter plot แสดงตัวอย่างความสัมพันธ์ระหว่าง 2 ตัวแปร ใน 3 ลักษณะ ตัวอย่าง มีข้อมูลที่วัดมาจากแหล่งข้อมูล 2 แหล่ง ดังตารางต่อไปนี้ จงหาค่าความสัมพันธ์
ผู้เขียนใช้ Excel sheet ช่วยในการคำนวณหาค่า r โดยจะได้ค่าต่างๆดังในตารางต่อไปนี้
ค่า r เป็นบวกแสดงว่าข้อมูลทั้งสองมี่ความสัมพันธ์แบบตามกัน คือค่าตัวแปรหนึ่งมากขึ้น อีกตัวแปรก็มากด้วย หากน้อยลง ก็น้อยลงเหมือนกัน และค่าที่คำนวณได้ 0.91 ซึ่งสูงมาก มีความหมายว่าข้อมูลทั้งสองมีระดับความสัมพันธ์กันสูงมากที่เดียว เมื่อใช้ Analysis tool ของ Excel ในการวิเคราะห์ จะได้ผลดังนี้ ( โปรดดูวิธีการทำ )
ช่องตารางที่ตัดกันระหว่าง X , Y คือค่า r |