หลักการพื้นฐานของ Simple Linear Regression Analysis

     ชื่อก็บอกอยู่แล้วว่าง่ายและไม่ซับซ้อนที่สุดในส่วนของ Regression analysis โดยแท้จริงแล้วก็คือ Regression ที่มี ตัวแปรที่เรารู้ค่า (Predictor) และตัวแปรที่เราไม่รู้ค่า (Response) อย่างละ 1 ตัวเท่านั้น  ผู้เขียนขอเริ่มเข้าสู่เนื้อหาโดยการเริ่มวิเคราะห์ตัวอย่างให้เห็นภาพ และพื้นฐาน ที่ไปที่มา ของ Regression ก่อน ผู้เขียนเชื่อว่าตำราหลายๆตำราเกี่ยวกับเรื่อง Regression นี้ จะเริ่มด้วยการหาสมการ ซึ่งผู้เขียนเห็นว่า ข้อเสียของวิธีนี้คือผู้อ่านจะไม่เข้าใจว่าทำไมถึงได้สมการแบบนั้น  มันมีขั้นตอนหรือหลักการคิดมาได้อย่างไร   

ก่อนอื่นเราต้องทำความเข้าใจก่อนว่า จุดประสงค์ของการใช้ Regression Analysis ก็เพื่อต้องการหาสมการความสัมพันธ์ ( Transfer function ) ของตัวแปรฝั่งที่เรารู้ค่า ( Predictor ) กับฝั่งที่เราไม่รู้ค่า (Response)  เพื่อที่จะนำไปสู่การคาดการณ์หรือประมาณค่า ของตัวแปรที่เราไม่รู้ค่าได้ในที่สุด และที่สำคัญการจะนำสมการความสัมพันธ์ไปใช้ได้ จะต้องมีการตรวสอบ ( Verify) เสียก่อนว่าสมการที่ได้มานั้นมีความถูกต้อง พอที่จะใช้เป็นสมการในการคาดการตัวแปรที่ไม่รู้ค่าได้จริงหรือไม่ 

 ตัวอย่าง  ในการศึกษาเรื่องความสามารถทนแรงดึงของกาว Epoxy ที่จะใช้ในการยึดชิ้นงาน 2 ชิ้นเข้าด้วยกัน โดยขั้นตอนคือ เมื่อหยอดส่วนผสมกาวลงบนชิ้นงาน A แล้วนำชิ้นงาน B มาติดเข้า แล้วต้องเอาเข้าอบด้วยความร้อน เพื่อให้กาวแห้งและชิ้นงาน A และ B ติดกันตามต้องการ ผู้ศึกษาต้อการทราบความสัมพันธ์ระหว่าง อุณหภูมิที่ใช้ในการอบกับความสามารถในการทนแรงดึงของกาวหลังอบ มีแตกต่างกันอย่างไร โดยได้ทำการทดลอง 3 ตัวอย่างต่อการทดลอง 1 รอบ และแต่ละรอบจะตั้งอุณหภูมิไว้คงที่ ที่ค่าที่ต้องการ และแต่ละการทดลองใช้เวลาอบเท่ากันคือ 15 นาที และหลังจากเอางานออกจากตู้อบความร้อนแล้วก็นำไปทำการทดลองต่อจากนั้นโดยทันที  วิธีที่เขาใช้วัดความสามารถทนแรงดึงของกาว โดยใช้แรงดึงชิ้นงาน A และ B จนแยกออกจากกันได ้ โดยที่การวัดค่าจะใช้วิธีค่อยๆเพิ่มแรงดึงทีละนิดจนทำให้ชิ้นงาน 2 ชิ้นนั้นแยกออกจากกันแล้วจดค่า  แรงดึงสุดท้ายไว้  ผลการทดลองได้ค่าตามตารางนี้

  70°C

 80°C  90°C  100°C
2.3  2.5 3.0 3.3
2.6 2.9 3.1 3.5
2.1 2.4 2.8 3.0

หน่วยคือ : หน่วยของแรง

เมื่อนำข้อมูลตามตารางมาทำ Scatter plot จะเป็นดังนี้

รูปที่ 1

 

จากกราฟ จะเห็นว่าค่าของตัวแปร Y (ตัวอย่างนี้คือ Force ) ที่ค่า X ค่าเดิมนั้น จะมีค่าไม่เท่ากัน สมมติว่า แต่ละค่า X ผู้ทดลองเก็บค่า Y จำนวนมากๆ ผลที่ได้คือค่า Y ที่ X นั้นๆ ก็จะมีรูปแบบเป็น Normal distribution รอบค่ากลางค่าหนึ่ง(ค่าเฉลี่ย) และถ้าเราลากเส้นตรงเชื่อมกันระหว่างค่าเฉลี่ย ทุกจุดเข้าด้วยกันเราจะได้เส้นตรงเส้นหนึ่งที่เรียกว่า " Regression line"    ตามรูปที่ 2

รูปที่ 2

 

ถ้าเราลากเส้นเชื่อมต่อมาจนตัดแกน Y จะตัดที่ค่า Y= 0.1 ค่านี้เราจะเรียกว่า Y-Intercept  เขียนสัญลักษณ์แทนว่า  b0

รูปที่ 3

 

เมื่อเรานำแว่นขยายมาขยายจุดเหล่านี้เพื่อให้เห็นภาพใหญ่ขึ้นจะได้ดังรูปที่ 4 นี้

 

รูปที่ 4

 

เราสามารถหาค่าความชันของ Regression line ได้จาก    

           

ค่าความชันของ Regression line นี้เราจะแทนด้วยสัญลักษณ์  b1   ดังนั้นเราจึงสามารถหาสมการของ Regression line ได้จาก

 หมายความว่า ณ ทุกจุดบนเส้นตรง ( Regression line ) นั้น ค่าในแนว แกน  Y จะเท่ากับ    เมื่อเราได้สมการแล้ว เราก็สามารถนำสมการนี้ไปใช้เพื่อ Predict ค่า Y เมื่อเรารู้ค่า X   โดยเราจะลองใช้วิธีใช้เส้นตรง ดังต่อไปนี้

รูปที่ 5

 นำค่าจากรูปที่ 5 ไปเขียนตาราง

                                              

 Temperature Force (Unit)
 75°C 2.43
 85°C 2.80
 95°C 3.10

 

จะเห็นว่าค่าที่อยู่ในตารางนี้เป็นค่าที่ไม่ได้เกิดจากการทดลองจริงๆ แต่เป็นการเอาเส้นตรงที่ได้มาเป็นตัวช่วยในการคาดการณ์ (Prediction) เมื่อเป็นเช่นนี้ท่านผู้อ่านก็คงนึกถึงสมัยที่เราเรียนเรื่อง เส้นตรง และความชัน ในวิชาคณิตศาสตร์ชั้นมัธยมต้น ผู้เขียนจำได้ว่า เราใช้สมการ เส้นตรง และการหาค่าความชัน ว่า

         

แต่อย่างที่ผู้เขียนได้เริ่มต้นเนื้อหาว่าค่าของตัวแปรในแนวแกน Y นั้นจะเป็นค่าที่มีการกระจายหรือมีความผิดพลาดโดยธรรมชาติ ดังนั้น Regression line คือเส้นที่ลากผ่านจุดๆหนึ่งของกลุ่มค่าแนวแกน Y โดยมีเงื่อนไขว่า ค่า Y ทั้งหมดจะห่างจากเส้นตรงนี้อย่างสมดุลกันมากที่สุด ไม่ใช่ค่า Y ทุกค่าอยู่บนเส้นนี้  นั่นแปลว่ายังต้องมีสิ่งหนึ่งที่ต้องคิดถึงคือค่าความห่าง ของค่า Y ใดๆ กับจุดบนเส้น Regression line ในแนวขนานกับเส้นแกน Y ค่าความห่างนี้เราเรียกว่า Error ใช้สัญลักษณ์แทนคือ e  จากรูปที่ 5 ท่านจะเห็นว่า ค่า Y ใดๆ (เป็นจุด) แทบจะไม่มีค่าไหนอยู่บนเส้น Regression line เลย

 ดังนั้นสมการนี้เมื่อนำไปใช้ก็จะได้ค่าความผิดพลาดมาด้วย ดังจะเห็นได้จากค่าที่ได้ในตาราง Predicting   จะเห็นว่า ที่อุณหภูมิ 95 ยังได้ค่าเท่ากับที่ 90 องศา จุดหนึ่งด้วยซ้ำไป  ดังนั้นสมการ เมื่อจะนำไป Predict ค่าจะต้องเป็น

   

ซึ่ง e มีค่าเฉลี่ยเท่ากับ 0 และมีค่า Variation เท่ากับ s2 และเป็นสมการที่เกิดจากการวิเคราะห์ Yi และ Xi เพียงจุดใดๆ เท่านั้น 

 

                     แต่การหาค่า  b0 และ  b1 ตามวิธีที่ผ่านมานั้นเป็นการใช้กราฟ อาจจะทำให้เราได้ค่าที่ผิดพลาดไปบ้างอันเนื่องจากการเทียบค่าจาก Regression line มายังแกน X และ Y อาจมีความคลาดเคลื่อนไป  ในทางปฏิบัติเราจึงไม่นิยมนำมาใช้ในการประมาณค่า โดยจะนิยมใช้วิธีการที่เรียกว่า " Method of least square" มากกว่า วิธีที่ว่านี้เป็นการรวมวิเคราะห์ จุด Xi และ Yi ทุกๆจุดเพื่อหาค่า ซึ่งมีวิธีดังนี้

1. นำค่าจากผลการทดลองมาสร้างตารางใหม่ดังต่อไปนี้

n x y x2 xy y2
1 70 2.3 4900 161 5.29
2 70 2.6 4900 182 6.76
3 70 2.1 4900 147 4.41
4 80 2.5 6400 200 6.25
5 80 2.9 6400 232 8.41
6 80 2.4 6400 192 5.76
7 90 3.0 8100 270 9.00
8 90 3.1 8100 279 9.61
9 90 2.8 8100 252 7.84
10 100 3.3 10000 330 10.89
11 100 3.5 10000 350 12.25
12 100 3.0 10000 300 9.00
Sum 1020 33.5 88200 2895 95.47

ที่เราต้องทำเพิ่มขึ้นคือ หาค่า x2 , xy และ  yในตาราง

2. หาค่าเฉลี่ยของค่าที่วัดได้ทั้งหมดทุกค่า จากตัวอย่างนี้ก็คือการนำค่า Y ทั้งหมดในตารางมาหาค่าเฉลี่ย ซึ่งเราจะได้ค่า  Y

 

รูปที่ 6

 

นั่นคือ ถ้าเราไม่ใช้ X ในการคาดการค่า Y แล้ว ค่าโดยเฉลี่ย  จะเป็นค่าที่ใช้คาดการณ์ Y ได้ดีที่สุด

3. วิเคราะห์ แต่ละจุด โดยเทียบกับค่า   และ  เพื่อให้เห็นภาพและเข้าใจง่ายขึ้น ผู้เขียนจะวิเคราะห์ค่า Yi เพียง 1 จุดให้เห็นเป็นตัวอย่างดังนี้

 

รูปที่ 7

 

จากข้อ 2 และ 3 นั้นชี้ให้เห็นว่า ในแนวแกน Y เราจะมองค่า Yi ของทุกตัวเป็นค่าเฉลี่ย ( ) เพียง 1 ค่า  และในแนวแกน X เราจะมองค่า Yi ของทุกตัวเพียง 1 ค่าอยู่บนเส้น Regression line (    ) เท่านั้น  การมองค่า Yi ใน  2  แกนเช่นนี้ ภาษาอังกฤษ เขาเรียกว่า "  Regress "  ถ้าความหมายเป็นไทยก็น่าจะตรงกับความหมายว่า  " การมองค่า Yi ทุกค่าย้อนกับไปสู่จุดรวมใน 2 แนว "   และนี่เป็นที่มาของคำว่า Regression  ซึ่งการที่เรามองวิธีการคิดแบบนี้เข้าใจแล้ว  การที่เราเรียกว่า "ถดถอย"  ไม่น่าจะถูกต้อง ในความคิดส่วนตัวของผู้เขียน แต่บังเอิญถ้าเปิด Dictionary ก็คงจะพบคำแปลเป็นไทย อย่างนั้น ก็เลยเรียกกันอย่างนั้น 

จากตาราง จะได้ 

** หมายเหตุ ค่าที่ได้อาจแตกต่างจากวิธีคำนวณโดยวิธีอื่นๆเล็กน้อย เนื่องจากการปัดเศษ หรือทศนิยม

สมการที่ได้นี้คือ Regression หรือคือค่าในแนวแกน Y ทุกจุด บนเส้น Regression line จะมี่ค่าตามสมการที่ได้นี้  เมื่อเรารู้ค่า x เราก็สามารถรู้ค่า Response หรือค่าในแนวแกน Y ได้โดยการลากเส้นตั้งฉากกับ แกน Y จากจุดบนแกน X มาตัดกับ Regression line เราก็จะทราบได้ทันที

 


[ HOME ]             [ CONTENTS ]     

Hosted by www.Geocities.ws

1