7 Analisis Berstatistik Lanjutan

7.2 Analisis Regresi Linear

Katakan kita membuat andaian bahawa nilai of y akan meningkat atau menurun dan pada masa yang sama nilai x meningkat. Kita boleh memilih satu model berkaitan dengan y kepada x dengan melakarkan satu garis yang sesuai dan berpadanan dengan data yang diberikan. Model yang dimaksudkan tidak membenarkan kesilapan anggapan. Namun dalam situasi sebenar, titik lakaran masih terdapat pada rajah yang dinyatakan

Oleh itu, bagi menyelesaikan masaalah, kita harus membina satu model kebarangkalian berkaitan dengan y kepada x- iaitu satu variasi rawak titik data sepanjang garisan. Satu model kebarangkalian yang dinyatakan adalah model linear regresi mudah, dengan anggapan nilai min y bagi sesuatu nilai x graphs dilakarkan sebagai satu garisan lurus dan titik data yang melencong dari garisan min ini sebagai e, oleh itu kita membuat rumusan berikut :

y = A + B x + e,

dimana A dan B adalah parameter yang tidak diketahui.

Jika kita menganggap titik-titik melencong diatas atau di bawah min garisan lurus tersebut dan dengan nilai jangkaan E(e) = 0 maka nilai min bagi y adalah

y = A + B x.

Oleh itu, nilai min y bagi sesuatu nilai x, diwakili dengan simbol E(y) dan rajah akan menunjukkan garisan lurus dengan y-memintas A dan cerun B.

Rajah min garisan hipotekal, E(y) = A + B x

Rumus bagi model linear regresi mudah adalah seperti berikut :

y = A + B x + e, dimana

y = pembolehubah bersandar

x = pembolehubah tak bersandar

e = kesilapan rawak

A = y-pintasan pada garisan

B = cerun pada garisan

7.2.1 Regresi Linear dan Ramalan

Sekiranya kita ada dua kumpulan data dari satu sample, contohnya IQ dan pencapaian akademik kita boleh mencari korelasi antara dua kumpulan data tersebut. Dari nilai korelasi kita boleh membuat kesimpulan bahawa korelasi antara dua pembolehubah itu adalah tinggi. Tetapi sekiranya kita hendak membuat ramalan tentang pencapaoan akademik dari skor IQ untuk pelajar akan datang, maka kita gunakan regresi linear.

Untuk membuat ramalan antara skor untuk dua pembolehubah satu garisan yang betul-betul sesuai hendaklah dilakarkan daripada gambarajah selerak atau carta kolerasi.

Serakan skor dua pembolehubah X dan Y Garis Lurus yang sesuai

Rajah diatas menunjukkan taburan skor untuk dua pembolehubah X dan Y. agak sukar untuk melukiskan satu garis lurus yang seimbang untuk semua titik dalam rajah tersebut. Satu garis lurus yang sesuai boleh diperolehi dengan menggunakan kaedah kuasa dua terkecil.

Dalam pendekatan kaedah kuasa dua terkecil kita hendaklah meminimumkan perbezaan antara dua skor yang didapati (Y) dan skor yang diramalkan (^Y) atau skor penjelasan.

Persamaan untuk garis lurus ialah Y = a + bX

Y cerapan = ^Y ramalan + Y ralat

Y residual = Y cerapan - ^Y ramalan

= Y - ^Y (diminimumkan)

Untuk mendapatkan satu garis lurus yang terbaik , Y residual atau ralat hendaklah paling kecil untuk setiap pasangan skor X dan Y. Sekiranya kita berbua demikian kita akan dapati nilai a dan b seperti berikut :

A = ^Y – bX

b= ∑(xy)

∑ (x²)

di mana nilai a ialah penggalan pada paksi y dan b kecerunan bagi garisan lurus itu. Nilai juga dikenali sebagai pekali regresi. Korelasi regresi boleh dianggapkan sebagai satu ukuran penambahan Y untuk satu unit penambahan X. Satu contoh membuat ramalan skor :

X Y XY

1 2 2

2 4 8

3 3 9

4 5 20

5 6 30

Untuk mendapatkan satu garis lurus yang terbaik kita hendaklah mengira nilai a dan b. Adalah lebih baik sekiranya nilai b dikiran dahulu seperti berikut :

b= ∑(xy)

∑ (x²)

xy = ∑xy - ∑x ∑y

= 69 - 15 x 20

= 69 – 60 = 9

∑ x²⁼∑ x^{2 -}∑ x²

ⁿ

= 90 - 400

= 10

b = 9 / 10 = 0.9

a = y – bX

= 3 – 0.9 x 4

= - 0.6

Persamaan garis lurus yang didapati ialah Y = - 0.6 + 0.9x. Dengan menggunakan persamaan kita boleh mengira skor ramalan untuk tiap-tiap nilai Y yang dicerapi.

X = 2, Y^ = -0.6 + 0.9 x 2 = 1.2

X = 4, Y^ = -0.6 + 0.9 x 4 = 3.0

X = 3, Y^ = -0.6 + 0.9 x 3 = 2.1

X = 5, Y^ = -0.6 + 0.9 x 5 = 3.9

X = 6, Y^ = -0.6 + 0.9 x 6 = 4.8

Nilai ramalan Y untuk tiap nilai X

Skor Y yang dicerapi Skor X Skor Y yang diramalkan

1 2 1.2

2 4 3.0

3 3 2.1

4 5 3.9

5 6 4.8

Dengan mengunakan persamaan regresi kita boleh meramalkan sebarang nilai Y untuk tiap nilai x. Misalnya jika seorang pelajar mendapat skor 7 dalam X maka skor untuk Y ialah Y^ = - 0.6 + 0.9 x 7 = 5.7

7.2.2 Pengiraan Regresi Tak Linear

Regresi Tak Linear dalam statistik ialah satu masalah dalam memadankan model

kepada pelbagaian dimensi data x,y data, dimana f adalah fungsi tak linear dengan parameter θ. Kerapkali ianya disangkakan sebagai kesilapan didalam pengunaan kuasa dua terkecil bagi menganggar model parameter a, b, c

Secara amnya, tidak ada rumusan algebra yang sesuai bagi parameter ini seperti yang terdapat didalam regresi linar. Kebiasaannya algorithm optimum digunakan bagi menentukan parameter ini. Ada juga masalah regresi tak linear ini diseleseaikan jika kita dapat menggunakan regresi cubaan yang sesuai sebagai contoh :

Jika kita menggunakan regresi logarithm $y = Ae Bx$ , kita akan memperolehi

$log y = log A + Bx$

iaitu parameter optima biasa ia itu $logA$ and $B$ bagi regresi linear. Contoh kompeleks yang lain bagi regresi ini ditunjukkan melalui berikut rumus

7.2.3 Kesahan Ramalan

Pendidik maupun guru biasanya berminat menggunakan sesuatu ujian untuk meramal sesuatu pada masa seperti kejayaan dalam persekolahan atau kejayaan dalam pekerjaan. Sesuatu ujian yang meramal dengan tepat tingkah laku pada masa hadapan yang kerana ianya dibentuk , dikatakan memiliki kesahan peramal. Prosedur asas untuk menentukan kesahan peramal ialah :

1) mentadbirkan ujian berkenaan

2) tunggu hingga prestasi yang diramalkan oleh ujian berkenaan berlaku

3) lakukan korelasi diantara skor ujian tersebut dengan prestasi sebenar yang

ujian berkenaan dibentuk untuk diramal.

Katakan satu ujian kebolehan pelajar dibentuk untuk meramal kejayaan akademik di sekolah pada tahun tersebut. Untuk menentukan kesahan permala ujian tersebut, kita tadbirkan ujian berkenaan pada satu sample murid-murid pada tahun tersebut yang dipilih secara rawak. Selepas murid-murid ini menamatkan tahun pengajian mereka itu, kita lakukan korelasi diantara ramalan ujian berkenaan dengan gred-gred akademik yang didapati para murid tersebut (pengukuran criteria). Semakin tinggi korelasi yang diperolehi semakin berkesanlah ujian berkenaan dengan satu peramal.

Dua masalah dikaitkan dengan kesahan peramal. Ramalan boleh diterima hanya dalam satu situasi dimana ia telah disahkan atau dalam situasi yang sama. Sekiranya sesuatu ujian telah disahkan untuk sample murid-murid sebuah sekolah, ujian berkenaan mungkin tidak berupaya meramal dengan memuaskan para pelajar yang merancang memasuki persekolahan. Dalam membentuk sesuatu ujian yang akan digunakan untuk tujuan meramal, kita mungkin mendapati bahawa menetapkan criteria untuk mengukur sesuatu hasil seperti kejayaan vokasional adalah sukar. Contohnya menetapkan sesuatu criteria yang jelas dan dipersetujui ramai untuk keberkesanan guru adalah satu perkara yang rumit.