BAB 5 KESESUAIAN
ITEM UJIAN
Pengenalan
Selepas sesuatu pembinaan dijalankan
, satu pencerapan haruslah dijalankan bagi memastikan samada item atau
soalan tersebut sesuai untuk digunakan. Biasanya prosedur
yang dijalankan termasuklah menganalisa setiap item tersebut. Ini adalah
untuk membolehkan kita mengasing atau menggunakan item-item tersebut untuk tujuan ujian
seterusnya. Seperkara lagi ialah untuk memastikan samada pengguna tahu atau
tidak tahu akan ujian yang akan diambil. Dalam memastikan bahawa item tersebut boleh digunapakai adalah
membuat pengukuran perbezaan bagi setiap item yang dijalankan. Sebagai
contoh, jika ujian yang dibina adalah bertujuan mengukur pencapaian sekolah
maka ujian yang hendak dijalankan hendaklah akur akan
pencapaian yang ditetapkan.
Kesahan item bagi tujuan meramal
pengukuran criteria boleh di tentukan dengan membuat pengiraan korelasi
diantara skoran tehadap item dengan skoran pengukuran tersedia. Pengukuran korelasi koefisien yang sering digunakan
adalah koefisien titik-biserial ( point-biserial
coffecient).
Namun bagi tujuan pengukuran bilik darjah,
kebiasaannya posedur yang disering digunakan adalah melibatkan penentuan
peratus pengambil ujian yang lulus setiap item denga
korelasi setiap criteria item. Dalam hal ini, criteria yang
dimaksudkan adalah skor keseluruhan ujian tersebut. Item
yang berkualiti harus mempunyai ciri-ciri keakuran dari aspek kurikulum,
spesisfikasi dan peluang. Item juga hendaklah tepat dalam konstruknya,
tepat akan tajuk atau konteksnya dan hendaklah jelas
dari segi stimulus, tugasan dan arahan. Oleh itu item atau
soalan yang dibina juga hendaklah sesuai dengan kehendak serta ketetapan.
Objektif
Diakhir bab ini, anda seharusnya dapat
:
i) menilai ujian berdasarkan
tahap kebolehpercayaan dan kesahanujian
ii) membina item ujian agar
lebih dipercayai dan sah
5.1.1 Indeks
Kesukaran
Yang
pertama adalah indeks kesukaran (item-difficulty index) (p). Indeks ini ditentukan dengan nisbah
calon yang mendapat jawapan betul bagi sesuatu item dan dinyatakan dalam
persamaan berikut
Nilai p |
|
0.61 hingga 0.80 |
Item mudah |
0.36
hingga 0.60 |
Item sederhana |
0.20
hingga 0.35 |
Item sukar |
1.
Siapakah Tunku Abdul Rahman Putra Al-Haj ?
2.
Siapakah Tun Dr.Mahathir
?
Kita tidak boleh menyatakan item mana yang sukar selepas membaca soalan ini. Seseorang akan hanya mengenali nama bagi kedua-dua tokoh tersebut. Namun untuk menyatakan soalan mana yang ditanya itu sukar hanya boleh ditentukan dengan membuat ujian kesukaran item.
Berikan definisi
indeks kesukaran. |
Contoh yang lain, item ujian Bahasa Inggeris yang
sukar bagi pelajar sekolah rendah akan ternyata lebih
mudah bagi pelajar sekolah menengah kebangsaan. Nilai p akan membolehkan kita
membuat pengukuran indek kesukaran di situasi atau ditempat berbeza. Adalah sukar, bagi kita menentukan samada menjawab soalan sejarah
melibatkan pengetahuan yang lebih mantap, kompleks atau khusus dari yang
diperlukan untuk menjawab soalan matematik. Apabila nilai p digunakan untuk
menentukan indek kesukaran, adalah lebih mudah bagi menentukan samada item
ujian sejarah adalah lebih sukar dari item matematik khusus bagi ujian yang
diambil oleh pelajar yang sama.
Untuk lebih memahami keadaan ini,
kita lihat beberapa lagi contoh berikut. Apabila kita memilih jawapan yang tidak ditetapkan (
p=0 ), dan tidak ada perbezaan individu didalam skoran bagi item
tersebut. Apabila semua item didapati sukar, majoriti ujian
skoran adalah rendah. Dan jika semua item adalah
mudah, kebanyakan ujian skoran adalah agak tinggi. Oleh itu, nilai p akan terus menghalang kepelbagaian ujian skoran.
Bagi item objektif yang skornya berbentuk
dikotomus, aras kesukaran item ditakrifkan sebagai
peratus atau kadar bilangan murid yang memberi respons dengan betul, kadaran
tersebut dipanggil indeks kesukaran item.
Contoh:
Item A yang
direspons betul oleh 80 daripada 100 orang murid, indeks kesukarannya ialah 80%
atau 0.8. Item B yang direspons betul oleh 30 daripada 100 orang murid, indeks
kesukarannya ialah 30% atau 0.3.
Pengiraan di atas menunjukkan
:
Item A lebih mudah daripada item B. Aras
kesukaran item lebih
tinggi daripada item A.
Bagi item subjektif yang skornya boleh
bernilai 0, 1, 2, 3, …atau tidak dikotomus, indeks
kesukarannya ditentukan dengan mencari peratus skor min (skor purata) atau
kadar skor min.
Indeks kesukaran item (K) = Skor
Purata
Skor Maksimum
Indeks kesukaran bagi item ujian menerangkan bilangan pelajar yang
menjawab dengan betul sesuatu soalan yang diberikan. Sebagai contoh, dalam sesuatu ujian didapati , indek kesukaran item
adalah 65, ini menunjukkan bahawa 65 peratus pelajar yang mengambil ujian
tersebut menjawab dengan dengan betul. Lagi tinggi indeks kesukaran, , lebih mudah item ujian tersebut. Satu ujian yang
merangkumi bahan subjek berkaitan hendaklah mengandungi item yang merangkumi
pelbagai nilai julat kesukaran, namun, jika terdapat peluang atau petunjuk
bahawasanya akan ada indeks atau tahap dibawah 25 ,
maka seharusnya item tersebut tidak dimasukkan. Begitu juga jika sesuatu item
ujian dijangka akan menjadi terlalu mudah maka ianya
juga harus tidak disertakan.
Lagi tinggi
peratusan item kesukaran lagi mudahlah item tersebut.Bincangkan. |
Koefisien korelasi titik-biserial mengukur hubungan diantara skor item dengan skor ujian. Nilai julat statistik ini adalah diantara -100 dan + 100. Nilai positif tinggi menunjukkan sesesorang yang menjawab item dengan betul akan menerima skoran yang tinggi dalam ujian berbanding dengan menjawab dengan tidak betul. Nilai hampir sifar akan menunjukkan terdapat hubungan yang sedikit diantara skoran pada item dan skoran ujian. Adalah harus untuk mengekal item ujian yang mempunyai koefisien korelasi titik biserial yang tinggi dan membuangkan item ujian yang hampir bernilai sifar atau bernilai negatif. Sebagai panduan, adalah dicadangkan item korelasi yang bernilai negatif atau hampir sifar ( 10 atau kurang) dibuang atau dikajisemula dan item ujian yang bernilai kolerasi positif rendah dikaji semula bagi menentukan bagaimana untuk memperbaiki keadaan item tersebut.
Rumusan konsisten dalam Kuder-Richardson
20 digunakan dalam pengiraan komputer bagi menentukan anggaran kebolehpercayaan
item ujian. Korelasi kebolehpercayaan jenis ini akan menentukan dan memberikan
tahap indikasi individu yang mengambil ujian akan memperolehi skoran yang sama
dalam ujian. Nilai anggaram julat Kuder-Richardson ini adalah diantara 0.000 dan
1.000. Nilai yang hampir dengan +1.000 menunjukkan ujian tersebut mempunyai
tahap kebolehpercayaan yang tinggi.
Anggaran hendaklah dibuat secara berhati-hati jika bilangan pelajar yang
mengambil ujian tidak menyempurnakan ujian dalam masa yang ditetapkan. Untuk ujian biasa selama 50 minit, koefisi
kebolehpercayaan pada tahap 0.75 adalah sesuai. Kebolehpercayaan boleh
ditingkatkan melalui ujian ulangan berdasarkan analisis data yang dijalankan.
Memanjangkan masa ujian (apabila terdapat ujian amali) boleh meningkatkan tahap
kebolehpercayaan, terutama bagi ujian pendek.
Pengukuran ralat rawak adalah
anggaran bagi ralat kemungkinan skoran ujian. Ia diinterpretasikan sebagai mana
dijalankan keatas sisihan piawai. Pengukuran ralat rawak pada tahap 3.500
sebagai contoh, menunjukkan bagi mana-mana satu skoran ujian, kemungkinannya
adalah 2 : 1, yang mana skoran sebenar pelajar ( purata skoran bagi setiap
ujian ) tidak akan terpencong dari lebih 3.500. Lagi tinggi kebolehpercayaan
dan lagi bebas kesalahan ujian tersebut, lagi kecil lah nilai ralat tawak.
Aplikasi terusan ini kepada skoran menjadikan pengukuran ralat rawak amat
penting bagi menilai perbezaan diantara pelajar dan menentukan markah dan gred.
Indek
kesukaran boleh digunakan untuk:
5.1.2 Indeks
Diskriminasi ( rbis )
Jika sesuatu ujian dan sesuatu item mengukur perkara
yang sama, seseorang akan menganggap mereka yang boleh
menjawab dalam ujian tersebut akan menjawab dengan baik atau betul bagi item
tersebut dan jika mereka yang gagal menjawab ujian tersebut akan turut gagal
alam menjawab item tersebut. Item yang baik akan
mendiskriminasikan diantara mereka yang baik dengan mereka yang kurang baik.
Indek diskriminasi ialah pekali korelasi yang
mengaitkan skor ujian ( data selanjar ) dengan skor setiap opsyen ( data dikotomous , 1 jika memilih dan
0 jika tidak memilih opsyen bagi sesuatu item berkenaan. rbis digunakan untuk menentukan darjah keupayaan sesuatu
item bagi membezakan antara calon daripada kumpulan yang mempunyai market
keseluruhan ujian yang tinggi dengan yang rendah.
Pekali korelasi “point-biserial”,
ditentukan dengan menggunakan persamaan berikut :
dimana :
x ialah min skor ujian calon yang menjawab betul
µ ialah min skor ujian
σ ialah sisihan piawai ujian
p ialah nisbah calon yang menjawab betul (indeks
kesukaran)
q = ( 1 – p )
Nilai indeks diskriminasi adalah
antara – 1.00 hingga 1.00. rpbis yang
bernilai positif menunjukkan calon yang mendapat skor ujian yang tinggi
menyatakan jawapan yang betul, manakala calon yang mendapat skor ujian yang
rendah memilih opsyen yang salah (distraktor). Jika sebaliknya berlaku, dimana
calon yang mendapat skor ujian yang tinggi memilih opsyen yang salah
(distraktor), manakala calon yang mendapat skor ujian yang rendah menyatakan
jawapan yang betul, rpbis akan
bernilai negative. Bagi item yang menunjukkan nilai rpbis adalah 0, bermakna item ini tidak dapat
mendiskriminasikan antara pelajar dari kumpulan yang mendapat skor tinggi
dengan kumpulan calon yang mendapat skor ujian yang rendah.
Pengelasan kebolehan item mendiskriminasi
berdasarkan rpbis
rpbis |
Pengelasan |
0.40 dan keatas |
Sangat baik |
0.30 hingga 0.399 |
Baik |
0.20 hingga 0.299 |
Sederhana |
0.10 hingga 0.199 |
Kurang baik |
Kurang daripada 0.10 |
Tidak baik |
Apakah yang dimaksudkan dengan indeks diskriminasi.
Bincangkan |
5.1.3 Pemarkahan
Item dan Tahap Masa Ujian
Menjawab persoalan sama
ada sesuatu ujian boleh menjamin ketekalan dalam pemeriksaan dan pemarkahannya.
Sama ada ujian itu akan diperiksa dan diberi markah oleh beberapa orang guru
sebagai pemeriksa yang berasingan atau oleh seorang guru. Sesuatu ujian
dikatakan mempunyai kebolehpercayaan (ketekalan) antara beberapa orang pemarkah
sekiranya keputusan pemarkahan mereka sama atau hampir sama.
Bagi ujian bahasa yang bercorak objektif seperti ujian
kefahaman bacaan atau aspek bahasa yang lain menggunakan soalan dalam bentuk aneka pilihan, persoalan
subjektiviti dalam pemarkahan mungkin tidak timbul. Bagaimanapun,
ketekalan pemarkahan antara pemeriksa yang biasanya terkawal ketat dalam ujian
yang menggunakan soalan-soalan aneka pilihan. Ketekalan
jenis ini tidak mencukupi untuk menjamin kebolehpercayaan sesuatu ujian secara
keseluruhannya. Sesuatu ujian yang berbentu aneka
pilihan biasanya terdiri daripada beberapa item. Setiap
item perlu dinilai dari aspek kebolehpercayaan atau ketekalannya menjalankan
sesuatu tugas. Kita perlu melihat kebolehpercayaan
item tersebut.
Perkiraan
sama ada hendak menjalankan sesuatu ujian pada hujung bulan, pertengahan bulan,
hujung penggal, pertengahan tahun atau pada hujung tahun akan membawa implikasi
terhadap penentuan skop dan kandungan ujian tersebut. Dengan kata lain, ini
akan menentukan jenis ujian yang akan dibina oleh guru, sama ada ujian formatif
atau sumatif.
Dalam
pendidikan bahasa, ujian formatif mempunyai skop dan kandungan yang terhad.
Ujian ini mungkin tentang satu atau dua kemahiran bahasa ataupun tertumpu
kepada satu atau dua aspek bahasa seperti tatabahasa atau perbendaharaan kata.
Bagi kemahiran bahasa pula, kadang kala ujian ini tertumpu pada kefahaman
mendengar sahaja ataupun bacaan dan kefahaman sahaja. Dalam kemahiran menulis
pula, ujian yang bercorak formatif mungkin hanya menguji kemahiran murid
menulis surat kiriman, misalnya jenis rasmi seperti memohon pekerjaan atau
menulis karangan mengikut tajuk yang bercorak perbincangan sahaja. Jenis ujian
kecil ini bertujuan untuk melihat kemajuan murid dalam mempelajari sesuatu
kemahiran atau aspek bahasa yang tertentu sebelum guru melanjutkan pengajarannya
dengan perkara baru.
Dalam
pendidikan bahasa, ujian bulanan atau ujian pertengahan penggal eloklah
bercorak formatif dan diagnostik yang bertujuan untuk menguji kemajuan murid
dalam mempelajari satu atau dua kemahiran atau aspek bahasa dari semasa ke
semasa. Contohnya, ujian bacaan dan kefahaman juga ada pelbagai jenis.
Sekiranya guru telah menguji bacaan dan kefahaman keratan pelbagai jenis prosa
dalam bulan Januari, mungkin dalam bulan lain guru tersebut boleh menguji
bacaan dan kefahaman puisi.
Sekiranya
ujian yang hendak dijalankan itu pada tahap pengajaran yang lebih panjang
seperti di hujung penggal, pertengahan tahun atau di hujung tahun, skop dan isi
kemahiran atau aspek bahasa yang akan diuji menjadi lebih luas. Ini mungkin
memerlukan guru membina ujian yang lebih menyeluruh dan bercorak sumatif bagi
tahap tersebut.
Pada pendapat anda, adakah tempoh mengadakan ujian
memberikan kesan ketas ujianyang dijalankan. Bincangkan. |
5.2 Kebolehpercayaan Ujian
Kebolehpercayaan
boleh merujuk kepada ciri skor berhubung dengan ketepatan dan ketekalan skoran
bagi mengambarkan prsetasi calon dalam perkara yang diuji.
Kebolehpercayaan skor berkait rapat
dengan instrumen pentaksiran yang digunakan. Kita harus bertanya samada ujian
yang diberi dapat memberi ukuran yang konsisten kepada seseorang pelajar jika
pelajar tersebut mengambilnya berulangkali. Skoran yang tidak konsisten yang
disebabkan pembolehubah seperti kandungan yang tidak berkaitan, ujian yang
tidak sesuai, kohort dan sebagainya. Kebolehpercayaan atau reliabiliti yang
berkaitan dengan konsep ujian hendaklah boleh diharapkan, adalah stabil, tidak
berubah dan tetap sama, boleh di agak atau dijangka dan tepat. Begitu juga jika
kita mempercayai seseorang insan atau kawan yang sudah semestinya mempunyai
sifat-sifat yang dinyatakan. Begitu juga dengan sesuatu ujian yang dijalankan
dan dihasilkan, ianya mestilah boleh dipercayai dan bermakna. Kebolehpercayaan
ujian boleh disebut sebagai darjah ketekalan antara dua pengukuran terhadap
sesuatu bahan atau benda.
Dalam
bilik darjah atau makmal, seorang guru biasanya mengharapkan untuk memperoleh
pengukuran yang sama keatas sesuatu benda yang yang diukur, atau, mendapatkan
pertimbangan yang sama apabila mengunakan penimbang yang berbeza dalam masa
yang berbeza. Dalam mengukur pencapaian pelajar pula, guru mengharapkan
keputusan ujian dakan tekal bagi gua ujian yang sama bentuk yang dijalankan
kepada kumpulan yang sama pada dua masa yang berbeza.
Konsep
asas teori pengujian menyatakan bahawa skoran yang dicerap atau diperhatikan (observed
score) iaitu skor yang didapati oleh seseorang pelajar didalam sesuatu ujian mempunyai
dua komponen :
i)
skor sebenar ( true
score iaitu ukuran sebenar kebolehan pelajar ) dan
ii)
skor ralat ( error
score iaitu ukuran yang disebabkan oleh alat dan kaedah pengukuran )
Oleh
itu kita boleh membuat anggapan bahawa tiada skor yang menjadi ukuran sebenar
bagi kebolehan seseorang.
Dalam
ujian bahasa kita boleh katakan bahawa kebolehpercayaan sesuatu ujian sebagai
ketekalan, iaitu mengukur sesuatu kemahiran atau aspek bahasa yang hendak
diukur. Perkara yang hendak dinilai ialah ketekalan pengukurannya sebagai alat
penguji. Contohnya, kita setuju bahawa jam adalah alat yang sah untuk mengukur
masa. Alat ini mempunyai syarat terpenting sebagai alat penguji, iaitu kesahan.
Selain itu kita persoalkan syarat
kedua, iaitu ketekalan (kebolehpercayaan) pengukurannya. Jam yang baik akan
menunjukkan waktu pukul lapan setiap hari apabila berita TV3 dibacakan.
Sekiranya jam itu menunjukkan pukul 8.15 atau pukul 8.20 walaupun waktu yang
sepatutnya pukul 8.00 tepat, kita katakan pengukurannya tidak tepat dan tidak
boleh dipercayai. Dengan kata lain, ukuran waktu yang
ditunjukkan tidak tekal. Sebuah jam sebagai alat pengukur masa yang sah perlu
boleh dipercayai dari segi ketekalan waktu yang ditunjukkannya.
Dalam memilih dan membina ujian
bahasa di bilik darjah amatlah penting bagi guru bahasa memikirkan tentang
kebolehpercayaan sesuatu ujian yang hendak digunakan. Kebolehpercayaan ujian tersebut
ialah mengenai ketekalannya mengukur sesuatu kemahiran atau aspek bahasa yang
diukurnya. Misalnya, sekiranya ujian digunakan pada pelajar yang sama, bolehkah menunjukkan keputusan yang sama walaupun
ujian itu digunakan dua kali pada waktu yang berlainan.
Guru bahasa boleh membina
ujiannya sendiri atau memilih dan menggunakan ujian yang sedia ada, mengetahui
faktor yang boleh mempengaruhi kebolehpercayaan sesuatu ujian dan menggunakan
pengetahuan ini bagi membina atau memilih ujian. Menurut
teori ujian dan pengukuran, terdapat tiga jenis kebolehpercayaan. Setiap satunya merujuk kepada ketekalan pengukuran yang boleh
dihasilkan sesuatu ujian.
Kebolehpercayaan item bermaksud
ketekalan sesuatu item ujian itu membezakan murid yang lemah dalam sesuatu
kemahiran atau aspek bahasa. Contohnya,
ujian ejaan yang mengandungi 25 atau 50 item ejaan, guru perlu jangkakan bahawa
terdapat ejaan yang hanya boleh dieja
dengan betul oleh murid yang pandai dan kerap dieja salah oleh murid yang lemah
dalam ejaannya. Sekiranya ini berlaku, kita katakan item ejaan yang susah mempunyai kebolehpercayaan item yang tinggi kerana
ketekalannya (kebolehpercayaan) membezakan antara murid yang pandai dan murid
yang lemah dalam ujian. Sebaliknya
berlaku, iaitu ejaan yang susah kebanyakannya boleh
dieja dengan betul oleh murid yang lemah dan tidak boleh dieja oleh murid yang
pandai, kita katakan item tersebut tidak boleh dipercayai.
Kebolehpercayaan item kadang kala disebut sebagai
ketekalan dalam sesuatu ujian kerana setiap item dalam ujian berfungsi dalam
kebolehpercayaan atau ketekalannya membezakan murid yang pandai dengan murid
yang lemah tentang kemahiran atau aspek bahasa yang diukur ujian tersebut
Sehubungan itu, guru janganlah
menggunakan item yang terlampau senang. Ini kerana murid yang pandai dan lemah pun boleh
menjawabnya. Oleh yang demikian item-item tersebut tidak dapat berfungsi
dalam membezakan antara kedua-dua golongan pelajar tersebut. Guru janganlah menggunakan item soalan yang terlampau susah. Hal ini kerana murid yang lemah
dan pandai tidak dapat menjawabnya. Oleh yang
demikian item tersebut tidak dapat membezakan antara murid yang lemah dengan
murid pandai. Sepatutnya item yang digunakan oleh guru adalah item
soalan yang bercorak susah, sederhana dan senang dan
bukan yang terlampau susah atau terlampau senang. Selain itu,
item yang kabur atau yang mempunyai dua pilihan jawapan yang boleh dianggap
betul hendaklah digugurkan daripada ujian tersebut.
Pekali kebolehpercayaan selalunya diwakili oleh nombor yang
bernilai diantara 0 hingga 1 yang menunjukkan kestabilan sesuatu ujian.
Bincangkan mengenai kebolehpercayaan ujian |
Kaedah
Test-Retest
Kaedah
Bentuk Selari
·
Bagi
mengantikan kaedah latihan dan lain-lain masalah dengan kaedah test-retest,
Pembina ujian biasanya memberik ujian yang selari kepada calon yang sama tetapi berlainan masa.
·
Kebolehpercayaan,
dalam hal ini, sekali lagi di nilai dengan korelasi. Apa yang berkaitan atau
yang dikorelasi ?
·
Kunci
aspek kebolehpercayaan ini adalah untuk membentuk alternative yang hamper sama dengan terma kandungan, proses respons, kaedah dan
cara, dan ciri statistic. Adakah aktiviti semula dan kesan latihan dihapuskan
atau hilang terus ? adakah
cara lain bagi kaedah alternative ini ?
Kaedah
Belah-Dua
·
Kaedah
belah-dua ini mengukur konsistensi dalam ujian. Ingat lagi pada pita pengukur, ia mempunyai konsistensi dalaman yang tinggi. Ukuran kaki
yang pertama adalah sama dengan ukuran kaki ke dua dan ketiga dan begitu juga
dengan setiap ukuran sentimeternya , ianya adalah
uniform.
·
Kaedah belah dua juga turut mengurangkan atau
menghapuskan beberapa masalaah seperti :
Kaedah yang
mudah untuk menjalan kaedah belah-dua adalah dengan :
Kebolehpercayaan Ujian Penuh =
2 X kebolehpercayaan ujian separuh
1 + kebolehpercayaan ujian separuh
Jika nilai kebolehpercayaan diantara kedua-belah didapati +0.80, kebolehpercayaan ujian sepenuhnya akan didapati bernilai berikut :
Kebolehpercayaan ujian penuh =
2 X 0.80 = 0.89
1 + 0.80
Satu lagi rumusan yang boleh dibuat perkiraan adalah dengan mengunakan rumus berikut : rxx = k r / (1 + (k – 1))r
Dimana k = bilangan item dalam ujian kaedah-belah dua (baru),
iaitu bilangan soalan ujian yang asal
dari kaedah belah-dua dibahagikan dengan bilangan soalan ujian yang
digunakan didalam korelasi belah-dua. Dalam erti kata yang lain, bilangan atau kadar tempoh masa ujian akan menjadi lebih lama. Sebagai contoh, katakan ujian anda mempunyai 80 soalan. Anda
menjalankan kaedah kebolehpercayaan belah-dua dan mendapati r = 0.8. Nilai r = 0.8 adalah berdasarkan jumlah 40
item. Bilangan 40 item tersebut adalah bilangan soalan
dari item asal dalam kaedah sebelumnya. Sekarang anda
inginkan kebolehpercayaan ujian anda dipinda kerana bilangan soalan ujian
adalah 80. Bilangan 80 adalah merupakan tempoh atau
bilangan ujian yang baru. Oleh itu, , k = 80/40
= 2. Nota: Rumusan Spearman-Brown adalah digunakan untuk membuat anggaran
berapakah ujian kebolehpercayaan akan meningkat
apabila ujian ditingkatkan dengan memasukkan item selari.
r = adalah
korelasi diantara pecahan asal
KR20 =
k ( 1
- <Σpq)
k – 1 σT2
KR21 = k ( 1
- <m(k-m))
k – 1 ks2
α = k (
1 - Σσi2)
k – 1 σT2
5.2.1 Faktor Yang Mempengaruhi
Kebolehpercayaan
Antara yang dipercayai mempengaruhi kebolehpercayaan
ujian ialah :-
Kemohogenan Item
Item ujian yang homogen ialah
item-item yang mempunyai kesamaan dari segi prestasi atau peluang untuk
dipilih. Bagi
ujian berbentuk objektif aneka pilihan, pilihan jawapan mestilah homogen.
Ini bermakna tiap-tiap opsyen mestilah berkaitan antara satu sama
lain dan ada daya tarikan untuk dipilih oleh pelajar. Jawapan atau distraktor
seharusnya tidak bias sehingga pelajar yang diuji terlalu mudah mengenal pasti
jawapan atau bukan jawapan. Opsyen yang tidak ada persamaan
boleh menjejaskan kebolehpercayaan skor ujian.
Pensampelan Item
Item-item yang dogunakan dalam sesuatu ujian adalah
untuk menguji sebahagian trait yang menjadi pentunjuk kepada kebolehan
seseorang. Oleh itu item tersebut adalah semata-mata sample bagi mewakili
keseluruhan trait mengenai kebolehan seseorang. Jika pemilihan itu tidak tepat,
ia menyumbangkan kepada varians ralat pengukuran. Akibatnya skor ujian itu tidak boleh dipercayai.
Ralat Rawak
Prestasi seseorang adalah
berubah-ubah mengikut keadaan sekelilingnya. Sebarang perubahan yang berlaku di
sekeliling menyebabkan prestasi berubah. Misalnya
semasa ujian tiba-tiba bunyi bising di sekeliling calon atau bunyi loceng
amaran berbunyi. Ini akan menyebabkan tumpuan
dan konsentrasi calon dan varians skor ralat akan masuk ke dalam varians skor
yang dicerap. Lain-lain contoh ralat rawak adalah seperti
sakit, penat, ketegangan emosi, risau dan lain-lain. Pihak
pentadbir yang mengendalikan ujian hendaklah menyediakan keadaan dan
persekitaran tempat yang sesuai dan peraturan pentadbiran ujian yang sempurna.
Tempoh Ujian
Pada amnya semakin panjang atau lama
tempoh ujian semakin tinggi kebolehpercayaan skor ujian itu. Ini adalah kerana tempoh ujian
dapat memberikan persampelan yang baik dari segi tingkah laku yang ingin
diukur, malahan skor kurang dinganggu oleh tekaan.
5.2.2 Indeks
Kebolehpercayaan
Selain dari nilai purata p ( indeks kesukaran ), terdapat satu lagi indeks penting yang
dipanggil indeks kebolehpercayaan atau “ alpha
( α ) “. Indeks kebolehpercayaan akan menunjukkan pada tahap
manakah hasilan keputusan ujian adalah sama jika semua pelajar mengambil atau
mengulang semula ujian yang telah diambil ( dengan
anggapan pelajar tersebut tidak ingat atau lupa akan ujian yang lepas ). Oleh
kerana perkara sebegini tidak akan berlaku, alpha akan
mengukur kebarangkalian kebolehpercayaan dengan mengunakan ketekalan hasilan
keputusan ujian. Nilai julat
indeks kebolehpercayan adalah diantara -1.00 hingga + 1.00. Namun, nilai indeks kebolehpercayaan mestilah nilai positif, dan
bagi kebanyakkan orang perbezaan pada kadaran 0.85 adalah diperlukan.
Dan apabila sesuatu ujian atau peperiksaan diambil kira, ini akan
meningkatkan tahap kebolehpercayaan keseluruhan dan nilai 0.65 bagi setiap
kertas ujian adalah memadai.
5.2.3 Mempertingkatkan Kebolehpercayaan
Bagi mempertingkatkan
kebolehpercayaan, pendapat menyatakan agar tempoh masa ujian di panjangkan dan
bilangan soalan ujian ditambah atau dibanyakkan. Sebagaimana larian marathon memberi lebih jarak atau
ruang diantara pelumba lari dari pelumba acara pecut 100 meter dan membolehkan
pelumba ruang untuk menyusun langkah larian atau merapatkan larian, ujian yang
lebih lama adalah dipercayai lebih reliable dari ujian yang pendek. Perhatian
hendaklah diberi terhadap tahap kebolehpercayaan yang berdasarkan ketekalan
sample ujian dan percambahan ujian tersebut. Jika sasaran
populasi adalah pelbagai, yang memerlukan perbezaan besar dalam mengukur
kebolehan dan pengetahuan, adalah lebih mudah untuk mencapai tahap
kebolehpercayaan yang diperlukan.
Oleh itu, pengukuran ralat piawai akan
memaklumkan keberkesanan skoran individu pelajar atau calon. Ia
akan mengenalpasti ditahap manakah skoran akan dikenalpasti ketepatannya. Tahap
yang dimaksudkan adalah jika 68% ketentuan maka ia akan ada pada tahap purata 1
atau pun jika pada tahap 96% , ianya akan berada pada tahap 2. Ini bermaksud , kita boleh mengenalpasti pada
tahap 68%, jika calon memperolehi skoran 30 pada ujian pertama, dan jika calon
mengulang ujian yang sama, beliau dijangka akan memperolehi purata skoran
diantara 30 + 2.7 = 33 atau 30 – 2.7 = 27 dan pada tahap 96%
pula, calon dijangka akan memperolehi skoran 30 + (2 x
2.7) = 35 dan 30 – ( 2 x 2.7 ) = 25.
5.3 Kesahan
Ujian
Alat taksiran yang mengukur apa
yang ia ukur adalah sah. Sesuatu alat pengukur tidak memiliki
kesahan untuk “semua tujuan”. Sesuatu ujian mungkin sangat sah untuk
sesuatu tujuan atau untuk sesuatu tahap umur ataupun untuk jenis subjek
tertentu tetapi ia tidak mungkin sah dalam situasi
lain. Oleh sebab
sesuatu ujian yang tidak sah adalah dianggap tidak berguna maka seseorang itu
hendaklah membentangkan bukti yang boleh memberi keyakinan bahawa ujian yang
digunakannya mengukur tepat cirri-ciri ujian yang berkenaan direka bentuk untuk
diukur. Dalam menilai kesahan ujian sesuatu ujian untuk
tujuan tertentu kita hendaklah memeriksa satu atau lebih dari jenis kesahan
berikut.
Konsep kesahan
sesuatu ujian bahasa sebagai alat untuk mengukur dan mengkuantitikan
sesuatu kemahiran atau aspek bahasa tidak berbeza dengan konsep kesahan alat
pengukur yang lain. Dalam bidang pengujian bahasa, sesuatu ujian merupakan alat
untuk mengukur sesuatu kemahiran atau aspek bahasa. Tinggi atau rendah kesahan
sesuatu ujian bergantung pada ketepatannya mengukur sesuatu kemahiran atau
aspek bahasa yang perlu diukur berdasarkan tujuan atau fungsi pengujian.
Contohnya, ujian ejaan dianggap sah sekiranya benar-benar dapat mengukur
kebolehan pelajar mengeja.
Dalam
ujian bahasa timbul persoalan sama ada kesahan sesuatu ujian dianggap tinggi
atau rendah menurut ketepatan mengukur
sesuatu kemahiran atau aspek bahasa yang hendak diukur. Setiap kali guru membina ujian
bahasa, sama ada menguji kemahiran mendengar, bertutur, membaca, menulis atau aspek bahasa lain seperti tatabahasa,
kosa kata dan sebagainya amatlah penting bagi guru mempersoalkan kesahan ujian
yang dibina.
Adakah ujian yang dibina
benar-benar dapat menguji dan mengukur kemahiran murid mendengar?. Adakah ujian bertutur benar-benar dapat menguji dan
mengukur kemahiran murid bertutur?. Adakah
ujian kosa kata yang dibina guru benar-benar menguji perbendaharaan kata
pelajar atau hakikatnya menguji tatabahasa? Atau
berlaku sebaliknya, ujian tatabahasa yang dibina guru tidak menguji pengetahuan
tatabahasa sebaliknya menguji kosa kata. Contoh-contoh ini perlu
ditanyakan kepada diri sendiri apabila membina sesuatu alat ujian
bahasa untuk menjaga darjah kesahan atau kesahihannya. Jika
guru tidak diawasi, kadang kala alat ujian yang dibina tidak menepati tujuan
ujian. Perkara lain yang hendak diukur tidak terukur dan perkara lain
pula yang terukur. Kadang kala sesuatu ujian mungkin tidak
tepat mengukur perkara yang hendak diukur tetapi hanya mengukur sedikit sahaja
atau sipi-sipi. Seterusnya kita melihat jenis kesahan
yang terdapat dalam ujian yang baik.
Berikan definisi kesahan ujian. Bincangkan |
5.3.1 Kesahan
Kandungan
Kesahan ini
juga dikenali sebagai kesahan logic, kesahan persampelan, atau kesahan
kurikulum dan digunakan meluas dalam ujian pencapaian. Untuk menentukan kesahan
kandungan, pembina ujian hendaklah menganalisiskan kandungan sesuatu bidang
ujian yang dinilai dan
sterusnya menstruktur satu alat yang representative untuk mengukur pelbagai
apsek kandungan berkenaan. Kesahan ini mempersoalkan sama
ada sesuatu ujian mengandungi satu sampel yang seimbang tentang perkara yang
telah diajar seperti yang terdapat dalam sukatan pelajaran atau program
pengajaran. Hal ini penting bagi ujian yang berbentuk sumatif
atau formatif. Contohnya, ujian bulan Februari guru
hendaklah menguji beberapa aspek tatabahasa yang telah diajarnya dalam bulan
tersebut. Kesahan ujian isi tinggi sekiranya item ujian yang dibina
mewakili semua aspek tatabahasa yang telah diajar dalam bulan itu.
Perkara
penting dalam kesahan ini guru perlu merujuk semula rekod pengajaran seperti
buku rekod mengajar dan sukatan pelajaran. Ujian bahasa yang bersifat
sumatif seperti ujian akhir penggal, pertengahan tahun dan ujian tahunan
biasanya memerlukan guru membuat persampelan yang lebih luas tentang kemahiran
dan aspek bahasa yang perlu diuji. Ujian bahasa yang
dibina bagi menilai kemajuan murid pada tahap tersebut mungkin mengandungi
ujian tentang kemahiran lisan, membaca, menulis karangan, meringkaskan
karangan, tatabahasa, peribahasa, kosa kata dan sebagainya. Bagaimanapun, skop ujian hendaklah mewakili pengajaran dan
pembelajaran yang telah berlaku dalam tempoh tersebut.
5.3.2 Kesahan
Gagasan
Kesahan
gagasan adalah satu unsure yang dihipotesiskan untuk menerangkan beberapa aspek
tingkahlaku manusia seperti kebolehan mekanik, kecedersan atau sifat pendiam. Juga
dikenali dengan panggilan kesahan konstruk. Kesahan konstruk
ialah satu konsep atau gagasan
tentang sesuatu perkara atau benda sama ada yang abstrak atau maujud. Contohnya, apakah konstruk (konsep) sebuah kereta? Sebuah kereta terdiri daripada enjin, cermin, roda, gear, roda dan
sebagainya.
Dalam bidang
pendidikan bahasa, setiap kemahiran bahasa seperti kemahiran mendengar,
bertutur dan membaca adalah konstrak atau konsep yang agak abstrak. Bahagian
yang mengisi konstrak mengenai sesuatu kemahiran bahasa sebenarnya adalah
subkemahiran yang membina sesuatu kemahiran bahasa. Contohnya,
apakah subkemahiran yang membina kemahiran bertutur?
Apabila kita hendak menilai sama ada ujian mengenai sesuatu kemahiran bahasa itu
mengandungi kesahan konstrak atau tidak, kita persoalkan sama ada ujian
tersebut benar-benar menguji konstrak kita mengenai kemahiran tersebut, dan
sama ada ujian itu menguji subkemahiran yang dianggap penting dalam sesuatu
kemahiran bahasa yang hendak diuji. Subkemahiran yang
terlibat dalam sesuatu kemahiran asas bahasa sebenarnya pengisi konstrak
tersebut. Tanpa mengenali konstrak mengenai sesuatu
kemahiran atau aspek bahasa, tidak mungkin kita boleh membina ujian yang sah
dan menepati konstrak tersebut. Sebelum guru boleh menguji kemahiran muridnya
dalam kemahiran membaca, guru seharusnya faham dengan konstrak kemahiran membaca.
Sebelum guru boleh menguji dan
menilai kemahiran muridnya menulis karangan, dia seharusnya faham dengan konstrak kemahiran
mengarang dalam bahagian penting yang terdapat dalam sesuatu karangan yang
baik. Contohnya, dalam menguji kemahiran murid menulis
karangan, guru ingin melihat subkemahiran penting seperti memilih isi, menyusun
isi, tatabahasa, kosa kata dan aspek mekanis dalam penulisan. Dalam menguji sesuatu kemahiran bahasa, kesahan konstrak mengenai
sesuatu kemahiran yang hendak diuji sangat penting. Sekiranya konstrak
kita mengenai sesuatu kemahiran itu salah, kita akan
mengukur dan menilai subkemahiran yang tidak berkaitan. Oleh
yang demikian, kesahan ujian itu dari segi konstraknya boleh dipertikaikan.
5.3.3 Kesahan
Kriteria
Kesahan
yang ditunjukkan melalui perbandingan skor ujian dengan satu lebih pembolehubah
luaran atau criteria yang dianggap berupaya menyediakan pengukuran secara terus
terhadap tingkahlaku atau sifat tertentu dibawah kajian. Mengandungi
dua sub-kelas iaitu kesahan permala dan kesahan serentak.
Menurut Savignon (1983), ujian
mesti kelihatan mengukur apa yang sepatutnya hendak
diukur. Bagi Hearon (1979), kesahan muka saja
tidak mencukupi, sebab kadang kala ujian bercorak ‘superficial’ sahaja.
Contohnya, guru
telah membina satu ujian untuk menguji kefahaman bacaan pelajar dengan
menggunakan soalan berbentuk aneka pilihan. Sekali pandang ujian ini mungkin
mempunyai kesahan muka
yang benar-benar menguji kefahaman bacaan. Selepas
diteliti, didapati terdapat beberapa item soalannya menguji kefahaman murid
mengenai sinonim, antonim dan dan penggunaan imbuhan. Item
yang dimaksudkan bukanlah menguji kefahaman bacaan murid dalam erti kata
sebenarnya.
Selepas guru
membina ujian yang bertujuan menguji sesuatu kemahiran atau aspek bahasa,
perlulah disemak semula setiap item atau soalan supaya tidak terkeluar daripada
batasan atau tujuan ujian dibina. Sebaiknya sebelum ujian dicetak atau ditadbir,
dapatkan pandangan guru lain mengenai kesesuaian item dengan kemahiran atau
aspek yang hendak diuji.
i)
Kesahan
Peramal
Pendidik biasanya berminat
menggunakan sesuatu ujian untuk meramal sesuatu pada masa hadapan seperti
kejayaan dalam persekolahan atau pekerjaan. Sesuatu ujian yang meramal dengan
tepat tingkahlaku pada masa hadapan yang kerananya dibentuk, dikatakan memiliki
kesahan peramal. Prosedur asas untuk menentukan kesahan peramal ialah i)
mentadirkan ujian berkenaan, ii) tunggu hingga prestatsi yang diramalkan oleh
ujian berkenaan berlaku, dan iii) lakukan korelasi diantara skor ujian tersebut
dengan prestasi sebenar ujian yang dibentuk untuk diramal. Semakin
tinggi korelasi yang diperolehi semakin berkesanlah ujian berkenaan sebagai
satu peramal.
Masalah yang dikaitkan dengan kesahan peramal adalah
ianya hanya boleh diterima hanya dalam situasi dimana ia
telah disahkan atau dalam situasi yang sama.
ii)
Kesahan
Serentak
Prosedur yang digunakan untuk menentukan kesahan
serentak adalah sama dengan prosedur yang digunakan
untuk menentukan kesahan peramal. Bezanya ialah hasil yang diramal diukur pada
masa yang agak sama dengan ujian peramal dibuat.
Contohnya sekiranya sesuatu ujian baru di struktur, skor yang diperolehi para
pelajar dalam ujian ini boleh dikaitkan dengan markah yang didapati dalam ujian
sebelumnya untuk subjek yang sama, akan dikaitkan dengan penilaian guru mereka ataupun
dikaitkan dengan skor-skor yang didapati melalui ujian yang serupa yang telah
disahkan, yang mungkin lebi mahal dan lebih sukar untuk ditadbiekan. Daripada
menunggu beberapa tahu samada sesuatu ujian minat vokasional berupaya meramal
kejayaan dalam sesuatu pekerjaan, kita boleh mengaitkan skor yang diperolehi
dalam ujian orang-orang yang berjaya dalam sesuatu pekerjaan dengan skor yang
diperolehi dalam ujian pekerjaan lain untuk menentukan samada ujian berkenaan
membezakan dua kumpulan tersebut. Kesahan serentak menyediakan bukti dengan
agak cepat tentang keraguan sesuatu ujian, tetapi hakikatnya bahawa ujian yang memeliki
kesahan serentak tidaklah menjamin yang ia memiliki
kesahan peramal.
Bandingkan kesahan
peramal dan kesahan serentak. Apakah perbezaan ketara diantara kedua kesahan ini.? |
Rumusan
Sesetengah ahli bijak pandai mempertikaikan mengenai
pandangan amalan tradisi bahawa “ kebolehpercayaan
adalah satu kemestian tetapi kesahan tidak diperlukan” dan kenyataan ini adalah
disangkal. Institusi pemikir memberikan konsep bahawa
kebolehpercayaan sebagai invariance dan kesahan adalah unbiasedness. Satu
kaedah statistic mungkin mendapatkan satu nilai keatas persamaan sample yang
bersamaan dengan parameter populasi tetapi akan
mempunyai kadar variance yang tinggi ketas sample yang kecil. Pandangan berikutnya menyatakan satu pengukuran boleh menjadi tidak
boleh dipercayai tetapi hendaklah mempunyai tahap kesahan yang tinggi.
Glosari
Cronbach Alpha.
Satu cara untuk mencari ketakalan dalaman atau
keseragaman soalan
Indeks Kesukaran. Boleh ditakrifkan sebagai peratusan pelajar yang menjawab
ujian dengan betul. Lagi besar peratusan jawapan betul yang diperolehi lagi mudahlah
sesuatu item. Lagi tinggi peratusan item kesukaran lagi mudahlah item
tersebut
Indeks
Diskriminasi. Indek diskriminasi
ialah pekali korelasi yang mengaitkan skor ujian ( data selanjar ) dengan skor
setiap opsyen ( data dikotomous , 1 jika
memilih dan 0 jika tidak memilih opsyen bagi sesuatu item berkenaan. rbis digunakan untuk menentukan
darjah keupayaan sesuatu item bagi membezakan antara calon daripada kumpulan
yang mempunyai market keseluruhan ujian yang tinggi dengan yang rendah
Indeks Kebolehpercayaan. Indeks kebolehpercayaan akan menunjukkan pada tahap manakah hasilan keputusan ujian adalah sama jika semua pelajar mengambil atau mengulang semula ujian yang telah diambil ( dengan anggapan pelajar tersebut tidak ingat atau lupa akan ujian yang lepas ).
Kesahan. Kesahan sesuatu ujian merujuk kepada sejauh mana ujian berkenaan dapat
mengumpul maklumat berkaitan bidang yang ditetapkan. Dengan perkataan lain, sesuatu ujian itu
dikatakan sah, sekiranya ujian berkenaan boleh mengukur sesuatu yang sebenarnya
hendak diukur atau sepatutnya diukur. Dalam konteks
Pembelajaran Masteri, ujian yang terlibat ialah praujian dan pascaujian.
Kesahan
Gagasan. Konstruk
ialah satu konsep atau gagasan tentang sesuatu perkara atau benda sama ada yang abstrak atau maujud
Kesahan
Kandungan. Kesahan
ini mempersoalkan sama ada sesuatu ujian mengandungi
satu sampel yang seimbang tentang perkara yang telah diajar seperti yang
terdapat dalam sukatan pelajaran atau program pengajaran
Kesahan
Kriteria. Menurut
Savignon (1983), ujian mesti kelihatan mengukur apa
yang sepatutnya hendak diukur.
Kebolehpercayaan. Kebolehpercayaan sesuatu ujian merujuk kepada
ketekalan, ketepatan, dan kebolehbergantungan ujian berkenaan. Ini bermaksud sesuatu ujian yang boleh dipercayai akan
menghasilkan maklumat yang tekal (merujuk kepada beberapa pentadbiran ujian
yang telah dijalankan), tepat seperti yang sepatutnya serta boleh diterima
pakai tanpa keraguan.
KR20 =
k ( 1
- <Σpq)
k – 1 σT2
KR21 = k ( 1
- <m(k-m))
k
– 1 ks2
Rujukan
Moskal, Barbara et al (2002). Validity, reliability and the
assessment of engineering education. Journal of Engineering
Education
Thorndike, et.
Al (1991). Measurement and
Evaluation in Psychology and Education. (5th
Edition).
Wood, D.A. (1960). Test
Construction.
Van Krieken, R. (Dr.) (1995).
Writing and Administring Examinations. CITO.
Van Dalen., D.P. (1979). Understanding Educational Research. 4th Edition.McGraw-Hill.Inc
Hakcipta Azizi Publicist 2005-2006