8.1.4. Jóságmutatók

Minden mérőeszköz alkalmazásának az a célja, hogy a vizsgált tulajdonságot pontosan és megbízhatóan mérjük, és objektíven értékeljük. Ahhoz, hogy a mérési hibák teljesítménybefolyásoló szerepét kontrollálni tudjuk, a mérőeszközöknek meg kell felelniük az objektivitás, a reliabilitás és a validitás jóságmutatóinak.

Szövegfeldolgozási feladatok

8.6. Olvassa el figyelmesen Csapó (2004, 284–289. o.) kifejtését a tesztek jóságmutatóiról, majd oldja meg a következő feladatokat!

Határozza meg az objektivitás fogalmát és típusait! Mi a szerepük a teszt készítésének, lebonyolításának és kiértékelésének folyamatában?
Határozza meg a reliabilitás fogalmát, jellemezze tulajdonságait, számszerűsítésének módjait!
Határozza meg a validitás fogalmát, jellemezze tulajdonságait! Mi a szerepe a tesztfejlesztésben? Hogyan biztosítható a tudásszintmérő tesztek validitása?
Jellemezze a reliabilitás és a validitás közötti kapcsolatokat!

8.7. Oldja meg a következő tesztfeladatokat és javítsa ki a megoldásait (8_teszt.pdf)! Hogy a mérési hibák teljesítménybefolyásoló szerepét bemutassuk, illetve, hogy a reliabilitás és a validitás fontosságát kiemeljük, a feladatok tudatosan tartalmaznak hibákat. A tesztfeladatok megoldását követően gondolja ezért végig, hogy mi a probléma a feladatokkal. Ezekre a hibákra a későbbi reflexiófeladatokkal mutatunk rá.

Reliabilitás

A megbízhatóság a mérés pontosságát jellemzi, amely a mérési hibákat becsli csoportszinten. Egy magas megbízhatóságú teszt esetében a mérési hibák alacsonyak. Ez azonban még nem jelenti azt, hogy a mérőeszköz automatikusan érvényes (pl. egy nagyon pontos hőmérő tökéletesen alkalmatlan az asztal hosszának mérésére). A megbízhatóságot különböző módszerekkel lehet becsülni. Egy univerzális mutató a Cronbach-alfa, aminek az értéke általában 0 és 1 között van; a 0,8 fölötti értéket tekintjük elfogadottnak formális tesztek esetén. Az informális teszteknél ezt a mutatót gyakran nem számolják ki, de tanárként lényeges ismernünk, hogy milyen tényezők befolyásolják a teszt megbízhatóságát. Ezek közé a tényezők közé tartozik (1) az itemek száma és minősége, valamint (2) a csoport összetétele.

A reliabilitás értéke függ az itemek számától és minőségétől. Általánosságban elmondható, hogy minél nagyobb az itemek száma, annál megbízhatóbban mérhetünk. (Ez is az oka annak, hogy pl. az asztal hosszát egy mérőszalaggal pontosabban mérhetjük, mint egy méterrúddal, mert a mérőszalag több egységet tartalmaz, mint a méterrúd). Ezért állnak a formális tesztek általában viszonylag sok itemből. A gyakorlat szempontjából egy tesztnek legalább 25–30 itemből kell állnia, és az itemek számának növelése növelheti a reliabilitást is (figyelembe véve a rendelkezésre álló időkeret korlátait, az itemek nehézségét). A megfelelő reliabilitás biztosítása érdekében az itemek függetlenségét mind a feladatokban, mind a kiértékeléskor biztosítani kell.

Reflexiófeladat

8.8. Vizsgálja meg az előző, a tesztek jóságmutatóira vonatkozó feladatsor (8_teszt.pdf) első két feladatát! Mit gondol, hol jelennek meg a feladatok megfogalmazásában és kiértékelésében reliabilitásproblémák? Hogyan kellene a feladatokat úgy átalakítani, hogy a megbízhatóság növelhető legyen? Indokolja a módosítási javaslatait! Válaszainak elemzéséhez kattintson a Megoldás gombra! Hol talál hasonlóságokat és különbségeket a saját javaslatai és a Megoldás magyarázata között?

Visszajelzés

Az első feladatban az utasítás megadja, hogy két elemet kell bejelölni, és így lehet két pontot elérni. Ez egyrészt azért problematikus, mert a feladat közvetlenül irányítja a feladatmegoldói tevékenységet. Másrészt, nem működik az értékelés sem, ha a tanuló pl. három (kettő megfelelő és egy rossz) választ ad meg. Néha pontlevonást is használnak, amelynek büntetőfunkciója van. De ez rontja a feladat mérőfunkcióját és egyúttal a teszt megbízhatóságát is. További tartalmi probléma, hogy az a) item részben megfelelő, ezért nem szerencsés az alkalmazása. Ezt az itemet egyértelműen hibás, vagy egyértelműen igaz állításként kellene átfogalmazni. A feladat instrukciójának módosításával, pl. „Melyik állítás igaz (I), melyik hamis (H) az objektivitásról? Betűjelekkel válaszoljon!”, a feladat összesen 5 pontossá alakítható. Ezzel a megoldással növelhető az itemszám és a feladat reliabilitása is.

A második feladat esetében probléma, hogy a feladat három pontos, így az itemek függnek egymástól: Ha csak egy válasz nem megfelelő, akkor a tanuló két pontot veszít. Ezt a feladatot tehát 5 pontossá kellene alakítani úgy, hogy a feladat megoldójának a csoportok betűjelét az itemek mellé kell írnia, tehát éppen fordítva, mint ahogyan a feladatban szerepel. (Ekkor természetesen 5 db kódkockára van szükség, és a feladatban célszerű a betűjelzést is megcserélni: nagybetűvel a csoportokat, kisbetűvel az 5 itemet lehetne jelölni.) Ezzel a módosítással szintén nő az itemek száma és ezáltal a megbízhatóság is.

A megbízhatóság nemcsak az itemek számától és minőségétől függ, hanem annak a tanulócsoportnak a teljesítményétől is, amelyben a tesztet használtuk. A reliabilitást tehát befolyásolja, hogy milyen a teljesítmények eloszlása a vizsgált csoportban: homogén vagy heterogén a csoport összetétele. Általában a megbízhatóság egy heterogén csoportban magasabb. Ebben az esetben a teszt pontosan mutatja a vizsgált személyek közötti teljesítménybeli különbségeket, ami a fejlesztés megalapozottabb tervezését is szolgálhatja. Egy homogén csoportban a teszt túl könnyű, vagy éppen túl nehéz. Tehát a teszt nem tud pontos információt nyújtani a tanulók tudásáról, mert vagy túl egyértelmű, vagy alig megoldható a legtöbb diáknak, ezért a teszt alkalmazása az adott csoportban nem megfelelő.

Szövegfeldolgozási feladat

8.9. Vizsgálja meg az alábbi táblázatban a 2014. évi Országos kompetenciamérés 6. évfolyamos szövegértés tesztjének eredményeit! Válaszoljon a kérdésekre!

Kategória	6. évfolyamos teszt
Az értékelésbe bevont itemek száma	61
A központi elemzésbe bevont kitöltött tesztfüzettel rendelkező tanulók száma	82 220
Cronbach-alfa	0,898
Országos átlag (standard hiba*)	1481 (0,55)
Országos szórás (standard hiba*)	201 (0,45)

Forrás: Balkányi, Lak, Gyapay, Rábainé és Szabó, 2015, 7. o.

* A standard hiba az átlag és a szórás számítására vonatkozik, amely függ attól, hogy hány tanuló adataival számoltunk. Minél nagyobb elemszámú mintáról van szó, annál kisebb a standard hiba, és annál megbízhatóbb az átlag és a szórás számítása. (Erről részletesebben a 11.3. fejezetben lesz szó.)

Hogyan értékeli a reliabilitást?
Mi az alapja a megfelelő megbízhatósági mutatónak?
Milyen a vizsgált csoport összetétele? Homogén vagy heterogén? Válaszát indokolja!

Validitás

A validitás a tesztek fontos jóságmutatója, amelynek biztosítása érdekében lényeges feladat a tesztkészítési folyamatban a teszt mérési céljának, követelményeinek és tartalmának a meghatározása. Ezen információk alapján lehet a tesztfeladatokat és az értékelési eljárásokat kidolgozni. Nagyon fontos, hogy a feladatok és a kiértékelés módja összhangban legyen a mérési célokkal, mert csak így lehet az eredményeket a mérési célok tükrében értelmezni. A gyakorlatban gyakran fordulnak elő érvényességi problémák: például, ha a tesztfeladatok instrukciói pontatlanok, vagy a feladatok háttértudás alapján is megoldhatók. Vagy ha a megértést nem zavaró, tartalmilag helyes válasz esetében a helyesírási hiba miatt nem adnak pontot pl. egy matematikadolgozatban. Ebben az esetben nem a matematikatudást, hanem a helyesírást értékelték.

Reflexiófeladat

8.10. Vizsgálja meg az előző, a tesztek jóságmutatóira vonatkozó feladatsor (8_teszt.pdf) harmadik feladatát! Mit gondol, hol jelennek meg az itemek megfogalmazásában és kiértékelésében validitásproblémák? Hogyan kellene a feladatot úgy átalakítani, hogy az érvényesség növelhető legyen? Indokolja a módosítási javaslatait! Válaszainak elemzéséhez kattintson a Megoldás gombra! Hol talál hasonlóságokat és különbségeket a saját javaslatai és a Megoldás magyarázata között?

Visszajelzés

Az a) item esetében az instrukció pontatlan, nem adja meg, milyen terjedelemben válaszoljon a tanuló, mikor teljes a válasza. Az itemet a „milyen” kérdőszó is bizonytalanná teszi. Ezt a feladatot egyértelműbbé kellene tenni, például: „Egy tudásszintmérő teszt reliabilitása 0,53. Megfelelő-e ennek a tesztnek a validitása? Válaszát röviden indokolja!”

A b) item megfogalmazását szintén pontosítani kellene (pl. a tudásszintmérő tesztekre kellene vonatkoztatni). De itt a kiértékelésben van a validitásprobléma, hiszen további helyes válaszok is elfogadhatók (pl. mérési cél / tananyag rendszere / célok, követelmények, stb.). Ezeket pedig jelölni kell a javítókulcsban. Ha osztálytermi mérésben alkalmazzuk a feladatot, akkor lényeges, hogy minden diáknál egységesen ugyanazokat a válaszokat fogadjuk el.

« Előző | Következő »