Hintergrundinformationen
Abriss zum adaptiven Testen
- Historie ... ?
Exkurs zur Item-Response-Theory
- Während der klassische Testtheorie Rohwerte (Punkte, Prozentsätze) berechnet, betrachtet die Item-Response-Theorie (1-parametrisches Rasch-Modell) Antwortmuster
- Unterscheidung zwischen Personen-Parameter (Fähigkeit η) und Item-Parameter (Schwierigkeit β), aber auf gleicher Skala
- mathematische Charakterisierung dessen, was passiert, wenn eine Person mit einer bestimmten latenten Fähigkeit η ein Item eines gewissen Schwierigkeitsgrades β löst
- Modell vergleicht die Kompetenz der Person mit der Schwierigkeit des Items und sagt die statistische Wahrscheinlichkeit voraus, dass die Person das Item richtig löst:
- Wenn die Person viel höhere Fähigkeiten besitzt, als das Item mit seiner Schwierigkeit voraussetzt, dann ist diese Wahrscheinlichkeit groß
- Wenn die Aufgabe hingegen viel schwieriger ist, als die Person kompetent ist, dann ist diese Wahrscheinlichkeit klein
- Charakteristische Kurve: Wahrscheinlichkeit P einer richtigen Antwort für Person mit Fähigkeit η auf Item mit Schwierigkeit β als logistische Funktion der Differenz zwischen Personenfähigkeit und Itemschwierigkeit
- umgedreht: Differenz zwischen Personenfähigkeit und Itemschwierigkeit ist Logit von P (d.h. de natürliche Logarithmus der Erfolgschance) η-β = ln(P/(1-P))
- Informationsfunktion eines Items: P*(1-P), d.h. wir lernen am meisten, wenn die erwartete Wahrscheinlichkeit nahe bei der Hälfte liegt (P = 0,5), i.e. η ≈ β
Algorithmus des Moodle-Plugins
- Benjamin Drake Wright (1988) einfacherer Algorithmus für den Einsatz in einem Umfeld mit geringen Anforderungen (low stakes), da wir ohnehin keine Kapazitäten für die Erstellung von genau kalibrierten Items haben
- Aufgabenauswahl hier gemäß einer von vornherein festgelegten Verzweigungsstrategie
- zur Erreichung derselben Messgenauigkeit wie beim Tailored Testing (Auswahl der Folgeaufgabe anhand Maximum der Informationsfunktionen passend zum aktuell berechneten Fähigkeitsmaß) benötigt man etwas mehr Aufgaben - grundsätzlich aber weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016)
- Obwohl es sich um einen groben Ansatz handelt, können diese Methoden dieselben Ergebnisse liefern wie anspruchsvollere CAT-Techniken (Yao, 1991)
- Schwierigkeitsniveaus werden auf Logit-Skala transformiert, Berechnungen erfolgen dort, Fähigkeitsniveau (und Fehler) anschließend zurück transformiert
- Neues Frageniveau ergibt sich aus vorherigem Frageniveau durch Abweichung nach oben oder untern in kleiner werdenden Schritten (Doppeltes der harmonischen Folge) je nach Itemantwort (für + bzw. -)
- Fähigkeitsmaß ist unabhängig von der Reihenfolge der bearbeitetet Items: durchschnittliche Schwierigkeit aller vorgelegten Items korrigiert um Logitfunktion des Anteils an richtig gelösten Items