Hintergrundinformationen

Abriss zum adaptiven Testen

Während der klassische Testtheorie Rohwerte (Punkte, Prozentsätze) berechnet, betrachtet die Item-Response-Theorie (1-parametrisches Rasch-Modell) Antwortmuster
Unterscheidung zwischen Personen-Parameter (Fähigkeit η) und Item-Parameter (Schwierigkeit β), aber auf gleicher Skala
mathematische Charakterisierung dessen, was passiert, wenn eine Person mit einer bestimmten latenten Fähigkeit η ein Item eines gewissen Schwierigkeitsgrades β löst
Modell vergleicht die Kompetenz der Person mit der Schwierigkeit des Items und sagt die statistische Wahrscheinlichkeit voraus, dass die Person das Item richtig löst:
- Wenn die Person viel höhere Fähigkeiten besitzt, als das Item mit seiner Schwierigkeit voraussetzt, dann ist diese Wahrscheinlichkeit groß
- Wenn die Aufgabe hingegen viel schwieriger ist, als die Person kompetent ist, dann ist diese Wahrscheinlichkeit klein
Charakteristische Kurve: Wahrscheinlichkeit P einer richtigen Antwort für Person mit Fähigkeit η auf Item mit Schwierigkeit β als logistische Funktion der Differenz zwischen Personenfähigkeit und Itemschwierigkeit
umgedreht: Differenz zwischen Personenfähigkeit und Itemschwierigkeit ist Logit von P (d.h. de natürliche Logarithmus der Erfolgschance) η-β = ln(P/(1-P))
Informationsfunktion eines Items: P*(1-P), d.h. wir lernen am meisten, wenn die erwartete Wahrscheinlichkeit nahe bei der Hälfte liegt (P = 0,5), i.e. η ≈ β

Benjamin Drake Wright (1988) einfacherer Algorithmus für den Einsatz in einem Umfeld mit geringen Anforderungen (low stakes), da wir ohnehin keine Kapazitäten für die Erstellung von genau kalibrierten Items haben
Aufgabenauswahl hier gemäß einer von vornherein festgelegten Verzweigungsstrategie
zur Erreichung derselben Messgenauigkeit wie beim Tailored Testing (Auswahl der Folgeaufgabe anhand Maximum der Informationsfunktionen passend zum aktuell berechneten Fähigkeitsmaß) benötigt man etwas mehr Aufgaben - grundsätzlich aber weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016)
Obwohl es sich um einen groben Ansatz handelt, können diese Methoden dieselben Ergebnisse liefern wie anspruchsvollere CAT-Techniken (Yao, 1991)
Schwierigkeitsniveaus werden auf Logit-Skala transformiert, Berechnungen erfolgen dort, Fähigkeitsniveau (und Fehler) anschließend zurück transformiert
Neues Frageniveau ergibt sich aus vorherigem Frageniveau durch Abweichung nach oben oder untern in kleiner werdenden Schritten (Doppeltes der harmonischen Folge) je nach Itemantwort (für + bzw. -)
Fähigkeitsmaß ist unabhängig von der Reihenfolge der bearbeitetet Items: durchschnittliche Schwierigkeit aller vorgelegten Items korrigiert um Logitfunktion des Anteils an richtig gelösten Items