You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 10 Next »

Hintergrundinformationen

Abriss zum adaptiven Testen

  • Historie ... ?

Exkurs zur Item-Response-Theory

  • Während in der klassische Testtheorie die Rohwerte als Punktezahl bzw. Prozentsätze benutzt werden, betrachtet die Item-Response-Theorie die Antwortmuster. Dabei wird zwischen Personen-Parameter (Fähigkeit η) und Item-Parameter (Schwierigkeit β) unterschieden, die beide auf gleicher Skala abbildbar sind.
  • Das 1-parametrische Rasch-Modell bildet die mathematische Beschreibung dessen, was passiert, wenn eine Person mit einer bestimmten latenten Fähigkeit η eine Aufgabe (= Item) eines gewissen Schwierigkeitsgrades β löst
  • Das Modell vergleicht die Kompetenz der Person mit der Schwierigkeit des Items und sagt die statistische Wahrscheinlichkeit voraus, dass die Person das Item richtig löst:
    • Wenn die Person viel höhere Fähigkeiten besitzt, als das Item mit seiner Schwierigkeit voraussetzt, dann ist diese Wahrscheinlichkeit groß
    • Wenn die Aufgabe hingegen viel schwieriger ist, als die Person kompetent ist, dann ist diese Wahrscheinlichkeit klein
  • Charakteristische Item-Kurve: Wahrscheinlichkeit P einer richtigen Antwort für Person mit Fähigkeit η auf ein Item mit Schwierigkeit β als logistische Funktion der Differenz zwischen Personenfähigkeit und Itemschwierigkeit
  • umgedreht: Differenz zwischen Personenfähigkeit und Itemschwierigkeit ist Logit von P (d.h. der natürliche Logarithmus der Erfolgschance) η-β = ln(P/(1-P))
  • Informationsfunktion eines Items: P*(1-P), d.h. wir lernen am meisten, wenn die erwartete Wahrscheinlichkeit nahe bei der Hälfte liegt (P = 0,5), i.e. η ≈ β 

Algorithmus des Moodle-Plugins

  • Benjamin Drake Wright (1988) beschreibt einen einfacheren Algorithmus für den Einsatz in einem Umfeld mit geringen Anforderungen (low stakes). Da ohnehin keine Kapazitäten für die Erstellung von genau kalibrierten Items bestehen, ist dies in unserem Kontext vollkommen ausreichend.
  • Die Aufgabenauswahl erfolgt hier gemäß einer von vornherein festgelegten Verzweigungsstrategie.
  • Zur Erreichung derselben Messgenauigkeit wie beim Tailored Testing (Auswahl der Folgeaufgabe anhand Maximum der Informationsfunktionen passend zum aktuell berechneten Fähigkeitsmaß) benötigt man etwas mehr Aufgaben - grundsätzlich aber dennoch weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016).
  • Obwohl es sich um einen groben Ansatz handelt, können diese Methoden dieselben Ergebnisse liefern wie anspruchsvollere CAT-Techniken (Yao, 1991).
  • Die Schwierigkeitsniveaus werden auf eine Logit-Skala transformiert, dort erfolgen alle Berechnungen. Das Fähigkeitsniveau (und der Fehler) werden anschließend zurück transformiert.
  • Das Schwierigkeitsniveau der nächsten Frage ergibt sich aus dem Schwierigkeitsniveau der vorhergehenden Frage durch Abweichung nach oben bzw. unten in immer kleiner werdenden Schritten (Doppeltes der harmonischen Folge) je nach Antwort des Probanden (für + bzw. -).
  • Das ausgegebene Fähigkeitsmaß ist unabhängig von der Reihenfolge der bearbeitetet Items. Es berechnet sich (auf der Logit-Skala) als durchschnittliche Schwierigkeit aller vorgelegten Items korrigiert um die Logitfunktion des Anteils an richtig gelösten Items.
  • No labels