Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

UI Tabs
UI Tab
titleExkurs IRT

Exkurs zur Item-Response-Theory

Image Modified

Gelegentlich wird die Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? Die Item-Response-Theorie bietet dazu den zugrundeliegende Lösungsansatz. Während in der klassische Testtheorie

Rohwerte (Punkte, Prozentsätze) berechnet

die Rohwerte als Punktezahl bzw. Prozentsätze benutzt werden, betrachtet die Item-Response-Theorie

(1-parametrisches Rasch-Modell) Antwortmuster
  • Unterscheidung zwischen Personen-Parameter (Fähigkeit η) und Item-Parameter (Schwierigkeit β), aber auf gleicher Skala
  • die Antwortmuster. 

    Das bekannteste Modell ist dabei das Rasch-Modell. Es bildet die mathematische Beschreibung

    mathematische Charakterisierung

    dessen, was passiert, wenn eine Person mit einer bestimmten latenten Fähigkeit (η

    ein Item

    ) eine Aufgabe eines gewissen Schwierigkeitsgrades (β

    löstModell vergleicht

    ) löst. Hierzu werden der sogenannte Personen-Parameter (Fähigkeit η) und der Item-Parameter (Aufgabenschwierigkeit β) auf der gleichen Skala abgebildet, um die Kompetenz der Person mit der Schwierigkeit des Items

    und sagt die statistische Wahrscheinlichkeit voraus, dass die Person das Item richtig löst:
  • Wenn die Person viel höhere Fähigkeiten besitzt, als das Item mit seiner Schwierigkeit voraussetzt, dann ist diese Wahrscheinlichkeit groß
  • Wenn die Aufgabe hingegen

    zu vergleichen. Die nebenstehende charakteristische Kurve eines Item mit Schwierigkeit β gibt dabei die Wahrscheinlichkeit an, mit der eine Person mit Fähigkeit η dieses Item richtig beantworten kann. Ihr Verlauf als logistische Funktion der Differenz zwischen Personenfähigkeit und Itemschwierigkeit verdeutlicht: Wenn die Fähigkeit einer Person die Itemschwierigkeit übersteigt, dann ist die Wahrscheinlichkeit groß, dass das Item von der Person richtig gelöst wird. Wenn hingegen die Aufgabe viel schwieriger ist, als die Person kompetent ist, dann ist diese Wahrscheinlichkeit klein

  • Charakteristische Kurve: Wahrscheinlichkeit P einer richtigen Antwort für Person mit Fähigkeit η auf Item mit Schwierigkeit β als logistische Funktion der Differenz zwischen Personenfähigkeit und Itemschwierigkeit
  • umgedreht: Differenz zwischen Personenfähigkeit und Itemschwierigkeit ist Logit von P (d.h. de natürliche Logarithmus der Erfolgschance) η-β = ln(P/(1-P))
  • Informationsfunktion eines Items

    . Wenn Personenfähigkeit und Itemschwierigkeit übereinstimmen, dann besteht für den Probanden eine 50/50-Chance, diese Aufgabe lösen zu können. 

    Image AddedDies ist auch aus der zugehörigen (links abgebildeten) Informationsfunktion eines Items ablesebar: Diese berechnet sich als Produkt der Lösungswahrscheinlichkeit mit ihrer Gegenwahrscheinlichkeit: P*(1-P)

    , d.h. wir lernen am meisten, wenn die erwartete Wahrscheinlichkeit

    . Die Informationsfunktion hat ihr Maximum bei P = 0,5, woraus sich ergibt, dass der größte Informationszuwachs zur Einschätzung der Fähigkeit eines Probanden dann erzielt wird, wenn man diesem ein Item vorlegt, für das die erwartete Lösungswahrscheinlichkeit nahe bei der Hälfte liegt

    (P = 0,5), i.e. η ≈ β 

    , m.a.W. welches in seiner Schwierigkeit der Fähigkeit des Probanden entspricht (η ≈ β).

    Um für jedes Aufgabe die Aufgabenschwierigkeit möglichst korrekt zu bestimmen, müssten die Aufgaben zuvor in großangelegten Studien kalibriert werden. In unserem Kontext ist uns dies nicht möglich, weshalb wir diesbezüglich auf verschiedene Heuristiken zurückgreifen und für die Aufgabenauswahl einen vereinfachten Algorithmus nutzen.

    Thema

    UI Tab
    titleAlgorithmus

    Algorithmus des Moodle-Plugins

    Image Modified

    Im Plugin ist ein von Benjamin Drake Wright (1988)

    einfacherer

    beschriebener vereinfachter Algorithmus hinterlegt, der für den Einsatz in einem Umfeld mit geringen Anforderungen (low stakes)

    , da wir ohnehin keine Kapazitäten für die Erstellung von genau kalibrierten Items habenAufgabenauswahl

    ausreichend ist. Die Aufgabenauswahl erfolgt hier gemäß einer von vornherein festgelegten Verzweigungsstrategie (Branched Testing).

    zur

    Zur Erreichung derselben Messgenauigkeit wie beim Tailored Testing

    (

    , bei dem die Auswahl der Folgeaufgabe anhand

    Maximum der Informationsfunktionen passend

    des Maximums aller Informationsfunktionen der zum aktuell berechneten Fähigkeitsmaß

    )

    passenden Items erfolgt, benötigt man etwas mehr Aufgaben - grundsätzlich aber dennoch weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016)

    . Obwohl es sich um einen groben Ansatz handelt, können diese Methoden dieselben Ergebnisse liefern wie anspruchsvollere CAT-Techniken (Yao, 1991).

    Schwierigkeitsniveaus werden auf

    Für alle Berechnungen wird die Spanne der Schwierigkeitsniveaus zunächst auf eine Logit-Skala transformiert

    , Berechnungen erfolgen dort, Fähigkeitsniveau (und Fehler) anschließend zurück transformiertNeues Frageniveau ergibt sich aus vorherigem Frageniveau

    Das Schwierigkeitsniveau der nächsten Frage ergibt sich dann aus dem Schwierigkeitsniveau der vorhergehenden Frage durch Abweichung nach oben

    oder untern

    bzw. unten in immer kleiner werdenden Schritten (Doppeltes der harmonischen Folge) je nach

    Itemantwort (für + bzw. -)Fähigkeitsmaß ist unabhängig von der Reihenfolge der bearbeitetet Items:

    Antwort des Probanden. Das Fähigkeitsmaß berechnet sich anschließend als durchschnittliche Schwierigkeit aller vorgelegten Items korrigiert um die Logitfunktion des Anteils an richtig gelösten Items

    UI Tab
    titleThema 3
    UI Tab
    titleThema 4
    Thema

    . Es wird auf die Spanne der Schwierigkeitsniveaus zurück transformiert und gemeinsam mit dem Standardfehler ausgegeben.