You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 2 Next »

Idee

  • Adaptiver Test simuliert automatisch das Vorgehen eines erfahrenen Prüfers: Zu schwierige oder zu leichte Fragen bringen wenig Erkenntnis über die Fähigkeiten einer Person → Fragen sollten auf dem Niveau der Kompetenz des Prüflings gestellt werden
  • Zu leichte Tests provozieren ungewolltes Verhalten wie Flüchtigkeitsfehler oder falsche Antworten auf scheinbare Fangfragen; zu schwierige Fragen führen dazu, dass Kandidaten versuchen, Ergebnisse zu erraten (=Fehlinformation für Prüfer)
  • adaptiver Test beginnt mit einer Frage mittlerer Schwierigkeit, richtige Antwort führt zu schwierigerer Frage, falsche zu leichterer → Fortsetzung bis zur genauen Ermittlung der Kompetenz des Prüflings
  • Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? → Mathematisches Modell der Item-Response-Theorie zur Lösung dieses Problems


Funktionsweise

image-2024-4-25_18-26-34.png


(1) Wie werden die Fragen ausgewählt?

  • Startlevel:
    • mittig, Icebreaker, unterhalb mittlerem Niveau oder unterhalb geschätztem Level (falls Vorinformation), damit Erfolg motiviert
    • Geringer Einfluss auf Ergebnis
  • Folge-Items:
    • fest verzweigter Algorithmus: richtige Antwort → höheres Niveau, falsche Antwort → niedrigeres Niveau
    • randomisierte Aufgabenauswahl aus einem Fenster um die geschätzte Fähigkeit herum (50/50-Chance)

(2) Wie werden die Antworten bewertet?

  • Einschränkung auf automatisch auswertbares Aufgabenformat, z.B. MC (Multiple Selection Auswahlkästchen / Single Choice Radio Buttons), Zuordnung, Lückentext mit klaren Synonymvorgaben, mathematische Ausdrücke mit CAS etc.
  • leider noch kein Text per KI hinreichend gut bewertbar

(3) Wann endet ein Testdurchlauf? 

  • feste maximale Anzahl von Items
  • maximale Testzeit: derzeit im Plugin nicht implementiert
  • alle im Itempool verfügbaren Items passenden Niveaus
  • hinreichend kleiner Standardfehler bei der Fähigkeitsschätzung

(4) Was wird zurückgegeben?

  • Aussage zum Niveau des Probanden
  • Vorsichtige Interpretation erforderlich, da Stufe 3 bedeutet, dass sie/er eine 50/50-Chance hat, Fragen der Stufe 3 richtig zu beantworten, d.h. er/sie beherrscht diese Fragen noch nicht, sondern "kann sich mit ihnen messen" 

Vorteile

 thumbs upwrapped gift

  • kürzere Testdauer (50-60%) bei gleicher Messgenauigkeit bzw. erhöhte Validität bei gleicher Testlänge
  • Schwierigkeitsgrad der Fragen entspricht dem individuellen Leistungsniveau des Probanden 
    • → höhere Trennschärfen im oberen und unteren Bereich
    • für Probanden im unteren Bereich kommen weniger zu schwierige Fragen → verringert die Wahrscheinlichkeit von lediglich erratenen richtigen Antworten
    • für Probanden im oberen Bereich kommen weniger zu leichte Fragen → verringert irrtümliche Falschantworten, die durch die Wahrnehmung scheinbarer Fangfragen oder durch Flüchtigkeit aufgrund von Langeweile entstehen
  • der gesamte Fragenpool kann verwendet werden → weniger Abnutzung als für in konventionellen Tests ausgewählte Fragen


Beachtenswerte Unterschiede

warning
  •  nicht alle Studierenden erhalten die gleichen Fragen
    • Verteilung der Fragenschwierigkeiten über unterschiedliche Inhaltsbereiche beachten
    • derzeitige Empfehlung daher für formative Tests nach inhaltlich relativ homogenen Abschnitten
  • Zeitmanagement:
    • keine feste Anzahl von Fragen, sondern nur die maximale erwartete Anzahl von Fragen wird angezeigt
    • (derzeit) kein Zeit-Limit implementiert
    • kein Überspringen und späteres Nachlösen von Items möglich (ähnlich wie beim Frageverhalten mit sofortigem Feedback im regulären Moodle-Quiz-Format)
  • ungewohnte Erfahrung für die Studierenden, dass unabhängig von der eigenen Anstrengung bzw. dem Leistungsniveau im Mittel nur ca. die Hälfte der vorgelegten Items gelöst werden kann (50/50 Chance)
    • für leistungsstarke Testpersonen evtl. demotivierend, weil anderes Fähigkeitsselbstkonzept/Selbstwirksamkeitserwartung
    • tatsächlich werden dadurch eigentlich zwischen Personengruppen variierende motivationale Auswirkungen vermieden
    • Funktionsweise des Tests muss daher transparent erläutert werden
  • Rückmeldung in Form eines Leistungsniveaus anstatt wie gewohnt als Prozentsatz oder Note
    • eine verbalisierte Interpretationshilfe für Studierende ist hier von Nutzen (derzeit noch nicht im Plugin integriert)



Einsatzerfahrungen

  • Nach einer Untersuchung des Plugin-Algorithmus und ausführlichen Praxisprüfung des Funktionalität des Plugins auf dem dazu erstellten KNIGHT-Moodle-Forschungsserver anhand von systematisch erstellten Dummy-Fragen u.a. zur Anzahl der Schwierigkeitsstufen wurde im WiSe22/23 im Rahmen von PGM1 und PGM2 mit einzelne Feldstudien zur Anwendbarkeit und Akzeptanz begonnen. Im darauffolgenden Semester erweiterten wir das Plugin um die Möglichkeit zur flexiblen Verwendung von Fragen mit Teilpunktbewertung (aus vorhandenen Fragensammlungen) und untersuchten unterschiedliche Optionen zur Schwierigkeitseinstufung für Fragen. In Abstimmung mit dem Ethikpaket des Projekts wurde aus Gründen der Qualitätssicherung des weiteren eine automatisierte Benachrichtigung für Administratoren und Lehrkräfte implementiert, welche die Notwendigkeit einer regelmäßig wiederkehrenden Überprüfung der Gültigkeit der Einordnung der Fragen in die Schwierigkeitsstufen hervorhebt und hierzu die durch das Plugin erstellte Fragenauswertung empfiehlt. Im WiSe23/24 erfolgte mit der Pilotierung in den PVLn von Mathe1 BB/WBI ein erster Transfer innerhalb der HfT mit dem Ziel weitere Erfahrungswerte zu generieren und Studierendenfeedback einzuholen. Mit dem Einverständnis der Studierenden wurden Testverläufe erhoben, Umfragen ausgewertet und Interviews geführt. Infolge des hier geäußerten Bedürfnisses, Rückmeldungen zu falschen Antworten einsehen zu können, wurde das Plugin um eine entsprechende Funktionalität erweitert. Im Rahmen von Mathe1 BB1A wurden dann während des SoSe24 vergleichende Untersuchungen zu adaptive und nicht-adaptiven Übungen als PVL-Vorbereitung durchgeführt. Im Anschluss erfolgte die Erstellung eines Leitfadens zur Nutzung adaptiver Tests in Form dieses Wikis zur Vorbereitung auf einen weiteren Transfer nach außen. 
  • Link zu Publikation Book Chapter

Empfohlene Einsatzszenarien

  • ohne Domänenmanagement → kurze Tests nach Abschluss eines Themenbereichs (inhaltlich relativ homogenen)
  • z.B. als Selbsttests/Übungen zur Vorbereitung auf Prüfungen/PVL
  • besonders geeignet für formative Tests, denn je nach Wissenszuwachs werden verschiedene Aufgaben präsentiert
  • weniger geeignet für summative Tests

Anforderungen an Items

  • automatisch bewertbar: geschlossenes Format (z.B. Single Choice, Multiple Selection, Lückentext o.ä.) oder offenes Format mit CAS-Bewertung
  • d.h. noch keine Kurzantwort oder Texte 
  • Algorithmus benötigt dichotomes Antwortformat (richtig oder falsch), d.h. Aufgaben mit Teilpunkten können nur über Schwellenwert abgebildet werden
  • keine Wichtung der inhaltlichen Relevanz von Items durch erhöhte Punktzahlen möglich
  • Schwierigkeitsgrad der Fragen muss bekannt sein und sollte möglichst Kompetenzstufen abbilden (und nicht z.B. nur erhöhten Zeitbedarf widerspiegeln)
  • ausreichende Anzahl von Aufgaben auf allen Niveaus nötig (auch obere und untere Grenzbereiche)

Rückmeldung

  • Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis


  • Achtung: Konventionell werden zur Bewertung von Leistungen Prozentsatz und Note verwendet und per Schlüssel (an unterschiedlichen Institutionen nicht identisch, aber ähnlich gehandhabt) ineinander überführt. Tests werden dann bewertet anhand der Frage: Wie viele Aufgaben wurden erfolgreich (oder teilweise) erledigt. Der Begriff der Kompetenzstufe bedeuten hingegen üblicherweise: Die/der Studierende beherrscht die Fertigkeiten dieser Stufe. Hier allerdings bedeutet die Rückmeldung eines Fähigkeitsniveaus: Die/der Studierende hat eine 50/50 Chance, eine Frage dieses Schwierigkeitsniveaus richtig zu beantworten. Daher ist eine verbalisierte Interpretationshilfe für Studierende nötig.
  • zu jedem Fragen-Schwierigkeitsniveau (=Kompetenzniveau?) sollte eine Beschreibung der erforderlichen Fähigkeiten formuliert werden
  • die Bedeutung des rückgemeldeten Fähigkeitsmaßes muss erklärt werden, da es nicht den bekannten Konventionen entspricht: z.B. Studierende von Fähigkeitsniveau 3 können nicht alle Aufgaben des Schwierigkeitsniveaus 3 lösen; sie beherrschen dieses Niveau also noch nicht richtig, sondern können/sollten auf diesem Niveau weiterarbeiten
  • derzeit noch nicht im Plugin integriert, sondern separat zu beschreiben
  • Integration in die Ergebnisrückmeldung des Plugins ist in Bearbeitung und Feedback dazu, wie dies bestmöglich gestaltet sein könnte, ist ausdrücklich erwünscht

Motivation

Idee

  • Adaptiver Test simuliert automatisch das Vorgehen eines erfahrenen Prüfers: Zu schwierige oder zu leichte Fragen bringen wenig Erkenntnis über die Fähigkeiten einer Person → Fragen sollten auf dem Niveau der Kompetenz des Prüflings gestellt werden
  • Zu leichte Tests provozieren ungewolltes Verhalten wie Flüchtigkeitsfehler oder falsche Antworten auf scheinbare Fangfragen; zu schwierige Fragen führen dazu, dass Kandidaten versuchen, Ergebnisse zu erraten (=Fehlinformation für Prüfer)
  • adaptiver Test beginnt mit einer Frage mittlerer Schwierigkeit, richtige Antwort führt zu schwierigerer Frage, falsche zu leichterer → Fortsetzung bis zur genauen Ermittlung der Kompetenz des Prüflings
  • Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? → Mathematisches Modell der Item-Response-Theorie zur Lösung dieses Problems

Funktionsweise


(1) Wie wählt man Fragen aus?

  • Startlevel:
    • mittig, Icebreaker, unterhalb mittlerem Niveau oder unterhalb geschätztem Level (falls Vorinformation), damit Erfolg motiviert
    • Geringer Einfluss auf Ergebnis
  • Folge-Items:
    • fest verzweigter Algorithmus: richtige Antwort → höheres Niveau, falsche Antwort → niedrigeres Niveau
    • randomisierte Aufgabenauswahl aus einem Fenster um die geschätzte Fähigkeit herum (50/50-Chance)

(2) Wie bewertet man die Antwort?

  • Einschränkung auf automatisch auswertbares Aufgabenformat, z.B. MC (Multiple Selection Auswahlkästchen / Single Choice Radio Buttons), Zuordnung, Lückentext mit klaren Synonymvorgaben, mathematische Ausdrücke mit CAS etc.
  • leider noch kein Text per KI hinreichend gut bewertbar

(3) Wann soll angehalten werden? 

  • feste maximale Anzahl von Items
  • maximale Testzeit: derzeit im Plugin nicht implementiert
  • alle im Itempool verfügbaren Items passenden Niveaus
  • hinreichend kleiner Standardfehler bei der Fähigkeitsschätzung

(4) Was wird zurückgegeben?

  • Aussage zum Niveau des Probanden
  • Vorsichtige Interpretation erforderlich, da Stufe 3 bedeutet, dass sie/er eine 50/50-Chance hat, Fragen der Stufe 3 richtig zu beantworten, d.h. er/sie beherrscht diese Fragen noch nicht, sondern "kann sich mit ihnen messen" 

Vorteile

 thumbs upwrapped gift

  • kürzere Testdauer (50-60%) bei gleicher Messgenauigkeit bzw. erhöhte Validität bei gleicher Testlänge
  • Schwierigkeitsgrad der Fragen entspricht dem individuellen Leistungsniveau des Probanden 
    • → höhere Trennschärfen im oberen und unteren Bereich
    • für Probanden im unteren Bereich kommen weniger zu schwierige Fragen → verringert die Wahrscheinlichkeit von lediglich erratenen richtigen Antworten
    • für Probanden im oberen Bereich kommen weniger zu leichte Fragen → verringert irrtümliche Falschantworten, die durch die Wahrnehmung scheinbarer Fangfragen oder durch Flüchtigkeit aufgrund von Langeweile entstehen
  • der gesamte Fragenpool kann verwendet werden → weniger Abnutzung als für in konventionellen Tests ausgewählte Fragen

Beachtenswerte Unterschiede

 warning

  • nicht alle Studierenden erhalten die gleichen Fragen
    • Verteilung der Fragenschwierigkeiten über unterschiedliche Inhaltsbereiche beachten
    • derzeitige Empfehlung daher für formative Tests nach inhaltlich relativ homogenen Abschnitten
  • Zeitmanagement:
    • keine feste Anzahl von Fragen, sondern nur die maximale erwartete Anzahl von Fragen wird angezeigt
    • (derzeit) kein Zeit-Limit implementiert
    • kein Überspringen und späteres Nachlösen von Items möglich (ähnlich wie beim Frageverhalten mit sofortigem Feedback im regulären Moodle-Quiz-Format)
  • ungewohnte Erfahrung für die Studierenden, dass unabhängig von der eigenen Anstrengung bzw. dem Leistungsniveau im Mittel nur ca. die Hälfte der vorgelegten Items gelöst werden kann (50/50 Chance)
    • für leistungsstarke Testpersonen evtl. demotivierend, weil anderes Fähigkeitsselbstkonzept/Selbstwirksamkeitserwartung
    • tatsächlich werden dadurch eigentlich zwischen Personengruppen variierende motivationale Auswirkungen vermieden
    • Funktionsweise des Tests muss daher transparent erläutert werden
  • Rückmeldung in Form eines Leistungsniveaus anstatt wie gewohnt als Prozentsatz oder Note
    • eine verbalisierte Interpretationshilfe für Studierende ist hier von Nutzen (derzeit noch nicht im Plugin integriert)

Erfahrungsberichte

Einsatzerfahrungen

  • Nach einer Untersuchung des Plugin-Algorithmus und ausführlichen Praxisprüfung des Funktionalität des Plugins auf dem dazu erstellten KNIGHT-Moodle-Forschungsserver anhand von systematisch erstellten Dummy-Fragen u.a. zur Anzahl der Schwierigkeitsstufen wurde im WiSe22/23 im Rahmen von PGM1 und PGM2 mit einzelne Feldstudien zur Anwendbarkeit und Akzeptanz begonnen. Im darauffolgenden Semester erweiterten wir das Plugin um die Möglichkeit zur flexiblen Verwendung von Fragen mit Teilpunktbewertung (aus vorhandenen Fragensammlungen) und untersuchten unterschiedliche Optionen zur Schwierigkeitseinstufung für Fragen. In Abstimmung mit dem Ethikpaket des Projekts wurde aus Gründen der Qualitätssicherung des weiteren eine automatisierte Benachrichtigung für Administratoren und Lehrkräfte implementiert, welche die Notwendigkeit einer regelmäßig wiederkehrenden Überprüfung der Gültigkeit der Einordnung der Fragen in die Schwierigkeitsstufen hervorhebt und hierzu die durch das Plugin erstellte Fragenauswertung empfiehlt. Im WiSe23/24 erfolgte mit der Pilotierung in den PVLn von Mathe1 BB/WBI ein erster Transfer innerhalb der HfT mit dem Ziel weitere Erfahrungswerte zu generieren und Studierendenfeedback einzuholen. Mit dem Einverständnis der Studierenden wurden Testverläufe erhoben, Umfragen ausgewertet und Interviews geführt. Infolge des hier geäußerten Bedürfnisses, Rückmeldungen zu falschen Antworten einsehen zu können, wurde das Plugin um eine entsprechende Funktionalität erweitert. Im Rahmen von Mathe1 BB1A wurden dann während des SoSe24 vergleichende Untersuchungen zu adaptive und nicht-adaptiven Übungen als PVL-Vorbereitung durchgeführt. Im Anschluss erfolgte die Erstellung eines Leitfadens zur Nutzung adaptiver Tests in Form dieses Wikis zur Vorbereitung auf einen weiteren Transfer nach außen. 
  • Link zu Publikation Book Chapter

Empfehlenswerte Einsatzszenarien

  • ohne Domänenmanagement → kurze Tests nach Abschluss eines Themenbereichs (inhaltlich relativ homogenen)
  • z.B. als Selbsttests/Übungen zur Vorbereitung auf Prüfungen/PVL
  • besonders geeignet für formative Tests, denn je nach Wissenszuwachs werden verschiedene Aufgaben präsentiert
  • weniger geeignet für summative Tests

Anforderungen an Items

  • automatisch bewertbar: geschlossenes Format (z.B. Single Choice, Multiple Selection, Lückentext o.ä.) oder offenes Format mit CAS-Bewertung
  • d.h. noch keine Kurzantwort oder Texte 
  • Algorithmus benötigt dichotomes Antwortformat (richtig oder falsch), d.h. Aufgaben mit Teilpunkten können nur über Schwellenwert abgebildet werden
  • keine Wichtung der inhaltlichen Relevanz von Items durch erhöhte Punktzahlen möglich
  • Schwierigkeitsgrad der Fragen muss bekannt sein und sollte möglichst Kompetenzstufen abbilden (und nicht z.B. nur erhöhten Zeitbedarf widerspiegeln)
  • ausreichende Anzahl von Aufgaben auf allen Niveaus nötig (auch obere und untere Grenzbereiche)

Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis

  • Achtung: Konventionell werden zur Bewertung von Leistungen Prozentsatz und Note verwendet und per Schlüssel (an unterschiedlichen Institutionen nicht identisch, aber ähnlich gehandhabt) ineinander überführt. Tests werden dann bewertet anhand der Frage: Wie viele Aufgaben wurden erfolgreich (oder teilweise) erledigt. Der Begriff der Kompetenzstufe bedeuten hingegen üblicherweise: Die/der Studierende beherrscht die Fertigkeiten dieser Stufe. Hier allerdings bedeutet die Rückmeldung eines Fähigkeitsniveaus: Die/der Studierende hat eine 50/50 Chance, eine Frage dieses Schwierigkeitsniveaus richtig zu beantworten. Daher ist eine verbalisierte Interpretationshilfe für Studierende nötig.
  • zu jedem Fragen-Schwierigkeitsniveau (=Kompetenzniveau?) sollte eine Beschreibung der erforderlichen Fähigkeiten formuliert werden
  • die Bedeutung des rückgemeldeten Fähigkeitsmaßes muss erklärt werden, da es nicht den bekannten Konventionen entspricht: z.B. Studierende von Fähigkeitsniveau 3 können nicht alle Aufgaben des Schwierigkeitsniveaus 3 lösen; sie beherrschen dieses Niveau also noch nicht richtig, sondern können/sollten auf diesem Niveau weiterarbeiten
  • derzeit noch nicht im Plugin integriert, sondern separat zu beschreiben
  • Integration in die Ergebnisrückmeldung des Plugins ist in Bearbeitung und Feedback dazu, wie dies bestmöglich gestaltet sein könnte, ist ausdrücklich erwünscht

Moodle-Plugin

optionale Plugin-Einstellungen

  • Plugin-Installation durch Moodle-Admin ...
  • Erstellen einer Moodle-Aktivität Quiz mit (anstatt dem gewohnten )
  • notwendige Einstellungen ...
  • optionale Einstellungen ...
  • unsere neu hinzugefügten Einstellungen
    • Teilpunkte → siehe Einrichtung Item-Pool
    • Studierenden-Review → siehe Versuchsüberprüfung
    • Überarbeitungs-Erinnerung → siehe Aufgabenanalyse

Einrichtung Item-Pools

  • Kategorie unter Fragensammlung einrichten
  • Fragen erstellen (mit "Tag")
  • "Tags" bei vorhandenen Fragen hinzufügen ("Tags verwalten")
  • Überlegungen zur Anzahl Schwierigkeitsstufen ...
  • Einstufung vorhandener Fragen anhand der Ansätze:
    • Lösungshäufigkeit ...
    • Bloom-Einstufung ...
    • mittels Scaffolding ...
  • Umgang mit Teilpunkten - Einstellung des Schwellwertes

Versuchsbericht/Versuchsüberprüfung 

  • 4 Tabs
  • Interpretation Verlaufsgrafik ...
  • Ansicht für Studierende

Aufgabenanalyse

  • "Flag" zur Erinnerung
  • Achtung: Die globale Fragenanalyse in den Spalten der Fragensammlung bleibt unberührt, da diese nur im klassischen Quiz eingebunden

  • stattdessen lokale Fragenauswertung innerhalb von jedem adaptiven Quiz:
    • Anzahl Nutzungen
    • % korrekt → sollte (ab einer bestimmten Anzahl an Nutzungen) um 50% liegen, da Algorithmus Fragen mit vermuteter 50/50-Chance auswählt
    • Diskriminierung ...

Hintergrund

Exkurs IRT

  • Während der klassische Testtheorie Rohwerte (Punkte, Prozentsätze) berechnet, betrachtet die Item-Response-Theorie (1-parametrisches Rasch-Modell) Antwortmuster
  • Unterscheidung zwischen Personen-Parameter (Fähigkeit η) und Item-Parameter (Schwierigkeit β), aber auf gleicher Skala
  • mathematische Charakterisierung dessen, was passiert, wenn eine Person mit einer bestimmten latenten Fähigkeit η ein Item eines gewissen Schwierigkeitsgrades β löst
  • Modell vergleicht die Kompetenz der Person mit der Schwierigkeit des Items und sagt die statistische Wahrscheinlichkeit voraus, dass die Person das Item richtig löst:
    • Wenn die Person viel höhere Fähigkeiten besitzt, als das Item mit seiner Schwierigkeit voraussetzt, dann ist diese Wahrscheinlichkeit groß
    • Wenn die Aufgabe hingegen viel schwieriger ist, als die Person kompetent ist, dann ist diese Wahrscheinlichkeit klein
  • Charakteristische Kurve: Wahrscheinlichkeit P einer richtigen Antwort für Person mit Fähigkeit η auf Item mit Schwierigkeit β als logistische Funktion der Differenz zwischen Personenfähigkeit und Itemschwierigkeit
  • umgedreht: Differenz zwischen Personenfähigkeit und Itemschwierigkeit ist Logit von P (d.h. de natürliche Logarithmus der Erfolgschance) η-β = ln(P/(1-P))
  • Informationsfunktion eines Items: P*(1-P), d.h. wir lernen am meisten, wenn die erwartete Wahrscheinlichkeit nahe bei der Hälfte liegt (P = 0,5), i.e. η ≈ β 

Algo Moodle-Plugin

  • Benjamin Drake Wright (1988) einfacherer Algorithmus für den Einsatz in einem Umfeld mit geringen Anforderungen (low stakes), da wir ohnehin keine Kapazitäten für die Erstellung von genau kalibrierten Items haben
  • Aufgabenauswahl hier gemäß einer von vornherein festgelegten Verzweigungsstrategie
  • zur Erreichung derselben Messgenauigkeit wie beim Tailored Testing (Auswahl der Folgeaufgabe anhand Maximum der Informationsfunktionen passend zum aktuell berechneten Fähigkeitsmaß) benötigt man etwas mehr Aufgaben - grundsätzlich aber weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016)
  • Obwohl es sich um einen groben Ansatz handelt, können diese Methoden dieselben Ergebnisse liefern wie anspruchsvollere CAT-Techniken (Yao, 1991)
  • Schwierigkeitsniveaus werden auf Logit-Skala transformiert, Berechnungen erfolgen dort, Fähigkeitsniveau (und Fehler) anschließend zurück transformiert
  • Neues Frageniveau ergibt sich aus vorherigem Frageniveau durch Abweichung nach oben oder untern in kleiner werdenden Schritten (Doppeltes der harmonischen Folge) je nach Itemantwort (für + bzw. -)
  • Fähigkeitsmaß ist unabhängig von der Reihenfolge der bearbeitetet Items: durchschnittliche Schwierigkeit aller vorgelegten Items korrigiert um Logitfunktion des Anteils an richtig gelösten Items
  • No labels