Idee

Adaptiver Test simuliert automatisch das Vorgehen eines erfahrenen Prüfers: Zu schwierige oder zu leichte Fragen bringen wenig Erkenntnis über die Fähigkeiten einer Person → Fragen sollten auf dem Niveau der Kompetenz des Prüflings gestellt werden
Zu leichte Tests provozieren ungewolltes Verhalten wie Flüchtigkeitsfehler oder falsche Antworten auf scheinbare Fangfragen; zu schwierige Fragen führen dazu, dass Kandidaten versuchen, Ergebnisse zu erraten (=Fehlinformation für Prüfer)
adaptiver Test beginnt mit einer Frage mittlerer Schwierigkeit, richtige Antwort führt zu schwierigerer Frage, falsche zu leichterer → Fortsetzung bis zur genauen Ermittlung der Kompetenz des Prüflings
Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? → Mathematisches Modell der Item-Response-Theorie zur Lösung dieses Problems

Funktionsweise

(1) Wie werden die Fragen ausgewählt?

Startlevel:
- mittig, Icebreaker, unterhalb mittlerem Niveau oder unterhalb geschätztem Level (falls Vorinformation), damit Erfolg motiviert
- Geringer Einfluss auf Ergebnis
Folge-Items:
- fest verzweigter Algorithmus: richtige Antwort → höheres Niveau, falsche Antwort → niedrigeres Niveau
- randomisierte Aufgabenauswahl aus einem Fenster um die geschätzte Fähigkeit herum (50/50-Chance)

(2) Wie werden die Antworten bewertet?

Einschränkung auf automatisch auswertbares Aufgabenformat, z.B. MC (Multiple Selection Auswahlkästchen / Single Choice Radio Buttons), Zuordnung, Lückentext mit klaren Synonymvorgaben, mathematische Ausdrücke mit CAS etc.
leider noch kein Text per KI hinreichend gut bewertbar

(3) Wann endet ein Testdurchlauf?

feste maximale Anzahl von Items
maximale Testzeit: derzeit im Plugin nicht implementiert
alle im Itempool verfügbaren Items passenden Niveaus
hinreichend kleiner Standardfehler bei der Fähigkeitsschätzung

(4) Was wird zurückgegeben?

Aussage zum Niveau des Probanden
Vorsichtige Interpretation erforderlich, da Stufe 3 bedeutet, dass sie/er eine 50/50-Chance hat, Fragen der Stufe 3 richtig zu beantworten, d.h. er/sie beherrscht diese Fragen noch nicht, sondern "kann sich mit ihnen messen"

Vorteile

kürzere Testdauer (50-60%) bei gleicher Messgenauigkeit bzw. erhöhte Validität bei gleicher Testlänge
Schwierigkeitsgrad der Fragen entspricht dem individuellen Leistungsniveau des Probanden
- → höhere Trennschärfen im oberen und unteren Bereich
- für Probanden im unteren Bereich kommen weniger zu schwierige Fragen → verringert die Wahrscheinlichkeit von lediglich erratenen richtigen Antworten
- für Probanden im oberen Bereich kommen weniger zu leichte Fragen → verringert irrtümliche Falschantworten, die durch die Wahrnehmung scheinbarer Fangfragen oder durch Flüchtigkeit aufgrund von Langeweile entstehen
der gesamte Fragenpool kann verwendet werden → weniger Abnutzung als für in konventionellen Tests ausgewählte Fragen

Beachtenswerte Unterschiede

nicht alle Studierenden erhalten die gleichen Fragen
- Verteilung der Fragenschwierigkeiten über unterschiedliche Inhaltsbereiche beachten
- derzeitige Empfehlung daher für formative Tests nach inhaltlich relativ homogenen Abschnitten
Zeitmanagement:
- keine feste Anzahl von Fragen, sondern nur die maximale erwartete Anzahl von Fragen wird angezeigt
- (derzeit) kein Zeit-Limit implementiert
- kein Überspringen und späteres Nachlösen von Items möglich (ähnlich wie beim Frageverhalten mit sofortigem Feedback im regulären Moodle-Quiz-Format)
ungewohnte Erfahrung für die Studierenden, dass unabhängig von der eigenen Anstrengung bzw. dem Leistungsniveau im Mittel nur ca. die Hälfte der vorgelegten Items gelöst werden kann (50/50 Chance)
- für leistungsstarke Testpersonen evtl. demotivierend, weil anderes Fähigkeitsselbstkonzept/Selbstwirksamkeitserwartung
- tatsächlich werden dadurch eigentlich zwischen Personengruppen variierende motivationale Auswirkungen vermieden
- Funktionsweise des Tests muss daher transparent erläutert werden
Rückmeldung in Form eines Leistungsniveaus anstatt wie gewohnt als Prozentsatz oder Note
- eine verbalisierte Interpretationshilfe für Studierende ist hier von Nutzen (derzeit noch nicht im Plugin integriert)

Einsatzerfahrungen

Nach einer Untersuchung des Plugin-Algorithmus und ausführlichen Praxisprüfung des Funktionalität des Plugins auf dem dazu erstellten KNIGHT-Moodle-Forschungsserver anhand von systematisch erstellten Dummy-Fragen u.a. zur Anzahl der Schwierigkeitsstufen wurde im WiSe22/23 im Rahmen von PGM1 und PGM2 mit einzelne Feldstudien zur Anwendbarkeit und Akzeptanz begonnen. Im darauffolgenden Semester erweiterten wir das Plugin um die Möglichkeit zur flexiblen Verwendung von Fragen mit Teilpunktbewertung (aus vorhandenen Fragensammlungen) und untersuchten unterschiedliche Optionen zur Schwierigkeitseinstufung für Fragen. In Abstimmung mit dem Ethikpaket des Projekts wurde aus Gründen der Qualitätssicherung des weiteren eine automatisierte Benachrichtigung für Administratoren und Lehrkräfte implementiert, welche die Notwendigkeit einer regelmäßig wiederkehrenden Überprüfung der Gültigkeit der Einordnung der Fragen in die Schwierigkeitsstufen hervorhebt und hierzu die durch das Plugin erstellte Fragenauswertung empfiehlt. Im WiSe23/24 erfolgte mit der Pilotierung in den PVLn von Mathe1 BB/WBI ein erster Transfer innerhalb der HfT mit dem Ziel weitere Erfahrungswerte zu generieren und Studierendenfeedback einzuholen. Mit dem Einverständnis der Studierenden wurden Testverläufe erhoben, Umfragen ausgewertet und Interviews geführt. Infolge des hier geäußerten Bedürfnisses, Rückmeldungen zu falschen Antworten einsehen zu können, wurde das Plugin um eine entsprechende Funktionalität erweitert. Im Rahmen von Mathe1 BB1A wurden dann während des SoSe24 vergleichende Untersuchungen zu adaptive und nicht-adaptiven Übungen als PVL-Vorbereitung durchgeführt. Im Anschluss erfolgte die Erstellung eines Leitfadens zur Nutzung adaptiver Tests in Form dieses Wikis zur Vorbereitung auf einen weiteren Transfer nach außen.
Link zu Publikation Book Chapter

Empfohlene Einsatzszenarien	ohne Domänenmanagement → kurze Tests nach Abschluss eines Themenbereichs (inhaltlich relativ homogenen) z.B. als Selbsttests/Übungen zur Vorbereitung auf Prüfungen/PVL besonders geeignet für formative Tests, denn je nach Wissenszuwachs werden verschiedene Aufgaben präsentiert weniger geeignet für summative Tests

Anforderungen an Items

automatisch bewertbar: geschlossenes Format (z.B. Single Choice, Multiple Selection, Lückentext o.ä.) oder offenes Format mit CAS-Bewertung
d.h. noch keine Kurzantwort oder Texte
Algorithmus benötigt dichotomes Antwortformat (richtig oder falsch), d.h. Aufgaben mit Teilpunkten können nur über Schwellenwert abgebildet werden
keine Wichtung der inhaltlichen Relevanz von Items durch erhöhte Punktzahlen möglich
Schwierigkeitsgrad der Fragen muss bekannt sein und sollte möglichst Kompetenzstufen abbilden (und nicht z.B. nur erhöhten Zeitbedarf widerspiegeln)
ausreichende Anzahl von Aufgaben auf allen Niveaus nötig (auch obere und untere Grenzbereiche)

Rückmeldung

Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis
Achtung: Konventionell werden zur Bewertung von Leistungen Prozentsatz und Note verwendet und per Schlüssel (an unterschiedlichen Institutionen nicht identisch, aber ähnlich gehandhabt) ineinander überführt. Tests werden dann bewertet anhand der Frage: Wie viele Aufgaben wurden erfolgreich (oder teilweise) erledigt. Der Begriff der Kompetenzstufe bedeuten hingegen üblicherweise: Die/der Studierende beherrscht die Fertigkeiten dieser Stufe. Hier allerdings bedeutet die Rückmeldung eines Fähigkeitsniveaus: Die/der Studierende hat eine 50/50 Chance, eine Frage dieses Schwierigkeitsniveaus richtig zu beantworten. Daher ist eine verbalisierte Interpretationshilfe für Studierende nötig.
zu jedem Fragen-Schwierigkeitsniveau (=Kompetenzniveau?) sollte eine Beschreibung der erforderlichen Fähigkeiten formuliert werden
die Bedeutung des rückgemeldeten Fähigkeitsmaßes muss erklärt werden, da es nicht den bekannten Konventionen entspricht: z.B. Studierende von Fähigkeitsniveau 3 können nicht alle Aufgaben des Schwierigkeitsniveaus 3 lösen; sie beherrschen dieses Niveau also noch nicht richtig, sondern können/sollten auf diesem Niveau weiterarbeiten
derzeit noch nicht im Plugin integriert, sondern separat zu beschreiben
Integration in die Ergebnisrückmeldung des Plugins ist in Bearbeitung und Feedback dazu, wie dies bestmöglich gestaltet sein könnte, ist ausdrücklich erwünscht

Motivation

Idee

Adaptiver Test simuliert automatisch das Vorgehen eines erfahrenen Prüfers: Zu schwierige oder zu leichte Fragen bringen wenig Erkenntnis über die Fähigkeiten einer Person → Fragen sollten auf dem Niveau der Kompetenz des Prüflings gestellt werden
Zu leichte Tests provozieren ungewolltes Verhalten wie Flüchtigkeitsfehler oder falsche Antworten auf scheinbare Fangfragen; zu schwierige Fragen führen dazu, dass Kandidaten versuchen, Ergebnisse zu erraten (=Fehlinformation für Prüfer)
adaptiver Test beginnt mit einer Frage mittlerer Schwierigkeit, richtige Antwort führt zu schwierigerer Frage, falsche zu leichterer → Fortsetzung bis zur genauen Ermittlung der Kompetenz des Prüflings
Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? → Mathematisches Modell der Item-Response-Theorie zur Lösung dieses Problems

Funktionsweise

(1) Wie wählt man Fragen aus?

Startlevel:
- mittig, Icebreaker, unterhalb mittlerem Niveau oder unterhalb geschätztem Level (falls Vorinformation), damit Erfolg motiviert
- Geringer Einfluss auf Ergebnis
Folge-Items:
- fest verzweigter Algorithmus: richtige Antwort → höheres Niveau, falsche Antwort → niedrigeres Niveau
- randomisierte Aufgabenauswahl aus einem Fenster um die geschätzte Fähigkeit herum (50/50-Chance)

(2) Wie bewertet man die Antwort?

Einschränkung auf automatisch auswertbares Aufgabenformat, z.B. MC (Multiple Selection Auswahlkästchen / Single Choice Radio Buttons), Zuordnung, Lückentext mit klaren Synonymvorgaben, mathematische Ausdrücke mit CAS etc.
leider noch kein Text per KI hinreichend gut bewertbar

(3) Wann soll angehalten werden?

feste maximale Anzahl von Items
maximale Testzeit: derzeit im Plugin nicht implementiert
alle im Itempool verfügbaren Items passenden Niveaus
hinreichend kleiner Standardfehler bei der Fähigkeitsschätzung

(4) Was wird zurückgegeben?

Aussage zum Niveau des Probanden
Vorsichtige Interpretation erforderlich, da Stufe 3 bedeutet, dass sie/er eine 50/50-Chance hat, Fragen der Stufe 3 richtig zu beantworten, d.h. er/sie beherrscht diese Fragen noch nicht, sondern "kann sich mit ihnen messen"

Vorteile

kürzere Testdauer (50-60%) bei gleicher Messgenauigkeit bzw. erhöhte Validität bei gleicher Testlänge
Schwierigkeitsgrad der Fragen entspricht dem individuellen Leistungsniveau des Probanden
- → höhere Trennschärfen im oberen und unteren Bereich
- für Probanden im unteren Bereich kommen weniger zu schwierige Fragen → verringert die Wahrscheinlichkeit von lediglich erratenen richtigen Antworten
- für Probanden im oberen Bereich kommen weniger zu leichte Fragen → verringert irrtümliche Falschantworten, die durch die Wahrnehmung scheinbarer Fangfragen oder durch Flüchtigkeit aufgrund von Langeweile entstehen
der gesamte Fragenpool kann verwendet werden → weniger Abnutzung als für in konventionellen Tests ausgewählte Fragen

Beachtenswerte Unterschiede

nicht alle Studierenden erhalten die gleichen Fragen
- Verteilung der Fragenschwierigkeiten über unterschiedliche Inhaltsbereiche beachten
- derzeitige Empfehlung daher für formative Tests nach inhaltlich relativ homogenen Abschnitten
Zeitmanagement:
- keine feste Anzahl von Fragen, sondern nur die maximale erwartete Anzahl von Fragen wird angezeigt
- (derzeit) kein Zeit-Limit implementiert
- kein Überspringen und späteres Nachlösen von Items möglich (ähnlich wie beim Frageverhalten mit sofortigem Feedback im regulären Moodle-Quiz-Format)
ungewohnte Erfahrung für die Studierenden, dass unabhängig von der eigenen Anstrengung bzw. dem Leistungsniveau im Mittel nur ca. die Hälfte der vorgelegten Items gelöst werden kann (50/50 Chance)
- für leistungsstarke Testpersonen evtl. demotivierend, weil anderes Fähigkeitsselbstkonzept/Selbstwirksamkeitserwartung
- tatsächlich werden dadurch eigentlich zwischen Personengruppen variierende motivationale Auswirkungen vermieden
- Funktionsweise des Tests muss daher transparent erläutert werden
Rückmeldung in Form eines Leistungsniveaus anstatt wie gewohnt als Prozentsatz oder Note
- eine verbalisierte Interpretationshilfe für Studierende ist hier von Nutzen (derzeit noch nicht im Plugin integriert)

Erfahrungsberichte

Einsatzerfahrungen

Nach einer Untersuchung des Plugin-Algorithmus und ausführlichen Praxisprüfung des Funktionalität des Plugins auf dem dazu erstellten KNIGHT-Moodle-Forschungsserver anhand von systematisch erstellten Dummy-Fragen u.a. zur Anzahl der Schwierigkeitsstufen wurde im WiSe22/23 im Rahmen von PGM1 und PGM2 mit einzelne Feldstudien zur Anwendbarkeit und Akzeptanz begonnen. Im darauffolgenden Semester erweiterten wir das Plugin um die Möglichkeit zur flexiblen Verwendung von Fragen mit Teilpunktbewertung (aus vorhandenen Fragensammlungen) und untersuchten unterschiedliche Optionen zur Schwierigkeitseinstufung für Fragen. In Abstimmung mit dem Ethikpaket des Projekts wurde aus Gründen der Qualitätssicherung des weiteren eine automatisierte Benachrichtigung für Administratoren und Lehrkräfte implementiert, welche die Notwendigkeit einer regelmäßig wiederkehrenden Überprüfung der Gültigkeit der Einordnung der Fragen in die Schwierigkeitsstufen hervorhebt und hierzu die durch das Plugin erstellte Fragenauswertung empfiehlt. Im WiSe23/24 erfolgte mit der Pilotierung in den PVLn von Mathe1 BB/WBI ein erster Transfer innerhalb der HfT mit dem Ziel weitere Erfahrungswerte zu generieren und Studierendenfeedback einzuholen. Mit dem Einverständnis der Studierenden wurden Testverläufe erhoben, Umfragen ausgewertet und Interviews geführt. Infolge des hier geäußerten Bedürfnisses, Rückmeldungen zu falschen Antworten einsehen zu können, wurde das Plugin um eine entsprechende Funktionalität erweitert. Im Rahmen von Mathe1 BB1A wurden dann während des SoSe24 vergleichende Untersuchungen zu adaptive und nicht-adaptiven Übungen als PVL-Vorbereitung durchgeführt. Im Anschluss erfolgte die Erstellung eines Leitfadens zur Nutzung adaptiver Tests in Form dieses Wikis zur Vorbereitung auf einen weiteren Transfer nach außen.
Link zu Publikation Book Chapter

Anforderungen an Items

automatisch bewertbar: geschlossenes Format (z.B. Single Choice, Multiple Selection, Lückentext o.ä.) oder offenes Format mit CAS-Bewertung
d.h. noch keine Kurzantwort oder Texte
Algorithmus benötigt dichotomes Antwortformat (richtig oder falsch), d.h. Aufgaben mit Teilpunkten können nur über Schwellenwert abgebildet werden
keine Wichtung der inhaltlichen Relevanz von Items durch erhöhte Punktzahlen möglich
Schwierigkeitsgrad der Fragen muss bekannt sein und sollte möglichst Kompetenzstufen abbilden (und nicht z.B. nur erhöhten Zeitbedarf widerspiegeln)
ausreichende Anzahl von Aufgaben auf allen Niveaus nötig (auch obere und untere Grenzbereiche)

Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis

Achtung: Konventionell werden zur Bewertung von Leistungen Prozentsatz und Note verwendet und per Schlüssel (an unterschiedlichen Institutionen nicht identisch, aber ähnlich gehandhabt) ineinander überführt. Tests werden dann bewertet anhand der Frage: Wie viele Aufgaben wurden erfolgreich (oder teilweise) erledigt. Der Begriff der Kompetenzstufe bedeuten hingegen üblicherweise: Die/der Studierende beherrscht die Fertigkeiten dieser Stufe. Hier allerdings bedeutet die Rückmeldung eines Fähigkeitsniveaus: Die/der Studierende hat eine 50/50 Chance, eine Frage dieses Schwierigkeitsniveaus richtig zu beantworten. Daher ist eine verbalisierte Interpretationshilfe für Studierende nötig.
zu jedem Fragen-Schwierigkeitsniveau (=Kompetenzniveau?) sollte eine Beschreibung der erforderlichen Fähigkeiten formuliert werden
die Bedeutung des rückgemeldeten Fähigkeitsmaßes muss erklärt werden, da es nicht den bekannten Konventionen entspricht: z.B. Studierende von Fähigkeitsniveau 3 können nicht alle Aufgaben des Schwierigkeitsniveaus 3 lösen; sie beherrschen dieses Niveau also noch nicht richtig, sondern können/sollten auf diesem Niveau weiterarbeiten
derzeit noch nicht im Plugin integriert, sondern separat zu beschreiben
Integration in die Ergebnisrückmeldung des Plugins ist in Bearbeitung und Feedback dazu, wie dies bestmöglich gestaltet sein könnte, ist ausdrücklich erwünscht

Moodle-Plugin

Hintergrund

Exkurs IRT

Während der klassische Testtheorie Rohwerte (Punkte, Prozentsätze) berechnet, betrachtet die Item-Response-Theorie (1-parametrisches Rasch-Modell) Antwortmuster
Unterscheidung zwischen Personen-Parameter (Fähigkeit η) und Item-Parameter (Schwierigkeit β), aber auf gleicher Skala
mathematische Charakterisierung dessen, was passiert, wenn eine Person mit einer bestimmten latenten Fähigkeit η ein Item eines gewissen Schwierigkeitsgrades β löst
Modell vergleicht die Kompetenz der Person mit der Schwierigkeit des Items und sagt die statistische Wahrscheinlichkeit voraus, dass die Person das Item richtig löst:
- Wenn die Person viel höhere Fähigkeiten besitzt, als das Item mit seiner Schwierigkeit voraussetzt, dann ist diese Wahrscheinlichkeit groß
- Wenn die Aufgabe hingegen viel schwieriger ist, als die Person kompetent ist, dann ist diese Wahrscheinlichkeit klein
Charakteristische Kurve: Wahrscheinlichkeit P einer richtigen Antwort für Person mit Fähigkeit η auf Item mit Schwierigkeit β als logistische Funktion der Differenz zwischen Personenfähigkeit und Itemschwierigkeit

umgedreht: Differenz zwischen Personenfähigkeit und Itemschwierigkeit ist Logit von P (d.h. de natürliche Logarithmus der Erfolgschance) η-β = ln(P/(1-P))
Informationsfunktion eines Items: P*(1-P), d.h. wir lernen am meisten, wenn die erwartete Wahrscheinlichkeit nahe bei der Hälfte liegt (P = 0,5), i.e. η ≈ β

Algo Moodle-Plugin

Benjamin Drake Wright (1988) einfacherer Algorithmus für den Einsatz in einem Umfeld mit geringen Anforderungen (low stakes), da wir ohnehin keine Kapazitäten für die Erstellung von genau kalibrierten Items haben
Aufgabenauswahl hier gemäß einer von vornherein festgelegten Verzweigungsstrategie
zur Erreichung derselben Messgenauigkeit wie beim Tailored Testing (Auswahl der Folgeaufgabe anhand Maximum der Informationsfunktionen passend zum aktuell berechneten Fähigkeitsmaß) benötigt man etwas mehr Aufgaben - grundsätzlich aber weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016)
Obwohl es sich um einen groben Ansatz handelt, können diese Methoden dieselben Ergebnisse liefern wie anspruchsvollere CAT-Techniken (Yao, 1991)

Schwierigkeitsniveaus werden auf Logit-Skala transformiert, Berechnungen erfolgen dort, Fähigkeitsniveau (und Fehler) anschließend zurück transformiert
Neues Frageniveau ergibt sich aus vorherigem Frageniveau durch Abweichung nach oben oder untern in kleiner werdenden Schritten (Doppeltes der harmonischen Folge) je nach Itemantwort (für + bzw. -)
Fähigkeitsmaß ist unabhängig von der Reihenfolge der bearbeitetet Items: durchschnittliche Schwierigkeit aller vorgelegten Items korrigiert um Logitfunktion des Anteils an richtig gelösten Items

Content

Space Tools

Idee

Funktionsweise

Vorteile

Beachtenswerte Unterschiede

Einsatzerfahrungen

Empfohlene Einsatzszenarien

Anforderungen an Items

Rückmeldung

Motivation

Idee

Funktionsweise

(1) Wie wählt man Fragen aus?

Vorteile

Beachtenswerte Unterschiede

Erfahrungsberichte

Einsatzerfahrungen

Empfehlenswerte Einsatzszenarien

Anforderungen an Items

Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis

Moodle-Plugin

optionale Plugin-Einstellungen

Einrichtung Item-Pools

Versuchsbericht/Versuchsüberprüfung

Aufgabenanalyse

Hintergrund

Exkurs IRT

Algo Moodle-Plugin

Content

Space Tools

Landingpage Adaptive Test (Arbeitsentwurf)

Idee

Funktionsweise

Vorteile

Beachtenswerte Unterschiede

Einsatzerfahrungen

Empfohlene Einsatzszenarien

Anforderungen an Items

Rückmeldung

Motivation

Idee

Funktionsweise

(1) Wie wählt man Fragen aus?

Vorteile

Beachtenswerte Unterschiede

Erfahrungsberichte

Einsatzerfahrungen

Empfehlenswerte Einsatzszenarien

Anforderungen an Items

Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis

Moodle-Plugin

optionale Plugin-Einstellungen

Einrichtung Item-Pools

Versuchsbericht/Versuchsüberprüfung

Aufgabenanalyse

Hintergrund

Exkurs IRT

Algo Moodle-Plugin