Page History
...
-
...
title | Idee |
---|
...
Idee
...
- Adaptiver Test simuliert automatisch das Vorgehen eines erfahrenen Prüfers: Zu schwierige oder zu leichte Fragen bringen wenig Erkenntnis über die Fähigkeiten einer Person → Fragen sollten auf dem Niveau der Kompetenz des Prüflings gestellt werden
- Zu leichte Tests provozieren ungewolltes Verhalten wie Flüchtigkeitsfehler oder falsche Antworten auf scheinbare Fangfragen; zu schwierige Fragen führen dazu, dass Kandidaten versuchen, Ergebnisse zu erraten (=Fehlinformation für Prüfer)
- adaptiver Test beginnt mit einer Frage mittlerer Schwierigkeit, richtige Antwort führt zu schwierigerer Frage, falsche zu leichterer → Fortsetzung bis zur genauen Ermittlung der Kompetenz des Prüflings
- Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? → Mathematisches Modell der Item-Response-Theorie zur Lösung dieses Problems
...
title | Funktionsweise |
---|
Funktionsweise
...
(1) Wie werden die Fragen ausgewählt?
- Startlevel:
- mittig, Icebreaker, unterhalb mittlerem Niveau oder unterhalb geschätztem Level (falls Vorinformation), damit Erfolg motiviert
- Geringer Einfluss auf Ergebnis
- Folge-Items:
- fest verzweigter Algorithmus: richtige Antwort → höheres Niveau, falsche Antwort → niedrigeres Niveau
- randomisierte Aufgabenauswahl aus einem Fenster um die geschätzte Fähigkeit herum (50/50-Chance)
(2) Wie werden die Antworten bewertet?
- Einschränkung auf automatisch auswertbares Aufgabenformat, z.B. MC (Multiple Selection Auswahlkästchen / Single Choice Radio Buttons), Zuordnung, Lückentext mit klaren Synonymvorgaben, mathematische Ausdrücke mit CAS etc.
- leider noch kein Text per KI hinreichend gut bewertbar
(3) Wann endet ein Testdurchlauf?
- feste maximale Anzahl von Items
- maximale Testzeit: derzeit im Plugin nicht implementiert
- alle im Itempool verfügbaren Items passenden Niveaus
- hinreichend kleiner Standardfehler bei der Fähigkeitsschätzung
(4) Was wird zurückgegeben?
- Aussage zum Niveau des Probanden
- Vorsichtige Interpretation erforderlich, da Stufe 3 bedeutet, dass sie/er eine 50/50-Chance hat, Fragen der Stufe 3 richtig zu beantworten, d.h. er/sie beherrscht diese Fragen noch nicht, sondern "kann sich mit ihnen messen"
...
title | Vorteile |
---|
...
Vorteile
...
- kürzere Testdauer (50-60%) bei gleicher Messgenauigkeit bzw. erhöhte Validität bei gleicher Testlänge
- Schwierigkeitsgrad der Fragen entspricht dem individuellen Leistungsniveau des Probanden
- → höhere Trennschärfen im oberen und unteren Bereich
- für Probanden im unteren Bereich kommen weniger zu schwierige Fragen → verringert die Wahrscheinlichkeit von lediglich erratenen richtigen Antworten
- für Probanden im oberen Bereich kommen weniger zu leichte Fragen → verringert irrtümliche Falschantworten, die durch die Wahrnehmung scheinbarer Fangfragen oder durch Flüchtigkeit aufgrund von Langeweile entstehen
- der gesamte Fragenpool kann verwendet werden → weniger Abnutzung als für in konventionellen Tests ausgewählte Fragen
...
title | Unterschiede |
---|
...
Beachtenswerte Unterschiede
- nicht alle Studierenden erhalten die gleichen Fragen
- Verteilung der Fragenschwierigkeiten über unterschiedliche Inhaltsbereiche beachten
- derzeitige Empfehlung daher für formative Tests nach inhaltlich relativ homogenen Abschnitten
- Zeitmanagement:
- keine feste Anzahl von Fragen, sondern nur die maximale erwartete Anzahl von Fragen wird angezeigt
- (derzeit) kein Zeit-Limit implementiert
- kein Überspringen und späteres Nachlösen von Items möglich (ähnlich wie beim Frageverhalten mit sofortigem Feedback im regulären Moodle-Quiz-Format)
- ungewohnte Erfahrung für die Studierenden, dass unabhängig von der eigenen Anstrengung bzw. dem Leistungsniveau im Mittel nur ca. die Hälfte der vorgelegten Items gelöst werden kann (50/50 Chance)
- für leistungsstarke Testpersonen evtl. demotivierend, weil anderes Fähigkeitsselbstkonzept/Selbstwirksamkeitserwartung
- tatsächlich werden dadurch eigentlich zwischen Personengruppen variierende motivationale Auswirkungen vermieden
- Funktionsweise des Tests muss daher transparent erläutert werden
- Rückmeldung in Form eines Leistungsniveaus anstatt wie gewohnt als Prozentsatz oder Note
- eine verbalisierte Interpretationshilfe für Studierende ist hier von Nutzen (derzeit noch nicht im Plugin integriert)
...
title | Erfahrungsbericht |
---|
...
Einsatzerfahrungen
...
- Nach einer Untersuchung des Plugin-Algorithmus und ausführlichen Praxisprüfung des Funktionalität des Plugins auf dem dazu erstellten KNIGHT-Moodle-Forschungsserver anhand von systematisch erstellten Dummy-Fragen u.a. zur Anzahl der Schwierigkeitsstufen wurde im WiSe22/23 im Rahmen von PGM1 und PGM2 mit einzelne Feldstudien zur Anwendbarkeit und Akzeptanz begonnen. Im darauffolgenden Semester erweiterten wir das Plugin um die Möglichkeit zur flexiblen Verwendung von Fragen mit Teilpunktbewertung (aus vorhandenen Fragensammlungen) und untersuchten unterschiedliche Optionen zur Schwierigkeitseinstufung für Fragen. In Abstimmung mit dem Ethikpaket des Projekts wurde aus Gründen der Qualitätssicherung des weiteren eine automatisierte Benachrichtigung für Administratoren und Lehrkräfte implementiert, welche die Notwendigkeit einer regelmäßig wiederkehrenden Überprüfung der Gültigkeit der Einordnung der Fragen in die Schwierigkeitsstufen hervorhebt und hierzu die durch das Plugin erstellte Fragenauswertung empfiehlt. Im WiSe23/24 erfolgte mit der Pilotierung in den PVLn von Mathe1 BB/WBI ein erster Transfer innerhalb der HfT mit dem Ziel weitere Erfahrungswerte zu generieren und Studierendenfeedback einzuholen. Mit dem Einverständnis der Studierenden wurden Testverläufe erhoben, Umfragen ausgewertet und Interviews geführt. Infolge des hier geäußerten Bedürfnisses, Rückmeldungen zu falschen Antworten einsehen zu können, wurde das Plugin um eine entsprechende Funktionalität erweitert. Im Rahmen von Mathe1 BB1A wurden dann während des SoSe24 vergleichende Untersuchungen zu adaptive und nicht-adaptiven Übungen als PVL-Vorbereitung durchgeführt. Im Anschluss erfolgte die Erstellung eines Leitfadens zur Nutzung adaptiver Tests in Form dieses Wikis zur Vorbereitung auf einen weiteren Transfer nach außen.
- Link zu Publikation Book Chapter
Landing-Page für Leitfaden (Arbeitsversion) -
Content Layout Macro |
---|
...
title | Einsatzszenarien |
---|
...
Empfohlene Einsatzszenarien
...
- ohne Domänenmanagement → kurze Tests nach Abschluss eines Themenbereichs (inhaltlich relativ homogenen)
- z.B. als Selbsttests/Übungen zur Vorbereitung auf Prüfungen/PVL
- besonders geeignet für formative Tests, denn je nach Wissenszuwachs werden verschiedene Aufgaben präsentiert
- weniger geeignet für summative Tests
...
title | Items |
---|
...
Anforderungen an Items
...
- automatisch bewertbar: geschlossenes Format (z.B. Single Choice, Multiple Selection, Lückentext o.ä.) oder offenes Format mit CAS-Bewertung
- d.h. noch keine Kurzantwort oder Texte
- Algorithmus benötigt dichotomes Antwortformat (richtig oder falsch), d.h. Aufgaben mit Teilpunkten können nur über Schwellenwert abgebildet werden
- keine Wichtung der inhaltlichen Relevanz von Items durch erhöhte Punktzahlen möglich
- Schwierigkeitsgrad der Fragen muss bekannt sein und sollte möglichst Kompetenzstufen abbilden (und nicht z.B. nur erhöhten Zeitbedarf widerspiegeln)
- ausreichende Anzahl von Aufgaben auf allen Niveaus nötig (auch obere und untere Grenzbereiche)
...
title | Rückmeldung |
---|
...
Rückmeldung
...
Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis
...
Motivation
Funktionsweise
(1) Wie wählt man Fragen aus?
- Startlevel:
- mittig, Icebreaker, unterhalb mittlerem Niveau oder unterhalb geschätztem Level (falls Vorinformation), damit Erfolg motiviert
- Geringer Einfluss auf Ergebnis
- Folge-Items:
- fest verzweigter Algorithmus: richtige Antwort → höheres Niveau, falsche Antwort → niedrigeres Niveau
- randomisierte Aufgabenauswahl aus einem Fenster um die geschätzte Fähigkeit herum (50/50-Chance)
(2) Wie bewertet man die Antwort?
- Einschränkung auf automatisch auswertbares Aufgabenformat, z.B. MC (Multiple Selection Auswahlkästchen / Single Choice Radio Buttons), Zuordnung, Lückentext mit klaren Synonymvorgaben, mathematische Ausdrücke mit CAS etc.
- leider noch kein Text per KI hinreichend gut bewertbar
(3) Wann soll angehalten werden?
- feste maximale Anzahl von Items
- maximale Testzeit: derzeit im Plugin nicht implementiert
- alle im Itempool verfügbaren Items passenden Niveaus
- hinreichend kleiner Standardfehler bei der Fähigkeitsschätzung
(4) Was wird zurückgegeben?
- Aussage zum Niveau des Probanden
- Vorsichtige Interpretation erforderlich, da Stufe 3 bedeutet, dass sie/er eine 50/50-Chance hat, Fragen der Stufe 3 richtig zu beantworten, d.h. er/sie beherrscht diese Fragen noch nicht, sondern "kann sich mit ihnen messen"
Erfahrungsberichte
Moodle-Plugin
optionale Plugin-Einstellungen
...
- Teilpunkte → siehe Einrichtung Item-Pool
- Studierenden-Review → siehe Versuchsüberprüfung
- Überarbeitungs-Erinnerung → siehe Aufgabenanalyse
Hintergrund
Algo Moodle-Plugin
- Benjamin Drake Wright (1988) einfacherer Algorithmus für den Einsatz in einem Umfeld mit geringen Anforderungen (low stakes), da wir ohnehin keine Kapazitäten für die Erstellung von genau kalibrierten Items haben
- Aufgabenauswahl hier gemäß einer von vornherein festgelegten Verzweigungsstrategie
- zur Erreichung derselben Messgenauigkeit wie beim Tailored Testing (Auswahl der Folgeaufgabe anhand Maximum der Informationsfunktionen passend zum aktuell berechneten Fähigkeitsmaß) benötigt man etwas mehr Aufgaben - grundsätzlich aber weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016)
- Obwohl es sich um einen groben Ansatz handelt, können diese Methoden dieselben Ergebnisse liefern wie anspruchsvollere CAT-Techniken (Yao, 1991)
...