You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 18 Next »

Idee

  • Adaptiver Test simuliert automatisch das Vorgehen eines erfahrenen Prüfers: Zu schwierige oder zu leichte Fragen bringen wenig Erkenntnis über die Fähigkeiten einer Person → Fragen sollten auf dem Niveau der Kompetenz des Prüflings gestellt werden
  • Zu leichte Tests provozieren ungewolltes Verhalten wie Flüchtigkeitsfehler oder falsche Antworten auf scheinbare Fangfragen; zu schwierige Fragen führen dazu, dass Kandidaten versuchen, Ergebnisse zu erraten (=Fehlinformation für Prüfer)
  • adaptiver Test beginnt mit einer Frage mittlerer Schwierigkeit, richtige Antwort führt zu schwierigerer Frage, falsche zu leichterer → Fortsetzung bis zur genauen Ermittlung der Kompetenz des Prüflings
  • Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? → Mathematisches Modell der Item-Response-Theorie zur Lösung dieses Problems


Funktionsweise

image-2024-4-25_18-26-34.png

(1) Wie wählt man Fragen aus?

  • Startlevel:
    • mittig, Icebreaker, unterhalb mittlerem Niveau oder unterhalb geschätztem Level (falls Vorinformation), damit Erfolg motiviert
    • Geringer Einfluss auf Ergebnis
  • Folge-Items:
    • fest verzweigter Algorithmus: richtige Antwort → höheres Niveau, falsche Antwort → niedrigeres Niveau
    • randomisierte Aufgabenauswahl aus einem Fenster um die geschätzte Fähigkeit herum (50/50-Chance)

(2) Wie bewertet man die Antwort?

  • Einschränkung auf automatisch auswertbares Aufgabenformat, z.B. MC (Multiple Selection Auswahlkästchen / Single Choice Radio Buttons), Zuordnung, Lückentext mit klaren Synonymvorgaben, mathematische Ausdrücke mit CAS etc.
  • leider noch kein Text per KI hinreichend gut bewertbar

(3) Wann soll angehalten werden? 

  • feste maximale Anzahl von Items
  • maximale Testzeit: derzeit im Plugin nicht implementiert
  • alle im Itempool verfügbaren Items passenden Niveaus
  • hinreichend kleiner Standardfehler bei der Fähigkeitsschätzung

(4) Was wird zurückgegeben?

  • Aussage zum Niveau des Probanden
  • Vorsichtige Interpretation erforderlich, da Stufe 3 bedeutet, dass sie/er eine 50/50-Chance hat, Fragen der Stufe 3 richtig zu beantworten, d.h. er/sie beherrscht diese Fragen noch nicht, sondern "kann sich mit ihnen messen" 

Vorteile

 thumbs upwrapped gift

  • kürzere Testdauer (50-60%) bei gleicher Messgenauigkeit bzw. erhöhte Validität bei gleicher Testlänge
  • Schwierigkeitsgrad der Fragen entspricht dem individuellen Leistungsniveau des Probanden 
    • → höhere Trennschärfen im oberen und unteren Bereich
    • für Probanden im unteren Bereich kommen weniger zu schwierige Fragen → verringert die Wahrscheinlichkeit von lediglich erratenen richtigen Antworten
    • für Probanden im oberen Bereich kommen weniger zu leichte Fragen → verringert irrtümliche Falschantworten, die durch die Wahrnehmung scheinbarer Fangfragen oder durch Flüchtigkeit aufgrund von Langeweile entstehen
  • der gesamte Fragenpool kann verwendet werden → weniger Abnutzung als für in konventionellen Tests ausgewählte Fragen

Beachtenswerte Unterschiede

warning

  •  nicht alle Studierenden erhalten die gleichen Fragen
    • Verteilung der Fragenschwierigkeiten über unterschiedliche Inhaltsbereiche beachten
    • derzeitige Empfehlung daher für formative Tests nach inhaltlich relativ homogenen Abschnitten
  • Zeitmanagement:
    • keine feste Anzahl von Fragen, sondern nur die maximale erwartete Anzahl von Fragen wird angezeigt
    • (derzeit) kein Zeit-Limit implementiert
    • kein Überspringen und späteres Nachlösen von Items möglich (ähnlich wie beim Frageverhalten mit sofortigem Feedback im regulären Moodle-Quiz-Format)
  • ungewohnte Erfahrung für die Studierenden, dass unabhängig von der eigenen Anstrengung bzw. dem Leistungsniveau im Mittel nur ca. die Hälfte der vorgelegten Items gelöst werden kann (50/50 Chance)
    • für leistungsstarke Testpersonen evtl. demotivierend, weil anderes Fähigkeitsselbstkonzept/Selbstwirksamkeitserwartung
    • tatsächlich werden dadurch eigentlich zwischen Personengruppen variierende motivationale Auswirkungen vermieden
    • Funktionsweise des Tests muss daher transparent erläutert werden
  • Rückmeldung in Form eines Leistungsniveaus anstatt wie gewohnt als Prozentsatz oder Note
    • eine verbalisierte Interpretationshilfe für Studierende ist hier von Nutzen (derzeit noch nicht im Plugin integriert)



  • No labels