Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Content Layout Macro

Hintergrundinformationen

UI Tabs
UI Tab
titleErfahrungsbericht

Einsatzerfahrungen

Image Removed

  • Nach einer Untersuchung des Plugin-Algorithmus und ausführlichen Praxisprüfung des Funktionalität des Plugins auf dem dazu erstellten KNIGHT-Moodle-Forschungsserver anhand von systematisch erstellten Dummy-Fragen u.a. zur Anzahl der Schwierigkeitsstufen wurde im WiSe22/23 im Rahmen von PGM1 und PGM2 mit einzelne Feldstudien zur Anwendbarkeit und Akzeptanz begonnen. Im darauffolgenden Semester erweiterten wir das Plugin um die Möglichkeit zur flexiblen Verwendung von Fragen mit Teilpunktbewertung (aus vorhandenen Fragensammlungen) und untersuchten unterschiedliche Optionen zur Schwierigkeitseinstufung für Fragen. In Abstimmung mit dem Ethikpaket des Projekts wurde aus Gründen der Qualitätssicherung des weiteren eine automatisierte Benachrichtigung für Administratoren und Lehrkräfte implementiert, welche die Notwendigkeit einer regelmäßig wiederkehrenden Überprüfung der Gültigkeit der Einordnung der Fragen in die Schwierigkeitsstufen hervorhebt und hierzu die durch das Plugin erstellte Fragenauswertung empfiehlt. Im WiSe23/24 erfolgte mit der Pilotierung in den PVLn von Mathe1 BB/WBI ein erster Transfer innerhalb der HfT mit dem Ziel weitere Erfahrungswerte zu generieren und Studierendenfeedback einzuholen. Mit dem Einverständnis der Studierenden wurden Testverläufe erhoben, Umfragen ausgewertet und Interviews geführt. Infolge des hier geäußerten Bedürfnisses, Rückmeldungen zu falschen Antworten einsehen zu können, wurde das Plugin um eine entsprechende Funktionalität erweitert. Im Rahmen von Mathe1 BB1A wurden dann während des SoSe24 vergleichende Untersuchungen zu adaptive und nicht-adaptiven Übungen als PVL-Vorbereitung durchgeführt. Im Anschluss erfolgte die Erstellung eines Leitfadens zur Nutzung adaptiver Tests in Form dieses Wikis zur Vorbereitung auf einen weiteren Transfer nach außen. 
  • Link zu Publikation Book Chapter
UI Tab
titleEinsatzszenarien

Empfohlene Einsatzszenarien

Image Removed

  • ohne Domänenmanagement → kurze Tests nach Abschluss eines Themenbereichs (inhaltlich relativ homogenen)
  • z.B. als Selbsttests/Übungen zur Vorbereitung auf Prüfungen/PVL
  • besonders geeignet für formative Tests, denn je nach Wissenszuwachs werden verschiedene Aufgaben präsentiert
  • weniger geeignet für summative Tests
UI Tab
titleItems
Exkurs IRT

Exkurs zur Item-Response-Theory

Image Added

Gelegentlich wird die Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? Die Item-Response-Theorie bietet dazu den zugrundeliegende Lösungsansatz. Während in der klassische Testtheorie die Rohwerte als Punktezahl bzw. Prozentsätze benutzt werden, betrachtet die Item-Response-Theorie die Antwortmuster. 

Das bekannteste Modell ist dabei das Rasch-Modell. Es bildet die mathematische Beschreibung dessen, was passiert, wenn eine Person mit einer bestimmten latenten Fähigkeit (η) eine Aufgabe eines gewissen Schwierigkeitsgrades (β) löst. Hierzu werden der sogenannte Personen-Parameter (Fähigkeit η) und der Item-Parameter (Aufgabenschwierigkeit β) auf der gleichen Skala abgebildet, um die Kompetenz der Person mit der Schwierigkeit des Items zu vergleichen. Die nebenstehende charakteristische Kurve eines Item mit Schwierigkeit β gibt dabei die Wahrscheinlichkeit an, mit der eine Person mit Fähigkeit η dieses Item richtig beantworten kann. Ihr Verlauf als logistische Funktion der Differenz zwischen Personenfähigkeit und Itemschwierigkeit verdeutlicht: Wenn die Fähigkeit einer Person die Itemschwierigkeit übersteigt, dann ist die Wahrscheinlichkeit groß, dass das Item von der Person richtig gelöst wird. Wenn hingegen die Aufgabe viel schwieriger ist, als die Person kompetent ist, dann ist diese Wahrscheinlichkeit klein. Wenn Personenfähigkeit und Itemschwierigkeit übereinstimmen, dann besteht für den Probanden eine 50/50-Chance, diese Aufgabe lösen zu können. 

Image AddedDies ist auch aus der zugehörigen (links abgebildeten) Informationsfunktion eines Items ablesebar: Diese berechnet sich als Produkt der Lösungswahrscheinlichkeit mit ihrer Gegenwahrscheinlichkeit: P*(1-P). Die Informationsfunktion hat ihr Maximum bei P = 0,5, woraus sich ergibt, dass der größte Informationszuwachs zur Einschätzung der Fähigkeit eines Probanden dann erzielt wird, wenn man diesem ein Item vorlegt, für das die erwartete Lösungswahrscheinlichkeit nahe bei der Hälfte liegt, m.a.W. welches in seiner Schwierigkeit der Fähigkeit des Probanden entspricht (η ≈ β).

Um für jedes Aufgabe die Aufgabenschwierigkeit möglichst korrekt zu bestimmen, müssten die Aufgaben zuvor in großangelegten Studien kalibriert werden. In unserem Kontext ist uns dies nicht möglich, weshalb wir diesbezüglich auf verschiedene Heuristiken zurückgreifen und für die Aufgabenauswahl einen vereinfachten Algorithmus nutzen.

  • Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis

  • Achtung: Konventionell werden zur Bewertung von Leistungen Prozentsatz und Note verwendet und per Schlüssel (an unterschiedlichen Institutionen nicht identisch, aber ähnlich gehandhabt) ineinander überführt. Tests werden dann bewertet anhand der Frage: Wie viele Aufgaben wurden erfolgreich (oder teilweise) erledigt. Der Begriff der Kompetenzstufe bedeuten hingegen üblicherweise: Die/der Studierende beherrscht die Fertigkeiten dieser Stufe. Hier allerdings bedeutet die Rückmeldung eines Fähigkeitsniveaus: Die/der Studierende hat eine 50/50 Chance, eine Frage dieses Schwierigkeitsniveaus richtig zu beantworten. Daher ist eine verbalisierte Interpretationshilfe für Studierende nötig.
  • zu jedem Fragen-Schwierigkeitsniveau (=Kompetenzniveau?) sollte eine Beschreibung der erforderlichen Fähigkeiten formuliert werden
  • die Bedeutung des rückgemeldeten Fähigkeitsmaßes muss erklärt werden, da es nicht den bekannten Konventionen entspricht: z.B. Studierende von Fähigkeitsniveau 3 können nicht alle Aufgaben des Schwierigkeitsniveaus 3 lösen; sie beherrschen dieses Niveau also noch nicht richtig, sondern können/sollten auf diesem Niveau weiterarbeiten
  • derzeit noch nicht im Plugin integriert, sondern separat zu beschreiben
  • Integration in die Ergebnisrückmeldung des Plugins ist in Bearbeitung und Feedback dazu, wie dies bestmöglich gestaltet sein könnte, ist ausdrücklich erwünscht

    UI Tab
    titleAlgorithmus

    Algorithmus des Moodle-Plugins

    Image Added

    Im Plugin ist ein von Benjamin Drake Wright (1988) beschriebener vereinfachter Algorithmus hinterlegt, der für den Einsatz in einem Umfeld mit geringen Anforderungen (low stakes) ausreichend ist. Die Aufgabenauswahl erfolgt hier gemäß einer von vornherein festgelegten Verzweigungsstrategie (Branched Testing).

    Zur Erreichung derselben Messgenauigkeit wie beim Tailored Testing, bei dem die Auswahl der Folgeaufgabe anhand des Maximums aller Informationsfunktionen der zum aktuell berechneten Fähigkeitsmaß passenden Items erfolgt, benötigt man etwas mehr Aufgaben - grundsätzlich aber dennoch weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016). Obwohl es sich um einen groben Ansatz handelt, können diese Methoden dieselben Ergebnisse liefern wie anspruchsvollere CAT-Techniken (Yao, 1991).

    Für alle Berechnungen wird die Spanne der Schwierigkeitsniveaus zunächst auf eine Logit-Skala transformiert. Das Schwierigkeitsniveau der nächsten Frage ergibt sich dann aus dem Schwierigkeitsniveau der vorhergehenden Frage durch Abweichung nach oben bzw. unten in immer kleiner werdenden Schritten (Doppeltes der harmonischen Folge) je nach Antwort des Probanden. Das Fähigkeitsmaß berechnet sich anschließend als durchschnittliche Schwierigkeit aller vorgelegten Items korrigiert um die Logitfunktion des Anteils an richtig gelösten Items. Es wird auf die Spanne der Schwierigkeitsniveaus zurück transformiert und gemeinsam mit dem Standardfehler ausgegeben.

    Anforderungen an Items

    Image Removed

    • automatisch bewertbar: geschlossenes Format (z.B. Single Choice, Multiple Selection, Lückentext o.ä.) oder offenes Format mit CAS-Bewertung
    • d.h. noch keine Kurzantwort oder Texte 
    • Algorithmus benötigt dichotomes Antwortformat (richtig oder falsch), d.h. Aufgaben mit Teilpunkten können nur über Schwellenwert abgebildet werden
    • keine Wichtung der inhaltlichen Relevanz von Items durch erhöhte Punktzahlen möglich
    • Schwierigkeitsgrad der Fragen muss bekannt sein und sollte möglichst Kompetenzstufen abbilden (und nicht z.B. nur erhöhten Zeitbedarf widerspiegeln)
    • ausreichende Anzahl von Aufgaben auf allen Niveaus nötig (auch obere und untere Grenzbereiche)
    UI Tab
    titleRückmeldung

    Rückmeldung

    Image Removed