Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Content Layout Macro

Vorüberlegungen zum Einsatz adaptiver Tests

UI Tabs
  • Nach einer Untersuchung des Plugin-Algorithmus und ausführlichen Praxisprüfung des Funktionalität des Plugins auf dem dazu erstellten KNIGHT-Moodle-Forschungsserver anhand von systematisch erstellten Dummy-Fragen u.a. zur Anzahl der Schwierigkeitsstufen wurde im WiSe22/23 im Rahmen von PGM1 und PGM2 mit einzelne Feldstudien zur Anwendbarkeit und Akzeptanz begonnen. Im darauffolgenden Semester erweiterten wir das Plugin um die Möglichkeit zur flexiblen Verwendung von Fragen mit Teilpunktbewertung (aus vorhandenen Fragensammlungen) und untersuchten unterschiedliche Optionen zur Schwierigkeitseinstufung für Fragen. In Abstimmung mit dem Ethikpaket des Projekts wurde aus Gründen der Qualitätssicherung des weiteren eine automatisierte Benachrichtigung für Administratoren und Lehrkräfte implementiert, welche die Notwendigkeit einer regelmäßig wiederkehrenden Überprüfung der Gültigkeit der Einordnung der Fragen in die Schwierigkeitsstufen hervorhebt und hierzu die durch das Plugin erstellte Fragenauswertung empfiehlt. Im WiSe23/24 erfolgte mit der Pilotierung in den PVLn von Mathe1 BB/WBI ein erster Transfer innerhalb der HfT mit dem Ziel weitere Erfahrungswerte zu generieren und Studierendenfeedback einzuholen. Mit dem Einverständnis der Studierenden wurden Testverläufe erhoben, Umfragen ausgewertet und Interviews geführt. Infolge des hier geäußerten Bedürfnisses, Rückmeldungen zu falschen Antworten einsehen zu können, wurde das Plugin um eine entsprechende Funktionalität erweitert. Im Rahmen von Mathe1 BB1A wurden dann während des SoSe24 vergleichende Untersuchungen zu adaptive und nicht-adaptiven Übungen als PVL-Vorbereitung durchgeführt. Im Anschluss erfolgte die Erstellung eines Leitfadens zur Nutzung adaptiver Tests in Form dieses Wikis zur Vorbereitung auf einen weiteren Transfer nach außen. 
  • Link zu Publikation Book Chapter

    UI Tab
    titleErfahrungsberichtPhasen-Modell

    Phasen-Modell der Implementierung

    Image Added

    Einsatzerfahrungen

    Image Removed

    UI Tab
    titleEinsatzszenarien

    Empfohlene Einsatzszenarien

    Image Removed

  • ohne Domänenmanagement → kurze Tests nach Abschluss eines Themenbereichs (inhaltlich relativ homogenen)
  • z.B. als Selbsttests/Übungen zur Vorbereitung auf Prüfungen/PVL
  • besonders geeignet für formative Tests, denn je nach Wissenszuwachs werden verschiedene Aufgaben präsentiert
  • Image Added

    Wir haben sehr gute Erfahrungen damit gemacht, adaptive Tests als Selbsttests und Übungen zur Vorbereitung auf Prüfungen bzw. Prüfungsvorleistungen einzusetzen. Um Irritationen vorzubeugen, halten wir es für wichtig, dass dabei die Funktionsweise adaptiver Tests den Studierenden gegenüber transparent vermittelt wird. Wir haben zu diesem Zweck die Tests mit ergänzenden Informationen anmoderiert (siehe Erfahrungen → Begleittexte). 

    Besonders gut eignet sich das adaptive Testformat für formative Tests, da den Probanden bei mehreren Testversuchen je nach Wissenszuwachs unterschiedliche Aufgaben präsentiert werden.

    Für summative Tests würden wir das hier vorliegende Plugin derzeit weniger empfehlen. Der Algorithmus verfügt über keine Möglichkeit sicherzustellen, dass die einem Probanden vorgelegten Aufgaben gut über mehrere inhaltlichen Teilbereiche verteilt sind. Daher ist es sinnvoll, anstatt eines einzigen inhaltsübergreifenden Tests lieber mehrere kürzere Testeinheiten nach Abschluss inhaltlich relativ homogener Teilbereiche zu nutzen.

    weniger geeignet für summative Tests

    UI Tab
    titleFragenfomatAufgabenformat

    Anforderungen an

    Fragenfomat

    das Aufgabenformat

    Image Modified

    automatisch bewertbar: geschlossenes Format (

    Für die Nutzung von Aufgaben in einem adaptiven Test müssen diese automatisch bewertbar sein. Hierfür eigenen sich alle gängigen Moodle-Fragen im geschlossenen Format, wie z.B. Single Choice, Multiple Selection,

    Lückentext

    Zuordnungsaufgaben o.ä.

    ) oder offenes Format mit CAS-Bewertung
  • d.h. noch keine Kurzantwort oder Texte 
  • Algorithmus benötigt dichotomes Antwortformat (richtig oder falsch), d.h. Aufgaben mit Teilpunkten können nur über Schwellenwert abgebildet werden
  • Darüber hinaus können auch Aufgaben im (halb-)offenen Format genutzt werden, wenn diese beispielsweise über eine CAS-Bewertung wie STACK automatisch ausgewertet werden. Manuell zu bewertende Freitextantworten könnten derzeit noch nicht integriert werden, da noch keine ausreichend gute Textbewertung durch KI zur Verfügung steht.

    Der Algorithmus wertet alle Aufgaben im dichotomen Antwortmuster aus: richtig oder falsch. Aufgaben, für die Teilpunkte vergeben werden sollen, können aber über einen entsprechend justierbaren Schwellenwert abgebildet werden → siehe Aufgabenschwierigkeit. Im Gegensatz zu konventionellen Tests ist keine Wichtung der inhaltlichen Relevanz von

    Items

    Aufgabenstellungen durch eine erhöhte

    Punktzahlen

    Punktzahl möglich

    .

    Für einen reibungslosen Einsatz ist es erforderlich, auf allen Schwierigkeits-Niveaus eine ausreichende Anzahl von Aufgaben vorzuhalten, auch im oberen und unteren Grenzbereich (siehe Aufgabenschwierigkeit).


    UI Tab
    titleAufgabenschwierigkeit

    Schwierigkeitseinstufung der Aufgaben

    Für jede Aufgaben, die in einem adaptiven Test verwendet werden soll, muss der zugehörige Schwierigkeitsgrad bekannt sein. Hierzu müssen also alle Aufgaben der für den Einsatz geplanten Fragensammlung entsprechend eingestuft werden. Dies bildet einen der beiden Schwerpunkte der Einsatz-Vorbereitung. Zunächst sollten Überlegungen zur Anzahl der Schwierigkeitsstufen erfolgen. Hier haben wir gute Erfahrungen mit ca. 4-5 Niveaustufen gemacht; eine feinere Einteilung hat sich in den von uns betrachteten Szenarien nicht als notwendig erwiesen. Jede dieser Niveaustufen sollte durch entsprechende Lernziele (Subskills) charakterisiert sein - dies erleichtert später die Interpretation der Ergebnisrückmeldung.

    Die erstellten Aufgaben sollten in ihrer Gesamtheit die aufeinander aufbauenden Kompetenzstufen abbilden, wobei auf jedem Niveau (insbesondere auch auf dem Minimal- und dem Maximal-Niveau) ausreichend Fragen vorgehalten werden sollten. Die notwendige Anzahl an Fragen ist dabei natürlich von der geplanten Testlänge abhängig: Bei uns waren für eine Testlänge von 8-15 Fragen in jedem Niveau 7-10 Fragen ausreichend. Die Zuordnung zur jeweiligen Schwierigkeitsstufe sollte anhand der für die Lösung der Aufgabe erforderlichen Kompetenzen erfolgen

    Schwierigkeitsgrad der Fragen muss bekannt sein und sollte möglichst Kompetenzstufen abbilden (

    und nicht z.B. nur erhöhten Zeitbedarf oder eine (konventionell häufig in Form einer höheren Punktzahl ausgedrückte) stärkere Relevanz der Aufgabe im Rahmen der Lehrveranstaltung widerspiegeln.

    Für die Einordnung der Aufgaben in die Schwierigkeitsstufen haben wir unterschiedliche Möglichkeiten ausgelotet. Zunächst wurde untersucht, ob sich die Schwierigkeit von Multiple-Choice-Aufgaben automatisiert mit Hilfe von maschinellem Lernen (ML)

    ausreichende Anzahl von Aufgaben auf allen Niveaus nötig (auch obere und untere Grenzbereiche)

    bestimmen lässt. Dazu wurden zwei Ansätze verfolgt: das Fine-Tuning großer Sprachmodelle (LLM) und der Einsatz klassischer ML-Algorithmen basierend auf Aufgaben- und Texteigenschaften. Aufgrund der starken Abhängigkeit der Aufgabenschwierigkeit vom Lehrkontext blieben die Ergebnisse jedoch unzureichend. Wir empfehlen daher folgendes Vorgehen:

    Wenn es sich um bereits vorhandene Aufgabensätze handelt, die jetzt in einem adaptiven Szenario eingesetzt werden sollen, können die aus vorherigen konventionelle Testeinsätzen bekannten Lösungshäufigkeiten als erste Grundlage für die Zuordnung zu Stufen genutzt werden. Wenn jedoch keine Nutzungsstatistiken vorliegen, ist eine datenbasierte Einordnung daher nicht möglich ist. In diesem Fall haben wir für die Anpassung von Altaufgaben an Schwierigkeitsniveaus auf theoriegeleitete Ansätze zurückgegriffen. Inspiriert durch die konstruktivistische Lerntheorie, kann man Aufgabenabstufungen mittels Scaffolding erstellen, d.h. der schrittweise Vereinfachung einer schwierigen Aufgabe durch Hilfestellungen in Form von Anleitungen oder Denkanstößen. Mit dem selben Ansatz kann man auch direkt Aufgaben neu erstellen. Bei der Neuerstellung von Aufgaben empfehlen wir in Anlehnung an die kognitivistische Lerntheorie die Ausrichtung anhand von Blooms Lernziel-Taxonomie (Wissen, Verstehen, Anwenden, Analyse, Synthese, Evaluation). 

    Da bestehende Aufgabenpools häufig auch Aufgaben enthalten, bei denen Teilpunkte vergeben werden, wurde das Plugin von uns entsprechend für die Nutzung erweitert: Über einen Schwellenwert kann eingestellt werden, ab welchem Prozentsatz an Punkten (z.B. 0.5 oder 0.75 etc.) Teilpunkte-Aufgaben als richtig gelöst bewertet werden sollen. Dieser Schwellenwert muss im Einklang mit den Schwierigkeitsgraden stehen, die den entsprechenden Teilpunkte-Aufgaben zugeteilten werden, kann aber für jede Quiz-Instanz unabhängig neu festgelegt werden.

    Wichtig ist in diesem Zusammenhang die nachträglich Überprüfung der vorgenommenen Frageneinstufung in regelmäßigen Abständen. Hierzu kann die Fragenauswertung des Plugins wertvolle Hinweise liefern, weshalb wir ein entsprechend justierbares Erinnerungs-Popup in die Einstellungen integriert haben.

    UI Tab
    titleRückmeldung

    Interpretation der Rückmeldung des Testergebnisses an die Versuchsperson

    Image Modified

  • Rückmeldung Fähigkeitsniveau vs. klassisches Testergebnis

  • Achtung: Konventionell werden

    Konventionell wird zur Bewertung von Leistungen

    Prozentsatz und Note verwendet und per Schlüssel (

    häufig eine Notenangabe verwendet (z.B. Note 1 bis 5), die sich meist durch einen festen Umrechnungsschlüssel aus dem Prozentsatz an richtig gelösten Aufgaben ergibt. Diese Umrechnung wird an unterschiedlichen Institutionen nicht identisch, aber doch ähnlich gehandhabt

    ) ineinander überführt

    . Herkömmliche Tests werden

    dann

    also bewertet anhand der Frage

    : Wie

    , wie viele Aufgaben

    wurden

    erfolgreich (oder teilweise) erledigt

    . Der Begriff der Kompetenzstufe bedeuten hingegen üblicherweise: Die/der Studierende beherrscht die Fertigkeiten dieser Stufe. Hier allerdings bedeutet die Rückmeldung eines Fähigkeitsniveaus: Die/der Studierende hat

    wurden. Da die Studierenden bei adaptiven Tests in Abhängigkeit von ihrer abgerufenen Leistung Aufgaben unterschiedlicher Schwierigkeit vorgelegt bekommen, ist eine derartige Angabe als Testergebnis ungeeignet.

    Ein adaptiver Test liefert daher als Testergebnis eine andere Größe, und zwar eine Schätzung des Fähigkeitsniveaus des Probanden (einschließlich Schätzfehler), was einer Interpretation bedarf: 

    Wenn bei der Schwierigkeitseinstufung der Aufgaben wie empfohlen jeweils Niveaubeschreibungen für die erforderlichen Fähigkeiten (Lernziele) angelegt wurden, können diese als anzustrebende Kompetenzstufen verstanden werden. Allerdings ist hierbei folgendes zu beachten: Wenn Studierende als Testergebnis ein bestimmtes Fähigkeitsmaß zurück gemeldet bekommen haben, dann ist dies nicht gleichbedeutend damit, dass sie die zugehörige Kompetenzstufe bereits gemeistert haben. Die Rückmeldung eines Fähigkeitsniveaus bedeutet, dass die/der Studierende eine 50/50 Chance hat, eine Frage dieses Schwierigkeitsniveaus richtig zu beantworten.

     Daher ist eine verbalisierte Interpretationshilfe für Studierende nötig.
  • zu jedem Fragen-Schwierigkeitsniveau (=Kompetenzniveau?) sollte eine Beschreibung der erforderlichen Fähigkeiten formuliert werden
  • die Bedeutung des rückgemeldeten Fähigkeitsmaßes muss erklärt werden, da es nicht den bekannten Konventionen entspricht: z.B

    Bei der Interpretation des automatisch berechneten Fähigkeitsniveaus gilt also, dass die/der Studierende die Fertigkeiten der zugehörigen Kompetenzstufe noch nicht vollständig beherrscht. Studierende von Fähigkeitsniveau 3 können beispielsweise also nicht alle Aufgaben des Schwierigkeitsniveaus 3 lösen

    ; sie

    . Sie beherrschen dieses Niveau also noch nicht richtig, sondern befinden sich mit diesem sozusagen auf Augenhöhe und können/sollten

    auf diesem Niveau weiterarbeiten

    an Aufgaben des Niveaus 3 weiterarbeiten.

    Dieser Unterschied zwischen dem gemessenen Fähigkeitsniveau und den angestrebten Kompetenzstufen ist zum einen bei der Festlegen einer etwaigen Bestehensgrenze zu berücksichtigen. Vor allem aber benötigen auch die Studierenden eine verbalisierte Interpretationshilfe, die ihnen die Bedeutung des rückgemeldeten Fähigkeitsmaßes erklärt, da es nicht den ihnen bekannten Konventionen entspricht.

    Ursprünglich lieferte das Moodle-Plugin als Testergebnis lediglich die Höhe des berechneten Fähigkeitsmaßes als Dezimalzahl, was für einen selbst gesteuerten Lernprozess keinesfalls ausreichend ist. Die im Rahmen des Projekts neu entwickelte Plugin-Erweiterung stellt den Test-Teilnehmern hingegen direkt im Anschluss an jeden Quiz-Versuch eine automatisch generierte Feedback-Seite zur Interpretation ihres rückgemeldeten Fähigkeitsniveaus zur Verfügung. 

    Diese dynamische Rückmeldung besteht aus mehreren Bausteinen, die in Abhängigkeit vom Testergebnis jeweils entsprechend befüllt werden:

    1. Verbalisierte Einbettung des Zahlenwertes

    Der Algorithmus hat (mit einer gewissen Schätzunsicherheit) ermittelt, dass Ihre Leistung in diesem Test auf einer Skala von [Minimalniveau] (Grundkenntnisse) bis [Maximalniveau] (Fortgeschritten) einem Fähigkeitsniveau von etwa [Fähigkeitsschätzung] entspricht. Diese Einschätzung zeigt Ihre bereits vorhandenen Kompetenzen und bietet eine gute Grundlage für weiteres Wachstum.

    2. Erläuterung der algorithmischen Bewertung

    Anhand Ihres Antwortverhaltens innerhalb eines Testlaufs lernt der Algorithmus Schritt für Schritt, Ihr Potenzial für die Beantwortung künftiger Fragen besser einzuschätzen. Ein attestiertes Fähigkeitsniveaus von ungefähr [Fähigkeitsschätzung] bedeutet, dass Ihre Chancen, Fragen des Schwierigkeitsgrades [floor_Fähigkeitsschätzung] richtig zu lösen, höher als 50/50 sind. Bei Fragen der Schwierigkeitsstufe [ceiling_Fähigkeitsschätzung] ist die Wahrscheinlichkeit einer richtigen Antwort jedoch geringer. 

    3. Dynamische Kompetenzstufenanzeige 

    In Abhängigkeit davon, ob das Ergebnis nahe bei einem bestimmten Schwierigkeitsniveau liegt oder eher zwischen zwei verschiedenen Niveaus, werden den Testpersonen die Beschreibungen der 2 oder 3 nächstgelegenen Schwierigkeitsniveaus eingeblendet. Hierfür werden die von den Lehrpersonen optional erstellten Kompetenzbeschreibungen (Subskills) eingebunden. 

    Feed-back: Sie haben bereits gute Kompetenzen in den folgenden Bereichen gezeigt: [Kompetenz-Beschreibung des unmittelbar unterhalb der Fähigkeitsschätzung liegenden Schwierigkeitsniveaus]

    Feed-forward: Sie sind dabei, Ihre Fähigkeiten in den folgenden Bereichen weiter zu verfeinern: [Kompetenz-Beschreibung des nahe der Fähigkeitsschätzung liegenden Schwierigkeitsniveaus]

    Feed-up: Ihr nächster Schritt sollte darin bestehen, die folgenden Fähigkeiten gezielt weiterzuentwickeln: [Kompetenz-Beschreibung des unmittelbar oberhalb der Fähigkeitsschätzung liegenden Schwierigkeitsniveaus]

    4. Rückmeldung zur Bestehensgrenze

    Wenn im Quiz ein empfohlenes Bestehensniveau eingegeben wurde, wird auch dies in die Auswertung einbezogen:

    Um den Kurs erfolgreich zu absolvieren, wird erwartet, dass Studierende nicht nur mit einem bestimmten Schwierigkeitsniveau gleichauf sind, sondern dieses auch weitgehend beherrschen. Die Mindestanforderung für das Bestehen des Tests ist daher ein geschätztes Fähigkeitsmaß von [Bestehensgrenze].

    Mit einem geschätzten Fähigkeitsniveau von [Fähigkeitsschätzung] haben Sie diesen Versuch erfolgreich bestanden. Herzlichen Glückwunsch!

    bzw. Mit einem geschätzten Fähigkeitsniveau von [Fähigkeitsschätzung] haben Sie diesen Versuch leider noch nicht bestanden.

    5. Wertschätzende Ermutigung zum Weiterlernen

    Sie sind auf einem guten Weg. Versuchen Sie, in einem weiteren Durchgang ihr Ergebnis zu verbessern! 

  • derzeit noch nicht im Plugin integriert, sondern separat zu beschreiben
  • Integration in die Ergebnisrückmeldung des Plugins ist in Bearbeitung und Feedback dazu, wie dies bestmöglich gestaltet sein könnte, ist ausdrücklich erwünscht