Vorüberlegungen zum Einsatz adaptiver Tests

Empfohlene Einsatzszenarien

Wir haben sehr gute Erfahrungen damit gemacht, adaptive Tests als Selbsttests und Übungen zur Vorbereitung auf Prüfungen bzw. Prüfungsvorleistungen einzusetzen. Um Irritationen vorzubeugen, halten wir es für wichtig, dass dabei die Funktionsweise adaptiver Tests den Studierenden gegenüber transparent vermittelt wird. Wir haben zu diesem Zweck die Tests mit ergänzenden Informationen anmoderiert (siehe Erfahrungen → Begleittexte).

Besonders gut eignet sich das adaptive Testformat für formative Tests, da den Probanden bei mehreren Testversuchen je nach Wissenszuwachs unterschiedliche Aufgaben präsentiert werden.

Für summative Tests würden wir das hier vorliegende Plugin derzeit weniger empfehlen. Der Algorithmus verfügt über keine Möglichkeit sicherzustellen, dass die einem Probanden vorgelegten Aufgaben gut über mehrere inhaltlichen Teilbereiche verteilt sind. Daher ist es sinnvoll, anstatt eines einzigen inhaltsübergreifenden Tests lieber mehrere kürzere Testeinheiten nach Abschluss inhaltlich relativ homogener Teilbereiche zu nutzen.

Anforderungen an das Aufgabenformat

Für die Nutzung von Aufgaben in einem adaptiven Test müssen diese automatisch bewertbar sein. Hierfür eigenen sich alle gängigen Moodle-Fragen im geschlossenen Format, wie z.B. Single Choice, Multiple Selection, Zuordnungsaufgaben o.ä. Darüber hinaus können auch Aufgaben im (halb-)offenen Format genutzt werden, wenn diese beispielsweise über eine CAS-Bewertung wie STACK automatisch ausgewertet werden. Manuell zu bewertende Freitextantworten könnten derzeit noch nicht integriert werden, da noch keine ausreichend gute Textbewertung durch KI zur Verfügung steht.

Der Algorithmus wertet alle Aufgaben im dichotomen Antwortmuster aus: richtig oder falsch. Aufgaben, für die Teilpunkte vergeben werden sollen, können aber über einen entsprechend justierbaren Schwellenwert abgebildet werden → siehe Aufgabenschwierigkeit. Im Gegensatz zu konventionellen Tests ist keine Wichtung der inhaltlichen Relevanz von Aufgabenstellungen durch eine erhöhte Punktzahl möglich.

Für einen reibungslosen Einsatz ist es erforderlich, auf allen Schwierigkeits-Niveaus eine ausreichende Anzahl von Aufgaben vorzuhalten, auch im oberen und unteren Grenzbereich (siehe Aufgabenschwierigkeit).

Schwierigkeitseinstufung der Aufgaben

Für jede Aufgaben, die in einem adaptiven Test verwendet werden soll, muss der zugehörige Schwierigkeitsgrad bekannt sein. Hierzu müssen also alle Aufgaben der für den Einsatz geplanten Fragensammlung entsprechend eingestuft werden. Dies bildet einen der beiden Schwerpunkte der Einsatz-Vorbereitung. Zunächst sollten Überlegungen zur Anzahl der Schwierigkeitsstufen erfolgen. Hier haben wir gute Erfahrungen mit ca. 4 Niveaustufen gemacht; eine feinere Einteilung hat sich in den von uns betrachteten Szenarien nicht als notwendig erwiesen. Jede dieser Niveaustufen sollte durch entsprechende Lernziele (Subskills) charakterisiert sein - dies erleichtert später die Interpretation der Ergebnisrückmeldung.

Die erstellten Aufgaben sollten in ihrer Gesamtheit die aufeinander aufbauenden Kompetenzstufen abbilden, wobei auf jedem Niveau (in Abhängigkeit von der geplanten Testlänge) ausreichend Fragen vorgehalten werden sollten. Die Zuordnung zur jeweiligen Schwierigkeitsstufe sollte dann auch anhand der für die Lösung der Aufgabe erforderlichen Kompetenzen erfolgen und nicht z.B. nur erhöhten Zeitbedarf oder eine (konventionell häufig in Form einer höheren Punktzahl ausgedrückten) stärkeren Relevanz der Aufgabe im Rahmen der Lehrveranstaltung widerspiegeln.

Für die Einordnung der Aufgaben in die Schwierigkeitsstufen haben wir unterschiedliche Ansätze verfolgt:

datengetrieben: Nutzung der aus vorherigen konventionelle Testeinsätzen bekannten Lösungshäufigkeiten als erste Grundlage für die Zuordnung zu Stufen
theoriegeleitet:
- in Anlehnung an die kognitivistische Lerntheorie: Einstufung der Aufgaben anhand von Blooms Lernziel-Taxonomie (Wissen, Verstehen, Anwenden, Analyse, Synthese, Evaluation)
- inspiriert durch die konstruktivistische Lerntheorie: Erstellen von Aufgabenabstufungen mittels Scaffolding, d.h. schrittweise Vereinfachung einer schwierigen Aufgabe durch Hilfestellungen in Form von Anleitungen oder Denkanstößen

Da bestehende Aufgabenpools häufig auch Aufgaben enthalten, bei denen Teilpunkte vergeben werden, wurde das Plugin von uns entsprechend für die Nutzung erweitert: Über einen Schwellenwert kann eingestellt werden, ab welchem Prozentsatz an Punkten (z.B. 0.5 oder 0.75 etc.) Teilpunkte-Aufgaben als richtig gelöst bewertet werden sollen. Dieser Schwellenwert muss im Einklang mit den Schwierigkeitsgraden stehen, die den entsprechenden Teilpunkte-Aufgaben zugeteilten werden, kann aber für jede Quiz-Instanz unabhängig neu festgelegt werden.

Wichtig ist in diesem Zusammenhang die nachträglich Überprüfung der vorgenommenen Frageneinstufung in regelmäßigen Abständen. Hierzu kann die Fragenauswertung des Plugins wertvolle Hinweise liefern, weshalb wir ein entsprechend justierbares Erinnerungs-Popup in die Einstellungen integriert haben.

Interpretation der Rückmeldung des Testergebnisses an die Versuchsperson

Konventionell wird zur Bewertung von Leistungen häufig eine Notenangabe verwendet (z.B. Note 1 bis 5), die sich meist durch einen festen Umrechnungsschlüssel aus dem Prozentsatz an richtig gelösten Aufgaben ergibt. Diese Umrechnung wird an unterschiedlichen Institutionen nicht identisch, aber doch ähnlich gehandhabt. Herkömmliche Tests werden also bewertet anhand der Frage, wie viele Aufgaben erfolgreich (oder teilweise) erledigt wurden. Da die Studierenden bei adaptiven Tests in Abhängigkeit von ihrer abgerufenen Leistung Aufgaben unterschiedlicher Schwierigkeit vorgelegt bekommen, ist eine derartige Angabe als Testergebnis ungeeignet.

Ein adaptiver Test liefert daher als Testergebnis eine andere Größe, und zwar eine Schätzung des Fähigkeitsniveaus des Probanden (einschließlich Schätzfehler), was einer Interpretation bedarf:

Wenn bei der Schwierigkeitseinstufung der Aufgaben jeweils Niveaubeschreibungen für die erforderlichen Fähigkeiten (Lernziele) angelegt wurden, können diese als anzustrebende Kompetenzstufen verstanden werden. Allerdings ist hierbei folgendes zu beachten: Wenn Studierende als Testergebnis ein bestimmtes Fähigkeitsmaß zurück gemeldet bekommen haben, dann ist dies nicht gleichbedeutend damit, dass sie die zugehörige Kompetenzstufe bereits gemeistert haben. Die Rückmeldung eines Fähigkeitsniveaus bedeutet, dass die/der Studierende eine 50/50 Chance hat, eine Frage dieses Schwierigkeitsniveaus richtig zu beantworten. Bei der Interpretation des automatisch berechneten Fähigkeitsniveaus gilt also, dass die/der Studierende die Fertigkeiten der zugehörigen Kompetenzstufe noch nicht vollständig beherrscht. Studierende von Fähigkeitsniveau 3 können beispielsweise also nicht alle Aufgaben des Schwierigkeitsniveaus 3 lösen. Sie beherrschen dieses Niveau also noch nicht richtig, sondern befinden sich mit diesem sozusagen auf Augenhöhe und können/sollten an Aufgaben des Niveaus 3 weiterarbeiten.

Dieser Unterschied zwischen dem gemessenen Fähigkeitsniveau und den angestrebten Kompetenzstufen ist zum einen bei der Festlegen einer etwaigen Bestehensgrenze zu berücksichtigen. Vor allem aber benötigen auch die Studierenden eine verbalisierte Interpretationshilfe, die ihnen die Bedeutung des rückgemeldeten Fähigkeitsmaßes erklärt, da es nicht den ihnen bekannten Konventionen entspricht.

Derzeit liefert das Plugin lediglich als Testergebnis die Höhe des berechneten Fähigkeitsmaßes als Dezimalzahl. Eine entsprechende Interpretationshilfe muss bislang separat als Moodle-Textfeld eingestellt werden. Wir arbeiten jedoch bereits an einer Plugin-Erweiterung, durch die die Beschreibung der Kompetenzstufen in das Plugin integriert wird und den Studierenden direkt im Anschluss an jeden Testdurchlauf zur besseren Interpretation ihres rückgemeldeten Fähigkeitsniveaus zur Verfügung steht. Feedback von Ihnen als Anwendern dazu, wie die Ergebnisrückmeldung bestmöglich gestaltet sein könnte, ist ausdrücklich erwünscht.

Content

Space Tools

Vorüberlegungen zum Einsatz adaptiver Tests

Empfohlene Einsatzszenarien

Anforderungen an das Aufgabenformat

Schwierigkeitseinstufung der Aufgaben

Interpretation der Rückmeldung des Testergebnisses an die Versuchsperson