Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

UI Tabs
UI Tab
titleIdee

Idee des adaptiven Testens

Image Modified

Adaptiver

Ein adaptiver Test simuliert

automatisch

automatisiert das Vorgehen eines erfahrenen Prüfers:

Zu schwierige oder zu leichte Fragen bringen wenig Erkenntnis über die Fähigkeiten einer Person → Fragen sollten auf dem Niveau der Kompetenz des Prüflings gestellt werden
  • Zu leichte Tests provozieren ungewolltes Verhalten wie Flüchtigkeitsfehler oder falsche Antworten auf scheinbare Fangfragen; zu schwierige Fragen führen dazu, dass Kandidaten versuchen, Ergebnisse zu erraten (=Fehlinformation für Prüfer)
  • adaptiver Test beginnt mit einer Frage mittlerer Schwierigkeit, richtige Antwort führt zu schwierigerer Frage, falsche zu leichterer → Fortsetzung bis zur genauen Ermittlung der Kompetenz des Prüflings
  • Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? → Mathematisches Modell der Item-Response-Theorie zur Lösung dieses Problems
  • Ausgehend von einer initialen Aufgabenstellung passt der Prüfer seine nachfolgenden Fragenstellungen dem (anhand des bisherigen Antwortverhaltens) vermuteten Fähigkeitsniveau des Probanden an.

    Image Removed 

    Adaptiver Test simuliert automatisch das Vorgehen eines erfahrenen Prüfers:

    Zu schwierige oder zu leichte Fragen bringen wenig Erkenntnis über die Fähigkeiten einer Person → Fragen sollten daher möglichst auf dem Niveau der Kompetenz des Prüflings gestellt werden

    Zu leichte

    Tests provozieren

    Aufgabenstellungen können außerdem ungewolltes Verhalten wie Flüchtigkeitsfehler oder falsche Antworten auf scheinbare Fangfragen provozieren; zu schwierige Fragen führen häufig dazu, dass Kandidaten versuchen, Ergebnisse zu erraten (=Fehlinformation für Prüfer)

    adaptiver

    Der adaptive Test beginnt mit einer Frage mittlerer Schwierigkeit

    ,

    . Eine richtige Antwort führt zu

    schwierigerer Frage, falsche zu leichterer → Fortsetzung bis zur genauen

    einer anschließenden schwierigeren Frage, eine fehlerhafte Beantwortung hat eine anschließende leichtere Frage zur Folge. Die weiter Fortsetzung dieses Prozesses führt zu einer immer genaueren Ermittlung der Kompetenz des Prüflings

    Anpassung des Tests an das Leistungsniveau jedes Einzelnen als problematisch und möglicherweise unfair angesehen: Wie kann man Kandidaten vergleichen, wenn jeder einen anderen Test gemacht hat? → Mathematisches Modell der Item-Response-Theorie zur Lösung dieses Problems

    .

    (1)

    Image Addedkeycap: 1 Wie werden die Fragen ausgewählt?

    • Startlevel:
        mittig, Icebreaker, unterhalb mittlerem Niveau oder unterhalb geschätztem Level
          • leicht unterhalb des mittleren Niveaus bzw. unterhalb des geschätzten Levels (falls Vorinformation), damit Erfolg motiviert (Icebreaker Item)
        Geringer
          • geringer Einfluss auf
        Ergebnis
          • Endergebnis
        • Folge-Items:
          • fest verzweigter Algorithmus: richtige Antwort → höheres Niveau, falsche Antwort → niedrigeres Niveau (siehe Hintergrund → Algorithmus)
          • randomisierte Aufgabenauswahl aus einem Fenster um die geschätzte Fähigkeit herum (50/50-Chance)
        (2)

        keycap: 2  Wie werden die Antworten bewertet?

        • Einschränkung auf automatisch auswertbares Aufgabenformat, z.B. MC (Multiple Selection Auswahlkästchen / Single Choice Radio Buttons), Zuordnung, Lückentext mit klaren Synonymvorgaben, mathematische Ausdrücke mit CAS etc. (vgl.
        Einsatz kein Text
        • keine Textaufgaben per KI hinreichend gut bewertbar
        (3)

        keycap: 3  Wann endet ein Testdurchlauf? 

        • feste maximale Anzahl von Items
        • maximale Testzeit: derzeit im Plugin nicht implementiert
        • alle im Itempool verfügbaren Items passenden Niveaus
        • hinreichend kleiner Standardfehler bei der Fähigkeitsschätzung
        (4)

        keycap: 4  Was wird zurückgegeben?

        • Aussage zum Niveau des Probanden
        • Vorsichtige Interpretation erforderlich, da Stufe 3 bedeutet, dass sie/er eine 50/50-Chance hat, Fragen der Stufe 3 richtig zu beantworten, d.h. er/sie beherrscht diese Fragen noch nicht, sondern "kann sich mit ihnen messen" (vgl.
        Einsatz
      UI Tab
      titleFunktionsweise

      Funktionsweise eines adaptiven Tests

      image-2024-4-25_18-26-34.pngImage Removed

      kürzere
      UI Tab
      titleVorteile

      Vorteile adaptiver Tests

       wrapped giftImage Removed

      UI Steps
      UI Step

      Kürzere Testdauer (50-60%) bei gleicher Messgenauigkeit bzw. erhöhte Validität bei gleicher Testlänge

      UI Step

      wrapped giftImage AddedSchwierigkeitsgrad der Fragen entspricht dem individuellen Leistungsniveau des Probanden 

      • → höhere Trennschärfen im oberen und
      unteren Bereichfür Probanden im
      • unteren Bereich
      kommen weniger zu schwierige Fragen → verringert die Wahrscheinlichkeit von lediglich erratenen richtigen Antworten
      • für Probanden im oberen Bereich kommen weniger zu leichte Fragen → verringert irrtümliche Falschantworten, die durch die Wahrnehmung scheinbarer Fangfragen oder durch Flüchtigkeit aufgrund von Langeweile entstehen
      der
      • für Probanden im unteren Bereich kommen weniger zu schwierige Fragen → verringert die Wahrscheinlichkeit von lediglich erratenen richtigen Antworten
      UI Step

      Der gesamte Fragenpool kann verwendet werden → weniger Abnutzung als für in konventionellen Tests ausgewählte Fragen

      UI Tab
      titleUnterschiede

      Beachtenswerte Unterschiede gegenüber statischen Tests

      warningImage Removed

      Image Added

       nicht

      Nicht alle Studierenden erhalten die gleichen Fragen

    • Verteilung der Fragenschwierigkeiten über unterschiedliche Inhaltsbereiche beachten
    • derzeitige Empfehlung daher für

      . Wenn das zu testende Thema unterschiedliche Inhaltsbereiche umfasst, werden daher möglicherweise nicht allen Testpersonen Aufgaben aus allen inhaltlichen Bereichen vorgelegt. Dies könnte insbesondere dann der Fall sein, wenn nicht für alle Teilbereiche Aufgabenstellungen auf allen Schwierigkeitsniveaus vorhanden sind. Wir empfehlen derzeit daher den Einsatz als formative Tests nach inhaltlich relativ homogenen Abschnitten

      Zeitmanagement:

      .

      Ein adaptiver Test besteht nicht aus einer festgelegten Anzahl an Fragen, sondern dauert möglicherweise für die eine oder andere Testperson länger oder kürzer - je nachdem, welches Stop-Kriterium vorgegeben wurde. Daher müssen die Probanden beim Zeitmanagement beachten, dass ihnen

      keine feste Anzahl von Fragen, sondern

      nur die maximale erwartete Anzahl von Fragen

      wird angezeigt
    • (derzeit) kein Zeit-Limit implementiert
    • kein Überspringen und späteres Nachlösen von Items möglich (ähnlich

      angezeigt werden kann. Eine zeitliche Beschränkung pro Frage oder auch pro Test ist derzeit nicht implementiert.

      Ähnlich wie beim Frageverhalten mit sofortigem Feedback im regulären Moodle-Quiz-Format

      )ungewohnte Erfahrung für die Studierenden

      ist es nicht möglich, Testaufgaben zunächst zu überspringen, um diese zu einem späteren Zeitpunkt zu lösen. Dies liegt in der Natur des adaptiven Formats, bei dem die Auswahl der nachfolgenden Aufgabe vom Lösungsergebnis der vorherigen Aufgabe abhängt.

      Ein wesentlicher Unterschied zum konventionellen Test besteht in der für die Teilnehmenden ungewohnten Erfahrung, dass unabhängig von der eigenen Anstrengung

      bzw.

      und auch dem Leistungsniveau im Mittel nur ca. die Hälfte der vorgelegten Items gelöst werden kann. Für leistungsstarke Testpersonen kann

      (

      diese 50/50 Chance

      )
      • für leistungsstarke Testpersonen evtl. demotivierend, weil anderes Fähigkeitsselbstkonzept/Selbstwirksamkeitserwartung
      • tatsächlich werden dadurch eigentlich zwischen Personengruppen variierende motivationale Auswirkungen vermieden
      • Funktionsweise des Tests muss daher transparent erläutert werden

      möglicherweise anfangs demotivierend wirken, das sie ein anderes Fähigkeits-Selbstkonzept (oder auch eine andere Selbstwirksamkeitserwartung) haben. Leistungsschwächere Personen sind hingegen möglicherweise im Nachgang von einer schlechten Testbewertung überrascht, da sie im Gegensatz zu sonst ungewohnt viele Aufgaben lösen konnten. Die adaptive Funktionsweise des Tests sollte den Studierenden daher im Vorfeld transparent erläutert werden. Tatsächlich tendiert die Methodik, durch die allen Probanden Aufgaben mit der individuell gleichen Lösungschance vorgelegt werden, eher dazu, dass die Auswirkungen von zwischen Personengruppen vorliegenden motivationalen Unterschieden reduziert werden. 

      Rückmeldung in Form eines

      Die Rückmeldung des Testergebnisses in Form des erreichten

      Leistungsniveaus anstatt wie gewohnt als Prozentsatz oder Note

      eine

      ist ein weiterer Unterschied zum herkömmlichen Test (siehe Vorbereitung → Rückmeldung). Hier wird zukünftig eine verbalisierte Interpretationshilfe für

      Studierende ist hier

      die Studierenden von Nutzen sein (derzeit noch nicht im Plugin integriert)

      siehe Einsatz → Rückmeldung

      .