MAT

Multidimensionale adaptive Kompetenzdiagnostik (Frey; 2007-2013)

Kurzbeschreibung

Laufzeit seit 2007

 

Das Vorhaben untersucht den Einsatz von multidimensionalem adaptivem Testen (MAT) bei der Überprüfung von Bildungsstandards. MAT ist ein aktuelles computerbasiertes Messkon¬zept auf Basis der Item-Response-Theorie, bei dem die Aufgabenauswahl vom Antwortver¬halten des Probanden abhängt, wobei mehrere Dimensionen simultan betrachtet werden. MAT lässt im Vergleich zum konventionellen, nicht-adaptiven Testen drastische Effizienzstei¬gerungen erwarten, wirft aber einige noch nicht beantwortete Fragen auf. Für den ersten Antragszeitraum sind drei Simulationsstudien und eine Echtdatensimulation (mit Daten der Erprobung von Aufgaben zur Messung der Bildungsstandards in Mathematik) mit folgenden Fragestellungen geplant: Ausmaß der Effizienzsteigerung (Anzahl nötiger Aufgaben bei fixer Messpräzision), Güte der Schätzung von Populationsparametern (Erwartungswerte, Va¬rianzen und Kovarianzen), Empfehlung eines MAT-Ansatzes zur Aufgabenauswahl und Kontrolle von Content Shift (unerwünschte leistungsabhängige Variation des Testinhalts). Die Ergebnisse ermöglichen einerseits eine Anwendung von MAT bei der Überprüfung von Bildungsstandards und liefern andererseits wichtige Grundlagenkenntnisse zum MAT.

.

Forschungsstand 2009

 Im Projekt multidimensionale adaptive Kompetenzdiagnostik werden grundlegende Fragen untersucht, die vor einem Einsatz von multidimensionalem adaptivem Testen (MAT) bei der empirischen Überprüfung von Bildungsstandards zu beantworten sind. MAT ist eine spezielle Art des Testens, bei der mehrere Dimensionen simultan erhoben werden, wobei sich die Schwierigkeit der vorgelegten Aufgaben an der Kompetenzausprägung des jeweiligen Individuums orientiert. Im ersten Förderzeitraum (11/2007-10/2009) verfolgte das Projekt folgende vier Ziele: Erstens soll das Ausmaß der beim Einsatz von MAT zu erwartenden Effizienzsteigerungen ermittelt werden. Zweitens sollen Erkenntnisse über die Güte von Populationsschätzern (Mittelwerte, Kovarianzen, Korrelationen) gewonnen werden. Drittens soll eine Empfehlung für einen von zwei alternativen MAT-Ansätzen gegeben werden. Viertens soll ein Vorgehen beschrieben werden, mit dem sichergestellt wird, dass alle bei MAT gemessenen Dimensionen in ausreichender Weise durch die dargebotenen Aufgaben repräsentiert werden (Content control). In der bisherigen Projektarbeit wurden sieben Arbeitsschritte durchgeführt. Als Vorstudie wurde mit vorliegenden Daten eine Echtdatensimulation berechnet und eine Publikation dazu verfasst. Es folgte eine Literaturaufbereitung und die Definition von für das Projekt zentralen Begriffen. Danach wurde eine Simulationsumgebung unter Verwendung des Statistikpakets SAS programmiert und erprobt. Diese fand eine erste Anwendung bei Experiment 1, mit dem die Effekte von MAT auf die Messeffizienz mit einer Simulationsstudie untersucht wurden (Abschluss 28.5.2008). Ferner wurde ein Sonderheft der Zeitschrift Studies in Educational Evaluation vorbereitet (Gastherausgeber: Andreas Frey & Johannes Hartig), das methodische Beiträge aus sieben Projekten des Schwerpunktprogramms 1293 enthält. Die Drucklegung ist für das Jahr 2009 geplant. Weiter wurde das Experiment 2 durchgeführt, bei dem der Einsatz von MAT bei der die Klassifikation von Individuen (z. B. zu Kompetenzstufen) untersucht wird (Abschluss 30.12.2008). Letztlich wurden mit dem Experiment 3 die Messeffizienz und die Klassifikationsgüte von MAT mit empirischen Daten (Bildungsstandards und PISA) untersucht. Momentan laufen die Arbeiten am Experiment 4, bei dem erstmalig der Maximum Priority Index im Rahmen von MAT zur Realisierung von Content control eingesetzt wird. Aufgrund der vorliegenden Ergebnisse wurden bereits drei der vier Projektziele erreicht. Einerseits erwies sich MAT als sehr effizientes Verfahren, durch das die Messeffizienz im Vergleich zum konventionellen Testen mit fester Aufgabenreihenfolge substanziell um rund das 3.5-fache gesteigert werden kann. Wird MAT zur Klassifikation von Individuen verwendet, zeigt sich eine ähnliche Befundlage, auch wenn die Vorteile von MAT gegenüber eindimensionalem adaptivem Testen weniger stark ausfallen. Auch bei Verwendung der für adaptives Testen nicht optimalen Itempools der Bildungsstands in Mathematik und PISA, zeigte sich ein klarer Messeffizienzvorteil von MAT gegenüber konventionellem Testen mit fester Aufgabenreihenfolge. Somit stellt MAT für die Überprüfung von Bildungsstandards eine erhebliche Verringerung des Testaufwands in Aussicht. Zweitens zeigte sich, dass bei Verwendung des MAT-Ansatzes von Segall unter bestimmten Bedingungen Populationsschätzer nicht erwartungstreu ausfallen. Zur Vermeidung dieser Verzerrungen wurden im Projekt zwei Modellerweiterungen entwickelt, die mit einer zusätzlich in das Forschungsprogramm aufgenommenen Simulationsstudie im Jahr 2009 einer vergleichenden Untersuchung zugeführt werden. Drittens wird der MAT-Ansatz von Segall (1996) für einen Einsatz bei der Überprüfung von Bildungsstandards empfohlen, wenn das Interesse in der Ableitung von Testergebnissen auf individueller Ebene liegt. Das vierte Ziel wird bis zum Ende des ersten Antragszeitraums beantwortet werden.

Forschungsstand 2011

Im Projekt multidimensionale adaptive Kompetenzdiagnostik werden grundlegende Fragen untersucht, die vor einem Einsatz von multidimensionalem adaptivem Testen (MAT) bei groß angelegten Ver-gleichsstudien wie PISA oder den Erhebungen zur Erfüllung der Bildungsstandards zu beantworten sind. MAT ist eine spezielle Art des Testens bei der mehrere Dimensionen simultan erhoben werden, wobei sich die Schwierigkeit der vorgelegten Aufgaben an der Kompetenzausprägung des jeweiligen Individuums orientiert.

Im Berichtszeitraum wurden fünf Ziele verfolgt. Das erste Ziel besteht im Verständnis und nach Möglichkeit dem Vermeiden von leichten Verzerrungen bei der Schätzung von Populationskennwerten beim Einsatz des bayesianischen MAT-Ansatzes von Segall (1996). Diese Verzerrungen zeigten sich im ersten Förderzeitraum des Projekts. Das zweite Ziel besteht in Entwicklung und Untersuchung einer Content-Balancing-Methode für MAT, mit denen die Anteile der je Dimension vorgegebenen Aufgaben kontrolliert werden können. Als drittes Ziel sollen psychometrische Modelle mit Mehrfach-ladungen im Rahmen von MAT nutzbar gemacht werden. Das vierte Ziel besteht in der Entwicklung eines bedienerfreundlichen, frei zugänglichen Computerprogramms zur Administration multidimen-sionaler adaptiver Tests. Das fünfte Ziel besteht in der Untersuchung der Vor- und Nachteile, die mit dem Einsatz von MAT bei der Kompetenzmessung im Rahmen von PISA verbunden wären.

Die im Berichtszeitraum durchgeführten Arbeiten lassen sich sechs Kategorien zuordnen. Ers-tens wurden die leichten Verzerrungen bei der Schätzung von Populationsparametern untersucht und eine Möglichkeit zur Vermeidung der Verzerrungen gefunden. Zweitens wurde die bislang nur für ein-dimensionales adaptives Testen formulierte Maximum-Priority-Index-Methode auf den mehrdimen-sionalen Bereich generalisiert und deren Funktionalität im Rahmen einer Simulationsstudie belegt. Die entwickelten Methoden können für einen breiten Bereich diagnostischer Situationen empfohlen wer-den. Danach wurde ein generalisierter Ansatz zur Verwendung von Mehrfachladungen bei MAT for-muliert und mit einer Simulationsstudie untersucht. Der entwickelte Ansatz erwies sich als gut an-wendbar. Jedoch zeigte sich auch hier die Notwendigkeit der Verwendung einer Content-Balancing-Methode. Viertens wurde der hypothetische Einsatz von MAT bei PISA mit einer Echtdatensimulation beleuchtet. Bei Berücksichtigung von bei PISA gegebenen Restriktionen (Link-Aufgaben, Content-Balancing, Testlets, offene Aufgaben) kann durch MAT eine Steigerung der Messeffizienz von 40% im Vergleich zum regulären Vorgehen von PISA erreicht werden. Die Studie liefert Wissen, die für eine mögliche Umstellung zu adaptivem Testen bei PISA nötig sind. Parallel wurde ab dem siebten Monat des zweiten Förderzeitraums mit der Entwicklung des Multidimensional Adaptive Testing Environ-ments (MATE) begonnen. Die Programmierarbeiten übernahm die Arbeitsgruppe Technologiebasier-tes Testen am Deutschen Institut für Internationale Pädagogische Forschung. MATE ermöglicht die anwenderfreundliche Zusammenstellung, Spezifikation und Vorgabe von multidimensionalen adap-tiven Tests. Das Programm liegt momentan in einer Beta-Version vor. Letztlich wurden Aktivitäten zur Förderung der Sichtbarkeit des Schwerpunktprogramms 1293 unternommen. Diesbezüglich wurde das Sonderheft „Assessment of Competencies“ (Frey & Hartig) der Zeitschrift Studies in Educational Evaluation mit methodischen Beiträgen aus dem Schwerpunktprogramm herausgegeben und Sympo-sien mit Beiträgen aus dem Schwerpunktprogramm auf verschiedenen Fachtagungen organisiert. Somit wurden die fünf Ziele des Berichtszeitraums erreicht. Bis Ende des zweiten Förderzeitraums sind zwei weitere Studien geplant.

Die Ergebnisse des Projekts wurden im Berichtszeitraum mit 14 Beiträgen auf Fachtagungen präsentiert. Ferner gingen im Berichtszeitraum aus dem Projekt MAT ein Sonderheft sowie vier Zeit-schriftenartikel hervor (einer davon in press). Zwei weitere Manuskripte stehen kurz vor der Ein-reichung. Das Computerprogramm MATE wird bis Ende des zweiten Förderzeitraums inklusive eines Benutzerhandbuchs interessierten Nutzern kostenfrei zur Verfügung gestellt werden.

 

 

Informationen über alle Projekte

Projektreader mit Kurzbeschreibung und Forschungsstand 2011