Standard-Setting

Validierung von Standard-Setting Verfahren für kompetenzorientierte Leistungstests (Pant / Rupp / Köller; 2007-2011)

Kurzbeschreibung

Laufzeit seit 2007-2011

 

Die Bilanzierung von Lernergebnissen auf nicht-individueller Ebene (Schule, Bundesland) im Rahmen von Schulleistungsstudien ist Kernstück eines evidenz-basierten Rechenschaftssystems im Bildungswesen. Zur Rechenschaftslegung werden oft nicht die Schülertestleistungen auf den kontinuierlichen Messskalen herangezogen, sondern deren klassifikatorische Einteilung in wenige Kompetenzstufen. Die Festlegung von Grenzwerten (Cut-Scores), die den Übergang zwischen Kompetenzstufen markieren, wird als Standard-Setting bezeichnet. Das beantragte Projekt untersucht am Beispiel der Kompetenzstufenmodelle der länderübergreifenden Bildungsstandards für Englisch und des Gemeinsamen Europäischen Referenzrahmens für Sprachen (GERS), welche Standard-Setting Verfahren umfassend valide Cut-Scores generieren. Als Validitätskriterien werden untersucht: (1) die Passung zwischen den Kompetenzstufendeskriptoren der Bildungsstandards bzw. des GERS und den auf ihrer Basis entwickelten Testaufgaben, (2) der Effekt prozeduraler und statistischer Varianten des Standard-Setting, (3) die Übereinstimmung von lehrerseitigen und Standard-Setting generierten Kompetenzstufenzuordnungen und (4) die Angemessenheit der Ergebnisrezeption in der nichtfachlichen Öffentlichkeit. Als Ertrag werden Richtlinien zur relativen Gewichtung und Integration von psychometrischen Informationen, quantitativen und qualitativen Informationen aus dem Standard-Setting sowie normativen bildungspolitischen Rahmenvorgaben erwartet.


Forschungsstand 2009

Als zentrales, wenn auch nicht unumstrittenes Element zur Qualitätsprüfung, -sicherung und -entwicklung von Bildungsprozessen wird die empirische Überprüfung des Erreichens von Bildungsstandards bei Schülerinnen und Schülern angesehen. Die Bildungsstandards gelten in Deutschland verbindlich und sollen sowohl den Aufbau eines auf Leistungsmessung basierenden Systems der ländervergleichenden Rechenschaftslegung (Accountability) ermöglichen als auch die Unterrichtsentwicklung in den Einzelschulen auf kompetenzorientierte Unterrichtsformen umorientieren (KMK, 2006). Um die Konvergenz und Kommunizierbarkeit verschiedener Instrumente der Rechenschaftslegung und Qualitätssicherung zu unterstützen, zeichnet sich eine Vereinheitlichung der Rückmeldeformate ab. An Stelle von Testscore-Verteilungen werden zunehmend Reportformate entwickelt, die Aussagen über die Verteilung von domänenspezifischen Kompetenzniveaus in einer Schülerpopulation auf kategoriell gestuften Kompetenzskalen machen. Entsprechend kommt der Festlegung von Schwellenwerten (Cut-Scores), durch die die kontinuierliche Kompetenzskalen in sukzessive Abschnitte (Kompetenzniveaus) aufgeteilt werden, eine wichtige "Nadelöhrfunktion" zu. Das prozedurale Vorgehen bei der Festlegung von Cut-Scores durch Expert/-innen auf einer kontinuierlichen Leistungstestskala wird in Anlehnung an die US-amerikanische Literatur als Standard-Setting bezeichnet. Das Setzen von Cut-Scores durch Expertenurteil stellt per se einen normativen Vorgang dar. Zusammengenommen erfordern die kommunikative Funktion und die teilweise normative Genese von Kompetenzskalen es, dass ihre Definition als möglichst umfassend valide angesehen werden. Dieses Projekt untersucht am Beispiel der Kompetenzstufenmodelle der Bildungsstandards für Englisch und des Gemeinsamen Europäischen Referenzrahmens für Sprachen (GERS), welche Standard-Setting Verfahren valide Cut-Scores generieren. Als Validitätskriterien werden untersucht: (1) die Passung zwischen den Kompetenzstufendeskriptoren der Bildungsstandards bzw. des GERS und den auf ihrer Basis entwickelten Testaufgaben, (2) der Effekt prozeduraler und statistischer Varianten des Standard-Setting, (3) die Übereinstimmung von lehrerseitigen und Standard-Setting generierten Kompetenzstufenzuordnungen und (4) die Angemessenheit der Ergebnisrezeption in der nichtfachlichen Öffentlichkeit. In der ersten Projektphase haben 45 Expert/-innen in einem quasi-experimentellen 4-Grupen-Design für insgesamt 148 Items zum Lese- bzw. Hörverständnis nach vorgegebenen Verfahrensschritten Kompetenzskalen definiert. Vorläufige Auswertungen zeigen, dass Lehrkräfte als Experten zu etwas niedrigeren Cut-Scores kommen als heterogen zusammengesetzte Expertengruppen, die aus Fachpersonen der Bildungsverwaltungen und wissenschaftlichen Expert/-innen bestehen. Dieser Effekt tritt jedoch erkennbar nur bei einer der beiden Verfahrensweisen (Bookmark) auf. Wählt man Lehrkräfteurteile über ihre Schüler/-innen als externes Validierungskriterium, so ergibt sich, dass 40% der Stufenzuordnungen von Lehrkräften und aus dem Standard-Setting resultierenden Schülerklassifikationen übereinstimmen. Die Erfahrungen des ersten Standard-Setting verweisen auf die Notwendigkeit, die kognitiven Repräsentationen und Entscheidungsprozesse von Expert/-innen beim Setzen der Cut- Scores besser zu erfassen.


 

 

Informationen über alle Projekte

Projektreader mit Kurzbeschreibung und Forschungsstand 2011