1 Welche Vorteile haben Methoden der Item-Response-Theorie (IRT) für die Modellierung von Kompetenzen?

Zur Messung und psychometrischen Modellierung von Kompetenzen (vgl. z. B. Hartig 2008) sollten vorzugsweise Methoden mit latenten Variablen (vgl. z. B. Skrondal und Rabe-Hesketh 2004) zum Einsatz kommen. Hierzu zählen Modelle der Item-Response-Theorie (IRT), je nach Datenlage und Zielsetzung aber auch andere Modellklassen wie beispielsweise Strukturgleichungsmodelle. Mit diesen Modellen kann systematische Varianz, die auf das zu messende Merkmal zurückgeht, von unsystematischer Fehlervarianz separiert und die Passung angenommener Modellstrukturen an empirische Daten statistisch getestet werden. Andere ältere Methoden (z. B. Methoden der klassischen Testtheorie [KTT] oder exploratorische Faktorenanalysen [EFA]), bei denen dies nicht der Fall ist, können flankierend eingesetzt werden, sollten aber nicht als alleiniger methodischer Zugang Verwendung finden.

Eine spezifische Stärke von IRT-Modellen liegt darin, dass sie die Lokalisation von sowohl Aufgabenschwierigkeiten als auch Personenmerkmalen auf einer gemeinsamen Skala ermöglichen. Dies ist eine wesentliche Grundlage für die kriteriumsorientierte Definition und Beschreibung von Kompetenzniveaus. Die gemeinsame Skala ist in der diagnostischen Praxis Voraussetzung für niveaubezogene Rückmeldungen von Testergebnissen und ermöglicht darüber hinaus eine effiziente Optimierung der Aufgabenauswahl beim computerisierten adaptiven Testen (CAT, z. B. Frey 2012). Eine weitere Stärke haben IRT-Modelle, wenn dieselben Aufgaben in verschiedenen Studien zum Einsatz kommen. Unter bestimmten Voraussetzungen können die Skalen der Studien, auch wenn sie nur eine gemeinsame Teilmenge von Aufgaben haben, im Rahmen eines sogenannten Linkings (vgl. z. B. Kolen und Brennan 2004) auf eine gemeinsame Metrik gebracht und vergleichend interpretiert werden. Ein weiterer Vorteil von IRT-Modellen besteht darin, dass mit ihnen auch Daten analysiert werden können, die auf Basis von Multi-Matrix-Designs (vgl. z. B. Frey et al. 2009) erhoben wurden. Die bei der Verwendung von Multi-Matrix-Designs resultierenden unvollständigen Datenstrukturen können mit auf Kovarianzstrukturen basierenden Modellen, wie beispielsweise Strukturgleichungsmodellen, nur analysiert werden, wenn das Matrix-Design dergestalt balanciert ist, dass jede mögliche Kombination von Items realisiert wurde. Eine weitere für die Modellierung von Kompetenzen häufig nützliche Eigenschaft von IRT-Modellen stellt die Möglichkeit dar, Eigenschaften der Testaufgaben explizit zu parametrisieren. Dies ist beispielsweise mit dem Linear-Logistischen Testmodell (LLTM; vgl. Fischer 1996) sowie verwandten Modellen (vgl. z. B. Janssen et al. 2004) möglich. Hierdurch können beispielsweise kognitive Anforderungen modelliert werden, was ein tieferes Verständnis der untersuchten Kompetenz ermöglicht (vgl. z. B. Hartig et al. 2012). Dieser Einbezug ist prinzipiell auch in anderen Modellen mit latenten Variablen möglich (vgl. z. B. Hartig et al. 2007), im Zusammenhang mit der durch IRT-Modelle gegebenen gemeinsamen Skala für Aufgabenschwierigkeiten und Personenmerkmale aber besonders nützlich. Bei Modellen mit Aufgabeneigenschaften muss beachtet werden, dass Modelle zum Zusammenhang von Aufgabeneigenschaften und Aufgabenschwierigkeiten nicht zu einfach formuliert werden und auch mögliche Interaktionen zwischen Aufgabenmerkmalen, aber auch zwischen Aufgaben- und Personenmerkmalen in Betracht gezogen werden.

Die Modellierung von Zeitverläufen ist innerhalb von IRT-Modellen auf verschiedene Weisen möglich (vgl. z. B. Fischer und Seliger 1996; Hartig und Kühnbach 2006), allerdings bisher mit Strukturgleichungsmodellen (vgl. z. B. Bollen und Curran 2006) oder Mehrebenen-Modellen (vgl. z. B. Singer und Willett 2003) besser etabliert.

2 Wo liegen Grenzen der Modellierung von Kompetenzen mit IRT-Modellen?

An Grenzen stoßen IRT-Modelle bei der Berücksichtigung von Verletzungen der lokalen stochastischen Unabhängigkeit. Die Annahme drückt aus, dass die Art der Beantwortung einer Aufgabe unabhängig davon ist, wie andere Aufgaben im selben Test beantwortet werden. Lokale Abhängigkeiten zwischen den Antworten auf verschiedene Aufgaben können bei Kompetenzmessungen beispielsweise bei Aufgaben mit gemeinsamen Aufgabenstämmen (Testlets) oder in Messwiederholungsdesigns auftreten. Prinzipiell ist eine Berücksichtigung derartiger Abhängigkeiten möglich (Überblick in Chen 2010 sowie Wainer et al. 2007). Für empirische Datensätze mit vielen Aufgabenstämmen können diese Modelle jedoch sehr große Stichproben benötigen, um zuverlässige Schätzungen zu gewährleisten, oder sogar zu komplex werden, um mit momentan verfügbaren Computern geschätzt werden zu können.

Eine Schwäche vieler IRT-Modelle ist derzeit das Fehlen etablierter globaler Kriterien für die Beurteilung der Modellgüte. Während konkurrierende Modelle für dieselbe Datenlage anhand der Informationskriterien (AIC, BIC) verglichen werden können, fehlen für viele Modelle etablierte Maße und Tests zur Einschätzung der absoluten Passung der Daten auf das Modell. Bei Strukturgleichungsmodellen ist die Situation günstiger, da hier eine größere Anzahl von etablierten globalen Fitindizes berechnet werden kann. Insofern kann die Anwendung von Strukturgleichungsmodellen für ordinale Daten von Vorteil sein, wenn etwa mehrdimensionale Strukturen überprüft werden sollen.

Eine Herausforderung – aber kein prinzipielles Problem – besteht darin, den Kontext, in dem die Messungen durchgeführt werden, seitens der verwendeten IRT-Modelle zu berücksichtigen (z. B. high-stakes vs. low-stakes, unterschiedliche Bearbeitungsstrategien etc.). Denkbar ist der Einbezug derartiger Kontexte durch die Verwendung von Mischverteilungsmodellen (vgl. z. B. Rost und von Davier 1995). Mit diesen speziellen IRT-Modellen können Gruppen in unterschiedlichen Kontexten oder mit unterschiedlichen Bearbeitungsstrategien durch latente Klassen repräsentiert werden. Die hiermit verbundenen möglichen Probleme sind allerdings nicht IRT-spezifisch, sondern bei anderen Auswertungsmethoden (z. B. Strukturgleichungsmodelle, KTT) mindestens in gleichem Umfang gegeben. Generell sollte eine Vergleichbarkeit verschiedener Datenerhebungen (Durchführungsobjektivität) schon durch geeignete Erhebungsstrategien sichergestellt werden.

Grundsätzlich reflektiert werden sollte die den meisten IRT-Modellen zugrunde liegende Annahme kontinuierlicher Merkmalsdimensionen. Kategoriale Eigenschaften, zum Beispiel qualitative Übergänge wie in der Conceptual-Change-Forschung, sind mit Modellen mit latenten Klassen angemessener modellierbar. Hier ist unter dem Schlagwort „Kognitive Diagnosemodelle“ (vgl. z. B. Rupp et al. 2010) aktuell zwar eine rege Methodenentwicklung zu verzeichnen, aber es fehlen erfolgreiche Anwendungsbeispiele (vgl. auch Kunina-Habenicht et al. 2009). Ferner sind die für komplexere kognitive Diagnosemodelle benötigten Stichproben teilweise extrem groß und in vielen Studien nicht zu erreichen.

Die Notwendigkeit vergleichsweise großer Stichproben stellt beim Einsatz von IRT-Modellen ein generelles forschungspraktisches Problem dar. Die großen Stichproben werden benötigt, um hinreichend präzise Parameterschätzungen zu erhalten. Während bei Analysen mit dem eindimensionalen Rasch-Modell häufig schon 100 Antworten pro Item ausreichend sind, benötigen beispielsweise komplexe kognitive Diagnosemodelle sechsstellige Stichprobengrößen.

Als ein praktisches Problem kann die schwierige Vermittelbarkeit von Ergebnissen aus komplexen Modellen an ein breiteres Publikum (z. B. psychometrisch nicht vorgebildete Lehrkräfte oder Politiker/innen) betrachtet werden.

3 Sind neue Verfahren notwendig, um komplexe Kompetenzen adäquat modellieren zu können?

IRT-Modelle sind unter anderem deshalb attraktiv, weil viele Faktoren integriert werden können und sie (bei Einbezug latenter Klassenmodelle) nicht notwendigerweise an kontinuierliche Fähigkeitsdimensionen gebunden sind. Die in der psychometrischen Fachliteratur beschriebenen Modelle sind sehr umfangreich, sodass für das DFG-Schwerpunktprogramm „Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen“ nicht die Notwendigkeit besteht, neue Verfahren zu entwickeln. Die Herausforderung für die kommenden Jahre besteht vielmehr darin, die mathematisch formulierten Modelle für die Kompetenzdiagnostik zugänglich zu machen und deren Nützlichkeit anhand empirischer Daten zu belegen.