1 Wie robust sind Kompetenzstruktur- und Kompetenzniveaumodelle?

Die Robustheit von Struktur- und Niveaumodellen hängt vom Determinationsgrad des Domäneninhalts ab. Unter Robustheit eines Modells soll dabei das Ausmaß der Invarianz von aus dem Modell abgeleiteten Aussagen und Parametern in verschiedenen Subpopulationen (Personen), Variationen von Operationalisierungen (Items) und Situationen (z. B. Zeitpunkte oder Änderungen von Testkontexten, Designs u. ä.) verstanden werden. Modelle gelten als robust, wenn sie unter den genannten Bedingungen approximativ invariant sind (d. h. nur „wenige Abweichungen“ von absoluter Invarianz besitzen oder diese bei einer großen Anzahl von Items wenig Bedeutung erlangen). Die Ansätze der Sensitivität (resp. Sensitivitätsanalysen) und der Generalisierbarkeit sind mit der Frage der Robustheit eng verbunden.

Dabei scheint die Robustheit mit der Feinkörnigkeit (grain size) der Domäne zusammenzuhängen: Kompetenzstrukturmodelle mit niedriger Feinkörnigkeit (grober Struktur) haben eine eher höhere Robustheit und erscheinen weniger abhängig von kleineren Veränderungen der Domäne, ihre Nützlichkeit ist jedoch eingeschränkt (vgl. Neumann 2013 in diesem Heft).

Niveaumodelle sind mit dem Ziel eingeführt worden, die Kommunikation über die zugrunde liegende Kompetenz zu erleichtern. Inzwischen ist unter anderem durch die fachdidaktische Beschreibung von Anforderungsmerkmalen in vielen Domänen eine rationale Grundlage für Niveaubeschreibungen geschaffen worden. Empirisch kann dies durch die Erklärung von Itemschwierigkeiten belegt werden (vgl. Fleischer et al. 2013 in diesem Heft). Allerdings sind entsprechende Niveaumodelle noch zu wenig auf Robustheit geprüft. Die Abgrenzung und das Labeling für Niveaustufen (etwa in Verfahren des Standard Setting) haben derzeit allerdings noch einen gewissen Grad an Beliebigkeit. Die Etablierung theoretisch fundierter und robuster Niveaumodelle ist also nach wie vor in der Kompetenzdiagnostik ein Desiderat. Im angloamerikanischen Raum finden Verfahren der vertikalen Verlinkung (vgl. Dorans et al. 2007) Verwendung, bei der eine Domäne – wie beispielsweise das Leseverstehen – über verschiedene Klassenstufen eindimensional unter Verwendung von Item-Response-Modellen abgebildet wird. Die in diesen Modellen involvierten latenten Variablen scheinen allerdings eher den Status eines Ordinalskalenniveaus zu besitzen (vgl. z. B. Ballou 2009; Lord 1980), sodass beliebige monotone Transformationen Aussagen über längsschnittliche Veränderung oder querschnittliche Differenzen verschiedener Klassenstufen ändern können (vgl, Robitzsch et al. 2011).Footnote 1

Die Niveaubeschreibungen in einem Niveaumodell der Domäne des Leseverstehens können dabei jedoch in Modellen für verschiedene Klassenstufen differieren. Anhand dieses Konstrukts wird deutlich, dass Robustheit eines Modells zunächst „Robustheit“ des zugrunde liegenden Konstrukts (oder einer Domäne) als Voraussetzung besitzt und damit Fragen der Robustheit nicht von Fragen der Validität zu trennen sind. In Domänen wie der Mathematik scheint für bestimmte Teilkompetenzen aufgrund curricularer Rahmenbedingungen eine vertikale Verlinkung nicht möglich und auch nicht sinnvoll.

Zur Untersuchung von Robustheitseigenschaften von Niveau- und Strukturmodellen wäre die Anwendung von Multitrait-Multimethod-Ansätzen (vgl. Nussbeck et al. 2007) oder der Generalisierbarkeitstheorie (vgl. Brennan 2011) erstrebenswert, die explizit verschiedene Facetten der Robustheit von Modellen anhand empirischer Daten untersuchen. In diesem Rahmen kann die Prüfung der Robustheit über verschiedene Zeitpunkte und Personengruppen hinweg erfolgen. Robustheit von Strukturmodellen wird dabei tendenziell mit der Prüfung auf gewisse invariante Modellbestandteile auf der Personenseite (also hinsichtlich der Dimensionalität) untersucht, während Robustheit von Niveaumodellen eher auf die Untersuchung der Invarianz von Itemparametern (Itemschwierigkeiten und Itemladungen) unter Variation von Personenpopulationen, Zeitpunkten und Situationen abzielt. Beobachtet man beispielsweise für einen Test zum Leseverstehen nichtinvariante Itemschwierigkeiten in zwei aufeinanderfolgenden Klassenstufen, so spricht dies im Hinblick auf die Modellinterpretation über verschiedene Klassenstufen hinweg gegen die Robustheit eines zugehörigen Niveaumodells.

Für die Beschreibung einer konkreten Domäne müssen zugehörige Niveau- und Strukturmodelle nicht zugleich robust sein. Die notwendige Robustheit von Modellen ist dabei im Hinblick auf den Verwertungszweck der Modellresultate zu interpretieren. Für viele Modelle in der Kompetenzdiagnostik gilt aufgrund noch ausstehender Analysen zur Robustheit, dass wir uns weitgehend noch in dem Stadium der Modellexploration und noch nicht der Modellprüfung befinden.

2 Wie zeitlich stabil und über Situationen hinweg konstant sind Kompetenzen?

Faktisch werden Kompetenzmodelle für spezifische Populationen in spezifischen (mehr oder weniger breit angelegten) Kontexten zu spezifischen Zeitpunkten entwickelt. Soll eine Generalisierung stattfinden, so ist zu prüfen, inwieweit Struktur- und Niveaumodelle in unterschiedlichen Populationen und zu unterschiedlichen Zeitpunkten im Entwicklungsverlauf Gültigkeit haben. Dabei müssen Niveaumodelle nicht notwendigerweise individuelle Entwicklungen vorhersagen. Querschnittlich angelegte Niveaumodelle stellen daher keine Kompetenzentwicklungsmodelle dar. Dies wird am Paradigma der Unterscheidung intraindividueller von interindividuellen Unterschieden deutlich (vgl. Molenaar und Campbell 2009).

In einer längsschnittlichen Betrachtung sind Kompetenzen intraindividuell veränderlich. Auch wenn Kompetenzmodelle invariant und robust sind, wie es häufig angenommen wird, sind die Kompetenzausprägungen veränderbar bzw. beeinflussbar. Kompetenzausprägungen verändern sich dabei über die Zeit, wobei die Entwicklung nicht notwendigerweise einer monoton wachsenden Funktion folgt. Beispielsweise können Skalenwerte curricular abhängiger(er) Kompetenzbereiche längsschnittlich stagnieren oder sogar absinken. Generell kann dann untersucht werden, inwiefern sich die stichprobenabhängige Dimensionalität von untersuchten Konstrukten über die Zeit ändert (sog. construct shift; vgl. Reckase 2009).

Ein Messinstrument, das in querschnittlicher Perspektive nicht diskriminant valide ist, bzw. ein Konstrukt, das sich empirisch (noch) nicht von anderen Konstrukten unterscheiden lässt, könnte auch dann sinnvoll sein, wenn sich in längsschnittlicher Sicht zum Beispiel in Abhängigkeit von Instruktion differenzielle Entwicklung vollzieht (vgl. Fleischer et al. 2013 in diesem Heft zur Definition des Kompetenzbegriffs; vgl. auch Briggs 2011). Maße der instruktionalen Sensitivität (vgl. Polikoff 2010) sind dabei häufig auf Populations- oder Subpopulationsebene definiert und fokussieren dabei nicht auf die intraindividuelle Veränderung, sondern gegebenenfalls auf höhere Organisationseinheiten (z. B. Schulklassen, Schulen oder Bundesstaaten mit verschiedenen Curricula).

Zusammenfassend deuten empirische Befunde auf Populationsebene darauf hin, dass es ebenso zeitliche Instabilität gibt. Die Veränderungen verlaufen jedoch deutlich langsamer als auf individueller Ebene. Auch situationale Stabilität scheint nur schwer zu erreichen zu sein, was allerdings dem Konzept von Kontextspezifität bei Kompetenzen entspricht. Selbst Kompetenzmodelle (zumindest Kompetenzniveaumodelle) sind im Allgemeinen nicht situationsinvariant, da sie dem Einfluss der Volition bei verschiedenen Gegenständen unterworfen sind.