Einhergehend mit der fortschreitenden empirischen Fundierung der Fachdidaktiken sowie mit den Bemühungen um eine empiriebasierte Schulentwicklung, mehren sich auch die Versuche der psychometrischen Modellierung von Kompetenzen in den verschiedenen Domänen schulischen Wissens (vgl. Leuders 2011). Dabei stellt sich die Frage, inwieweit solche Kompetenzmodelle – bei zunehmender Verfeinerung – in der Lage sind, kognitive Prozesse der Lernenden zu beschreiben. Im Folgenden möchten wir an verschiedenen Beispielen die Frage beleuchten, inwieweit bestehende Versuche der Kompetenzmodellierung kognitive Prozesse abzubilden imstande sind.

1 Kompetenzskalen und post-hoc-Kompetenzstufen

Das wohl gängigste und einflussreichste Verfahren für die Modellierung von Kompetenzen ist die in Large-Scale-Assessments wie PISA und TIMSS verwendete Erfassung von domänenspezifischen Kompetenzen über eindimensionale, kontinuierliche Leistungsskalen (vgl. Baumert et al. 2000; PISA-Konsortium Deutschland 2007) in Form von Rasch-Modellen. Die hierbei postulierten, operationalisierten und empirisch überprüften Konstrukte modellieren beispielsweise „mathematische Grundbildung“ (mathematical literacy) oder „Lesekompetenz“ (reading literacy). Die genannten Studien beziehen sich schon in ihrer Anlage nicht primär auf kognitive Prozesse. Ihre Aufgabe ist die Bereitstellung eines eindimensionalen Index, der einen (am normativen Rahmen) gemessenen Vergleich der Schülerleistungen zwischen Bildungssystemen erlaubt.

Um die so gemessenen Leistungsunterschiede interpretierbar zu machen, kann man auf die besondere Eigenschaft der Rasch-Skala zurückgreifen: Da die latente Leistungsvariable der Proband(inn)en und die Schwierigkeitsvariable der Items auf einer gemeinsamen Skala liegen, kann man – wie es üblicherweise praktiziert wird – versuchen, die Fähigkeiten der Proband(inn)en durch die Anforderungen der von ihnen potenziell einigermaßen zuverlässig bewältigbaren Aufgaben zu beschreiben. Auf diese Weise entstand das Verfahren des „scale anchoring“ (Beaton und Allen 1992), welches zum Standardverfahren für die inhaltliche Interpretation von Rasch-Skalen geworden ist: Die empirisch geprüfte Skala wird post-hoc auf der Basis einer inhaltlichen Analyse der Anforderungen in Stufen unterteilt und den Proband(inn)en, deren Fähigkeitsvariable in einem entsprechenden Intervall liegt, wird die den dort lokalisierten Aufgaben entsprechende Kompetenz zugeschrieben. Die Validität dieses Verfahrens stand aber von Beginn an in der kritischen Diskussion. Die Kritik lässt sich folgendermaßen zusammenfassen: 1) Es besteht Unklarheit über die Stabilität und daher die Validität der durch Schwellenwerte spezifizierten Stufen in Abhängigkeit von der Variabilität der gewählten Items oder der befragten Expert(inn)en. 2) Die Interpretation von Aufgabenmerkmalen wird qua Identifikation auf der Rasch-Skala auf Personenmerkmale übertragen. Bei diesem Verfahren hängt der Rückschluss auf kognitive Prozesse stark von post-hoc Interpretationen ab; es liegt kein vorab formuliertes Modell zugrunde, das einer empirischen Überprüfung unterzogen werden könnte. 3) Auch gegenüber der Anwendung einer solchen „interpretierten Skala“ als Feedbackinstrument für die zentrale Leistungsmessung (wie z. B. bei Reiss und Winkelmann 2008) besteht Skepsis: Die Nützlichkeit einer vereinfachenden Einordnung von Schülerinen und Schülern in eine Kompetenzstufe scheint zurzeit weder für die Selbsteinschätzung der Lernenden noch für die Unterrichtsentwicklung durch die Lehrpersonen eine tragende Funktion zu entwickeln (vgl. Schulz 2010). Schließlich gibt es kein allgemein anerkanntes Rationale, nach dem entschieden werden kann, ob empirische Abweichungen von einer solchen Skala entweder zu einer Entfernung der entsprechenden Items oder zur Postulierung nicht erfasster kognitiver Prozesse und somit zu einer Erweiterung des Modells führen sollten.

Ein Vorschlag zur empiriebasierten Generierung von Kompetenzstufen wurde von Hartig (vgl. 2007) im Rahmen der DESI-Studie entwickelt. Anzahl und Breite der Kompetenzniveaus werden in diesem Ansatz nicht willkürlich festgelegt, sondern nach empirischen Kriterien bestimmt. Für die Definition von Niveaus sind drei separate Analyseschritte notwendig: Zunächst werden die empirischen Aufgabenschwierigkeiten anhand einer Rasch-Analyse ermittelt. Dann werden den Aufgaben schwierigkeitsbestimmende Merkmale zugeordnet und die empirischen Aufgabenschwierigkeiten werden dann mittels einer Regressionsanalyse auf diese Merkmale (bzw. eine Auswahl solcher Merkmale, die insgesamt eine hinreichende Varianz der Schwierigkeit erklären können) zurückgeführt. Die Grenzen zwischen den Kompetenzstufen schließlich findet man bei den Schwierigkeitswerten, die sich rechnerisch aus den Regressionskoeffizienten bei Vorliegen verschiedener Kombinationen der Merkmale ergeben. Dieses Vorgehen stellt das Auffinden von Kompetenzstufen auf eine rationale Basis; bislang fehlen aber systematische Analysen dazu, wie plausibel, stabil und valide die so gewonnenen Stufen sind. Immerhin lässt sich durch Auswahl geeigneter kognitionsnaher Merkmale von Aufgaben – sofern sich solche finden lassen – eine höhere kognitive Plausibilität der Stufen erreichen.

2 Kompetenzstruktur- und Kompetenzentwicklungsmodelle

Kognitionspsychologische Forschung zur begrifflichen Entwicklung und zum begrifflichen Wandel (conceptual change) hat für verschiedene Domänen theoretische und empirische Grundlagen für Kompetenzstruktur- bzw. entwicklungsmodelle geliefert (vgl. z. B. Vosniadou und Verschaffel 2004). So sind zum Beispiel Entwicklungsverläufe der begrifflichen Differenzierung von Gewicht und Dichte oder der Restrukturierung kosmologischer Begriffe im Grundschulalter gut erforscht. Auf dieser Basis können Kompetenzstrukturmodelle entwickelt werden, die unter anderem Annahmen über das gemeinsame Auftreten von verschiedenen Fehlvorstellungen enthalten, sowie Kompetenzentwicklungsmodelle, die Annahmen über distinkte Schritte oder Stufen auf dem Weg zu einem wissenschaftlich adäquaten Verständnis einer Domäne enthalten. Bisher stehen Bemühungen, theoriegeleitet psychometrische Modelle der Kompetenzentwicklung zu erstellen und zu überprüfen, allerdings noch ganz am Anfang.

Ein Beispiel für diesen Ansatz sind die Arbeiten von Wilson und Sloane (2000; siehe auch Wilson 2005). Sie untersuchen Schülerfähigkeiten zunächst inhaltlich und an konkreten Aufgaben bzw. auf Basis bestehender Theorien zum Begriffsaufbau. Die qualitative Analyse von kognitiven Prozessen ermöglicht eine Ausdifferenzierung der theoretischen Modelle und liefert Indikatoren für die Operationalisierung eines validen Ratingverfahrens der Schülerantworten. Nach Wilson (2005) können geeignet konstruierte reflexive, offenere Aufgaben eingesetzt werden, um Lernverläufe zu erfassen (z. B. „Warum sinken oder schwimmen Dinge? Erkläre so ausführlich wie möglich!“; vgl. Kennedy und Draney 2007). Diese Aufgaben können organisch in den Unterrichtsprozess eingebettet und im formativen Sinne für die Planung des Unterrichts gezielt genutzt werden (embedded assessment). Zugleich führt die lernbegleitende, durch die Lehrkräfte vorgenommene Analyse von Schülerantworten auf diese offeneren Aufgaben zu der Zuweisung einer Einzelleistung zu einer inhaltlich definierten Fähigkeitsstufe (im genannten Beispiel auf die Erklärung des Auftriebs auf verschiedenen abgrenzbaren Verstehensniveaus:

  1. 1.

    Nicht anschlussfähige Misskonzepte,

  2. 2.

    Bezug auf eine bedeutsame Variable: Masse oder Volumen,

  3. 3.

    Bedeutung beider Variablen,

  4. 4.

    Bedeutung des Quotienten = Dichte,

  5. 5.

    Verständnis der relativen Dichte.

Auf der Basis solcher Ratingdaten kann nun eine polytome Skala zur empirischen Absicherung der Lernfortschritte entwickelt werden. Das hier skizzierte Verfahren zeichnet sich dadurch aus, dass die Leistungsskala a priori auf der kognitiven Interpretation einer Schülerleistung basiert (nämlich der theoriegeleiteten Entwicklung sogenannter construct maps) und nicht erst a posteriori eine solche Interpretation zu einer theoretisch wenig durchgeformten Itemgruppe zuordnet.

Ein Versuch zur theoriegeleiteten Erstellung eines Struktur- und Entwicklungsmodells für naturwissenschaftliche Kompetenz in der Grundschule wird in einem Teilprojekt des DFG-Schwerpunktprogramms unternommen (Hardy et al. 2010; Kleickmann et al. 2011; Koerber et al. 2011). Die Einbeziehung zweier Kompetenzdimensionen (naturwissenschaftliches Wissen und Wissen über Naturwissenschaften) und mehrerer Inhaltsbereiche sowie die Anforderungen an eine psychometrische Modellierung erzwingen allerdings eine Generalisierung über domänenspezifische Entwicklungsverläufe hinweg, sodass heuristisch ein allgemeines Modell des Übergangs von einem naiven Verständnis über eine Ebene der „Zwischenvorstellungen“ hin zu einem wissenschaftlich integrierten Verständnis erstellt wurde. Die Realisierung verschiedener Aufgabenformate sowie die Einbeziehung von Kontrollvariablen (z. B. Leseverständnis) erlauben es zu kontrollieren, dass die Schwierigkeitsunterschiede zwischen den Items tatsächlich auf die angenommenen Kompetenzstufen zurückzuführen sind.

3 Mehrdimensionale Kompetenzstrukturmodelle

Erkennt man an, dass die beim Versuch der Konstruktion eindimensionaler Skalen auftretenden Diskrepanzen ein Indiz für differenziertere Kompetenzstrukturen sind, so legt dies den Versuch nahe, solche Strukturen auch theoretisch zu modellieren und empirisch zu überprüfen. Einen solchen Ansatz verfolgt ein weiteres Projekt aus dem Schwerpunktprogramm (Bayrhuber et al. 2010; Wirtz et al. 2012). Hier wird innerhalb eines engen Fokus auf den Bereich des elementaren Problemlösens mit Funktionen untersucht, inwiefern unterschiedliche externe Repräsentationen von Funktionen (Graph, Tabelle, Situation) und die Übersetzungsprozesse zwischen ihnen in einem Kompetenzstrukturmodell abbildbar sind. In der Tat stellt sich heraus, dass ein vierdimensionales Raschmodell, das die verschiedenen Übersetzungen zwischen Situation, Tabelle und Graph modelliert, die empirischen Daten einer Querschnittserhebung in siebten und achten Klassen im Vergleich mit „gröberen“ Modellen niedriger Dimensionen am besten wiedergibt. Die hier gewählten Kompetenzdimensionen repräsentieren kognitive Prozesse (z. B. Übersetzen zwischen Eigenschaften funktionaler Graphen und der durch sie repräsentierten Situationen) und liegen offenbar bei Probandengruppen in unterschiedlicher Ausprägung vor. Dennoch ist festzustellen, dass trotz des relativ engen Fokus immer noch ganze Bündel kognitiver Prozesse untrennbar voneinander erfasst werden. So kann zum Beispiel anhand der Operationalisierung nicht festgestellt werden, ob eine Übersetzung zwischen zwei Repräsentationen in die eine oder die andere Richtung verläuft.

Eine dimensionale Analyse eines fokussierteren Kompetenzbereiches versuchen Hammann et al. (vgl. 2007) mit der „experimentellen Kompetenz“ im Bereich Biologie. Hier zeigt sich jedoch, dass die empirisch tragfähigen Dimensionen eher die unterschiedlichen Aufgabentypen widerspiegeln (Multiple Choice, Experiment, Offene Frage) als die inhaltlichen Fähigkeitskomponenten (Suche im Hypothesenraum, Testen von Hypothesen, Analyse von Evidenzen). Die genauere Betrachtung der hier beschriebenen Kompetenzdimensionen lässt zudem Zweifel aufkommen, ob diese Dimensionen als voneinander trennbare kognitive Prozesse aufzufassen sind.

4 Kognitive Diagnosemodelle

Kognitive Diagnosemodelle postulieren a priori den Zusammenhang von gewissen kognitiv interpretierbaren Teilprozessen bei der Bearbeitung einer Aufgabe, insbesondere können sie kompensatorische und nicht-kompensatorische Aspekte des logischen Zusammenhangs der untersuchten Fähigkeit abbilden (vgl. Hartig 2008; Rupp und Mislevy 2007).

Nicht-kompensatorische Modelle gehen davon aus, dass bestimmte Teilprozesse zur Lösung einer Aufgabe notwendig sind und nicht durch Stärken in einem anderen Teilprozess kompensiert werden können. Die Erfahrungen mit solchen Modellen sind allerdings noch begrenzt. Die Ergebnisse hängen stark von der Validität des postulierten Modells ab, wie am folgenden Beispiel nach Kunina-Habenicht et al. (vgl. 2009) diskutiert werden soll. Hier wurden zur Erfassung der arithmetischen Kompetenzen von Grundschülerinnen und -schülern Items zu den Grundrechenarten über eine sogenannte Q-Matrix von vier latenten Variablen (Addition, Subtraktion, Multiplikation und Divisionskompetenz) in Beziehung gesetzt. Die Ergebnisse zeigen, dass ein solches Modell empirisch nicht trägt und bestenfalls zwischen „Punktrechnen“- und „Strichrechnen“-Kompetenz unterschieden werden kann. Dabei bleibt es unklar, ob diese aufgedeckte Stufung nicht allein durch die curriculare Chronologie induziert ist. Die von der fachdidaktischen Forschung der letzten Jahrzehnte zutage geförderten Analysen von Rechenstrategien von Schülerinnen und Schülern (vgl. z. B. Verschaffel et al. 2007) legen nahe, dass eine rein fachlich-systematische Trennung der Grundrechenarten nicht kognitiv valide ist, sondern dass es eher einer Ausdifferenzierung typischer Rechenstrategien (z. B. Subtrahieren durch Ergänzen, Rechnen bis zum nächsten Zehner usw.) bedarf.

Trotz dieser kritischen Anmerkungen sehen wir künftig in der Zusammenarbeit von psychometrischer Methodenentwicklung und fachdidaktischer Erforschung kognitiver Prozesse eine Chance für die Entwicklung empirisch tragfähiger Kompetenzstrukturmodelle. Insbesondere scheint es angeraten, die Entwicklung von Kompetenzmodellen stärker mit empirischen Analysen auf Individual- und Klassenebene zu vernetzen, also etwa mit der Klassifikation typischer Fehlvorstellungen in einem Gegenstandsbereich oder mit der Erfassung unterschiedlicher curricularer Rahmenbedingungen der getesteten Schülergruppen.

5 Fazit

Aus der Bewertung bisheriger Ansätze gewinnen wir die folgenden Kriterien für künftige Versuche der Modellierung kognitiver Prozesse durch psychometrische Kompetenzmodelle: Die Konstruktion des Kompetenzmodelles sollte sich von Anfang an auf empirisch gestützte Theorien zu kognitiven Prozessen beziehen. Die Validität des Modells und seiner Operationalisierungen sollte zudem durch Einbindung in geeignete kognitionspsychologische und fachdidaktische Analysen gesichert werden (z. B. durch qualitative Analysen aus Fallstudien).

Diese Kriterien beschreiben Minimalanforderungen an Kompetenzmodelle als Voraussetzung für eine kognitive Interpretation. Aber selbst bei empirisch bestätigten Kompetenzmodellen ist Vorsicht geboten vor allzu einfachen Rückschlüssen von Kovariationsstrukturen interindividueller Unterschiede auf die Dynamiken mentaler Prozesse (vgl. Renkl 2012). Kompetenzmodellierungen können kognitionswissenschaftliche Studien ergänzen, aber nicht ersetzen.