1 Einleitung

Einen zentralen Ausgangspunkt der deutschsprachigen Diskussion um Schulnoten bildet der von Ingenkamp (1971) veröffentlichte Sammelband zur „Fragwürdigkeit der Zensurengebung“ (Bohl 2019). Ein Großteil der aufgeführten Einzelbeiträge attestierte Schulnoten zum damaligen Zeitpunkt substantielle Limitationen in Bezug auf ihre Bedeutung, Vergleichbarkeit und Aussagekraft. Darüber hinaus finden sich bei Ingenkamp (1971) zahlreiche Hinweise auf Untersuchungen, die z. T. bis in das 19. Jahrhundert zurückreichen: „Daß die Zensurengebung nicht objektiv ist, müßte seit langem bekannt sein. Cox berichtet, daß bereits 1888 Edgeworth in England die Differenz zwischen Beurteilern nachgewiesen hatte“ (Ingekamp, 1971, S. 59).

Ganz im Sinne dieser frühen erziehungswissenschaftlichen Beiträge sind eine Reihe jüngerer Publikationen erschienen, die unterschiedliche Probleme von Schulnoten fokussieren. So bietet beispielsweise Brügelmann (2014) unter dem Titel „Sind Noten nützlich – und nötig?“ einen umfassenden Überblick zu Problemen von Noten. Beutel und Pant (2020) weisen auf unterschiedliche Beobachtungs- und Beurteilungsfehler hin, die den Prozess der Notenvergabe verzerren können, beispielsweise Erwartungseffekte oder Effekte der Lehrkraftpersönlichkeit. Darüber hinaus finden sich Beiträge, die sich spezifischer mit der Bedeutung unterschiedlicher Bezugsnormen und Bezugsnormorientierungen für die Vergleichbarkeit von Schulnoten beschäftigen (Bohl 2019; Hübner et al. 2020; Neumann et al. 2011). Neben diesen Arbeiten, die mögliche Ursachen und Mechanismen insbesondere auf unteren Ebenen des Schulsystems verorten (z. B. auf der Ebene von Schulklassen, Lehrpersonen oder Schülerinnen und Schülern), finden sich auch Veröffentlichungen, die verstärkt Unterschiede zwischen Bundesländern fokussieren (Braun und Dwenger 2009; Neumann et al. 2009) und solche, die föderale Strukturen des Bildungswesens und die damit verbundenen variierenden rechtlichen Grundlagen genauer in den Blick nehmen (Brodkorb und Koch 2020; Kötter-Mathes et al. 2020; Schmid-Kühn und Groß 2022).

Die vorliegende Studie zielt darauf ab, die Bedeutung einzelner struktureller Ebenen im Bildungswesen (innerhalb von Schulen, zwischen Schulen und zwischen Bundesländern) in Bezug auf ihren Beitrag zur eingeschränkten Vergleichbarkeit von Schulnoten zu quantifizieren. Konkret erfolgte hierzu eine schrittweise Spezifikation von Mehrebenenmodellen und eine Schätzung von ebenenspezifischen Varianzanteilen zur Erklärung der Leistungsvariation zwischen Schülerinnen und Schülern mit identischen Schulnoten bzw. zur Erklärung der Variation der Schulnoten zwischen Schülerinnen und Schülern mit identischen Testleistungen (vgl. Abschn. 4). Die resultierenden Ergebnisse können dabei helfen, die bisherigen Diskussionen um die Ursachen einer mangelnden Vergleichbarkeit, die primär oder ausschließlich einzelne Ebenen fokussieren, stärker zu systematisieren und zu versachlichen.

2 Geschichte und Funktionen von Schulnoten

Leistungsbewertungen von Schülerinnen und Schülern haben eine lange Tradition, die sich bis in das 16. Jahrhundert nachweisen lässt. Als Urform der Schulnote kann historisch betrachtet die Beurteilung auf einer dreistufigen Skala (gut bis schlecht) benannt werden (Dohse 1967). Für die zweite Hälfte des 19. Jahrhunderts finden sich Belege für die Verwendung unterschiedlicher Benotungssysteme, die schließlich im Jahr 1938 von einer sechsstufigen Benotungsskala abgelöst wurden (Dohse 1967).

Die Entstehung von Schulnoten ist eng verknüpft mit bestimmten, ihnen zugeschriebenen Funktionen. So definieren Tent und Birkel (2010): „Zensuren oder Schulnoten […] dienen der Abbildung von Erfolgen bei den Lehr‑/Lernbemühungen in unterschiedlichen Domänen (Unterrichtsfächern). Sie sollen interindividuelle Unterschiede und intraindividuelle Veränderungen erkennbar machen“ (S. 949). In der erziehungswissenschaftlichen Literatur lassen sich darüber hinaus sehr differenzierte Funktionskataloge finden. So unterscheidet beispielsweise Winter (2020) unter anderem zwischen Funktionen, die sich a) auf die Quantifizierung von Leistungen von Schülerinnen und Schülern (z. B. „Die Noten als Maßzahlen für Leistung“), b) auf die „Rolle der Note als Mittel der Rückmeldung und Kommunikation“ oder c) auf die „Anreiz- bzw. Motivationsfunktion der Note“ beziehen (Winter 2020, S. 41). Die erstgenannte Funktion a) bezieht sich darauf, dass Noten insbesondere als Maß zur Komplexitätsreduktion dienen können, indem sie erbrachte Leistungen von Schülerinnen und Schülern zusammenfassend in einer Ziffer abbilden sollen. Deutlich wird daher bereits an dieser Stelle, dass Ziffernnoten prinzipiell und notwendigerweise mit einem Informationsverlust einhergehen. Darüber hinaus sollen Schulnoten auch eine wichtige pädagogische Funktion erfüllen, nämlich in Form einer Rückmeldung des relativen Leistungsstandes b), der einerseits der Schülerin bzw. dem Schüler und andererseits den Eltern, aber auch der Lehrkraft selbst und der Schulaufsicht einen schnellen Überblick liefern kann. Schließlich sollen Noten auch Anreize für Schülerinnen und Schüler liefern, sich systematisch zu verbessern c), beispielsweise, indem sie durch Erfolgs- bzw. Misserfolgserlebnisse motivationale Reaktionen zeigen, um bestimmte negative Ergebnisse zu vermeiden oder gezielt auf persönliche Ziele (z. B. eine bestimmte Note) hinzuarbeiten (Sacher 1994; Winter 2020).

Eng verwandt mit den oben ausgeführten Funktionen ist auch die Bedeutung von Schulnoten im Zusammenhang mit den von Fend (2009) definierten Funktionen von Bildungssystemen, beispielsweise der Allokationsfunktion (Sacher 1994). Diese Funktionen bilden augenscheinlich ein zentrales Moment in den Diskussionen zur mangelnden Vergleichbarkeit von Schulnoten, denn die gesellschaftlichen Aufgaben, die Schulnoten zur Absicherung meritokratischer Prinzipien übernehmen sollen, stehen im Widerspruch dazu, dass sie diese aufgrund eingeschränkter Vergleichbarkeit nur unzureichend erfüllen können, was auf unterschiedliche Faktoren zurückgeführt wird (Beutel und Pant 2020; Bohl 2019; Braun und Dwenger 2009; Brodkorb und Koch 2020; Hübner et al. 2020; Kötter-Mathes et al. 2020). Diese Faktoren werden im Folgenden näher beschrieben.

3 Zur mangelnden Vergleichbarkeit von Schulnoten

Auf Grundlage der obigen Ausführungen sollen zunächst die messtheoretischen Gütekriterien von Schulnoten dargestellt werden.

Validität von Schulnoten

Das Gütekriterium der Validität hinterfragt, ob Noten tatsächlich das messen, was sie zu messen vorgeben. Zur Beantwortung dieser Frage lassen sich zunächst wissenschaftliche Befunde anführen, die Hinweise auf Korrelationen zwischen Lehrkrafteinschätzungen der Leistung von Schülerinnen und Schülern und ihrer tatsächlichen Testleistung nahelegen. Diesen Zusammenhang schätzen Südkamp et al. (2012) in ihrer Meta-Analyse auf Zr = 0,63. Die Interpretation dieser Korrelation als Indikator für eine möglicherweise geringe Konstruktvalidität von Schulnoten ist allerdings, ebenso wie die Interpretation im Sinne eines „Beurteilungsfehlers“, aus verschiedenen Gründen voraussetzungsreich. So muss hierbei nicht zuletzt angenommen werden, dass der jeweilige Leistungstest curricular valide ist, das relevante Curriculum vollständig abdeckt und eher die „wahren Fähigkeiten“ von Schülerinnen und Schülern erfasst als die Leistungseinschätzung der Lehrkraft. Aus diesem Grund sind für die Diskussion der Validität von Schulnoten Studien wichtig, die untersuchen, ob und in welchem Ausmaß Unterrichts- und Prüfungsinhalte zwischen Lehrkräften gleicher Jahrgangstufen und Schulformen variieren. Diesbezüglich konnte beispielsweise Drüke-Noe (2014) detailliert aufzeigen, dass zwischen Lehrkräften der gleichen Schulform und Jahrgangsstufe (innerhalb von Bundesländern) in Bezug auf die thematischen Bereiche, vielmehr aber noch in Bezug auf das kognitive Anspruchsniveau von Aufgaben im Mathematikunterricht große Heterogenität besteht. Das heißt, dass sich selbst bei einem gemeinsamen intendierten Curriculum teilweise große Unterschiede in Bezug auf das tatsächlich implementierte und in Klassenarbeiten überprüfte Curriculum – auch innerhalb der Einzelschule – ergeben können (Wacker und Hübner 2022). Diesbezüglich wird angenommen, dass insbesondere unterschiedliche Unterrichtsziele, unterschiedliche didaktische und lerntheoretische Orientierungen sowie unterschiedliche Unterrichtsmaterialien und Schulbücher die Übersetzung des intendierten in das implementierte Curriculum beeinflussen (Drüke-Noe 2014; Savage et al. 2021).

Darüber hinaus finden sich verschiedene Hinweise zur prädiktiven Validität von Schulnoten. Für den deutschsprachigen Raum zeigte beispielsweise die Meta-Analyse von Trapmann et al. (2007), dass die Abiturdurchschittsnote zu r = 0,53 mit den Studiennoten korrelierte. In internationalen Studien finden sich zudem Befunde, die nahelegen, dass Schulnoten zukünftige Bildungserfolge besser vorhersagen als Ergebnisse aus Leistungstests (Thorsen und Cliffordson 2012; Westrick et al. 2015). In einer Studie von Galla et al. (2019) konnte die stärkere prädiktive Validität von Noten zum Teil durch Informationen zur Selbstregulation von Schülerinnen und Schülern erklärt werden, die in Noten eingehen. Weitere Erklärungsansätze der prädiktiven Validität finden sich in Studien, die nahelegen, dass Noten von einer ganzen Reihe weiterer individueller Faktoren beeinflusst werden (Casillas et al. 2012) und mit bestimmten Persönlichkeitseigenschaften (z. B. der Gewissenhaftigkeit) stärker zusammenhängen als Leistungstests (Hübner et al. 2022). Wichtig zu erwähnen ist an dieser Stelle allerdings, dass die Prognosefähigkeit von Schulnoten nicht automatisch mit der Vergleichbarkeit von Schulnoten einhergeht (Klieme 2022).

Reliabilität von Schulnoten

Die Reliabilität von Schulnoten beschreibt, inwieweit Schulnoten methodisch verlässliche Informationen liefern. Typische Untersuchungen zur Reliabilität von Schulnoten lassen Lehrkräfte dieselben Schularbeiten mit einem entsprechenden zeitlichen Abstand erneut beurteilen. Zusammenfassend legen derartige Studien eine nur mäßige Reliabilität von Schulnoten nahe (Brügelmann 2014; Lintorf 2012).

Objektivität von Schulnoten

Das Kriterium der Objektivität kann als Garant dafür verstanden werden, dass Schülerinnen und Schüler mit einer identischen Leistung auch eine identische Note erhalten. Das bedeutet, die Prozesse der Notenbildung erfolgen in Bezug auf ihre Durchführung, Auswertung und Interpretation standardisiert und somit personenunabhängig (Hübner et al. 2020). Die mangelnde Objektivität von Noten zeigt sich insbesondere an zwei Befunden: a) Lehrkräfte verwenden unterschiedliche Bezugsnormen bei der Beurteilung der Leistungen von Schülerinnen und Schülern (Neumann et al. 2011), b) der gesamte Prozess der Notenbildung ist phasenübergreifend anfällig für Beobachtungs- und Beurteilungsfehler (Beutel und Pant 2020; Bohl 2019).

In der wissenschaftlichen Literatur finden sich insbesondere Hinweise auf drei Bezugsnormen, die von Lehrkräften bei der Leistungsbeurteilung verwendet werden: Die individuelle, die kriteriale und die soziale Bezugsnorm (Hübner et al. 2020; Neumann et al. 2011). Wenn Lehrkräfte Schülerinnen und Schüler unter Rückbezug auf die individuelle Bezugsnorm benoten, basiert das Urteil im Kern auf einem Abgleich zwischen ihrer aktuellen und ihrer vergangenen Leistung, während eine kriteriale Bezugsnormorientierung Vergleiche anhand eines festgelegten Kriteriums (z. B. einem Lernziel) vorsieht. Den Prozess der Beurteilung von Schülerinnen und Schülern unter Rückbezug auf ihren relativen Leistungsstand in der Klasse beschreibt schließlich die soziale Bezugsnormorientierung (Bohl 2019). Diese Bezugsnormorientierung führt dazu, dass Schülerinnen und Schüler in Abhängigkeit von der jeweiligen Klassenleistung benotet werden (Hübner et al. 2020; Trautwein et al. 2006). Dies impliziert, dass Schülerinnen und Schüler mit einer identischen Leistung in einer im Mittel eher leistungsschwachen Klasse bessere Noten erhalten als in einer im Mittel eher leistungsstarken Klasse.

Darüber hinaus findet die Beurteilung durch die unterrichtende Lehrkraft statt, die über weitere Informationen zu einzelnen Schülerinnen und Schülern verfügt, die das Auftreten von Beobachtungs‑, Verfahrens- und Beurteilungsfehlern begünstigen können. Beutel und Pant (2020) unterscheiden in diesem Zusammenhang vier Typen derartiger Fehler: a) Erwartungseffekte, b) Verlaufseffekte, c) Effekte der Lehrkräftepersönlichkeit und d) Angleichungseffekte. Unter Erwartungseffekten verstehen sie beispielsweise Halo-Effekte, bei denen bisherige Eindrücke oder zusätzliches Wissen über Lernende die Leistungsbeurteilung systematisch verzerren können (Malouff et al. 2013). Darunter können auch systematische gruppenbezogene Urteilstendenzen fallen – so gibt es etwa Hinweise darauf, dass Schülerinnen bei gleicher Leistung oft bessere Noten erhalten als Schüler (Helbig 2012; Rüdiger et al. 2018) und Schülerinnen und Schüler mit Migrationshintergrund bei gleicher Leistung schlechter benotet werden (Bonefeld und Dickhäuser 2018; Holder und Kessels 2017). Verlaufseffekte beziehen sich auf Beurteilungs- und Beobachtungsfehler wie beispielsweise Primacy- und Recency-Effekte, bei denen der erste oder der letzte Eindruck die Gesamtbeurteilung überproportional stark beeinflusst (Steiner und Rain 1989). Unter Effekten der Lehrerpersönlichkeit sind beispielsweise Milde- und Strenge-Tendenzen von Lehrkräften zu verstehen (Bohl 2019), d. h. die bessere oder schlechtere Beurteilung identischer Schülerleistungen ist Abhängig von bestimmten pädagogischen Prämissen. Angleichungseffekte beschreiben schließlich die Tendenz, dass Lehrkräfte ihre Beurteilung systematisch an Beurteilungen des Referenzkollektivs (z. B. des Fachkollegiums) anpassen, beispielsweise kollektiv geteilte Benotungstendenzen.

Unterschiede zwischen Bundesländern

In der öffentlichen und politischen Debatte besonders häufig thematisiert wird eine eingeschränkte Vergleichbarkeit von Noten zwischen den Bundesländern. Der Fokus richtet sich hier zumeist auf die Abiturnoten. In einem Urteil des Bundesverfassungsgerichts zur mangelnden Vergleichbarkeit von Abiturnoten (BVerfG 2017) wurde immer wieder auf die von der Kultusministerkonferenz (KMK) veröffentlichten Länderunterschiede in den Abiturnoten verwiesen (KMK 2023). Ein Blick in die Statistiken zeigt, dass beispielsweise im Jahr 2020 in Thüringen rund 39 % aller Schülerinnen und Schüler eine Abiturnote zwischen 1,0 und 1,9 erhielten, während sich der Anteil in Niedersachsen auf lediglich 13 % der Schülerinnen und Schüler belief. Gleichzeitig erhielten nur 11 % aller Schülerinnen und Schüler in Thüringen eine Abiturnote im Bereich 3,0–3,9, während diese Zahl in Niedersachsen mehr als dreifach so hoch lag (37 %). Entsprechend markante Differenzen finden sich keineswegs nur punktuell, sondern sind auch bei einer Betrachtung über mehrere Jahre klar erkennbar (KMK 2023). Die Interpretation dieser Unterschiede als Beleg für eine mangelnde Vergleichbarkeit des Abiturs beurteilt Klieme (2022) allerdings als Fehlschluss und argumentiert gegenteilig: „Wenn die Abiturnoten wirklich ‚vergleichbar‘ wären, also Wissen oder Kompetenzen oder schulischen Lernerfolg auf derselben Skala abbildeten, würde man aller Wahrscheinlichkeit nach deutlich stärkere Unterschiede zwischen Ländern feststellen“ (Klieme 2022, S. 331).

Kötter-Mathes et al. (2020), Brodkorb und Koch (2020) sowie Schmid-Kühn und Groß (2022) weisen für die Sekundarstufe II auf eine ganze Reihe möglicher struktureller Ursachen für diese Länderunterschiede hin. So variieren neben anderen Merkmalen insbesondere die Zahl der Unterrichtsstunden und der zu wählenden Kurse, das Anforderungsniveau bestimmter Kurse, die Anzahl der in die Abiturgesamtnote einzubringenden Kursnoten sowie die Vorgaben für die Benotung bestimmter Leistungen. Derartige bundeslandspezifische Unterschiede betreffen also insbesondere die Validität der Noten (z. B. intendierte und implementierte Curricula), aber auch Fragen der Objektivität (Wie wird „gemessen“ und benotet?).

Auffällig ist, dass die Vergleichbarkeit insbesondere in Bezug auf Befunde aus der Sekundarstufe II kritisch diskutiert wird, insgesamt aber keine aktuellen Befunde vorliegen, die sich mit der Vergleichbarkeit von Schulnoten in der Sekundarstufe I beschäftigen und hierbei unterschiedliche Ebenen des Schulwesens in den Blick nehmen. Öffentlich einsehbare Daten für die Abschlussnoten aller Bundesländer in den Jahrgangsstufen 9 und 10 existieren nicht. Aufschlussreich wären daher insbesondere Arbeiten, die auf Basis repräsentativer Datensätze die Noten zwischen Bundesländern in der Sekundarstufe I vergleichen und prüfen, ob sich die in einer ersten Studie für die Oberstufe gefundenen Unterschiede zwischen einzelnen Bundesländern (hier zwischen Hamburg und Baden-Württemberg; vgl. Neumann et al. 2009) bereits in der Sekundarstufe I zeigen. Theoretisch erscheint es sehr plausibel, dass sich die Mechanismen, die für die mangelnde Vergleichbarkeit von Schulnoten verantwortlich sind, in ähnlicher Form an verschiedenen Stellen im Bildungswesen zeigen sollten. Insofern können entsprechende Analysen zur Sekundarstufe I aufschlussreich sein, um die Debatte zur Vergleichbarkeit von Schulnoten, die bisher primär für die Sekundarstufe II geführt wird, hinsichtlich ihrer Bedeutsamkeit für die Sekundarstufe I näher zu untersuchen. Gleichzeitig ist es wichtig zu berücksichtigen, dass in der gymnasialen Oberstufe in unterschiedlichen Bundesländern bestimmte strukturelle Unterschiede bestehen, die sich in der Sekundarstufe I in dieser Form nicht finden (z. B. Unterschiede in der Anzahl einzubringender Kurse für das Abiturzeugnis oder unterschiedliche Kurstypen). Darüber hinaus existieren in der Sekundarstufe I spezifische strukturelle Unterschiede zwischen Bundesländern, die sich in der Sekundarstufe II wiederum anders darstellen und in möglichen Analysen zur Vergleichbarkeit von Schulnoten berücksichtigt werden müssen (z. B. unterschiedliche Schulformen). Aus diesem Grund können die Ergebnisse zur Sekundarstufe I zwar wertvolle weitere Erkenntnisse zur mangelnden Vergleichbarkeit von Schulnoten liefern, sie sollten allerdings nur mit Vorsicht und keinesfalls pauschal auf die Debatte zur Vergleichbarkeit von Abiturnoten übertragen werden.

In Bezug auf die Sekundarstufe I berichten beispielsweise Baumert et al. (2003) auf Basis von PISA 2000 Daten für die 9. Jahrgangsstufe deutliche Unterschiede zwischen Bundesländern. Während Schülerinnen und Schüler in Thüringen im Mittel die Note 2,74 erhielten, lag der Mittelwert bei Schülerinnen und Schülern in Schleswig-Holstein und Nordrhein-Westfalen mit 3,16 deutlich höher. Die Autorinnen und Autoren führen die beobachteten Unterschiede, die in der Tendenz Ergebnismuster der Abiturnotenunterschiede zwischen Bundesländern widerspiegeln, primär auf variierende Strenge- und Milde-Tendenzen sowie regionale Traditionen zurück. Darüber hinaus betrachteten Baumert et al. (2003) auch Varianzkomponenten von Mathematiknoten. Sie fanden, dass insgesamt 11 % auf Unterschiede zwischen Schulen, 87 % auf Unterschiede innerhalb von Schulen und 2 % auf Unterschiede zwischen Ländern zurückzuführen waren. Für die Testleistung in Mathematik zeigte sich, dass 14 % durch Unterschiede zwischen Schulen, 43 % durch Unterschiede innerhalb von Schulen und 6 % durch Länderunterschiede erklärt werden konnten. Darüber hinaus zeigten sich in nach Schulformen und Notenstufen differenziert dargestellten Analysen ebenfalls substantielle Unterschiede in den standardisierten Testleistungen zwischen Bundesländern. Auch Klieme (2022) berichtet von entsprechenden Befunden zu Länderunterschieden und Schulunterschieden innerhalb von Ländern auf Basis von Daten der PISA‑E 2000 Studie (Klieme 2003), weist aber gleichzeitig auf die begrenzte Aussagekraft dieser Ergebnisse für das deutsche Schulsystem aufgrund ihres Alters und der eingesetzten PISA-Tests hin. Da Schulleistungen auf den verschiedenen Ebenen des Schulsystems deutlich variieren, stellt sich die Frage, inwieweit sich dies in Notenunterschieden widerspiegelt.

Ebenenspezifische Verortung

Entsprechend sollen an dieser Stelle noch einige Überlegungen zur ebenenspezifischen Verortung einzelner Einflussfaktoren auf Bewertungsunterschiede erfolgen. In Tab. 1 wird hierzu ein Ausschnitt möglicher Faktoren dargestellt. Wie ersichtlich, legt Tab. 1 nahe, dass ein Großteil der verschiedenen, plausiblen Einflussfaktoren bereits auf unteren Ebenen in Erscheinung tritt. Hierbei handelt es sich insbesondere um Schülermerkmale (z. B. Persönlichkeitseigenschaften; Hübner et al. 2022), Bezugsnormorientierungen (z. B. Hübner et al. 2020; Neumann et al. 2011), unterschiedliche Erwartungs- und Verlaufseffekte sowie Effekte der Lehrerpersönlichkeit (vgl. Beutel und Pant 2020). Letztere lassen sich primär auf Ebene der Lehrkraft/der Klasse, also innerhalb von Schulen verorten. Angleichungseffekte, die sich darin äußern können, dass Lehrkräfte innerhalb von Schulen ihr Verhalten dem Kollektiv anpassen, sollten hingegen primär zu Unterschieden zwischen Schulen beitragen (z. B. bei der Notengebung; Beutel und Pant 2020). Das implementierte Curriculum kann darüber hinaus theoretisch sowohl wesentlich von Entscheidungen der einzelnen Lehrkraft abhängen und damit Unterschiede zwischen Klassen innerhalb von Schulen erzeugen, aber auch aus Festlegungen auf der Schulebene resultieren und somit Unterschiede zwischen Schulen innerhalb von Bundesländern bewirken, z. B. wenn Schulen sich deutlich in ihrer Schwerpunktsetzung bei einem intendierten Schulcurriculum unterscheiden. Ausgangspunkt für Unterschiede zwischen Ländern im implementierten Curriculum bilden schließlich auch bundeslandspezifische Unterschiede im intendierten Curriculum. Darüber hinaus existieren weitere gesetzliche Unterschiede zwischen Bundesländern, die einen Einfluss auf Bewertungsunterschiede haben könnten, beispielsweise unterschiedliche Vorgaben zur Berücksichtigung individueller Bezugsnormen, zum Kursniveau von Pflichtfächern oder in Bezug auf die Gewichtung von schriftlichen und mündlichen Leistungen bei der Bildung von Gesamtnoten (Lindström 2023; Schmid-Kühn und Groß 2022; SchulG 2022).

Tab. 1 Theoretische Überlegungen zur ebenenspezifischen Verortung von Einflussfaktoren auf Bewertungsunterschiede

Bei der Darstellung in Tab. 1 ist es wichtig zu berücksichtigen, dass es sich lediglich um einen Ausschnitt besonders prominent diskutierter Faktoren handelt. Zudem wurde versucht, die überwiegende Anzahl der Faktoren einer „Primärebene“ zuzuordnen, es erscheint jedoch plausibel, dass einige der Faktoren auch auf anderen Ebenen (ggf. in geringem Ausmaß) Beurteilungsunterschiede erklären könnten. Dies wäre beispielsweise dann der Fall, wenn Bezugsnormen in einzelnen Bundesländern schulgesetzlich verankert werden, in anderen Bundesländern hingegen nicht (vgl. NVO 2022; SchulG 2022), wenn regionale Unterschiede in Strenge- und Milde-Tendenzen vorliegen (z. B. Baumert et al. 2003) oder einzelne Einflussfaktoren auf unterschiedlichen Ebenen miteinander interagieren.

4 Methodische Überlegungen zur Untersuchung der mangelnden Vergleichbarkeit von Schulnoten

Zur Untersuchung der Vergleichbarkeit von Schulnoten finden sich in der Fachliteratur insbesondere zwei Analyseperspektiven (z. B. Baumert et al. 2003; Hübner et al. 2020; Klieme 2003; Neumann et al. 2009). Wie im Folgenden näher dargestellt, eröffnet die Betrachtung beider Analyseperspektiven komplementäre Einsichten und Antworten in Bezug auf die forschungsleitende Fragestellung.

Die erste Analyseperspektive (Perspektive A) fragt nach der Vergleichbarkeit der Leistungen von Schülerinnen und Schülern mit gleichen Noten und sieht vor, die Vergleichbarkeit von Schulnoten als Abweichung zwischen der tatsächlichen standardisierten Leistung (Kriterium) und der auf Basis der Note (Prädiktor) vorhergesagten standardisierten Leistung zu definieren. Praktisch wird zur Betrachtung dieser Abweichung die standardisierte Leistung durch die Note vorhergesagt. Die Abweichung entspricht hier den Leistungsunterschieden von Schülerinnen und Schülern mit identischen Noten bzw. den Leistungsresiduen dieses Regressionsmodells. Die zweite Perspektive (Perspektive B) fragt nach der Vergleichbarkeit der Noten von Schülerinnen und Schülern mit gleichen standardisierten Testleistungen und sieht vor, „den Grad der Nicht-Vergleichbarkeit“ (Klieme 2022, S. 331) als Abweichung zwischen der tatsächlichen Note (Kriterium) und der auf Basis der standardisierten Testleistung (Prädiktor) vorhergesagten Note zu definieren. Praktisch wird zur Betrachtung dieser Abweichung die Note durch die standardisierte Testleistung vorhergesagt. Die Abweichung entspricht dem Residuum dieses Regressionsmodells bzw. den Notenunterschieden von Schülerinnen und Schülern mit identischen standardisierten Testleistungen.

Es lassen sich verschiedene Argumente für oder gegen die jeweiligen Ansätze anführen. Für Perspektive B spricht, dass sie (zunächst) intuitiver wirkt, weil zur Untersuchung der Vergleichbarkeit von Noten, Unterschiede in den Noten von Schülerinnen und Schülern mit identischen standardisierten Testleistungen untersucht werden. Der Fokus dieser Analyseperspektive liegt also auf der Erklärung der Variation von Noten bei gleichen Testleistungen und entspricht damit ggf. eher den pädagogischen und gesellschaftspolitisch geführten Debatten. Gleichzeitig lassen sich bei der Verwendung dieser Perspektive eine Reihe von theoretischen und praktischen Herausforderungen identifizieren. Diese zeigen sich beispielsweise zunächst darin, dass Unterschiede in Noten erklärt werden sollen, Noten selbst allerdings aus verschiedenen Gründen oft nur schwer miteinander verglichen werden können (Beutel und Pant 2020; Bonefeld und Dickhäuser 2018; Holder und Kessels 2017; Hübner et al. 2020, 2022; Klieme 2022). Darüber hinaus weisen verschiedene Autoren darauf hin, dass Noten häufig nur eine geringe Variation zwischen Schulen aufweisen (z. B. auf Grund von „grading on a curve“-Phänomenen; z. B. Baumert et al. 2003), sodass hier bei mehrebenenanalytischen Betrachtungen ggf. von der üblichen Vorgehensweise abgewichen werden muss, die im ersten Schritt die Identifikation substantieller Varianzanteile auf unterschiedlichen Clusterebenen vorsieht, bevor diese in einem zweiten Schritt durch die Aufnahme von Prädiktoren erklärt werden sollen. Varianz auf Clusterebenen wird bei einer Anwendung von Perspektive B daher teilweise erst durch die Aufnahme eines Prädiktors (der Leistung) „induziert“. Diesbezüglich weist Perspektive A den Vorteil auf, dass das Kriterium (die standardisierte Leistung) objektiv zwischen Schülerinnen und Schülern, Schulen und Bundesländern vergleichbar ist und daher bei mehrebenenanalytischen Betrachtungen auch bereits im Nullmodell etwaige Varianzkomponenten auf Clusterebene korrekt identifiziert werden. Hier „induziert“ also nicht erst die Aufnahme eines Prädiktors (hier die Note) die zu erklärende (Residual)Variation. Die Aufnahme weiterer Prädiktoren auf Basis der im Nullmodell identifizierten Varianzkomponenten erklärt diese Varianzkomponenten direkt im ersten Schritt, was der üblichen regressionsanalytischen Vorgehensweise entspricht. Zuletzt erscheint diese Perspektive auch in Bezug auf die kausale zeitliche Ordnung, je nach Testdesign, gewisse Vorteile aufzuweisen (Kenny 1979). Da Zeugnisnoten Aggregate von Einzelleistungen, z. B. gewichtete arithmetische Mittelwerte über Einzelnoten, die als kontinuierliche Variablen behandelt werden, über gesamte Schul(halb)jahre darstellen, es sich bei standardisierten Tests aber lediglich um punktuelle Messungen zu einem spezifischen Zeitpunkt handelt, häufig am Ende oder Anfang eines Schul(halb)jahres, unterliegt Perspektive B der Gefahr, dass eher erfasste Schulhalbjahresnoten rückbezüglich durch später erfasste Leistungstestergebnisse vorhergesagt werden. Methodisch ist die Vorhersage von Schulnoten als Aggregate von über einen längeren Zeitpunkt gesammelten Einzelleistungen durch später erfasste, punktuelle standardisierte Leistungen voraussetzungsreich, da dies mit starken Annahmen über die Stabilität der Leistungsmessungen einhergeht. Werden jedoch (wie bei Perspektive B) Leistungstestergebnisse vom Ende des Schuljahres durch entsprechende Noten vorhergesagt, besteht diese Gefahr nicht. Allerdings weist auch Perspektive A einige Herausforderungen auf, beispielsweise weil sie zunächst weniger intuitiv erscheinen kann, da hier Varianz der Leistung von Schülerinnen und Schüler mit gleichen Noten betrachtet wird und nicht Varianz der Noten von Schülerinnen und Schüler mit gleichen Leistungen. Im bivariaten Fall führen beide Perspektiven zu identischen standardisierten Ergebnissen, bei der Aufnahme weiterer Prädiktoren und bei mehrebenenanalytischen Betrachtungen können sich die Varianzschätzungen (z. B. von Schulunterschieden oder Bundeslandunterschieden) jedoch unterscheiden.

Zusammenfassend stellen beide Perspektiven inhaltlich begründbare Möglichkeiten dar, die mangelnde Vergleichbarkeit von Schulnoten entweder über Leistungsresiduen (Abweichungen zwischen vorhergesagter und tatsächlicher Testleistung bei gleicher Note) oder über Notenresiduen (Abweichung zwischen vorhergesagter und tatsächlicher Note bei gleicher Testleistung) zu untersuchen. Aus Gründen der Anschlussfähigkeit und weil sich eindeutige inhaltliche Vorteile für nur eine der beiden Perspektiven in der Zusammenschau nicht klar identifizieren lassen, werden im vorliegenden Beitrag beide Analyseperspektiven berechnet und berichtet.

5 Fragestellung

Wie aus den obigen Ausführungen ersichtlich wird, lassen sich Schulnoten aus unterschiedlichen Gründen nur schwer miteinander vergleichen. In Debatten zu ihrer mangelnden Vergleichbarkeit wurden bisher verschiedene Argumente vorgebracht, die unterschiedliche strukturelle Ebenen des Bildungswesens fokussieren. Vor diesem Hintergrund und den immer wieder aufkeimenden bildungspolitischen Debatten und Bestrebungen zur Überwindung der eingeschränkten Vergleichbarkeit von Schulnoten (vgl. Brodkorb und Koch 2020; Klieme 2022; Kötter-Mathes et al. 2020; Stanat et al. 2016a) erscheint eine Erweiterung und Integration bisher vorliegender Ergebnisse zu dieser Thematik dringend erforderlich. Das Erkenntnissinteresse der vorliegenden Analysen ist daher darauf ausgerichtet, den spezifischen Beitrag, den unterschiedliche Ebenen im Bildungssystem (innerhalb von Schulen, zwischen Schulen und zwischen Bundesländern) zur Erklärung der Leistungsvariation zwischen Schülerinnen und Schülern mit identischen Schulnoten leisten, näher aufzuschlüsseln (Perspektive A). Darüber hinaus wird auch der Beitrag der unterschiedlichen Ebenen zur Erklärung der Notenvariation zwischen Schülerinnen und Schülern mit identischen Testleistungen untersucht (Perspektive B). Der Grad der mangelnden Vergleichbarkeit wird hierbei folglich als der Varianzanteil der standardisierten Leistung bzw. der Note definiert, der nicht durch Unterschiede in den Schulnoten bzw. in den Testleistungen erklärt werden kann.

Theoretisch erscheint es plausibel, dass ein Großteil der in der Theorie skizzierten Faktoren bereits innerhalb von Bundesländern wirksam wird und das Bundesland darüber hinaus deutlich weniger Varianz erklärt (vgl. Tab. 1). Diese Überlegungen werden von Befunden aus vergangenen Publikationen (z. B. Baumert et al. 2003) gestützt, die nahelegen, dass durchaus beträchtliche Unterschiede zwischen Schulen innerhalb von Bundesländern existieren und Unterschiede zwischen Bundesländern darüber hinaus nur einen kleinen Teil der Variation von Noten und Testleistungen erklären. Wichtig ist hierbei allerdings zu beachten, dass Baumert et al. (2003) in einem ersten Schritt nicht die Aufteilung von Residualvarianzen (d. h., Varianz in der Leistung bei identischen Noten bzw. Varianz in den Noten bei identischer Leistung) auf unterschiedlichen Ebenen betrachtet haben, sondern die Varianzzerlegung des jeweiligen Kriteriums im Nullmodell. Die dargestellten Befunde zu unterschiedlichen schulform- und bundeslandspezifischen Zusammenhängen zwischen der Testleistung (Kriterium) und unterschiedlichen Noten verdeutlichen zwar allgemeine Unterschiede, lassen allerdings keine eindeutigen Rückschlüsse auf die Beiträge unterschiedlicher struktureller Ebenen zu dieser mangelnden Vergleichbarkeit zu. Zur Quantifizierung dieser ebenenspezifischen Beiträge soll die folgende Fragestellung näher untersucht werden: Welchen Beitrag leisten unterschiedliche strukturelle Ebenen des Bildungswesens (Unterschiede innerhalb von Schulen, Unterschiede zwischen Schulen innerhalb von Bundesländern und Unterschiede zwischen Bundesländern) zur Erklärung der mangelnden Vergleichbarkeit von Schulnoten und in welchem Größenverhältnis stehen die jeweiligen Beiträge zueinander?

Die Beantwortung der Fragestellung erfolgt in drei Schritten: Im ersten Schritt werden Varianzanteile der Leistungsresiduen (bzw. der Notenresiduen) auf Schulebene hinsichtlich ihrer Bedeutsamkeit näher untersucht, bevor im zweiten Schritt Varianzanteile der Leistungsresiduen (bzw. der Notenresiduen) auf Bundeslandebene näher betrachtet werden. In einem dritten Schritt werden anschließend die entsprechenden prozentualen Anteile der erklärten Variabilität zwischen Ländern und Schulen berechnet und miteinander verglichen. Die Analysen werden sowohl für Leistungsresiduen (Perspektive A) als auch für Notenresiduen durchgeführt (Perspektive B; siehe Abschn. 4).

6 Methode

6.1 Stichprobe und Studiendesign

In der vorliegenden Studie wurden Daten der IQB-Bildungstrends 2015 (Stanat et al. 2016b) und 2018 (Stanat et al. 2019) verwendet. Die Bildungstrends sind Teil des nationalen Bildungsmonitorings und sollen das Erreichen der nationalen Bildungsstandards überprüfen. Der Fokus des IQB-Bildungstrends 2015 lag auf sprachlichen Kompetenzen, in 2018 wurden Mathematik und naturwissenschaftliche Kompetenzen untersucht. Am IQB-Bildungstrend 2015 nahmen insgesamt 33.110 Schülerinnen und Schüler der neunten Jahrgangsstufe aus 1513 Schulen teil. Am IQB-Bildungstrend 2018 nahmen insgesamt 44.941 Schülerinnen und Schüler der neunten Jahrgangsstufe aus 1462 Schulen teil. Die Datenerhebung erfolgte zwischen April und Juni 2015 bzw. 2018. Dabei wurden jeweils ein Kompetenztest eingesetzt (120 min) sowie ein Fragebogen (45 min) und Instrumente zur Erfassung von Kontrollvariablen (kognitive Grundfähigkeiten, Sprachfähigkeiten). Mit Pausen dauerte die Testsitzung insgesamt etwa vier Stunden. Die Teilnahme am Kompetenztest war verpflichtend, das Ausfüllen des Fragebogens je nach Bundesland freiwillig oder verpflichtend. Die gewichtete Teilnahmequote auf Schülerebene betrug 93 % (2015) bzw. 92 % (2018) für den Kompetenztest und 85 % (2015) bzw. 82 % (2018) für den Fragebogen. Die Datenbestände für den Bildungstrend 2015 und den Bildungstrend 2018 wurden vom Institut zur Qualitätsentwicklung im Bildungswesen veröffentlicht (Stanat et al. 2018, 2022). Für die vorliegende Studie wurden Schülerinnen und Schüler an Förderschulen ausgeschlossen ebenso wie Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf an Regelschulen, die im jeweiligen Fach nicht zielgleich unterrichtet wurden. Außerdem wurden nur Schülerinnen und Schüler berücksichtigt, die ein Testheft erhalten hatten, das Aufgaben zum Englisch-Lesen (2015) bzw. zu Mathematik (2018) enthielt. Die resultierende Analysestichprobe umfasst 31.247 Schülerinnen und Schüler im Fach Englisch und 23.755 Schülerinnen und Schüler im Fach Mathematik (Analysestichprobe insgesamt N = 55.002).

6.2 Instrumente

Englischleistung (2015)

Die curricular validen Kompetenztests im Bereich Englisch-Lesen wurden auf Basis der nationalen Bildungsstandards entwickelt, pilotiert und normiert. Im IQB-Bildungstrend 2015 wurden insgesamt 238 verschiedene Items zum Englisch-Leseverstehen eingesetzt, die 44 verschiedenen Testheften zugeordnet waren. Die Testitems hatten verschiedene Formate (z. B. Multiple Choice, Multiple Matching, Sequencing; siehe Stanat et al. 2016b). Die Testheftversionen waren in Bezug auf die Itemschwierigkeit und weitere Itemmerkmale balanciert. Die Skalierung der Leistungstests erfolgte anhand des Rasch-Modells. Zur Schätzung der Personenparameter wurde die Plausible-Values-Technik verwendet (Graham 2009), wobei 15 plausible Schätzer pro Person gezogen wurden (für Details siehe Sachse et al. 2016).

Mathematikleistung (2018)

Die Kompetenztests im Fach Mathematik wurden ebenfalls auf Basis der nationalen Bildungsstandards entwickelt. Im IQB-Bildungstrend 2018 wurde ein Youden-Square-Design mit verschiedenen Testheftversionen verwendet, die auf Basis der Schwierigkeit und weiterer Itemmerkmale balanciert waren. Insgesamt kamen 41 verschiedene Testheftversionen zum Einsatz. Die Tests enthielten sowohl Multiple-Choice Items als auch Kurzantworten und offene Items (für Details zur Testentwicklung siehe Stanat et al. 2019). Auf Basis der Kompetenztestdaten wurden Personenschätzer für die Mathematikfähigkeit mithilfe eines 2PL-IRT-Modells (Birnbaum 1968) geschätzt und 15 plausible Schätzer für die Globalskala Mathematik pro Person gezogen (für Details siehe Becker et al. 2019).

Schulnoten

Die Noten im Fach Englisch (Halbjahreszeugnis 2014/2015) und Mathematik (Halbjahreszeugnis 2017/2018) wurden für alle teilnehmenden Schülerinnen und Schüler durch die Schulen an das IQB übermittelt. Im Rahmen der Aufbereitung des Datensatzes durch das IQB wurden zum Umgang mit verschiedenen Notensystemen alle Noten auf das ganzzahlige Ziffernsystem von 1 (sehr gut) bis 5/6 (mangelhaft/ungenügend) recodiert.

6.3 Statistische Analyse

Zur Untersuchung der Fragestellungen wurden verschiedene Mehrebenenmodelle spezifiziert, in denen für Perspektive A jeweils die standardisierte Leistung in Englisch-Lesen und Mathematik (bzw. die Leistungsresiduen nach Kontrolle der Noten; s. unten) schrittweise und getrennt für das Gymnasium und für die nicht-gymnasialen Schulformen auf ebenenspezifische Varianzanteile untersucht wurden (Perspektive A). Zur Untersuchung von Perspektive B wurden, bei einem ansonsten äquivalenten Vorgehen, die Noten in Englisch und Mathematik (bzw. die Notenresiduen nach Kontrolle der Testleistungen) untersucht. Die getrennte Analyse von gymnasialen und nicht-gymnasialen Schulformen begründet sich zunächst durch Überlegungen in Bezug auf die Übertragbarkeit unserer Ergebnisse auf Diskussionen, die derzeit primär im Zusammenhang mit der Sekundarstufe II geführt werden. Unter der Annahme, dass Schülerinnen und Schüler, die in Klassenstufe 9 ein Gymnasium besuchen, auch das Abitur erwerben, ermöglicht die von uns vorgenommene Differenzierung hier eine potenziell besonders spannende Erweiterung der gesellschaftspolitischen und wissenschaftlichen Debatte im Kontext der Sekundarstufe II. Zur Erweiterung der Debatte auf weitere (nicht-gymnasiale) Schulformen wurden diese im Rahmen des vorliegenden Beitrags ebenfalls berücksichtigt. Es ist allerdings wichtig, darauf hinzuweisen, dass die Vergleichbarkeit von Gymnasien (zwischen Bundesländern) plausibler erscheint als die Vergleichbarkeit nicht-gymnasialer Schulformen, weil sich hier z. T. größere bundeslandspezifische Besonderheiten ergeben können. Diese resultieren beispielsweise daraus, dass bestimmte nicht-gymnasiale Schulformen nur in bestimmten Bundesländern vorkommen oder sich identisch bezeichnete Schulformen in unterschiedlichen Bundesländern substanziell hinsichtlich ihrer Schülerkomposition und weiterer Ausgestaltungsmerkmale unterscheiden können. Entsprechende länderspezifische Schulformunterschiede wurden durch die Spezifikation von Schulform × Bundesland-Interaktionstermen (vgl. Modell 3 in Tab. 5 und 7) adressiert.

Im Folgenden wird das Vorgehen zur Untersuchung von Perspektive A (vgl. Abschn. 4) näher dargestellt. Zur Untersuchung von Perspektive B wurde ein identisches Vorgehen angewendet. Der zentrale Unterschied in den Analysen besteht lediglich in der Anordnung der Testleistungen und Noten als Kriterium und Prädiktor (Perspektive A) bzw. umgekehrt (Perspektive B).

Für die gymnasiale Schulform erfolgte zunächst die Schätzung eines Nullmodells (M0; Varianzanteile der Leistung innerhalb und zwischen Schulen), bevor in einem zweiten Schritt die Leistungsresiduen (d. h. die Varianzanteile nach Kontrolle der Fachnote) betrachtet wurden (M1). In Modell M2 wurden dann zur Erklärung der standardisierten Leistung auch Dummy-Variablen für die Bundesländer berücksichtigt, bevor in einem letzten Modell (M3) schließlich auch alle möglichen Zweifachinteraktionen (Note × Bundesland) zur Vorhersage der standardisierten Leistung verwendet wurden. M3 diente hier als Robustheitstest für M2 im Sinne einer Prüfung der Annahme (weitgehend) vergleichbarer Leistungsunterschiede bei identischen Notenunterschieden in den einzelnen Bundesländern (Prüfung auf nahezu vergleichbare Varianzaufklärung in M2 und M3). Konkret heißt dies, dass mit der Interaktion geprüft werden sollte, ob eine Berücksichtigung etwaiger Unterschiede im Zusammenhang zwischen der Testleistung und den Noten in den jeweiligen Bundesländern zu einem bedeutsamen Unterschied in Bezug auf die Schätzung der jeweiligen Varianzkomponenten führte. Für nicht-gymnasiale Schulformen erfolgte eine identische Spezifikation der Modelle M0–M2. Allerdings wurde zur Berücksichtigung der variierenden Schulformen innerhalb dieser Kategorie in M3 eine Schulform × Bundesland-Interaktion in das Modell aufgenommen, um sämtliche schulformspezifischen Unterschiede zu kontrollieren. In M4, das als Robustheitstest diente, wurde anschließend die Note × Bundesland-Interaktion ergänzt (äquivalent zum M3 Model für gymnasiale Schulformen).

Von Bedeutung für die Untersuchung unserer Fragestellungen sind insbesondere zwei Varianzkomponenten und ihre Veränderung im Zuge der schrittweisen Modellierung. Hierbei handelt es sich einerseits um den Varianzanteil Schule (nach Kontrolle der Note und des Bundeslandes sowie der Schulformunterschiede bei den nicht-gymnasialen Schulformen) und andererseits um den Varianzanteil Bundesland (nach Kontrolle der Note). Der Varianzanteil Schule entspricht dem Quotienten aus der geschätzten Residualvarianz der um Noten und bundeslandspezifische Unterschiede bereinigten Leistungen auf Schulebene und der Gesamtvarianz der Leistung (jeweils nahe 1,0 aufgrund der Standardisierung). Die geschätzten Residualvarianzanteile auf Schulebene resultieren aus M2 für die Gymnasien bzw. M3 für nicht-gymnasiale Schulformen. Der Varianzanteil Bundesland ergibt sich als Quotient der Differenz der geschätzten Residualvarianzen der Schulebene aus M1 und M2 und der Gesamtvarianz der Leistung. Die entsprechenden Varianzanteile (Schule und Bundesland) können entsprechend als prozentuale Anteile der Gesamtvarianz der Leistung interpretiert werden. Zur Prüfung der statistischen Signifikanz der Varianzanteile der Leistungsresiduen auf Schulebene wurden Modellvergleiche mithilfe von Χ2-Differenztests verwendet, wobei jeweils ein Modell mit einer auf Null fixierten Varianz der Residuen auf Schulebene (keine Anteile der Unvergleichbarkeit auf Schulebene) mit dem frei geschätzten Modell verglichen wurde (Schritt 1). Um zu prüfen, ob das Bundesland für Englisch und Mathematik (im nicht-gymnasialen Bereich teilweise durch unterschiedliche Schulformen repräsentiert) einen statistisch signifikanten Beitrag zur Vorhersage der Leistung bei gleicher Note leistete, wurden Wald-Tests spezifiziert (Schritt 2). Im Anschluss erfolgte die Berechnung der jeweiligen Varianzanteile, die in Tab. 4 näher erläutert wurde (Schritt 3). Weitere Spezifika der Datenaufbereitung, Parameterberechnung und Information zur Methodik sowie Beispiel-Syntaxen befinden sich in Appendix A–E.

Behandlung von Noten als kontinuierliche Prädiktoren

In unserer Studie wurden Noten als kontinuierliche Prädiktoren behandelt, wobei implizit angenommen wird, dass die Leistungsunterschiede (abhängige Variable in Perspektive A) von Notenstufe zu Notenstufe jeweils identisch sind (linearer Zusammenhang). Zur Überprüfung der Robustheit dieser Vorgehensweise wurden Modelle mit Noten-Dummies spezifiziert, die nicht zu praktisch bedeutsamen Unterschieden in Bezug auf die Varianzschätzungen führten (z. B. in Mathematik am Gymnasium: Varianzanteil Schule: |∆| = 0,21 %, Varianzanteil Bundesland: |∆| = 0,05 % und an nicht-gymnasialen Schulformen: Varianzanteil Schule: |∆| = 0,16 %, Varianzanteil Bundesland: |∆| = 0,14 %; in Englisch beliefen sich alle Differenzen auf Werte |∆| ≤ 0,02 %). Darüber hinaus haben wir das Ausmaß des Informationsverlustes durch die Behandlung der Noten als beobachtete kontinuierliche statt ordinale Variablen in Anlehnung an O’Brien (1985) untersucht. Hierzu wurden die auf Basis der empirischen Verteilung der Schulnoten zu erwartenden linearen Zusammenhänge zwischen einer normalverteilten und einer jeweils durch Unterteilung des Kontinuums hervorgegangenen ordinalen Variable mit den Kategorienscores 1, 2, 3, 4 und 5 berechnet (die Notenstufen „5“ und „6“ wurden aufgrund geringer Häufigkeiten zusammengelegt). Die Ergebnisse legen nahe, dass mit der Behandlung der Noten als beobachtete kontinuierliche Variable vermutlich nur ein geringer Informationsverlust einhergeht. Die Korrelationen dieser beobachteten ganzzahligen mit den hypothetisch angenommenen zugrundeliegenden normalverteilten Ausprägungen beliefen sich für Mathematik und Englisch sowohl an Gymnasien als auch an nicht-gymnasialen Schulformen auf r ≥ 0,94.

Berücksichtigung von Stichprobengewichten

Bei der Analyse der Daten wurden sogenannte senate weights verwendet, damit Unterschiede zwischen großen Bundesländern nicht die Schätzungen der Residualvarianzanteile für die Bundeslandzugehörigkeit dominieren. Inhaltlich sollte dadurch der Fokus auf potenzielle Unterschiede in den Bildungssystemen gelegt werden, unabhängig von der jeweiligen Anzahl an Schülerinnen und Schülern im Bundesland. Die Stichprobengewichte wurden auf der Ebene von Schülerinnen und Schülern und auf Schulebene berücksichtigt.

Umgang mit fehlenden Werten

Die Daten wurden so verwendet, wie sie in den offiziellen Scientific Use Files (SUFs) vorliegen. In Mathematik finden sich hier „plausible“ Werte (PVs) für die Testleistung und die Noten und somit vollständige Werte, in Englisch hingegen nur PVs für die Testleistung. Der Anteil fehlender Werte auf Notenvariablen fiel insgesamt gering aus (8,5 % in Mathematik und 11,3 % in Englisch). Zum Umgang mit fehlenden Werten auf Noten in Englisch wurde die Full Information Maximum Likelihood (FIML)-Methode verwendet. Nähere Informationen finden sich in Becker et al. (2019).

7 Ergebnisse

7.1 Deskriptive Statistik

In Tab. 2 sind deskriptive Statistiken für die Stichprobe der Schülerinnen und Schüler am Gymnasium in Englisch und Mathematik aufgeführt. Es zeigte sich ein statistisch signifikanter negativer Zusammenhang zwischen Testleistungen und Noten von r = −0,44 für Englisch und r = −0,52 für Mathematik, der nahelegt, dass Schülerinnen und Schüler mit besseren Testleistungen im Mittel auch bessere Halbjahresnoten erhielten. Ähnliche Zusammenhänge zeigten sich auch für Korrelationen innerhalb von Schulen (Englisch: r = −0,47, Mathematik: r = −0,56). Die Korrelationen auf Schulebene fielen insgesamt kleiner aus (Englisch: r = −0,33, Mathematik: r = −0,26). Interessanterweise fanden sich positive Korrelationen auf der Bundeslandebene (Englisch: r = 0,37, Mathematik: r = 0,15), die andeuten, dass Schülerinnen und Schüler am Gymnasium in Bundesländern mit besseren Leistungen im Mittel schlechtere Noten erhielten.

Tab. 2 Korrelationen, zentrale Tendenzen, Streuung und Varianzkomponenten der Mathematikleistung, Mathematiknoten, Englisch-Leseleistung und Englischnote am Gymnasium

Die Noten in Englisch (M = 2,74, SD = 0,89) fielen deskriptiv leicht günstiger aus als die Noten in Mathematik (M = 2,91, SD = 1,04) und wiesen darüber hinaus eine etwas geringere Streuung auf. Bei der näheren Betrachtung der Varianzkomponenten auf Individual‑, Schul- und Länderebene zeigte sich ein über Noten und Testleistungen hinweg vergleichbares Muster, wonach der größte Anteil der Varianz auf Individualebene bestand (80–92 %), gefolgt von der Schulebene (7–13 %) und der Bundeslandebene (1–6 %).

Für die nicht-gymnasialen Schulformen zeigte sich insgesamt ein sehr ähnliches Bild (vgl. Tab. 3). Hier fielen die Noten und Testleistungen im Vergleich zum Gymnasium insgesamt ungünstiger aus. Darüber hinaus zeigten sich im Vergleich zu den gymnasialen Schulformen ausschließlich negative Zusammenhänge zwischen der Testleistung und den Noten auf allen Ebenen und deskriptiv größere Varianzkomponenten auf der Schulebene (7–27 %), dafür tendenziell aber weniger große Varianzanteile auf der Individualebene (69–89 %) sowie recht vergleichbare Varianzanteile auf der Bundeslandebene (3–5 %). In der Tendenz zeigte sich zudem, dass die Varianzkomponente Bundesland für Noten in Mathematik und Englisch (ohne Kontrolle von Leistungen) an nicht-gymnasialen Schulformen deskriptiv leicht größer ausfiel. In Mathematik belief sich dieser Unterschied auf ca. 2,5 % und in Englisch auf 1,7 %.

Tab. 3 Korrelationen, zentrale Tendenzen, Streuung und Varianzkomponenten der Mathematikleistung, Mathematiknoten, Englisch-Leseleistung und Englischnote an nicht-gymnasialen Schulformen

7.2 Leistungsvariabilität bei gleichen Noten zwischen Ländern und Schulen (Perspektive A)

Im ersten Schritt wurde untersucht, ob sich Variabilität in der Leistung von Schülerinnen und Schülern mit identischer Note zwischen Schulen innerhalb von Bundesländern und zwischen den einzelnen Bundesländern finden ließ. Hierzu erfolgte die schrittweise Spezifikation der in Abschn. 6.3 beschriebenen Modelle. Von besonderer Bedeutung war hierbei zunächst das Modell M2 für gymnasiale Schulformen sowie das Modell M3 für nicht-gymnasiale Schulformen (vgl. Tab. 4 und 5).

Tab. 4 Ergebnisse der Mehrebenenmodelle zur Vorhersage der Mathematikleistung und der Englisch-Leseleistung an Gymnasien
Tab. 5 Ergebnisse der Mehrebenenmodelle zur Vorhersage der Mathematikleistung und der Englisch-Leseleistung an nicht-gymnasialen Schulformen

Englisch-Lesen

Für Englisch-Lesen am Gymnasium zeigte sich ein statistisch signifikanter Unterschied zugunsten des Modells mit freier Varianzschätzung (χ (1) = 868,166, p < 0,001). Dies bedeutet, dass ein statistisch signifikanter Anteil der nach Kontrolle der Noten verbleibenden Residualvarianz in Englisch an Gymnasien auf Unterschiede zwischen Schulen innerhalb von Bundesländern zurückgeführt werden konnte. Ein vergleichbares Bild zeigte sich für nicht-gymnasiale Schulformen (χ (1) = 3642,306, p < 0,001). Bei einer Betrachtung des Beitrags von Länderunterschieden zur Variation der Leistung in Englisch-Lesen zeigten sich ähnliche Ergebnisse: Sowohl für gymnasiale (W (15) = 129,947, p < 0,001) als auch für nicht-gymnasiale Schulformen (W (15) = 61,920, p < 0,001) wies das Modell mit frei geschätzten Regressionskoeffizienten für die Bundesland-Dummies einen statistisch signifikant besseren Modellfit auf, was für eine bessere Passung des Modells mit möglichen Bundeslandunterschieden spricht.

Mathematik

Für die Mathematikleistung am Gymnasium zeigte sich ebenfalls ein statistisch signifikanter Unterschied zugunsten des Modells mit freier Varianzschätzung (χ (1) = 777,189, p < 0,001). Dies bedeutet, dass ein statistisch signifikanter Anteil der nach Kontrolle der Noten verbleibenden Residualvarianz in der Mathematiktestleistung an Gymnasien auf Unterschiede zwischen Schulen innerhalb von Bundesländern zurückgeführt werden konnte. Ein vergleichbares Bild zeigte sich für nicht-gymnasiale Schulformen (χ (1) = 2081,710, p < 0,001). Bei einer Betrachtung des Beitrags von Länderunterschieden zur Variation der Mathematikleistung zeigten sich ähnliche Ergebnisse: Sowohl für gymnasiale (W (15) = 262,550, p < 0,001) als auch für nicht-gymnasiale Schulformen (W (15) = 219,692, p < 0,001) wies das Modell mit frei geschätzten Regressionskoeffizienten für die Bundesland-Dummies einen statistisch signifikant besseren Modellfit auf.

7.3 Anteile der erklärten Leistungsvariabilität zwischen Ländern und Schulen (Perspektive A)

Im dritten Schritt wurden zur Untersuchung möglicher Unterschiede in den durch Schul- und Bundeslandunterschiede erklärten Anteilen der Variation in der Englisch- und Mathematikleistung zunächst die entsprechenden Anteile für M1 und M2 bei gymnasialen Schulformen und für M2 und M3 bei nicht-gymnasialen Schulformen berechnet (vgl. Tab. 4 und 5). Für Englisch-Lesen an Gymnasien fand sich (nach Kontrolle von Note und Bundesland) ein Varianzanteil Schule von rund 9,5 % und ein Varianzanteil Bundesland von 3,2 % (∆ = 6,3 %). An nicht-gymnasialen Schulformen belief sich der Varianzanteil Schule in Englisch-Lesen auf 13,6 % und der Varianzanteil Bundesland auf 2,7 % (∆ = 10,9 %). Für Mathematik an Gymnasien belief sich der Varianzanteil Schule (nach Kontrolle von Note und Bundesland) auf insgesamt 13,1 %. Der Varianzanteil Bundesland (nach Kontrolle von Note) hingegen fiel mit 6,7 % deutlich geringer aus (∆ = 6,4 %). Für nicht-gymnasiale Schulformen fand sich ein Varianzanteil Schule von 10,5 % und ein Varianzanteil Bundesland von 4,1 % (∆ = 6,4 %).

Robustheitsprüfung

Zur Prüfung der Annahme (weitgehend) vergleichbarer Leistungsunterschiede bei identischen Notenunterschieden in den einzelnen Bundesländern wurden Modelle mit Note × Bundesland-Interaktionen spezifiziert. Für das Gymnasium ergaben sich Unterschiede in Mathematik von |∆| = 0,1 % und in Englisch von |∆| = 0,2 %. Für nicht-gymnasiale Schulformen ergaben sich Differenzen von |∆| = 0,1 % in Mathematik und |∆| = 0,3 % in Englisch. Insgesamt sind die Unterschiede sehr geringfügig und zeigen daher keine praktische Bedeutsamkeit.

7.4 Notenvariabilität bei gleichen Leistungen zwischen Ländern und Schulen (Perspektive B)

Zur Betrachtung der Notenvariabilität zwischen Ländern und Schulen wurde ein vergleichbares Vorgehen gewählt wie für Perspektive A (vgl. Abschn. 6.3 und 7.3). Allerdings fungiert hier nicht die Testleistung, sondern die Note als Kriterium (vgl. Tab. 6 und 7).

Englisch

Für die Englischnoten am Gymnasium zeigte sich ein statistisch signifikanter Unterschied zugunsten des Modells mit freier Varianzschätzung (χ (1) = 1347,989, p < 0,001). Dies bedeutet, dass ein statistisch signifikanter Anteil der nach Kontrolle der Testleistungen verbleibenden Residualvarianz in den Englischnoten an Gymnasien auf Unterschiede zwischen Schulen innerhalb von Bundesländern zurückgeführt werden konnte. Ein vergleichbares Bild zeigte sich für nicht-gymnasiale Schulformen (χ (1) = 1690,791, p < 0,001). Bei einer Betrachtung des Beitrags von Länderunterschieden zur Variation der Englischnoten zeigten sich ähnliche Ergebnisse: Sowohl für gymnasiale (W (15) = 149,984, p < 0,001) als auch für nicht-gymnasiale Schulformen (W (15) = 153,215, p < 0,001) wies das Modell mit frei geschätzten Regressionskoeffizienten für die Bundesland-Dummies einen statistisch signifikant besseren Modellfit auf, was für eine bessere Passung des Modells mit möglichen Bundeslandunterschieden spricht.

Mathematik

Für die Mathematiknoten am Gymnasium zeigte sich ein statistisch signifikanter Unterschied zugunsten des Modells mit freier Varianzschätzung (χ (1) = 376,170, p < 0,001). Dies bedeutet, dass ein statistisch signifikanter Anteil der nach Kontrolle der Testleistungen verbleibenden Residualvarianz in der Mathematiknoten an Gymnasien auf Unterschiede zwischen Schulen innerhalb von Bundesländern zurückgeführt werden konnte. Ein vergleichbares Bild zeigte sich für nicht-gymnasiale Schulformen (χ (1) = 710,752, p < 0,001). Bei einer Betrachtung des Beitrags von Länderunterschieden zur Variation der Mathematiknoten zeigten sich ähnliche Ergebnisse: Sowohl für gymnasiale (W (15) = 132,651, p < 0,001) als auch für nicht-gymnasiale Schulformen (W (15) = 139,221, p < 0,001) wies das Modell mit frei geschätzten Regressionskoeffizienten für die Bundesland-Dummies einen statistisch signifikant besseren Modellfit auf.

7.5 Anteile der erklärten Notenvariabilität zwischen Ländern und Schulen (Perspektive B)

Auch für Analyseperspektive B ergab sich im letzten Schritt ein ähnliches Bild wie für die bereits in Abschn. 7.3 berichteten Ergebnisse für Analyseperspektive A. Für Englischnoten an Gymnasien fand sich ein Varianzanteil Schule von rund 12,9 % und ein Varianzanteil Bundesland von 0,3 % (∆ = 12,6 %). An nicht-gymnasialen Schulformen belief sich der Varianzanteil Schule in Englisch-Lesen auf 11,1 % und der Varianzanteil Bundesland auf 2,6 % (∆ = 8,5 %). Für Mathematik an Gymnasien belief sich der Varianzanteil Schule (nach Kontrolle von Testleistungen und Bundesland) auf insgesamt 8,5 %. Der Varianzanteil Bundesland (nach Kontrolle von Testleistung) hingegen fiel mit 2,2 % deutlich geringer aus (∆ = 6,3 %). Für nicht-gymnasiale Schulformen fand sich ein Varianzanteil Schule von 6,7 % und ein Varianzanteil Bundesland von 3,2 % (∆ = 3,5 %).

Robustheitsprüfung

Zur Prüfung der Annahme (weitgehend) vergleichbarer Notenunterschiede bei identischen Leistungsunterschieden in den einzelnen Bundesländern wurden Modelle mit Testleistung × Bundesland-Interaktionen spezifiziert. Für das Gymnasium ergaben sich Unterschiede in Mathematik von |∆| = 0,1 % und in Englisch von |∆| = 0,0 %. Für nicht-gymnasiale Schulformen ergaben sich Differenzen von |∆| = 0,2 % in Mathematik und |∆| = 0,9 % in Englisch. Insgesamt sind die Unterschiede sehr geringfügig und zeigen daher keine praktische Bedeutsamkeit.

Zusammenfassend legen die Befunde für Analyseperspektive A und B ein vergleichbares Bild nahe, demzufolge Schul- und in einem geringeren Ausmaß Bundeslandunterschiede Unterschiede in den Leistungen von Schülerinnen und Schülern mit identischen Noten (Perspektive A) bzw. Unterschiede in den Noten von Schülerinnen und Schülern mit identischen Testleistungen (Perspektive B) in Englisch und Mathematik erklären können. Mit Ausnahme von Englisch an Gymnasien bei Perspektive B, wo die Varianzkomponente Bundesland sehr klein ausfiel (0,3 %), fiel der Varianzanteil Schule um das 2‑ bis 5‑fache größer aus als der Varianzanteil Bundesland.

8 Diskussion

8.1 Zentrale Ergebnisse

Das Ziel der vorliegenden Studie bestand in einer genauen Untersuchung der Vergleichbarkeit von Schulnoten. Hierzu wurde auf Basis von Daten der IQB-Bildungstrends der spezifische Beitrag aufgeschlüsselt, den unterschiedliche Ebenen im Bildungssystem (innerhalb von Schulen, zwischen Schulen innerhalb von Bundesländern und zwischen Bundesländern) zur Erklärung der mangelnden Vergleichbarkeit leisten. Der Grad der mangelnden Vergleichbarkeit wurde als derjenige Residualvarianzanteil der standardisierten Leistung konzeptualisiert, der nicht durch Schulnotenunterschiede erklärt werden kann (Perspektive A) bzw. als Residualvarianzanteil der Noten, der nicht durch Leistungsunterschiede erklärt werden kann (Perspektive B).

Bei einer Betrachtung der Befunde wird zunächst deutlich, dass Noten insgesamt nur einen überschaubaren Anteil der Variation der Testleistung erklären können (ca. 19 bis 27 %). Diese Ergebnisse weisen somit große Übereinstimmungen zum in vorherigen Studien berichteten Zusammenhang von Noten und Testleistungen von Schülerinnen und Schülern auf (z. B. Hübner et al. 2020; Südkamp et al. 2012; Westphal et al. 2016). Darüber hinaus zeigte sich, dass der überwiegende Anteil der Leistungsvarianz bei identischen Noten und der Notenvarianz bei identischer Testleistung aus Unterschieden innerhalb von Schulen resultierte, gefolgt von Schulunterschieden und Bundeslandunterschieden. Dennoch wird deutlich, dass institutionelle Strukturen (hier Schul- und Bundeslandunterschiede) einen bedeutsamen Teil der Unterschiede in den Leistungen von Schülerinnen und Schülern mit identischen Noten erklären konnten, der sich je nach Schulform und Fach insgesamt auf 12,6 bis 19,8 % belief. In den Analysen zu Perspektive A zeigte sich darüber hinaus auch, dass der Varianzanteil Schule über alle Modelle hinweg deskriptiv substantiell größer ausfiel als der Varianzanteil Bundesland. Besonders auffällig war dies beispielsweise in Englisch an nicht-gymnasialen Schulformen. Hier belief sich der Varianzanteil Schule auf 13,6 %, der Varianzanteil Bundesland hingegen nur auf 2,7 %. Auch in Mathematik zeigten sich prononcierte Unterschiede mit um 6,4 % größeren Varianzanteilen auf Schulebene (vgl. Tab. 4 und 5). Bei einer Vorhersage der Noten durch die Testleistung (Perspektive B) zeigte sich ein ähnliches Bild, das nahelegt, dass institutionelle Strukturen einen bedeutsamen Teil der Unterschiede in den Noten von Schülerinnen und Schülern mit identischen Testleistungen erklären können (je nach Schulform und Fach 9,9 bis 13,7 %). Darüber hinaus fiel der Varianzanteil Schule auch hier in allen Analysen substantiell größer aus als der Varianzanteil Bundesland, insb. bei Englischnoten am Gymnasium (Varianzanteil Schule: 12,9 %, Varianzanteil Bundesland: 0,3 %; vgl. Tab. 6 und 7).

Tab. 6 Ergebnisse der Mehrebenenmodelle zur Vorhersage der Mathematiknote und der Englischnote an Gymnasien
Tab. 7 Ergebnisse der Mehrebenenmodelle zur Vorhersage der Mathematiknote und der Englischnote an nicht-gymnasialen Schulformen

8.2 Limitationen

Bei der Interpretation der Ergebnisse der vorliegenden Studien sind verschiedene Limitationen zu berücksichtigen. Zunächst ist es wichtig, dass die vorliegenden Analysen lediglich auf Basis von Daten aus der Jahrgangsstufe 9 durchgeführt wurden. Implikationen der Befunde für die gymnasiale Oberstufe sind daher an verschiedene Annahmen geknüpft, beispielsweise, dass sich die Kohorte der Schülerinnen und Schüler am Gymnasium in der Sekundarstufe I nur unwesentlich von der Kohorte der Schülerinnen und Schüler am Gymnasium der Sekundarstufe II unterscheidet. Eine direkte Übertragbarkeit ist hier nur dann gegeben, wenn der überwiegende Anteil der Schülerinnen und Schüler in Klassenstufe 9 am Gymnasium auch das Abitur erwirbt.

Darüber hinaus war eine weitere Differenzierung der Varianzanteile innerhalb von Schulen in Klassenunterschiede und individuelle Unterschiede auf Grund des Designs des IQB-Bildungstrends nicht möglich. An Gymnasien wurde pro Schule immer nur eine Klasse in die Erhebung einbezogen, an nicht-gymnasialen Schulformen wurden zwar immer zwei Klassen pro Schule untersucht, hier bestand allerdings in Teilen eine Konfundierung mit dem Bildungsgang innerhalb von Schulen, die sich in den vorliegenden Analysen nicht einfach auflösen ließ. Zukünftige Studien sind hier notwendig, um die Varianzanteile der Leistungsresiduen noch differenzierter auszuweisen und zu untersuchen.

Wichtig ist zudem zu erwähnen, dass in der vorliegenden Studie möglicherweise wichtige Faktoren nicht berücksichtigt wurden, die Abweichungen zwischen der vorhergesagten Testleistung (bzw. den Noten) und der tatsächlichen Testleistung (bzw. den tatsächlichen Noten) von Schülerinnen und Schülern und somit die von uns definierte Unvergleichbarkeit von Noten erklären könnten, beispielsweise Persönlichkeitseigenschaften oder motivationale Unterschiede (Hübner et al. 2022, 2023). Diesbezüglich erscheinen weitere Studien notwendig, die sich systematisch mit einer Bestimmung zentraler Einflussgrößen auf das Noten- bzw. Leistungsresiduum beschäftigen. Ebenso wichtig erscheint in diesem Zusammenhang auch eine nähere Auseinandersetzung mit der Frage, wann eine Note eigentlich „vergleichbar“ wäre und welche Einflussgrößen (gesellschaftspolitisch) möglicherweise sogar erwünscht sind.

8.3 Implikationen der Befunde

Die Ergebnisse der vorliegenden Studie sollen im Folgenden vor dem Hintergrund aktueller Debatten diskutiert und eingeordnet werden. Zunächst wird deutlich, dass es sich bei der mangelhaften Vergleichbarkeit von Schulnoten um ein sehr vielschichtiges Problem handelt, das unterschiedlich stark auf verschiedenen Ebenen in Erscheinung tritt. Diese Vielschichtigkeit ist vor dem Hintergrund der oft isolierten Fokussierung einzelner Ebenen in wissenschaftlichen und politischen Diskussionen ein besonders wichtiger Befund. Eckhard Klieme (2022) betonte diesen Aspekt kürzlich, indem er schrieb: „Es ist […] nicht ausreichend, nur auf die Länderebene zu schauen, wenn man institutionelle Unterschiede in der Notengebung betrachtet: Die Ebene der Einzelschulen kann etwa gleich wichtig sein.“ (Klieme 2022, S. 331). Die vorliegende Studie kommt unter Verwendung von Tests, die auf Basis der nationalen Bildungsstandards entwickelt wurden, zu einem ähnlichen Fazit wie Klieme. Interessant ist allerdings, dass die Ebene der Einzelschule nicht nur gleich wichtig zu sein scheint, sondern sich schulform- und fächerübergreifend deskriptiv sogar als bedeutsamer herausstellte als Bundeslandunterschiede, was früheren Befunden von Baumert et al. (2003) zu ebenenspezifischen Varianzanteilen von Schulnoten entspricht.

Über konkrete Ursachen für dieses Befundmuster kann im Rahmen des vorliegenden Artikels nur spekuliert werden. Plausibel erscheint, dass ein Großteil der für die eingeschränkte Vergleichbarkeit von Schulnoten verantwortlichen Faktoren, beispielsweise unterschiedliche Anforderungen, Bezugsnormorientierungen oder auch Beobachtungs- und Beurteilungsfehler innerhalb von Bundesländern, innerhalb von Einzelschulen und zwischen Lehrkräften ihre Wirksamkeit entfalten (vgl. Tab. 1). Wichtig ist dabei, dass diese Faktoren nicht zwangsweise unerwünscht sein müssen – so wird beispielsweise im Berliner Schulgesetz beschrieben, dass bei der Leistungsbeurteilung auch individuelle Entwicklungsprozesse zu berücksichtigen sind (SchG 2022), während entsprechende Konkretisierungen beispielsweise in der Notenbildungsverordnung in Baden-Württemberg nicht zu finden sind (z. B. NVO 2022). Innerhalb von Klassen wiederum könnten Schülermerkmale, beispielsweise der familiäre Hintergrund, zur Erklärung von Leistungsunterschieden unter Kontrolle der Note beitragen (Bonefeld und Dickhäuser 2018; Holder und Kessels 2017). Es wird deutlich, dass an dieser Stelle weitere Studien notwendig sind, die gezielt Prozesse bei der Notenbildung mit spezifischen Aspekten ihrer mangelhaften Vergleichbarkeit auf unterschiedlichen Ebenen in Beziehung setzen. Besonders vielversprechend erscheinen hier auch jüngere Arbeiten von Schröter et al. (2022), die den Einfluss der Vorgabe bestimmter Erwartungshorizonte auf die Vergleichbarkeit der Bewertung von Abituraufgaben experimentell untersuchen.

Deutlich wird auch, dass unterschiedliche länderspezifische Vorgaben, zumindest in der Sekundarstufe I, deskriptiv einen geringeren Beitrag zur mangelnden Vergleichbarkeit leisten als Unterschiede auf anderen Ebenen des Schulwesens. Aus diesem Befund ergeben sich einige weitere Implikationen: Zunächst weisen die Ergebnisse darauf hin, dass ein nicht unerheblicher Anteil von dem, was Notenvergleichbarkeit institutionell erschwert, im Kompetenzbereich der Länder liegt und somit insbesondere auch hier adressiert werden müsste. Interessant ist, dass sich diesbezüglich auch ältere Hinweise finden lassen. So berichten beispielsweise bereits Baumert et al. (2003): „Von der Varianz der Mathematiknote entfallen 11 % auf Schulunterschiede und 2 % auf Länderunterschiede.“ (S. 323). Diese Ergebnisse ähneln augenscheinlich Teilergebnissen der vorliegenden Studie (vgl. Tab. 2 und 3), obwohl die tatsächlichen Leistungen der Schülerinnen und Schüler nicht berücksichtigt wurden (bzw. keine Varianzanteile von Leistungsresiduen/Notenresiduen betrachtet wurden). Sie entsprechen in der Tendenz darüber hinaus auch den gefundenen Varianzanteilen der Leistungsresiduen/Notenresiduen von Schülerinnen und Schülern (vgl. Tab. 4, 5, 6 und 7). Baumert und Kollegen schlussfolgern auf dieser Grundlage, dass sich auch Schulen derselben Schulformen substantiell in ihren Benotungsstandards unterschieden. So stellten sie bei einem Blick in spezifische Bundesländer fest, dass es „einige – vermutlich aufgrund des internen Referenzrahmens – extrem streng zensierende Gymnasien gibt, in denen die Testleistung, die in den schwächsten Gymnasien einer guten oder sehr guten Note entspricht, nur noch für ein Ausreichend oder Mangelhaft genügt“ (S. 330). Auch die vorliegenden Analysen legen diese Schlussfolgerungen in ganz ähnlicher Weise nahe. Obwohl die Vergleichbarkeit von Schulnoten ein in bildungspolitischen Debatten der letzten zwei Dekaden häufig vorgetragenes Ziel ist und inzwischen auch bundesweit geltende Bildungsstandards existieren, zeigen sich beim Vergleich der Ergebnisse kaum Veränderungen. Dies weist darauf hin, dass die kriteriale Norm, die mit den Bildungsstandards definiert wurde, noch nicht in der Breite implementiert worden ist.

Auf Basis der vorliegenden Studie drängt sich schließlich auch die Frage auf, ob eine über alle beteiligten Ebenen hinweggehende Vergleichbarkeit von Noten (a) überhaupt realistisch ist oder es sich hierbei nicht eher um ein unerreichbares Ziel handelt und (b), ob sie überhaupt erstrebenswert wäre (wenn dafür z. B. eine deutlich höhere Standardisierung der Bewertungsprozesse nötig wäre, die z. B. keine sozialen oder individuellen Entwicklungsverläufe berücksichtigt). Die Frage nach der Vergleichbarkeit ist eng verknüpft mit der Frage nach den Funktionen von Noten. Sollen diese primär zum Mikro-Management innerhalb der Klasse eingesetzt werden, beispielsweise zur formativen Leistungsrückmeldung oder Motivierung (für weitere Funktionen siehe oben), nicht aber, um Schülerinnen und Schüler über Klassen und Schulen hinweg miteinander zu vergleichen, besteht möglicherweise gar keine Notwendigkeit Vergleichbarkeit für pädagogische Prozesse einzufordern (vgl. Klieme 2022). Zudem erscheint es in Anbetracht der zahlreichen, nahezu unmöglich in Gänze kontrollierbaren Faktoren, die zur eingeschränkten Vergleichbarkeit von Noten führen, praktisch kaum möglich zu sein, Noten vollends „vergleichbar zu machen“. Sollen Noten also für Vergleiche verwendet werden, stellt sich hier grundsätzlich die Frage, ob das „Herumdoktern“ an der Notenvergleichbarkeit nicht immer in Teilen „vergebliche Liebesmühe“ bleiben wird, weil es sich hierbei um eine „notwendige, aber kontrafaktische Annahme“ handelt (Klieme 2022, S. 320). Diese Überlegung führt auch zur Frage, ob Noten an wichtigen Gelenkstellen nicht einfach durch standardisierte Tests ersetzt werden könnten. Ein Blick in die angloamerikanische Diskussion legt jedoch nahe, dass auch standardisierte Tests keineswegs alle Probleme der Vergleichbarkeits- und Gerechtigkeitsdiskussion auflösen, sondern mit großer Wahrscheinlichkeit mit neuen Herausforderungen einhergehen würden, die beispielsweise unter den Stichwörtern „score inflation“ und „test preparation“ umfassend von Daniel Koretz aufgearbeitet wurden (Koretz 2008). Darüber hinaus existiert eine immer wieder aufkeimende, oft leidenschaftlich geführte Debatte über die systematische Benachteiligung gesellschaftlicher Minoritäten in standardisierten Tests (Koljatic et al. 2021).

Im Spannungsfeld zwischen voll standardisierten Tests und Noten könnten daher gerade hybride Formen wie Lernstandserhebungen, standardisierte Aufgabenpools oder zentrale Abiturprüfungen einen vielversprechenden Mittelweg darstellen, um Unterricht an der kriterialen Bezugsnorm auszurichten und die Beurteilungspraxis der Lehrkräfte weiter zu professionalisieren (Klieme 2022). Ob derartige Instrumente die mangelnde Vergleichbarkeit von Noten langfristig substantiell verbessern, ist zum aktuellen Zeitpunkt unklar und sollte daher auch zukünftig Gegenstand genauer Untersuchungen bleiben.