Jahrgangsgemischtes Lernen hat historisch in nationalen und internationalen Kontexten eine lange Tradition und spielt gegenwärtig und vermutlich auch künftig besonders in der Grundschule eine Rolle. Jahrgangsgemischte Klassen werden teils aus pragmatischen Gründen gebildet, wenn zu wenige Schüler*innen einer Klassenstufe an einem Ort zusammenkommen; teils stehen pädagogisch-didaktische Gründe im Vordergrund, wenn die bewusst gespreizte Heterogenität das Lernen der Schüler*innen bereichern und verbessern soll (z. B. durch Tutorensysteme, Lernen durch Lehren; individuelle Verweildauer, differenziertes Lernangebot). Mit der „neuen Schuleingangsstufe“ hat das jahrgangsgemischte Lernen in Deutschland seit den 1990er-Jahren auch im Regelschulbetrieb eine Renaissance erfahren (Sonnleitner 2021). Die Anzahl der jahrgangsgemischten Klassen im deutschsprachigen Raum steigt seither an, mittlerweile nicht nur für die Eingangsklassen, sondern auch für die dritte und vierte Jahrgangsstufe (z. B. in Bayern: Schuljahr 2013/2014: 228, Schuljahr 2016/2017: 351, Schuljahr 2019/2020: 465). Allerdings fehlt gerade für die höheren Jahrgangsstufen die empirische Evidenz zur Wirksamkeit, insbesondere auf Basis repräsentativer Längsschnittstudien mit Kontrollgruppe.

Die vorliegende Untersuchung bearbeitet dieses Desiderat für die dritte und vierte Jahrgangsstufe: Sie prüft Unterschiede in der Leistungsentwicklung zwischen jahrgangsgemischten und jahrgangshomogenen Klassen und beleuchtet die Effekte jahrgangsgemischten Lernens – differenziert nach Leistungsgruppen – an einem bedeutsamen Übergang im deutschen Bildungswesen, der selektiv über die Bildungschancen in den weiterführenden Schulen entscheidet (Ditton 2019).

1 Lernen in jahrgangsgemischten Klassen

Die Jahrgangsmischung ist ein Merkmal der Oberflächenstruktur. Sie kann sich jedoch über die alters- bzw. schulstufenbezogene Heterogenisierung auf die curriculare Anordnung der Inhalte und die Interaktion zwischen Lehrenden und Lernenden bzw. der Lernenden untereinander auswirken und so zu Änderungen in der Tiefenstruktur des Unterrichts führen (Decristan et al. 2020; Hahn 2019). Diese Tiefenstrukturen lassen sich durch Merkmalsdimensionen der Unterrichtsqualität beschreiben wie Klassenführung, effektive Lernzeitnutzung, Inhaltsauswahl, individuelle Unterstützung, kognitive Aktivierung und Konsolidierung (Praetorius und Charalambous 2018; Wisniewski et al. 2020). Diese sind für eher geschlossene Formen des Unterrichts in jahrgangshomogenen Klassen differenziert operationalisiert und in der Wirksamkeit empirisch gut erforscht (z. B. Baumert et al. 2010; Praetorius et al. 2018, 2020). Für das Lernen in jahrgangsgemischten Klassen ist davon auszugehen, dass die Kriterien lernförderlicher Tiefenstrukturen analog gelten – es gibt jedoch kaum Studien zur Frage, inwieweit sich diese in der Unterrichtspraxis finden lassen.

Allerdings lassen sich theoretische Annahmen zur Wirkweise von jahrgangsgemischtem Unterricht aus der Unterrichtsqualitätsforschung ableiten, zu denen es teilweise Indizien aus der empirischen Forschung zum jahrgangsgemischten Lernen gibt: So kann aus theoretischer Perspektive beispielweise in jahrgangsgemischten Klassen das Modell der älteren Schüler*innen den jüngeren das Ankommen im schulischen Lernen und somit die Klassenführung für die Lehrkräfte erleichtern. Indizien dafür und für eine damit verbundene inhaltsbezogenere und effektivere Lernzeitnutzung finden sich in einer Interviewstudie mit Lehrkräften (Sonnleitner 2020). Auch kann die Jahrgangsmischung zu einer veränderten Inhaltsauswahl und -organisation führen. Ronksley-Pavia et al. (2019) unterscheiden zwischen parallelen, rotierenden, spiralförmigen, entwicklungsorientierten und projektbasierten Curricula, die unterschiedliche Effekte auf das Lernen erwarten lassen. Diese Formen spiegeln sich international – im Gegensatz zum deutschen Sprachraum – auch in den Begrifflichkeiten wider (Cornish 2010): Begriffe wie composite classes oder multi-grade classes bezeichnen eher eine pragmatische Umsetzung im Rahmen eines Unterrichts, der Abteilungs- und Frontalunterricht einschließt und sich stark an den jeweils gültigen, einzelnen Jahrgangsstufenlehrplänen orientiert. Hier sind allenfalls durch die kleineren Gruppengrößen bei der getrennten Beschulung Effekte zu erwarten – wenn z. B. ein Teil der Klasse eine Einführung erhält, während der andere für sich arbeitet (vgl. Brahm 2006). Stage classes oder (in Annäherung) multi-age classes sind dagegen oft mit der Möglichkeit des kürzeren oder längeren Verweilens kombiniert und haben einen hohen Anspruch an individuelles, entwicklungsorientiertes Lernen. Gerade im deutschen Sprachraum finden sich dann auch Hinweise, dass jahrgangsgemischtes Lernen das Unterrichtsangebot methodisch hin zu mehr Binnendifferenzierung verändert (vgl. z. B. Berthold 2010; Pape 2016; Thoren und Brunner 2019) und zu einer erhöhten Adaptivität des Unterrichts durch individuelle Lernangebote führt (Munser-Kiefer et al. 2017). In jahrgangsgemischten Klassen gibt es zudem intensivere Möglichkeiten der individuellen Unterstützung, da diese nicht nur durch die Lehrkraft, sondern auch durch Peers bzw. durch Lerntandems oder Lernpatenschaften in einer Kombination aus jüngeren und älteren Kindern erfolgen kann. Dadurch könnten sich für die jüngeren Schüler*innen Gelegenheiten beschleunigten Lernens ergeben, indem sie in einem Lerntandem bereits mit den Lerninhalten der nächsten Jahrgangsstufe arbeiten können und dabei individuelle Unterstützung erfahren. Ein Indiz für diesen positiven Effekt sind die Befunde der Interviewstudie von Feuchtenberger et al. 2019, in der die befragten Lehrpersonen v. a. für Kinder im ersten Besuchsjahr der jahrgangsgemischten Klasse Chancen und Vorteile angeben. Gerade für die Schüler*innen im zweiten Besuchsjahr kann dagegen eine Konsolidierung der Inhalte durch Wiederholung erwartet werden, wenn in spiralcurricular angelegten Klassenlehrplänen die Inhalte im zweiten Jahr auf höherem Niveau wiederkehren.

Zusammenfassend lässt sich festhalten, dass die Hoffnungen in Bezug auf die Jahrgangsmischung von der Qualität der Tiefenstruktur abhängig sind, die sich durch theoretische Annahmen und in Teilen auch durch Indizien aus der empirischen Forschung stützen lassen. Davon könnten Effekte sowohl auf die Leistung im Allgemeinen als auch differenzielle Effekte ausgehen.

1.1 Effekte jahrgangsgemischten Lernens auf Leistung

Die Befundlage zur Leistungsentwicklung in jahrgangsgemischten Klassen ist inkonsistent: Auf der einen Seite finden sich seit den 1990er-Jahren in Deutschland durch die bildungspolitisch begünstigte Zunahme von Jahrgangsmischungen zahlreiche Modellversuche, die mit eher positiven Evaluationsergebnissen einhergehen (z. B. Bayern: Klöver 2014; Brandenburg: Krüsken 2008; Baden-Württemberg: Ministerium für Kultus, Jugend und Sport Baden-Württemberg 2006). Erklärt werden kann dieser Effekt zumindest teilweise durch eine Positivauswahl an Lehrkräften, deren Innovationsfreude und meist günstige Einstellungen für Effekte mitverantwortlich sein könnten. Hinweise hierfür finden sich auch in der Begleituntersuchung der flächendeckend eingeführten jahrgangsübergreifenden Schulanfangsphase in Berlin (Thoren und Brunner 2019): Es ließen sich Typen – „‚Pioniere‘ und ‚allg. Nichtüberzeugte‘“ (S. 291) – identifizieren, die sich in Unterrichtsmerkmalen unterschieden, die mit effektivem Unterricht in heterogenen Lerngruppen assoziiert sind.

Auf der anderen Seite finden sich Studien, die eher keine Effekte auf die Leistung nachweisen. Für Deutschland dient die repräsentative Ländervergleichsstudie des Instituts für Qualitätsentwicklung im Bildungswesen IQB (Kuhl et al. 2013) als gewichtiger Beleg. Auch die Begleituntersuchung zur Schulanfangsphase in Berlin konnte keine generellen Unterschiede aufdecken (Thoren 2017; Thoren und Brunner 2019). International kommen Ronksley-Pavia et al. (2019) in ihrem systematischen Review zu empirischen Artikeln für die Jahre 1997 bis 2017 – allerdings nur für kleine Schulen – zu dem unbefriedigenden Ergebnis, dass in manchen Studien keine Unterschiede im Leistungsbereich nachgewiesen werden können, andere Studien mit (kleinen) positiven, wiederum andere mit (kleinen) negativen Entwicklungen aufwarten. Dies deckt sich auch mit älteren Metaanalysen: Veenman (1996) fand keine signifikanten Unterschiede, Gutiérrez und Slavin (1992) entdeckten positive Effekte auf die Leistung, bei Sundell (1994) und Russel et al. (1998) wurden Nachteile des jahrgangsgemischten Lernens für die Leistung festgestellt.

Diese widersprüchlichen Ergebnisse sind jedoch nicht völlig unerwartet: Zum einen fehlen bei diesen Überblicksstudien Informationen über die Umsetzung des jahrgangsgemischten Lernens und zum andern wird nicht darauf eingegangen, inwieweit diese Form der Klassenzusammensetzung für bestimmte Schüler*innen besonders geeignet oder ungeeignet ist.

1.2 Differenzielle Effekte jahrgangsgemischten Lernens auf Leistung

Differenzielle Effekte werden hier aus drei empirischen Suchrichtungen berichtet: erstens bezogen auf verschiedene Klassenstufen (Eingangsstufe vs. 3./4. Klasse vs. höher), zweitens auf Schüler*innen innerhalb einer jahrgangsgemischten Klasse (erstes vs. zweites/letztes Besuchsjahr) sowie drittens auf unterschiedliche Leistungsgruppen.

Zur Frage, ob Effekte der Jahrgangsmischung nach der Schuleingangsstufe zu finden sind, gibt es bislang nur wenige Studien. So ist auch heute noch auf die ältere Metaanalyse von Veenman (1996) zurückgreifen, die zwar keine unterschiedlichen Effekte für Leistungsentwicklung in jahrgangsgemischten oder -homogenen Klassen der Jahrgangsstufen 1 bis 6 zeigt, aber eine signifikante Varianzaufklärung für die Klassenstufe: Die neun Studien aus Jahrgangsstufe 1 und 2 deckten einen kleinen Leistungsvorsprung für die Jahrgangsmischung auf, für die Jahrgangstufe 3 und 4 zeichneten sich keinerlei Effekte (20 Studien) ab, für die fünfte und sechste Jahrgangsstufe war sogar ein kleiner negativer Effekt (5 Studien) nachweisbar (vgl. auch Lindström und Lindahl 2011). Im Widerspruch zu der Annahme, dass bei steigender Klassenstufe ungünstigere Effekte für Jahrgangmischungen nachweisbar sind, steht dagegen die groß angelegte norwegische Studie von Leuven und Rønning (2011): Für kombinierte Klassen zeigen sich sogar noch in siebten bis neunten Jahrgangsstufen günstigere Leistungsergebnisse. Die Erklärung liegt dabei aber nicht auf der Klassenstufe oder den Klassenstufen generell, sondern auf den unterschiedlichen Effekten durch die Altersgruppe der Peers innerhalb der Jahrgangsmischung.

Erklären lässt sich dies durch Unterschiede innerhalb einer jahrgangsgemischten Gruppe und damit durch differenzielle Effekte für die Jüngeren und die Älteren bzw. bei den unterschiedlichen Alters- oder Jahrgangsgruppen. Bei Leuven und Rønning (2011) deutet sich an, dass der Lerngewinn älterer Schüler*innen abnahm, während die anderen von den älteren Peers signifikant profitieren. Auch Hartinger et al. (2011) fanden für die jahrgangsgemischte Eingangsstufe einen steileren Leistungszuwachs für die Schüler*innen im ersten Schulbesuchsjahr, der im zweiten Schulbesuchsjahr abflachte, sodass sich der Vorsprung der jahrgangsgemischt unterrichteten Schüler*innen wieder nivellierte. Nach Laging (2010) lernen die Kinder dabei in asymmetrischer Interaktion und einem durch den Altersunterschied geprägten Rollenbewusstsein. Hier ließen sich in altersgemischten Gruppen mehr Empathie und Unterstützung finden als bei der konkurrenzhaltigeren Kooperation Gleichaltriger. Indizien für eine Unterstützung der jüngeren Schüler*innen durch die älteren fand Campana Schleusener (2014) in einer Beobachtungsstudie in Basisstufenklassen (4 bis 8‑Jährige), wobei die Hilfestellungen der Älteren sich vor allem auf das Begleiten des Lösungswegs (71 % für Vorzeigen, Zurechtweisen, Anleiten) beziehen. Matz und Knauf (2010) beobachteten darüber hinaus in einer Jahrgangsmischung 1–4 den Trend, dass Hilfsangebote mit der Jahrgangsstufe zuzunehmen schienen (7 % der Erstklässler, 20 % der Zweitklässler, 13 % der Drittklässler, 60 % der Viertklässler). Perren und Malti (2016) konnten ferner zeigen, dass sich die Fähigkeit der Schüler*innen, adaptiv Hilfestellung zu leisten, während der Grundschulzeit zunehmend auszudifferenzieren scheint. Das lässt ein Potenzial verstärkter individueller Unterstützung für das einzelne Kind – zumindest durch die Peers – vermuten. Diese Befunde lassen Veränderungen der Unterrichtsprozesse in jahrgangsgemischten Klassen erwarten und zeigen das Potenzial, das Lernen und damit die Leistungen gerade der jüngeren Kinder oder auch der unteren Leistungsgruppen zu verbessern.

Von daher ist es sinnvoll, auch die Lernvoraussetzungen der Kinder zu betrachten: Gölitz (2008) untersuchte im Rahmen der Studie „Schulanfang auf neuen Wegen“ den Einfluss der Jahrgangsmischung auf eine Risikogruppe mit defizitären Ausgangslagen (unter anderem) in der phonologischen Bewusstheit sowie im Mengenvorwissen. Er fand in der ersten Klasse einen kleinen negativen Effekt für die Jahrgangsmischung für den Bereich Lesen, der sich zum Ende der zweiten Klasse nivellierte; für Mathematik zeigte sich zum Ende der ersten Klasse dagegen ein kleiner Vorteil, tendenziell leicht steigend zum Ende der zweiten Klasse. Von Waaden (2017) begleitete Risikokinder in jahrgangsgemischten Klassen in Mathematik und konnte hier feststellen, dass niedrige Ausgangswerte sich auch in der Jahrgangsmischung manifestierten. Grittner et al. (2013) zeigten dagegen, dass Unterschiede vor allem auf Schüler*innen mit günstigen Leistungsvoraussetzungen zurückzuführen sind. Erklären lässt sich dies unter anderem durch die zusätzliche Anregung und die ergänzenden Angebote, die für diese Schüler*innen passend und förderlich sein können.

2 Forschungsfragen und Hypothesen

Die Befundlage zum Vergleich von Effekten von jahrgangsgemischt und jahrgangshomogen unterrichteten Klassen ergibt kein eindeutiges Bild. Positive Effekte lassen sich vorrangig in Modellversuchen in der Eingangsstufe nachweisen; speziell für die dritte und vierte Klasse weist der Forschungsstand eher auf eine Pattsituation hin, allerdings mit nur wenigen Studien aus dem deutschsprachigen Raum. Aufgrund der dürftigen Befundlage verbleiben die Forschungsfragen hier zunächst auf der Oberflächenstruktur und sind eher explorativ angelegt. Die erste Forschungsfrage richtet sich auf einen grundsätzlichen Vergleich jahrgangsgemischten und -homogenen Unterrichts in der dritten und vierten Jahrgangsstufe:

1 Unterscheidet sich die schulische Leistungsentwicklung von Schüler*innen, die in der dritten und vierten Jahrgangsstufe in jahrgangsgemischten Klassen unterrichtet wurden, von denen aus jahrgangshomogenen Klassen?

Die Forschungslage legt die Vermutung nahe, dass keine großen Unterschiede zu finden sind, wenn man alle Schüler*innen über die beiden Organisationsformen hinweg vergleicht.

Untersucht werden zudem folgende weiterführende differenzielle Fragen:

2 Wirkt sich die Unterrichtsorganisation (jahrgangsgemischt vs. jahrgangshomogen) unterschiedlich auf Kinder der verschiedenen Schulbesuchsjahre (Dritt- bzw. Viertklässler*innen) aus?

3 Gibt es Effekte für unterschiedliche Leistungsgruppen?

Aufgrund des skizzierten Forschungsstands sind bei einer repräsentativen Stichprobe zwischen jahrgangsgemischten und jahrgangshomogenen Klassen keine signifikanten Leistungsunterschiede zum Ende der vierten Jahrgangsstufe (H1), aber zum Ende der dritten Jahrgangsstufe zu erwarten (H2). Außerdem ist bei einem Vergleich von jahrgangsgemischten und -homogenen Klassen anzunehmen, dass leistungsstarke Schüler*innen gerade während der dritten Jahrgangsstufe profitieren (H3a), u. U. weil sie durch die vorgezogenen Inhalte der vierten Jahrgangsstufe herausgefordert und ihre Leistung katalysiert wird. Leistungsschwache Schüler*innen sollten dagegen vor allem während der vierten Jahrgangsstufe vergleichsweise positive Leistungsentwicklungen zeigen (H3b), weil hier vielleicht die Wiederholung der Inhalte und ihre Rolle als fortgeschrittene Lerner die Leistungsentwicklung begünstigen könnten.

3 Methode

3.1 Untersuchungsdesign

Zur Untersuchung dieser Forschungsfragen wurde eine quasi-experimentelle Längsschnittstudie durchgeführt, bei der die Leistungsentwicklung jahrgangshomogen und -gemischt unterrichteter Schüler*innen des dritten und vierten Schuljahres miteinander verglichen wurde. Die Studie startete im Schuljahr 2014/2015; die Daten wurden an drei verschiedenen Messzeitpunkten erhoben: 1) zu Beginn, 2) am Ende der dritten und 3) am Schluss der vierten Jahrgangsstufe. Zur Messung der Lernentwicklung der Schüler*innen wurden lehrplanvalide Tests zu den Fächern Deutsch (im Bereich Lesen) bzw. Mathematik (in den Themenbereichen Algebra, Geometrie und Sachrechnen) verwendet. Diese beinhalteten ausschließlich zentrale Lerninhalte der Grundschule, sodass davon ausgegangen werden kann, dass diese in allen untersuchten Klassen thematisiert und unterrichtet wurden. Die Befunde werden für die beiden Fächer getrennt betrachtet, da beide gute, aber differenzielle Indikatoren für den Lern- und Leistungsfortschritt der Kinder darstellen. Die Untersuchung möglicher fachbezogener Effekte steht jedoch nicht vergleichend im Fokus dieser Studie. Zusätzlich wurden auf der Ebene der Schüler*innen verschiedene Kovariaten wie Geschlecht, Bildungsnähe des Elternhauses, fachbezogenes Selbstkonzept, Motivation und Schulfreude erfasst und in den Analysen berücksichtigt.

3.2 Stichprobe

Die Stichprobe umfasst Schulen aus den Städten Augsburg und Nürnberg sowie deren Umland. Ausgegangen wurde bei der Rekrutierung der Stichprobe von jahrgangsgemischten Klassen, in denen ausschließlich die Jahrgänge 3 und 4 kombiniert wurden. Weitere Formen der Jahrgangsmischung gingen nicht in die Untersuchung ein. Es gelang, ca. 90 % der jahrgangsgemischten Klassen der untersuchten Gebiete für eine Teilnahme zu gewinnen. Die wenigen Gründe für eine Absage streuten und ließen keine Systematik erkennen, sodass die Stichprobe als repräsentativ für die beiden Regionen gelten kann. Für die Kontrollgruppe der jahrgangshomogenen Klassen wurden die zuständigen Schulrät*innen gebeten, Schulen mit vergleichbarem Sprengel und Lehrkräfte mit vergleichbarem Engagement zu nennen. Da vorab unklar war, ob deren Einschätzungen zuträfen, wurde bewusst eine umfangreichere Kontrollgruppe anvisiert, um etwaigen Stichprobenverzerrungen mit geeigneten Matchingverfahren begegnen zu können.

Insgesamt nahmen 1644 Schüler*innen aus 125 Klassen (davon 68 jahrgangsstufengemischt) an 58 Grundschulen teil, die von 125 Lehrkräften (91,7 % weiblich; mittleres Dienstalter 15,8 Jahre, SD = 11,3) unterrichtet wurden. Eine detailliertere Beschreibung der Zusammensetzung der Stichprobe der Schüler*innen getrennt nach jahrgangsgemischten und -homogenen Klassen unter Berücksichtigung zentraler Kovariaten findet sich in Tab. 1.

Tab. 1 Überblick über Mittelwerte (M), Standardabweichungen (SD) und z-Differenzen zu zentralen Stichprobenmerkmalen vor und nach dem Matching in Bezug auf die Lese- und Mathematikleistungen von Schüler*innen in jahrgangshomogenen (JH) und jahrgangsgemischten (JM) Klassen

3.3 Untersuchungsinstrumente

Lesen

Zur Erfassung der Leseleistung wurde zu Beginn der dritten und am Ende der vierten Klasse derselbe Test aus VERA 2006 verwendet (kontinuierlicher Sachtext, geschlossenes und offenes Antwortformat, Subskalen: hierarchieniedrige und hierarchiehöhere Verstehensprozesse, 13 Items, Cronbachs αMZP1 = 0,73; αMZP3 = 0,72). Am Ende der dritten Klasse wurde die Leseleistung mithilfe der bayernweit durchgeführten Vergleichsarbeiten gemessen.

Mathematik

Unter Rückgriff auf Aufgaben aus ILEA (LISUM 2008) sowie des Probeunterrichts für weiterführende Schulen (vgl. z. B. ISB 2014) wurden lehrplankonforme Tests zur Erhebung der Mathematikleistung (Zahl- und Mengenerfassung, Rechnen, Sachrechnen, Geometrie) zu Beginn der dritten (47 Items, αMZP1 = 0,89) und am Ende der vierten Klasse (20 Items, αMZP3 = 0,81) entwickelt. Am Ende der dritten Klasse wurde die Mathematikleistung ebenfalls mithilfe der bayernweit durchgeführten Vergleichsarbeiten erhoben.

Kovariaten

Alle Kovariaten wurden zum ersten Messzeitpunkt über Fragebögen mittels Einzelitems (z. B. Geschlecht, Anzahl der Bücher im Haushalt für Bildungsnähe, Eltern- bzw. Familiensprache als Hauptkommunikationssprache zwischen den jeweiligen Familienmitgliedern) oder entsprechende Skalen erfasst. Diese wiesen jeweils gute Reliabilitäten auf: Einstellung zu Mitschüler*innen und Schule (8 Items, α = 0,82), Selbstkonzept Lesen (5 Items, α = 0,82), Selbstkonzept Mathematik (10 Items, α = 0,87) (zu den einzelnen Skalen aus der KILIA-Studie, vgl. Kammermeyer und Martschinke 2006). Die Motivation, mit den – auch im Self-Regulations-Questionnaire (Ryan und Connell o. J.) erhobenen – Motivationsstilen intrinsisch, identifiziert, introjiziert und external wurde mithilfe eines Dominanz-Paarvergleichs erhoben (vgl. Hartinger et al. 2004). Dazu wurden zu jedem dieser vier Motivationsstile zwei Items formuliert, sodass sich insgesamt zwölf Paarvergleiche ergeben (z. B. Im Unterricht arbeite ich mit, a) weil ich mich schämen würde, wenn ich schlecht bin oder b) weil die Schule sehr wichtig ist). Die Kinder mussten sich dann für eine der beiden Optionen entscheiden. Als Maß der Konsistenz solcher Paarvergleiche schlagen Bortz et al. (2008, S. 489 ff.) die Berechnung eines Kennwerts auf der Grundlage der (zu vermeidenden) inkonsistenten Triaden vor. Hier zeigt sich, dass keiner der Dominanzpaarvergleiche inkonsistente Triaden aufweist, sodass die Dominanzpaarvergleiche als reliabel angesehen werden können.

3.4 Datenaufbereitung und -analyse

3.4.1 Umgang mit fehlenden Werten

Fehlende Werte bei einer oder mehreren Variablen wurden für jeden Messzeitpunkt mithilfe des Expectation-Maximization-Algorithmus geschätzt (vgl. z. B. Enders 2010). Dies war möglich, da die fehlenden Werte eine unsystematische Verteilung aufwiesen und ihr Anteil bei allen Variablen maximal 14,7 % betrug (z. B. Madley-Dowd et al. 2019). Anschließend wurden zuerst für jeden Messzeitpunkt einzeln, dann über die verschiedenen Messzeitpunkte hinweg die fehlenden Werte der Schüler*innen geschätzt, bei denen hierfür eine Mindestdatenmenge von 70 % aller Variablen verfügbar war.

3.4.2 Balancierung von Stichprobenunterschieden (Propensity-Score-Matching)

Um im Rahmen des quasi-experimentellen Studiendesigns für möglichst viele Einflussgrößen bei der Analyse zu kontrollieren, wurde mithilfe eines Propensity-Score-Matchingverfahrens adjustiert (Guo und Fraser 2015; Kuss et al. 2016). Zur Schätzung des Propensity-Scores wurde mit Blick auf die Mathematik- bzw. Leseleistung je ein separates logistisches Regressionsmodell mit dem dichotomen Kriterium jahrgangshomogener bzw. -gemischter Unterricht berechnet. Alle darin als unabhängige Variablen eingehenden Merkmale (zu Beginn der dritten Klasse) wurden a priori auf Basis theoretischer Überlegungen ausgewählt. Aus diesem Grund wurden sie trotz ihrer geringen Beiträge zur Verbesserung der jeweiligen Modellgüte (McFaddens Pseudo R2 für Lesen bzw. Mathematik 0,01) beibehalten (vgl. Tab. 1). Dabei bleiben mathematikbezogene Variablen im Modell für Lesen, lesespezifische im Modell für Mathematik unberücksichtigt. Um den Datenpool der Experimentalgruppe bei den Analysen möglichst vollständig auszuschöpfen, wurde ein 1:1-Matching unter Verwendung eines „nearest neighbour“-Algorithmus durchgeführt (Guo und Fraser 2015), wobei aufgrund der deutlich umfangreicheren Kontrollgruppe die Festlegung einer maximalen Äquivalenzunschärfe bei der Fallzuordnung (Caliper-Weite) nicht notwendig war (und – wie zusätzliche Analysen zeigten – eine zur Schätzung von Mittelwertdifferenzen angemessene Caliper-Weite von 0,30 vergleichbare Ergebnisse erzielte; cf. Austin 2010; Wang et al. 2013).

Wie aus Tab. 1 ersichtlich wird, konnten dadurch die signifikanten Unterschiede zwischen Kontroll- und Experimentalgruppe hinsichtlich dreier Kovariaten (identifizierte und introjizierte Motivation, Selbstkonzept Mathematik) ausgeglichen und jedem Kind in einer jahrgangsgemischten Klasse genau ein*e Matchingpartner*in mit ähnlichen Merkmalen in der anderen Gruppe zugewiesen werden.Footnote 1 Eine hinreichende Balancierung der Daten indiziert schließlich auch ein Vergleich der einzelnen z-Differenzen ebenso wie der mittleren absoluten standardisierten Differenzen, die in der gematchten Stichprobe für Analysen sowohl zur Lese- als auch zur Mathematikleistung geringer ausfallen.

3.4.3 Aufbereitung der Leistungsdaten und Bildung von Leistungsquartilen

Um die differierenden Rohpunktskalen der inhaltlich vergleichbaren Testinstrumente, die für Lesen bzw. Mathematik zu den drei verschiedenen Zeitpunkten eingesetzt wurden, jeweils zu vereinheitlichen und gemeinsam analysieren zu können, wurden die entsprechenden Leistungsdaten im Anschluss an das Matchingverfahren z-standardisiert. Im Folgenden wird über diese z-standardisierten Werte (Tab. 2, 3, 4, 5 und 6) berichtet.

Tab. 2 Deskriptive Übersicht über die Leistungen in Lesen (N = 1326) und Mathematik (N = 1330) zu drei Messzeitpunkten (z-Werte)
Tab. 3 Gemischte lineare Modelle für Lesen und Mathematik auf Basis der gematchten Gesamtstichprobe (unter Berücksichtigung der nach Schüler*innen sowie Klassen geordneten Datenstruktur)
Tab. 4 Deskriptive Übersicht über die Leistungen im Lesen und in Mathematik nach Messzeitpunkten, homogenen und gemischten Jahrgangsstufen (JH vs. JM) sowie Leistungsquartilen getrennt (z-Werte)
Tab. 5 Gemischte lineare Modelle für Lesen nach Leistungsquartilen differenziert (unter Berücksichtigung der nach Schüler*innen sowie Klassen geordneten Datenstruktur)
Tab. 6 Gemischte lineare Modelle für Mathematik nach Leistungsquartilen differenziert (unter Berücksichtigung der nach Schüler*innen sowie Klassen geordneten Datenstruktur)

Nach Auswertungen mit der gesamten gematchten Stichprobe zur Untersuchung der ersten beiden Forschungsfragen wird diese für die dritte Fragestellung in Quartile aufgeteilt, um unterschiedliche Leistungsentwicklungen in den jeweiligen Teilgruppen wie auch differenzielle Effekte der Jahrgangsmischung in Abhängigkeit von den Leistungsgruppen zu betrachten (Balancierung von Stichprobenunterschieden). Die Einteilung in die vier Leistungsgruppen erfolgte dabei nicht auf Basis der Matchinggewichte, da in diese neben Leistungs- auch andere Kovariaten aus dem Persönlichkeitsbereich (vgl. Tab. 1) eingehen, sondern in einem anschließenden separaten Schritt auf Basis der z-Werte im Lesen bzw. in Mathematik zu Anfang der dritten Jahrgangsstufe. Dadurch weisen die Startwerte der einzelnen Quartilsgruppen hier im Vergleich zu späteren Zeitpunkten relativ wenig Streuung auf (vgl. Abb. 1 und 2).

Abb. 1
figure 1

Entwicklung der Leseleistung vom Anfang der dritten bis zum Ende der vierten Jahrgangsstufe (nach Leistungsquartilen getrennt)

Abb. 2
figure 2

Entwicklung der Mathematikleistung vom Anfang der dritten bis zum Ende der vierten Jahrgangsstufe (nach Leistungsquartilen getrennt)

3.4.4 Zur Auswertung eingesetzte Verfahren

Um Entwicklungsverläufe und Unterschiede zwischen jahrgangshomogenen und -gemischten Gruppen insgesamt (vgl. Tab. 2 und 3) wie auch für die vier Leistungsquartile (vgl. Tab. 4, 5 und 6) zu den einzelnen Messzeitpunkten zu bestimmen, wurden für Lesen und Mathematik jeweils gemischte lineare Modelle geschätzt. Diese berücksichtigen nicht nur die personenspezifischen Abhängigkeiten in den Längsschnittdaten mit drei Messzeitpunkten, die aus den wiederholten individuellen Leistungsmessungen resultieren (vgl. die Werte der Intraklassenkorrelation [ICC] in Tab. 3, 5 und 6), sondern besitzen darüber hinaus auch weitere methodische Vorteile in Hinblick auf günstigere Analysevoraussetzungen, Teststärke oder den Umgang mit fehlenden Werten (vgl. für Details: Hilbert et al. 2019). Die Prädiktoren Gruppenzugehörigkeit (jahrgangshomogen vs. -gemischt) und die Zeitvariable (Anfang bzw. Ende der dritten, Ende der vierten Klassenstufe) werden dummy-kodiert (0/1), wobei jahrgangshomogener Unterricht und der Zeitpunkt Ende der dritten Klasse als Referenzkategorien angelegt werden. Die Wahl dieses mittleren Zeitpunkts als Referenzkategorie ist deshalb von Vorteil, weil in einem einzigen Modell (d. h. ohne Alphafehlerkumulation) Effekte zwischen Kontroll- und Experimentalgruppe ebenso wie zwischen den drei Messzeitpunkten direkt paarweise geschätzt werden können. Von besonderem Interesse sind hierbei die jeweiligen Interaktionseffekte (Gruppe × Anfang 3. Jahrgangsstufe bzw. Gruppe × Ende 4. Jahrgangsstufe), da diese die zusätzliche Veränderung in der jahrgangsgemischten Gruppe ausdrücken (unter Berücksichtigung der Veränderung der jahrgangshomogenen Gruppe).

Die Analysevoraussetzungen (z. B. Normalverteilung) wurden graphisch und inferenzstatistisch überprüft und schränken die Interpretierbarkeit der Ergebnisse nicht ein. Alle weiterführenden Auswertungen wurden mit der Statistiksoftware R (R Core Team 2020) durchgeführt; genutzt wurden vor allem die folgenden Zusatzpakete: MatchIt (Ho et al. 2011), ggplot2 (Wickham 2016), multilevel (Bliese 2016), lme4 (Bates et al. 2014), lmerTest (Kuznetsova et al. 2017) und MuMIn (Barton 2020).

4 Ergebnisse

Nachstehend werden zuerst die Ergebnisse für Lesen und Mathematik in Bezug auf die gematchte Gesamtstichprobe, daraufhin nach den vier gebildeten Leistungsquartilen getrennt präsentiert. Im Vordergrund steht damit anfangs die Überprüfung der Forschungshypothesen 1 und 2 zum Einfluss von jahrgemischtem Unterricht auf die Leistungsentwicklung in Lesen und Mathematik – generell bzw. bezogen auf die Schulbesuchsjahre. Anschließend wird die Analyse verfeinert und berichtet, ob jahrgangsgemischter Unterricht in einzelnen Leistungsquartilen zu differenziellen Effekten führt (H3a/b).

4.1 Einfluss jahrgangsgemischten Unterrichts auf die Leistungsentwicklung in Bezug auf die Gesamtstichprobe

Einen ersten deskriptiven Überblick über die Leistungsentwicklungen gibt Tab. 2. Aufgrund des Matchings mit anschließender z-Standardisierung sind die arithmetischen Mittelwerte in beiden Gruppen zu Anfang der dritten Jahrgangsstufe im Lesen wie auch in Mathematik identisch; die Leistungsstreuung erstreckt sich über mehr als vier Standardabweichungen (und ist in Mathematik ausgeprägter als im Lesen).

Am Ende der dritten Jahrgangsstufe unterscheiden sich jahrgangsgemischte und -homogene Klassen sowohl im Lesen als auch in Mathematik durchschnittlich um ein Viertel der Standardabweichung (dJH-JM = 0,26, dJH-JM = 0,24, Tab. 2). Dies entspricht nach Cohen (1992) einem kleinen Effekt, der zudem signifikant ist (p ≤ 0,01), wie die Haupteffekte „Jahrgangsmischung“ der zugehörigen gemischten linearen Modelle unterstreichen (Tab. 3; temporale Referenzkategorie hier Ende 3. Jahrgangsstufe). Auch die relativen Leistungszunahmen in der jahrgangsgemischten (unter Berücksichtigung der Abnahmen der -homogenen) Gruppe bis zum Ende der dritten Jahrgangsstufe sind mit Blick auf die entsprechenden Interaktionseffekte („Anfang 3. Jahrgangsstufe × Jahrgangsmischung“, Tab. 3) signifikant. Diese im Lesen wie auch Mathematik jeweils höheren Werte in den jahrgangsgemischten Klassen verschwinden bis zum Ende der vierten Klasse jedoch vollständig, wobei diese gegenläufigen Entwicklungen gerade vor dem Hintergrund der relativen Leistungssteigerung der jahrgangshomogenen Klassen in diesem Zeitabschnitt überzufällig sind (vgl. die Interaktionseffekte „Ende 4. Jahrgangsstufe × Jahrgangsmischung“, Tab. 3).

Aus diesen Analysen ist bezüglich der Forschungsfragen 1 und 2 festzuhalten, dass sich die Leistungsentwicklungen (in Lesen und Mathematik) von Schüler*innen in jahrgangsgemischten und -homogenen Klassen unterscheiden. Zudem geht aus den vorliegenden Daten einerseits gemäß der ersten Hypothese hervor, dass gegen Ende der vierten Jahrgangsstufe keine Leistungsunterschiede zwischen beiden untersuchten Organisationsformen existieren. Anderseits unterstreicht diese aber auch die zweite Annahme, dass Schüler*innen gerade in der dritten Jahrgangsstufe von einem jahrgangsgemischten Unterricht profitieren können. Inwiefern dies insbesondere auf bestimmte Leistungsgruppen zutrifft, wird im Folgenden betrachtet.

4.2 Differenzielle Effekte jahrgangsgemischten Unterrichts auf die Leistungsentwicklung

In Tab. 4 sind die arithmetischen Mittelwerte und Standardabweichungen im Lesen und in Mathematik dargestellt – getrennt nach den Leistungsquartilen, die zu Zeitpunkt 1 gebildet wurden. Außerdem finden sich hier die Effektstärken zwischen den jeweiligen jahrgangshomogenen und -gemischten Gruppen zu den drei Erhebungszeitpunkten. Aufgrund des Matchings liegen am Anfang der dritten Jahrgangsstufe erwartungsgemäß weder in Bezug auf Lesen noch Mathematik in irgendeinem Quartil signifikante Unterschiede zwischen den beiden Gruppen vor. Zum Ende der dritten Jahrgangsstufe schneiden jedoch die jahrgangsgemischten Klassen in allen Leistungsquartilen sowohl im Lesen als auch in Mathematik im Mittel besser ab als die jahrgangshomogenen Klassen. Abgesehen vom Quartil mit den jeweils geringsten Ausgangswerten zu Beginn der dritten Jahrgangsstufe (hier ist diese Tendenz nur deskriptiv zu erkennen) zeigen sich in den übrigen Quartilen kleine (dJH-JM = 0,21) bis mittlere (dJH-JM = 0,50) Effekte, die mit Blick auf den Haupteffekt „Jahrgangsmischung“ der zugehörigen gemischten linearen Modelle (mit temporaler Referenzkategorie Ende 3. Jahrgangsstufe) signifikant sind (p ≤ 0,05, Tab. 5 und 6). Ferner ist in Tab. 4 zu erkennen, dass diese Effekte im Lesen umso größer ausfallen, je höher die Ausgangswerte sind. In Mathematik zeigen sich in allen drei oberen Quartilen nahezu identische Effekte.

Die gegen Ende der dritten Jahrgangsstufe erreichten Effekte verschwinden am Schluss der vierten Jahrgangsstufe nicht nur, sondern sie kehren sich tendenziell sogar zugunsten der jahrgangshomogenen Klassen um (Tab. 4). Hiervon ausgenommen sind jedoch die niedrigsten Leistungsquartile in beiden Bereichen sowie das dritte Leistungsquartil in Mathematik.

Eine Überprüfung der beschriebenen Entwicklungen mittels der entsprechenden gemischten linearen Modelle für alle Leistungsquartile zu Lesen und Mathematik verdeutlicht zudem (Tab. 5 und 6), dass die Unterschiede in der Leistungsveränderung zwischen den jahrgangshomogenen und -gemischten Klassen in allen Teilgruppen bis auf die in den ersten Quartilen signifikant sind. Dies gilt sowohl für die Leistungszunahmen der Quartile in den jahrgangsgemischten Klassen bis zum Ende der dritten wie auch der -abnahmen bis zum Schluss der vierten Jahrgangsstufe, die sie zusätzlich zur Leistungsveränderung in den jahrgangshomogenen Klassen erfahren (vgl. die jeweiligen Interaktionseffekte „Anfang 3./Ende 4. Jahrgangsstufe × Jahrgangsmischung“).

Betrachtet man die Entwicklungsverläufe pro Quartil (Leseleistung: Abb. 1, Mathematikleistung: Abb. 2) so fallen weiterhin die breiten Leistungsspektren auf, die trotz ähnlicher Ausgangsleistungswerte (und des vorausgehenden Matchingalgorithmus) schon zum Ende der dritten wie auch der vierten Jahrgangsstufe wieder ersichtlich werden. Dies zeigt in beiden Unterrichtsformen, dass die Eingangsquartile keineswegs leistungsstabil sind, sondern jeweils im Verhältnis zur Gesamtgruppe individuelle Leistungssteigerungen als auch -abnahmen auftreten. Über den betrachteten Zeitraum hinweg verbleiben im Bereich Lesen durchschnittlich 40 %, im Bereich Mathematik im Mittel 45 % der Schülerinnen und Schüler in demselben Leistungsquartil; je 40 % verbessern oder verschlechtern sich um ein Quartil, 20 % bzw. 15 % sogar um mehrere. Ohne hier differenzierter auf individuelle Entwicklungsverläufe einzugehen, ist schließlich anzumerken, dass gerade die äußerst schwachen Mathematikleistungen, die zu Erhebungsbeginn noch sichtbar sind (mehr als drei Standardabweichungen unter dem Durchschnitt), bei beiden Unterrichtsformen in nachfolgenden Erhebungszeitpunkten nicht mehr vorkommen.

Eine nach Leistungsquartilen getrennte Betrachtung des Einflusses der Unterrichtsorganisationsform auf die Leistungsentwicklung von Schüler*innen stützt folglich Hypothese 3a, dass Schüler*innen der drei oberen Leistungsquartile gerade in der dritten Jahrgangsstufe von einem jahrgangsgemischten Unterricht profitieren können, und zwar im Lesen sogar umso mehr, je höher ihr vorheriges Ausgangsniveau ist. Auf die leistungsschwachen Schüler*innen (des ersten Quartils) trifft dies nur tendenziell zu. Entgegen der Hypothese 3b können sie aber auch in der vierten Jahrgangsstufe keinen beträchtlichen Vorteil aus jahrgangsgemischtem Unterricht gewinnen.

5 Diskussion und Zusammenfassung

Die Studie liefert einen Beitrag zum Vergleich der schulischen Leistungen zwischen jahrgangsgemischt und jahrgangshomogen unterrichteten Klassen, speziell für die dritte und vierte Jahrgangsstufe. Am letzten Messzeitpunkt (Ende der vierten Jahrgangsstufe und damit Ende der Grundschulzeit) lassen sich keine Unterschiede in der Lernleistung (mit den Ergebnissen aus Tests in Deutsch/Lesen und Mathematik als Indikatoren) zwischen den beiden Gruppen feststellen. Damit stärkt das Ergebnis den einschlägigen nationalen Befund aus der repräsentativen Ländervergleichsstudie (Kuhl et al. 2013). Aufgrund der internationalen inkonsistenten Befundlage ist dies aus unserer Sicht von Bedeutung. Anders sieht das Bild jedoch aus, wenn man die Lernentwicklung genauer betrachtet, da am Ende der dritten Jahrgangsstufe Kinder aus jahrgangsgemischten Klassen signifikant besser abschneiden. Wie erwartet, profitieren die Drittklässler*innen als die jüngeren Lernpartner*innen vom Altersgefälle in der Jahrgangsmischung (Leuven und Rønning 2011; Grittner et al. 2013; Campana Schleusener 2014). Erklärbar könnte dies u. U. durch zusätzliche, herausfordernde Angebote durch den spiralcurricularen Aufbau in vielen jahrganggemischt unterrichteten Klassen sein. Eine weitere mögliche Erklärung ergibt sich durch die Unterstützung im Austausch und die Hilfe, welche sie durch die Viertklässler*innen erfahren (Matz und Knauf 2010).

Aus didaktischer Sicht ist festzuhalten, dass sich die asymmetrische Peerstruktur jedoch nur für die jüngeren Schüler*innen und nicht in gleicher Form für die Viertklässler*innen zu „lohnen“ scheint: Die Hoffnung, dass diese Kinder z. B. durch Wiederholung oder durch ihr Erklären in der jahrgangsgemischten Variante mehr lernen, bestätigt sich zumindest in der generellen Analyse des Oberflächenstrukturmerkmals Jahrgangsmischung in seinen Effekten auf Leistung nicht. Eine mögliche Erklärung könnte in fehlenden, über die Jahrgangsstufe hinausführenden Inhalten und Lernangeboten liegen, sodass die curricularen Vorgaben die Leistungsentwicklung deckeln und einen inhaltlichen Vorsprung gegenüber jahrgangshomogen unterrichteten Schüler*innen verhindern. Eine Rolle kann auch die spezielle Übertrittssituation spielen: Im hier untersuchten Bundesland Bayern ist ein bestimmter Notenschnitt erforderlich, um für den Besuch eines Gymnasiums oder einer Realschule zugelassen zu werden. Es ist denkbar, dass durch die damit zugeschriebene hohe Bedeutung schulischer Leistungen in den Fächern Deutsch und Mathematik (diese sind in beiden Organisationsformen identisch) Unterschiede zwischen jahrgangsgemischten und jahrgangshomogenen Klassen nivelliert werden. Feststellen lässt sich damit, dass das Potenzial der Jahrgangsmischung, das sich in der dritten Jahrgangsstufe gut zeigt, anschließend anscheinend (noch) nicht optimal genutzt wird.

Mit Blick auf die bislang offene Frage, ob bestimmte Leistungsgruppen besonders profitieren, zeigen unsere Daten Chancen für die jeweils jüngeren und leistungsstärkeren Schüler*innen. In der vorliegenden Studie ist der Effekt zugunsten der jahrgangsgemischten Klassen in der dritten Jahrgangsstufe auf alle Leistungsgruppen zurückzuführen, in besonderem Maße jedoch auf die leistungsstärkeren Quartile. Hier gibt es signifikante kleine bis mittlere Effekte, die im untersten Quartil ausbleiben. Gerade die Schüler*innen mit höheren Vorkenntnissen scheinen die Zusammenarbeit mit den älteren Schülern*innen nutzen zu können. Diese Effekte passen zu Befunden aus der ersten und zweiten Jahrgangsstufe (Gölitz 2008; Grittner et al. 2013) und bestärken die oben benannte Vermutung, dass die zusätzlichen Anregungen der höheren Jahrgangsstufe eine Ursache für die besseren Lernergebnisse der jahrgangsgemischten Gruppen sind – diese Anregungen sind vor allem für die Gruppe der leistungsstärkeren Kinder von Relevanz, die die Lernziele ihrer eigenen Jahrgangsstufe gut bzw. sehr gut erreichen und von daher auf weiterführende Angebote zugreifen können.

Umgekehrt dazu „verliert“ in der vierten Klasse lediglich das unterste Leistungsquartil in den jahrgangsgemischten Klassen nicht im Vergleich zur jahrgangshomogenen Gruppe. Gerade für diese Kinder könnte sich günstig auswirken, dass sie durch den Unterricht für die jüngeren Schüler*innen noch nicht verstandene Lerninhalte des letzten Jahres wiederholen können. Denkbar ist auch, dass die beratende und unterstützende Rolle, die diese Kinder für die jüngeren Kinder übernehmen, günstige Entwicklungen – evtl. unterstützt durch eine positive Entwicklung des Selbstkonzepts – anstößt.

Die Studie bestätigt, dass der differenzielle Blick auf die Effekte des jahrgangsgemischten Lernens von Bedeutung ist: Stärkere (differenzielle) Wirkungen zeigen sich in Übereinstimmung mit dem Forschungsstand für die jüngere Altersgruppe und für die leistungsstärkeren Schüler*innen (auch und gerade in dieser Kombination). Überraschend ist der Hinweis auf kleinere Gewinne der älteren und leistungsschwächeren Schüler*innen, die zumindest tendenziell am Ende der vierten Jahrgangsstufe besser in jahrgangsgemischten Klassen abschneiden.

6 Limitationen und Ausblick

Bei der Interpretation und Verallgemeinerung der voranstehenden Befunde gilt es abschließend einige Einschränkungen zu bedenken: Um Boden- bzw. Deckeneffekte zu vermeiden, war es erforderlich, zu den drei Messzeitpunkten unterschiedliche, jeweils curricular valide Verfahren einzusetzen. Die damit verbundene Unterschiedlichkeit der Roh- und Gesamtpunktwerte zwischen den drei Messzeitpunkten, erschwert jedoch zum Teil eine direkte Ergebnisinterpretation und den Nachvollzug individueller Entwicklungsverläufe der Schüler*innen, sodass nur durch eine z-Transformation der entsprechenden Werte deren relative Einordnung zu jedem Messzeitpunkt und eine vergleichende Betrachtung der jeweiligen Gruppenmittelwerte möglich war.

Aufgrund der organisatorischen und administrativen Rahmenvorgaben des Schulkontexts waren randomisierte Stichprobenziehungen von Klassen sowie Schüler*innen wie auch ein experimentelles Design nicht umsetzbar. Um dennoch eine gewisse Anzahl an Einflussgrößen zu kontrollieren, wurde ein Propensity-Score-Matchingverfahren eingesetzt, bei dem äquivalente Schüler*innenpaare aus jahrgangsgemischten und -homogenen Klassen gebildet wurden. Auch wenn dies aus methodischer Sicht eine gute Alternative zur Auswertung nicht randomisierbarer Studien darstellt (Kuss et al. 2016), ist bei Schlussfolgerungen und Kausalannahmen dennoch zu bedenken, dass in die Adjustierung nur tatsächlich gemessene Merkmale eingehen; darüber hinausgehende Ursachen für Unterschiede bleiben unberücksichtigt oder möglicherweise sogar unerkannt.

Des Weiteren gründete sich die Entscheidung zur Bildung von Leistungsquartilen zum ersten Messzeitpunkt auf forschungspragmatische (z. B. ausreichende Fallzahl pro Quartil), didaktische (z. B. übersichtliche Darstellbarkeit) und inhaltliche Gründe (Analyse des Entwicklungsverlaufs von schwächsten, unterdurchschnittlichen, überdurchschnittlichen und höchsten Ausgangsleistungen). Daneben wären auch andere Aufteilungen mit entsprechend leicht abweichenden Resultaten denkbar (z. B. Terzile, bei denen der fehlende Effekt in der schwächsten Gruppe durch die Vergröberung der Kategorien verdeckt wird, oder Quintile, bei denen aufgrund der Verfeinerung der Kategorien die zwei unteren keinen, die drei oberen Quintile – ähnlich zu Quartilen – Effekte aufweisen).

Da es sich bei der Maßnahme Jahrgangsmischung primär um ein unterrichtliches Merkmal der Oberflächenstruktur handelt, dessen Effekt auf der Qualität tiefenstruktureller Kriterien basiert (Hahn 2019), ist schließlich die in den einzelnen gemischten linearen Modellen durch diesen Prädiktor (als festen Effekt) erzielte Varianzaufklärung zwar relativ gering, aber durchaus erwartungskonform. Angesichts der großen Varianzanteile, die hingegen auf (variabel modellierte) Ausgangsniveaus von Schüler*innen wie auch Klassen zurückgeführt werden können, bleibt bislang allerdings ungeklärt, inwiefern weitere Merkmale von Schüler*innen (z. B. Rolle der jüngeren/älteren Lerner*innen, motivationale Facetten wie Selbstkonzept und Motivationsform), verschiedene unterrichtliche Prozesse (z. B. tutorielles Lernen, Lernen durch Lehren) und deren Prozessqualität (z. B. Gestaltung jahrgangsgemischten Unterrichts, curriculare Inhaltsanordnung) oder Merkmale der Lehrkräfte (z. B. professionelles Wissen, Einstellungen, Motivation für jahrgangsgemischten Unterricht, Erfahrung) von besonderer Relevanz sind. Lohnen könnten auch Analysen aus fachdidaktischer Perspektive, die die Unterschiede in der Gestaltung im Fach Mathematik und Deutsch im jahrgangsgemischten Unterricht in den Blick nehmen. Diese Aspekte standen nicht im Fokus des vorliegenden Beitrags, zentrale Aspekte sollen aber in weiterführenden Analysen und Studien mehr Beachtung erhalten und in ihrer differenziellen Bedeutung systematisch untersucht werden. Gleiches gilt für Daten zum wahrgenommenen Leistungsdruck, zur Motivation sowie zu Hoffnungen und Befürchtungen bezüglich des Übertritts. Diese sollen – auch im Konnex zur Leistungsentwicklung – weiter ausgewertet werden, um mögliche Zusammenhänge an dieser im Bildungssystem höchst bedeutsamen Gelenkstelle aufzuspüren.