1 Einleitung

Wir danken den anonymen Gutachter*innen für die hilfreichen Hinweise sowie Sebastian Weirich für seine Unterstützung bei der Klärung methodischer Fragen.

Der „sonderpädagogische Unterstützungsbedarf im Schwerpunkt LERNEN“ (Kultusministerkonferenz 2019) (SPU-L) wird in Deutschland tendenziell über Lernrückstände in mehreren Fächern in Verbindung mit unterdurchschnittlichen Intelligenzwerten und ggf. weiteren Kontextfaktoren bestimmt (vgl. Grünke und Grosche 2014; Mähler und Grube 2018). Die diagnostische Arbeit wird i. d. R. von hierzu beauftragten Lehrkräften erbracht (vgl. Wolf und Dietze 2022, S. 331). Basierend auf einer Empfehlung, die aus einem Fördergutachten und ggf. aus einer Förderkommission hervorgeht, liegt die Entscheidung über die Zuschreibung eines sonderpädagogischen Unterstützungsbedarfs „bei der Schulaufsichtsbehörde oder einer von ihr beauftragten Institution“ (Wolf und Dietze 2022, S. 329). Aktuell zeichnet sich in den Bundesländern zwar zunehmend ab, dass ein Überprüfungsverfahren formell durch die Erziehungsberechtigten zu beantragen ist (vgl. Wolf und Dietze 2022, S. 337). Zugleich ist anzunehmen, dass Erziehungsberechtigte diesen Weg erst einschlagen, wenn sie für ihr Kind die Notwendigkeit hierzu sehen und entsprechend beratend begleitet wurden. Dies geschieht seitens der schulischen Akteur*innen i. d. R. mittels nicht normierter Leistungsdokumentationen und Förderplänen (vgl. z. B. Koßmann 2022), in welchen dargestellt werden kann, inwiefern die Schule ihre regulären Fördermaßnahmen bereits ausgeschöpft hat (vgl. Kultusministerkonferenz 2019, S. 6). Obwohl eine Überprüfung auf einen SPU‑L im Vergleich zu anderen, traditionellen Routinen der schulischen Leistungsbeurteilung als hoch standardisiert gelten kann, kommen normierte Testverfahren oftmals erst nach der Eröffnung eines Überprüfungsverfahrens zum Einsatz (vgl. Kottmann et al. 2018). Aktuelle Studien legen nahe, dass referenzgruppenbezogene Einflüsse analog zu jenen bei der schulischen Leistungsbeurteilung (vgl. z. B. Bergold et al. 2022; Meissel et al. 2017) in nennenswertem Maß auch in den Vorschlag zur Überprüfung eines Kindes mit eingehen (vgl. Hibel et al. 2010; Kölm et al. 2020; Koßmann 2020). Mit dem „Fingerzeig der Lehrkraft“ bezeichnete Probst einst die „a priori-Population“ derjenigen Schüler*innen, die von Lehrkräften zur Überweisung auf die Sonderschule vorgeschlagen wurde, ehe das Verfahren zur Überprüfung formell eingeleitet wurde (vgl. Probst 1973, S. 125). Da die skizzierten beratungs- und förderrelevanten Mittel tendenziell individuumsbezogen sind und auf nicht normierte Daten gründen, könnte es sein, dass ‚dem Fingerzeig der Lehrkräfte‘ zumindest implizit noch immer eine maßgebliche Rolle bei der Einleitung von Überprüfungsverfahren zukommt.

Für welche Schüler*innen ein SPU-L-Überprüfungsverfahren eingeleitet wird, könnte dabei auch von Merkmalen der Klassenkomposition beeinflusst werden. Hierbei geht es um praktisch bedeutsame Fragen: etwa, ‚wie groß‘ der Abstand zu den „Mittelköpfen“ (Labhart et al. 2018, S. 82) einer Klasse sein darf, ehe zieldifferente Unterrichtung für notwendig erachtet wird (vgl. Koßmann 2019, S. 34–40; Kultusministerkonferenz 2019), sowie Aspekte der Lerngruppenzusammensetzung, die es aus Lehrkraftsicht erschweren könnten, sich um diagnostische Fragen bei Lernschwierigkeiten zu kümmern (vgl. Fields 1999). In der vorliegenden Studie wird daher untersucht, inwiefern Merkmale der Leistungsverteilung sowie Verhaltens- und Hintergrundmerkmale von Schulklassen mit der Zuschreibung eines SPU‑L zusammenhängen.

Datengrundlage bildet der IQB-Bildungstrend 2016 (vgl. Stanat et al. 2017, 2019). Die bundesweit repräsentative Erhebung beinhaltet umfangreiche Kompetenz- und Kontextdaten von Schüler*innen zum Ende der vierten Klasse. Aus dem Datensatz wurde eine Analysestichprobe von 10.398 Kindern aus 543 Klassen ausgewählt, in welchen 561 Schüler*innen mit SPU‑L inklusiv unterrichtet wurden, und mittels logistischer Mehrebenen-Regressionsanalysen untersucht. Inwiefern ausgewählte Kompositionsmerkmale von Schulklassen mit dem Vorliegen eines SPU‑L zusammenhängen könnten, wurde bislang nicht systematisch geprüft. Die in der vorliegenden Studie gewonnenen Einschätzungen werfen zwar weitere Forschungsfragen auf, liefern aber auch Hinweise zur Verbesserung der Feststellungspraxis.

2 Der sonderpädagogische Unterstützungsbedarf im Lernen

Schüler*innen mit einem festgestellten SPU‑L weisen einen Lernrückstand auf, der zumindest in den beiden zentralen Fächern Deutsch und Mathematik zumeist auf zwei bis drei Schuljahre beziffert wird (vgl. Grünke und Grosche 2014; Koßmann 2020; Mähler und Grube 2018; Stranz 1966, S. 267), teilweise auch auf ein bis zwei Schuljahre (vgl. Gorges et al. 2018). Die Lernstände werden mittels normierter Testverfahren erfasst (vgl. Grünke und Grosche 2014, S. 80). Eventuell vorgefundene Lernrückstände sollen dabei weder auf einen Mangel an Beschulung noch auf Sinneseinschränkungen oder auf mangelnde Deutschkenntnisse zurückführbar sein. Einhergehen sollen sie stattdessen mit einer unterdurchschnittlichen allgemeinen Intelligenz im IQ-Wertespektrum von 55 bis 85 (vgl. Grünke und Grosche 2014, S. 78) oder 70 bis 85 (vgl. Mähler und Grube 2018, S. 459).

In den verschiedenen Regelungen zur Feststellung des SPU‑L auf Bundeslandebene zeigen sich sehr unterschiedliche Reaktionsweisen auf die genannten Kriterien. Das Spektrum reicht von Ländern, in denen der Einsatz psychometrischer Instrumente nicht vorgeschrieben ist, bis hin zu Ländern mit detaillierten Richtlinien (vgl. Koßmann 2020). Trotz der bestehenden Versuche, SPU-L-Überprüfungen einheitlich und datenbasiert vorzunehmen, zeigen sich zumindest im Primarbereich erhebliche Schnittmengen hinsichtlich der fachlichen Kompetenzen von Schüler*innen mit festgestelltem und ohne festgestellten SPU‑L (vgl. Koßmann 2020). Eine erneute, bundeslandübergreifende Leitlinie für diesen SPU liegt mit der entsprechenden, aktuellen KMK-Empfehlung vor (vgl. Kultusministerkonferenz 2019). In dieser wie auch in den Bestimmungen einiger Bundesländer ist zwar eine „Person-Umfeld-Analyse“ vorgesehen (Kultusministerkonferenz 2019, S. 11; Gasterstädt et al. 2021). Insbesondere der Aspekt „Besonderheiten der Klassenzusammensetzung“ (Bundschuh und Winkler 2019, S. 359) erfährt jedoch an keiner Stelle eine systematische Ausdifferenzierung.

3 Zusammenhänge zwischen SPU-L und Klassenkomposition

3.1 Leistungsbezogene Merkmale von Schulklassen

Im von Davis (1966) zur Untersuchung von Referenzgruppeneffekten auf das akademische Selbstbild entwickelten Frog-Pond-Modell wird ein systematischer Zusammenhang von Selbsteinschätzung und lokaler Referenzgruppe beschrieben, demgemäß sich die Leistungsstärke einer lokalen Referenzgruppe gegenläufig zur Höhe der leistungsbezogenen Selbsteinschätzung verhält. Bezugsgruppeneffekte lassen sich nicht nur auf die Selbsteinschätzung, sondern auch auf die Fremdbeurteilung von Schüler*innen durch deren Lehrkräfte aufzeigen (vgl. z. B. Bergold et al. 2022; Meissel et al. 2017). Aufbauend auf dieses Modell haben Hibel et al. (2010) anhand des US-amerikanischen, repräsentativen und längsschnittlich angelegten ECLS-K-Datensatzes zeigen können, dass höhere Leistungsniveaus auf Schulebene auch bei Kontrolle eines breiten Sets an Merkmalen auf Individualebene mit signifikant höheren Chancen einhergehen, einer sonderpädagogischen Kategorie zugeordnet worden zu sein. Für die Bedeutsamkeit der Klasse als Referenzgruppe für die Feststellung eines SPU‑L sprechen die anhand des IQB-Bildungstrends 2016 gewonnenen Untersuchungsergebnisse von Kölm et al. (2020). Sie fanden u. a. einen Anstieg der „Chance, die Diagnose eines SPF‑L aufzuweisen, für Kinder mit ansonsten gleichen individuellen Kompetenzen um den Faktor 4,6 bzw. 2,88, wenn sie eine Klasse mit um eine Standardabweichung höherer mittlerer Kompetenz im Lesen bzw. Mathematik besuchten“ (Kölm et al. 2020, S. 282).

Auch wenn davon auszugehen ist, dass Maßnahmen der Binnendifferenzierung bereits weit verbreitet eingesetzt werden (vgl. z. B. Pozas et al. 2020), scheint die alte Ausrichtung an den „Mittelköpfen“ einer Klasse noch immer ein gängiges Orientierungsmuster darzustellen (vgl. Labhart et al. 2018). Die Einschätzung, ab wann der Abstand eines Kindes von den ‚Mittelköpfen‘ als ‚zu groß‘ wahrgenommen wird, könnte wesentlich von den mittleren Leistungen der jeweiligen Schulklassen abhängen. Zudem könnte diese Einschätzung auch von der Leistungsstreuung in einer Klasse abhängen. So wäre für Klassen mit größerer Streuung erwartbar, dass dort Maßnahmen der Binnendifferenzierung eher eingesetzt werden (vgl. Labhart et al. 2018), sodass die Möglichkeit zur zieldifferenten Unterrichtung weniger schnell als dringlich erscheinen könnte. Eine höhere Leistungsheterogenität könnte daher ein Merkmal sein, das indirekt der Einleitung eines SPU-L-Überprüfungsverfahrens entgegenwirkt. In dieselbe Richtung wirken könnte eine Leistungsverteilung in einer Klasse, die als „bottom heavy“ (Dreeben und Barr 1988, S. 134), also als linkssteil, zu bezeichnen wäre. Während die verhältnismäßig wenigen leistungsstarken Schüler*innen mit ‚Zusatzaufgaben‘ beschäftigt werden könnten (vgl. Labhart et al. 2018), könnte sich dort die globale Ausrichtung der Wissensvermittlung eher niedrig ansetzen lassen (vgl. Kabel 2019), sodass zieldifferente Unterrichtung weniger schnell als dringlich erscheinen könnte.

3.2 Verhaltens- und Hintergrundmerkmale von Schulklassen

Zusammenhänge zwischen nicht direkt leistungsbezogenen, aber tendenziell unterrichtsrelevanten Merkmalen von Lerngruppen und der Chance, die Zuschreibung eines SPU‑L erhalten zu haben, sind bislang weitestgehend unerforscht. Insbesondere vor dem Hintergrund der Studie von Fields (1999) ergeben sich jedoch Hinweise auf solche Zusammenhänge. So schätzen Lehrkräfte nicht nur den Lernerfolg für Lerngruppen geringer ein, wenn ein stark erhöhter Anteil der Schüler*innen Merkmale aufweist, die mit ressourcenintensiven Erfordernissen einhergehen: insb. Kinder mit Verhaltensauffälligkeiten, intellektuellen Beeinträchtigungen, ADHS, Sinneseinschränkungen, Mehrsprachigkeit, kultureller Diversität und Armut (vgl. Fields 1999). Vielmehr bringen Lehrkräfte diese verschiedenen Merkmale auch in eine bestimmte Rangfolge hinsichtlich des an sich erwarteten Grades an Beanspruchung (vgl. z. B. Fields 1999; Martschinke et al. 2020). Hierbei scheinen sie ihre Ressourcen primär auf Schüler*innen zu richten, durch deren erwartetes, störendes Verhalten sie stetige und unmittelbare Reaktionen ihrerseits antizipieren, um den Fluss des Unterrichts aufrechterhalten zu können, wohingegen Schüler*innen mit Lernproblemen dann tendenziell in eine Warteposition rückten (vgl. Fields 1999, S. 15). Gerade Schüler*innen mit externalisierenden Verhaltensweisen zeigen tendenziell ein weniger aufgabenbezogenes Verhalten (vgl. Becherer et al. 2021), woraus für Lehrkräfte die regelmäßige Anforderung erwächst, diese Aufmerksamkeit wieder zu begünstigen. Aus diesen Überlegungen geht die Annahme hervor, dass Lehrkräfte weniger Ressourcen zur Wahrnehmung von ‚lediglich‘ lernschwachen Schüler*innen haben, wenn die Kapazitäten zur Aufrechterhaltung des Unterrichtsflusses an anderer Stelle stärker beansprucht werden. Auch bzgl. sprachlicher Barrieren darf angenommen werden, dass Lehrkräfte diese wahrnehmen (vgl. Franz 2020) und Aufwand während des Unterrichts zu deren Überwindung betreiben; etwa durch Einführung zusätzlicher Hilfsmittel und Arbeitsstrategien (vgl. Pozas und Schneider 2019), um einzelnen Schüler*innen den Zugang zu den curricular vorgegebenen Lerninhalten zu ermöglichen. Vor dem Hintergrund, dass Zuwanderungshintergrund, sozioökonomischer Status und fachliche Kompetenzen tendenziell miteinander konfundiert sind (vgl. z. B. Kölm et al. 2020), darf ergänzend angenommen werden, dass Lehrkräfte auf Klassen, deren Schüler*innen mehrheitlich als weniger anschlussfähig an die curricular vorgegebenen Lerninhalte eingeschätzt werden, eher mit einem globalen „Downgrading“ der inhaltlichen Ansprüche reagieren (vgl. Kabel 2019), sodass dann analog zur in 3.1 letztgenannten Annahme individuelle Überprüfungen auf SPU‑L weniger rasch als dringlich erscheinen könnten.

4 Hypothesen

In der vorliegenden Studie wird der Frage nachgegangen, inwiefern Merkmale der Leistungsverteilung sowie Verhaltens- und Hintergrundmerkmale von Schulklassen mit der Zuschreibung eines SPU‑L zusammenhängen.

Basierend auf der Sichtung der Forschungsliteratur wird erwartet, dass die Wahrscheinlichkeit einer SPU-L-Feststellung, bei vergleichbaren individuellen Kompetenzen im Lesen und in Mathematik, sinkt,

H1.1

je weniger die individuellen fachlichen Kompetenzen nach unten vom Klassenmittelwert abweichen.

H1.2

je linkssteiler die Kompetenzverteilung einer Klasse ist.

H1.3

je größer die Kompetenzstreuung in einer Klasse ist.

H2.1

je höher der Anteil der Schüler*innen mit potenziell herausforderndem Verhalten ist.

H2.2

je höher der Anteil an Schüler*innen in einer Klasse ist, die Deutsch nicht als Muttersprache gelernt haben.

H2.3

je geringer der mittlere sozioökonomische Status einer Klasse ist.

Übergreifend wird zudem explorativ geprüft, inwiefern die angenommenen Zusammenhänge bestehen bleiben, wenn zusätzlich die mittleren schulischen Kompetenzen der Klasse berücksichtigt werden, bzw. inwiefern diese die zentrale vermittelnde Größe zwischen Klassenkontext und einer individuellen Feststellung eines SPU‑L sein könnte.

5 Datengrundlage und Methoden

5.1 Stichprobe

Die Datengrundlage der vorliegenden Untersuchung bildet der IQB-Bildungstrend 2016 in der Primarstufe am Ende der vierten Klasse (vgl. Stanat et al. 2017, 2019). Die Daten wurden vom Forschungsdatenzentrum am Institut zur Qualitätsentwicklung im Bildungswesen bereitgestellt. Für die Analysen wurden Kinder aus der regulären Stichprobe an allgemeinen Schulen einbezogen, die an den Kompetenztestungen teilgenommen haben und bei denen die Angaben zum SPU vorliegen. Weiterhin wurden nur diejenigen Klassen ausgewählt, in denen mindestens ein Kind einen amtlich festgestellten SPU in mindestens einem der Bereiche Lernen, emotionale und soziale Entwicklung oder Sprache hatte. Das Vorliegen einer solchen Feststellung kann als sicherer Indikator angesehen werden, dass in einer Region bzw. in der konkreten Klasse überhaupt amtliche Feststellungsverfahren für die genannten SPUs auch im Kontext inklusiver Beschulung durchgeführt werden – und sonderpädagogische Unterstützung nicht ausschließlich aufgrund pauschal systembezogen zugewiesener Ressourcen durchgeführt wird. Die Stichprobe umfasst n = 10.398 Kinder in 543 Klassen (MAlter = 10,49, SD = 0,53; 49,17 % Mädchen). Da beim IQB-Bildungstrend 2016 jeweils eine vierte Klasse pro Schule an der Erhebung teilnahm, entspricht die Anzahl der Klassen der Anzahl der Schulen. Insgesamt weisen 561 der Kinder einen festgestellten SPU‑L auf.

5.2 Erhebungsinstrumente und Operationalisierung

Informationen zum Vorliegen eines amtlich festgestellten SPU wurden im Rahmen der Erhebung von den teilnehmenden Schulen erfragt. Diese abhängige Variable wurde binär kodiert und umfasst die Information, ob ein Kind einen SPU‑L (ggf. gekoppelt mit weiteren Unterstützungsbedarfen) aufweist oder nicht.

Auf Individualebene wurden verschiedene Kontrollvariablen in den Modellen berücksichtigt: Zum einen gingen Informationen zur Muttersprache in die Analysen mit ein (deutsch vs. andere Sprache), erfasst über die Schulen. Fehlende Werte wurden nach Möglichkeit durch Elternangaben und anschließend durch Angaben seitens der Schüler*innen ergänzt. Zum anderen wurde der sozioökonomische Status über den International Socio-Economic Index of Occupational Status (ISEI, vgl. Ganzeboom 2010; Ganzeboom et al. 1992) einbezogen. Verwendet wurde jeweils der z‑standardisierte höchste ISEI (HISEI) der Eltern. Weitere Kontrollvariablen bildeten die schulischen Kompetenzen der jeweiligen Schüler*innen. Diese wurden in Anlehnung an die Bildungsstandards entwickelt und umfassen u. a. standardisierte Tests in den Fächern Deutsch und Mathematik. Für das Fach Deutsch geht die Teilkompetenz Lesen in die Analysen mit ein (vgl. Böhme et al. 2017) und für Mathematik ein globaler Kompetenzwert aus den fünf inhaltsbezogenen Kompetenzbereichen „Zahlen und Operationen“, „Raum und Form“, „Größen und Messen“, „Muster und Strukturen“ und „Daten, Häufigkeit und Wahrscheinlichkeit“ (vgl. Roppelt et al. 2017). Schüler*innen mit SPU in den Förderschwerpunkten Lernen, Sprache und emotionale und soziale Entwicklung erhielten spezielle Testhefte mit angepassten Aufgaben, die mit den anderen Tests verlinkt werden können (vgl. Böhme et al. 2017). Die Testwerte wurden in den jeweiligen Kompetenzbereichen IRT-skaliert und es wurden je 15 Plausible Werte berechnet. Da für die Analysen nur eine Teilstichprobe des IQB-Bildungstrends 2016 verwendet wurde, wurden die Werte zusätzlich auf Ebene dieser Teilstichprobe z‑standardisiert.

Als Maß für die Abweichung der individuellen Kompetenz vom Klassenmittelwert wurden die Schüler*innen für jeden Kompetenzbereich einer der drei folgenden Kategorien zugeordnet: (1.) Schüler*innen, die mit ihren Kompetenzen mindestens dem Klassendurchschnitt entsprachen, (2.) Schüler*innen, deren individuelle Kompetenzen niedriger ausfielen als der Klassenmittelwert, allerdings nicht schlechter als eine Standardabweichung, und (3.) Schüler*innen, deren Kompetenzen mehr als eine Standardabweichung unterhalb des Klassenmittelwertes lagen.Footnote 2

Neben der Individualebene wurden verschiedene Informationen auf Klassenebene einbezogen: Zur Erfassung des mittleren fachlichen Kompetenzniveaus der jeweiligen Klasse wurden die Klassenmittelwerte der jeweils erreichten Kompetenzen im Lesen und in Mathematik gebildet. Die Kompetenzstreuung der Klasse wurde über die Standardabweichung der jeweiligen Kompetenzbereiche auf Klassenebene gemessen. Zudem wurde für die einzelnen Klassen jeweils die Schiefe der Kompetenzverteilung der beiden Kompetenzbereiche – die Skewness – berechnet. Die Skewness kann Werte von −∞ bis +∞ annehmen. Werte zwischen −0,5 bis +0,5 weisen dabei auf eine relativ symmetrische Verteilung hin, Werte zwischen −1 bis −0,5 bzw. +0,5 bis +1 auf eine moderat schiefe Verteilung und Werte geringer als −1 bzw. höher als +1 auf eine stark schiefe Verteilung (vgl. Cleff 2015). Negative Werte stehen für eine linksschiefe bzw. rechtssteile Verteilung, positive Werte für eine rechtsschiefe bzw. linkssteile Verteilung.

Ergänzend zu den verschiedenen leistungsbezogenen Merkmalen der jeweiligen Klassen wurden unterschiedliche Indikatoren für die Messung einer besonderen Anspruchslage an die Durchführung des Unterrichts aufgenommen. Mit Blick auf H2.1 wurden zur Einschätzung des Anteils an Kindern pro Klasse mit potenziell herausforderndem Verhalten mehrere Indikatoren betrachtet, u. a. der Anteil der Kinder in der Klasse mit der Diagnose eines SPU im Schwerpunkt emotionale und soziale Entwicklung (SPU-ESE) sowie der Anteil der Kinder mit ADHS. Für diese beiden auf Schulauskünften basierenden Indikatoren gelten jedoch Einschränkungen. Auch wenn angenommen werden kann, dass Kinder mit festgestelltem SPU-ESE besonders häufig externalisierende Verhaltensweisen zeigen (vgl. Kuhl et al. 2020), so kann das Vorliegen dieses SPUs auch aus internalisierenden Verhaltensweisen hervorgegangen sein (vgl. Blumenthal und Blumenthal 2021). Auf ähnliche Weise ist rein anhand der Angabe ADHS nicht klar, inwiefern mit dieser Nennung zum Erhebungszeitpunkt noch herausfordernde Verhaltensweisen einhergingen, wenn durch Therapien bereits ein weitgehend unauffälliges Verhalten erzielt werden konnte. Daher wurde ergänzend der Indikator Anteil der Kinder in der Klasse, die mindestens manchmal herausforderndes Verhalten zeigten aus Befragungsdaten der Schüler*innen gebildet. Grundlage dieser Information bildete eine in Anlehnung an Furthmüller (2014) und Marées und Petermann (2009) entwickelte Skala mit insgesamt 11 Items. Hier wurden die Schüler*innen bzgl. verschiedener Verhaltensweisen befragt, wie oft sie diese seit den letzten Sommerferien gezeigt haben. Die Antwortmöglichkeiten waren „nie oder fast nie“, „manchmal“, „oft“ oder „fast immer“. Beispielitems sind „Ich habe den Unterricht gestört“ und „Ich habe eine Lehrkraft wütend gemacht“. Die Skala weist eine einfaktorielle Struktur auf (α = 0,889). Für die Analysen wurde jeweils der Anteil der Kinder innerhalb einer Klasse berechnet, die im Mittel angegeben hatten, sich mindestens manchmal herausfordernd zu verhalten. Schließlich wurden bzgl. H.2.2 und H.2.3. der Anteil derjenigen, die Deutsch nicht als Muttersprache sprechen und der mittlere HISEI der Klasse aufgenommen. Diese Informationen lagen auf Individualebene über Angaben der Schulen vor. Eine Beschreibung der Verteilung und der Zusammenhänge der Variablen kann den Tab. A1 bis A3 im Anhang entnommen werden.

5.3 Datenanalyse

Für die Analysen wurden fehlende Werte imputiert (MICE, vgl. van Buuren und Groothuis-Oudshoorn 2011) und dabei 15 Datensätze gebildet. Zur Beantwortung der Forschungsfrage wurde eine Reihe logistischer Mehrebenen-Regressionsanalysen (Random-Intercept-Modelle, vgl. Raudenbush und Bryk 2002) in R (R Core Team 2021) mithilfe der Pakete lme4 (vgl. Bates et al. 2015) und merTools (Knowles und Frederick 2020) durchgeführt. Aufgrund des Stichprobendesigns entspricht die Klassenebene der Schulebene, weshalb insgesamt nur zwei Ebenen berücksichtigt werden. Die Reihenfolge der generierten Modelle orientiert sich an den Hypothesen bzw. den entsprechenden -blöcken, wobei für die jeweils auf Klassenebene in den Blick genommenen Merkmale auch auf Individualebene kontrolliert wurde (vgl. Tausendpfund 2020). Es wurden alle Hypothesen je einzeln (Modelle 1 bis 3 sowie 6 bis 8), als bereichsspezifische Merkmalskombinationen (Modell 4 für die Merkmale der Leistungsverteilung und Modell 9 für die Verhaltens- und Hintergrundmerkmale) sowie bereichsspezifisch unter Kontrolle der mittleren Kompetenzen der Schulklasse (Modelle 5 und 10) geprüft. Alle metrischen Variablen wurden z‑standardisiert und alle Anteilswerte transformiert, sodass eine Einheit zehn Prozent entspricht.

6 Ergebnisse

In Abb. 1 ist die Verteilung der jeweiligen Kompetenzen der Schüler*innen im Lesen und in Mathematik für die einzelnen teilnehmenden Klassen dargestellt. Für die Kompetenzen wurde die Metrik der Bildungsstandards verwendet, d. h. ein Wert unterhalb von 390 (entsprechend der horizontalen Linie) weist diejenigen Schüler*innen aus, die nicht den Mindeststandard erreicht haben (vgl. Bremerich-Vos et al. 2017; Reiss et al. 2017). Zudem ist der Mittelwert der jeweiligen Kompetenzen in den Klassen eingezeichnet.

Abb. 1
figure 1

Verteilungen der Kompetenzen im Lesen und in Mathematik bei Schüler*innen mit und ohne SPU‑L in den jeweiligen Klassen

Wie den Abbildungen entnommen werden kann, unterschieden sich die Klassen teilweise erheblich in den mittleren schulischen Kompetenzen. So gab es Klassen, deren Klassenmittelwert unterhalb der Mindeststandards lag (linke Seite innerhalb der Abb. 1a und 1b), während in anderen Klassen kaum Kinder unterrichtet wurden, welche die Mindeststandards verfehlten (rechte Seite innerhalb der Abb. 1a und 1b). Zudem kann der Abbildung entnommen werden, dass Schüler*innen mit SPU‑L in der Regel im unteren Kompetenzspektrum liegen, nicht aber zwingend unter den Mindeststandards. Insbesondere in leistungsstarken Klassen gab es häufig Schüler*innen mit SPU‑L, die höhere Kompetenzwerte aufwiesen. Der jeweilige Anteil der Schüler*innen mit SPU‑L, deren Kompetenzen über dem Mindeststandard liegen, betrug im Lesen 23,89 % und in Mathematik 13,90 %.

Die Ergebnisse der logistischen Regressionsmodelle zur Überprüfung der Hypothesen bzgl. der leistungsbezogenen Merkmalen von Schulklassen befinden sich in Tab. 1. In Modell 1 ist der Zusammenhang der individuellen Kompetenzabweichung zur Klasse mit der Chance, einen festgestellten SPU‑L aufzuweisen, dargestellt. Für Kinder, deren Kompetenzen innerhalb einer Standardabweichung unterhalb des Klassenmittelwerts liegen, zeigen sich keine statistisch bedeutsamen Zusammenhänge. Anders verhält es sich bei denjenigen Schüler*innen, deren Kompetenzen mehr als einer Standardabweichung unterhalb des Klassenmittelwerts liegen: Im Bereich Lesen haben diese Schüler*innen eine 3,55 mal so hohe Chance, einen SPU‑L aufzuweisen, wie Schüler*innen, deren Lesekompetenzen dem Klassenmittel entsprechen oder besser ausfallen (β= 1,27; OR = 3,55; p < 0,01). In Mathematik haben Kinder, deren Kompetenzen mindestens eine Standardabweichung unterhalb des Klassenmittels liegen, 3,34 mal so häufig einen SPU‑L wie ihre Mitschüler*innen, die mindestens den Klassenmittelwert erreicht haben (β= 1,20; OR = 3,34; p < 0,01). Hypothese H1.1 kann somit zunächst bestätigt werden. Keine Effekte zeigen sich hingegen auf Klassenebene für die Schiefe der Kompetenzverteilung (Modell 2) sowie für die Kompetenzstreuung in der Klasse (Modell 3). Die Hypothesen H1.2 und H1.3 können somit nicht bestätigt werden. In Modell 4 wurden alle leistungsbezogenen Merkmale zugleich aufgenommen. Hieraus ergaben sich keine wesentlichen Änderungen im Vergleich zu den Einzelmodellen. In Modell 5 wurde schließlich zur Untersuchung der übergreifenden Forschungsfrage, inwiefern die verschiedenen Kontexteffekte bestehen bleiben, wenn zusätzlich die mittleren schulischen Kompetenzen der Klasse berücksichtigt werden, die durchschnittlichen Kompetenzen auf Klassenebene im Lesen und in Mathematik aufgenommen. Für die mittleren Kompetenzen im Lesen zeichnete sich kein Effekt ab. Hingegen erhöht sich die Chance auf das Vorliegen eines festgestellten SPU‑L statistisch bedeutsam um das 3,11-fache, wenn sich die mittlere Kompetenz in Mathematik um eine Standardabweichung erhöht. Die Kompetenzabweichungen der einzelnen Schüler*innen zur Klasse waren hier zudem nicht mehr signifikant.

Tab. 1 Zusammenhänge leistungsbezogener Merkmale auf Individual- und Klassenebene mit der Chance, eine SPU-L-Diagnose aufzuweisen

Neben den leistungsbezogenen Aspekten sind in Tab. 2 die Ergebnisse der Analysen zum Zusammenhang der Verhaltens- und Hintergrundmerkmale und einer SPU-L-Zuschreibung dargestellt. In Modell 6 sind zunächst die Verhaltensmaße abgebildet. Im Mittelpunkt stehen dabei die Effekte auf Klassenebene. Hier zeigte sich, dass bei einem höheren Anteil an Kindern mit herausforderndem Verhalten und mit festgestelltem SPU-ESE die individuelle Chance auf einen festgestellten SPU‑L deutlich sank: Wenn beispielsweise zehn Prozent mehr Kinder mit wenigstens manchmal herausforderndem Verhalten die Klasse besuchten, sank die Chance auf einen SPU‑L um 41 % (β= −0,53; OR = 0,59; p < 0,01). Der Anteil an Kindern mit ADHS spielte hingegen keine statistisch bedeutsame Rolle. Erwähnenswert, wenngleich an sich bereits bekannt (vgl. Börnert-Ringleb et al. 2019), ist hierbei der hohe Zusammenhang von SPU‑L und SPU-ESE auf Individualebene (β= 0,71; OR = 2,03; p < 0,01). Hypothese H2.1 kann somit in Teilen bestätigt werden. Modell 7 prüft den Zusammenhang zum Anteil an Kindern pro Klasse, deren Muttersprache nicht Deutsch war. Auch hier zeigte sich ein Zusammenhang in der Richtung, dass mit steigendem Anteil die individuelle Chance auf einen festgestellten SPU‑L sank (H2.2). Wie Modell 8 zeigt, fiel in Klassen mit einem höheren mittleren HISEI die Chance auf einen festgestellten SPU‑L bei gleicher individueller Kompetenz und gleichem individuellem HISEI größer aus als in Klassen mit niedrigerem mittlerem HISEI (H2.3). Hierbei ist zudem bemerkenswert, dass die Chance auf das Vorliegen eines SPU‑L mit höherem HISEI auf Individualebene geringer ausfiel (β= −0,20; OR = 0,82; p < 0,01).

Tab. 2 Zusammenhänge von Verhaltens- und Hintergrundmerkmalen auf Individual- und Klassenebene mit der Chance, eine SPU-L-Diagnose aufzuweisen

Nimmt man alle Verhaltens- und Hintergrundmerkmale gemeinsam in ein Modell auf (Modell 9), ergeben sich tendenziell die gleichen Zusammenhänge. Einzig der Effekt des Anteils der Kinder mit einer anderen Muttersprache als Deutsch war nicht länger statistisch bedeutsam. Dies ist insb. auf die hohe Konfundierung dieser Variable mit dem HISEI zurückzuführen.

Mit Modell 10 wurde schließlich die übergreifende Forschungsfrage untersucht, inwiefern die vorgefundenen Zusammenhänge der Verhaltens- und Hintergrundmerkmale bestehen bleiben, wenn zusätzlich die mittleren Kompetenzen der Klasse berücksichtigt werden. Hier zeigte sich – ähnlich wie bei den leistungsrelevanten Faktoren –, dass ein Großteil der vorgefundenen Zusammenhänge verschwand. Auf Klassenebene blieb lediglich der Effekt des Anteils an Kindern mit SPU-ESE signifikant.

7 Diskussion

In der vorliegenden Studie wurde anhand von Analysen des IQB-Bildungstrends 2016 der Frage nachgegangen, inwiefern leistungsbezogene Merkmale der Schulklasse sowie bestimmte Verhaltens- und Hintergrundmerkmale mit der Chance zusammenhängen, einen amtlich festgestellten SPU‑L aufzuweisen. Bezüglich der leistungsbezogenen Merkmale von Schulklassen sprechen die Befunde dafür, dass der Transmissionsweg über die didaktische Unterrichtsgestaltung einfacher strukturiert ist als angenommen: Aspekten wie der Streuung der Leistungsstände in einer Klasse, aber auch der Schiefe der Leistungsverteilung kam mit Blick auf die Frage, ab wann ein SPU‑L festgestellt wird, keine oder eine geringe praktische Relevanz zu. Anders verhielt es sich bzgl. des mittleren fachlichen Leistungsniveaus im Lesen und insb. in Mathematik: Hier zeigte sich bei gleichen individuellen Leistungen eine um zwei bis dreimal erhöhte Chance, die Zuschreibung eines SPU‑L erhalten zu haben, wenn die mittlere fachliche Kompetenz einer Klasse im Lesen bzw. in Mathematik um eine Standardabweichung erhöht war. Dies spricht global für eine starke Orientierung an den „Mittelköpfen“ (Labhart et al. 2018, S. 82) einer Klasse. Es könnte sein, dass Lehrkräfte für die Gesamteinschätzung eines Kindes Mathematikleistungen höher gewichten als Leseleistungen. Naheliegende Erklärungen hierfür, die in Folgeuntersuchungen zu prüfen wären, könnten einerseits in der augenfälligen Konsekutivität des Curriculums im Fach Mathematik liegen, wodurch individuelle Abweichungen vielleicht stärker auffallen, und andererseits in individuell gewährten Nachteilsausgleichen sowie entsprechend reduzierten Leistungserwartungen im Bereich des Schriftspracherwerbs. Während sich zeigte, dass Verhaltens- und Hintergrundmerkmale hinsichtlich Verhaltensauffälligkeiten, des Anteils an Kindern mit nicht deutscher Muttersprache sowie des mittleren sozioökonomischen Status ebenfalls mit signifikanten Effekten in der jeweils antizipierten Richtung auf die Chance einhergingen, bei gleichen Leistungen einen SPU‑L erhalten zu haben, verschwanden diese Effekte weitgehend bei gemeinsamer Einbeziehung. Bestehen blieb jedoch ein deutlicher negativer Effekt bzgl. des Anteils an Kindern mit SPU-ESE pro Klasse. Gerade bzgl. der genutzten Verhaltensmaße ist jedoch eine differenzierte Betrachtung nötig. Dass der Anteil an Kindern mit ADHS pro Klasse zumindest unter gleichzeitigem Miteinbezug der beiden anderen Verhaltensmaße keinen Erklärungsbeitrag leistete, könnte darauf zurückzuführen sein, dass an die medizinische Indikation evtl. anschließend wahrgenommene Maßnahmen, wie Medikation und begleitende Therapien, das problematische Verhalten während des Unterrichts reduziert haben. Erklärungsbedürftig ist vielmehr, weshalb der dem Vorliegen eines SPU-Ls gegenläufige Zusammenhang eines erhöhten Anteils an Kindern pro Klasse, die über sich selbst angegeben haben, den Unterricht zumindest manchmal zu stören, im Gesamtmodell verschwand, während der richtungsgleiche Effekt für einen erhöhten Anteil an Kindern mit festgestelltem SPU-ESE auch im Gesamtmodell signifikant blieb. Denkbar wäre hier, dass auch mit internalisierenden Verhaltensweisen, die bei der Feststellung eines SPU-ESE ebenfalls ausschlaggebend sein können, erhöhte Anspruchslagen an die Lehrkräfte zur Durchführung des Unterrichts einhergehen (vgl. Blumenthal und Blumenthal 2021). Erhöhte Aufmerksamkeitsressourcen seitens der Lehrkräfte könnten zudem erforderlich werden, wenn Kindern mit SPU-ESE zur Sicherung der Teilhabe am Unterricht ein*e Integrationshelfer*in zur Seite gestellt wurde, weil die Lehrkräfte dann neben dem klassenöffentlichen Unterricht potenziell auch die Interaktion zwischen Integrationshelfer*in und Kind mit SPU-ESE im Blick zu haben geneigt sind (vgl. Herz et al. 2018, S. 13; Kuhl et al. 2020, S. 3). Grundlegend wird durch den hier vorgefundenen negativen Effekt eines erhöhten Anteils an Kinder mit SPU-ESE pro Klasse auf die Wahrscheinlichkeit, einen festgestellten SPU‑L aufzuweisen, die Annahme bestärkt, dass es Merkmale von Schulklassen gibt, welche zumindest die Durchführung des aufwändigen Überprüfungsverfahrens für den SPU‑L in den Hintergrund zu drängen in der Lage sind.

Entgegen seiner theoretisch postulierten Eigenschaft, eine überregional einheitliche Kategorie zur Beschreibung einer Eigenschaft von Schüler*innen zu sein, liefern auch die hier gefundenen Zusammenhänge Hinweise darauf, dass der SPU‑L eine von schulischen Kontextfaktoren abhängige Kategorie ist (vgl. Kölm et al. 2020; Koßmann 2020). Hierbei scheint die Kontextabhängigkeit zu praktisch relevanten Anteilen nicht nur eine zu sein, die auf unterschiedliche diagnostische Vorgaben auf Bundeslandebene zurückzuführen ist, wie oft angeführt wird (vgl. z. B. Gasterstädt et al. 2021). Neben Studien, die die praktische Relevanz weiterer Kontextfaktoren belegen, wie der räumlichen Distanz einer Grundschule zur nächstgelegenen Förderschule (vgl. z. B. Ebenbeck et al. 2022), so werfen auch die Ergebnisse der vorliegenden Untersuchung die Frage nach gerechter Behandlung von Schüler*innen bei der Feststellung eines SPU‑L auf.

7.1 Limitationen

Die genauen Mechanismen, die den untersuchten Zusammenhängen zugrunde liegen, konnten nicht untersucht werden. So ist bei der Interpretation der Effekte des Klassenmittelwertes zu bedenken, dass einerseits eine Orientierung der Lehrkraft an der mittleren fachlichen Leistung der Klasse ausschlaggebend für diese Befunde sein könnte, andererseits könnte aber auch das mit dem fachlichen Leistungsniveau der Klasse einhergehende Anregungsniveau in unterschiedlichem Maß lernförderlich wirken und die Befunde erklären (vgl. z. B. Vennemann 2019). Unterscheidet man im Sinne von Dumont et al. (2013, S. 165) zwischen derartigen Kompositionseffekten und Referenzgruppeneffekten, kann jedoch davon ausgegangen werden, dass die hier in den Vordergrund gestellte Interpretation der Zusammenhänge als Referenzgruppeneffekte stichhaltig ist. So dürfte auch bzgl. der Anteile an Schüler*innen mit SPU‑L, die die Mindeststandards erreicht haben (s. oben, 23,89 % im Lesen und 13,90 % im Fach Mathematik), das fachliche Anregungsniveau der besuchten Klassen eine tragende Rolle gespielt haben. Zugleich ist das Erreichen der Mindeststandards das zentrale Kriterium, demgemäß Verfahren zur Aberkennung dieses Unterstützungsbedarfs eingeleitet werden müssten (Kultusministerkonferenz 2019, S. 6). Dass eine Aberkennungsentscheidung zu hohen Anteilen nicht getroffen wurde, spricht daher für eine Orientierung an der lokalen Bezugsnorm der Klasse, vor deren Hintergrund die Lernrückstände weiterhin als ‚zu groß‘ wahrgenommen worden sein könnten.

Da die vorliegende Studie eine querschnittliche Anlage aufweist, liegen keine Informationen über den tatsächlichen Feststellungsprozess sowie das tatsächliche Lehrkräftehandeln vor, sodass keine kausalen Schlussfolgerungen möglich sind. Auch liegen keine Daten darüber vor, ob die Kinder mit festgestelltem SPU‑L ggf. aus anderen Klassen stammten bzw. wann sie in die Klassen aus der Analysestichprobe gewechselt sind. Zur präziseren Untersuchung sollten zukünftige Studien insb. letztgenannten Aspekt mitberücksichtigen und vorzugsweise auf einem längsschnittlichen Datensatz basieren.

7.2 Anschlussmöglichkeiten und praktische Implikationen

Perspektivisch legen die Ergebnisse einerseits weitere Forschung nahe, in der vertieft die Mechanismen bei den Feststellungsverfahren und weitere Ressourcen als vermittelnde Variablen in den Blick genommen werden; insb. räumliche, personelle und auf die pädagogischen Akteur*innen bezogene individuelle Merkmale, wie Einstellungen zu Inklusion sowie diagnostische und unterrichtsmethodische Kompetenzen. Die in der vorliegenden Untersuchung vorgefundenen Hinweise legen zudem die Vermutung nahe, dass auch bzgl. der Überprüfung auf einen SPU-ESE Merkmale der Klassenkomposition eine Rolle spielen könnten. Neben professionellen Kompetenzen seitens der Lehrkräfte, etwa den diagnostischen Fertigkeiten und der Kenntnis entsprechender Fördermaßnahmen, dürften sich jedoch die relevanten unabhängigen Variablen von jenen der vorliegenden Untersuchung deutlich unterscheiden, sodass dem in einer eigenen Studie nachzugehen wäre. Zudem könnte die geringere Chance, bei individuell höherem HISEI einen SPU‑L aufzuweisen, ein Hinweis auf ein in weiteren Studien zu untersuchendes Stereotyp in der lehrkräfteseitigen Wahrnehmung von Schüler*innen sein.

Insgesamt sollte in der Praxis bei der Begutachtung von Schüler*innen die Individuumszentrierung aufgebrochen und der Klassenkontext stärker in den Blick genommen werden. Hier könnte in Anlehnung an Response-To-Intervention-Modelle (vgl. Neumann und Lütje-Klose 2020, S. 12 f.) ein zweistufiges Vorgehen genutzt werden: Zunächst könnte mittels überregional vergleichbarer Kriterien und Erhebungsinstrumente eine Einschätzung der Leistungsstände sowie der Verhaltens- und Hintergrundmerkmale zur Einschätzung der notwendigen Ressourcen für eine Klasse erfolgen. Anschließend erst wäre zu prüfen, inwiefern ein darüberhinausgehender, individueller Unterstützungsbedarf im Lernen besteht.

Im Kern ist es der Unterricht, der Unterstützungsbedarf hat, wenn die Anspruchslagen aufgrund bestimmter Konstellationen anwachsen. Da mit der individuellen Zuschreibung einer Kategorie sonderpädagogischen Unterstützungsbedarfs das schulbezogene Wohlbefinden von Kindern deutlich abnimmt (vgl. Goldan et al. 2022), sollte stärker als bisher versucht werden, die Anspruchslagen konkreter Settings, insb. auf Klassenebene, indikatorengestützt zu erfassen und dann angemessen zu bedienen: Dies könnte besonders problematischen Tendenzen entgegenwirken, wie jenen, dass in leistungsschwachen Klassen nur die Allerschwächsten besondere Unterstützung erhalten (vgl. Hibel et al. 2010, S. 315) oder dass eher durchschnittlich leistungsstarke Schüler*innen vor dem Hintergrund leistungsstarker Klassen amtlich als unterstützungsbedürftig eingeschätzt werden. Grundsätzlich dürfte sich auf diese Weise viel eher sicherstellen lassen, dass auch in herausfordernden Klassen diagnostische Aufgaben und individualisierte Förderung regelmäßig wahrgenommen werden können.