1 Einleitung

Sekundäranalysen nationaler (z. B. Mücke 2007; Paetsch et al. 2014) sowie international vergleichender Schulleistungsdaten (z. B. Reiss et al. 2019) haben seit den 2000er Jahren gezeigt, dass sprachliche Fähigkeiten in der Unterrichtssprache hochgradig mit den Leistungen in anderen Fächern korrelieren (vgl. auch Kempert et al. 2016). Für das deutsche Bildungssystem, das im ersten PISA-Vergleich 2000 weit hinter den Erwartungen zurückblieb, forderte die Kultusministerkonferenz (KMK 2001, o. S.) eine „Verbesserung der Sprachkompetenz bereits im vorschulischen Bereich“. Als Folge wurden Bildungsstandards für das Fach Deutsch eingeführt, Bund und Länder starteten zahlreiche Initiativen, z. B. das umfangreiche Programm „Förderung von Kindern und Jugendlichen mit Migrationshintergrund – FörMiG“ (Gogolin et al. 2011), aus dem die Idee der durchgängigen Sprachbildung hervorgegangen ist und seitdem Eingang in die Curricula gefunden hat sowie auch im Programm „Bildung durch Sprache und Schrift – BiSS“ (Schneider et al. 2012) bis heute fortgesetzt wird. Dabei steht v. a. eine unterrichtsintegrierte Förderung im Vordergrund, die individuelle Lernbedürfnisse auf der Grundlage sprachlicher Fähigkeiten und Fertigkeiten von Lernenden berücksichtigt und fachliche Inhalte zusammen mit sprachlichen systematisch und durchgehend vermittelt. Als ein solches unterrichtsintegriertes Förderkonzept setzt der „sprachsensible Unterricht“ an. Unter diesem Begriff subsumieren sich unterschiedliche didaktisch-methodische Vorgehensweisen (z. B. ein Wortspeicher oder Glossar als sprachliche und kontextuelle Hilfe, verbale Modellierungstechniken oder die Nutzung von Sprachvergleichen im Kontext von Mehrsprachigkeit, vgl. u. a. Kniffka 2012; Leisen 2013), deren Ziel es ist, Schülerinnen und Schüler im Fachunterricht dabei zu unterstützen, fachliche Inhalte sprachlich zu durchdringen sowie allgemein- und fachsprachliche Fertigkeiten auszubauen, um schulische Anforderungen besser bewältigen zu können (Becker-Mrotzek und Woerfel 2020). In Abgrenzung zu sprachlichen Lernhilfen zur Erreichung primär sprachlicher Lernziele (wie im Fremdsprachenunterricht oder im Fach Deutsch als Zweitsprache) ist das wesentliche Element sprachsensiblen Unterrichts, fachliches und sprachliches Lernen zu verknüpfen, um dadurch fachlich relevante Leistungen zu verbessern. Sprache dient dabei v. a. als Mittel des fachlichen Wissenserwerbs, da sie ein wichtiges Werkzeug des Denkens ist, mit dessen Hilfe kognitive Prozesse nachvollzogen oder Vorstellungsbilder aufgebaut werden sowie Wissen bearbeitet oder neu erzeugt wird (vgl. Vygotsky 1964). International bekannte sprachsensible Unterrichtsansätze sind z. B. sprachfokussierendes Scaffolding (Gibbons 2002), das Sheltered Instruction Observation Protocol (SIOP) (Echevarria et al. 2000) und Translanguaging, das in der Mehrsprachigkeitsdidaktik mittlerweile auch sprachsensibel umgesetzt wird (z. B. García und Wei 2014).

Die Bestrebungen von Bildungspolitik und -administration, sprachsensiblen Unterricht in der Praxis zu implementieren, wurden zwar bis dato aus dem (zumeist theoretischen) Wissen abgeleitet, dass Sprache und Lernen untrennbar miteinander verbunden sind (vgl. z. B. Vygotsky 1964), sie beziehen sich aber aktuell kaum auf Erkenntnisse der empirischen Interventionsforschung (Busse 2019, S. 14). Paetsch et al. (2014, S. 336) sprechen gar von einer „klaffende[n] Forschungslücke“ aufgrund fehlender Wirkungsbelege zu sprachfördernden bzw. sprachbildenden Angeboten. Sofern bislang überhaupt empirische Argumente in die Debatte zum Nutzen des sprachsensiblen Unterrichts zur Steigerung schulischer Kompetenzen einfließen, rekurrieren diese auf einzelne, aus der Studienlage herausgegriffene Untersuchungen, die bisweilen auch widersprüchliche Ergebnisse zur Wirkung sprachsensibler Ansätze berichten (z. B. Vidot 2011 versus Echevarria et al. 2006). Es liegen zwar aktuell einige nicht-systematische Literaturüberblicke vor, die je einen kleinen Ausschnitt der empirischen Datenlage zur Wirkung einzelner Ansätze zusammentragen (z. B. zu SIOP, vgl. Echevarria 2012; Echevarria und Short 2011). Um die Einführung von sprachsensiblen Maßnahmen in die Unterrichtspraxis sowie in die Aus- Fort- und Weiterbildung von Lehrpersonen wissenschaftlich zu begründen, ist aber eine umfassende und systematische Bewertung der vorliegenden empirischen Evidenz erforderlich, welche die Bewertung der internen und externen Validität der Befunde einschließt. Dies können nur systematische Reviews (mit oder ohne Metaanalyse) leisten.

Dass bis heute nur wenige solcher systematischen Übersichtsstudien vorliegen, zeigen die Ergebnisse strukturierter Abfragen in der Datenbank Scopus sowie manuelle Suchen in den speziell für systematische Reviews ausgelegten Online-Bibliotheken vom EPPI-Centre, dem What Works Clearinghouse (WWC) und der Campbell Collaboration (vgl. Höfler et al. in Vorbereitung). Eine systematische Überblicksarbeit zu SIOP liefert etwa What Works Clearinghouse (2009, 2013), jedoch ohne zusammenfassende Wirkungsaussage, weil die berücksichtigten SIOP-Studien die dort gesetzten Evidenzstandards nicht erfüllen. Zu Scaffolding finden sich zwei systematische Reviews (Swanson und Lussier 2001; van de Pol et al. 2010), die jedoch keinen expliziten Bezug zu sprachfokussiertem Scaffolding aufweisen. Systematische Übersichtsarbeiten, die mehrere sprachsensible Unterrichtsansätze zusammenfassen, oder gar ihre gesamte Vielfalt einbeziehen, liegen bislang nicht vor.

Um diese Forschungslücke zu adressieren, wurde von 2018 bis 2022 am Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache der Universität zu Köln ein großangelegtes systematisches Review zur Wirkung didaktisch-methodischer Ansätze des sprachsensiblen Unterrichts durchgeführt, das folgender übergeordneter Fragestellung nachging: Belegen Wirkungsstudien zu sprachsensiblen Unterrichtsansätzen, dass Schülerinnen und Schüler des Primar- und Sekundarbereichs, die sprachsensibel unterrichtet werden, bessere sprachliche und/oder fachliche Lernziele erreichen als Schülerinnen und Schüler, die nicht sprachsensibel unterrichtet werden?

Der vorliegende Beitrag berichtet erstmalig die Ergebnisse zur Forschungssynthese dieses systematischen Reviews. Nach Darstellung der Methodik der Übersichtsstudie (Kap. 2) erfolgt die Präsentation und Diskussion der Ergebnisse entlang der folgenden drei Teilfragen:

  1. 1.

    Zu welchen sprachsensiblen Unterrichtsansätzen liegen im internationalen Kontext empirische Wirkbefunde vor? (Abschn. 3.1)

  2. 2.

    Welche Effekte sind für diese Ansätze bestätigt? (Abschn. 3.2)

  3. 3.

    Welche interne und externe Validität zeigen die jeweiligen Wirkungsstudien? (Abschn. 3.2)

Die zentralen Erkenntnisse, Limitationen und Implikationen für den Transfer in die Praxis werden in Kap. 4 zusammengefasst.

2 Methodik

Fragestellung und Konzeption des Reviews wurden in Zusammenarbeit mit Stakeholdern (Expertinnen und Experten aus Forschung und Praxis) erarbeitet (entsprechend der Empfehlungen für systematische Reviews, vgl. Petticrew und Roberts 2006).

Um im Zuge des Reviews relevante Studien zur Wirkung sprachsensibler Unterrichtsansätze im (mit Deutschland vergleichbaren) Primar- und Sekundarschulbereich zu identifizieren, wurden folgende Inklusionskriterien definiert (ausführlichere Beschreibung, vgl. Woerfel et al. 2020):

  1. 1.

    Die Studien untersuchen Schülerinnen und Schülern im Alter von 5 bis 20 Jahren ohne sonderpädagogischen/lerntherapeutischen Unterstützungsbedarf,

  2. 2.

    getestet wird ein didaktisch-methodischer Ansatz, der (zur Abgrenzung von einzelnen sprachsensiblen Methoden) mindestens zwei verschiedene sprachsensible Vorgehensweisen integriert, die gezielt sprachliche Mittel und/oder kommunikative Verfahren einbinden bzw. Sprachkompetenzen fördern (siehe Kap. 1), um fachlich relevante Lernleistungen zu unterstützen; der Ansatz wird im Fachunterricht angewendet, in dem Sprache nicht selbst der zentrale Unterrichtsgegenstand ist; Unterrichtszielsprache ist die jeweilige Amtssprache,

  3. 3.

    der Vergleichsunterricht ist Fachunterricht ohne sprachsensiblen Ansatz; es handelt sich um Fachunterricht, bei dem Sprache nicht selbst der zentrale Unterrichtsgegenstand ist,

  4. 4.

    die Wirkung des Unterrichts wird anhand von Indikatoren des sprachlichen und/oder fachlichen Lernens überprüft,

  5. 5.

    die Effektmessung erfolgt im experimentellen, quasi-experimentellen oder nicht-experimentellem Studiendesign, mit inferenzstatistischer Gruppenvergleichsanalyse.

Entsprechend der Kriterien wurden demnach keine Studien in das Review einbezogen, die primär sprachsensiblen Unterricht untersuchen, in dem Sprache selbst der Kerngegenstand des Unterrichts ist (z. B. Deutschunterricht in Deutschland, Österreich oder der Schweiz oder Englischunterricht in den USA, Großbritannien oder Australien). Auch Untersuchungen im Rahmen des Fremdsprachenunterrichts sowie klassische Ansätze des Content and Language Integrated Learning (CLIL) und Content Based Instruction (CBI), bei denen eine Fremdsprache die Zielsprache des Unterrichts darstellt, waren kein Gegenstand der Übersichtsstudie.

Dem Standardverfahren für systematische Reviews folgend (u. a. Petticrew und Roberts 2006, S. 27) wurden strukturierte Abfragen in sechs internationalen Datenbanken durchgeführt: SCOPUS, ERIC, FIS-Bildung, PSYNDEX, PsycINFO und OpenGrey. Damit die Stichwörter für die Suchanweisungen in den Datenbanken nicht ausschließlich auf Entscheidungen von Einzelpersonen beruhten, wurden Text Mining-Verfahren angewandt (ausführlicher in Twente und Woerfel 2020). Hierfür wurden mittels des R-Pakets litsearchr in einem Datensatz (bestehend aus Titel, Abstracts und Schlagwörtern von 2668 Dokumenten in Scopus und ERIC sowie 58 in FIS) Begriffe automatisch ermittelt, die gemeinsam auftreten und eine bestimmte Bindungsstärke bezogen auf ihr Vorkommen im Datensatz aufweisen. Diese für den Inhalt einschlägiger Dokumente besonders repräsentativen Begriffe ergänzten die Suchbegriffsauswahl aus dem Fachkollegium. Die finalen Suchanweisungen kombinierten Fachtermini zu Population, Intervention, Outcome und Studiendesign (Intervention wurde z. B. über bekannte Namen sprachsensibler Ansätze erfasst, wie SIOP, aber auch über indirekte Begriffskombinationen von sprachlichem und fachlichem Lernen, z. B. „academic language instruction“ und „math“; zur ausführlichen Darstellung der Suchanweisungen, vgl. Höfler et al. in Vorbereitung).

Wie Abb. 1 zeigt, wurden die Datenbankabfragen durch Handsuchen in 21 Fachzeitschriften, durch Suchen nach unveröffentlichten Studien mittels eines Call for Preprints über die akademischen Online-Plattformen linguistlist.org und researchgate.net und über die Fachverteiler der Gesellschaft für Angewandte Linguistik, des DaZ-Portals der Universität Jena und die Sektion Interkulturelle und International Vergleichende Erziehungswissenschaft sowie durch eine Expert:innen-Abfrage ergänzt. Passend zur sich herausbildenden Wirkungsforschung zu sprachsensiblen Ansätzen wurden in einem Zeitraum ab 1990 bis 2021 insgesamt 3016 englisch- und deutschsprachige Dokumente ermittelt. Diese Dokumente wurden entlang der vorab definierten Inklusionskriterien für Wirkungsstudien zu sprachsensiblen Ansätzen in einem zweistufigen Verfahren gescreent. Die hierdurch ermittelten 55 relevanten Studien wurden anschließend mittels dafür entwickelter Kriterienraster hinsichtlich ihrer internen Validität (methodische Qualität) und externen Validität (Generalisierbarkeit der Befunde) bewertet. Die interne Validität (IV) wurde über ein Kriterienraster mit 13 Items bewertet, speziell die Bereitstellung von Informationen und Daten zu Population (IV1), Setting (IV2) und Intervention (IV3), die Übereinstimmung von diskutierten und gemessenen Outcomes (IV4) sowie von diskutierten und gemessenen Interventionen (IV5), die wissenschaftliche Güte der Outcome-Messungen (IV6), die Vergleichbarkeit der Gruppen (IV7), die Vergleichbarkeit der Behandlung der Gruppen (IV8) sowie der Outcome-Messinstrumente (IV9), aber auch die Berücksichtigung fehlender Daten (IV10), adäquate Studienlänge (IV11) und Stichprobengröße (IV12) sowie die Verblindung der Outcome-Bewertung zum Gruppenstatus (vgl. Höfler und Vasylyeva 2023). Die Kriterien wurden alle für die Bewertung operationalisiert (ohne quantitatives Ranking). Beispielsweise galt IV1 als vollständig erfüllt, wenn Informationen zu Altersspanne, -Mittelwert und -Standardabweichung, ebenso wie zur Geschlechterverteilung für jede Vergleichsgruppe vorlagen, und als teilweise bzw. nicht erfüllt, wenn einige bzw. alle Angaben dazu fehlten (ausführliche Darstellung und Begründung der Operationalisierungen, vgl. Höfler und Vasylyeva 2023). Die externe Validität (EV) wurde mit sieben Kriterien überprüft. Diese bezogen sich auf die Generalisierbarkeit der Befunde auf verschiedene Populationen (EV1: Altersgruppen, EV2: Geschlechter), Settings (EV3: Regionen, EV4: Lernsettings, EV5: Fachbereiche) und Outcomes (EV6: Sprachbereiche, EV7: Leistungsindikatoren) (vgl. Woerfel et al. 2020; ausführliche Darstellung und Begründung, vgl. Höfler et al. in Vorbereitung). Die Items wurden deskriptiv, ohne mehrstufiges Antwortformat, bewertet.

Abb. 1
figure 1

Flussdiagramm zur Auswahl und Bewertung der Studien. (n Anzahl, IRR Interrater-Reliabilität)

Im Screening, in der DatenextraktionFootnote 1 und Qualitätsbewertung wurden die ermittelten Dokumente unter vier Wissenschaftlerinnen und Wissenschaftlern aufgeteilt und im Single-Verfahren über die Software EPPI-Reviewer bearbeitet. Um Einheitlichkeit in den Urteilen beim Screening und der Qualitätsbewertung sicherzustellen, wurden drei Tests der Interrater-Reliabilität (IRR) mit randomisiert gezogenen Studien-Stichproben aus den ermittelten Dokumenten durchgeführt. Im Titel/Abstract-Screening überprüften zwei IRR-Testpaare je 32 Dokumente (ca. 1 % der identifizierten Dokumente n = 3016, vgl. Abb. 1) auf Übereinstimmung bei Inklusion und Exklusion auf Basis der Einschlusskriterien (die o. a. Einschlusskriterien umfassen insgesamt 16 Teilkategorien, die überprüft wurden, vgl. Woerfel et al. 2020). Da ein Testlauf zur Erreichung der gesetzten Prozenthürde (95 %) wiederholt werden musste, wurden hier insgesamt 96 Dokumente (ca. 3 %) der Stichprobe in den IRR-Test einbezogen. Auf Ebene des Volltext-Screenings testeten zwei IRR-Testpaare von den insgesamt 811 Dokumenten (vgl. Abb. 1) jeweils 20 auf die Übereinstimmung in den Bewertungscodes Inklusion, Exklusion und fehlende InformationenFootnote 2. Da auch hier ein Testlauf eines IRR-Paares zur Erreichung der Prozenthürde (95 %) wiederholt werden musste, wurden insgesamt 60 (ca. 7,5 %) der gescreenten Dokumente einbezogen. Bei der Qualitätsbewertung testeten zwei IRR-Paare von den insgesamt 55 bewerteten Wirkungsstudien (vgl. Abb. 1) mit jeweils fünf Studien je Testlauf insgesamt 10 Dokumente (rund 20 % der bewerteten Studien). Überprüft wurden hier die vier Bewertungskategorien „trifft voll zu“, „trifft zu mit Einschränkungen“, „trifft nicht zu“ und „unklar“, mit denen die o. a. 13 Qualitätskriterien bewertet wurden (vgl. Höfler und Vasylyeva 2023). In den IRR-Tests des Reviews wurde mittels der paarweisen Testung der Prozentualen Übereinstimmung (PÜ) die hierfür einfachste Kennwertberechnung gewählt (vgl. Wirtz und Caspar 2002). Da trotz der Vielzahl an einbezogenen Codes (auf Ebene der Qualitätsbewertung z. B. die vier o. a. Bewertungskategorien bei 13 Kriterien, d. h. 52 Codes je Studie insgesamt) eine Überschätzung der Konkordanz aufgrund zufälliger Übereinstimmung möglich ist (vgl. Wirtz und Caspar ebd.), wurde die zu erreichende Prozenthürde mit 95 % im Screening und maximalen 100 % in der Qualitätsbewertung bei den Ausschlusskriterien hoch angesetzt. Wenn im Zuge der Bewertung Unklarheiten auftraten, wurde die betreffende Studie in fortlaufenden Kolloquien des Review-Teams diskutiert oder in Einzelfällen von einem zweiten Team-Mitglied blind, d. h. ohne Informationen über die Erstbewertung geprüft.

Der IRR-Test zeigte auf Ebene des Titel‑/Abstract-Screenings eine sehr gute prozentuale Übereinstimmung (PÜ) bei beiden Testpaaren (je 96,9 %). Auf Ebene des Volltext-Screenings zeigte sich eine sehr gute bis exzellente Übereinstimmung (95 % und 100 %). In der Qualitätsbewertung, bei der die IRR für die Bewertung der internen Validität der Studien ermittelt wurde, erreichten die Test-Paare die definierten 100 % bezüglich der Cutoff-Kriterien, die den Studienausschluss aufgrund methodischer Mängel festlegten (PÜ für alle 52 Bewertungscodes gesamt = 87,7 und 98,5 %, vgl. Höfler und Vasylyeva 2023).

Im Zuge der Studienbewertung erfüllten zwei Wirkungsstudien die methodischen Mindestanforderungen nicht und wurden exkludiert (siehe die Reciprocal Teaching-Studien von Darsono 2015 sowie Qohar und Sumarmo 2013), weshalb insgesamt 53 Untersuchungen in die Forschungssynthese einflossen (Abb. 1). Aufgrund der ausgeprägten Heterogenität der Studienlage, insbesondere in Hinblick auf die Operationalisierung und Messung der abhängigen und unabhängigen Variablen (ausführlicher dazu, vgl. Vasylyeva et al. in Vorbereitung), wurde, wie geplant, keine metaanalytische Aggregierung der Wirkbefunde durchgeführt (vgl. Woerfel et al. 2020). Das Vorgehen orientierte sich an Guidelines und Lehrwerken, die für Synthesen ohne Metaanalysen vorliegen (u. a. Campbell et al. 2020; Petticrew und Roberts 2006).

3 Ergebnisse des systematischen Reviews

3.1 Empirisch überprüfte sprachsensible Ansätze

Sprachsensible Unterrichtsansätze wurden inzwischen international breit gestreut auf ihre Wirkung hin überprüft. Die 53 Interventionsstudien, die in die Forschungssynthese eingeflossen sind, wurden neben Deutschland in den USA, den Niederlanden, in Chile, Indonesien, Finnland, Spanien, Südafrika und Großbritannien durchgeführt (Tab. 1).

Tab. 1 Regionale Verteilung der Studien

Die Studien berichten quantitative Wirkbefunde zu 30 verschiedenen sprachsensiblen Unterrichtsansätzen. Diese sind in Tab. 2 dargestellt. Einige (n = 5) davon sind durch mehrere Studien überprüft, zu den meisten Ansätzen (n = 25) wurde jedoch nur eine einzelne Wirkungsstudie ermittelt. Wenn mehrere Studien einem sprachsensiblen Ansatz zugeordnet sind (Tab. 2), untersuchen diese alle dasselbe didaktische Konzept: Untersuchungen zu Reciprocal Teaching (n = 10) beziehen sich z. B. alle auf das Konzept von Palincsar und Brown (1984), und alle SIOP-Studien (n = 11) auf die Arbeiten der Forschergruppe um Echevarria (Echevarria et al. 2000). Unter den sehr heterogen konzeptualisierten Scaffolding-Ansätzen ist der didaktische Ansatz nach Gibbons (2002) der einzige, zu dem mehrere Wirkungsstudien ermittelt wurden (n = 5). Da die sprachsensiblen Unterrichtsansätze jeweils unterschiedliche Sprachkompetenzen fokussieren und fördern, sind in Tab. 2 auch die übergeordneten Sprachbereiche Lesen, Schreiben, Mündlichkeit und Wortschatz abgebildet, denen die Ansätze schwerpunktmäßig zuordnet werden können (Systematisierung der Sprachbereiche erfolgt nach Lindauer et al. 2013; Darstellung der konkret gemessenen Lern-Outcomes, die sich z. T. vom sprachlichen Fokus des Ansatzes unterscheiden können, vgl. Abschn. 3.2). Ansätze, die im didaktisch-methodischen Vorgehen mehr als einen sprachlichen Bereich berücksichtigen bzw. solche, die hier übergreifend angelegt sind, sind der Kategorie Mehrere/Übergreifend zugeordnet. Die Ansätze unterscheiden sich in Bezug auf definierte Bildungsinhalte, -ziele und Methoden (vgl. Vasylyeva et al. in Vorbereitung).

Tab. 2 Sprachsensible Ansätze nach Sprachkompetenz-Bereichen

3.2 Effekte der Ansätze und Qualität der Befunde

Nachfolgend sind die empirischen Befunde zu den sprachsensiblen Ansätzen sowie die interne und externe Validität der Studien(ergebnisse) dargestellt (ausführlichere Informationen zu den einzelnen Ansätzen, vgl. Höfler et al. in Vorbereitung; stat. Werte sind, wie in den Studien bereitgestellt, angegeben).

3.2.1 Sheltered Instruction Observation Protocol

Zum Sheltered Instruction Observation Protocol (SIOP) (Echevarria et al. 2000) wurden elf Wirkungsstudien ermittelt. Dieser ursprünglich für Zweitsprachlernende konzipierte und inzwischen in vielen U.S.-Schulbezirken implementierte Ansatz umfasst klassischerweise 30 Prinzipien zur Unterrichtsplanung und Durchführung, die das Fach- und Sprachlernen umfänglich verbinden (z. B. die Förderung der mündlichen Sprechpraxis und des akademischen Wortschatzes, vgl. Short et al. 2011, S. 364).

Quantitative Wirkbefunde

In Bezug auf sprachliche Lern-Outcomes sind am häufigsten die Effekte von SIOP auf die Leseleistung der Schülerinnen und Schüler untersucht (n = 6): Zwar belegt Skujins (2014) Wirkvorteile im Vergleich zum Kontrollunterricht (p = 0,001, η2part = 0,168); die anderen fünf der insgesamt sechs Untersuchungen zum Lesen ergeben jedoch keine Leistungsunterschiede zugunsten von SIOP (Tab. 3). In Bezug auf die Schreibleistung von Schülerinnen und Schülern zeigen dagegen drei von fünf Studien Leistungsvorteile (p = 0,001, vgl. Echevarria et al. 2006; p = 0,031; η2part = 0,117, vgl. Skujins 2014; d = 0,31, vgl. Short et al. 2012). Die Befunde zum Erwerb von mündlichen Kompetenzen durch SIOP-Unterricht finden sich in nur wenigen Studien (n = 2) und sind uneinheitlich. Effekte auf den Wortschatzerwerb wurden nicht überprüft. In Hinblick auf die Fachleistung, z. B. in Biologie oder Mathematik, belegen drei Untersuchungen bessere Lernergebnisse (Tab. 3). Die CREATE Study (Echevarria et al. 2011), die auch Erstsprachlernende einbezieht, ist dagegen eine der vier Untersuchungen, die keine fachlichen Leistungsunterschiede durch SIOP-Unterricht feststellt (hier speziell im Biologie-Inhaltsverstehen: p = 0,672, g = 0,103). Keine der Studien findet im finalen Berechnungsmodell Nachteile durch das sprachsensible ModellFootnote 3.

Tab. 3 Studien und Befunde zu Sheltered Instruction Observation Protocol (SIOP)

Bewertung der internen und externen Validität der Datenlage

Die Datenlage zu SIOP ist insgesamt wenig belastbar (Abb. 2). Nur selten werden Informationen zum Ablauf des untersuchten Unterrichts bereitgestellt (IV3), was die Einordnung der Ergebnisse erschwert, da aufgrund der allgemein formulierten SIOP-Prinzipien die getesteten Interventionen sehr heterogen gestaltet sein können. Unter den SIOP-Studien befinden sich auch alle fünf der im Gesamtsample (n = 53) identifizierten nicht-experimentellen Untersuchungen, in denen nachträglich Schulleistungsdaten ausgewertet wurden (Griese 2018; Ingram 2017; Paeplow 2011; Skujins 2014; Vidot 2011). Da bei diesen Informationen zum Unterrichtsablauf gänzlich fehlen und Design-bedingt Einschränkungen in der Gruppen-Vergleichbarkeit (IV7, IV8) bestehen, sind deren Ergebnisse zum Wirkvergleich wenig aussagekräftig, was v. a. die Befunde zur Wirkung auf fachliche Leistungen betrifft.

Abb. 2
figure 2

Interne Validität der Studien zum Sheltered Instruction Observation Protocol (SIOP). (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Die Befunde verweisen auf eine relativ hohe Ergebnisreichweite in den überprüften Populationen, Settings und Outcomes (Tab. 3). Die SIOP-Studien stammen zwar ausschließlich aus den USA, beziehen sich dort aber auf Schülerinnen und Schüler aus nahezu allen Altersgruppen der mit Deutschland vergleichbaren Primar- und Sekundarstufe, vorwiegend auf Zweit-, aber auch auf Erstsprachlernende, mit unterschiedlichen sprachlichen Leistungsniveaus und sozioökonomischen Hintergründen, aus ländlichen Gegenden (Ardisana 2007, S. 62) und Großstädten (Echevarria et al. 2011, S. 338). SIOP wurde inzwischen in vielfältigen Fächern der Natur‑, Gesellschaftswissenschaften und Technologie überprüft.

3.2.2 Reciprocal Teaching

Zu Reciprocal Teaching (RT) konnten 10 Wirkungsstudien ermittelt werden. In den Studien wird das RT-Konzept, welches als Leseförderung ursprünglich auf Palincsar und Brown (1984) zurückgeht, im Fachunterricht umgesetzt, z. B. in den Naturwissenschaften, in Sozialkunde oder Geschichte (d. h. immer auch in einem Unterricht ohne primären Fokus auf sprachliches Lernen, vgl. die Einschlusskriterien in Kap. 2). Der Ansatz umfasst didaktisch-methodische Vorgehensweisen, wie scaffolding (i. S. einer sukzessive zurückgefahrenen Unterstützung des Leseverstehens), kollaboratives Lernen, und sprachliche Modellierung, um Schülerinnen und Schüler in der zunehmend selbstregulierten Nutzung der Lesestrategien – Voraussagen zum Text treffen (predicting), Fragen stellen (questioning), Inhalte klären (clarifying) und Zusammenfassen (summarizing) – zu unterstützen. Einige Studien ergänzen die Basisstrategien durch weitere didaktische Elemente (z. B. die Untersuchung von Zubaidah et al. 2020 zu Remap RT, mit selbstständiger Literatursuche und der Erstellung von Concept Maps, S. 122–125).

Quantitative Wirkbefunde

In insgesamt sieben Studien werden Effekte von RT auf das Leseverstehen getestet (Tab. 4). Fünf davon weisen hier bessere Leistungen durch RT-Unterricht als durch den Unterricht ohne sprachsensiblen Ansatz nach, etwa die Prä-Post-Studie von Lederer (1997), die entsprechend der Klassifizierung nach Cohen (1988) mittlere bis große Wirkunterschiede berichtet (p < 0,05, Glass’s ∆: 0,53–0,83). In Bezug auf die Entwicklung von fachlichen Schulleistungen, die seltener überprüft werden (n = 4), zeigen drei Untersuchungen positive Effekte. Zubaidah et al. (2020) belegen z. B. Leistungsvorteile durch RT im Fachwissen in Biologie (p = 0,000), und Taylor und Cox (1997) im Lösen von mathematischen Textaufgaben (p < 0,001, Taylor und Cox 1997). Letzterer Befund wird aber von Collen (2011) in Frage gestellt (p = 0,469, η2part = 0,007, d = −0,17), die bei mathematischen Textaufgaben keine Kompetenzunterschiede findet. Taylor und Frye (1992) finden in Bezug auf ihren kombinierten RT-Ansatz als einzige auch schlechtere Ergebnisse im Vergleich zur Kontrollbedingung, allerdings nur in einem Teil-Indikator des Lernens (im Leseverstehen, speziell im Fragen zum Text beantworten) und nur bei einem von vier untersuchten Vergleichsgruppen-Paaren (zwei zeigen hier sogar bessere Ergebnisse durch RT, S. 45 f.).

Tab. 4 Studien und Befunde zu Reciprocal Teaching (RT)

Interne und externe Validität der Datenlage

Die Hälfte der RT-Studien zeigt ernstzunehmende Verzerrungspotenziale d. h. sechs Untersuchungen erfüllen mindestens eines der 13 Qualitätskriterien nicht. Grund dafür sind z. B. ein zu geringer Stichprobenumfang (IV12, z. B. n = 12/Vergleichsgruppe, vgl. Dandeles 1996) oder ausschließlich berichtete Querschnittdaten zur Gruppenvergleichsmessung (IV11, vgl. Dermody und Speaker 1995; King und Parent Johnson 1992). Die Studie von Taylor und Cox (1997) zeigt neben unzureichender Studienlänge und Stichprobengröße keine Verblindung (IV13), d. h. der Gruppenstatus ist bei der Lernergebnis-Bewertung bekannt. Insbesondere der Wirkbefund zur Verbesserung des biologiespezifischen Fachwissens durch Remap RT bleibt hinsichtlich seiner Aussagekraft wenig robust, da bei der einzigen Belegstudie hierzu sieben von 13 Items der Qualitätsbewertung aufgrund fehlender Informationen nicht einschätzbar sind (Abb. 3).

Abb. 3
figure 3

Interne Validität der Studien zu Reciprocal Teaching (RT). (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Die Bewertung der externen Validität zeigt eine vergleichsweise große Ergebnisreichweite der RT-Befunde, v. a. in Hinblick auf populations- und settingbezogene Aspekte. Die Effekte des Unterrichtsmodells sind für Schülerinnen und Schüler mit unterschiedlichen sozioökonomischen Hintergründen im Alter zwischen 8 und 16 Jahren untersucht, die in den USA, aber auch in Europa und Asien innerhalb eines breiten Fächerkanons unterrichtet wurden (Tab. 4).

3.2.3 Scaffolding nach Gibbons

Scaffolding nach Gibbons (2002) – der einzige sprachsensible Scaffolding-Ansatz, zu dem mehrere Interventionsstudien (n = 5) vorliegen – verbindet eine unterrichtsvorbereitende Lernbedarfs- und Lernstandsanalyse (sog. Makro-Scaffolding) mit der schrittweisen Förderung bildungs- und fachsprachlicher Register im Unterricht (sog. Mikro-Scaffolding). Vier der fünf Belegstudien kombinieren den Ansatz mit anderen fachdidaktischen Konzepten (z. B. Darstellungsvernetzung, vgl. Prediger und Neugebauer 2021), wobei sich das didaktische Vorgehen grundlegend nach Scaffolding ausrichtet.

Quantitative Wirkbefunde

Alle identifizierten Wirkungsstudien weisen im Vergleich zu Fachunterricht ohne sprachsensiblen Ansatz bessere Lern-Effekte durch die getesteten Scaffolding-Interventionen nach (Tab. 5). Agel et al. (2012) finden nach ihrer Intervention zur Erstellung von naturwissenschaftlichen Versuchsprotokollen signifikant bessere Leistungen in der Fachsprache. Die vier anderen Scaffolding-Studien zeigen alle bei fachlich schwächeren Schülerinnen und Schülern Lernvorteile im konzeptuellen Inhaltsverstehen in Mathematik zu Anteilen und Brüchen, dazu gehören die Untersuchungen von Wessel (2015; p < 0,01, η2 = 0,13), von Prediger und Wessel (2018) sowie von Schüler-Meyer et al. (2019)Footnote 4, letztere sowohl für Ein- als auch für Mehrsprachige, mit Effekten bis zu vier Monaten nach Interventionsende. Prediger und Neugebauer (2021) weisen Verbesserungen zu einem weiteren Fachthema in Mathematik nach (zu Prozentrechnung: p < 0,001, η2 = 0,011), wenngleich hier sieben Wochen nach der Intervention keine signifikanten Wirkunterschiede mehr feststellbar sind (p > 0,05, η2 = 0,003).

Tab. 5 Studien und Befunde zu Scaffolding nach Gibbons (2002)

Interne und externe Validität der Datenlage

Die Scaffolding-Studien erfüllen bis zu fünf von 13 Kriterien der internen Validität vollständig (Abb. 4). Die zwei Experimente mit stratifizierter Randomisierung (Prediger und Wessel 2018; Schüler-Meyer et al. 2019) zeigen im Vergleich die beste interne Validität (u. a. aufgrund IV7). Dagegen ist diese bei den Ergebnissen zur fachsprachlichen Leistung gering, da die Studienqualität in beinahe der Hälfte der Kriterien nicht eingeschätzt werden kann und dieser Outcome-Bereich in lediglich einer Studie gemessen wird (Agel et al. 2012). Dazu zählen die Cutoff-relevanten Items zur Implementationstreue (IV5), zur Test-Qualität (IV6) und zur Passung von diskutiertem und gemessenem Outcome (IV4).

Abb. 4
figure 4

IV Interne Validität der Studien zu Scaffolding nach Gibbons (2002, u. a.). (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Die externe Validität der Scaffolding-Befunde ist begrenzt. Auch wenn die untersuchten Populationen unterschiedliche sprachliche und sozioökonomische Hintergründe aufweisen (z. B. Ein- und Mehrsprachige mit unterschiedlichem Sprachniveau und sozioökonomischem Status untersuchen, vgl. Prediger und Wessel 2018, S. 372 f.), beziehen sich die Ergebnisse ausschließlich auf Lernende der Sekundarstufe I des deutschen Schulsystems, genauer auf die 5. und 7. Klasse. Die Befunde gelten hier ausschließlich für das Lernen im Bereich Mathematik und in den weiteren Naturwissenschaften.

3.2.4 Translanguaging

Im Review wurden drei Studien ermittelt, die Translanguaging im Fachunterricht testen. Der Unterrichtsansatz (Cummins 1979; weiterentwickelt u. a. durch García und Wei 2014) zielt explizit darauf das mehrsprachige Repertoire (z. B. Familiensprachen) aller Lernenden als Ressource beim Erwerb der Unterrichtsinhalte zu nutzen, z. B. durch Code-Switching und andere Methoden.

Quantitative Wirkbefunde

Die drei Translanguaging-Studien zeigen alle in längsschnittlichen Messungen bessere Effekte des sprachsensiblen Ansatzes im Vergleich zum Kontrollunterricht (Tab. 6). Charamba und Zano (2019) belegen dies in Bezug auf das Fachwissen in Chemie und Clark et al. (2012) in Bezug auf das Fachwissen in Biologie (p = 0,002), insbesondere für in der Zweitsprache schwächere Lernende (S. 1217). Schüler-Meyer et al. (2019) finden bessere Effekte auf das Inhaltsverstehen in Mathematik, v. a. bei Zweitsprachlernenden mit familiensprachlich hohem Kompetenzniveau (Translanguaging wird hier kombiniert mit Scaffolding nach Gibbons). Die Effekte sind bis zu vier Monate nach der Intervention noch nachweisbar (S. 329).

Tab. 6 Studien und Befunde zu Translanguaging

Interne und externe Validität der Datenlage

Alle drei Experimente gewährleisten aufgrund einer Single-Subject-Randomisierung (IV7) die Vergleichbarkeit der Untersuchungsgruppen (Abb. 5). Einschränkungen der methodischen Qualität zeigen sich aber hinsichtlich der Bereitstellung relevanter Informationen, v. a. bei Charamba und Zano (2019), bei denen keine Angaben zur Test-Güte (IV6) und zum Umgang mit fehlenden Daten vorliegen (IV10). Darüber hinaus beziehen alle Studien nur kleine Samples (IV12) in die Gruppenvergleichsanalysen ein (n < 45/Vergleichsgruppe, vgl. Schüler-Meyer et al. 2019, S. 329; n < 27/Vergleichsgruppe, vgl. Clark et al. 2012, S. 1219 f.; Charamba und Zano 2019 unterschreiten mit einem Gesamtsample von n = 30 den verwendeten Richtwert von mind. n = 20/Vergleichsgruppe, vgl. Höfler und Vasylyeva 2023).

Abb. 5
figure 5

Interne Validität der Studien zu Translanguaging. (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Die durchgehend positiven Befunde zu Translanguaging, die alle in randomized controlled trials (RCT)-Designs ermittelt wurden, sind in ihrer externen Validität eingeschränkt; sie gelten ausschließlich für den naturwissenschaftlichen Unterricht und für Lernende im Alter von 12 bis 17 Jahren, weshalb sie nicht unbegründet auf den Primarbereich übertragen werden können. Die regionale Reichweite der Befunde ist breiter, da die Studien neben Deutschland aus den USA und Südafrika stammen und dort in Schulbezirken mit unterschiedlicher sozioökonomischer Stärke Effekte belegen.

3.2.5 Collaborative Strategic Reading

Collaborative Strategic Reading (CSR) nach Klingner et al. (Klingner et al. 1998, 2001) fokussiert als Weiterentwicklung des RT-Ansatzes die Anwendung folgender Lese-Strategien beim Fachlernen: Textvorschau (preview), Umgang mit herausfordernden Textbausteinen (click and clunk), Identifikation von Kernaussagen (get the gist) sowie Zusammenfassen und Fragenstellen zum Text (wrap up) (Klingner et al. 1998, S. 19 f.).

Quantitative Wirkbefunde

Die Wirkbefunde zu CSR sind widersprüchlich (Tab. 7). Klingner et al. (1998) finden nach ihrer 11-tägigen Intervention längsschnittlich besseres Leseverstehen (p = 0,001) bei Lernenden, die sozialwissenschaftlichen Fachunterricht mit CSR erfahren haben (im entsprechenden Fachwissen zeigen sich mit der Kontrollgruppe vergleichbare Effekte). Hitchcock et al. (2011) finden dagegen auch nach einem einjährigen Interventionszeitraum keinen Leistungsunterschied im Leseverstehen durch den sprachsensiblen CSR-Unterricht (p = 0,11, g = 0,05) zwischen den untersuchten Gruppen.

Tab. 7 Studien und Befunde zu Collaborative Strategic Reading (CSR)

Interne und externe Validität der Datenlage

Während in dem Quasi-Experiment von Klingner et al. (1998) eine Vergleichbarkeit der Rahmenbedingungen von CSR- und Kontroll-Intervention gewährleistet (IV8) und die Implementationstreue (IV5) beider Gruppen sichergestellt wird (S. 7), umfasst jenes von Hitchcock et al. (2011), das keine signifikanten Effekte findet, zwar eine große Stichprobe in der finalen Analyse (siehe IV12, mit IG: n = 606; KG: n = 597, gesamt: 74 Klassen, S. 21 ff.), es werden aber z. T. deutliche Einschränkungen in der Implementationstreue (IV5) des CSR-Unterrichts berichtet (S. 40) und Informationen zur Interventionsintensität und zum konkreten Ablauf (IV3) fehlen (Abb. 6).

Abb. 6
figure 6

Interne Validität der Studien zu Collaborative Strategic Reading (CSR). (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Die CSR-Befunde beziehen sich ausschließlich auf die Altersgruppe von 9‑ bis 11-jährigen Schülerinnen und Schülern in den USA, die in sozialwissenschaftlichen Fachgebieten lernen (Tab. 7). Auch wenn die Studien in vielen verschiedenen, sozial diversen Unterrichtskontexten und -klassen durchgeführt wurden (Hitchcock et al. 2011, S. 19; Klingner et al. 1998, S. 3), ist die externe Validität der Ergebnisse v. a. in Hinblick auf Populationen und Lern-Outcomes eingeschränkt.

3.2.6 Weitere sprachsensible Ansätze

Das systematische Review hat 25 weitere sprachsensible Ansätze identifiziert, deren Wirkung empirisch überprüft ist (Tab. 8). Da zu diesen aber jeweils nur eine einzelne Belegstudie ermittelt wurde, ist die empirische Datenlage dazu marginal.

Tab. 8 Studien und Befunde zu Ansätzen mit je nur einer Belegstudie

Quantitative Wirkbefunde

In Tab. 8 sind die Wirkbefunde zu diesen Ansätzen dargestellt. Keiner der sprachsensiblen Ansätze zeigt eine schlechtere Wirkung als der Kontrollunterricht. Unter den 10 Ansätzen mit dem Fokus auf Lesen, zu denen jeweils nur eine Belegstudie vorliegt, sind bis auf zwei Modelle (metakognitives Lese-Scaffolding und naturwissenschafts-/technikintegrierte Leseförderung) bei allen Ansätzen bessere Effekte auf einzelne Lernleistungen belegt. Mittlere bis große Effekte wurden z. B. bei einer digitalen Leseförderung von Online-Textressourcen festgestellt (Online-Leseverstehen: p < 0,000, d = 1,58, vgl. Castek 2008) sowie bei Lesen nach Wechselseitigem Lehren und Lernen (WELL) (Biologie-Fachleistung: p < 0,05, η2 = 0,035–0,113, vgl. Huber 2007).

Von den insgesamt nur zwei im Review identifizierten sprachsensiblen Ansätzen, die das Schreiben ins Zentrum stellen, zeigt etwa der Mathematics Reasoning Heuristic (MRH)-Ansatz, der Schreibstrategien als Reflexionsmittel für mathematische Problemlösungen einsetzt (Akkus 2007, S. x, xii), z. T. deutliche Vorteile in den getesteten Gruppenvergleichen (Mathematik-Fachleistung: p < 0,05, d = 0,450–0,916).

Von den insgesamt fünf überprüften sprachsensiblen Ansätzen, die mündliche Aktivitäten ins Zentrum des Fachunterrichts stellen, wurden bei drei Modellen Wirkvorteile nachgewiesen, wie bei der dialogischen Diskursförderung im naturwissenschaftlichen Unterricht von Larrain et al. (2017, S. 13), speziell bei den schriftsprachliche Argumentationsfertigkeiten (p = 0,003, η2 = 0,12; naturwissenschaftliches Fachwissen: p = 0,022, η2 = 0,043).

Alle identifizierten Fördermodelle mit dem Schwerpunkt der Wortschatzarbeit (n = 4) zeigen in Längsschnittmessungen bessere (Teil‑)Ergebnisse als der Kontrollunterricht, darunter eine deutliche Verbesserung des Fach- und Bildungswortschatzes der Schülerinnen und Schüler (u. a. das strategiebasierte Wortschatztraining: p < 0,03, d = 1,59, vgl. Booth 2014; oder Fachunterricht mit begriffsveranschaulichenden Objektboxen: d = 1,83, vgl. Rule und Barrera 2008).

Die Primärstudien zu Unterrichtsansätzen, die mehrere sprachliche Kompetenzbereiche fokussieren, weisen ebenfalls auf bestimmte Leistungsvorteile hin. So sind etwa für die Mathematik-Förderung des multiplikativen Denkens (p < 0,001, d = 1,01, vgl. Götze und Baiker 2021) sowie für das Literacy Design Collaborative (LDC) (Lesen: p = 0,05, Modell Koeffizient = 0,058, vgl. Herman et al. 2015) bessere Effekte nachgewiesen.

Interne und externe Validität der Datenlage

Bei den Ansätzen, zu denen jeweils nur eine Belegstudie vorliegt, ist die Belastbarkeit der Wirkbefunde grundsätzlich (noch) gering. Alle Studien zeigen darüber hinaus unterschiedlich stark ausgeprägte methodische Verzerrungsquellen. Bis auf drei Untersuchungen berichten die Studien zu den lesefokussierten Ansätzen z. B. ausschließlich Ergebnisse aus querschnittlichen Gruppenvergleichsmessungen und erfüllen damit das Kriterium der adäquaten Studienlänge (IV11) nicht (Abb. 7). Die beiden Wirkungsstudien zu den schreibfokussierten Ansätzen erfüllen jeweils nur eines bis zwei der insgesamt 13 internen Validitätskriterien vollständig (Abb. 8). Von den Untersuchungen, die sprachsensible Ansätze mit Fokus auf mündliche Aktivitäten überprüfen, belegt die Studie zur verbalen Unterstützung der Schülerinnen und Schüler von van der Graaf et al. (2019) als einzige die Umsetzungstreue (IV5) in allen Vergleichsgruppen (Abb. 9), auch wenn hier u. a. die Qualität der Outcome-Messung Einschränkungen zeigt (z. B. die Reliabilität des Wortschatztests: α = 0,63–0,67, S. 1126). Die Untersuchungen zu den wortschatzbezogenen Ansätzen fallen allesamt durch sehr kleine Samples (IV12) auf (Abb. 10). Bei den restlichen Unterrichtsmodellen finden sich ebenfalls methodische Einschränkungen in den zugehörigen Wirkungsstudien (Abb. 11). Zum Beispiel werden die Effekte zur Förderung des multiplikativen Denkens (Götze und Baiker 2021) ohne Prä-Testung im Post-Follow-Up-Design ermittelt (IV11), und die LDC-Studie erfasst eine der überprüften Lernleistung (Schreiben) mit dem hier eingesetzten Test nur ausschnitthaft (IV4, vgl. Herman et al. 2015, S. 36).

Abb. 7
figure 7

Interne Validität der Studien zu Lese-Ansätzen mit je nur einer Belegstudie. (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Abb. 8
figure 8

Interne Validität der Studien zu Schreib-Ansätzen mit je nur einer Belegstudie. (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Abb. 9
figure 9

Interne Validität der Studien zu Ansätzen der Mündlichkeit mit je nur einer Belegstudie. (IV = Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Abb. 10
figure 10

Interne Validität der Studien zu Wortschatz-Ansätzen mit je nur einer Belegstudie. (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Abb. 11
figure 11

Interne Validität der Studien zu Ansätzen mit mehreren Sprachschwerpunkten und je nur einer Belegstudie. (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Die Ergebnisreichweite zu diesen Ansätzen ist grundsätzlich auf die Reichweite der jeweiligen Belegstudie begrenzt. Bei Programmen mit dem Ziel der Leseförderung hat die Untersuchung zur Online-Förderung des Leseverstehens von Internet-Ressourcen (Castek 2008) eine erhöhte externe Validität, da hier Leistungsdaten aus unterschiedlichen Fächern einbezogen werden (Tab. 8). Dasselbe trifft auf Untersuchungen zu, die mehrere Outcomes überprüfen (z. B. zur wissenschafts- und technikintegrierten Leseförderung, vgl. van Keulen und Boendermaker 2020). Der regionale Gültigkeitsbereich der Befunde zu den beiden schreibfokussierten Unterrichtsmodellen bezieht sich hier jeweils auf vornehmlich sozioökonomisch schwächere Gebiete in den USA (Akkus 2007, S. 121; Shi et al. 2019, S. 130) und ausschließlich auf die mit Deutschland vergleichbare Sekundarstufe I. Alle empirischen Befunde zu Ansätzen mit Schwerpunkt Wortschatz oder Mündlichkeit gelten ausschließlich für Lernen im naturwissenschaftlichen Regelunterricht (die externe Validität ist besonders gering in den Experimenten, vgl. Booth 2014 oder Härtig und Stosik 2015; Tab. 8). Eine Generalisierung der Befunde auf andere, als in den Studien erfassten Populationen, Settings und Lern-Outcomes (Tab. 8) ist nur in begründeten Fällen möglich.

4 Diskussion der Ergebnisse

4.1 Zentrale Erkenntnisse des Reviews

Das hier berichtete systematische Review mit narrativer Synthese (Synthese ohne Metaanalyse) hat die Evidenz zur Wirkung von sprachsensiblem Fachunterricht erstmals international und die didaktisch-methodischen Ansätze übergreifend ausgewertet. Es wurden Ergebnisse aus 53 Interventionsstudien einbezogen, die Befunde zur Wirkung von 30 verschiedenen sprachsensiblen Unterrichtsansätzen liefern. Die getesteten Ansätze sind vielfältig in den fokussierten Inhalten, Methoden und im Umfang der sprachsensiblen Unterrichtsgestaltung.

Aus der Synthese der empirischen Primärstudien geht hervor, dass sprachsensibler Fachunterricht den schulischen Erfolg bei Schülerinnen und Schülern des Primar- und Sekundarbereichs grundsätzlich besser unterstützen kann als Fachunterricht ohne sprachsensible Ausrichtung. Die meisten Studien (n = 38) zeigen in den finalen Analysen in mindestens einem der untersuchten Lern-Outcomes einen signifikant besseren Effekt zugunsten der untersuchten sprachsensiblen Intervention (z. B. Agel et al. 2012; Dermody und Speaker 1995; Götze und Baiker 2021). 15 von 53 Studien weisen vergleichbare Effekte zum Unterricht ohne sprachsensiblen Ansatz nach (z. B. Echevarria et al. 2011; McIntyre et al. 2010; van Keulen und Boendermaker 2020). Lediglich die Reciprocal Teaching-Studie von Taylor und Frye (1992) zeigt in der finalen Analyse bei einem von vier Gruppenvergleichen eine geringere Wirkung des sprachsensiblen Modells (zwei der Gruppen zeigen sogar bessere Effekte, S. 45 f.). Die Datenlage zu den einzelnen Ansätzen ist jedoch sehr unterschiedlich, insbesondere was die Belastbarkeit der Befunde angeht. Zu Reciprocal Teaching (RT), Collaborative Strategic Reading, (CSR), Sheltered Instruction Observation Protocol (SIOP), Scaffolding nach Gibbons und Translanguaging konnten jeweils mehrere Interventionsstudien identifiziert werden. In der systematischen Bewertung der Evidenz zeigen einige dieser Ansätze aufgrund relativ konsistenter Ergebnisse bei bestimmten Lern-Outcomes vergleichsweise gut belegte Effekte: So wurden für Reciprocal Teaching (RT) in fünf von sieben Untersuchungen zum Lesen bessere Effekte auf das Leseverstehen von Schülerinnen und Schülern im sozial- und im naturwissenschaftlichen Unterricht nachgewiesen. Bei Translanguaging zeigen sich in allen drei der hierzu vorliegenden Wirkungsstudien bessere Effekte im naturwissenschaftlichen Fachwissen bzw. Inhaltsverstehen. Auch in Bezug auf Scaffolding nach Gibbons (2002) sieht die Datenlage auf den ersten Blick einheitlich aus. Alle fünf der hierzu gefundenen Studien (die ausschließlich in Deutschland durchgeführt wurden) weisen bessere schulische Leistungen durch den sprachsensiblen Ansatz nach, davon vier im Verstehen mathematischer Fachinhalte (eine weitere in der naturwissenschaftlichen Fachsprache, Abschn. 3.2). Einschränkungen in der internen Validität der Studien oder in der Vergleichbarkeit der durchgeführten Interventionen können aber diese Befunde zumindest teilweise relativieren. Die Studien zu Scaffolding nach Gibbons (2002) integrieren z. B. trotz der vergleichsweise guten Studienqualität in Hinblick auf längsschnittlich durchgeführten experimentellen und quasi-experimentellen Untersuchungen mit (zumindest z. T.) wünschenswerten drei Messzeitpunkten und ausreichend großen Stichproben (vgl. Prediger und Wessel 2018) auch andere sprachsensible (Teil‑)Konzepte (Abschn. 3.2) und aus der Datenlage ist nicht trennscharf nachvollziehbar, welches Gewicht speziell dem Scaffolding-Anteil an den besseren Lernergebnissen zukommt. Insbesondere in Bezug auf das in den USA verbreitete SIOP-Modell, zu dem die meisten Wirkungsstudien vorliegen (n = 11), sind die Befunde kaum belastbar. Trotz der sich andeutenden Vorteile im Schreiben und der fehlenden Effekte auf die Leseleistung (Kap. 3) ist die Datenlage hier aufgrund der häufig (n = 5) angewendeten nicht-experimentellen Studiendesigns und Querschnittanalysen (n = 4) bislang noch wenig aussagekräftig, was sich auch in den inkonsistenten Befunden spiegelt.

Zu den sprachsensiblen Ansätzen (n = 25), zu denen jeweils nur eine einzelne Wirkungsstudie mit inferenzstatistischer Gruppenvergleichsmessung identifiziert werden konnte, werden häufig positive Effekte auf Teil-Indikatoren des Lernens berichtet. Demnach unterstützt die Förderung von Online-Lesestrategien von Castek (2008) das Erfassen von Informationen aus Internettexten, der schreibfokussierte MRH-Ansatz die Mathematikleistung (Akkus 2007); das mündlich-diskursive Thinking Together Leistungen im Fachwissen (Mercer et al. 2004; Mercer und Sams 2006) oder das semantische Scaffolding den Erwerb von fachlich relevantem Wortwissen (Best et al. 2006). Da die Aussagekraft von empirischen Befunden aus einzelnen Interventionsstudien aber grundsätzlich begrenzt ist (u. a. aufgrund möglicher nicht berichteter Verzerrungspotenziale, vgl. Bewertungskategorie „unklar“ in Abb. 7, 8, 9, 10 und 11), bedürfen diese empirischen Befunde in besonderem Maße weiterer Überprüfung (dasselbe trifft prinzipiell auch auf alle Ergebnisse aus Querschnittanalysen zu).

Grundsätzlich können die Wirkbefunde immer nur zusammen mit der Bewertung der internen (und externen) Validität der Studien richtig interpretiert werden. Die Darstellung der methodischen Verzerrungspotenziale (Abschn. 3.2) macht die Studienqualität transparent und die Belastbarkeit der Befunde einschätzbar. Jedoch zeigen alle Studien Einschränkungen in der internen Validität (Abschn. 3.2) – v. a. in der Berichtsqualität und durch fehlende Nachweise der Implementationstreue des untersuchten Unterrichts (vgl. Höfler und Vasylyeva 2023; zur ausführlichen Diskussion der Qualitätsbewertung der ermittelten Wirkungsstudien insgesamt sowie zu daraus resultierenden Forschungsimplikationen, vgl. Vasylyeva et al. in Vorbereitung). Trotz der zahlreichen Qualitätseinschränkungen können die empirischen Befunde trotzdem Hinweise auf Wirkeffekte sprachsensibler Ansätze liefern. Die Ergebnisse des Reviews zeigen z. B. deutlich, dass sprachsensibler Fachunterricht letztlich über die Förderung von Sprachkompetenzen in allen sprachlichen Bereichen – egal ob im Lesen, Schreiben, in der Mündlichkeit oder im Wortschatz – schulische Leistungen verbessern kann.

Die Ergebnisse aus der Qualitätsbewertung der ermittelten Interventionsstudien haben auch Implikationen für die weitere Wirkungsforschung im Bereich des sprachsensiblen Unterrichts. Dazu gehören z. B. die Notwendigkeit der Einschätzung der Implementationstreue in allen Vergleichsgruppen, aber auch die Anwendung von Prä-Post-Follow-up-Designs, um längerfristige Lern-Effekte zu messen (ausführlicher zu den resultierenden Implikationen für die Primärforschung, vgl. Vasylyeva et al. in Vorbereitung).

4.2 Limitationen

Da Studien mit statistisch signifikanten Resultaten mit höherer Wahrscheinlichkeit konventionell publiziert werden als Studien, die keine signifikant positiven Effekte der Intervention nachweisen, sind systematische Reviews zu Interventionsstudien grundsätzlich mit dem Risiko verbunden, die Wirkung von Interventionen zu überschätzen (Petticrew und Roberts 2006, S. 233 f.). Die vorliegende Übersichtsstudie hat, u. a. über die Datenbankabfrage in Open Grey, die Expert:innen-Abfrage und den Call for Preprints (Kap. 2), gezielt nach grauer Literatur gesucht (d. h. nach nicht oder nicht konventionell veröffentlichen Forschungsergebnissen), um diesem Publikationsbias entgegenzuwirken.

Es ist davon auszugehen, dass über die Suchsyntax des Reviews nicht alle Studien identifiziert werden konnten (in der Tat wurde eine Untersuchung von Prediger und Wessel 2013 nicht über die Suchstrategie ermittelt). Eine Herausforderung bestand darin, sprachsensible Interventionen begrifflich zu operationalisieren, da entsprechende Konzepte und Termini nicht disziplinübergreifend einheitlich verwendet werden und Datenbanken keine einheitlich kontrollierten Vokabularien zur Verfügung stellen. Um begriffsinduzierte Verzerrungen zu reduzieren, wurde die Suchbegriffsentwicklung aber durch ein Text-Mining-Verfahren unterstützt (Twente und Woerfel 2020) und die Begriffe in der Suchsyntax so kombiniert, dass nicht nur Studien zu bekannten, sondern auch zu unbekannten sprachsensiblen Ansätzen gefunden werden konnten (z. B. über die Kombination von Begriffen des Fach- und Sprachlernens).

Neben der Auswahl der Datenbanken kann auch der ausschließliche Einbezug von englisch- und deutschsprachigen Dokumenten die Identifikation von Studien und damit verbunden die regionale Verteilung der ermittelten Untersuchungen beeinflusst haben, die sich besonders auf die USA und Deutschland (bzw. USA und Europa) konzentriert (Abschn. 3.1). Die ermittelten Studien bilden aber auch existierende Forschungsschwerpunkte in den Regionen ab, z. B. wurden ausschließlich SIOP-Studien aus den USA identifiziert, wo das Modell entwickelt wurde. Es konnten keine Interventionsstudien (mit inferenzstatistischem Gruppenvergleich) aus der Schweiz, aus Kanada oder – mit Ausnahme von Südafrika – aus den englischsprachigen Ländern der südlichen Hemisphäre identifiziert werden. In Bezug auf letztere ist denkbar, dass aufgrund der Forschungstraditionen dort andere (verwandte) Programme im Fokus stehen (in Kanada z. B. CLIL und CBI, die nicht Gegenstand des Reviews sind, vgl. Kap. 2).

Eine weitere Limitierung ist durch das angewendete Single-Coding (Kap. 2) im Screening, in der Datenextraktion und Qualitätsbewertung der Studien zu sehen, auch wenn die Gewährleistung eines einheitlichen Vorgehens der beteiligten Wissenschaftler:innen durch die IRR-Testungen, durch Trainings sowie durch fortlaufende Kolloquien und Kontrollmechanismen unterstützt wurde.

Da passend zur Untersuchungsfrage nur inferenzstatistische Wirkvergleiche zwischen sprachsensiblen Ansätzen und nicht gezielt sprachsensibel gestaltetem Fachunterricht einbezogen wurden und keine Erkenntnisse aus qualitativen Analysen, kann die Übersichtsstudie keine Aussagen zu zugrundeliegenden Prozessen des Sprach- und Fachlernens treffen, die im Rahmen sprachsensibler Unterrichtsmodelle stattfinden und Wirkeffekte empirisch erklären.

Da das Review im Sinne der angestrebten Best Evidence Synthesis (vgl. Slavin 1995) die gesamte verfügbare Evidenz zur Wirkung sprachsensibler Unterrichtsansätze ausgewertet hat, ohne Beschränkung auf RCT-Designs, ist insbesondere die Aussagekraft der Ergebnisse aus den nicht-experimentellen Studien wegen fehlender statistischer Kontrollmöglichkeiten begrenzt (siehe die Ergebnisse zum SIOP-Ansatz, Abschn. 3.2). Entsprechende Verzerrungspotenziale wurden im Rahmen der methodischen Qualitätsbewertung der Studien aber transparent gemacht (zu Limitationen der angewendeten Bewertungskriterien, vgl. Höfler und Vasylyeva 2023).

4.3 Fazit und Ausblick auf den Ergebnistransfer

Trotz der Limitationen zeigt das systematische Review einen Überblick über international vorliegende empirische Befunde zu einer Vielzahl an weltweit existierenden sprachsensiblen Ansätzen und die Evidenzbewertung und -synthese liefert begründete Hinweise auf die Wirkungen dieser Unterrichtsformen. Die gewonnenen Erkenntnisse bieten eine (Wissens‑)Grundlage für die Gestaltung einer evidenzorientierten Bildungspraxis. So geht etwa aus den ermittelten Studien hervor, dass sich kurz angelegte Lehrkräfte-Trainings (z. B. 2 Tage SIOP-Training) nicht nachweisbar auf Lernleistungen auswirken (vgl. Echevarria et al. 2011, S. 347 f.), was Implikationen für die Ausbildung von Lehrkräften hat. Daneben weisen Ergebnisse von Takala (2006), Adamson et al. (2014) sowie Klingner et al. (1998) darauf hin, dass eine sehr kurze Interventionsdauer sprachsensibler Maßnahmen keine besseren schulischen Leistungen hervorbringt. Um jedoch konkrete, praxisrelevante Empfehlungen aus den Ergebnissen abzuleiten, ist ein ko-konstruktives Vorgehen nötig, dass Beteiligte aus allen Referenzsystemen des Bildungsbereichs integriert, d. h. neben Bildungswissenschaft und -praxis auch aus Bildungsadministration und -politik. In diesem Verständnis und mit Blick auf die relevanten Teilbereiche eines Transfers – Dissemination, Professionalisierung und Implementation (vgl. Becker-Mrotzek et al. 2019, S. 336) – sollte den Bildungsinstitutionen sowie der Bildungsverwaltung beim Transfer der Ergebnisse dann auch nicht nur eine „umsetzende Rolle“ (Gräsel 2010, S. 15) zukommen. Entscheidend für den Erfolg ist letztlich das ko-konstruktive Handeln der beteiligten Gruppen und dass diese ihre jeweiligen Perspektiven bzw. Systemlogiken sinnvoll einbringen (Woerfel et al. 2021; Meyer-Siever et al. 2019, S. 215). Zu den konkreten Aufgaben für die Gestaltung einer evidenzorientierten Bildungspraxis, die auf Erkenntnisse des vorliegenden Reviews rekurrieren kann (die Aufgaben sind durch die verschiedenen o. a. Akteursgruppen zu bewältigen), zählen künftig insbesondere:

  • die Definition von Benchmarks, die festlegen, ab welcher Robustheit bzw. welchem Evidenzlevel die empirischen Befunde zur Wirkung sprachsensibler Ansätze für den Transfer herangezogen werden,

  • die Explorationen der Übertragbarkeit der Erkenntnisse aus anderen Ländern, z. B. auf den deutschsprachigen Raum sowie

  • eine Bestandsaufnahme der bisherigen Professionalisierungs- und Unterrichtsmaßnahmen in den Ländern, um festzustellen, wo bestehende Fortbildungen und Unterrichtspraktiken verändert werden können/müssen und wo es sinnvoll ist, Modellprojekte zu sprachsensiblem Unterricht zu implementieren.