1 Einleitung

Um Forschungsfragen zu beantworten, die eine umfassende Einschätzung der empirischen Datenlage voraussetzen, eignet sich die Methode des systematischen Reviews (auch SR). Diese ermittelt und bewertet die wissenschaftliche Evidenz in einem transparenten, mehrschrittigen Prozess nach vordefinierten Kriterien und kann so Verzerrungen minimieren (Newman und Gough 2020, S. 6). Das hierbei angewendete systematische Vorgehen in der Erstellung von Evidenzsynthesen, die bei SR-Studien entweder in Form einer narrativen Auswertung oder durch statistische Metaanalysen bei ausreichend homogenen Untersuchungsdesigns und -konzepten erfolgen kann (Newman und Gough 2020, S. 5), macht solche Literaturübersichten reproduzierbar und aktualisierbar (s. Living Reviews in Cochrane 2019).

Um mit systematischen Übersichtsstudien nicht nur Forschungsergebnisse umfänglich zusammenzufassen, sondern auch datengestützte Empfehlungen für die Praxis und die Politik abzuleiten (zur Diskussion vgl. Zawacki-Richter 2020, S. vi), wurden seit den 90er-Jahren international agierende Organisationen etabliert, z. B. das Cochrane- und das EPPI-Centre, die Campbell Collaboration und What Works Clearinghouse [WWC], die Review-Standards in verschiedenen Fachdisziplinen setzen und die Erstellung entsprechender Forschungsarbeiten unterstützen. Die SR-Methodik, die ursprünglich aus der Medizin stammt und sich heute zur Bewertung medizinischer Maßnahmen fest etabliert hat, wird inzwischen in vielen Fachbereichen angewendet. Dazu gehören auch die Bildungswissenschaften, wenngleich es hier noch keine lange Forschungstradition in diesem Feld gibt (Wilmers et al. 2020, S. 16). In der deutschen Bildungsforschung kommen systematische Reviews erst in den letzten Jahren stärker zum Einsatz, z. B. zu Querschnittsthemen wie der Digitalisierung (Bedenlier et al. 2020; Koschorreck und Gundermann 2020) und der Sprachförderung (Zimmer et al. 2020; Höfler et al. in Vorbereitung). Systematische Reviews sind in der Bildungsforschung aber hochrelevant, insbesondere um die Evidenz zur Wirkung pädagogischer Maßnahmen zu generieren und diese „in datengestützte Entwicklungskreisläufe der Unterrichts‑, Schul- und Bildungsqualität ein[zu]speisen“ (Pant 2014, S. 80).

Wie belastbar die empirischen Daten sind, hängt immer zentral von der Qualität der im Forschungskontext vorliegenden Untersuchungen ab. Die Qualitätsbewertung ist daher ein entscheidender Schritt im Review-Prozess (s. „critical appraisal“, Petticrew und Roberts 2006, S. 125), der dazu dient, die Güte der Schlussfolgerungen von Studien einzuschätzen (Döring und Bortz 2016, S. 42). Dabei wird vorrangig die interne Validität überprüft. Diese wird definiert als „extent to which a study is free from the main methodological biases“ (Petticrew und Roberts 2006, S. 127). Die interne Validität gibt folglich Auskunft darüber, wie zweifelsfrei der vermutete Kausaleinfluss von unabhängigen auf abhängige Variablen für die interessierenden Effekte belegt werden kann. Dementsprechend ist sie vor allem von der Qualität des Untersuchungsdesigns und dessen Umsetzung abhängig (Döring und Bortz 2016, S. 97). Hier können unterschiedliche Verzerrungsquellen eine Rolle spielen, z. B. eine nicht-repräsentative Zusammensetzung der Stichprobe oder ein inadäquater Umgang mit fehlenden Daten (Petticrew und Roberts 2006, S. 127). Darüber hinaus werden in die Studienbewertung oft auch verwandte methodische Qualitätsaspekte einbezogen, wie die transparente Berichterstattung zur Studie (z. B. zur Zusammensetzung der Stichprobe oder zum Ablauf der Intervention), aber auch die externe Validität, die Aussagen über die Generalisierbarkeit der Studienergebnisse trifft (Petticrew und Roberts 2006).

Angesichts der Vielfalt an Forschungsfeldern, Review-Formaten und organisatorischen Bedarfen stehen Wissenschaftlerinnen und Wissenschaftler häufig vor der Herausforderung, die Qualitätsbewertung passend zum eigenen Vorhaben selbst zu konzipieren. Review-Manuale und -Handreichungen geben hierzu bislang nur allgemeine Hinweise, z. B. zum Ziel und Nutzen dieses Arbeitsschrittes oder zu möglichen Kriterien (z. B. Newman und Gough 2020, S. 12 f.; Liabo et al. 2017, S. 251 ff.; Centre for Reviews and Dissemination [CRD] 2008, S. 33 ff.; Petticrew und Roberts 2006, S. 131 ff.). Der Prozess der eigenständigen Konzeptionierung des Bewertungsverfahrens, mit allen hierfür relevanten Teilschritten, wird dort, wenn überhaupt, nur ausschnitthaft beleuchtet. Darüber hinaus erfordert die Bewertung von Bildungsmaßnahmen ein besonderes Konzept der Evidenz, das sich von der Evidenzbasierung und -hierarchie in anderen Bereichen absetzt, z. B. von dem der Medizin, auf die sich viele Handreichungen zur Durchführung von Reviews beziehen. Während hier die häufig im Labor stattfindende Wirkungsprüfung medizinischer Maßnahmen durch randomisierte Kontrollstudien (RCT) oder durch die Aggregation dieser Studien in Metaanalysen die hierarchiehöchste Evidenzstufe darstellt, integriert die Bildungsforschung häufiger die Messung von Interventionseffekten unter Realbedingungen, z. B. in Unterrichtssituationen (Pant 2014, S. 81), die auch in SR-Studien mit einer narrativen Synthese aggregiert werden können – unter Berücksichtigung der Komplexität der Forschungsgegenstände (Petticrew und Roberts 2006, S. 19). Dies stellt jedoch eigene Ansprüche an Bewertungskriterien, die angesichts der Diversität möglicher Studiendesigns und der Vielzahl methodischer Verzerrungsquellen passgenau und vorausschauend mit Blick auf den Untersuchungskontext definiert werden müssen.

Der vorliegende Beitrag zielt darauf ab, Wissenschaftlerinnen und Wissenschaftler in der eigenständigen Konzeptionierung der Studienbewertung im Rahmen eines systematischen Reviews zu unterstützen. Im Fokus steht dabei die Beurteilung der internen Validität von Interventionsstudien. Auch wenn andere Studiendesigns ebenfalls wichtige Erkenntnisse zur Wirkung von Bildungsmaßnahmen generieren können – z. B. qualitative Designs, die Prozessabläufe und subjektive Zugänge im Lehr-Lern-Geschehen erklären – ermöglichen quantitative Interventionsstudien die statistische Überprüfung von kausalen Maßnahme-Effekten und spielen damit eine tragende Rolle in der pädagogischen Wirkungsforschung. Nach einer Verortung der Studienbewertung im Review-Prozess (Kap. 2) werden die hierfür relevanten Planungsschritte zur Konzeptionierung der methodischen Qualitätsbewertung zusammengefasst und erläutert (Kap. 3), die aus einer freien Recherche in theoretisch-konzeptionellen Arbeiten und Kriterien-Checklisten zur Qualitätsevaluation hervorgehen. Anschließend wird die Umsetzung der aufgezeigten Schritte zur Entwicklung des Bewertungsverfahrens an einem aktuellen, im Jahr 2022 abgeschlossenen systematischen Review-Projekt zur Wirkung sprachsensibler Unterrichtsansätze beispielhaft illustriert (Kap. 4). Im Zuge dessen wird auch erstmals das dort entwickelte Kriterienraster zur Einschätzung der internen Validität von pädagogischen Interventionsstudien umfänglich vorgestellt und diskutiert, das als Ergebnis des Konzeptionierungsprozesses entstanden ist und als Orientierung für die Studienbewertung anderer systematischer Reviews der Bildungsforschung dienen kann.

2 Verortung der Qualitätsbewertung im Review-Prozess

Die Durchführung einer systematischen Literaturübersicht, die immer die Definition einer Forschungsfrage und dazu passender Einschlusskriterien für Studien voraussetzt, erfolgt i. d. R. über folgende vier zentrale Teilschritte (Petticrew und Roberts 2006, S. 27; zu Variationen s. Newman und Gough 2020, S. 15):

  1. 1.

    Systematische Literatursuche,

  2. 2.

    Kriteriengeleitetes Screening zur Identifikation relevanter Studien,

  3. 3.

    Kriteriengeleitete Bewertung der Studienqualität,

  4. 4.

    Forschungssynthese.

Soll etwa im Rahmen eines Reviews der Bildungsforschung die Evidenz zur Wirkung von pädagogischen Maßnahmen eingeschätzt werden, z. B. zu Maßnahmen der Schulentwicklung oder zu bestimmten didaktisch-methodischen Lehr-Lern-Modellen, dann werden zunächst Interventionsstudien über einen weitläufigen, systematischen Suchprozess ermittelt, die hierzu Erkenntnisse liefern (s. Schritt 1). Auf Basis einer entwickelten Suchstrategie werden z. B. in internationalen elektronischen Datenbanken, Fachzeitschriften, Bibliografien und in unveröffentlichten Berichten (sog. graue Literatur) Quellen identifiziert, die eine Nähe zum Untersuchungsthema zeigen. Die Literatur wird dann entlang der definierten Einschlusskriterien gescreent (s. Schritt 2) – i. d. R. beginnend mit einer Titel‑/Abstract-Überprüfung und im zweiten Durchlauf über die Volltextanalyse der verbleibenden Dokumente – um relevante Untersuchungen zu identifizieren. Werden dabei Studien gefunden, die alle Einschlusskriterien erfüllen, werden diese vorläufig in das Review integriert. Hier beginnt die Durchführung der Qualitätsbewertung (s. Schritt 3). Bei der Überprüfung der methodischen Qualität der ermittelten Studien geht es nicht darum, jede kleinste methodische Schwäche zu identifizieren, sondern anhand festgelegter Bewertungskriterien zu entscheiden, ob Untersuchungen so gravierende methodische Mängel zeigen, dass diese das Studienergebnis zwangsläufig verzerren (Petticrew und Roberts 2006, S. 127 f.) und aus der Forschungssynthese ausgeschlossen werden müssen. In diesem Sinne dient die Qualitätsbewertung als Gatekeeper in der Aggregation von empirischem Forschungswissen. Zum anderen werden die methodischen Stärken und Schwächen derjenigen Untersuchungen transparent gemacht, die als ausreichend intern valide beurteilt wurden, um einen Erkenntniswert für die Forschungsfrage zu liefern. Die Qualitätsurteile fließen dann in die Ergebnissynthese ein (s. Schritt 4) und geben Hinweise auf evidenzbasierte Maßnahmen, aber auch auf methodische Entwicklungspotenziale für die weitere Forschung im jeweiligen Feld.

3 Schritte in der Konzeption der Studienbewertung

Wenn die Studienbewertung für eine Übersichtsstudie selbst konzipiert und durchgeführt werden soll, müssen sich Wissenschaftlerinnen und Wissenschaftler ihre eigenen Urteile über die Qualität der im Review zusammengetragenen Untersuchungen bilden. Angesichts der Komplexität dieser Aufgabe, der widersprüchlichen Ansichten über die Bewertung verschiedener Forschungsmethoden und der Vielfalt an möglichen Bewertungskriterien, sind hierzu gründliche Planungen und Richtungsentscheide notwendig (Newman und Gough 2020, S. 13). Nachfolgend sind Handlungsschritte zusammengefasst und erläutert, die für die eigenständige Konzeptionierung des Bewertungsverfahrens in Reviews der Bildungsforschung relevant sind und berücksichtigt werden müssen, wenn dort die methodische Qualität von Studien eingeschätzt werden soll.

3.1 Auswahl relevanter Bewertungskriterien

Im Forschungskontext liegt eine Vielzahl an veröffentlichten Kriterien-Sets vor, die für die Bewertung der internen Validität potenziell relevant sind. Da die Bewertung immer von den kontextuellen, methodologischen und pragmatischen Gesichtspunkten einer Übersichtsstudie abhängt, ist kein Kriterien-Set für alle systematischen Reviews geeignet (CRD 2008, S. 33). Um relevante Kriterien für das eigene Review-Projekt zu identifizieren, muss im ersten Schritt erwogen werden, welche Studiendesigns bewertet werden sollen, um anschließend relevante Qualitätsaspekte dafür festzulegen. Die im Forschungskontext verbreitete und kritisch diskutierte „Hierarchy of Evidence“ (s. u. a. Petticrew und Roberts 2006, S. 57 ff.), die bezogen auf quantitative Primärstudien randomisierte Kontrollstudien (RCTs) an die Spitze der internen Validitätspyramide stellt, gefolgt von Quasi-Experimenten und nicht-experimentellen Studien, eignet sich hier eher zur Orientierung in der Kategorisierung von Forschungsdesigns, die letztlich immer passend zur Fragestellung ausgewählt werden müssen (in der Bildungsforschung wird aufgrund der Arbeit mit natürlichen Gruppen v. a. Quasi-Experimenten ein großer Wert zugeschrieben, Petticrew und Roberts 2006, S. 65). Da die methodische Qualität einer Studie durch deutlich mehr Faktoren bestimmt wird, als durch grob definierte, designtypische Merkmale (z. B. Randomisierung: ja/nein), lässt sich dieses Schema nicht als Bewertungstool für die Studienqualität anwenden (S. 129 f.). Inzwischen sind aber für jedes Studiendesign entsprechende Bewertungstools zugänglich. Manche Tools, wie AMSTAR (Shea et al. 2017) oder ROBIS (Whiting et al. 2016), beziehen sich auf die Qualität von systematischen Reviews, die in Metastudien manchmal einbezogen werden (sog. „review of reviews“, Gough und Thomas 2017, S. 60). Daneben gibt es eine große Bandbreite an Kriterienrastern für Primärstudiendesigns, die in der pädagogischen Interventionsforschung umgesetzt werden können. So fokussiert z. B. die Jadad Scale (Jadad et al. 1996) RCTs, das Set von Puffer et al. (2003) den Spezialtyp der Cluster-RCTs, das Campbell-Set (Cook und Campbell 1979) Quasi-Experimente und die Checkliste des Joanna Briggs Instituts (2017b) nicht-experimentelle Studien. Einige Tools enthalten auch Kriterien, die auf mehrere Untersuchungsdesigns anwendbar sind (z. B. EPPI-Centre 2003).

Es ist nahezu unmöglich, im Rahmen der Studienbewertung alle Aspekte der internen Validität zu berücksichtigen. Für die Kriterien-Auswahl ist daher die Frage bedeutsam, in welchem Umfang die Bewertung stattfinden soll. Bestehende Tools zeigen eine große Spanne in der Anzahl definierter Items für ein Studiendesign (z. B. drei Items bei Jadad et al. 1996; 24 Items bei Whiting et al. 2016; WWC (2017) definiert im 80-Seiten-Handbuch eine Vielzahl an methodischen Qualitätsstandards für mehrere Designs). Wie viele Kriterien letztlich in die Studienbewertung einbezogen werden, hat maßgeblichen Einfluss auf den nötigen Zeitaufwand und die einzuplanenden Ressourcen und muss daher im Planungsprozess gründlich erwogen werden.

Eine genaue Prüfung der Relevanz jedes einzelnen Kriteriums aus bestehenden Checklisten ist ratsam. Denn auch wenn diese den Schwerpunkt auf klassische Methodik-Kriterien legen, z. B. auf die Vergleichbarkeit von Untersuchungsgruppen oder die Qualität von Messinstrumenten, können dort Items integriert sein, die z. B. auf die externe Validität zielen (z. B. Valentine und Cooper 2008, S. 136 ff.), die forschungsethische Aspekte oder auch die Finanzierung einer Studie betreffen (z. B. EPPI-Centre 2003, S. 21). Darüber hinaus gibt es Kriterien, die bis auf die Ebene der statistischen Analyse vordringen. Hier werden etwa Qualitätskriterien für den statistischen Umgang mit fehlenden Daten oder endogenen Kovariaten definiert (z. B. WWC 2017, S. 35 ff.). Doch nicht für jedes systematische Review sind Qualitätskriterien zur detaillierten Beurteilung statistischer Vorgehensweisen relevant oder zwingend notwendig, v. a. dann nicht, wenn keine Metaanalyse geplant ist.

Grundsätzlich ist es sinnvoll, Bewertungskriterien a priori festzulegen. Es besteht aber auch die Möglichkeit, Kriterien einzubeziehen, die erst im Laufe des Reviews auf Grundlage von (z. B. unvorhersehbaren) Erkenntnissen entwickelt werden (Gough et al. 2017).

3.2 Adaption von Kriterien auf den eigenen Forschungskontext

Kriterien-Sets zur Einschätzung der Studienqualität (und hier speziell auch der internen Validität) wurden in verschiedenen Disziplinen entwickelt; aufgrund der Forschungstradition von systematischen Reviews stammen diese besonders häufig aus der Medizin (z. B. CRD 2001). Eine Übertragung auf andere Felder, wie auf die Sozial- und Bildungswissenschaften, ist aber in vielen Fällen möglich (s. z. B. die Adaption von Petticrew und Roberts 2006 zum CRD-Tool). Da die unterschiedlichen Rahmenbedingungen in den Forschungsdisziplinen aber auch unterschiedliche Konzepte der Evidenz mit sich bringen (Pant 2014), kann dafür eine Anpassung einzelner Items notwendig sein. So definiert die Jadad Scale z. B. für die Bewertung von Experimenten neben der Randomisierung und der Dropout-Transparenz die Doppel-Verblindung als Merkmal methodischer Qualität (Jadad et al. 1996). Doppelblind-Studien setzen voraus, dass weder Studienteilnehmende noch Versuchsleitende die Zuordnung zur Interventions- und Kontrollgruppe kennen. Eine solche Verblindung stößt bei der Untersuchung von verhaltensbezogenen Interventionen, wie Bildungsmaßnahmen, aber an praktische Grenzen (Petticrew und Roberts 2006, S. 132). Im Unterrichtskontext lässt sich z. B. kaum vor den Lehrenden und Lernenden verbergen, was unterrichtet wird und welche Ziele der Unterricht verfolgt. Eine einfache Verblindung der Gruppenzuordnung in der (Lern‑)Ergebnis-Bewertung (s. Verblindung der Datenanalyse, Döring und Bortz 2016, S. 198) ist in der Bildungsforschung aber umsetzbar und sinnvoll, z. B. durch Anonymisierung der Testergebnisse der überprüften Population oder durch den Einbezug einer externen Person in die Testbewertung, die den Gruppenstatus nicht kennt und keine unbewussten hypothesenkonformen Verzerrungen einbringen kann (Döring und Bortz 2016).

3.3 Operationalisierung der Items

Eine Herausforderung in der Konzeption der Studienbewertung besteht darin, Operationalisierungen von Qualitätskriterien selbst vorzunehmen, die festlegen, wie ein Item genau zu verstehen und trennscharf in verschiedenen Ausprägungen zu erfassen ist. Nicht selten sind Kriterien von veröffentlichten Bewertungsrastern sehr allgemein gehalten (z. B. EPPI-Centre 2003) und ihre Operationalisierungen nicht näher definiert oder nicht frei zugänglich. Auch wenn Items ausformuliert sind, erfolgt dies z. T. über weiche Begriffe, die Interpretationsspielraum und damit mehrere Möglichkeiten in der Operationalisierung zulassen. So wird im WWC Standards Handbook (WWC 2017) die Gruppenzuordnung von Studienteilnehmenden umschrieben als: „Both early and late joiners are as good as randomly assigned“ (S. 25) oder in der Checkliste von Puffer et al. (2003) wird gefragt: „Did cluster allocation seem secure?“ (S. 3). Eine genaue und tragfähige Operationalisierung für das eigene Review-Vorhaben festzulegen, dient nicht nur dem Anspruch der intersubjektiven Nachvollziehbarkeit der angelegten Bewertungsmaßstäbe, sondern ist v. a. unabdingbar, wenn mehrere Personen an der Qualitätsbewertung mitwirken sollen.

3.4 Festlegung des Ranking-Formats

Letztlich muss in jedem Review-Projekt auch eine Entscheidung darüber getroffen werden, wie die einzelnen Kriterien in die Gesamtbewertung der Qualität der Studien einfließen sollen. Ein quantitatives Ranking von mehreren Qualitätskriterien wird häufig als kritisch betrachtet (Petticrew und Roberts 2006, S. 129 f.; Valentine und Cooper 2008, S. 132 f.). Die Qualität von Messinstrumenten ist z. B. qualitativ etwas anderes als die Vergleichbarkeit von Untersuchungsgruppen und es gibt keine Einigkeit darüber, wie einzelne Qualitätsbereiche gewichtet werden müssen. In Bezug auf das häufig berücksichtige Kriterium der Verblindung (s. oben) stellen Valentine und Cooper (2008) beim Überblicken verschiedener Skalen zur methodischen Qualitätsbewertung z. B. eine Spannweite von 2,5 bis 40 % des definierten Gewichtsanteils an der Gesamtbewertung einer Studie fest (S. 132). Über die Festlegung eines stufigen Ranking-Formats für die Beurteilung der Items sowie mittels der Festlegung von Ausschluss-Kriterien kann jedoch eine gewisse Gewichtung erfolgen. Der sog. Cutoff legt fest, wann methodische Mängel so schwerwiegend sind, dass eine Studie aus der Forschungssynthese ausgeschlossen werden muss. Welche Kriterien zum Studienausschluss führen, müssen Forschende immer in Abhängigkeit der jeweiligen Untersuchungsfrage, der fokussierten Studiendesigns, aber auch in Hinblick auf den Zweck des Reviews festgelegen. Ob eine hoch- oder niedrigschwellige Ausschluss-Strategie sinnvoll ist, hängt davon ab, ob das Review i. S. einer Best Evidence Synthesis (s. Slavin 1995) primär die Abbildung des gesamten Forschungsstandes mit seinen Stärken und Schwächen anvisiert, oder ob mit dem Ergebnis bereits wirksame pädagogische Maßnahmen für ein geplantes Implementationsvorhaben festgelegt werden sollen (letzteres ist i. d. R. nachgelagert und setzt die Schwelle für den Ausschluss von Primäruntersuchungen höher).

3.5 Bestimmungen zum Ablauf und Sicherung der Qualität

In der Planung des Bewertungsverfahrens ist dann auch festzulegen, ob die Studien lediglich einfach, d. h. durch eine einzelne Person überprüft werden sollen oder durch zwei unabhängig voneinander Bewertende (sog. double blind). Darüber hinaus sind Entscheidungen dahingehend notwendig, wie bei Unstimmigkeiten oder Interpretationsspielräumen bezüglich einer Studie vorzugehen ist. Hier kann z. B. eine externe Person bestimmt werden, deren Entscheidung bei Unklarheiten den Ausschlag gibt. Außerdem ist festzulegen, wie mit ungenauen oder fehlenden Angaben in Studienpublikationen umgegangen wird. Dabei gibt es die Möglichkeiten, a) die über das Review ermittelten Studientexte als ausschließliche Bewertungsgrundlage zu nutzen (s. z. B. Jadad et al. 1996), b) darüber hinaus in weiteren (Studien‑)Publikationen zu recherchieren, c) bei Autorinnen und Autoren fehlende Informationen bzw. Daten anzufragen und/oder d) selbstständig relevante Werte einer Studie nachzurechnen (s. z. B. WWC 2017).

Wenn mehrere Personen aus dem Review-Team an der internen Validitätsbewertung beteiligt sind, ist i. S. der Objektivität die Gewährleistung ihrer Urteilsübereinstimmung ein zentrales Qualitätsmerkmal des Bewertungsverfahrens. Die Überprüfung der Rater-Übereinstimmung, die vor dem Beginn des Bewertungsprozesses erfolgt, lässt sich über klassische Testverfahren der Interrater Reliabilität (IRR), z. B. über die prozentuale Übereinstimmung (PÜ) oder über die Kappa Statistiken, ermitteln (s. z. B. Döring und Bortz 2016, S. 346).

4 Studienbewertung im systematischen Review zur „Wirkung sprachsensibler Unterrichtsansätze (WisU)“ – Beispiel eines eigenentwickelten Kriterienrasters

Von 2018 bis 2022 wurde am Mercator-Institut der Universität zu Köln ein großangelegtes systematisches Review zur „Wirkung didaktisch-methodischer Ansätze des sprachsensiblen Unterrichts (WisU)“ durchgeführt. Sprachsensible Ansätze zielen darauf ab, Schülerinnen und Schüler dabei zu unterstützen, fachliche Inhalte sprachlich zu durchdringen sowie allgemein- und fachsprachliche Fertigkeiten auszubauen, um schulische Anforderungen besser bewältigen zu können (Becker-Mrotzek und Woerfel 2020). Im Review sollte überprüft werden, ob diese Form des Unterrichtens, deren Wirksamkeit bis dato zumeist theoretisch begründet wurde (Busse 2019, S. 14; Paetsch et al. 2014, S. 336), empirisch tatsächlich bessere Effekte zeigt, als der reguläre Fachunterricht.

Ausgehend von 3016 ermittelten Dokumenten wurden im Veröffentlichungszeitraum von 1990 bis 2021 insgesamt 55 internationale Wirkungsstudien identifiziert – neben Deutschland aus den USA, den Niederlanden, aus Chile, Indonesien, Finnland, Südafrika, Spanien und dem Vereinigten Königreich (Höfler et al. in Vorbereitung). Um die Qualität dieser Studien adäquat bewerten zu können, wurden die in Kap. 3 aufgeführte Planungsschritte zur Konzeptionierung der Studienbewertung durchgeführt. Das hierzu entwickelte Kriterienraster wird mit den zugehörigen Operationalisierungen in diesem vorliegenden Beitrag erstmalig vorgestellt. Der Einblick in das konzipierte Bewertungsverfahren und die Anwendung der Kriterien können eine Orientierung für andere systematische Reviews der Bildungsforschung bieten. Passend zum Ziel des Projekts „WisU“ eignet sich das Kriterienraster v. a. für SRs ohne Metaanalyse zur Wirkung pädagogischer Maßnahmen, die das Ziel haben, den Forschungsstand möglichst umfassend abzubilden. Im Review wurde eine narrative Forschungssynthese und keine metaanalytische Aggregierung der Befunde durchgeführt, da die Designs von Interventionsstudien zu sprachsensiblem Unterricht äußerst heterogen sind, v. a. hinsichtlich der Operationalisierung und Messung der abhängigen und unabhängigen Variablen (s. Woerfel et al. 2020). Im Projekt wurde außerdem die externe Validität bewertet, die aber kein Gegenstand des aktuellen Beitrags ist.

4.1 Auswahl und Adaption von Bewertungskriterien im Review-Projekt

Um Items für die Studienbewertung zu bestimmen, wurde in 2019 eine Recherche zu Bewertungskriterien durchgeführt, die a) in den bekannten Review-Manualen und -Guidelines sowie b) in Form einer freien Internet- und Literaturrecherche mit anschließender Schneeballsuche in den identifizierten Dokumenten erfolgte. So wurden zunächst Quellen ermittelt, die interne Validitätskriterien enthalten, die für den gesuchten Studientypus im Review potenziell relevant sind – d. h. für Interventionsstudien mit (quasi)-experimentellem oder nicht-experimentellem Kontrollgruppen-Design, die inferenzstatistische Aussagen zur Wirkung pädagogischer Maßnahmen treffen (s. Woerfel et al. 2020). Folgende Quellen wurden einbezogen:

WWC (2017); Valentine und Cooper (2008); Jadad et al. (1996); National Institute for Health and Care Excellence [NICE] (2012); Pawson et al. (2003); Puffer et al. (2003); Crombie (1996), EPPI-Centre (2003); Gough et al. (2017); Higgins et al. (2016), Cook und Campbell (1983), Critical Appraisal Skills Programme [CASP] (11,12,a, b); CRD (2008); Petticrew und Roberts (2006); Rutter et al. (2010); Joanna Briggs Institute (2017a).

Im Anschluss wurde geprüft, inwiefern diese Quellen Qualitätskriterien enthalten, die folgende Bedingungen erfüllen:

  • passend für pädagogische Interventionsstudien

  • anwendbar auf experimentelle, quasi-experimentelle und nicht-experimentelle Designs

  • Balance zwischen Typ I‑Fehler (Unterbewertung von Bias) und Typ II-Fehler (Überbewertung von Bias)

  • Einheitlichkeit auf horizontaler Bewertungsebene (Streuung der Inhalte) und auf vertikaler Bewertungsebene (Betrachtungstiefe)

  • möglichst hoher Konkretisierungsgrad

  • adäquat für narrative Forschungssynthesen zu quantitativen Befunden

Keines der o. a. Quellen enthielt ein Kriterien-Set, das diese Bedingungen umfänglich erfüllt. Die vielzähligen Kriterien von WWC (2017) betreffen z. B. in großen Teilen die statistische Analyse (S. 6) und sind damit v. a. für SR-Studien mit Metaanalysen relevant. Auch das Raster von Crombie (1996), das speziell für die Gesundheitsforschung operationalisiert wurde, und das für pädagogische Interventionsstudien entwickelte Set von Valentine und Cooper (2008), enthalten Items zur Beurteilung statistischer Berechnungen. Petticrew und Roberts (2006) adaptieren Kriterien mit ausgewogener horizontaler und vertikaler Streuung der Bewertungsdimensionen vom Centre for Reviews and Dissemination (CRD 2001) aus dem Feld der Gesundheitsforschung, die sich durchaus für narrative Forschungssynthesen eignen und in der adaptierten Formulierung auch auf den pädagogischen Bereich übertragen lassen; diese Kriterien beziehen sich hier aber nur auf Beobachtungs- sowie auf Fall-Kontrollstudien (S. 136, 138). Andere Sets fokussieren jeweils lediglich ein einzelnes der in das Review integrierten experimentellen, quasi-experimentellen und nicht-experimentellen Designs (z. B. Jadad et al. 1996, RCTs; Puffer et al. 2003: Cluster RCTs; Joanna Briggs Institute 2017c, Fall-Kontroll-Studien). Die NICE-Guidelines (2012) berücksichtigen dagegen wiederum auch die im „WisU“-Projekt nicht einbezogenen qualitativen Untersuchungen und es werden Aspekte wie die Forschungsförderung bewertet, die für die methodische Qualität nicht relevant sind (s. NICE 2012). Das Rahmenwerk zur Qualitätseinschätzung bei Pawson et al. (2003) beschreibt sehr allgemeine Qualitätsaspekte, die zur Beurteilung von Studien(ergebnissen) im pädagogisch verwandten Feld der sozialen Arbeit dienen und ebenfalls nur in Teilen die interne Validität betreffen (hier werden z. B. Aspekte der Legalität und Ethik bewertet, Pawson et al. 2003, o. S.).

Im nächsten Schritt wurde deshalb ein Kriterienraster entwickelt, das umfänglich zum Bezugsrahmen des Review-Projekts passte. Zur Pilotierung der Kriterien wurde die (probeweise) Bewertung von ausgewählten Prototypenstudien zum sprachsensiblen Unterricht durchgeführt, welche die verschiedenen Designs der gesuchten Interventionsstudien (s. oben) abdecken. Nach der Pilotierung wurde das konzipierte Kriterienraster von einer Person aus dem externen Expert:innen-Beirat des Review-Projekts, die aufgrund ihrer fachlichen Einschlägigkeit ausgewählt wurde, im Peer Review überprüft und bestätigt.

4.2 Entwickeltes Kriterienraster

Tab. 1 zeigt das eigenentwickelte Kriterienraster, das zur Bewertung der internen Validität der pädagogischen Interventionsstudien angewendet wurde. Die 13 Items orientieren sich eng am Centre for Reviews and Dissemination (CRD 2001) sowie an der Adaption der dort formulierten Kriterien von Petticrew und Roberts (2006, S. 136). Inhaltliche Überschneidungen gibt es aber auch mit Cook und Campbell (1983), Crombie (1996), Valentine und Cooper (s. „global instrument“ in 2008), Rutter et al. (2010), NICE (2012), Joanna Briggs Institute (2017c), CASP (11,12,a, b) und dem What Works Clearinghouse (WWC 2017).

Tab. 1 Kriterienraster zur Bewertung der internen Validität (IV)

4.3 Operationalisierung und Ranking der Items

Die Beurteilung der Items erfolgt gemäß des Bewertungsverfahrens über ein vierstufiges Antwortschema, das die Codes enthält: i) trifft zu (voll bestätigt), ii) trifft zu mit Einschränkungen (eingeschränkt bestätigt), iii) trifft nicht zu (nicht bestätigt), iv) unklar (grundsätzlich fehlende und/oder widersprüchliche Informationen).

Die erste Sektion der Bewertung bezieht sich auf die Bereitstellung von Informationen und Daten (A) durch die Studienpublikationen, d. h. auf die adäquate Beschreibung von Population (IV1), Untersuchungssetting (IV2) und getesteter Intervention (IV3). Da Populations‑, Setting- und Interventionsaspekte die Wirkung von Bildungsmaßnahmen moderieren und folglich Studienergebnisse beeinflussen können (s. u. a. Döring und Bortz 2016, S. 104), gilt die Bereitstellung von Informationen und Daten hierzu als relevantes Merkmal der Studienqualität (i. S. der Berichtsqualität, s. u. a. EPPI-Centre 2003). Lernen ist aufgrund kognitiver Veränderungen in der menschlichen Entwicklung, die Einfluss auf Lernverhalten und -techniken nehmen, „hochgradig altersabhängig“ (Hasselhorn 2005, S. 77). Auch Geschlechtsunterschiede können die Art und Weise des Lernens bedingen, z. B. durch sozial geprägte Geschlechterrollen (Döring und Bortz 2016, S. 104). Studien(texte) sollten deshalb die Alters- und Geschlechterstruktur der untersuchten Population (IV1) transparent machen. Die Angaben gelten daher gemäß der Operationalisierung als umfänglich bereitgestellt, wenn Informationen zu Altersspanne, -Mittelwert und -Standardabweichung, ebenso wie zur Geschlechterverteilung für jede Vergleichsgruppe vorliegen. In Bezug auf moderierende Setting-Faktoren ist evident, dass die Umgebung eines natürlichen Klassenverbandes oder Labors (Döring und Bortz 2016, S. 95), unterschiedliche regionale, z. B. sozialstrukturelle oder (lern‑)kulturelle Umfelder (Döring und Bortz 2016, S. 104), aber auch fachdidaktische Kontexte (s. z. B. Ministerium für Kultus, Jugend und Sport Baden-Württemberg 2018, S. 15) Interventionseffekte beeinflussen können. Das Setting (IV2) gilt daher als ausreichend beschrieben, wenn die Unterrichtsregion (Ebene der Stadt), das Lernsettings (natürlich/regulär, natürlich/additiv, Labor) und das Unterrichtsfach präzise und umfänglich dargestellt sind. Relevante Angaben zur Region sind auf die Nennung der Stadt begrenzt, da direkte, örtliche Einflussgrößen, wie die soziale Infrastruktur, in Studien selten berichtet werden. Die Beschreibung der Intervention (IV3) gilt dagegen als vollständig, wenn Angaben zur Intensität (Gesamtdauer, Anzahl und Dauer der Intervalle), zum Ablauf (zeitliche Abfolge, Unterrichtsmethoden, -materialien und Sozialformen) sowie zum Fachgegenstand des Unterrichts vorliegen, da diese Interventionscharakteristika Lernresultate beeinflussen. Einschränkungen der Kriterien zeigen sich dann etwa bei Studien, die keine präzisen Angaben machen, die z. B. das Unterrichtsfach nur als breiten Fachkomplex benennen (z. B. MINT), oder die nur ein Teil der Informationen angeben (z. B. nur Angaben zum Ablauf der Intervention, aber nicht zum Ablauf der Kontroll-Maßnahme). Werden keine der relevanten Informationen und Daten (s. oben) bereitgestellt, gilt das jeweilige Kriterium als nicht erfüllt, was jeweils als Cutoff definiert ist, der zum Ausschluss der Studie aus der Forschungssynthese führt (z. B. Studienausschluss bei IV1: die Population ist ausschließlich mit „pupils“ beschrieben).

Mittels der zweiten Sektion des Bewertungsrasters wird die Erfassung der Forschungsfrage (B) beurteilt. Im Zuge dessen wird eingeschätzt, ob die in einer Studie verwendeten Messinstrumente zur Erhebung von Lerneffekten tatsächlich solche Konstrukte erfassen, die im Rahmen der Forschungsfrage theoretisch fokussiert werden (IV4). Wenn bei allen relevanten Gruppen keine Hinweise auf Inkongruenzen bestehen, gilt das Kriterium als voll erfüllt. Da zur Erfassung der Forschungsfrage auch gehört, dass im Rahmen der Untersuchung tatsächlich die Interventionen stattfinden, deren Effekte gemessen werden sollen (IV5), wird auch die Implementationstreue beurteilt. Diese ist für die interne Validität von Interventionsstudien von zentraler Bedeutung (Petticrew und Roberts 2006, S. 144). Das Kriterium gilt als voll erfüllt, wenn bei allen relevanten Vergleichsbedingungen die Umsetzungstreue der jeweiligen Maßnahmen empirisch nachgewiesen ist (d. h. im dargestellten Review die Umsetzung des sprachsensiblen Ansatzes in der Interventionsbedingung und dessen Abwesenheit in der Kontrollbedingung). Das letzte der drei Items in Sektion (B) zielt auf die adäquate Messung der Lerneffekte ab (IV6), d. h. auf die wissenschaftliche Güte der TestungFootnote 1. Diese bezieht sich auf die zentralen wissenschaftlichen Güteaspekte der Objektivität, Reliabilität und Validität. Das Kriterium gilt als voll erfüllt, wenn neben der Objektivität der Messung, die z. B. durch schriftliche Testinstruktionen (Durchführungsobjektivität), Multiple-Choice-Antworten (Auswertungsobjektivität) und Normtabellen (Interpretationsobjektivität) sichergestellt werden kann, auch mindestens gute Validität (≥ 0,60) und Reliabilität gegeben ist (≥ 0,80). Zur quantitativen Operationalisierung der Güte wurde eine in der Teststatistik verbreitete Einteilung verwendet (nach Döring und Bortz 2016, S. 465, 470; Bühner 2011, S. 81). Abzüge in Sektion B erfolgen, wenn fokussierte und gemessene Lernergebnisse nur partiell deckungsgleich sind (z. B. Fokus: allgemeine Schreib-Kompetenz; Messung: Teilleistung im Schreiben), wenn die getestete Implementationstreue bei mindesten einer der Gruppen Einschränkungen zeigt oder diese durch entsprechendes Training der durchführenden Lehrkräfte zwar unterstützt, nicht aber empirisch überprüft wird, oder wenn bei Messinstrumenten Einschränkungen in Gütemerkmalen vorliegen (z. B. moderate Reliabilität mit 0,60–0,79). Treffen IV4, IV5 oder IV6 nicht zu, ist für jedes der Kriterien der Studienausschluss definiert (z. B. Ausschluss bei IV4: Fokus auf Wissen, aber Messung von Einstellungen).

Für Interventionsstudien mit Gruppenvergleichsanalysen ist die Vergleichbarkeit der Untersuchungsgruppen (C) eine relevante Bewertungskategorie (s. z. B. Petticrew und Roberts 2006, S. 136). Ein Item des Kriterienrasters (IV7) forciert dementsprechend die Vergleichbarkeit von Population (Alter, Geschlecht, s. IV1) und Unterrichtskontext (Region, Lernsetting, Fachbereich, s. IV2). Diese Vergleichsparameter wurden so gewählt, da sie, wie oben dargestellt, gemessene Interventionseffekte bedingen und folglich auch bei Gruppenunterschieden zu Verzerrungen führen können. Eine Vergleichbarkeit der Gruppen können Studien z. B. durch Single-Subject-Randomisierung, statistische Steuerungstechniken (Parallelisierung, Matching, etc.) oder mit Within-Subject-Messdesigns erreichen. Zudem wird die Vergleichbarkeit der pädagogischen Interventionen bewertet (IV8). Auch wenn sich die Maßnahmen in den Interventions- und Kontrollgruppen zwangsläufig im didaktisch-methodischen Vorgehen unterscheiden müssen, so ist i. S. interner Validität die Gleichheit von Fachgegenstand, Intensität, Untersuchungszeitraum sowie von Behandlungseffekten bedeutsam, um Verzerrungen zu umgehen. Eine Vergleichbarkeit der eingesetzten Messinstrumente zur Erfassung der Lernergebnisse (IV9) in den Gruppen ist ebenfalls relevant für die methodische Qualität. Diese ist entsprechend des Bewertungsrasters gegeben, wenn dieselben Instrumente in den Gruppen eingesetzt werden oder wenn die Übereinstimmung verschiedener Instrumente statistisch nachgewiesen ist (z. B. bei Vorgänger- und Nachfolgeversionen einer Skala). Eingeschränkte interne Validität zeigen im Rahmen von Sektion (C) z. B. Studien, bei denen die Intervention und die Kontrollmaßnahme mehr als ein Jahr auseinander liegt, was konfundierende Effekte wahrscheinlich macht (Zeitraum operationalisiert nach WWC 2017, S. 82), oder wenn die Interventionsgruppe – anders als die Kontrollgruppe – Behandlungseffekte (z. B. Zuwendungseffekte) durch eine studienbedingt eingeführte Intervention erfährt (Mittag und Bieg 2010, S. 42). Methodische Einschränkungen liegen auch bei Studien vor, die unterschiedliche Tests in den Gruppen anwenden, die zwar inhaltlich auf dasselbe Konstrukt abzielen, deren statistische ÜbereinstimmungFootnote 2 aber nicht voll gegeben oder nicht überprüft ist. Besteht in den Items IV7, IV8 und IV9 keine Vergleichbarkeit der Gruppen in den definierten Aspekten, ist jeweils ein Cutoff gesetzt, der den Studienausschluss auf der Forschungssynthese impliziert (z. B. Studienausschluss bei IV7: Vergleich zweier Schulprojektgruppen, eine mit Mädchen der 7. und eine mit Jungen der 8. Klasse).

Eine weitere Sektion beurteilt den adäquaten Umgang mit fehlenden Daten (D). Fehlende Daten „sind solche Werte, die zwar theoretisch existieren, jedoch wider Erwarten nach Abschluss der Datenerhebung nicht vorliegen“ (Mayer 2011, S. 12). Diese können, wenn sie systematisch auftreten, das Ergebnis verzerren, z. B. durch ein nicht-repräsentatives Auswertungskollektiv in einer oder mehreren Untersuchungsgruppen aufgrund von Dropout oder nicht beantworteter Test-Items (ebd.). Mittels des Kriteriums IV10 werden Studien dahingehend überprüft, ob nach wissenschaftlichen Standards mit fehlenden Daten umgegangen wird. Interne Validität ist dementsprechend voll gegeben, wenn systematisch fehlende Daten statistisch erfolgreich ausgeglichen werden oder wenn nachweisbar dargelegt wird, dass keine Daten in systematischer Weise fehlen, die berücksichtigt werden müssen. Das Kriterium ist mit Einschränkungen erfüllt, wenn systematisch Daten in den Outcome-Erhebungen fehlen und diese narrativ berücksichtigt werden. Hier kann zwar das Verzerrungspotenzial nicht quantifiziert werden, aber der Einfluss auf das Studienergebnis wird erkennbar dargestellt. Als nicht erfüllt gilt das Kriterium dann, wenn fehlende Daten eingetreten sind, aber in Hinblick auf die Ergebnisse nicht interpretiert werden. Da dies nicht zwangsläufig zu Verzerrungen führen muss (u. a. abhängig vom Umfang der fehlenden Werte), ist hier kein Studienausschluss festgelegt.

Zur Beurteilung der Studienlänge (E) wird mittels des Kriterienrasters geprüft, ob das Messdesign einer Untersuchung lang genug angelegt ist, um Lerneffekte nachzuweisen (IV11). Ob dies zutrifft, hängt auch von der Sensibilität des jeweils überprüften Lernergebnisse ab. Zur Operationalisierung des Kriteriums für die Studienbewertung dient die Quantifizierung der Studienlänge nach Hager und Hasselhorn (2000, S. 77) und WWC (2017, S. 82). Studien erfüllen demnach das Kriterium voll, wenn hier ein Prä-Post-Follow Up-Design angewendet wird, bei dem die letzte Messung zwischen einem Monat bis maximal einem Jahr nach der Intervention stattfindet. Dadurch sind längerfristige Lerneffekte nachweisbar und die Wahrscheinlichkeit für konfundierende Effekte (z. B. Reifungseffekte) ist akzeptabel. Kurzfristige Lerneffekte lassen sich dagegen bei Längsschnittstudien feststellen, bei denen der letzte Messzeitpunkt innerhalb eines Monats nach Interventionsende stattfindet (Hager und Hasselhorn 2000, S. 51 f., 77). Da pädagogische Unterrichtsmaßnahmen (ebenso wie die meisten psychologischen Interventionen) aber auf langfristige Lernwirkungen abzielen (Hager und Hasselhorn 2000, S. 59), ist eine adäquate Studienlänge bei solchen Messdesigns nur mit Einschränkungen gegeben. Das Kriterium gilt bei Gruppenvergleichsstudien als nicht erfüllt, die lediglich post intervention, d. h. querschnittlich Interventionseffekte messen und folglich Entwicklungsverläufe nicht statistisch abbilden können. Da das hier berichtete Review-Projekt zum Ziel hatte, den Forschungsstand umfassend, mit seinen Stärken und Schwächen abzubilden, und auch solche in der Bildungsforschung genutzten Untersuchungsdesigns zu berücksichtigen (z. B. Short et al. 2012), wurde hier im Sinne der niedrigschwelligen Cutoff-Strategie kein Studienausschluss gesetzt.

Zur Beurteilung der Stichprobengröße (F) wurden Mindestwerte herangezogen, die im wissenschaftlichen Diskurs für klassische Gruppenvergleichsstudien mit Between-Subject-Design definiert sind (Operationalisierung nach Astleitner 2010, S. 54): Eine Stichprobe ist demnach adäquat, wenn sie alle potenziellen Interventionseffekte, d. h. große, moderate, aber auch kleine Effekte, mit einer bestimmten Wahrscheinlichkeit sichtbar machen kann (n ≥ 250 TN je Gruppe). Wenn mit der Gruppengröße wahrscheinlich lediglich große (n = 20–59 TN je Gruppe) und/oder moderate Effekte (n = 60–249 TN je Gruppe) nachgewiesen werden können, gilt das Qualitätskriterium IV12 als eingeschränkt erfüllt. Between-Subject-Design-Studien mit kleineren Samples (n < 20) zeigen dagegen keine adäquate Samplegröße (Astleitner 2010). Hier kommt jedoch kein Studienausschluss zum Tragen, da angesichts der Heterogenität von Messdesigns die gesetzte Mindestgröße – wie alle zugrunde gelegten Operationalisierungen zum Stichprobenumfang – nur einen Orientierungswert darstellen kann, der die Beurteilung der Stichproben intersubjektiv nachvollziehbar macht (zur Diskussion s. Astleitner 2010, S. 54). Für den seltenen Fall von Gruppenvergleichsstudien mit Within-Subject-Design (im Rahmen des Reviews wurde nur eine einzelne Studie identifiziert), konnten keine im wissenschaftlichen Diskurs konsensual vertretenen Richtgrößen ermittelt werden, weshalb die IV12-Bewertung für diese Designs ausgesetzt wurde.

Das letzte Kriterium des Bewertungsrasters bezieht sich auf die Verblindung (G), u. a. ähnlich zur verbreiteten Jadad Scale (Jadad et al. 1996), jedoch adaptiert auf den pädagogischen Kontext, d. h. ohne Doppelblind-Anspruch und nicht gebunden an eine Randomisierung. Ob eine verblindete Messung der Ergebnisse der Intervention als Indikator für die interne Validität einer Studie relevant ist, hängt davon ab, ob die jeweilige Bewertung der Ergebnisse durch Subjektivität beeinflusst werden kann (CRD 2008, S. 37). Dies ist bei der Beurteilung von Lernergebnissen möglich. Das Kriterium (IV13) gilt als voll erfüllt, wenn die Datenauswertung blind zum Gruppenstatus der Untersuchungsteilnehmenden erfolgt, z. B. durch Anonymisierung oder mittels einer externen Person (s. auch Kap. 3). Einschränkungen liegen entsprechend dann vor, wenn die Verblindung nur bei einem Teil der gemessenen Lernergebnisse bzw. bei einem Teil der Vergleichsgruppen im Falle von Multi-Gruppen-Studien stattfindet. Erfolgt keine Verblindung, obwohl eine Verzerrung in der Bewertung möglich ist, ist das Qualitätskriterium nicht erfüllt. Aufgrund der nicht zwangsläufig bestehenden Verzerrung durch fehlende Verblindung, gilt das Kriterium als weich und es ist kein Studienausschluss festgelegt. Wenn aufgrund des Studiendesigns keine Verzerrung durch Subjektivität möglich ist, ist das Kriterium auszusetzen.

4.4 Durchführung und Qualitätssicherung des entwickelten Bewertungsverfahrens

Im systematischen Review zur „Wirkung didaktisch-methodischer Ansätze des sprachsensiblen Unterrichts (WisU)“ waren insgesamt vier Wissenschaftlerinnen und Wissenschaftler an der Studienbewertung beteiligt. Um die Rater-Übereinstimmung im angewendeten Single-Verfahren zu gewährleisten, wurde vor dem Beginn des Verfahrens die IRR getestet. Dazu wurde mittels der paarweisen Testung der Prozentualen Übereinstimmung (PÜ) die hierfür einfachste Kennwertberechnung gewählt (vgl. Wirtz und Caspar 2002). Da trotz der vier einbezogenen Bewertungskategorien der 13 Kriterien (d. h. 52 Codes je Studie insgesamt) eine Überschätzung der Konkordanz aufgrund zufälliger Übereinstimmung möglich ist (vgl. Wirtz und Caspar 2002), wurde die zu erreichende Prozenthürde auf maximale 100 % Übereinstimmung bei den Ausschlusskriterien (s. oben) festgelegt. In Bezug auf alle Kriterien-Codes je Studie (unabhängig von den Ausschlusskriterien) lag die Übereinstimmung bei einem IRR-Paar bei 98,5 % (sehr gut) und beim zweiten bei 87,7 % (gut). Der IRR-Test bestätigte diese 100 %. In Bezug auf alle Kriterien-Codes je Studie (unabhängig von den Ausschlusskriterien) lag die Übereinstimmung bei einem IRR-Paar bei 98,5 % (sehr gut) und beim zweiten bei 87,7 % (gut).

Die insgesamt 55 identifizierten Wirkungsstudien wurden mittels der Software EPPI-Reviewer bewertet. Wenn dabei Unklarheiten auftraten, wurde die betreffende Studie im Review-Team diskutiert oder in Einzelfällen von einem zweiten Team-Mitglied blind (d. h. ohne Informationen über die Erstbewertung) geprüft. Da hierdurch Einigkeit erzielt werden konnte, war der andernfalls geplante Einbezug einer Person aus dem externen Expert:innen-Team nicht notwendig. Die Auswertung der internen Validität erfolgte deskriptiv, basierend auf einer Aufschlüsselung der Ergebnisse je Kriterium und Studie. Das Review verzichtete auf ein quantitatives Ranking, weil dieses kritisch zu sehen ist (s. Kap. 3).

4.5 Ergebnisse und Diskussion der Studienbewertung

Abb. 1 zeigt die Verteilung der Bewertungsergebnisse zu den Interventionsstudien (n = 55) im Feld des sprachsensiblen Unterrichts, die durch die Anwendung des vorgestellten Kriterienrasters ermittelt wurden. Keines der überprüften methodischen Qualitätskriterien wird von allen Studien erfüllt und die Untersuchungen zeigen in jedem der überprüften Aspekte (z. T. deutliche) Qualitätsunterschiede. Das unterstreicht die Bedeutung der ausgewählten Items. Diese machen gängige, in der Studienlage vorliegende Verzerrungspotenziale transparent, die einen maßgeblichen Einfluss auf die Ergebnisinterpretation haben können und in einer Forschungssynthese zu berücksichtigen sind.

Abb. 1
figure 1

Verteilung der Bewertungsergebnisse zu den ermittelten Studien (n = 55). (IV Interne Validität. Kriterien: IV1 Beschreibung der Population, IV2 Beschreibung des Settings, IV3 Beschreibung der Intervention, IV4 Übereinstimmung von Outcome-Konstrukt und -Messung, IV5 Umsetzungstreue der Intervention, IV6 Güte der Outcome-Messung, IV7 Ähnlichkeit der Interventions- und Kontrollgruppen, IV8 Ähnliche Behandlung der Interventions- und Kontrollgruppen, IV9 Vergleichbarkeit der Outcome-Messinstrumente in den Interventions- und Kontrollgruppen, IV10 Berücksichtigung fehlender Daten, IV11 Adäquate Studienlänge, IV12 Adäquate Stichprobengröße, IV13 Verblindung. *Cutoff-Kriterium (Ausschluss der Studie bei Bewertung „trifft nicht zu“))

Während in den überprüften Interventionsstudien zu sprachsensiblen Unterrichtsansätzen die Vergleichbarkeit der Messinstrumente zur Erfassung der Lerneffekte in den Untersuchungsgruppen erwartungsgemäß häufig gegeben ist (IV9), zeigen viele Studien Einschränkungen in der Bereitstellung relevanter Informationen und Daten (IV1–3). Oft fehlen z. B. Angaben zur Altersverteilung in den untersuchten Gruppen (z. B. Shi et al. 2019) oder zum konkreten Ablauf der pädagogischen Maßnahmen (z. B. Decristan et al. 2015). Bei den meisten Studien ist nicht nachvollziehbar, ob eine Verblindung in der Ergebnisbewertung stattgefunden hat (IV13). Aus methodischer Sicht ist besonders schwerwiegend, dass bei mehr als zwei Drittel der Studien gar kein oder (seltener) kein vollständiger Nachweis der Umsetzungstreue (IV5) der untersuchten Unterrichtsbedingungen erbracht wird. Wenn die Implementationstreue überhaupt empirisch ermittelt wird, dann betrifft dies meist die (sprachsensible) Intervention, während der Nachweis der adäquaten Umsetzung des Kontrollunterrichts (Unterricht ohne sprachsensiblen Ansatz) fehlt (z. B. McIntyre et al. 2010). Deutliche Verzerrungspotenziale zeigen auch einige der pädagogischen Wirkungsstudien (n = 8), bei denen die Samplegröße den definierten Mindestwert unterschreitet (s. IV12: n < 20 TN je Gruppe, z. B. Dandeles 1996) oder auch solche Untersuchungen (n = 8), die lediglich Querschnittdaten nach der Intervention im relevanten Gruppenvergleich berichten (s. IV11, z. B. Vidot 2011).

Im Review-Projekt „WisU“ wurden insgesamt zwei Untersuchungen, aufgrund von zu großen methodischen Mängeln, aus der Forschungssynthese ausgeschlossen (Qohar und Sumarmo 2013; Darsono 2015). Da dieses Review bislang das erste ist, das die Vielzahl sprachsensibler Ansätze systematisch zusammenfasst und Aussagen zur Qualität der Wirkungsbefunde zu den didaktisch-methodischen Modellen trifft (s. Höfler et al. in Vorbereitung), erfüllt die niedrigschwellige Cutoff-Strategie damit das Review-Ziel, den Studienausschluss möglichst gering zu halten, um i. S. einer Best Evidence Synthesis (Slavin 1995) den internationalen Forschungsstand in diesem Feld umfassend mit seinen Stärken und Schwächen abzubilden. Die zum Teil deutlichen Qualitätsunterschiede der einbezogenen Untersuchungen wurden durch die Bereitstellung der Bewertungsergebnisse für jede Primärstudie transparent gemacht. Die sich daraus ergebende Aussagekraft der Untersuchungen wurde narrativ diskutiert. Ein solches Vorgehen bietet die notwendige Grundlage, um darauf aufbauend Empfehlungen für eine evidenzbasierte Unterrichtspraxis sowie für sinnvolle (und notwendige) Forschungsaktivitäten ableiten zu können (Vasylyeva et al. in Vorbereitung).

Um die methodische Belastbarkeit der Wirkbefunde zu den verschiedenen Unterrichtsmodellen einzuschätzen, wurden die Interventionsstudien in der Forschungssynthese zu den insgesamt 30 im Sample untersuchten didaktisch-methodischen Ansätze zugeordnet – z. B. zu Translanguaging, das die Mehrsprachigkeit von Lernenden als Ressource für das Inhaltsverstehen nutzt, zum Sheltered Instruction Observation Protocol (SIOP), das kontinuierlich Sprach- und Fachziele miteinander verbindet oder zum Scaffolding-Ansatz (nach Gibbons 2002), der sukzessive die Entwicklung der Fachsprache von Schülerinnen und Schülern forciert. So konnte z. B. ermittelt werden, dass im internationalen Kontext zwar vergleichsweise viele Interventionsstudien zum SIOP-Ansatz vorliegen (n = 11), dass hier aber aufgrund häufig angewendeter nicht-experimenteller Designs und Querschnittanalysen die (divergente) Datenlage bislang noch wenig aussagekräftig ist. Bei Unterricht mit Scaffolding (s. oben) zeigen dagegen die Untersuchungen (n = 5) konsistent bessere Effekte als der Kontrollunterricht bei gleichzeitig höherer interner Validität der hierzu ermittelten experimentellen und quasi-experimentellen Studien. Letztere sind in den bewerten methodischen Aspekten insgesamt deutlich belastbarer (die ausführlichere Darstellung der Ergebnisse zu den 30 sprachsensiblen Ansätzen erfolgt in einem anderen Beitrag, s. Höfler et al. in Vorbereitung).

Limitationen der vorgestellten Studienbewertung sind im angewendeten Single-Bewertungsverfahren sowie in der fehlenden Beurteilung der verschiedenen inferenzstatistischen Analyse-Methoden in den Studien zu sehen, die auch nicht hinsichtlich ihrer Relevanz für die Fragestellung des Reviews gewichtet wurden. Die Aussagen zur methodischen Studienqualität beziehen sich ausschließlich auf die ausgewählten Aspekte, die mit den 13 Kriterien abgebildet werden. Nicht bewertet werden dann z. B. die an der Generierung der Forschungsfrage beteiligten Interessengruppen, der adäquate Zeitpunkt der Untersuchung oder die geplante, neben der tatsächlich einbezogenen Samplegröße, die in einigen Fällen auch in die Qualitätsbewertung einbezogen werden (z. B. EPPI 2003). Das Bewertungsraster bietet außerdem keine Möglichkeit zur Beurteilung der Samplegröße von Untersuchungen mit Within-Subject-Design (s. S. 10). Ferner kann das Bewertungsraster nicht für qualitative (Teil‑)Untersuchungen angewendet werden, die ebenfalls in der Interventionsforschung umgesetzt werden und für dieses Feld bedeutsam sind.

5 Fazit

Der vorliegende Beitrag hat gezeigt, dass die Konzeptionierung der Studienbewertung im Rahmen eines systematischen Reviews der Bildungsforschung einer gründlichen Planung bedarf. Aufgrund der Vielzahl an methodischen Verzerrungspotenzialen, die in der Gewinnung von bzw. im Umgang mit quantitativen Befunden entstehen können, kann in der Studienbewertung immer nur eine Auswahl an Fehlerquellen berücksichtigt werden. Das zeigt zwar die immer bestehenden Grenzen einer solchen Bewertung auf, die Beurteilung der methodischen Studienqualität ist in systematischen Reviews aber trotzdem unverzichtbar. Denn neben der Einschätzung der Belastbarkeit von vorliegenden Befunden lassen sich daraus auch wichtige Implikationen zur Weiterentwicklung der Forschung ableiten. Die Bewertungsergebnisse zu Interventionsstudien im Feld des sprachsensiblen Unterrichts, die im Zuge des Review-Projekts „WisU“ ermittelt wurden, heben z. B. besonders die Notwendigkeit einer guten Berichtsqualität und eines Implementationstreuenachweises von untersuchten Bildungsmaßnahmen hervor. Das entwickelte Kriterienraster aus dem Projekt kann als Orientierung für andere Reviews in der Bildungsforschung dienen. Da sich die Relevanz von Bewertungskriterien aber je nach Forschungskontext und Fragestellung unterscheiden kann (s. Kap. 3), ist es erforderlich, die Passung der Items und Operationalisierungen genau zu prüfen.