1 Die Bedeutung von Wissenschaft für Verbesserungen im Bildungsbereich – Erwartungen und Erfahrungen

Die Frage, warum und wozu sich Wissenschaft mit pädagogischer Praxis beschäftigen solle, wird in der pädagogischen Tradition gewöhnlich wie folgt beantwortet: Es gehe um eine Theorie nicht nur von, sondern auch für Praxis. Ein solches Verständnis eint ganz unterschiedliche Richtungen und „Schulen“, seit sich die Pädagogik als eine eigenständige Form der wissenschaftlichen Reflexion von Phänomenen der Erziehung und Bildung in Distanz zur Praxis etablierte. Kant hielt 1803 eine Vorlesung zur Einführung in die Pädagogik und stellte sie als eine Theorie für einen „zukünftig möglich bessern Zustande des menschlichen Geschlechts“ (Kant 1803, S. 17) vor. Schleiermacher (1983) betrachtete die Pädagogik noch als „eine rein mit der Ethik zusammenhängende, aus ihr abgeleitete angewandte Wissenschaft“, die der älteren Generation aufzeige, wie sie die Heranwachsenden auf die „größeren Lebensgemeinschaften“ vorbereiten könne. Dilthey (1986) ging gegen Ende des 19. Jahrhunderts mit dem Entwurf einer „positiven Geisteswissenschaft“ (Herrmann 1971, S. 214) über diese Theorietradition hinaus, indem er auch die Entwicklung von Regeln und Techniken für die Lösung praktischer Probleme einforderte. Dazu sei es notwendig, die gesetzmäßig verlaufende psychische Entwicklung mit den Methoden der Naturwissenschaften zu erklären, zugleich aber die historisch konkreten, ganzheitlichen Lebenswirklichkeiten und die dort wirkenden Bedingungen und Einflüsse zu verstehen, gestützt auf hermeneutische Verfahren, typisierende Beschreibungen und Vergleiche.

Auch als sich in Deutschland die Pädagogik von ihren geisteswissenschaftlichen Traditionen löste (vgl. Dahmer und Klafki 1968), sich zur Erziehungswissenschaft entwickelte und empirischen Methoden öffnete, wurde der überlieferte Anspruch aufrechterhalten. Für Roth (1967, S. 119) bestand die Aufgabe empirischer Forschung darin, „die angeblichen Fakten, das scheinbar unabänderlich Gegebene, unter der produktiven Fragestellung, die die pädagogische Idee entwickelt, auf die noch verborgenen pädagogischen Möglichkeiten hin herauszufordern“. Und als schließlich die empirische Bildungsforschung mit den international-vergleichenden Large Scale Assessments zu Beginn dieses Jahrhunderts die Aufmerksamkeit nicht nur der Forschung, sondern auch von Politik und Öffentlichkeit auf sich zog, tat sie dies mit dem Anspruch, nicht nur besseres, weil empirisch geprüftes, sondern auch nützlicheres, weil auf übergreifende Probleme bezogenes Wissen für Praxis und – historisch erstmals betont – für Politik anzubieten (vgl. Schrader 2014). So kam es zu einer in der deutschen Bildungsgeschichte einmaligen Institutionalisierung der wissenschaftlichen Politik- und Praxisbegleitung, die den gelegentlichen „gelehrten Rat“, wie er seit der ersten „empirischen Wendung“ bevorzugt wurde, um kontinuierliches Monitoring erweiterte und auf Dauer stellte (vgl. Tenorth 2014).

Begleitet wird der weithin akzeptierte Anspruch einer praxis- und politikrelevanten Wissenschaft allerdings von einer andauernden Klage über die „Kluft“ zwischen Forschung, Praxis und Politik. Untersuchungen der Wissenschafts-, der Wissensverwendungs-, der Steuerungs- und der empirischen Bildungsforschung verweisen auf unterschiedlich gelagerte Probleme und Ursachen: So wird Forschungswissen nicht genutzt, weil das Wissenschaftssystem Wissenstransfer nicht belohnt (vgl. Thomsen und Anger 2018), die Außenkommunikation eher Reputation als Aufklärung priorisiert (vgl. Weingart 2017), die Evidenz wissenschaftlichen Wissens oftmals als zu schwach bewertet wird, um es der Praxis zuzumuten (vgl. Mosteller und Boruch 2002), Akteure der pädagogischen Praxis nicht hinreichend vorbereitet sind, um z. B. als Schulleitungen eine datenbasierte Personal- und Organisationsentwicklung umzusetzen (vgl. Böse et al. 2018), die Interessen handelnder Akteure einflussreicher als die Befunde der Forschung sind, so dass z. B. die Einführung der Ganztagsschule am Widerstand der Lehrerverbände scheitert (vgl. Heinemann 2017), oder weil Bildungspolitik wissenschaftliche Evidenz zwar als Ressource für Legitimation, nicht jedoch als Anregung für Reformen nutzt (vgl. Köller 2017 zum Themenfeld G8/G9). Die keineswegs vollständige Auflistung zeigt, dass ein Austausch wissenschaftlichen Wissens mit Politik und Praxis zwar zunehmend stattfindet, aber keineswegs immer mit Erfolg. Der Steuerbarkeit des Bildungssystems und der Bildungspolitik mit den Mitteln der Wissenschaft sind offenkundig Grenzen gesetzt (vgl. Baumert 2016, S. 243).

Eine vergleichende Forschung zu den Wirkungen wissenschaftlicher Transferangebote und ihrer Nutzung mit Rücksicht auf unterschiedliche wissenschaftliche Richtungen, unterschiedliche Wissensformen und Forschungstypen liegt bislang nicht vor. Aber auch ohne solche Untersuchungen haben die Befunde das Potenzial, um wissenschaftliche Selbstverständnisse zu irritieren. So gehört nicht nur die Klage über eine andauernde Kluft zwischen Wissenschaft, Politik und Praxis zu den Topoi jener Wissenschaften, die sich mit Erziehungs- und Bildungsprozessen beschäftigen, sondern auch das Versprechen, diese Kluft zu überwinden (vgl. Century und Cassata 2016, S. 169 f.).

Auf die Diskrepanz zwischen Anspruch und Wirklichkeit wurde unterschiedlich reagiert. Die geisteswissenschaftliche Pädagogik etablierte mit dem Theorie-Praxis-Diskurs eine gleichsam metatheoretische Reflexionsform. Noch in der zweiten Hälfte des 20. Jahrhunderts schien es, als könne die Einheit des Nachdenkens über Erziehung und Bildung in „Theorie“ und „Praxis“ gesichert werden: Die Praxis könne von der Wissenschaft Aufklärung, Orientierung und Kritik erwarten und die Wissenschaft aus der Praxis Erfahrung, Anregungen und Korrektur ihrer Theoriebildung, und zwar dann, wenn bestimmte Prinzipien des Denkens beachtet würden. Dazu zählten die Orientierung an der Bildsamkeit der Lernenden, die Aufforderung zu ihrer Selbsttätigkeit, die Überführung gesellschaftlicher Determinanten in pädagogische sowie die Konzentration auf die gemeinsame Aufgabe der Höherentwicklung der Menschheit (vgl. Benner 1980, S. 494). Die Suche nach einer Einheit von Theorie und Praxis endete allerdings mit der Einsicht, dass bereits die Annahmen einer „Theorie“ und einer „Praxis“ nicht haltbar sind: Mit der Öffnung der Pädagogik für die Sozialwissenschaften ging zum einen eine wissenschaftstheoretische Neuorientierung einher, die zeigte, dass die Erziehungswissenschaft nicht nur theoretisches, sondern auch empirisches Wissen erarbeitet, dazu normatives (als Philosophie der Erziehung) und praktisches (als Unterrichtskunde) (vgl. Brezinka 1975), ohne dass eine dieser Formen des Wissens die jeweils anderen „regieren“ könnte. Zum anderen hat sich die Expansion der Erziehungswissenschaften an Hochschulen seit den 1960er Jahren nicht als Ausdifferenzierung (so Benner 1980, S. 485) der einen Pädagogik vollzogen, sondern als Erweiterung der Schulpädagogik um weitere Pädagogiken, die mit der Institutionalisierung des lebenslangen Lernens als Berufs‑, Sozial- und Erwachsenenpädagogik in die Hochschulen drängten.

Die empirische Bildungsforschung dagegen hat die Kluft zwischen Forschung sowie Politik und Praxis als ein forschungsmethodisches Problem interpretiert. Um zu verhindern, dass evidenzbasierte Bildungsreform eine bloße Fiktion (vgl. Spiel 2009) bleibe, werden seit einigen Jahren, ergänzend vor allem zu Large Scale Assessments, vermehrt Interventions- und Implementationsstudien gefordert (vgl. Heid 2011, S. 504). Implementationsstudien wurden gar zu einer Bringschuld der Wissenschaft erklärt (vgl. Hasselhorn 2009). Sie haben in einem weiter gefassten Verständis zum Ziel, (pädagogische) Interventionen im Feld zu erproben und Bedingungen, Prozesse bzw. Wirkungen ihrer Implementierung zu untersuchen. Bei einem enger gefassten Verständnis müssen diese Interventionen vorab bereits bzgl. ihrer Wirkungsannahmen wissenschaftlich geprüft sein. Implementationforschung macht die Vermittlung bzw. die Übernahme von wissenschaftlich begründetem Wissen durch Politik und Praxis selbst zum Gegenstand von Forschung (vgl. Prenzel 2005). Grundlegend ist dabei die Annahme, dass Implementation immer mit Transformation einhergeht und daher mit Selektionen, Fehl- und Umdeutungen, Neu-Kontextuierungen, mithin mit „Implementationsbrüchen“ zu rechnen ist (van Ackeren et al. 2011, S. 174). Trotz teils vehementer Plädoyers werden Implementationsstudien in Überblicksdarstellungen allerdings immer noch als Desiderat bewertet. Diese Einschätzung findet sich für die Unterrichtsforschung bereits bei Gräsel und Parchmann (2004, S. 197). Hasselhorn und Hasselhorn (2017, S. 51) merken in einem jüngeren Beitrag gar an, dass „eine eigenständige Implementationsforschung im Bereich der empirischen Bildungsforschung […] sich bisher […] nicht etabliert“ habe (so auch Tabak et al. 2012, S. 338).

Für die Suche danach, wie Wissenschaft auch für Bildungspraxis und -politik nützlich sein kann, drängen sich daher zwei Fragen auf, die den Fokus des Stichwortbeitrages bilden: Die erste Frage richtet sich auf die konzeptuelle und methodologische Diskussion zur Implementationsforschung, die den Anspruch erhebt, Erkenntnis- und Veränderungsinteressen zugleich zu verfolgen, indem sie mit den Mitteln der Forschung die Kluft zwischen Forschung und Praxis reduzieren will. Auf der Grundlage eines weiten Verständnisses von Implementationsforschung geben wir dazu im Abschn. 2 einen narrativen Literaturüberblick. Die zweite Frage richtet sich auf einen ausgewählten Schlüsselaspekt der Implementationsforschung, nämlich die Einflussfaktoren auf Implementationen. Im Abschn. 3 wird hierzu ein Überblick über empirische Befunde zu hemmenden und förderlichen Einflussfaktoren auf Implementationsprozesse und -ergebnisse gegeben. Dabei orientieren wir uns an einem engen Verständnis von Implementationsforschung und beschränken uns auf solche Studien, in denen Interventionen zur Verbesserung von Lehr-Lernprozessen in organisierten Bildungskontexten umgesetzt werden, für deren Wirkungen wissenschaftliche Evidenz vorliegt. Hierfür wurde ein gesonderter, systematischer Literaturüberblick vorliegender empirischer Befunde erarbeitet, der sich – anders als der breit angelegte, narrative Überblick in Abschn. 2 – ausschließlich auf einen Literaturcorpus zu Einflussfaktoren beschränkt, verbunden mit transparenten Kriterien für Ein- oder Ausschluss. Betrachtet man beide Fragen in ihrem Zusammenhang, so sucht der Beitrag auszuloten, inwieweit Implementationsforschung nicht nur Potenzial für eine wissenschaftlich fundierte Verbesserung von Politik und Praxis besitzt, sondern darüber hinaus die Möglichkeit bietet, im Sinne Kants (1992, S. 45 f.) Theorien über die Bedingungen der Möglichkeit der Verbesserung von Politik und Praxis mit den Mitteln der Wissenschaft in empirischen Studien zu entwickeln und zu prüfen (vgl. auch Heid 2011, S. 504).

2 Theoretische und methodische Herausforderungen der Implementationsforschung – Ein narrativer Literaturüberblick

Recherchiert man Beiträge zur Implementationsforschung in einem weiten Sinn und bezieht die internationale Forschung benachbarter Disziplinen mit ein, stößt man auf eine überaus lebendige, seit fast vier Jahrzehnten geführte Diskussion über Strategien zur Unterstützung der Implementation wissenschaftlicher Erkenntnisse durch Politik und Praxis, die seit mehr als einem Jahrzehnt auch in der Bildungsforschung aufgegriffen wird. In diesem Umfeld hat sich eine Implementation-Science-Bewegung (vgl. Fixsen et al. 2005) etabliert, die ihren Ausdruck in wissenschaftlichen VereinigungenFootnote 1, einschlägigen Publikationsorganen (z. B. die Zeitschriften „Implementation Science“ und „Translational Science“) und gelegentlich auch in Studiengängen findet (vgl. Ullrich et al. 2017). Beklagt wurde – und wird nach wie vor – ein Mangel an Evidenz, wie Implementation praktisch gelingen kann (z. B. Goldman et al. 2001, S. 1593; Spiel et al. 2018, S. 339). Im Folgenden zeichnen wir die konzeptuelle und methodologische Debatte zu der Frage nach, wie Implementationsforschung Erkenntnis- und Veränderungsinteressen zugleich bedienen möchte, welche Annahmen dabei geteilt werden und wo offene Fragen fortbestehen. Als Schwerpunkte der Diskussion wurden die Themen „Selbstverständnis der Implementationsforschung“, „Stellenwert von Theorien, Modellen und Handlungsrahmen“, „Untersuchungsdesigns“, „Anforderungen an statistische Analysen sowie Datenqualität“ sowie „ethische Fragen“ ausgewählt. Entsprechend wurden systematische Literaturrecherchen zu den Suchbegriffen „theor* of implement*“/„implementation theor*“, „framework of implement*“/„implementation framework“, „model of implement*“/„implementation model“, „implementation (research) AND ethi*“ in den Datenbanken Fachportal Pädagogik, ERIC, PSYNDEX und PsycINFO durchgeführt. Beiträge aus den Gesundheits- und den Sozialwissenschaften wurden nicht ausgeschlossen. Schließlich wurde die identifizierte Literatur gemäß den Schwerpunkten kategorisiert und nach den Prinzipien eines narrativen Literaturüberblicks (vgl. Robinson und Lowe 2015) aufbereitet.

2.1 Begriffliche Einordnung

Vielfältige Forschungsansätze beschäftigen sich mit der Vermittlung und Rezeption wissenschaftlichen Wissens in Politik und Praxis. Dazu gehören neben der Implementationsforschung die Diffusionsforschung, die Evaluationsforschung, die Transfer- und Scaling-up- sowie die Disseminationsforschung. Die DiffusionsforschungFootnote 2 legt ihren Fokus auf die Beobachtung der gleichsam „natürlichen“, nicht von mandatierten Akteuren des Bildungssystems vorangetriebenen Verbreitung von Innovationen in der pädagogischen Fläche. In gewisser Weise leistet die Bildungsberichterstattung einen elementaren Beitrag zur Diffusionsforschung, wenn sie z. B., wie aktuell, die Verbreitung digitaler Medien in Lehr-Lernkontexten der Erwachsenen- und Weiterbildung im Zeitverlauf dokumentiert (vgl. Schmid et al. 2017). Die EvaluationsforschungFootnote 3 konzentriert sich auf die Bewertung eines Programms oder einer Reform zur Verbesserung pädagogischer Praxis (vgl. Kuper 2005). Die Transfer- und Scaling-up-ForschungFootnote 4 untersucht, wie durch Top-Down‑, Bottom-Up- oder hybride Strategien (vgl. Schneider und McDonald 2007b; Gräsel 2010) Interventionen für eine (flächendeckende) Nutzung bereitgestellt werden können; im Falle der Scaling-up-Forschung insbesondere auch für erweiterte Nutzerzahlen, -gruppen und -settings. Zur DisseminationsforschungFootnote 5 lassen sich Aktivitäten zählen, in denen spezifische Akteure versuchen, forschungsbasiertes Wissen in der Gesellschaft zu verbreiten und dies zu erforschen, in denen also die Kommunikation evidenten Wissens im Vordergrund steht, das i. d. R. zielgruppen- und kontextspezifisch aufbereitet wird. Im Bildungsbereich leisten dies Institutionen wie das What-Works-Clearing-House, das Clearing-House Unterricht an der Technischen Universität München oder das Netzwerk „Evidence Informed Policy and Practice in Education in Europe“ (EIPPEE), die Forschungswissen in systematischen Reviews bündeln. Die Disseminationsforschung hat mit der Transferforschung gemein, dass beide vor allem das Handeln der Anbieterseite untersuchen, da eine „Übergabe“ im Fokus steht (vgl. Graham et al. 2006, S. 16), weniger die Seite der Nutzenden, die in der Implementationsforschung (vgl. Kremer 2003, S. 71) wie in der Scaling-up-Forschung besondere Beachtung finden. Gegenüber den skizzierten Forschungslinien widmet sich die Implementationsforschung dem Prozess der Umsetzung einer Intervention in einem bestimmten Setting, mit dem Ziel, die institutionellen, organisationalen und personalen Bedingungen zu identifizieren, unter denen diese erfolgreich implementiert werden kann. So betonen Damschroder et al. (2013, S. 1 – Hervorh. i. Orig.): „Implementation research focuses on understanding how programs are implemented, translated, replicated, and disseminated in ‘real-world’ settings. It expands the focus of traditional research from discovering what works to also discovering how the implementation works in specific contexts“. Von Implementationsforschung im weiteren Sinne kann dann gesprochen werden, wenn zu Fragen der (Wirksamkeit von) Implementation pädagogischer Reformen und Interventionen geforscht wird. Dabei sind zwar meist zumindest Teile der Reformen wissenschaftlich legitimiert, aber nicht zwingend bzgl. ihrer Wirkungsannahmen auf Evidenz geprüft. Von Implementationsforschung im engeren Sinne sprechen wir hingegen dann, wenn die Inhalte der zu implementierenden Reformmaßnahmen nicht nur theoretisch fundiert sind, sondern bereits Evidenz für ihre Wirksamkeit vorliegt.

Die vorgenommenen begrifflichen Abgrenzungen sind nicht trennscharf und unumstritten, werden aber weithin geteilt. Die Implementationsforschung widmet sich anders als die Diffussionsforschung gezielten Interventionen in die pädagogische Praxis unter aktiver Beteiligung der Wissenschaft. Anders als die Disseminationsforschung legt die Implementationsforschung den Fokus nicht vornehmlich auf die Kommunikation wissenschaftlichen Wissens, sondern auf seine Umsetzung unter Alltagsbedingungen. Gegenüber einer Interventionsforschung, die laborähnliche Bedingungen im Feld herstellt, um die gezielte Veränderung abhängiger Variablen durch die Variation unabhängiger (personaler oder institutioneller) Variablen kausal interpretieren zu können (vgl. Hascher und Schmitz 2010, S. 7 f.), ist die Implementationsforschung vor allem an den spezifischen (Gelingens‑)Bedingungen für die erfolgreiche Einführung von Reformen und Interventionen in der Praxis interessiert (zu ihrer Integration s. Spiel et al. 2018).

2.2 Modelle und Handlungsrahmen in der Implementationsforschung

Einen zweiten Schwerpunkt der Diskussion bildet die Entwicklung von Modellen oder Handlungsrahmen, die Implementationsprozesse beschreiben, erklären bzw. anleiten können. Überblicksdarstellungen enthalten diverse Modelle, die

  1. a)

    auf Einflussfaktoren und/oder Prozesse von Implementationen bezogen sind (vgl. Nilsen 2015),

  2. b)

    die Relevanz institutioneller Rahmenbedingungen und/oder die Interessen handelnder Akteure behandeln,

  3. c)

    die unterschiedlichen Wissensformen in Forschung, Politik und Praxis herausstellen oder

  4. d)

    die Herausforderungen in der Koordination der Handlungen in sozialen Prozessen betonen (vgl. Eldredge et al. 2016).

Mit Einflussfaktoren des Implementationserfolgs beschäftigt sich etwa der Consolidated Framework for Implementation Research (CFIR; Damschroder et al. 2009), der hier beispielhaft erwähnt wird. Der CFIR unterscheidet insgesamt fünf Bereiche potenzieller Gelingensbedingungen der Implementation einer Intervention:

  1. 1.

    Charakteristika einer Intervention;

  2. 2.

    Charakteristika der äußeren Rahmenbedingungen (die Bedarfe und Ressourcen der Adressaten, der „Kosmopolitanismus“ der Organisation und die erwartbaren Incentives);

  3. 3.

    Merkmale der inneren Rahmenbedingungen wie z. B. sozialstrukturelle Merkmale der implementierenden Organisation oder ihres Implementationsklimas;

  4. 4.

    Merkmale der implementierenden Individuen; und schließlich

  5. 5.

    Merkmale des Implementationsprozesses.

Reviews über weitere Rahmenmodelle bieten Meyers et al. (2012), Tabak et al. (2012) sowie Nilsen und Bernhardsson (2019).

Die Diskussion um solche i. d. R. induktiv entwickelten Modelle hat manche ihrer systematischen Grenzen verdeutlicht. So wird „Kontext“ zumeist unterspezifiziert und mit „Setting“ gleichgesetzt (wie im CFIR) und auf all das bezogen, was nicht zur Intervention selbst gehört, ohne aber z. B. an etablierte Unterscheidungen von Mikro‑, Meso- und Makroebenen anzuschließen (vgl. Nilsen und Bernhardsson 2019, S. 14, S. 18 f.). Zudem werden fördernde und hemmende Einflussfaktoren oft nicht danach unterschieden, ob sie aus der jeweils gewählten theoretischen Perspektive als „variable Größen“ und prinzipiell veränderbar gelten (wie z. B. das Handeln der Implementierenden und der Nutzenden) oder aber als „Konstanten“ (wie etwa die „Kultur“ einer Organisation oder die institutionelle Struktur eines Bildungsbereichs), die sich oft eher langsam wandeln als dass sie gezielt verändert würden. Schließlich fehlt es weitgehend an einer Spezifizierung der Wirkmechanismen, mit denen die jeweiligen Faktoren Implementationsprozesse und -ergebnisse beeinflussen (vgl. Nilsen und Bernhardsson 2019, S. 2).

In einer Befragung von über 200 Implementationsforschenden aus insgesamt 12 Staaten durch Birken et al. (2017) zeigte sich, dass Rahmenmodelle vor allem aufgegriffen wurden, um Implementationsprozesse planen, Einflussfaktoren und Determinanten identifizieren und die Datenerhebung anleiten zu können. Nur 15 % der Befragten gaben an, theoretische Annahmen über Implementationsprozesse und ihre Wirkungen prüfen zu wollen (vgl. auch Munter et al. 2016). Insgesamt scheinen bisherige Rahmenmodelle der Implementationsforschung stärker durch den Wunsch zur Verbesserung von Politik und Praxis motiviert zu sein als durch einen Anspruch auf Theorieentwicklung oder das Absichern von Erklärungsansätzen, die über die ‚lokalen‘ Theorien hinausgehen, die auf das Treatment bezogen sind. Insofern sind bisher vorliegende Modelle oftmals nicht von Frameworks als bloßen Handlungsanleitungen zu unterscheiden (vgl. Albers et al. 2017).

2.3 Untersuchungsdesigns für Implementationsstudien

Die Diskussion um angemessene Untersuchungsdesigns von Implementationsstudien im Bildungsbereich hat wichtige Impulse aus der medizinischen Forschung erhalten, in der miteinander verschränkte Interventions- und Implementationsstudien eine lange Tradition haben. Typisch sind hier sogenannte „Efficacy“-Studien, in denen die Wirksamkeit einer nachweislich wirksamen Intervention unter optimalen (Feld‑)Bedingungen erprobt wird. In „Effectiveness“-Studien geht es um die Frage, ob die in Interventionsstudien unter laborähnlichen Bedingungen nachweisbaren Effekte auch unter Alltagsbedingungen erhalten bleiben, also z. B. dann, wenn nicht Forschende, sondern Praktiker die Intervention selbst durchführen, ggfls. auch für neue Adressatengruppen. Effectiveness-Studien versuchen zu klären, wer von der Intervention profitiert und wie lange nach der Intervention diese Wirkungen in welchen Alltags-Kontexten anhalten (vgl. Flay 1986, S. 455). Auch Fragen nach den möglichen ‚Nebenwirkungen‘ (vgl. Gräsel und Parchmann 2004, S. 205) und personalen und kontextuellen ‚Gelingensbedingungen‘ werden bisweilen adressiert. Schließlich wird auch die Frage behandelt, ob die Wirkungen auch vor dem Hintergrund variabler Implementationsstrategien erhalten bleiben bzw. wie lange und wie weitreichend diese sind (vgl. Landsverk et al. 2012, S. 226 f.).

In solchen gestuften Forschungsstrategien haben randomisierte Feldstudien im Kontrollgruppendesign (Randomized Controlled Field Trials/RCFTs) einen hohen Stellenwert. Connolly et al. (2018) berichten für die Jahre 1980–2016 von mehr als 1000 RCTs im Feld der Bildung, mit steigender Tendenz, besonders häufig in den USA, zahlreich auch in Großbritannien, deutlich seltener in Kontinentaleuropa. Selbstverständlich sind RCFT’s nicht die einzige Option für das Design von Implementationsstudien, insbesondere wenn es um die Wahrnehmungs‑, Rezeptions- und Nutzungslogiken, also um die „Köpfe“ implementierender Akteure geht. Und umgekehrt sind nicht alle RCFTs Implementationsstudien im hier explizierten engeren Verständnis, da sie gelegentlich auch, wie in der Pharmaindustrie, aus vorwiegend kommerziellen Interessen für Interventionen durchgeführt werden, bei denen die Zulassung von Therapien für zahlungskräftige Kunden im Vordergrund steht, nicht ihre breite Implementierung für alle (Rothwell et al. 2016). Das besondere Potenzial von RCFTs für Implementationsstudien besteht jedoch in der experimentellen Prüfung theoretisch begründeter Annahmen unter Feldbedingungen (vgl. Connolly et al. 2018).

Gegen RCFTs wurde eingewandt, dass die Theorieprüfung zumeist auf Treatment und Outcome beschränkt sei und keine Erkenntnisse zum Implementationsprozess generiere. Diese Kritik führte zu einem Plädoyer für Mixed-Methods-Designs auch in der Implementationsforschung (vgl. Green et al. 2015). Über Mixed-Method-Designs wird in der empirischen Bildungs- und Sozialforschung seit einigen Jahrzehnten intensiv diskutiert. Eine entfaltete methodologische Debatte (vgl. Creswell und Creswell 2018) hat Leistungen und Grenzen einer sequenziellen oder simultanen Verknüpfung quantitativer und qualitativer Erhebungs- und Auswertungsverfahren in explorativen oder explanativen Studien aufgezeigt. In der Implementationsforschung eröffnen Mixed-Methods-Designs u. a. eine „dichte Beschreibung“ der Implementationsprozesse und der Interessen der beteiligten Akteure, gestützt auf semistrukturierte Interviews, standardisierte Fragebögen, Fokusgruppen, Dokumentenanalysen oder (nicht-)teilnehmende Beobachtung. Eine solche Forschungsstrategie bietet Optionen für die Steigerung der Adaptivität von Interventionen, für die Optimierung von Sampling-Strategien, für eine verbesserte Beurteilung der ökologischen Validität von Interventionen, für die Analyse der Interaktion von Akteuren und damit für die Prüfung von Kausalannahmen zu Wirkungen und Nebenwirkungen von Interventionen im Mehrebenensystem der Bildung (vgl. Palinkas 2014).

Ein weiterer Einwand betrifft die Verallgemeinerbarkeit der Befunde von RCFTs. In RCFTs erfolgt eine zufällige Zuweisung von Personen zu Untersuchungsbedingungen. Dies ließe sich auf die institutionellen und organisationalen Rahmenbedingungen erweitern, unter denen eine Implementation erfolgen soll. Auch auf dieser Ebene könnten Randomisierungen erfolgen. Allerdings wird Connolly et al. (2018, S. 289) zufolge die Verallgemeinerbarkeit von Befunden auf andere Kontexte bisher kaum diskutiert. Allenfalls differentielle Analysen für Subgruppen ließen sich als ein erster Schritt in diese Richtung finden.

Schließlich wird die Bedeutung von Umsetzungstreue (Treatment-Fidelity), die für RCFTs zur Sicherung interner Validität und zur Replizierbarkeit der Befunde unverzichtbar ist, in der Implementationsforschung inzwischen differenzierter bewertet. Umsetzungstreue bildete als Qualitätsmerkmal einer Intervention innerhalb der Implementationsforschung längere Zeit einen eigenen Forschungsschwerpunkt (z. B. Stains und Vickrey 2017). Zur Messung der Umsetzungstreue finden sich oftmals Kriterien wie die Befolgung von Vorgaben (adherence), die Dosierung (dose), die Qualität der Übermittlung (quality of delivery), die Ansprechbarkeit bzw. das Engagement der Beteiligten (responsiveness) oder die Differenzierung des eingeführten Programms (program differentiation) (vgl. Allen et al. 2012, S. 282, S. 286). Inzwischen aber wird die Beachtung von Anforderungen externer Validität stärker betont, die zumeist die Adaptivität eines Treatments erfordert (vgl. Southam-Gerow und McLeod 2013).

2.4 Herausforderungen an Datenqualität und statistische Analysen

Unabhängig davon, ob Implementationsstudien auf Theorieprüfung zielen, ist die psychometrische Qualität der erfassten Variablen für die Belastbarkeit der Befunde von fundamentaler Bedeutung. Dies gilt zumal dann, wenn Variablen im Prozess der Implementation und in Abstimmung mit den Akteuren im Feld neu eingeführt und entsprechende Daten erhoben werden (vgl. Lyon et al. 2017). In solchen Fällen werden ideographische (d. h. sich aus den konkreten Fällen ergebende und ggf. die Interessen der Stakeholder berücksichtigende; vgl. Lewis et al. 2015) und nomothetische (sich aus der Prüfabsicht theoretischer Annahmen ergebende) Datenerhebungen (vgl. Lyon et al. 2017) miteinander verknüpft. Die Frage der Datenqualität wird forciert dadurch, dass eine ökonomische Erfassung von Variablen angesichts begrenzter Ressourcen bei Organisationen, Akteuren und Adressaten oft unabweisbar ist. Allerdings ist die Diskussion um das Measurement in der Implementationsforschung noch wenig entwickelt (vgl. Proctor und Brownson 2012, S. 261).

Einen weiteren Diskussionschwerpunkt bilden Fragen der statistischen Analyse von Daten aus Implementationsstudien, insbesondere dann, wenn sie als Mixed-Methods-Studien durchgeführt werden. Für RCFTs ergibt sich eine erste Herausforderung bereits aus der Entscheidung, ob die randomisierte Zuweisung der Untersuchungseinheiten zu Treatmentbedingungen auf der Ebene von Individuen oder von Clustern durchgeführt wird (vgl. Connolly et al. 2018, S. 285). Der Mehrwert von RCFTs wurde häufig in einem günstigen Verhältnis von Stichprobenumfang und statistischer Power gesehen (Slavin 2002, S. 17). Wenn aber mit Cluster-Randomisierungen gearbeitet wird, weisen die Daten regelmäßig eine Mehrebenenstruktur auf, die in statistischen Analysen angemessen berücksichtig werden muss. Und in Mixed-Methods-Designs sind die erfassten Einflussfaktoren und Outcome-Variablen in aller Regel auf unterschiedlichen Handlungsebenen (z. B. Schulleitung und Kollegium, Lehrerinnen und Schüler) angesiedelt. Sie erfordern also eine integrierte und nicht nur additive Analyse quantitativer und ggf. auch qualitativer Daten.

2.5 Ethische Prinzipien und moralisches Handeln in Implementationsstudien

Ethische Standards empirischer Forschung wurden insbesondere in der experimentellen Forschung entwickelt und zielen auf den Schutz von Persönlichkeitsrechten sowie auf das informierte Einverständnis von Studienteilnehmenden mit der Erhebung und der Verwendung von Daten. Solche Standards gelten selbstverständlich auch in Implementationsstudien. Da Implementationsstudien aber nicht allein der Forschung dienen, sondern immer auch auf die Veränderung sozialer Praxen gerichtet sind, stellen sich weitergehende ethische Fragen. Die Diskussion zur Implementationsforschung hat gezeigt, dass eine einfache Extrapolation von Standards z. B. der (klinischen) Forschung in das Praxisfeld ebensowenig möglich ist wie umgekehrt eine bloße Übertragung berufsethischer Standards in das Forschungsfeld (vgl. Gopichandran et al. 2016).

Das betrifft zunächst etablierte Standards wie das informierte Einverständnis der untersuchten Personen, das bei Cluster-Randomisierungen, wie sie in Implementationsstudien verbreitet sind, schwierig einzuholen ist (vgl. Gopichandran et al. 2016, S. 7). Zudem werden Implementationsstudien häufig partizipativ gestaltet, mit Spielraum für Adaptivität. Damit geht einher, dass ggf. nicht alle ethisch relevanten Fragen vorab benannt und entschieden werden können, sondern iterativ bearbeitet werden müssen, z. B. im Blick auf die Frage, ob geplante Randomisierungen angesichts der Bedarfe spezifischer Adressatengruppen weiterhin gerechtfertigt werden können (vgl. Goodyear-Smith et al. 2015, S. 2, S. 5).

In Implementationsstudien übernehmen Forschende nicht nur ethische Verantwortung gegenüber den teilnehmenden Individuen, sondern auch gegenüber sozialen Gruppen, Organisationen und deren Umfeld. Mit diesen Studien geht der Anspruch einher, dass sich nicht nur die handelnden, sondern auch die verantwortlichen (politischen) Akteure zumindest zur Unterstützung der Implementation verpflichten (vgl. Spiel et al. 2018). Dies macht es erforderlich, in ethische Verfahrensweisen nicht nur jene einzubeziehen, von denen Daten erhoben werden, sondern auch weitere „Stakeholder“ (vgl. Douglas et al. 2015, S. 1830 f.; Gopichandran et al. 2016, S. 5), insbesondere wenn es sich um langjährige Prozesse handelt, in denen sich möglicherweise der rechtliche Status und die Entscheidungskompetenz der Untersuchten ändern. Schließlich werden in Implementationsstudien inzwischen häufig digitale Medien genutzt (vgl. Waycott et al. 2015). Wenn anfallende Daten für personalisierte Interventionen genutzt werden, stellt sich u. a. die Frage, wann und unter welchen Bedingungen die Erforschten Zugang zu „ihren“ Daten erhalten, um autonom über die Fortsetzung ihrer Teilnahme entscheiden zu können (vgl. Skär und Söderberg 2018, S. 1044, S. 1046). Eine besondere ethische Herausforderung ergibt sich ferner aus der Tatsache, dass Implementationsstudien häufig Befunde aus einem kulturellen Kontext in andere Kontexte übertragen. Offen ist dann, ob forschungs- und berufsethische Standards in beiden Kulturen geteilt werden. Hier werden vorbereitende oder begleitende ethnographische Studien empfohlen, die die Perspektiven aller Beteiligten einbeziehen und die Risiken kultureller Kolonisation begrenzen (vgl. Sutoris 2018).

In der einschlägigen Literatur liegen bislang nur wenige Studien vor, in denen das moralische Handeln der Forschenden in Implementationsprozessen erfasst wird. Bei den wenigen Ausnahmen wird deutlich, dass Forschende und politisch Handelnde ethische und evidenzorientierte Erwägungen z. B. für die Beteiligung von Personen mit spezifischen Risiken unterschiedlich gewichten (vgl. Beima-Sofie et al. 2019). Kontroverse „Fälle“ könnten helfen, Forschende auf ethisch reflektierte und moralisch vertretbare Entscheidungen in Implementationsstudien vorzubereiten (vgl. Weidema et al. 2012).

3 Einflussfaktoren auf die Implementation evidenzbasierter Lehr-Lernangebote – Ein systematischer Literaturüberblick zu einem Schlüsselaspekt der Implementationsforschung

Während im vorigen Abschnitt Schwerpunkte der konzeptuellen und methodologischen Diskussion zur Implementationsforschung nachgezeichnet wurden, greifen wir im Folgenden einen Schlüsselaspekt der empirischen Implementationsforschung mit der Frage auf: „Welche Faktoren bedingen, dass die Implementation einer evidenzbasierten Intervention in reale pädagogische Handlungsfelder (nicht) gelingt“, so dass es ggf. zu „Implementationsbrüchen“ (van Ackeren et al. 2011, S. 174) kommt?

Zur Frage der Einflussfaktoren auf Implementationen in Bildungskontexten findet man bereits Einzelstudien (z. B. Eickelmann 2011; Long et al. 2016; Hetfleisch et al. 2017), konzeptuelle Arbeiten (z. B. Beelmann und Karing 2014; Hasselhorn et al. 2014) sowie einige Reviews (z. B. Durlak und DuPre 2008; Baeten und Simons 2014). Hier ergänzen wir diese Literatur um einen systematischen Überblick empirischer Befunde zu der spezifischen Forschungfrage, welche Faktoren in pädagogischen Handlungsfeldern organisierten Lehrens und Lernens die (auch) mikrodidaktische Implementation evidenzbasierter Lehr-Lernangebote durch pädagogische Professionelle (z. B. Lehrende) beeinflussen. Dabei berücksichtigen wir anders als vorherige Ansätze erstens alle Bildungsbereiche des organisierten Lehrens und Lernens – von der Frühpädagogik bis hin zur Erwachsenen- und Weiterbildung. Zweitens verzichten wir darauf, die Recherche auf spezifische Implementationsgegenstände (wie sonst häufig, z. B. Nathan et al. 2018) oder bestimmte Publikationsorgane einzugrenzen. Drittens setzen wir das Recherche-Enddatum auf den 31. Juli 2019 (vgl. Abb. 1), ohne zeitliche Limitation für die Vergangenheit. Neben diesen gezielt aufgehobenen Begrenzungen wurden jedoch auch Schwerpunkte im Sinne der Forschungsfrage gesetzt: So fanden nur empirische Studien Berücksichtigung, die Einflussfaktoren zum primären Untersuchungsgegenstand hatten. Zudem wurden vor dem Hintergrund der oben differenzierten Forschungslinien nicht explizit nach Transfer‑, Diffusions‑, Disseminations- oder Evaluationsforschung gesucht, sondern Einflussfaktoren auf Implementationen fokussiert, die Lehr-Lernangebote zum Gegenstand haben. Da uns die Bedingungen der Möglichkeit wissenschaftlich fundierter Verbesserungen interessieren, wurde nur empirische Implementationsforschung im engeren Verständnis (s. oben) einbezogen. Zudem entschieden wir uns, nur Lehr-Lernangebote zu berücksichtigen, die von professionellen PädagogInnen – nicht z. B. von Eltern oder Peers – implementiert werden, um im Ergebnis nicht personenbezogene Einflussfaktoren von Akteuren ausweisen zu müssen, die nicht typisch für das professionelle Bildungssystem sind. Diese Suchstrategie führt dazu, dass die Befunde selbstredend nur einen spezifischen Ausschnitt aktueller Erkenntnisse der Implementationsforschung zu Einflussfaktoren darstellen und keinen Anspruch auf Vollständigkeit erheben; zumal aus forschungspragmatischen Gründen alle Implementationsforschung aus der Suche ausgeschlossen werden musste, die ohne den Terminus „implement*“ in den relevanten Suchabschnitten auskommt (z. B. nur von „Transfer“ spricht, damit aber de facto Implementation meinen könnte). Die erfassten Studien werden umfassend in Tab. 2 des Anhangs beschrieben. Als Interpretationsrahmen für die Ergebnisse wurde die Grundheuristik des Angebots-Nutzungs-Wirkungs-Modells (ANW-Modell) für organisierte Lehr-Lernsituationen in Anlehnung an Helmke (2015) herangezogen.

3.1 Methodisches Vorgehen

Ende März 2018 fand ein erster Durchgang der systematischen Literaturrecherche statt, auf die Anfang August 2019 ein Update für den Erscheinungszeitraum April 2018 bis 31. Juli 2019 erfolgte. Tab. 1 enthält einen Überblick der in fünf Datenbanken zu beiden Recherchezeitpunkten jeweils identisch umgesetzten Suchprozeduren.

Tab. 1 Übersicht Recherchestrategie der Datenbankrecherche

Die sich an die Datenbankrecherche anschließenden Arbeitsschritte sind in Abb. 1 illustriert. Umgesetzt wurden diese von der Person aus der Autorengruppe, die auch die Datenbankrecherchen durchgeführt hatte.Footnote 6

Abb. 1
figure 1

Flussdiagramm zur Illustration des Gesamtvorgehens zum systematischen Literaturüberblick

Aufgrund der in Abb. 1 (Schritt 3a & 4b) festgelegten Einschlusskriterien konnten von den dublettenbereinigten 17.715 Datenbankgesamttreffern nur 33 in die Auswertung eingehen, die zwischen 2003 und 2019 in referierten Zeitschriften publiziert wurden. Denn im Schritt 3a fielen knapp 90 % der Datenbanktreffer allein deshalb heraus, weil sie sich auf Handlungskontexte wie z. B. Gesundheitswesen, Sozial- und Familienarbeit, Wirtschaft oder Kriminologie beziehen – nicht aber auf Kontexte organisierten Lehrens und Lernens. Von den verbleibenden rund 10 % an Publikationen wurden rund 25 % ausgeschlossen, weil sie keine empirischen Studien, sondern konzeptuelle Beiträge, Erfahrungsberichte, Überblicksbeiträge oder Sonstiges umfassten. Ausgeschlossen wurden Publikationen auch, wenn der Stichprobenumfang auf Individualebene bei N ≤ 10 lag oder nicht präzisisert war, sie Einflussfaktoren auf Implementation nur am Rande behandelten, der fokussierte Implementationsgegenstand nicht (auch) auf die Mikroebene organisierten Lehrens und Lernens abhob und kein Lehr-Lernangebot umfasste, Implementierende keine professionellen PädagogInnen waren und/oder der Implementationsgegenstand nicht eindeutig als wissenschaftlich geprüft deklariert wurde. Ausgeschlossen wurden Publikationen aus forschungspragmatischen Gründen, wenn im Abstract unklare oder keine Angaben zu in Abb. 1 (Schritt 3a) aufgelisteten Einschlusskriterien erkennbar waren.

3.2 Beschreibung und Deutung des inhaltsanalytisch ausgewerteten Studiencorpus

Die final identifizierten 33 Publikationen beziehen sich auf 30 unterschiedliche empirische Studien (vgl. Übersicht in Tab. 2 im Anhang). Von diesen wurden 25 im pädagogischen Handlungsfeld Schule (davon zwei in der Lehrerbildung) und 5 im Kindergarten durchgeführt. Insbesondere die angelsächsischen Ganztagsschulangebote (19 Studien durchgeführt in den USA, zudem insgesamt 7 aus Australien, Großbritannien etc.) erlauben umfangreichere pädagogische Interventionen anhand größerer, stabiler Personengruppen (20 Studien mit mehr als 150 Teilnehmenden auf Individualebene – B, C, E, F, G, H, I, J, K, L, M, N, O, U, W, X, Z, a, b/c, f).

Insgesamt wurden in 11 Publikationen (B, M, O, Q, R, S, V, W, Z, e, g) Daten von Akteuren nicht nur einer pädagogischen Handlungsebene erhoben. Das bedeutet jedoch nicht, dass diese Daten immer auch mehrebenenanalytisch ausgewertet wurden. Die Mehrebenenstruktur (d. h. mindestens zwei HandlungsebenenFootnote 7) findet in 11 Publikationen in quantitativen Analysen Berücksichtigung (A, C, F, O, P, R, T, Z, b, c, f). Dabei kann mit Blick auf den Stichprobenumfang Studie N Einflussfaktoren in einer Mehrebenenstruktur analysieren (– mehr als 30 Teilnehmende auf der 2. Ebene (N = 69 LehrerInnen) und mehr als 10 SchülerInnen je LehrerIn auf 1. Ebene (insg. N = 1721 SchülerInnen)). Insgesamt werden in 27 Publikationen statistische Auswertungen berichtet. Überwiegend werden Zusammenhänge zwischen jeweils nur zwei Merkmalen untersucht bzw. in separaten Analysen geprüft, kaum jedoch mediierende oder moderierende Zusammenhänge zwischen mehreren Variablen (Ausnahmen z. B. in den Studien Q, R, Z & f). In 10 Publikationen werden (auch) qualitativ inhaltsanalytische Auswertungen realisiert (s. Tab. 2 im Anhang).

Bei den Implementationsgegenständen sind genuin lehr-lernbezogene Interventionen im Sinne pädagogischer (Fach‑)Inhalte in der deutlichen Minderzahl: nur 6 Studien beschäftigen sich mit Mathematik, Leseverstehen, Classroom Management etc.: D, H, I, L, X, d. Blickt man auf die Länder und die Geldgeber der Studien, spiegeln möglicherweise die Implementationsgegenstände überwiegend problematische ‚soziale Epidemien‘, die vor Ort als besonders veränderungsbedürftig gelten: In den Studien, die in den USA (19 Studien) und Canada (1 Studie), Australien (1 Studie), Südafrika und Uganda (3 Studien) sowie den Bahamas (1 Studie) durchgeführt wurden, dominieren gesundheitsbezogene Interventionen (AIDS, ungewollte Schwangerschaft, Drogen, Übergewicht/Bewegungsmangel), in Skandinavien (3 Studien) z. B. Anti-Bullying Programme. Die Interventionen sind teils eingebunden in staatlich vorgegebene Curricula (z. B.: E) oder explizit staatlich gefördert und eingefordert (z. B.: F, G, K, U, b, c). Sie werden fast alle von Drittmittelgebern finanziert, die sich der Bekämpfung dieser gesellschaftlichen Nöte verschrieben haben (vgl. Tab. 2 im Anhang). Im Mittelpunkt vorliegender Implementationsstudien stehen also überwiegend Lehr-Lernangebote, die Gesundheit und prosoziales Verhalten durch gezielte Interventionen evidenzbasiert fördern und deren Einsatz als politisch gewollte, weil staatlich finanzierte Reaktion auf gesellschaftlich unerwünschte Deviationen verstanden werden können, nicht jedoch Lehr-Lernangebote, die einen Verbesserungsimpetus für Kernaufgaben des Bildungssystems beinhalten. Insgesamt scheint das forscherische Interesse an Einflussfaktoren auf Implementation im engen Sinne (s. oben) jedoch in den letzten Jahren deutlich anzusteigen. So befinden sich im Corpus doppelt so viele Publikationen aus den Jahren 2013 bis 2019 (22 Publikationen) gegenüber dem gesamten Zeitraum davor (11 Publikationen).

Unter den hier berücksichtigten Studien finden sich 8 RCFTs, deren Datenerhebung auf unterschiedlichen Methoden basiert (C, F, G, M, N, R/b/c, T, a); daneben finden sich mixed methods designs allerdings auch in Studien, die keine RCFT-Designs beinhalten (B, J, L, U, W, d, f). Methodisch besonders komplexe und in der Durchführung aufwändige Forschungsdesigns, mit deren Hilfe hinderliche und förderliche Einflussfaktoren auf Implementationsprozesse und -ergebnisse in (large scale) RCFT (mit mixed methods design) auf mehreren Ebenen analysiert werden können, scheinen vor allem dort zu entstehen, wo der Leidens- bzw. Rechtfertigungsdruck von Praxis bzw. Politik besonders hoch ist. Die Reduktion der Wissenschafts-Praxis-Kluft durch eine Suche nach evidenzbasierten Abhilfe-Möglichkeiten in Form von hilfreichem Veränderungswissen ist jedenfalls häufig in den Einleitungskapiteln der entsprechenden Studien zu finden (z. B.: E, G, K, M, P, Q, R/b/c, S, W, a, e). Die hier untersuchten Implementationsstudien scheinen also nicht vornehmlich theorieprüfend oder -generierend und damit wissenschaftsimmanent motiviert zu sein. Vielmehr scheint die (Handlungsnotwendigkeit der) Praxis der Wissenschaft vorauszueilen und diese zu begründen.

Für diese Deutung spricht auch, dass die meisten identifizierten Studien einen sich erst allmählich festigenden Forschungsdiskurs widerspiegeln, keine ausgereifte „Implementation Science“. Mehrere Beobachtungen begründen diese Einschätzung: So wird der bisher bereits erarbeitete ‚genuine‘ Theorie- und Modellstand der „Implementation Science“ (s. oben, Abschn. 2) wenig rezipiert: nur 12 von 33 Publikationen ziehen zum Verorten der untersuchten Einflussfaktoren in Implementationskontexten explizit Modelle heran (B, J, M, N, O, P, Q, R, S, T, a, f). Selbst wenn eine Bezugnahme erfolgt, wird meist nur auf Modelle rekurriert, die den Einfluss der Lernenden auf den Implementationserfolg nicht oder nur am Rande in den Blick nehmen (Ausnahmen: J, N). Die oben angesprochenen Aspekte der Ethikdiskussion, die für die Implementationsforschung spezifisch sind, werden nur in einem Ausnahmefall (e) aufgegriffen. Schließlich verweist eine zusätzlich durchgeführte Recherche der Forschungsprofile aller (Co‑)AutorInnen der identifizierten 33 Publikationen eher auf Fachexpertise zu den Implementationsgegenständen denn auf Expertise zum Thema „Implementationsforschung“.

3.3 Befunde: Einflussfaktoren auf Implementation evidenzbasierter Lehr-Lernangebote

Zur Verortung der förderlichen und hemmenden Einflussfaktoren wurde die Grundheuristik des Angebots-Nutzungs-Wirkungs-Modells herangezogen. Mit diesem Modell werden pädagogische Implementationssituationen – analog zu organisierten Lehr-Lernsituationen – als mehrfache, je eigenlogische Co-(Re‑)Konstruktions- und Nutzungsprozesse verschiedener Akteure, z. B. Lehrende sowie Lernende, konzeptualisiert (vgl. zur Übertragung der ANW-Grundheuristik auf Implementationssituationen Hetfleisch 2018). Durch diese Reflexionsfolie finden nicht nur potentielle Einflussfaktoren unterschiedlicher Handlungsebenen (Mikro‑, Meso- & Makroebene) Berücksichtigung, sondern es werden auch potentielle Einflussfaktoren analysierbar, die in anderen implementationsbezogenen Rahmenmodellen nicht (in dieser Ausdifferenzierung) modelliert sind – etwa die Lernenden als ‚Endnutzer‘ evidenzbasierter Lehr-Lernangebote. Deren Wahrnehmung und Rezeption sowie deren Nutzungsweisen der zu implementierenden Lernangebote vor dem Hintergrund (1) ihrer Lernvoraussetzungen, (2) ihrer Sozialisations- und Lebenskontexte sowie (3) implementations-, d. h. lehr-lernsituationsspezifischer Kontextbedingungen sind regelmäßig nicht Kernbestandteil von ImplementationsmodellenFootnote 8.

Insgesamt werden 194 förderliche bzw. hemmende Faktoren in den 33 Publikationen berichtet (s. Tab. 3 im Online-Anhang). Inhaltlich gebündelt resultierten 86 verschiedene Einflussfaktoren, die in den Abb. 2 und 3 entlang der Heuristik des Angebots-Nutzungs-Wirkungs-(ANW)-Modells verortet sind.

Abb. 2
figure 2

ANW-Modellheuristik zur Verortung der als förderlich berichteten Einflussfaktoren

Abb. 3
figure 3

ANW-Modellheuristik zur Verortung der als hemmend berichteten Einflussfaktoren

Betrachtet man die in den beiden Abbildungen zusammengefassten Ergebnisse zu den berichteten förderlichen (Abb. 2) und hemmenden Einflussfaktoren (Abb. 3)Footnote 9, so fallen relative Lücken bei den Feldern „Voraussetzungen“, „Wahrnehmung und Rezeption“ sowie „Nutzung“ der Lernenden ins Auge. Dies markiert eine auffällige Diskrepanz zwischen der hohen Wirkungserwartung, die mit dem Motiv zusammenhängt, einer bestimmten (problembehafteten) Klientel zu neuen Verhaltensmöglichkeiten verhelfen zu wollen, und der tatsächlich geringen Empirie zur Untersuchung von Einflussfaktoren bei dieser Klientel. Die Rolle der ‚Endnutzer‘ von Implementationsangeboten ist nicht häufig Gegenstand der bisherigen Implementationsforschung (Ausnahmen: C, J, N, V, W, Y, e, f, g sowie die Korrelationsstudie DFootnote 10). Besonders intensiv beforscht und empirisch besonders häufig als förderliche Einflussfaktoren berichtet werden Kontextfaktoren wie die ideelle Unterstützung der Implementierenden durch die Organisationsleitung (12 mal berichteter Faktor), die Unterstützung durch finanziell-materielle Ressourcen (11 mal berichtet) sowie ein positives Einrichtungsklima (5 mal berichtet), aber auch Trainings für Implementierende (15 mal berichtet, vgl. neben „Kontext“ zudem Feld „Implementationsangebot“ in Abb. 2).

Die untersuchten Implementationsstudien scheinen eher aus einer „top down“-Perspektive die chronologisch plausiblen „Nadelöhre“ zu fokussieren, ohne sie auch theoretisch zu reflektieren. Der Blick auf die Adressaten als Träger von Einflussfaktoren der Implementation scheint ebenfalls noch kaum theoretisch fundiert oder empirisch belegt zu sein. Dies mag einerseits überraschen, zumal die Lernenden mit ihren Lernvoraussetzungen, Rezeptions- und Nutzungslogiken den Kern bzw. Ausgangspunkt jeglicher Erziehungs- und Bildungswirklichkeit bilden, auf die jede professionelle pädagogische Intervention ausgerichtet sein müsste. Andererseits sind die Implementationsgegenstände evidenzbasiert, haben sich also bereits unter kontrollierten Bedingungen bei anderen Lernenden als wirksam erwiesen. Aus forschungsökonomischen bzw. -pragmatischen Gründen könnte daher bewusst darauf verzichtet worden sein. Gegen diese Annahme des bewussten Aussparens spricht jedoch, dass die Rolle des ‚Endnutzers‘ auch in den entsprechenden theorieinspirierten Modellen bisher kaum reflektiert wird (s. oben). Kontextmerkmale der Mikro- und der Makroebene – relativ betrachtet zur Mesoebene – wurden bisher empirisch ebenfalls eher wenig ausgeleuchtet (vgl. Abb. 2 und 3, Feld „Kontext“) oder theoretisch durchdrungen.

Ferner ist bemerkenswert, dass es sich sowohl bei den in den Studien als förderlich als auch als hemmend berichteten Einflussfaktoren zumeist um „variable Größen“ handelt, die grundsätzlich (pädagogisch) beeinflusst werden können, nicht um eher schwer veränderbare „Konstanten“. Betrachtet man die Ergebnisse zu hemmenden Einflussfaktoren (Abb. 3), so fällt auf, dass – relativ zu den als förderlich berichteten Faktoren – deutlich weniger Studien dazu überhaupt Befunde liefern (vor allem S, W, Y, d, g). Zweitens wird deutlich, dass der Grad an Fidelity ein Faktor ist, dessen Wirkung uneindeutig ist: Innerhalb des vorliegenden Studiencorpus wird in insgesamt 8 Publikationen der Einfluss der Umsetzungstreue auf Lernerträge untersucht. Ein hohes Maß davon erweist sich mehrheitlich als förderlich (E, I, L, M, Y, Z, f), aber nur bis zu einem gewissen Grad. Denn zu viel Umsetzungstreue wird vereinzelt zum hemmenden Faktor (N), weil dann Adaptation an die Verhältnisse vor Ort nicht mehr gelingt. Zudem zeigt der Einflussfaktor wider Erwarten in Teilen doch keinen Effekt auf spezifische Lehr-Lernziele (s. Tab. 4 im Online-Anhang: I, N, T, Z). Ähnlich verhält es sich mit einer umsetzungstreuen „Dosierung“: Sie erscheint förderlich (G, a, f) solange die Zeitinvestition nicht zum hemmenden Faktor wird (N).

Aussagekräftigere Befunde zum Umgang mit dem Spannungsfeld von interner und externer Validität, von „Wahrheit“ und „Nützlichkeit“, von Fidelity und Adaptivität, der „Dosierung“ etc. liegen bislang nicht vor. Es bleibt häufig bei allgemeinen Empfehlungen, eine Balance zu finden. Nur in Ausnahmefällen wird genau diese empirisch offene, theorie- und zugleich praxisrelevante Frage des günstigsten Ausmaßes an Adaptionsspielräumen, Dosierungen etc. zum Gegenstand (quasi-)experimenteller Implementationsforschung erhoben (vgl. hierfür L).

4 Perspektiven der Implementationsforschung im Bildungsbereich

Einleitend haben wir die Frage aufgeworfen, wie jene Wissenschaften, die sich mit Prozessen der Bildung und Erziehung beschäftigen, auf die Bedrängnis reagieren, als Wissenschaften von Praxis empirisch fortwährend über die Grenzen ihrer Relevanz für Praxis belehrt zu werden. Die empirische Bildungsforschung, die im Fokus dieses Beitrages steht, begreift die Überwindung dieser Kluft als eine methodische Herausforderung. Von der Erweiterung ihres Repertoires um Implementationsstudien erhofft sie sich theoretisch informierte und empirisch gesättigte Einsichten in die Bedingungen der Möglichkeit wissenschaftlich fundierter Verbesserungen in der Bildungspraxis.

Das Ziel des Stichwortbeitrages bestand darin, die konzeptuelle Diskussion ebenso wie den empirischen Stand der Implementationsforschung systematisch zu sichten, um für die Bildungsforschung Erträge und offene Fragen zu identifizieren. Konzeptuelle Übereinkünfte, aber auch Differenzen zeigten sich sowohl in begrifflichen Abgrenzungen zur Diffusions‑, Evaluations‑, Transfer‑, Scaling-Up- und Disseminationsforschung als auch in der Erarbeitung von Rahmenmodellen, die Implementationsstudien anzuleiten und Einflussfaktoren zu systematisieren erlauben. Dies gilt auch für die Verständigung auf angemessene Untersuchungsdesigns, in der die besonderen Potenziale von RCFTs anerkannt, aber zugleich auch die Notwendigkeit von Mixed-Methods-Designs gesehen wird (vgl. Slavin 2002), um theoretische Annahmen zu Einflussfaktoren auf Implementationsprozesse und -ergebnisse prüfen zu können. Schließlich wurden besondere ethische Herausforderungen in Implementationsstudien identifiziert, wenn auch noch nicht codifiziert.

Diese konzeptuellen Fortschritte haben dazu beigetragen, dass die Zahl an Implementationsstudien im Bildungsbereich in den vergangenen Jahren erkennbar gestiegen ist. Dies zeigte sich auch an einem Kernbereich der Bildungsforschung, der Implementation evidenter mikrodidaktischer Interventionen durch pädagogische Praktiker, die hier fokussiert wurden. Die systematische Recherche dazu deutet an, dass die gestiegene Zahl an Implementationsstudien oft veränderten Erwartungen und Förderpraxen der Politik folgt. Deutlich wurden zudem kulturelle Differenzen zwischen Staaten sowie institutionelle Differenzen zwischen Bildungsbereichen. Für den Bereich der Schule ist auffällig, dass unter den final berücksichtigten Publikationen mehr Studien an ihren Erziehungs- als an ihren Unterrichtsauftrag anschließen, insofern Interventionen zur sozialen und gesundheitlichen Prävention und Förderung häufiger erforscht werden als solche zur Optimierung curricular gerahmter Lehr-Lernprozesse.

Die vorgenannten Befunde beziehen sich jedoch – dies muss einschränkend gesagt werden – auf einen spezifischen Aspekt der Implementationsforschung, nämlich auf die Einflussfaktoren (nicht) gelingender Implementationen. Dabei führt schon allein die Fokussetzung auf ausschließlich pädagogische Handlungsfelder im Rahmen des systematischen Forschungsüberblicks in Abschn. 3 zu einem Ausschluss von fast 16.000 der rund 17.700 zuerst identifizierten Publikationen. Das Vorgehen zielte darauf ab zu eruieren, welche Faktoren empirischen Studien zufolge in pädagogischen Handlungsfeldern organisierten Lehrens und Lernens die vornehmlich mikrodidaktische Implementation evidenzbasierter Lehr-Lernangebote durch pädagogische Professionelle (z. B. Lehrende) beeinflussen. Diese Schwerpunktsetzung führte dazu, dass die 33 inhaltlich ausgewerteten Publikationen und die im Abschn. 3.3 thematisierten Befunde nur einen Ausschnitt aktueller Erkenntnisse der Implementationsforschung darstellen (können) (vgl. zur Ausschlußbegründung einer Vielzahl an Implementationsstudien Abschn. 3.1).

Neben unabweisbaren Fortschritten in der gesamten Implementationsforschung zeigen sich aber auch Grenzen und offene Fragen, und zwar in theoretischer, methodischer und datenanalytischer Hinsicht. Dies wird in der Zusammenschau der Ergebnisse nicht nur des systematischen (vgl. Abschn. 3), sondern vor allem des narrativen (vgl. Abschn. 2) Forschungsüberblicks deutlich. Viele Implementationsstudien fokussieren das (evidenzbasierte) Treatment. Personale, organisationale und institutionelle Einflussfaktoren, die den Implementationsprozess und auch das Implementationsergebnis beeinflussen, werden zwar sehr häufig empirisch erfasst, aber kaum theoretisch reflektiert, z. B. im Blick auf ihre moderierenden oder mediierenden Einflüssse oder im Blick auf ihr Zusammenspiel in einem ebenenübergreifenden Wirkgefüge. Die hier erfassten Studien haben den Kontakt zu den zahlreich vorhandenen Rahmenmodellen der Implementationsforschung selbst noch kaum hergestellt; und diese Rahmenmodelle folgen eher einer Pragmatik in der Entwicklung von Untersuchungsplänen als explizit theoretischen Annahmen. Dies gilt sowohl für Merkmale der so genannten „Endnutzer“, die eine Implementation beeinflussen (vgl. Hetfleisch 2018), als auch für den „Kontext“ (vgl. Damschroder et al. 2009). Zudem haben wir aufgrund des hier zugrunde gelegten Reviewverständnisses die Frage ausgeklammert, inwieweit die unterschiedenen Einflussfaktoren und die von ihnen erwarteten Wirkungen theoretisch angemessen konzipiert wurden oder ob die empirischen Analyseverfahren diesen Annahmen angemessen ausgewählt und durchgeführt wurden. Diese theoretischen Desiderate können auch die methodischen Weiterentwicklungen (vgl. Abschn. 2.3) der vergangenen Jahre nicht beheben. So werden RCFTs auch heute noch häufig als „single-point-in-time interventions“ (vgl. Hedges 2018) durchgeführt. Weiterentwicklungen zielen auf die Etablierung adaptiver oder sequentieller Designs, in denen nach der besten Kombination der Komponenten einer Intervention gesucht wird (vgl. Collins et al. 2007). Auch optimierte RCFTs sind allerdings dem Risiko ausgesetzt, dass aus einer experimentellen Studie ein „natürliches Experiment“ wird, z. B. wenn aufgrund veränderter politischer oder institutioneller Rahmenbedingungen die Implementation angepasst werden soll oder muss – mit Folgen auch für die Prüfung theoretischer Annahmen und die Anwendbarkeit datenanalytischer Verfahren.

Herausforderungen für Datenanalysen – quantitativ wie qualitativ – ergeben sich darüber hinaus aus dem Sachverhalt, dass Implementationsstudien in der Regel eine Mehrebenenstruktur aufweisen, sei es, dass Cluster-Randomisierungen vorliegen, sei es, dass Daten von Akteuren unterschiedlicher Handlungsebenen anfallen. Eine solche Mehrebenenstruktur stellt die Analyse der Daten vor nicht-triviale Herausforderungen, die oft nicht angemessen berücksichtigt werden.

Nimmt man die Antworten auf die beiden eingangs formulierten Leitfragen zusammen, so erarbeitet die Implementationsforschung im Bildungsbereich derzeit einen wachsenden Corpus an „Fallbeispielen“, der den research-to-practice-gap zu reduzieren vermag. Theoretisch verallgemeinerbare Einsichten in die Bedingungen der Möglichkeit, mit den Mitteln der Wissenschaft zu Verbesserungen in Politik und Praxis beizutragen, liegen allerdings noch nicht vor.

Auf diesem Weg voranzukommen, ist voraussetzungsreich. Die erste Voraussetzung besteht darin anzuerkennen, dass die Kluft zwischen Wissenschaft und Praxis für funktional differenzierte Gesellschaften (vgl. Luhmann 2002) konstitutiv ist. Eine „Einheit“ von Theorie und Praxis kann es nicht geben, und man sollte sie aus demokratietheoretischen Gründen auch nicht wünschen, da Wissenschaft, Praxis und Politik ihre je eigene Verantwortung haben, die sie weder abtreten noch stellvertretend übernehmen können. Metatheoretische Reflexionen, wie sie die Allgemeine Pädagogik gepflegt hat und wie sie mit systemtheoretischen Anleihen gelegentlich auch in der empirischen Bildungsforschung anklingen (vgl. Baumert 2016), klären den Blick für das grundsätzlich Mögliche, aber sie leiten nicht dazu an, aus theoretisch begründeten Erfahrungen zu lernen, unter welchen Bedingungen die Überwindung der Kluft wahrscheinlicher wird.

Um ihr theoretisches Potenzial zu erweitern, könnte sich die erziehungs- und bildungswissenschaftliche Implementationsforschung zukünftig stärker als bislang benachbarten Forschungsfeldern öffnen. So fokussiert beispielsweise die Forschung zur Educational Governance die Handlungsstrukturen und die Handlungskoordination im Mehrebenensystem der Bildung (Langer und Brüsemeister 2019). Analysiert wird das Zusammenwirken staatlicher, zivilgesellschaftlicher und marktlicher Akteure in der Steuerung des Bildungssystems auf der Basis institutionalistischer und systemtheoretischer Annahmen (für die Schule vgl. z. B. Fend 2008; für die Erwachsenenbildung Schrader 2011). Üblich ist es u. a., hierarchische Anweisungen, Mehrheitsentscheidungen, Verhandlungen oder wechselseitige Beobachtungen als Formen der Handlungskoordination zu unterscheiden; als ihre Medien Macht oder Geld, Normen und Gesetze oder (professionell und organisationskulturell) geteilte Werte. Bereits solche einfachen Unterscheidungen könnten helfen, die Wirkmechanismen, die dem vielfach hervorgehobenen Einflussfaktor „Organisationskultur“ zugeschrieben werden, theoretisch zu präzisieren und empirisch zu prüfen.

Unterspezifiziert ist auch, was in der Implementationsforschung oft im Sinne einer Sammelkaterogie als „Kontext“ bezeichnet wird, insbesondere dann, wenn es um Einflussfaktoren auf der Makroebene geht. Implementationsstudien werden zwar oft im Rahmen politischer Reformen durchgeführt, aber die bildungswissenschaftlich akzentuierte Implementationsforschung hat den Kontakt zu einer politikwissenschaftlichen Policy Implementation Research noch nicht hergestellt. Das mag u. a. daran liegen, dass sich die politikwissenschaftliche Forschung in Deutschland lange Zeit kaum für Fragen der Bildungspolitik interessiert hat (Schmid und Schuhen 2018, S. 517; vgl. auch Busemeyer 2015; Nikolai und Rothe 2016). Im angelsächsischen Sprachraum stellt sich die Situation jedoch anders dar. Hier hat sich seit langem eine politik- und sozialwissenschaftlich fundierte und empirisch vielfältige Forschung etabliert, die sich mit den Formen (polity), den Inhalten (policy) sowie den Prozessen (politics) von Bildungspolitik und ihren Effekten im Bildungssystem beschäftigt (vgl. Odden 1991; Honig 2006). Die empirischen Befunde verweisen u. a. auf die Bedeutung des Implementationsprozesses für die Wirkung von Reformen (vgl. Young und Lewis 2015, S. 4). Jüngere Beiträge werben für einen intensiveren Austausch zwischen einer (bildungswissenschaftlichen) Implementationsforschung und der Policy Implementation Research (vgl. Spiel et al. 2018). Auch McDonnell und Weatherford (2016) werben dafür, „das Politische“ in der Implementationsforschung stärker anzuerkennen. Ohne einen politischen Willen zur Erforschung der Implementation einer Reformidee wird es kaum möglich sein, hochwertige und aussagefähige Implementationsstudien umzusetzen.

Methodische und datenanalytische Herausforderungen ergeben sich aus der Tatsache, dass in Implementationsstudien nicht nur geplante Eingriffe in die Praxis stattfinden, sondern dass sich immer wieder, etwa bei der Adaption von Implemtentationsgegenständen und -angeboten, „natürliche Experimente“ einstellen. Um die damit verbundenen Herausforderungen angemessen zu bewältigen, können die bildungsökonomische und die bildungssoziologische Forschung helfen, die statistische Verfahren für die Identifizierung kausaler Zusammenhänge für nicht-experimentelle und querschnittliche Daten entwickelt haben. Die Bildungsökonomie hat solche Verfahren zuerst bei der Evaluation arbeitsmarktpolitischer Programme erprobt (vgl. grundlegend Heckman et al. 1999; Blundell und Costa-Dias 2009) und nutzt sie inzwischen auch für die Evaluation bildungspolitischer Reformen (vgl. Thomsen und Anger 2018). Und immer dort, wo die Adaption von Implementationen an alltägliche Bedingungen die theoretisch begründete oder die „statistische“ Prüfung kausaler Annahmen ausschließt, könnte die Implementationsforschung qualitative und quantitative Daten vergleichend und typisierend analysieren, entweder, um das Besondere des Einzelfalls im Sinne Diltheys besser zu „verstehen“, oder aber, um den Fallvergleich als eine Ressource für Theoriebildung zu nutzen, wie es in der Governance-Forschung praktiziert wird (vgl. Maag Merki 2014).

Herausforderungen stellen sich aber auch für die Förderer und Partner von Wissenschaft. Zwar wird allenthalben ein verbesserter Wissenschafts-Praxis-Transfer gefordert (so im Rahmenprogramm Empirische Bildungsforschung, BMBF 2017); gleichzeitig aber wurden noch keine Qualitätskriterien entwickelt, die das Transfer- bzw. Implementationspotenzial von Studien zu beurteilen erlauben, z. B. anhand von Untersuchungsdesigns oder Implementationsstrategien. Die Umsetzung gestufter Forschungsdesigns, die Implementationsstudien einschließen, erfordern aber nicht nur eine angemessene Förderung, sondern auch den Aufbau von Expertise in größeren Forschungseinheiten innerhalb und außerhalb von Universitäten. Idealer Weise verfügen diese Einheiten auch über institutionelle Strukturen für eine verlässliche und qualitätsgesicherte, im Idealfall flächendeckende Vermittlung wissenschaftlichen Wissens an Politik und Praxis, mit dem Einzelprojekte in der Regel überfordert sind. Nötig ist zudem eine veränderte Kultur in der Zusammenarbeit von Forschung und Praxis. Dazu können Forschungs-Praxis-Partnerschaften beitragen (vgl. Hartmann und Decristan 2018), die problemorientiert arbeiten und die institutionelles und personales Vertrauen fördern, das für kontrollierte Interventionen angesichts des Risikos, zu scheitern, unverzichtbar ist. Leitend für diese Partnerschaften sollte die erziehungswissenschaftlich begründete Frage sein, unter welchen Bedingungen die Verbesserung von Bildung und Erziehung möglich werden (vgl. Tenorth 2003).

Hedges (2018) hat betont, dass die empirische Bildungsforschung Antworten finden müsse auf die Replikationskrise, die die Medizin und die Psychologie bereits erschüttert habe, auf die Frage nach der Verallgemeinerbarkeit ihrer Befunde und auf die Herausforderung, Forschungsdesigns an die Komplexität der Bildungswirklichkeit zu adaptieren. Er empfiehlt dazu u. a. eine standardisierte Protokollierung der Durchführung von Untersuchungen (S. 9), eine größere Aufmerksamkeit für die Heterogenität von Treatment-Effekten, so dass Inferenz-Populationen präziser beschrieben werden können (S. 14), und schließlich „much greater attention to the problem of construct validity of cause in complex interventions“ (S. 15). Zur Bewältigung aller drei Herausforderungen können Implementationsstudien beitragen. Wenn Wissenschaft theoretisch und methodisch offen ist auch für die Kontingenzen der Erziehungs- und Bildungswirklichkeit und nicht nur für das, was theoretisch vorab erwartet werden kann, wenn sie sich für die fördernden und hemmenden Einflussfaktoren, für Implementationslogiken und -brüche interessiert und damit für die Bedingungen der Erziehungswirklichkeit (Dilthey 1986), kann sie lernen, was sie selbst anders und besser machen kann, um die Wahrscheinlichkeit wissenschaftlich fundierter Verbesserungen von Bildung in und durch Politik und Praxis zu erhöhen.