1 Evidenzbasierung und -orientierung im Bildungsbereich

Die Kernaufgabe von Lehrkräften bildet gemäß den Standards für die Lehrerbildung (KMK 2014, S. 2) die „gezielte und nach wissenschaftlichen Erkenntnissen gestaltete Planung, Organisation und Reflexion von Lehr- und Lernprozessen sowie ihre individuelle Bewertung und systemische Evaluation“. Lehrkräfte sollen demnach unterrichtspraktische Entscheidungen nicht nur vor dem Hintergrund ihrer individuellen Erfahrungsbestände treffen, sondern auch auf der Basis wissenschaftlicher Theorien und empirischer Befunde. Damit definiert sich der Lehrberuf als eine evidenzbasierte Profession (Hartmann et al. 2016; Stark 2017).

Die Idee der Evidenzbasierung hat ihren Ursprung in der Medizin und deren Forderung, bei Entscheidungen über die Behandlung von Patient*innen neben der eigenen Expertise und den Präferenzen der Patient*innen die besten verfügbaren empirischen Befunde zu berücksichtigen (Hastall und Lang 2019; Sackett et al. 1996). Spätestens seit dem sogenannten PISA-Schock hat das Konzept der Evidenzbasierung – mit der Hoffnung auf eine Verbesserung der Unterrichtspraxis – sowohl auf der Ebene politischer Steuerung als auch im Kontext individueller unterrichtsbezogener Entscheidungen Einzug in den Bildungsbereich gehalten (Bromme et al. 2014; Hartmann et al. 2016; Scharlau 2019).

Bezüglich der Frage, welche Wissensbestände seitens einer Lehrkraft vorhanden sein sollten, hat sich ausgehend von den theoretischen Arbeiten von Shulman (1987) die Einteilung in fachliches, fachdidaktisches und pädagogisches Wissen etabliert (z. B. Kunter et al. 2011). Auf Basis theoretischer und empirischer Arbeiten zu der Expertise und den Wissensbeständen von Lehrkräften, die für die Bewältigung schulischer und unterrichtlicher Anforderungen notwendig sind, wurden Modelle professioneller Handlungskompetenz generiert, die eben solche relevanten Voraussetzungen beschreiben (z. B. Baumert und Kunter 2006; vgl. König 2016). Die Forderung nach einer evidenzbasierten Unterrichtspraxis spiegelt sich hierbei insbesondere in denjenigen Komponenten des Professionswissens wider, die das Handeln von Lehrkräften direkt betreffen, also im fachdidaktischen und im pädagogischen Wissen.

Die Aufgabe der Lehrkräfteausbildung, angehende Lehrkräfte dazu zu befähigen, ihr Handeln auf Basis verallgemeinerbaren wissenschaftlichen Fachwissens sowie fachdidaktischen und pädagogischen Wissens zu planen, zu erklären und zu reflektieren, bringt es mit sich, dass hierfür relevante Grundsteine in der universitären Ausbildungsphase „forschungs- und nicht subjektiv-erfahrungsfundiert“ gelegt werden (Rothland 2016, S. 9). Dies impliziert, dass Wissen auf der Basis empirischer Befunde so zu vermitteln ist, dass es die ausgebildeten Lehrkräfte in der schulischen Praxis erfolgreich anwenden können (Bauer et al. 2015; Gröschner und Seidel 2015; Prenzel 2020).

Die Relevanz der Evidenzbasierung als leitendes Prinzip und bedeutsame Professionalisierungskomponente der Lehrkräfteausbildung (Gogolin et al. 2020) wird insbesondere im Licht solcher Studien deutlich, welche die Nutzung von Evidenzen durch angehende wie berufstätige Lehrkräfte im Kontext unterrichtspraktischer Fragen in den Blick nehmen (Csanadi et al. 2021; Hinzke et al. 2020; Kiemer und Kollar 2018; 2021; Rochnia und Trempler 2019; Thomm et al. 2021c) sowie mögliche Barrieren (Fischer 2021; Lysenko et al. 2014; Zlatkin-Troitschanskaia et al. 2016) und entsprechende Fördermöglichkeiten untersuchen (Wagner et al. 2018; Wekerle und Kollar 2021; Wenglein et al. 2015).

Potenzielle Barrieren wurden mit Blick auf kognitive (skill; Bauer et al. 2017) und affektive Dimensionen (will; Bauer et al. 2017) vor allem auf Seiten der Anwender*innen selbst, aber auch auf Seiten der Ausbilder*innen (Diery et al. 2020b; 2021) untersucht. Als kognitive Barrieren seitens der Anwender*innen wurden insbesondere defizitäre Wissensbestände (Neuweg 2014), Schwierigkeiten bei der Beurteilung (Thomm und Bromme 2016; Trempler et al. 2015) und bei der Anwendung wissenschaftlichen Wissens (Kiemer und Kollar 2018; Wagner et al. 2018; Wenglein et al. 2015) sowie Fehlkonzepte, Fehlinterpretationen und/oder fehlerhafte Anpassungen an subjektive Theorien (Asberger et al. 2020; Thomm et al. 2021a) identifiziert. Als affektive Barrieren wurden insbesondere die Motivation zur Beschäftigung mit Evidenz sowie wissenschaftsbezogene Einstellungen und Überzeugungen fokussiert (Bleck und Lipowsky 2020; Egger und Groß Ophoff 2020; Kiemer und Kollar 2021; Rochnia und Trempler 2019). Weitere Barrieren wurden in beschränkten Ressourcen, vor allem in einem Mangel an Zeit und in fehlenden Zugangsmöglichkeiten gesehen (Thomm et al. 2021b).

Eine nicht zu vernachlässigende Barriere der Evidenzbasierung, die trotz vieler kritischer Perspektiven (zum Beispiel Hartmann et al. 2016) immer noch unzureichend reflektiert wird, gründet im Konzept der Evidenzbasierung sowie in Merkmalen von Evidenzen selbst. So herrscht immer noch keine Klarheit darüber, (1) inwieweit und (2) auf welche Arten von Evidenz sich Lehrkräfte in unterrichtsbezogenen Fragestellungen berufen sollten. Bei der Beantwortung dieser Fragen, sofern es überhaupt eine eindeutige Antwort geben kann, steht man zunächst vor der Schwierigkeit einer Begriffsdiffusität (Hinzke et al. 2020).

So hat sich (1) neben einer strikteren Auffassung von Evidenzbasierung im Sinne einer „Ableitung praktischer Maßnahmen aus nachweisbaren empirischen Tatsachen“ (Scharlau 2019, S. 106) oder einer 1:1-Implementation evaluierter Programme und Ansätze (Slavin 2020; Slavin et al. 2021), in Anknüpfung an das sogenannte pragmatistische Evidenz-Paradigma (Reiss 2015), ein weiteres, moderateres Verständnis im Sinne einer Evidenzorientierung oder -informiertheit entwickelt. In diesem moderateren Verständnis kommt Evidenz eine handlungsunterstützende und weniger handlungsleitende Funktion zu, auf deren Basis individuelle Erfahrung und Expertise reflektiert, ergänzt und korrigiert werden soll (Bauer et al. 2015, 2017; Biesta 2011; Stark 2017). Zumindest der weitgehend an der Methodologie und Methodik der psychologischen Forschung orientierte bildungswissenschaftliche „Mainstream“, sofern sich ein solcher ausmachen lässt, scheint sich mit der moderateren Lesart angefreundet zu haben (Scharlau 2019; Stark 2017). Darüber hinaus kann (2) der Begriff der Evidenz in einem sehr weiten Sinne verstanden werden, der nicht nur wissenschaftliche Theorien und empirische Befunde, sondern auch kollegiale Hospitationen, Schüler*innenfeedbacks oder schulinterne Befragungen einschließt (van Ackeren et al. 2013). Auch bei einer engeren definitorischen Auslegung des Evidenzbegriffs – so merken Hinzke und Kolleg*innen (2020, S. 1306) an – muss zwischen Evidenz im Sinne von „wissenschaftlichem Wissen“ und Evidenz im Sinne von „Wissen aus evidenzbasierten Steuerungsinstrumenten“ (Lernstandserhebungen, Schulinspektionen) differenziert werden. Fasst man den Evidenzbegriff nur im Sinne von „wissenschaftlichem Wissen“, ist damit noch nicht geklärt, welches Wissen bzw. welche Evidenzquellen Praktiker*innen als eine verlässliche und belastbare Entscheidungsgrundlage ansehen können.

Zur Klärung dieser Frage hat sich in der Medizin eine streng hierarchische Ordnung von Forschungsdesigns etabliert, welche auch für den Bildungsbereich diskutiert wird (Bromme et al. 2014; Gräsel 2019). An deren Spitze finden sich als sogenannter Gold-Standard systematische Reviews, Metaanalysen und randomisierte kontrollierte Studien (Hastall und Lang 2019), die möglichst darüber Auskunft geben sollen, was funktioniert (Joyce und Cartwright 2020). Um diese Evidenzen für Praktiker*innen anwendbarer zu machen, wurden sogenannte Clearing Houses eingerichtet, welche die beste einschlägige, aktuell verfügbare Evidenz zu verschiedensten Themengebieten kontinuierlich adressatengerecht aufbereiten (im Bildungsbereich vor allem das Clearing House Unterricht der TU München). Das Clearing House Unterricht bietet zudem ein Qualitätsrating, anhand dessen Rückschlüsse auf die Verlässlichkeit der Quellen gezogen werden können (Diery et al. 2020a; Seidel et al. 2020). Darüber hinaus wird am Deutschen Institut für Internationale Pädagogische Forschung (DIPF) aktuell an breit angelegten systematischen Reviews gearbeitetFootnote 1. Legte man allerdings die oben angeführte Evidenz-Hierarchie auch im Bildungsbereich als Maßstab zur Beurteilung von Evidenz konsequent an, resultierte daraus, dass ein Großteil der empirischen Forschung aus den noch vergleichsweise jungen Feldern der Erziehungs- und Bildungswissenschaften sowie der Fachdidaktiken strenggenommen als nur wenig verlässlich und belastbar gelten dürfte (Bromme et al. 2014; Hedges 2018; Malouf und Taymans 2016; Prenzel 2020). Auch wenn man dem Gold-Standard eine geringere Relevanz beimisst und stattdessen einem breiteren Verständnis von Evidenzbasierung bzw. -orientierung folgt, ist die Forderung nach einer evidenzorientierten Unterrichtspraxis mit einer Reihe von Problemen behaftet, denen sich der vorliegende Beitrag widmet. Am Beispiel einer fiktiven pädagogischen Anwendungssituation soll zunächst verdeutlicht werden, dass im Zuge aktueller Entwicklungen teilweise unrealistische Anforderungen an Praktiker*innen gestellt werden.

2 Evidenzorientierte Unterrichtspraxis

2.1 Ein fiktives Beispiel: Kooperatives Lernen mit Tablets, ja oder nein?

Als fiktive Praktikerin führen wir eine Referendarin ein, die im Rahmen ihres Prüfungsunterrichts im Fach Englisch in der siebten Klasse eine Tablet-gestützte Unterrichtsreihe zum Thema Digital Media durchführen möchte:

Die Referendarin unterhält sich im Lehrer*innenzimmer mit einem erfahrenen Englischlehrer über ihre Ideen. Der Kollege berichtet ihr von seinen negativen Erfahrungen mit den angeschafften Tablets und rät ihr von deren Nutzung ab. Er warnt sie, dass besonders die Lernenden der Unter- und Mittelstufe im Tablet-gestützten Unterricht sehr unruhig würden, sich weniger aktiv am Unterricht beteiligten und sich nicht mehr auf den eigentlichen Inhalt konzentrierten. Außerdem gibt er zu bedenken, dass kooperatives Lernen schwierig umzusetzen sei, da sich jede*r auf das Tablet konzentriere und kaum noch miteinander kommuniziert werde. Diskussionen kämen kaum zustande, weder innerhalb von Kleingruppen noch in Plenumsphasen. Dies sei ihm zufolge gerade im Fach Englisch fatal, da für das Erlernen einer Sprache kooperative Lernformen besonders relevant seien.

Nach dieser Unterhaltung ist die junge Lehrerin verunsichert: Die vorgebrachten Argumente erscheinen ihr durchaus plausibel, dennoch möchte sie ihren Unterricht, und insbesondere auch ihren Prüfungsunterricht, innovativ mithilfe von Tablets gestalten, gerade wenn es inhaltlich um Digital Media geht. Sie unterhält sich mit einem befreundeten Referendar, der die Tablets im Mathematikunterricht bereits erfolgreich genutzt habe, aber bisher nur in Einzelarbeit mit adaptiven Lernprogrammen. Er rät ihr, den kooperativen Einsatz der Tablets einfach auszuprobieren. Die Referendarin möchte sich allerdings nicht nur auf die Erfahrungen ihrer Kollegen verlassen oder ausprobieren, sondern auch fundierte Argumente für die Nutzung von Tablets in ihrem Unterricht finden. Sie beschließt daher, sich auf die Suche nach geeigneten Quellen zu machen.

Sie erinnert sich, dass vor einiger Zeit eine Rangliste verschiedener Einflussfaktoren auf den Lernerfolg propagiert wurde, die prominente Hattie-Studie (Hattie 2009). Da die Rangliste im Internet unter https://visible-learning.org/hattie-ranking-influences-effect-sizes-learning-achievement/ veröffentlicht ist und offenbar laufend aktualisiert wird, kann sie schnell prüfen, ob in der Meta-Metaanalyse auch (kooperatives) Lernen mit digitalen Medien thematisiert wurde. Für „Technology in small groups“ wird auf Platz 189 von 252 eine Effektstärke von d = 0,21 angegeben (Stand Mai 2022). Wie im Studium gelernt, legt sie zur Interpretation die Konventionen nach Cohen (1988) an, nach welchen der Effekt zwar klein, aber praktisch bedeutsam ist. Jedoch wundert sie sich über die eher schlechte Platzierung; „Classroom discussion“, die bei ihrem Englischkollegen aufgrund des Tableteinsatzes ausgeblieben sei, liegen immerhin auf Platz 15 (Stand Mai 2022).

Problematisch ist, dass die Referendarin weder mit (1) aktuellen Diskursen bezüglich der Interpretation von Effektstärken (z. B. Kraft 2020) noch (2) der speziellen methodischen Problematik der Hattie-Studie (Renkl 2022; Wecker et al. 2017) vertraut ist. Auch wenn die Konventionen nach Cohen aktuell noch breite Anwendung finden (auch in den Kurzreviews des Clearing House Unterricht; beispielsweise Knogler et al. 2018a), ist es umstritten, in Entscheidungsfragen zur Implementation bestimmter Maßnahmen pauschale Schlussfolgerungen ausschließlich auf Basis von berichteten Effektstärken abzuleiten (Kraft 2020). Effektstärken bedürfen einer umfassenden Kontextualisierung, um angemessen interpretiert werden zu können. Beispielsweise ist es wichtig zu wissen, welche Art von Studiendesign der Effektstärkenberechnung zu Grunde lag, wie distal bzw. proximal die verwendeten Outcome-Maße in Bezug auf die Intervention konzeptualisiert waren oder wie reliabel und in welchem zeitlichen Abstand zur Intervention sie gemessen wurden. Zudem sind verschiedene Zusatzinformationen erforderlich, etwa über Stichprobencharakteristika, über mathematische Details der angewandten Standardisierungsprozedur, über das Ausmaß der Unterschiedlichkeit der Interventionen für die Kontroll- und Experimentalgruppe sowie über die Art der Interventionsdurchführung. Auch spielen Kosten- bzw. Effizienzfragen in Bezug auf die umgesetzte Intervention eine Rolle. Schließlich stellen sich auch diverse Fragen hinsichtlich der Replizierbarkeit der berichteten Effekte (Kraft 2020).

Die Hattie-Studie stieß zwar in den öffentlichen Medien auf große Resonanz, dennoch ist ein Großteil der Befunde begründeten Zweifeln ausgesetzt (Renkl 2022; Wecker et al. 2017). Eine Aggregierung von Studien über die Meta-Ebene hinaus ist bereits mit verschiedenen Problemen behaftet. Bei Hattie (2009) ist sowohl die Datengrundlage als auch sein methodisches Vorgehen kritisch zu sehen. Außerdem suggeriert die Rangliste, dass bei der Unterrichtsgestaltung möglichst die wirksamste Handlungsoption ausgewählt werden sollte, obwohl nicht nur Handlungsoptionen als Einflussfaktoren aufgelistet sind (z. B. Self-efficacy der Lernenden, Glaubwürdigkeit der Lehrkraft), und die Kontrollbedingungen der Primärstudien keinen Vergleichsmaßstab bieten (Wecker et al. 2017). Zudem stellt sich die Frage, wie es sich mit den Effektstärken verhält, wenn verschiedene Einflussfaktoren gleichzeitig wirksam werden.

Da sich die junge Lehrerin nicht mit dem bisherigen Ergebnis ihrer Recherche zufriedengeben möchte, sucht sie weiter. Dabei merkt sie, dass sie Schwierigkeiten hat, die im Internet zu findenden Quellen hinsichtlich ihrer Verlässlichkeit und Belastbarkeit zu beurteilen. Sie erinnert sich an das Clearing House Unterricht der TU München, welches – wenn auch primär für Lehrkräfteausbildende – Kurzreviews zu einschlägigen Studien, vor allem Metaanalysen, zu verschiedensten Themengebieten anbietet.

Dass Praktiker*innen von sich aus regelmäßig auf Metaanalysen (als Originalarbeiten) zurückgreifen, kann als eher unwahrscheinlich angesehen werden. Metaanalysen sind von Nicht-Fachleuten nicht einfach zu verstehen und ihre Beurteilung sowie die Übertragbarkeit der gewonnenen Erkenntnisse auf die Praxis ist in der Regel sehr anspruchsvoll (Stark 2017). Clearing Houses stellen einen Ansatz dar, um insbesondere Evidenz aus Metaanalysen greifbarer zu machen (Diery et al. 2020a; Seidel et al. 2020). Das Clearing House Unterricht richtet sein Angebot aktuell an Lehrkräftebildende und konzentriert sich dabei vor allem auf wissenschaftliche Erkenntnisse zu effektivem Unterricht in den MINT-Fächern. Neben einem kurzen Überblick über die jeweilige Metaanalyse werden Informationen zur durchschnittlichen Effektstärke, zur Zielgruppe, zu weiteren Befunden und zu den Hintergründen der Studie berichtet. Außerdem, und dies sollte für potenzielle Anwender*innen besonders hilfreich sein, wird ein Fazit für die Unterrichtspraxis gezogen. Zudem werden ein Studienbeispiel sowie weitere Referenzen und Links vorgeschlagen. Dazu wird ein begleitendes Rating-Sheet zur Verfügung gestellt, welches zu jeweils vier Qualitätsdimensionen (Recherche, Auswahl, Erfassung, statistische Analyse) einen Einzelscore sowie einen Gesamtscore zur Qualität der Metaanalyse (Prozentangaben) präsentiert. Diese Bewertungen soll dabei unterstützen, die methodische Verlässlichkeit, die Einhaltung aktueller Standards sowie die Transparenz und Begründung von Entscheidungen besser einschätzen zu können (Diery et al. 2020a; Seidel et al. 2020).

Tatsächlich findet die Referendarin ein Kurzreview, das ihr auf den ersten Blick passend erscheint: ein Review zur Wirksamkeit der Kombination aus kollaborativem Lernen und mobilen digitalen Geräten (Knogler et al. 2018a), in welchem eine Metaanalyse von Sung et al. (2017) aufbereitet wurde. In der Metaanalyse wurde der Einfluss mobiler digitaler Geräte beim kollaborativen Lernen in kleinen Gruppen auf Lernleistung, Einstellungen und Qualität der Zusammenarbeit untersucht. Zusätzlich wurde mittels Moderatoranalysen geprüft, ob die Wirksamkeit der Lernform von Faktoren wie Schulfach, Alter, Gruppengröße, Gruppenzusammensetzung oder Interventionsdauer beeinflusst wird. Viele der sehr differenziert dargelegten Befunde erscheinen der Lehrerin für ihre Fragestellung relevant: Auf der Basis von 163 Effektstärken ergab sich ein signifikant positiver, mittelgroßer Gesamteffekt (g = 0,52); Lernende zeigten beim kollaborativen Lernen mit mobilen Geräten vergleichsweise höhere Leistungen, positivere Einstellungen zum Lernen und eine produktivere Zusammenarbeit. Außerdem war diese Lernform effektiver als individuelles Lernen mit mobiler Technologie oder kollaboratives Lernen ohne digitale Unterstützung. Insbesondere Schüler*innen aus der Sekundarstufe profitierten. Dazu bietet die Metaanalyse Informationen für die konkrete Ausgestaltung: So profitierten vorwiegend (hinsichtlich Persönlichkeitseigenschaften und Leistungsvoraussetzungen) homogene und vierköpfige Gruppen. Kollaborative Ansätze erbrachten größere Effekte als kompetitive (zitiert nach Knogler et al. 2018a).

Die vom Clearing House Unterricht vorgenommene Einschätzung der Befunde ruft bei der Referendarin jedoch Bedenken hervor: Es sei davon auszugehen, dass methodische Schwächen und die große Zeitspanne der eingegangen Primärstudien mitunter zu einer Überschätzung der Effektivität führten. Zwar deuteten die Moderatoranalysen darauf hin, dass kollaboratives Lernen mit mobilen digitalen Geräten unter unterschiedlichen Bedingungen lernwirksam sein könnte, jedoch sei die Anzahl der Studien für die einzelnen Moderatorstufen gering, sodass die Ergebnisse eher als vorläufige Trends, nicht aber als belastbare Befunde betrachtet werden könnten (Knogler et al. 2018a). Das Fazit für die Unterrichtpraxis schließt wie folgt:

„Die Erwartung, dass eine optimale Nutzung der Möglichkeiten mobiler Geräte und ein förderliches Arrangement der Zusammenarbeit zu besseren Lernprozessen und Resultaten im Unterricht führt, bleibt durch die Befunde dieser Metaanalyse bestehen, kann aber durch sie nicht verlässlich belegt werden.“ (Knogler et al. 2018a, S. 5).

Verunsichert hofft die Referendarin durch das Rating-Sheet weitere Informationen über die Verlässlichkeit der Studie erhalten zu können (Knogler et al. 2018b). Jedoch weiß sie nicht, was sie aus den angegebenen Prozentangaben, insbesondere aus dem Gesamturteil von 60 %, schließen soll. Zwar gibt das Rating-Sheet Auskunft darüber, wie sich die einzelnen Kategorien definieren, die Lehrerin erhält jedoch keine genaueren Informationen, wie die konkreten Werte für diese Metaanalyse zustande gekommen sind. Sind die Befunde nun verlässlich und belastbar? Ermöglichen sie eine fundierte Entscheidung?

Ob eine bestimmte Maßnahme als wirksam gelten kann, ist insbesondere daran zu beurteilen, ob diese mehrfach im Rahmen experimenteller, kontrollierter Designs untersucht wurde, ob die Effekte sowohl innerhalb und zwischen den Studien konsistent sind, ob keine negativen Effekte überwiegen, ob sich die Effekte zwischen Untergruppen oder unter verschiedenen Bedingungen unterscheiden, und ob die Effekte nur unmittelbar oder auch nachhaltig sind (Taylor et al. 2021). Die Ursachenfindung ist gerade bei uneindeutigen oder widersprüchlichen Befunden in einem umschriebenen Feld sicher eine der Stärken, die Metaanalysen zugeschrieben werden können (Beelmann 2014). Neben weiteren Vorteilen gegenüber Einzelstudien können auf der Grundlage von Moderatoranalysen, die zum Standardrepertoire methodisch anspruchsvollerer Metaanalysen zählen (Beelmann 2014), Ansatzpunkte für die Erklärung unterschiedlicher Ergebnisse der integrierten Einzelstudien gefunden werden. Wie das fiktive Beispiel zeigt, kann aber auch eine anwender*innengerechte Aufbereitung die Schwierigkeiten, die mit der Methodik einer Metaanalyse selbst verbunden sind, nur begrenzt überwinden (Renkl 2022). Aufgenommene Studien unterscheiden sich teilweise in methodischen Details, beispielsweise in ihren Untersuchungsdesigns, einbezogenen Variablen sowie deren Konzeptualisierungen und Operationalisierungen. Zudem finden sich vielfältige Unterschiede in den Untersuchungskontexten und -situationen sowie der Umsetzung und Reichweite der Interventionen, den Stichprobengrößen und deren Zusammensetzung, zum Teil auch in den verwendeten statistischen Analysemethoden. Auch wenn Unterschiede zwischen Vergleichsstudien durch die Analyse von Moderatoreffekten teilweise berücksichtigt werden (Beelmann 2014; Connolly et al. 2018), ist diese grundlegende und komplexe Problematik einer vieldimensionalen Unterschiedlichkeit der einbezogenen Studien kaum zu überwinden und von Leser*innen, denen das entsprechende methodische Hintergrundwissen fehlt, auch kaum zu durchdringen (zu Problemen bei der Anwendung von Metaanalysen im Kontext evidenzorientierter Unterrichtspraxis vgl. weiterführend Renkl 2022).

Während die Lehrerin nun in einzelnen Interventionsstudien nach konkreteren Umsetzungsbeispielen sucht, bemerkt sie, dass sie in vielen Fällen keinen Zugriff auf die Publikationen hat. Jedoch sollten sich wichtige Hauptergebnisse in den Abstracts finden. Passend erscheint ihr eine Studie von Kirkpatrick et al. (2018), die den Einfluss von iPads im Sprachen- und Mathematikunterricht auf den Lernerfolg (Zeugnisnote) kanadischer 7. Klässler*innen in drei Kohorten untersucht hat. Das Abstract fasst die Befunde wie folgt zusammen:

„The effects were mixed in that the impact was sometimes positive, sometimes negative, sometimes negative and then positive, and sometimes neutral.“ (Kirkpatrick et al. 2018)

Die Lehrerin fragt sich, wie sie mit diesem Befund weiter verfahren soll. Wurde in dieser Studie auch kooperativ gelernt? Ist eine siebte Klasse in Kanada vergleichbar mit einer siebten Klasse in Deutschland? Lässt sich eine lang andauernde Intervention mit einer Unterrichtsreihe vergleichen, die vielleicht zehn bis zwölf Unterrichtsstunden umfasst? Ist die Zeugnisnote ein angemessenes Kriterium, um Aussagen über die Effektivität der Tablets zu treffen? Abgesehen von den bekannten Objektivitäts‑, Reliabilitäts- und Validitätsproblemen von Zensuren allgemein, dürften Zeugnisnoten von mannigfaltigen Faktoren beeinflusst sein. Und überhaupt: Wenn sich die einzelnen Befunde in einer Studie in unterschiedlichen Kohorten so drastisch unterscheiden, kann dann eine Vorhersage für den Erfolg einer Implementation in ihrer eigenen Klasse getroffen werden? Darüber hinaus wird nicht klar, inwieweit sich die Wirksamkeit von Tablets individuell von Schüler*in zu Schüler*in unterscheidet. Auch wie es sich mit der Wirksamkeit bei Schüler*innen aus ihrer eigenen Klasse verhält, ist ungewiss.

Diese letztere Frage betrifft die Generalisierbarkeit der Studienergebnisse bzw. die externe Validität, welche bei der Verwendung eines experimentellen Untersuchungsdesigns und durch die damit verbundene Künstlichkeit der Situation – wenn auch zugunsten der internen Validität – verringert wird (Stark und Mandl 2007). Die Beantwortung der Frage nach der Generalisierbarkeit der Befunde macht mindestens eine Analyse von lernrelevanten Merkmalen der Stichprobe in Verbindung mit einer Reihe theoretischer Überlegungen sowie eine Analyse weiterer Befunde dieser Studie (z. B. potenzielle Moderatoren) und auch weitere Studien notwendig.

Die Referendarin beschließt, das konsultierte Abstract nicht in ihre Entscheidungsfindung einfließen zu lassen und ihre Recherche zu beenden. Daraufhin erhält sie eine E‑Mail von ihrem befreundeten Referendarkollegen, in deren Anhang sie eine Fallstudie von Baumann (2013) zu der Einführung von Tablets bei 25 Siebtklässler*innen an der Integrierten Gesamtschule Lehrte findet. Nach einer Auflistung von Vor- und Nachteilen sowie einer konkreten Beschreibung der Innovation zieht Baumann (2013, S. 3) folgendes Zwischenfazit:

„In vielen Lehrplänen sind Teamfähigkeit und kooperative Kompetenzen als Ziele aufgeführt. Beiden Zielen wird durch das Tablet-Projekt Rechnung getragen, denn die gegenseitige Unterstützungsbereitschaft der Schüler ist stark gestiegen. […] Dieser Aspekt wirkt sich in besonderem Maße auf die Zusammenarbeit in der Gruppe aus, da wichtige Grundlagen zur Gruppenarbeit gefordert und gefördert werden. So entsteht bspw. eine positive Abhängigkeit und es findet eine unterstützende Interaktion statt. Das kooperative Lernen erlangt durch den Tablet-Einsatz ebenfalls einen neuen Aspekt, denn gerade das kollaborative Arbeiten […] wird gefördert. […]“.

Die Fallstudie zeigt zumindest ein Beispiel dafür, dass auch im Tablet-gestützten Unterricht kooperativ gelernt werden kann.

In der oben genannten Evidenzhierarchie nehmen Fallstudien einen der unteren Plätze ein (Bromme et al. 2014). Aus einer forschungsmethodischen Perspektive ist der wissenschaftliche Erkenntnisgewinn dieser Art von deskriptiven Studien mehr als fraglich (Rost 2007), zumal massive Probleme der internen Validität gegeben und bei diesem methodischen Vorgehen auch nicht zu überwinden sind. Dennoch bieten Fallstudien insbesondere in Ermangelung von Evidenzen, die in der Evidenzhierarchie höher platziert sind, erste Anhaltspunkte, auf denen in Forschung und Praxis weiter aufgebaut werden kann, wenngleich sie für beide Felder mehr Fragen aufwerfen als beantworten dürften. Aber in einem neuen Forschungsgebiet ist auch diese eher heuristische Funktion positiv zu bewerten.

Die negativen Erfahrungen von ihrem Kollegen, so überlegt die Referendarin, könnten auch von vielen anderen Faktoren, zum Beispiel dessen Unterrichtsdidaktik und -methodik, den individuellen Eigenschaften der Schüler*innen oder dem Lernklima in der Klasse abhängen und müssen nicht oder nicht primär durch die Tablet-Nutzung bedingt sein. Letztlich ist es an ihr gelegen, die Tablets in ihren Unterricht didaktisch und methodisch so einzubetten, dass ihre Schüler*innen von deren Einsatz profitieren werden. Vielleicht hat ihr befreundeter Referendarkollege recht und sie muss einfach selbst ausprobieren, was funktioniert und was nicht.

2.2 Problematik einer evidenzbasierten Argumentation und Entscheidungsfindung

Auch wenn es zweifellos wünschenswert wäre, dass sich Lehrkräfte bei der Bewältigung von unterrichtsbezogenen Fragestellungen an (bildungs-)wissenschaftlicher Evidenz orientieren, stellt ein solches Vorgehen eher den idealen Endpunkt auf einem Kontinuum oder gar einem mehrdimensionalen Modell Evidenzorientierung dar, der in der Praxis aus verschiedenen Gründen häufig nicht erreicht werden kann. In dem fiktiven Beispiel sollte deutlich geworden sein, dass die Orientierung an (bildungs-)wissenschaftlicher Evidenz selbst für eine motivierte Referendarin, die auf die Anwendung von Evidenzen durch ihr Studium vorbereitet wurde, erhebliche Probleme mit sich bringt. Eine Problemlösung bzw. die Beantwortung von Anwendungsfragen wird letztlich immer nur einen vorläufigen Charakter haben und immer auch mit Unsicherheiten behaftet sein.

Das Problem beginnt bereits mit der Auswahl geeigneter Studien. Dabei stellt das junge Alter der mit dem Bildungsbereich assoziierten Forschungsdomänen, wodurch Ansprüche an Quantität und Qualität der Evidenz sicherlich nicht zu hoch ausfallen dürften (Hartmann et al. 2016; Hedges 2018), nicht die einzige Hürde dar. Zu der Verfügbarkeitsproblematik tritt die oben beschriebene Passungs- und Interpretationsproblematik (Stark 2017). Selbst wenn es, wie in unserem fiktiven Beispiel, gelingt, anwendungsorientierte Studien zu finden, die zudem höheren methodischen Ansprüchen genügen, wird es immer multiple und schwer aufzulösende Passungsprobleme geben, da Faktoren wie Untersuchungskontext und -inhalte, Merkmale der Proband*innen sowie spezifische Implementationsanforderungen in der Regel nur teilweise mit der konkreten Anwendungssituation korrespondieren (Joyce und Cartwright 2020; Stark 2017). Inwieweit kann ein Befund über eine bestimmte Maßnahme (wie kooperatives Lernen mit Tablets), der (1) an einer bestimmten Stichprobe einer Altersgruppe oder Schulform, mit (2) bestimmter Stichprobenzusammensetzung, die sich zudem (3) zwischen den Experimentalgruppen bezüglich potenzieller, nicht kontrollierter oder kontrollierbarer Wirkfaktoren unterscheidet, sowie an (4) bestimmten Inhalten mit (5) bestimmten Zielen (unmittelbarer Lernerfolg, Zeugnisnote) gewonnen wurde, in eine andere Klassenstufe mit anderer Zusammensetzung (hinsichtlich bestimmter Heterogenitätsmerkmale) sowie in einen anderen Kontext mit anderen strukturähnlichen oder sogar strukturunähnlichen Inhalten und Zielen transferiert werden (Prenzel 2020)? Ebenso selten wie das Erfahrungswissen von Kolleg*innen auf identischen Situationen oder Kontexten (z. B. Schulform, Fachdisziplin, Jahrgangsstufe oder Klasse bzw. bestimmte Schüler*innen) beruhen wird, werden Lehrkräfte empirische Studien finden können, die in Bezug auf wesentliche Kontextmerkmale mit der eigenen Situation korrespondieren. Die Frage zu beantworten, was hierbei wesentliche Kontextmerkmale sind und was nicht, ist ebenfalls nicht trivial, zumal es hierauf keine einfach anzuwendende Standardantwort gibt. Hier ist demnach Transferkompetenz im engeren Sinne gefragt, die, selbst wenn es um einfache Problemstellungen geht, vor allem Personen mit niedrigem Vorwissen vor erhebliche Herausforderungen stellt (Detterman und Sternberg 1993; Galoyan und Betts 2021).

Metaanalysen und randomisierte kontrollierte Studien, der Gold-Standard evidenzbasierter oder -orientierter Argumentation, machen zwar prinzipiell, sofern sie methodisch einwandfrei sind, Kausalzuschreibungen im Sinne von „es funktioniert“ möglich, bieten aber letztlich keine verlässliche Grundlage, um Schlussfolgerungen für den individuellen Anwendungskontext im Sinne von „hier und für dieses Ziel wird es auch funktionieren“ zu ziehen (Joyce und Cartwright 2020). Ohnehin greifen einfache wenn-dann-Folgerungen bei der Planung von Unterricht zu kurz. So können neben der Stichprobenzusammensetzung auch bestimmte Spezifika der Intervention selbst (zum Beispiel Lerninhalt, konkrete didaktisch-methodische Umsetzung, verwendete Materialien) den Erfolg einer Intervention maßgeblich beeinflussen – Informationen, über welche Anwender*innen in vielen Studien nur wenig Präzises erfahren, unabhängig davon, ob sie sich an Metaanalysen oder Einzelstudien orientieren.

Hinzu kommt, dass die multiplen (multikriterialen) Ziele von Unterricht im Feld (Hartmann et al. 2016) in der Regel nicht von Metaanalysen und schon gar nicht von Einzelstudien konkret abgebildet werden. In dem systematischen Review von Connolly und Kolleginnen (2018), das 1017 randomisierte Kontrollstudien aus den Jahren 1980–2016 im Bildungsbereich in den Blick nahm, zeigte sich darüber hinaus, dass in fast zwei Drittel der einbezogenen randomisierten Kontrollstudien keine Prozessevaluationen (d. h. qualitative Analysen, welche die Erkenntnisse aus den quantifizierten Ergebnissen ergänzen) vorgenommen wurden, und die Analysen in etwa der Hälfte der Studien nicht über die Gesamteffekte der jeweiligen Interventionen auf die Stichprobe als Ganzes hinausgingen. Den Grad der Passung einer Studie für ihre Fragestellung und ihre Klasse müssen Anwender*innen letztlich selbst beurteilen und Schlussfolgerungen daraus ziehen, welche nicht selten anspruchsvolle Interpretationsleistungen notwendig machen und welche nie ganz frei von Spekulationen sind. Diese Art der Subjektivität ist auf der Basis empirischer Studien nicht zu eliminieren, sodass die Interpretation in der Regel mit einem hohen Grad an Unsicherheit behaftet ist. Neben wissenschaftlicher Evidenz müssen Lehrkräfte ihr Erfahrungswissen und ihr Wissen über diverse Kontextfaktoren bei ihrer Entscheidungsfindung professionell integrieren (Hartmann et al. 2021), was ebenfalls und in vielfacher Hinsicht anspruchsvoll ist – gerade, wenn es an klaren Richtlinien fehlt.

Neben die Passungsproblematik tritt die Problematik mangelnder Kohärenz, welche nicht nur widersprüchliche Befunde zwischen verschiedenen Quellen betrifft, sondern sich auch – wie das obige Beispiel (vgl. Kirkpatrick et al. 2018) zeigt – bereits zwischen einzelnen Befunden innerhalb einer Studie äußern kann. Angesichts der Vielzahl an Informationsquellen, die potenziell zur Lösung spezifischer Fragestellungen herangezogen werden können, ist es nicht unwahrscheinlich, dass aus verschiedenen Quellen beinahe ebenso viele verschiedene Handlungsempfehlungen abgeleitet werden können. Widersprüchliche und/oder uneindeutige Befunde, die im Bildungsbereich keine Ausnahme darstellen und vielleicht sogar ab einem bestimmten Komplexitätsgrad der Fragestellung die Regel sein dürften, sind nicht nur für Praktiker*innen schwer zu überwindende Barrieren – selbst Wissenschaftler*innen tun sich mit dieser Problematik oft schwer (Stark 2017).

3 Mögliche Ansatzpunkte zur Auflösung der Problematiken

3.1 Erweiterung des Evidenzbegriffs auf übergeordnete Wissensbestände

Vor dem Hintergrund der oben beschriebenen komplexen und zum Teil kaum auflösbaren Problematiken ist es nicht nur angezeigt, im Sinne eines moderaten Evidenzverständnisses, Evidenz als Ressource zu verstehen, auf deren Basis erfahrungsbasierte Wissensbestände reflektiert, ergänzt oder korrigiert werden können (Bauer et al. 2015; Neuweg 2007; Stark 2017), sondern darüber hinaus den ohnehin vagen Evidenzbegriff auf sämtliche Komponenten wissenschaftlicher Wissensbestände zu erweitern, das bedeutet stärker auf übergeordnete Wissensbestände als auf einzelne empirische Studien und deren Ergebnisse zu fokussieren. Der Begriff übergeordnete Wissensbestände bezieht sich insbesondere auf wissenschaftliche Theorien und Konzepte, aber auch auf einschlägige wissenschaftliche Ansätze, Prinzipien und Modelle, deren Anwendung vor allem aufgrund des höheren Abstraktionsgrads deutlich weniger Passungs- und Interpretationsprobleme und damit auch weniger Barrieren mit sich bringen dürfte als eine Orientierung an empirischen Befunden einzelner Interventionsstudien oder gar Metaanalysen (Renkl 2022). Solche Wissensbestände können ebenfalls eine sinnvolle Ergänzung oder ein Korrektiv zu subjektiven Theorien von Praktiker*innen über die Wirksamkeit bestimmter Handlungsweisen oder Maßnahmen im Unterricht bieten (Groeben et al. 1988; Stark 2017).

Gewiss bilden Theorie und Empirie ebenso wie die Orientierung an wissenschaftlichen Theorien und die Orientierung an Metaanalysen bzw. randomisierten Kontrollstudien keine exklusiven Kategorien, zumal empirische Forschung stets nach theoretischer Einbettung verlangt und die Theorieentwicklung zumindest in empirisch arbeitenden Subdisziplinen der Bildungswissenschaften grundsätzlich auf empirische Forschung angewiesen ist (vgl. auch Connolly et al. 2018). Dennoch dürfte es in der Unterrichtspraxis im seltensten Fall darauf ankommen, welche Maßnahme implementiert wird, sondern vielmehr darauf, wie genau sie implementiert wird, und bei dieser Frage sind die angeführten übergeordneten Wissensbestände oft hilfreicher als bildungswissenschaftliche Evidenz im engeren Sinne. Organisationsformen, Methoden und Sozialformen geben zwar als Oberflächenmerkmale (auch Sichtstrukturen; zum Begriffsdiskurs vgl. Decristan et al. 2020) den Rahmen für Lernprozesse und sind damit bedeutsame Faktoren für die Gestaltung eines lernwirksamen Unterrichts, jedoch sollte neben diesen „Merkmale[n] der Inszenierung“ seitens der Lehrkraft (Pauli 2020, S. 133) der Qualität der Lernaktivitäten und -interaktionen seitens der Lernenden eine ebenso hohe, wenn nicht sogar höhere Relevanz beigemessen werden (Decristan et al. 2020; Pauli 2020). So können innerhalb des gleichen Oberflächenmerkmals sehr unterschiedliche Lernprozesse stattfinden. Anstelle der Frage, ob eine Maßnahme per se lernwirksam ist, oder lernwirksamer als eine andere, sollte somit vielmehr die Frage nach dem Wie, Wann und Warum gestellt werden (Decristan et al. 2020). Zwar können die auf Lern- und Verstehensprozesse bezogenen Tiefenmerkmale (auch Tiefenstrukturen; zum Begriffsdiskurs vgl. Decristan et al. 2020) – wenn überhaupt – nur indirekt beobachtet werden, sie erscheinen jedoch für die Effektivität von Unterricht umso bedeutsamer (Decristan et al. 2020; Kunter und Trautwein 2013; Seidel und Shavelson 2007)Footnote 2. Insofern bestünde das Hauptproblem unserer Referendarin nicht darin, dass sie bei ihrer Recherche mit immer weiteren Fallstricken konfrontiert wird, sondern dass sie von einer zu engen bzw. nicht zielführenden Ausgangsfrage ausgegangen ist. Es sollte hier demnach weniger um ein evidenzorientiertes Ob, sondern vielmehr um ein evidenzorientiertes Wie gehen. Mit einer von der Evidenzhierarchie losgelösten Erweiterung des moderaten Evidenzbegriffs auf übergeordnete Wissensbestände trägt man der Tatsache Rechnung, dass Handeln in der pädagogischen Praxis in seiner ganzen Komplexität, selbst wenn man nur kognitive Dimensionen oder – noch reduktionistischer – Wissensbestände in den Blick nimmt, nur in Ausnahmefällen gänzlich auf empirisch abgesicherten Erkenntnissen basieren kann (Neuweg 2005).

Unter den Begriff übergeordnete Wissensbestände lassen sich einerseits solche Wissensbestände fassen, welche einen eher allgemeinen Orientierungsrahmen für den täglichen Unterricht bieten. So wurden in den letzten Jahren von der quantitativ-empirischen Unterrichtsforschung – auch im deutschsprachigen Raum – verschiedene Modelle formuliert und empirisch überprüft, welche Lehrkräften wichtige Orientierungspunkte für die Konzeption und Durchführung eines qualitativ hochwertigen und lernwirksamen Unterrichts bieten können. Als erste Orientierungshilfe dienen hier Angebot-Nutzungs-Modelle (zum Beispiel Helmke 2012), welche Unterricht als ein Angebot für Lernende verstehen, dessen Nutzung und Ertrag von verschiedenen Faktoren wie Vorwissen oder Motivation abhängt. Diese Modelle geben Lehrkräften erste Anhaltspunkte, um lernerfolgsrelevante Variablen und Stellschrauben von Unterricht zu reflektieren (aktuelle Übersicht bei Vieluf et al. 2020). Mit Blick auf die Frage, wie ein solches Angebot lernwirksam gestaltet werden kann, hat die Unterrichtsforschung außerdem verschiedene Merkmale qualitativ hochwertigen Unterrichts ausgearbeitet, aus denen Schlüsse für unterrichtliches Handeln gezogen werden können (z. B. Helmke 2012; Meyer 2004). Insbesondere hat sich im deutschsprachigen Raum das Modell der drei Basisdimensionen von Unterrichtsqualität etabliert, welches bereits 1995 im Rahmen der TIMSS-Videostudie entwickelt wurde (Klieme et al. 2001; vgl. weiterführend auch Praetorius et al. 65,66,a, b). In diesem Modell werden verschiedene Tiefenstrukturmerkmale den folgenden drei Hauptdimensionen zugeordnet: (1) Effektive Klassenführung, (2) kognitive Aktivierung und (3) konstruktive Unterstützung. Die theoretischen Bezüge des Modells und seine Vereinbarkeit mit Angebots-Nutzungs-Modellen bieten einen geeigneten Ansatz zur Konzeptualisierung von Unterrichtsqualität (Praetorius et al. 65,66,a, b). Da allerdings verschiedene empirische Untersuchungen, die sich in den vergangenen Jahren den Effekten der drei Basisdimensionen gewidmet haben – insbesondere in den MINT-Domänen und im deutschsprachigen Raum – darauf hindeuten, dass die drei Basisdimensionen keinen hinreichenden Ansatz zur Beschreibung von Unterrichtsqualität darstellen (Review bei Praetorius et al. 2018), beschäftigt sich die Unterrichtsforschung aktuell eingehend mit der Frage, inwieweit die drei Basisdimensionen um weitere generische (d. h. allgemeine oder fächerübergreifende) und fachspezifische Aspekte erweitert werden sollten (vgl. Syntheseframework von Praetorius und Gräsel 2021). Zumindest könnte unsere fiktive Referendarin anhand der Qualitätskriterien qualitativ hochwertigen Unterrichts beispielsweise folgern, dass sie beim kooperativen Lernen mit Tablets mithilfe einer professionellen Klassenführung, einer kognitiv aktivierenden Gestaltung der (digitalen) Materialien und Aufgabenstellungen sowie einer Atmosphäre der gegenseitigen Wertschätzung für eine motivierte Beteiligung aller Sorge tragen muss.

Als zweifellose hilfreiche, allgemeine Leitlinien für die Unterrichtspraxis erscheinen darüber hinaus prominente Theorien und Konzepte, die aus dem pädagogisch-psychologischen Diskurs der letzten Jahrzehnte kaum wegzudenken sind (Renkl 2022), zum Beispiel zu Themen wie Cognitive Load (Sweller et al. 2011), Motivation (Deci und Ryan 1993; Schiefele et al. 2018) oder lehr-/lernbezogenen Emotionen (Pekrun 2000). Solche Theorien und Konzepte könnten der Referendarin beispielweise dabei helfen, ihre Lehrkonzeption insgesamt zu optimieren, indem sie motivations- und emotionstheoretische Perspektiven bei der Konzeption von Materialien und Aufgabenstellungen einbezieht, die wahrgenommene Autonomie, Kompetenz und soziale Eingebundenheit der Lernenden unterstützt, deren Kontrolle erhöht, und günstige Wertzuschreibungen in Bezug auf die zu lernenden Inhalte oder zu erwerbenden Kompetenzen induziert.

Neben solchen Wissensbeständen, die eher einen allgemeinen Orientierungsrahmen oder Leitlinien geben, lassen sich dem Begriff der übergeordneten Wissensbestände auch für spezifischere Fragen relevante Wissensbestände zuordnen, aus denen sich konkrete Handlungsempfehlungen für den eigenen Unterricht ableiten lassen, so zum Beispiel die sogenannten, auf empirischen Befunden gründenden fünf Basiselemente kooperativen Lernens (Johnson und Johnson 2009) oder Kounins (2006) Techniken der Klassenführung. Diese können der Lehrerin in unserem fiktiven Beispiel entscheidende Hinweise bieten, um negativen Gruppeneffekten wie motivationalen Problemen bei einer kollektiven Bearbeitung von Aufgaben (Trittbrettfahrereffekt; Neber 2018) sowie Störungen im Unterricht vorzubeugen. Zwar kann eine Orientierung an übergeordneten Wissensbeständen der Referendarin letztlich nicht die Entscheidung darüber abnehmen, welcher konkrete Lehr-Lern-Ansatz für ihre Lehrkonzeption zu favorisieren wäre. Sie könnten die Referendarin jedoch – nach ihrer Entscheidungsfindung – bei der Konzeption ihres Lehrvorhabens, der Antizipation möglicher Probleme und vor allem der konkreten Implementation des Lehrvorhabens unterstützen.

Alles in allem stellt die bildungsbezogene Forschung, wenn auch nicht in Form von direkt anwendbaren empirischen was funktioniert- Befunden, durchaus belastbare Quellen bereit. Anzumerken ist jedoch, dass solche übergeordneten Wissensbestände ebenso wie empirische Befunde in der Regel weitergehender Reflexionen bedürfen, bevor sie erfolgreich in die Unterrichtspraxis implementiert werden können. Letztlich müssen Lehrkräfte unter Berücksichtigung der Interdependenz von Angebot und Nutzung sowie unter Integration ihres reichhaltigen Erfahrungs- und Kontextwissens eine Balance zwischen den Basisdimensionen der Unterrichtsqualität und zwischen den von ihnen angestrebten multiplen Zielen finden (Hartmann et al. 2016; 2021). So müsste unsere Referendarin bei ihrer Konzeption individuelle Stärken und Schwächen der Schüler*innen, lern- und kooperationsrelevante Eingangsvoraussetzungen sowie Gruppendynamiken in der Klasse berücksichtigen, welche sie wiederum durch eine systematische Reflexion der einzelnen Unterrichtseinheiten analysieren könnte. Aus einer evidenzorientierten Analyse dessen, inwieweit einzelne Lernende von den Lernarrangements profitiert haben, könnte sie wiederum am konkreten Fall gezielt Optimierungsmaßnahmen ableiten und evaluieren.

In Ergänzung zu der beschriebenen Orientierung an übergeordneten Wissensbeständen in Form von bildungswissenschaftlichen Theorien, Konzepten, Ansätzen, Prinzipien oder Modellen postulieren wir die heuristische Potenz von Prinzipien und Konzepten aus der Statistik, im Sinne einer weiteren Systematisierung pädagogischer Reflexion durch Integration einer zusätzlichen inter-individuellen Analyseperspektive. Statistische Prinzipien und Konzepte können jenseits aller inhaltlichen Bezüge sowie jenseits ihres Nutzens für den Nachvollzug und der Einordnung empirischer Befunde praktische Werkzeuge bereitstellen, die Praktiker*innen dabei helfen, eine zusätzliche inter-individuelle Analyseperspektive einzunehmen, die insbesondere bei der Entwicklung von umfassenderen Erklärungsmodellen in Bezug auf unterrichtsbezogene Sachverhalte und deren Genese, aber auch bei der Ableitung konkreter Konsequenzen für das Unterrichtshandeln in einer bestimmten Situation hilfreich sein kann.

So könnte die Referendarin bei ihrer Analyse die Erfahrung gemacht haben, dass sich Lernprodukte von solchen Schüler*innen, deren Gruppen sich durch bestimmte Interaktionsprozesse auszeichnen, qualitativ von Produkten derjenigen unterschieden haben, deren Gruppen diese Interaktionsprozesse nicht oder weniger stark ausgeprägt erkennen ließen. Davon ausgehend könnte die Lehrerin einen korrelativen Zusammenhang zwischen Interaktionsprozessen in Gruppen und individuellem Lernerfolg formulieren, den sie weiter analysieren könnte, etwa in Bezug auf seine kausale Relevanz. Sie könnte beispielsweise die Arbeitshypothese formulieren, dass sich bestimmte Interaktionsprozesse positiv auf den individuellen Lernerfolg auswirken, die ihrerseits die Qualität der Interaktionsprozesse beeinflussen. Das heißt, sie würde eine Art Mediationshypothese formulieren. Ohne gezielte empirische Studien kann zwar keine fundierte Entscheidung zugunsten der einen oder der anderen Hypothese getroffen werden. Im vorliegenden Zusammenhang geht es jedoch primär um die heuristische Potenz des Mediationskonzepts – und dieses kann sich auch ohne empirisch-statistische Datengrundlage im engeren Sinn und vor allem ohne entsprechendes mathematisches bzw. statistisches Hintergrundwissen entfalten. Durch ein solches an Prinzipien und Konzepten der Statistik orientiertes Vorgehen würde – jenseits einer genuinen Evidenzorientierung – eine wissenschaftlich-analytische, systematische Vorgehensweise unterstützt, die versucht, diagnostizierte Merkmale im Sinne von Variablen und deren Ausprägungen miteinander in Beziehung zu setzen.

Eine evidenzorientierte Praxis also, die sich mindestens ebenso stark oder sogar stärker auf bildungswissenschaftliche Theorien, Konzepte, Ansätze, Prinzipien oder Modelle als auf Befunde einzelner empirischer Studien beruft, und die den Nutzen statistischer Kenntnisse für Lehrkräfte vor allem in ihrer heuristischen Potenz bei der Analyse von Lehr-Lern-Prozessen sieht, ist sicher nicht im engeren Sinne evidenzbasiert, sondern vielmehr wissensbestandsorientiert. Sie folgt jedoch eindeutig Prinzipien wissenschaftlichen Arbeitens vor dem Hintergrund einer falsifikationistischen Grundhaltung. Die exemplarisch angeführten übergeordneten Wissensbestände sind allesamt als Bestandteil des aktuellen bildungswissenschaftlichen Diskurses empirisch mehr oder weniger stark verankert, die Reflexion und Integration der herangezogenen Erfahrungswissensbestände hat zudem bewusst kritisch und systematisch zu erfolgen, und das gesamte Vorgehen bei der Analyse, Planung bis zur späteren Handlung ist einer permanenten Evaluation zu unterziehen und dadurch prinzipiell immer der Falsifikation ausgesetzt. Auch wenn mit einer Öffnung der Evidenzorientierung im Sinne einer Wissensbestandsorientierung die externalen und internalen Barrieren, mit denen ein evidenzorientiertes Vorgehen stets konfrontiert ist, sicher nicht vollständig zu überwinden sind, sollten diese Barrieren deutlich niedriger ausfallen, als wenn Praktiker*innen angehalten werden, sich an empirischen Originalarbeiten, Kurzzusammenfassungen empirischer Studien oder gar Metaanalysen zu orientieren. Solche übergeordneten Wissensbestände können unterrichtliches Handeln zwar nicht direkt instruieren, besitzen allerdings „handlungsvorbereitenden, wahrnehmungs- und problemdefinitionsleitenden und handlungsrechtfertigenden Charakter“ (Neuweg 2014, S. 599), wodurch sie eine geeignete Basis für professionelles Handeln in der Praxis bieten (Hasselhorn et al. 2016).

3.2 Abbau von Barrieren durch einen Ausbau von Clearing Houses und weitere Forschung

Durch die obigen Ausführungen sollte deutlich geworden sein, dass die vielleicht relevanteste Barriere evidenzorientierter Praxis nicht auf Seiten der Praktiker*innen, sondern in der Konzeption von Evidenzbasierung und der Beschaffenheit von Evidenzen selbst liegt. Wichtige Voraussetzungen für die Anwendung wissenschaftlicher Wissensbestände in der Schul- und Unterrichtspraxis liegen in ihrer Passung zum situativen Kontext, in ihrem Aussage- und Erklärungsgehalt, und letztlich in der Ableitbarkeit von Handlungsoptionen (Hasselhorn et al. 2016). In Anlehnung an Hedges (2018) sind hiermit drei Herausforderungen verbunden: der Umgang mit der Replikationskrise, die Erhöhung der Verallgemeinerbarkeit der bildungswissenschaftlichen Forschung sowie die Anpassung von Forschungsdesigns an die zunehmende Komplexität von Interventionen und entsprechenden Wirkmechanismen. Joyce und Cartwright (2020) plädieren für eine Forschung, die sich um eine individuelle, d. h. lokale Anwendbarkeit von Evidenz unter den jeweiligen Kontextbedingungen bemüht. Eine flächendeckende Etablierung von Unterrichts- (und auch Schul-)entwicklungsprozessen, im Rahmen derer auf Basis intern erhobener Daten innovative Wege und Möglichkeiten von Unterricht entwickelt werden (Altrichter et al. 2016), würde dieser Forderung Rechnung tragen.

Auch wenn diese zweifellos relevante Aspekte für zukünftige Forschung darstellen, stellt sich immer noch die Frage, wie bisherige Befunde gewinnbringend in der Praxis angewendet werden können. Gräsel (2019) betont hier die Relevanz eines adäquaten Transfers (des aktuell vorhandenen) wissenschaftlichen Wissens in die Praxis durch eine konkrete Anpassung von Forschungserkenntnissen an die Rahmenbedingungen des für eine Implementation vorgesehenen Kontextes. Das Clearing House Unterricht der TU München bildet sicherlich einen ersten Meilenstein hinsichtlich der anwendungsorientierten Aufbereitung von Evidenzen. Ihm und ähnlichen Portalen kommt ein erhebliches Potenzial zu, das in dieser Form einzigartig ist. Da sich das Clearing House Unterricht zunächst an lehrkräftebildende Personen als Multiplikator*innen richtet (Diery et al. 2020a), ist es jedoch vor allem für die systematische Weiterbildung von Personen gewinnbringend, die bereits über umfassende forschungsmethodische Kenntnisse und möglichst über eigene Erfahrung mit empirischer Forschung verfügen. Wie am Beispiel der fiktiven Referendarin dargestellt wurde, ist der Nutzen für Anwendungssituationen in der Unterrichtspraxis bisher eher eingeschränkt.

Damit jedoch aufbereitete Evidenzen nicht nur von lehrkräftebildenden Personen, sondern auch von Praktiker*innen als für sie und ihre Schulpraxis bedeutsam wahrgenommen und mit Blick auf unterrichtspraktische Entscheidungen adäquat interpretiert, verarbeitet und angewandt werden können, erscheint ein gezielter Ausbau von breit angelegten Clearing Houses notwendig. Dies betrifft eine Ausweitung der berücksichtigten Domänen (über die MINT-Fächer und den Sekundarbereich hinaus) sowie eine Erweiterung der aufbereiteten Wissensbestände selbst. Das Clearing House Unterricht dürfte mit in 29 Kurzreviews verarbeiteten Metaanalysen (Stand Mai 2022) bislang nur einen kleinen Ausschnitt an relevanten Fragestellungen abdecken, die im Unterrichtsalltag auftreten können. Hier ist es angezeigt, auch Wissensbestände, die nicht dem Gold-Standard evidenzbasierter oder -orientierter Argumentation entsprechen, strukturiert und themenspezifisch zusammenzufassen. Des Weiteren könnten wie oben dargelegt übergeordnete Wissensbestände, also Theorien, Konzepte, Ansätze, Prinzipien oder Modelle zu einem bestimmten Gebiet (wie zum Beispiel kooperativem Lernen) zusammengetragen und mit konkreten Anwendungsbeispielen für die Unterrichtspraxis unterfüttert werden. Besonders vielversprechend erscheinen hier Fallszenarien und Unterrichtsvideos (Piwowar et al. 2018; Seidel et al. 2021). In diesem Zusammenhang wäre eine Verknüpfung des Clearing House mit dem jüngst entstandenen Meta-Videoportal für die Lehrkräftebildung (https://unterrichtsvideos.net/metaportal/) sicherlich vielversprechend. Solche konkreten Anwendungsbeispiele würden auch eine hilfreiche Ergänzung des Fazits für die Unterrichtspraxis darstellen, welches vom Clearing House Unterricht bislang in jedem Kurzreview gezogen wird.

Weiterhin wäre es notwendig, nicht nur Anwendungsmöglichkeiten, sondern auch konkrete Grenzen der Anwendbarkeit aufzuzeigen. Hier könnten die als Ergänzung zu der in den Kurzreviews vorgenommenen Bewertung bereitgestellten Rating-Sheets dahingehend erweitert werden, dass offengelegt wird, worin konkret die Stärken und Schwächen der aufbereiteten Studie liegen. Hieraus müsste deutlich werden, was Praktiker*innen aus der Bewertung schlussfolgern können – und was nicht. Dies betrifft vor allem das Gesamturteil, das am Ende eines jeden Rating-Sheets präsentiert wird. Für lehrkräftebildende Personen können die Prozentangaben für eine grobe Einschätzung der Qualität einer Metaanalyse sicherlich nützlich sein, als Entscheidungshilfe für Praktiker*innen erscheint der Mehrwert der aktuellen Darstellungsweise ohne konkrete Erläuterungen und Implikationen für die Praxis jedoch eher gering, könnte mitunter sogar zu falschen Schlüssen führen.

Auch wenn die vielleicht größte Barriere evidenzorientierter Schul- und Unterrichtspraxis in den Eigenschaften von Evidenz selbst liegt, so bedarf es – um das Angebot von Clearing Houses auch für Lehrkräfte anwendungsorientierter zu gestalten – weiterer Forschung, die sich nicht nur mit möglichen Barrieren auf Seiten lehrkräftebildender Personen (Diery et al. 2020b), sondern auch mit möglichen Barrieren auf Seiten von Praktiker*innen auseinandersetzt. Ein Forschungsdesiderat liegt dabei insbesondere in der Frage, wie Praktiker*innen mit (1) einer geringen Passung der Evidenz zu ihrer Fragestellung bzw. Problematik und dem vorliegenden Kontext sowie (2) einer geringen Kohärenz einzelner Befunde zwischen verschiedenen Studien oder sogar einer geringen Kohärenz einzelner Befunde zu den eigenen Erfahrungsbeständen umgehen. Ein tieferes Verständnis anspruchsvoller Integrationsprozesse wäre nicht nur mit Blick auf die adressatengerechte Aufbereitung von Evidenzen in Kurzreviews in hohem Maße gewinnbringend, sondern eröffnete darüber hinaus die Ableitung konkreter Förderansätze für die Lehrkräfteausbildung und -weiterbildung.

Weitere relevante Voraussetzungen für eine evidenzorientierte Praxis im Sinne einer Wissensbestandsorientierung sind in günstigen Einstellungen und Überzeugungen von Praktiker*innen gegenüber wissenschaftlichen Wissensbeständen zu sehen (Merk et al. 2017; Rochnia und Trempler 2019; Schellenbach-Zell und Rochnia 2020). Sicherlich würde bereits der oben beschriebene Ausbau von Clearing Houses der wahrgenommenen Nützlichkeit wissenschaftlicher Wissensbestände zugutekommen, jedoch sollte zudem der Frage nachgegangen werden, durch welche konkreten Maßnahmen ein positiver Nützlichkeitswert (z. B. durch bestimmte Wertinduktionsverfahren; Johnson und Sinatra 2013; Stark et al. 2022, in Druck) sowie günstige epistemologische Überzeugungen (z. B. durch bestimmte Verfahren zur Induktion epistemischen Wandels; Kerwer und Rosman 2020) bei angehenden und berufstätigen Lehrkräften weiter gefördert werden können.

Alles in allem darf der Transfer von Forschung in die Praxis nicht nur als ein individueller Prozess einzelner Lehrkräfte verstanden werden, welche von Clearing Houses aufbereitete Quellen in ihrer Praxis anwenden (Gräsel 2019). Es bedarf immer noch eines gemeinsamen Diskurses, in dem Potenziale und Barrieren evidenzorientierter Praxis reflektiert, diskutiert und erarbeitet werden, und damit einer flächendeckenden Etablierung von Wissenschafts-Praxis-Kooperationen, wie sie beispielsweise Hartmann und Kolleg*innen (2016) skizzieren. Ein gemeinsamer Diskurs würde darüber hinaus, im Sinne von Joyce und Cartwright (2020), zu einer Forschung beitragen, die nicht nur zeigt, was funktioniert, sondern was in einem bestimmten Kontext mit bestimmten Zielen wie, wann, und warum funktioniert.