1 Einleitung

In jüngerer Zeit wird im deutschprachigen Raum Unterrichtsqualität vermehrt in Form dreier übergeordneter Faktoren konzeptualisiert (Klieme et al. 2001): (1) kognitive Aktivierung, worunter das Potenzial verstanden wird, die Lernenden zur vertieften Auseinandersetzung mit dem Lerngegenstand anzuregen; (2) Konstruktive Unterstützung und die Schaffung eines schülerorientierten Lernklimas; sowie (3) eine strukturierte, effektive und störungspräventive Unterrichtsführung (Klieme et al. 2006; Pianta und Hamre 2009). Diese Faktoren (auch Tiefendimensionen der Unterrichtsqualität genannt) haben sich in der nationalen wie internationalen Lehr-Lernforschung der vergangenen zwanzig Jahre immer wieder als überfachlich erwiesen.

Fraglich ist allerdings, ob alle Schülerinnen und Schüler gleichermaßen von qualitätsvollem Unterricht profitieren (Kunter und Ewald 2016). Kritisch hinterfragt wird beispielsweise die Passung des Unterrichtsangebots zu den Voraussetzungen der Lernenden, so etwa in der Diskussion um entdeckendes Lernen vs. direkter Instruktion (Alfieri et al. 2011). Gerade wenn Lernende nur über schlecht strukturiertes Vorwissen verfügen, sind offene Instruktionsmethoden nicht effektiv (Kirschner et al. 2006). Ebenso wird jedoch kritisiert, dass Strukturierung und herausfordernde Lernangebote als konträre Konstrukte aufgefasst werden (Klieme et al. 2001).

Die skizzierten Diskussionslinien verdeutlichen, dass Unterrichtsqualität als ein Angebot aufgefasst werden kann, dessen Wirkung je nach Nutzung der Lernenden differenziell ausfallen kann (Klieme und Rakoczy 2008), wobei diese Nutzung von Eigenschaften des Lernenden abhängig ist. Mit Blick auf die Forschung zu kognitiv aktivierendem Unterricht fällt dabei zweierlei auf: Zum einen wird kognitive Aktivierung als Qualitätsmerkmal des Unterrichtsangebots vor allem bei Lernenden mit eher günstigen Lernvoraussetzungen in seiner leistungsförderlichen Wirkung untersucht (Kunter et al. 2013; Lipowsky et al. 2009), zum anderen wird die Nutzung des Angebots in Form verstärkter kognitiver Lernaktivitäten auf Seiten der Schülerinnen und Schüler nur selten analysiert (Helm 2016; Hugener 2008; Lipowsky et al. 2009; Rakoczy et al. 2007, 2010). Dem Desiderat, ein kognitiv aktivierendes Unterrichtsangebot bei Lernenden mit (durchschnittlich) vergleichsweise ungünstigen Lernvoraussetzungen in seiner Nutzung und leistungsförderlichen Wirkung zu untersuchen, widmet sich daher die vorliegende Studie.

2 Theoretischer Hintergrund und Forschungsstand

2.1 Kognitive Aktivierung

Dem Qualitätsmerkmal Kognitive Aktivierung liegt die auf soziokonstruktivistischen Theorien basierende Annahme zugrunde, dass Lernen ein ko-konstruktiver Prozess ist, bei dem Lernende in aktiver Auseinandersetzung mit dem Lerngegenstand ihre vorhandenen kognitiven Strukturen zum Erwerb eines konzeptuellen Verständnisses verändern müssen. Die Lehrkraft kann daher das Lernen der Schülerinnen und Schüler nicht herbeiführen, sondern lediglich Lerngelegenheiten für kognitive Konstruktionsleistungen zur Verfügung stellen (Baumert und Köller 2000).

Solchermaßen kognitiv aktivierende Lerngelegenheiten werden im Mathematikunterricht durch die ausgewählten Aufgaben und deren Implementation im Unterricht bestimmt: Komplexe Aufgaben, die Aktivierung des Vorwissens sowie die Aufforderung der Lehrkraft an die Lernenden, ihre Lösungen zu diskutieren, kennzeichnen ein kognitiv aktivierendes Handeln der Lehrkraft (Klieme et al. 2006; Kunter et al. 2006). Dabei wird angenommen, dass eine kognitive Herausforderung mit den Fähigkeiten der Lernenden variiert, jedoch für alle Lernenden auf dem für sie adaptierten Schwierigkeitsniveau möglich ist (Baumert et al. 2004).

Für die Wirksamkeit kognitiv aktivierenden Unterrichts auf die Leistungsentwicklung der Schülerinnen und Schüler gibt es einige Hinweise. Baumert und Köller (2000) zeigten etwa, dass die über Schülerbefragungen ermittelte Verständnisorientierung systematisch zur Erklärung der Leistungsvarianz beiträgt. Klieme et al. (2001) fanden einen korrelativen Zusammenhang zwischen der beobachteten kognitiven Aktivierung und dem Leistungszuwachs auf Klassenebene. Analysen zur Wirksamkeit kognitiv aktivierenden Unterrichts von Kunter et al. (2013) ergaben, dass das kognitive Potenzial der Aufgaben einen signifikanten Prädiktor für die Mathematikleistung darstellt. Die beobachtete kognitive Aktivierung hat bei Lipowsky et al. (2009) ebenfalls einen positiven Effekt auf die Leistungsentwicklung der Schülerinnen und Schüler. Kunter (2005) und Waldis et al. (2010) hingegen konnten keinen Effekt zwischen kognitiver Aktivierung und der Leistung belegen. Dies ist insofern von besonderem Interesse, als beide Studien eine der wenigen im deutschsprachigen Raum sind, die alle Schularten in ihre Analysen eingeschlossen und somit auch kognitiv aktivierenden Unterricht bei leistungsschwächeren Lernenden untersucht haben.

Insgesamt handelt es sich bei kognitiver Aktivierung um ein breit untersuchtes Konstrukt, für das vor allem auf der Grundlage von Beobachter- und Aufgabenanalysedaten belastbare Evidenz für die positive Wirkung auf die Leistungsentwicklung der Lernenden vorliegt (Praetorius et al. 2018). Allerdings fehlen Wirkungsstudien bei nicht-gymnasialen Schülerinnen und Schülern.

2.2 Elaborationsstrategien

Ob kognitiv aktivierender Unterricht bei den Schülerinnen und Schülern wirksam ist, so die Annahme, hängt entscheidend davon ab, ob das Lernangebot in Form verstärkter kognitiver Aktivität genutzt wird (Klieme und Rakoczy 2008). Die vertiefte Auseinandersetzung der Lernenden mit dem Unterrichtsgegenstand kann unter anderem über die genutzten Lernstrategien erfasst werden (Friedrich und Mandl 1992). Nach Weinstein und Mayer (1986) werden dabei u. a. Elaborations- und Organisationsstrategien als Tiefenverarbeitungsstrategien unterschieden: Elaborationsstrategien dienen dazu, sinnkonstituierend einen Lerngegenstand zu verstehen. Organisationsstrategien zielen darauf ab, Verbindungen zwischen neuen Wissenselementen herauszuarbeiten.

Bereits frühe experimentelle Studien (Bobrow und Bower 1969) belegen, dass auf das Verständnis abzielende Tiefenverarbeitungsstrategien zu einer besseren Behaltensleistung beitragen als oberflächliche Wiederholungsstrategien wie etwa das mehrmalige Lesen eines Satzes. Artelt (1999) untersuchte handlungsnah erhobene Tiefenverarbeitungsstrategien und deren quantitativen und qualitativen Effekt auf den Lernerfolg: Zum einen konnte sie belegen, dass die Anwendung von Tiefenverarbeitungsstrategien zu einer umfassenderen Wiedergabe des gelesenen Textes führt, zum anderen korrelierte deren Einsatz mit der Konzentration der Lernenden auf die wesentlichen Sinngehalte des wiederzugebenden Textes. Auch Leopold und Leutner (2002) belegten enge Zusammenhänge zwischen der Leistung und dem tiefenorientierten Strategiegebrauch der Lernenden.

Andere Studien kommen zu divergenten Ergebnissen: Spörer und Brunstein (2005) befragten Schülerinnen und Schüler der 8. Klasse zu ihren Lernstrategien. Während sich die mittels Interviewanalyse ermittelten Tiefenverarbeitungsstrategien als positive Prädiktoren für die ermittelten Leistungsindikatoren erwiesen, war der Zusammenhang der Leistung mit den mittels Fragebogen erfassten Tiefenverarbeitungsstrategien nicht signifikant.

Qualitativ vertiefende Analysen geben Aufschluss darüber, dass sich leistungsschwächere Schülerinnen und Schüler beim Einsatz von Tiefenverarbeitungsstrategien im Vergleich zu leistungsstärkeren Lernenden unterscheiden: Zimmerman und Martinez-Pons (1990) sowie Lehtinen (1992) konnten zeigen, dass leistungsstarke Schülerinnen und Schüler häufiger Lernstrategien nutzen. Entsprechend belegten Spörer (2004) sowie Artelt et al. (2003), dass Schülerinnen und Schüler am Gymnasium über mehr Elaborationsstrategien berichten als Lernende nicht-gymnasialer Schularten.

2.3 Zusammenhangsbefunde zwischen Unterrichtsangebot und kognitiver Aktivität der Lernenden

Die divergenten Ergebnisse zur Effizienz von Lernstrategien werden theoretisch auch auf den Anregungsgehalt der jeweiligen zugrundeliegenden Lernsituation (z. B. problemorientiertes Lernen) zurückgeführt. McNamara et al. (1996) untersuchten anhand unterschiedlicher Texte, welcher Kohärenzgrad für eine aktive Verarbeitung förderlich ist. Insbesondere bei problemorientierten Testaufgaben, die eine tiefergehende Verarbeitung des Textes voraussetzten, erzielten leistungsschwächere Lernende bessere Ergebnisse bei kohärenten Texten, während leistungsstärkere Lernende nach der Lektüre eines weniger kohärenten Textes besser abschnitten.

Im Rahmen der Videostudie des Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) konnten Seidel et al. (2002, 2006) zeigen, dass der Anteil unterrichtlicher Arbeitsformen (Sozialformen) in keinem systematischen Zusammenhang mit den von den Lernenden berichteten Elaborationen steht. Die effektive Zeitnutzung hingegen kovariierte mit den Elaborationen der Lernenden: Schülerinnen und Schüler einer Gruppe mit niedriger Zeitnutzung berichteten signifikant weniger vertiefende Elaborationen. Weitere Analysen belegen, dass elaborierende Äußerungen von Schülerinnen und Schülern im Klassengespräch mit verstärkten kognitiven Lernaktivitäten aller Lernenden einhergehen (Seidel 2003). Die Befunde deuten zusammenfassend darauf hin, dass vor allem die Tiefendimensionen des Unterrichts mit den Elaborationen der Lernenden zusammenhängen.

Diese Vermutung wird in weiteren Feldstudien bestätigt: Für die Strukturierung des Unterrichts konnten Rakoczy et al. (2007) einen positiven Effekt auf die nachvollziehende Elaboration (z. B. die Erklärungen der Lehrkraft nachvollziehend verstehen) der Schülerinnen und Schüler aufzeigen; für vertiefende Elaborationen (z. B. sich ein eigenes, zum neuen Stoff passendes Beispiel zu überlegen) ließ sich dieser Effekt jedoch nicht replizieren (Rakoczy et al. 2010). Helm (2016) belegte in einer breit angelegten Fragebogenstudie positive Effekte von Merkmalen kognitiver Aktivierung auf die elaborierte Auseinandersetzung der Schülerinnen und Schüler mit Aufgaben. Bei Hugener (2008) hingegen berichteten die Schülerinnen und Schüler keine erhöhten kognitiven Lernaktivitäten, wenn der videographierte Unterricht, an dem sie teilgenommen hatten, als kognitiv aktivierend eingeschätzt wurde.

Die referierten Befunde zeigen somit, dass anregende Lernumgebungen nicht zwingend zu einer kognitiv vertieften Verarbeitung auf Seiten der Lernenden führen. Insbesondere bei leistungsschwächeren Lernenden scheint dieser Zusammenhang fraglich zu sein (McNamara et al. 1996).

2.4 Fragestellung

Während es mittlerweile eine beträchtliche Anzahl an Studien zur Wirksamkeit kognitiver Aktivierung gibt und auch der lernförderliche Einsatz von Elaborationsstrategien gut belegt ist, sind Studien, die das Gesamtgefüge aus anregendem Unterrichtsangebot, vertiefter kognitiver Nutzung und leistungsförderlicher Wirkung untersuchen, rar (Helm 2016; Hugener 2008; Lipowsky et al. 2009). Angesichts der Ergebnisse schulartspezifischer Wirkungsanalysen zu kognitiv aktivierendem Unterricht (vgl. Abschn. 2.1), differenzieller Effekte des Lernstrategieeinsatzes (vgl. Abschn. 2.2) sowie Befunden dazu, dass Lernende in Abhängigkeit ihres Vorwissens unterschiedlich bezüglich kognitiver Lernaktivitäten auf herausfordernde Lernangebote reagieren (vgl. Abschn. 2.3), scheint es ohne eine weitere empirische Vergewisserung nicht angeraten, bisherige Forschungsbefunde auf den Unterricht bei nicht-gymnasialen Lernenden zu übertragen. Daher wurde im Rahmen der vorliegenden Studie Unterricht dort untersucht und dessen Nutzung und Wirkung analysiert.

Zunächst wird daher der Zusammenhang zwischen der beobachteten kognitiven Aktivierung und dem Ausmaß selbstberichteter Elaborationsstrategien von Schülerinnen und Schülern nicht-gymnasialer Schularten fokussiert (Fragestellung 1). Angesichts der referierten Befunde und theoretischen Überlegungen ist davon auszugehen, dass kognitiv aktivierender Unterricht, da er als kognitiv anregende Lernumgebung prinzipiell auf jedem Schwierigkeitsniveau realisierbar ist, auch bei Lernenden mit vergleichsweise ungünstigen Lernvoraussetzungen zu einem größeren Ausmaß an Elaborationsstrategien führt.

Darüber hinaus ist von Interesse, ob sich die in den beobachteten Unterrichtsstunden erzielten Lernzuwächse der Lernenden mit dem Ausmaß kognitiver Aktivierung im Unterricht und den selbstberichteten Elaborationsstrategien erklären lassen (Fragestellung 2). Hier kann angenommen werden, dass der an anderen Schularten mehrfach als leistungsförderlich belegte kognitiv aktivierende Unterricht auch in der vorliegenden Stichprobe einen positiven Effekt auf die Leistungsentwicklung hat. Ebenso ist davon auszugehen, dass die Elaborationsstrategien prädiktiv für die Leistung sind, sofern sie unmittelbar nach dem Unterricht erfasst und konkret auf die Lernsituation bezogen werden.

3 Methode

3.1 Stichprobe und Untersuchungsdesign

Datengrundlage für die folgenden Analysen bilden (1) ein Leistungstest, (2) ein Schülerfragebogen sowie (3) Videoanalysen zu Mathematikstunden mit dem Unterrichtsthema „Vermehrter/verminderter Grundwert“. Sämtliche Datenerhebungen wurden unter standardisierten Bedingungen (standardisierte Test- und Fragebogeninstruktion, Kameraskript) durchgeführt (Abb. 1).

Abb. 1
figure 1

Forschungsdesign: Datenerhebung je Klasse (U‑Std. Unterrichtsstunde, t Messzeitpunkt)

Der Leistungstest wurde zeitnah vor der ersten (t1) sowie nach der zweiten videographierten Unterrichtsstunde (t3) durchgeführt, wobei Vor- und Nachtest identisch waren. Nach den Unterrichtsstunden (t2, t3) erhielten die Schülerinnen und Schüler einen Fragebogen mit Items zur stundenbezogenen Motivation, zum situationalen Interesse und zu Elaborationsstrategien. Die Lehrkräfte bekamen die Aufforderung, zwei für ihr Unterrichtshandeln typische Stunden zum vorgegebenen Unterrichtsthema zu zeigen.

Die Stichprobe auf Klassenebene umfasste insgesamt 30 Lehrkräfte aus Baden-Württemberg und deren 2 × 30 = 60 Unterrichtsstunden. 50 % der Lehrkräfte sind weiblich, 23 unterrichteten an einer Haupt- bzw. Werkrealschule, 7 an einer Realschule. Die Stichprobe auf Schülerebene umfasste insgesamt 608 Schülerinnen und Schüler der achten Jahrgangsstufe, wovon 42,1 % Mädchen sind. Sowohl auf Klassen- als auch auf Schülerebene stellt die Stichprobe eine Gelegenheitsstichprobe dar.

3.2 Instrumente

3.2.1 Leistungstest

Das konzeptuelle Verständnis des Unterrichtsthemas wurde mithilfe eines schriftlichen Tests erfasst, der von MathematikdidaktikerInnen entwickelt wurde. Der Test beinhaltet Aufgaben mit offenem Antwortformat, die dichotom kodiert wurden und sich auf das konzeptuelle Verständnis des Unterrichtsthemas beziehen (Beispielitem: „Die Preise für das Telefonieren sind in den letzten Jahren auf ein Viertel gefallen. Drücke diese Veränderung in Prozent aus.“). Anhand einer Pilotierungsstichprobe wurden mittels exploratorischer Faktorenanalyse 12 Items ausgewählt. Das gesamte Testdatenmaterial wurde von zwei Raterinnen unabhängig voneinander kodiert. Die Beurteilerübereinstimmung für die einzelnen Aufgaben erwies sich als gut (0,79 < Krippendorff’s \(\upalpha\)< 0,97). Um die Leistung zu skalieren, wurde ein eindimensionales Rasch-Modell unter Ausschluss eines Items spezifiziert. Anschließend wurden unter Verwendung des Softwarepaketes eRm (Mair und Hatzinger 2007) der Software R (R Core Team 2017) Personenparameter geschätzt. Die Outfit-MSQ-Werte variieren zwischen 0,71 und 1,20 (IQB = [0,80; 1,04]), die Infit-MSQ-Werte zwischen 0,82 und 1,03 (IQB = [0,85; 0,97]). Zur Überprüfung der internen Konsistenz der endgültigen Testskala (M = −1,54; SD = 1,55; IQB = [−3,09; −0,69]) wurde die Separationsreliabilität berechnet, welche akzeptable Werte zeigt (rWLE_pre = 0,64; rWLE_post = 0,69; rWLE_gesamt = 0,68).

3.2.2 Schülerfragebogen

Die kognitive Lernaktivität der Lernenden wurde über die Skala Vertiefende Elaboration/organisierende Prozesse operationalisiert, die in der Studie „Unterrichtsqualität und mathematisches Verständnis in verschiedenen Unterrichtskulturen“ validiert (Rakoczy et al. 2005) und für die vorliegende Studie geringfügig adaptiert wurde. Die Elaborationsstrategien wurden in dieser Studie anhand retrospektiver Selbstauskünfte möglichst zeitnah und auf die Lernsituation bezogen erfasst (Ericsson und Simon 1980).

Für alle Modelle wurden a priori potenzielle Einflussfaktoren als Kontrollvariablen ausgewählt, welche die Zielkriterien beeinflussen und Zusammenhänge verdecken könnten: Da die Leistungsentwicklung in vergleichbaren Studien neben den Elaborationsstrategien auch mit dem situationalen Interesse der Lernenden zusammenhängt (Lipowsky et al. 2009; Rakoczy et al. 2010; Seidel et al. 2002) sowie motivationale Aspekte und Elaborationsstrategien deutlich kovariieren (Baumert 1993; Rakoczy et al. 2007; Seidel 2003), wurden drei diesbezügliche Skalen aus der Studie „Unterrichtsqualität und mathematisches Verständnis in verschiedenen Unterrichtskulturen“ (Rakoczy et al. 2005) aufgenommen und stundenspezifisch adaptiert (Tab. 1).

Tab. 1 Skalen im Schülerfragebogen: Beispielitems, deskriptive Statistiken und interne Konsistenz

3.2.3 Videoanalyse

Für einen ganzheitlichen Blick auf die Unterrichtssituation wurden in der vorliegenden Studie durch Videoerhebungen unterstützte Fremdbeobachtungen gewählt (Clausen 2002). Zur Sequenzierung des Unterrichtsverlaufes wurden didaktische Zielentscheidungen berücksichtigt, aus der eine sukzessive Abfolge der Lehr-Lern-Prozess-Struktur resultiert (Klafki 1991). Typischerweise wird Unterricht dabei in aufgabendominierte selbstständige Schülerarbeitsphasen sowie deren Vorbereitung im Plenumsunterricht (Stein et al. 1996) erweitert um Besprechungs- und Reflexionsphasen (Blömeke et al. 2006) eingeteilt, wobei Kleinknecht (2010) davon ausgeht, dass es je Phase unterschiedliche Zielsetzungen gibt, was eine phasenspezifische Unterrichtsanalyse nahelegt. Daher wurden alle Unterrichtsvideos zunächst mit einem niedrig-inferenten Kodierverfahren, das in Anlehnung an Hugener et al. (2006), Kleinknecht (2010) sowie Seidel et al. (2003) ausgearbeitet worden war, in 10-Sekunden-Intervallen bezüglich didaktischer Phasen (Erarbeitung, eigenständige Schülerarbeit, Besprechung) analysiert. Die unabhängige Doppelkodierung wurde durchgehend von einer Projektmitarbeiterin und alternierend von drei Raterinnen, die zuvor mithilfe videographierter Unterrichtsstunden aus anderen Forschungsprojekten und der Pilotstudie im Umgang mit dem Analysemanual geschult wurden, durchgeführt. Die Doppelkodierung erbrachte eine gute Beobachterübereinstimmung (Krippendorff’s α = 0,86). Voneinander abweichende Urteile wurden in ein Konsensurteil überführt. Auf dieser Grundlage wurden die Videos phasenspezifisch mit einem hoch-inferenten Ratingverfahren hinsichtlich kognitiv aktivierender Merkmale beurteilt. Das dafür genutzte Ratingmanual greift dabei auf die bei Lipowsky et al. (2009) beschriebenen Merkmale zurück. Das Rating wurde auf einer vierstufigen Likertskala vorgenommen, deren Skalenbezeichnung von 1 („trifft nicht zu“) bis 4 („trifft zu“) reicht. Es wurde von vier Raterinnen durchgeführt, von denen zwei Projektmitarbeiterinnen mit mindestens dreijähriger Unterrichtserfahrung und zwei Lehramtsstudierende mit dem Unterrichtsfach Mathematik waren. In einer dreitägigen Schulung wurden grundlegende Begriffe und Konzepte des hoch-inferenten Ratings theoretisch erarbeitet, der Umgang mit dem Analysemanual anhand videographierter Unterrichtsstunden aus anderen Forschungsprojekten und der Pilotstudie trainiert sowie die Übereinstimmung deskriptiv überprüft. Nach dieser Schulung schätzten je Unterrichtsstunde zwei Raterinnen (eine Projektmitarbeiterin und eine Lehramtsstudierende) die kognitive Aktivierung unabhängig voneinander ein. Zur Überprüfung der Interraterreliabilität wurden aufgrund wechselnder Raterinnenpaare unjustierte Intraklassenkorrelationskoeffizienten (ICC; Bliese 2000) in einfaktoriellen Varianzanalysen berechnet (Wirtz und Caspar 2002). Diese liegen für die ursprünglichen Einschätzungen der Raterinnen zwischen 0,43 und 0,83. Bei Nichtübereinstimmung wurde die Einschätzung mittels Konsensverfahren festgelegt. Für jede didaktische Phase wurde eine separate Skala gebildet und deren faktorielle Struktur separat konfirmatorisch geprüft, da sich die Phasen gegenseitig ausschließen. Aufgrund konzeptioneller Überlegungen wurde jeweils ein eindimensionales Modell spezifiziert, dessen Anpassung anhand klassischer Cut-Off-Werte von Fit-Indices überprüft wurde, die nach Hu und Bentler (1999) folgende Grenzen nicht über- bzw. unterschreiten sollen: Comparative Fit Index (CFI) > 0,95; Root Mean Square Error of Approximation (RMSEA) < 0,06 und Standardized Root Mean Square Residual (SRMR) < 0,08. Das Modell für die Erarbeitungsphasen wies zunächst einen Heywood-Fall auf, weswegen die negative, nicht signifikant von Null verschiedene Residualvarianz auf Null fixiert wurde (Chen et al. 2001). Die Abhängigkeiten in den Daten (mehrere Phasen je Stunde, mehrere Stunden je Lehrkraft) wurden mit cluster-robusten Schätzern berücksichtigt (Browne und Arminger 1995). Auf der Grundlage dieser Kriterien ergeben die Analysen der theoretisch angenommenen Modelle sehr gute Modellanpassungen (Kognitive Aktivierung in Erarbeitungsphasen: \(\chi ^{2}\)= 2,952; df = 3; CFI = 1,000; RMSEA = 0,000; SRMR = 0,054; Kognitive Aktivierung in Schülerarbeitsphasen: \(\chi ^{2}\)= 10,925; df = 9; CFI = 0,988; RMSEA = 0,051; SRMR = 0,047; Kognitive Aktivierung in Besprechungsphasen: \(\chi ^{2}\)= 1,712; df = 2; CFI = 1,000; RMSEA = 0,000; SRMR = 0,073). Die Skalen (Erarbeitungsphase: M = 2,24; SD = 0,75; Schülerarbeitsphasen: M = 2,20; SD = 0,55; Besprechungsphasen: M = 2,37; SD = 0,67) ergaben in zwei Fällen gute Werte für die interne Konsistenz (Schülerarbeitsphasen: McDondald’s \(\upomega\)= 0,72; Besprechungsphasen: McDondald’s \(\upomega\)= 0,71), in einem Fall ist die interne Konsistenz gering (Erarbeitungsphasen: McDondald’s \(\upomega\)= 0,58).

3.3 Statistische Analysen

Zur Beantwortung beider Forschungsfragen wurden schrittweise Regressionsanalysen unter Verwendung der Softwarepakete lme4 (Bates et al. 2015) und lavaan (Rosseel 2012) der Software R (R Core Team 2017) durchgeführt, so dass die hierarchische Datenstruktur (mehrere Phasen innerhalb von Unterrichtsstunden) für die Schätzung korrekter Standardfehler anhand von Mehrebenenmodellen oder cluster-robusten Standardfehlern berücksichtigt werden konnte (Rabe-Hesketh und Skrondal 2008). Spezifiziert wurden zur Modellierung von Forschungsfrage 1 jeweils Zwei-Ebenen-Random-Intercept-Modelle (Gelman und Hill 2007). Da die Anwendung von Elaborationsstrategien (abhängige Variable (AV) bei Analysen zu Forschungsfrage 1) nach jeder Unterrichtsstunde, die Nachtestleistung (AV bei Analysen zu Forschungsfrage 2) nur einmal erhoben wurde, unterscheiden sich die Cluster auf Ebene 2 für die erste (Level 1: Individuen; Level 2: Unterrichtsstunden) und zweite Fragestellung (Level 1: Individuen; Level 2: Klassen). Alle Daten wurden als manifeste Skalenwerte aufgenommen. Da die identifizierten Unterrichtsphasen in unterschiedlicher Häufigkeit in den Unterrichtsstunden auftraten, wurden die Daten bei mehrfachem Vorliegen phasenspezifisch aggregiert. Zur Kontrolle von Kontexteffekten wurden alle Level-1-Prädiktoren als gruppenaggregierte Variablen auf Ebene 2 mitberücksichtigt. Um eine Konfundierung durch demografische Merkmale zu minimieren, wurde zudem für das Geschlecht der Schülerinnen und Schüler und die Schulart kontrolliert. Aufgrund der theoretischen Passung und auf Anregung der Gutachtenden wurden für Forschungsfrage 2 zudem Modelle mit Interaktionseffekten aus Vortestleistung und kognitiver Aktivierung sowie Mediationsmodelle (Average Causal Mediation Effects mit cluster-robuster quasi-bayesianischer Approximierung der Konfidenzintervalle; Tingley et al. 2014) geschätzt.

4 Ergebnisse

4.1 Zusammenhang zwischen kognitiver Aktivierung und Elaborationsstrategien

Zur Beantwortung der ersten Fragestellung wurden Regressionsmodelle spezifiziert, in denen zunächst konsekutiv und abschließend simultan die Assoziierung kognitiver Aktivierung in den unterschiedlichen Unterrichtsphasen mit den Elaborationsstrategien geschätzt wurde. Spezifiziert wurden Modelle mit den Daten der Schülerinnen und Schüler auf Ebene 1 sowie den auf die 60 Unterrichtsstunden bezogenen Daten auf Ebene 2. Tab. 2 fasst die unstandardisierten Ergebnisse der Analysen zusammen.

Tab. 2 Befunde (unstandardisierte Regressionskoeffizienten) aus Mehrebenenanalysen zur Vorhersage der Anwendung von Elaborationsstrategien

Um den Anteil der zwischen den Unterrichtsstunden liegenden Varianz in den von den Schülerinnen und Schülern berichteten Elaborationsstrategien zu beschreiben, wurde in einem ersten Schritt die Intraklassenkorrelation berechnet. Auch wenn der Großteil der Varianz in der Verwendung von Elaborationsstrategien individuellen Ursprungs ist, bestehen systematische Unterschiede auf Gruppenebene: 9,4 % der Gesamtvarianz liegt zwischen den Unterrichtsstunden.

In den ersten drei Modellen (Modelle 1–3) wurde zunächst jeweils eine phasenspezifische kognitive Aktivierung berücksichtigt. Alle drei untersuchten Gruppenvariablen erweisen sich entgegen der Annahme nicht als signifikante Prädiktoren für die Anwendung von Elaborationsstrategien (B = 0,01; n. s. bzw. B = 0,02; n. s.). Dies spiegelt sich auch in der geringen Varianzaufklärung der ersten drei Modelle wider (0,021 < marginales \(R^{2}\)< 0,036). Da in 18 Unterrichtsstunden keine Besprechungsphase zu beobachten war, konnten in Modell 3 nur 63,6 % der Individualdaten berücksichtigt werden. Um diese hohe Ausfallquote zu umgehen, wurde im Gesamtmodell mit Kontrollvariablen (Modell 4, Tab. 3) die kognitive Aktivierung in den Besprechungsphasen nicht mehr berücksichtigt. Es zeigt sich, dass vor allem die gewählten Kovariaten auf Individualebene (Amotivation: B = −0,08; p = 0,028; intrinsische Motivation: B = 0,39; p < 0,001; Interesse: B = 0,14; p = 0,001) sowie das mittlere Interesse der jeweiligen Schulklasse auf Gruppenebene (B = 0,34; p = 0,030) signifikant zur Vorhersage der Elaborationsstrategien beitragen. Das Gesamtmodell kann 40,1 % der Varianz erklären. Da nicht-signifikante Ergebnisse frequentistischer Inferenzstatistik nicht als Evidenz für die Nichtexistenz eines Effektes gewertet werden können (Dienes 2014), wurde anschließend ein Bayes-Faktor für den Vergleich des Modells 4 mit einem Modell (Modell 4b), das bis auf die Prädiktoren der kognitiven Aktivierung alle Prädiktoren des Modells 4 enthält, geschätzt. Das Ergebnis (BF = 60,87; basierend auf JZS priors; siehe Rouder und Morey 2012) kann als starke Evidenz für eine bessere Passung der vorliegenden Daten auf die Modell 4b entsprechende Hypothese interpretiert werden und legt somit die Schlussfolgerung nahe, dass ein Effekt kognitiver Aktivierung auf die Elaborationsstrategien der Lernenden nicht existiert.

4.2 Zusammenhang zwischen kognitiver Aktivierung, Elaborationsstrategien und der Leistungsentwicklung der Lernenden

Zur Beantwortung der zweiten Forschungsfrage wurden aufgrund der Anzahl der Prädiktoren und des geringen ICC cluster-robuste Modelle geschätzt, um Singularitäten zu vermeiden. Zunächst (Modell 5) wurden die Nachtestleistungen mit den erhobenen Kovariaten (insbesondere der grand-mean-zentrierten Vortestleistung) und den Elaborationsstrategien prädiziert. Hier zeigte sich erwartungsgemäß ein starker Effekt der Vortestleistung, jedoch erwartungswidrig keine Effekte der Elaborationsstrategien. In einem weiteren Modell (Modell 6) wurden die (grand-mean-zentrierten) Variablen der kognitiven Aktivierung als Prädiktoren aufgenommen, um additive Effekte zu schätzen. Auch diese zeigten insignifikante p-Werte, wenngleich die aufgeklärte Varianz deskriptiv um 3 % anstieg. Diese erhöhte sich erneut um 1 % unter Hinzunahme von Interaktionseffekten aus Vortestleistung und den Variablen der kognitiven Aktivierung (Modell 7), wobei lediglich die Interaktion aus Vortestleitung und kognitiver Aktivierung in der Begleitungsphase der Einführungsstunde signifikant ausfiel. Das positive Vorzeichen dieses Interaktionseffektes indiziert dabei eine stärkere Assoziation der kognitiven Aktivierung in Begleitphasen der Einführungsstunde mit der Nachtestleistung für Subgruppen mit höheren Vortestwerten. Eine Analyse von Mediationseffekten ergab vernachlässigbar kleine (|β| ≤ 0,00) und nicht signifikante (p ≤ 1) Ergebnisse.

Tab. 3 Befunde (standardisierte Regressionskoeffizienten) aus cluster-robusten Regressionsmodellen zur Vorhersage der Nachtestleistung

5 Diskussion

Kognitiv aktivierender Unterricht wird im Hinblick auf seine leistungsförderliche Wirkung vor allem bei Schülerinnen und Schülern mit vergleichsweise günstigen Lernvoraussetzungen untersucht. Befunde zu differenziellen Lern- und Entwicklungsmilieus an den unterschiedlichen Schularten (Baumert et al. 2006) belegen jedoch, dass Unterricht an Haupt- und Realschulen unter anderen Rahmenbedingungen stattfindet als an Gymnasien. Dies verdeutlicht die Notwendigkeit, Unterrichtsqualitätsstudien auch an nicht-gymnasialen Schularten durchzuführen. Dieses Desiderat aufgreifend standen im Zentrum der Analysen die Fragen, ob kognitiv aktivierender Unterricht prädiktiv für die Anwendung von Elaborationsstrategien ist und ob sich beides, sowohl ein anregendes Unterrichtsangebot als auch dessen vertiefte Verarbeitung, als leistungsförderlich erweist.

5.1 Zusammenfassung und Einordnung der Befunde

Unerwartet hinsichtlich der ersten Forschungsfrage ist der Befund, dass kognitive Aktivierung und verwendete Elaborationsstrategien entgegen der Annahme keine signifikanten Assoziationen zeigen. Dies trifft vielmehr auf die selbstberichteten Elaborationsstrategien und die affektiv-motivationale Einstellungen der Lernenden zu. Dies kann als Hinweis darauf verstanden werden, dass kognitiv aktivierender Unterricht nicht direkt zur intendierten Nutzung führt und motivationale Variablen unabhängig davon mit vertieften Elaborationen assoziiert sind.

Der fehlende Zusammenhang zwischen kognitiver Aktivierung und den Elaborationsstrategien weist Parallelen zum bereits berichteten Forschungsstand auf: Hugener (2008) konnte den angenommenen Zusammenhang zwischen kognitiv aktivierendem Unterricht und vertiefend-organisierenden Lernaktivitäten nicht bestätigen und bezog sich interpretierend auf die Befunde von Struyven et al. (2006), denen zufolge schülerorientierter Unterricht vermutlich nur durch die Unterstützung der Lehrkraft zur vertieften Verarbeitung führen kann. Die Ergebnisse von Rakoczy et al. (2010) bekräftigen diese Hypothese insofern, als inhaltlich strukturierende Maßnahmen wie die sprachliche Exaktheit oder die verständliche Darstellung des Erarbeiteten bei den von ihnen untersuchten leistungsschwächeren Schülerinnen und Schülern zu mehr kognitiver Aktivität führen.

Bezüglich der zweiten Forschungsfrage erwies sich kognitive Aktivierung nicht als signifikanter Prädiktor für die Leistungsentwicklung, womit die vorliegenden Daten letztlich inkonklusiv bzgl. Forschungsfrage 2 bleiben.

Die Anwendung von Elaborationsstrategien, retrospektiv erfasst auf der Basis von Selbstaussagen der Schülerinnen und Schüler, scheint offensichtlich kurzfristig betrachtet keine Bedeutung im Angebots-Nutzungs-Wirkungsgefüge zu haben. Im Anschluss an die internationale Diskussion um desirable difficulties (Bjork 2013), worunter verschiedene evidenzbasierte Maßnahmen subsumiert werden, die das langfristige Behalten und den Wissenstransfer unterstützen, könnte aber auch vermutet werden, dass die vertiefte Auseinandersetzung der Schülerinnen und Schüler mit dem Lerngegenstand eher langfristige Wirkungen hat, etwa wenn Lernende auch mit zeitlichem Abstand vergleichbare Aufgaben noch sicher lösen können.

Lipowsky et al. (2009) und Rakoczy et al. (2010) setzten zwei verschiedene Elaborationsskalen ein: Während sich die nachvollziehende Elaboration als leistungsförderlich erwies (Lipowsky et al. 2009), konnte die Bedeutsamkeit der vertiefenden Elaboration, nach der auch in der vorliegenden Studie gefragt wurde, nicht belegt werden (Rakoczy et al. 2010). Der dort gefundene signifikante Interaktionseffekt zwischen dem Vorwissen und der vertiefenden Elaboration deutet darauf hin, dass kognitive Lernaktivitäten erst dann wirksam werden können, wenn die Lernenden über die notwendigen kognitiven Voraussetzungen verfügen, um neue Lerninhalte elaborierend zu verarbeiten (Rakoczy et al. 2010). Dies könnte ein Grund für den nicht nachweisbaren Zusammenhang zwischen Elaborationsstrategien und Leistung in der hier untersuchten Stichprobe von Lernenden mit eher ungünstigen Lernvoraussetzungen sein; konnte vorliegend jedoch nur teilweise repliziert werden.

Kognitive Aktivierung hat sich nahezu durchgehend in allen Studien als leistungsförderlich erwiesen; somit fügen sich die Ergebnisse der vorliegenden Analysen nur teilweise in den Forschungsstand ein. Zusammenfassend bestätigen die vorliegenden Befunde nur in Interaktion mit dem Vorwissen, dass kognitive Aktivierung auch bei nicht-gymnasialen Schülerinnen und Schülern leistungsförderlich ist.

5.2 Stärken und Grenzen der Studie

Die hier aufgezeigten Ergebnisse müssen auch vor dem Hintergrund des methodischen Vorgehens betrachtet werden. Hierbei stellt sich zunächst die Frage nach der Generalisierbarkeit der gezogenen Schlussfolgerungen, die angesichts der Gelegenheitsstichprobe limitiert ist. Hinzu kommt, dass aus testökonomischen Gründen nur das Geschlecht der Schülerinnen und Schüler erfasst werden konnte. Weitere soziodemographische Daten wären hilfreich gewesen, um die vorliegenden Befunde im Vergleich zu bereits vorliegenden Ergebnissen ähnlicher Studien genauer einordnen zu können. Letztlich kann somit auch nicht belegt werden, ob es sich bei der untersuchten Stichprobe tatsächlich um leistungsschwächere Lernende mit eher ungünstigen Lernvoraussetzungen handelt.

Der nicht zu belegende Zusammenhang zwischen den genutzten Elaborationsstrategien der Schülerinnen und Schüler und dem Leistungszuwachs muss auch in methodischer Hinsicht hinterfragt werden: Baumert (1993), Spörer und Brunstein (2005) sowie Schukajlow und Leiss (2011) fanden wie in der vorliegenden Studie keinen signifikanten Zusammenhang der über Fragebögen ermittelten Tiefenlernstrategien zum jeweiligen Lernerfolgsmaß. Im Widerspruch dazu stehen Interventions- und Interviewstudien, die die leistungsrelevante Bedeutung von vertiefenden Lernstrategien belegen können (Artelt 1999; Spörer und Brunstein 2005). Diese divergenten Ergebnisse führt Artelt (1999) zusammenfassend u. a. auf die sich unterscheidenden Erhebungsmethoden zurück: Studien, in denen die Nutzung von Lernstrategien wie vorliegend möglichst handlungsnah erfasst wird, zeigen deutlichere Zusammenhänge zum Lernerfolg auf als Untersuchungen, in denen Lernstrategien ohne konkreten Situationsbezug erhoben werden. Auch Wirth und Leutner (2008) diskutieren die Frage nach einer validen Erfassung von Lernstrategien: Neben dem Aspekt der Handlungsnähe heben sie hervor, dass die Fokussierung der Qualität von Lernstrategien, die sich in der Passung der Lernstrategien zur individuellen Lernsituation niederschlägt, von größerer Bedeutung für den Lernzuwachs ist als die Quantität. Insofern wäre es wünschenswert, die Elaborationsstrategien der Schülerinnen und Schüler nicht nur als schriftliche Selbstaussage zu erfassen, sondern beispielsweise durch den Einsatz weiterer Videokameras und Mikrofone, die eine gezieltere Beobachtung der Lernenden erlauben, einen qualitativeren Eindruck von den vertiefenden Elaborationen zu erhalten.

Nicht zu belegende Zusammenhänge zwischen Lernstrategie- und Lernerfolgsmaßen können nach Artelt (1999) auch auf die mangelnde Passung dieser beiden Maße zurückgeführt werden: Wird vor allem reproduzierbares Faktenwissen als Indikator für den Lernerfolg erhoben, lassen sich keine positiven Zusammenhänge zwischen Lernstrategien und erhobenem Leistungsmaß belegen. In der vorliegenden Studie wurden daher Items im Leistungstest eingesetzt, die das operational definierte Merkmal „Konzeptuelles Verständnis des vermehrten und verminderten Grundwertes“ erfassen. Die vergleichsweise geringe Anzahl an Testitems ist dem Umstand geschuldet, sowohl die zeitliche Belastung für die teilnehmenden Schülerinnen und Schüler als auch den Unterrichtsausfall möglichst gering zu halten. Bezüglich der Interpretation der Testergebnisse ist limitierend zu ergänzen, dass der Test keine allgemeinen mathematischen Fähigkeiten erfasst, weswegen die Übertragbarkeit der im Rahmen dieser Studie gewonnenen Erkenntnisse auf den Mathematikunterricht bei leistungsschwächeren Lernenden im Allgemeinen einer weiteren empirischen Überprüfung bedarf.

Des Weiteren soll an dieser Stelle betont werden, dass die Standardvorgehensweise der Mediationsanalyse in diesem Kontext (wie sie auch vorliegend zur Anwendung kam) kritisch gesehen werden kann: Zwar scheinen Mediationsanalysen in manchen sozialwissenschaftlichen Teildisziplinen zur Standardvorgehensweise zu gehören (Bullock et al. 2010). Um diese Modelle (für einen Überblick der diversen Ansätze siehe etwa MacKinnon et al. 2002) zu identifizieren, müssen jedoch selbst bei einer randomisierten unabhängigen Variable starke Annahmen getroffen werden. Etwa dürfen keine unbeobachteten konfundierenden Variablen von Mediator und abhängiger Variable vorliegen und die mediierende Variable muss messfehlerfrei sein. Beide Annahmen dürften im bildungswissenschaftlichen Kontext so gut wie nie erfüllt sein, was problematisch ist, da die Verletzung dieser Annahmen drastische Verzerrungen zur Folge haben kann (Imai et al. 2010), Sensitivitätsanalysen zur Abschätzung der Robustheit der empirischen Ergebnisse aber kaum zu beobachten sind. Darüberhinaus scheinen bezüglich Mediationsanalysen grundlegende Missverständnisse (Fiedler et al. 2011) ebenso weit verbreitet wie fragwürdige Forschungspraktiken (Götz et al. 2021).

In den vorliegenden Analysen wurde ein phasenspezifischer Zugang gewählt, der dem Umstand Rechnung trägt, dass Lehrkräfte möglicherweise nicht über die gesamte Dauer einer Unterrichtsstunde in gleichem Maße kognitiv aktivierend unterrichten (Praetorius et al. 2014). Staub (2007) befürwortet in Bezug auf die zu wählende Analyseeinheit, dass sie dieselbe Reichweite hat, in der Lehrkräfte strukturelle Unterrichtsentscheidungen treffen. Mit der Gliederung der Unterrichtsstunden in reliabel zu identifizierende didaktische Phasen scheint dies eingelöst zu sein (Kleinknecht 2010). Die im Rahmen dieser Studie entstandenen Ergebnisse weisen somit eine besondere Nähe zu den von den Lehrkräften in der Unterrichtsvorbereitung zu treffenden didaktischen Entscheidungen auf und erleichtern somit möglicherweise den Transfer der Befunde auf das konkrete Unterrichtshandeln der Lehrkräfte. Daher wird der phasenspezifische Ansatz auch bei weiteren Analysen weiterverfolgt, beispielsweise bei der geplanten Untersuchung des Zusammenhangs zwischen phasenspezifischer kognitiver Aktivierung und dem kognitiven Aktivierungspotenzial der im Unterricht genutzten Lernaufgaben.

Im Zusammenhang mit herausforderndem Unterricht bei leistungsschwächeren Schülerinnen und Schülern wird immer wieder das Ausmaß an notwendiger Führung diskutiert (Kirschner et al. 2006). Bisherige Befunde zu den Voraussetzungen kognitiv aktivierenden Unterrichts belegen, dass die rezeptiven lehr-lerntheoretischen Überzeugungen der Lehrkräfte unabhängig vom Ausmaß beobachteter kognitiver Aktivierung in den Erarbeitungs- und Lernbegleitungsphasen variieren. Somit stimmen manche kognitiv aktivierend unterrichtenden Lehrkräfte einem eher kleinschrittigen Vorgehen zu und realisieren möglicherweise auch strukturierende Instruktionselemente in ihrem Unterricht, die in der vorliegenden Studie nicht erfasst wurden. Daraus und aus den Ergebnissen der aktuellen Analysen ergibt sich die Frage, ob ein anspruchsvolles Unterrichtsangebot in den Plenumsphasen des Unterrichts, das sich gleichermaßen an die ganze Klasse richtet, bei leistungsschwächeren Schülerinnen und Schülern nur leistungsförderliche Wirkung entfalten kann, wenn es gleichzeitig von strukturierenden Maßnahmen flankiert wird (Möller et al. 2002; Decristan et al. 2015). Hier scheint noch erheblicher Forschungsbedarf zu bestehen. Ist das Wechselspiel aus herausforderndem Angebot und strukturierenden Hilfestellungen auch für leistungsschwächere Lernende präziser geklärt, können konkrete Folgerungen für die Unterrichtspraxis abgeleitet werden.