Books are linear, educational design research is not. (McKenney/Reeves 2019, S. 3)

Bei DBR-Projekten stellt sich die Frage, wie der zyklische Forschungsprozess und dessen Ergebnisse sinnvoll im linearen Buchformat dargestellt werden können. Die Ergebnisse pro Zyklus darzulegen, würde diverse Redundanzen bedeuten. Außerdem würde es dem Anspruch von DBR-Projekten, bei der Problemlösung ein Gesamtkonzept zu adressieren, nicht gerecht werden. Die Ergebnisse der Studie werden daher nach inhaltlichem Fokus strukturiert dargestellt. Zunächst werden Unterrichtsbeobachtungen und zentrale Rückmeldungen der Lehrkräfte zu den Treatments und der Durchführung geschildert (vgl. Abschn. 7.1). Daran anschließend erfolgt die Gütebeurteilung der Studie (vgl. Abschn. 7.2). In den weiteren drei Unterkapiteln werden die aufgestellten Hypothesen (vgl. Abschn. 5.2) überprüft. Beginnend mit der Darstellung der Eingangsvoraussetzungen der Proband*innen zum Zeitpunkt der Präerhebungen (vgl. Abschn. 7.3) werden darauffolgend die Treatmenteffekte dargelegt (vgl. Abschn. 7.4). Anschließend wird auf die bezugsgruppenspezifischen Treatmenteffekte fokussiert (vgl. Abschn. 7.5) und abschließend die Beständigkeit der Treatmenteffekte überprüft (vgl. Abschn. 7.6). Es fließen Erkenntnisse aus beiden Design-Zyklen in die Ergebnisdarstellung ein, wobei sich die Berechnungen in den Abschnitt 7.3 bis 7.6 ausschließlich auf die Daten aus dem zweiten Design-Zyklus beziehen.

1 Unterrichtsbeobachtungen und Rückmeldungen der Lehrkräfte aus Design-Zyklus I und II

Mindestens 50 % jeder Unterrichtsreihe des zweiten Design-Zyklus habe ich als Beobachterin in den Klassen begleitet und Notizen zum Unterrichtsgeschehen angefertigt. Darüber hinaus haben die Lehrkräfte im zweiten Design-Zyklus einen Fragebogen mit offenen und geschlossenen Fragen u. a. zur Zusammensetzung der Klasse sowie der Unterrichtsreihe ausgefüllt. Die Beobachtungen und Rückmeldungen von mir sowie von den Lehrkräften werden nachfolgend untergliedert in Beobachtungen bezüglich der Zielvariablen (vgl. Abschn. 7.1.1) sowie Rückmeldungen zum Treatment selbst (vgl. Abschn. 7.1.2).

1.1 Beobachtungen aus Zyklus I und II

Während der Durchführung der Unterrichtsreihen konnten bezüglich der Zielvariablen Fachwissen, Fachsprache und Selbsteinschätzungen verschiedene Beobachtungen gemacht werden. Die Aspekte betreffen vor allem das Vorwissen der Schüler*innen, auffällige Schwierigkeiten sowie einzelne, wiederholte Schüler*innenaussagen.

Fachwissen

An Berliner und Brandenburger Schulen wird das Fach Geographie mit Eintritt in die Sekundarstufe I in der 7. Klasse unterrichtet. Je nach Schulart und Schule entfallen dabei auf das Fach Geographie eine oder zwei Schulstunden pro Woche. An der Integrierten Sekundarschule (ISS) wird das Fach außerdem häufig im Verbund mit Geschichte, politischer Bildung und Ethik unterrichtet. An den meisten teilnehmenden Schulen wird Geographie in der 7. Klasse einstündig und in nur einem Halbjahr unterrichtet, um jeweils Doppelstunden zu ermöglichen. Diese Einschränkung bedingte einen langen organisatorischen Vorlauf sowie viel Koordination mit den entsprechenden Schulen. Je nachdem, wie die Vorbedingungen erfüllt waren, bestand zum Erhebungszeitpunkt unterschiedliches Vorwissen im Fach Geographie. Während im ersten Design-Zyklus (2. Halbjahr der 7. Klasse) die Schüler*innen zum Beispiel schon weitgehend vertraut mit Koordinaten, Längen- und Breitengraden waren, bereitete dies im zweiten Design-Zyklus (1. Halbjahr der 7. Klasse) einigen noch größere Schwierigkeiten. Die Unterrichtsreihe ist in sich abgeschlossen und erforderte kein umfangreiches Vorwissen. Dennoch war auffällig, dass das Vorwissen von Klasse zu Klasse und noch stärker von Schule zu Schule schwankte, was in der Umsetzung der Unterrichtsreihe teilweise zu Schwierigkeiten führte. So hatten einige Klassen noch nie zuvor im Unterricht experimentiert und mussten viel grundsätzlicher mit den Regeln und Vorgaben des Experimentierens vertraut gemacht werden. Für manche war es herausfordernd, eine passende Atlaskarte zu suchen, andere hingegen konnten mit Leichtigkeit Transfers von der Atlaskarte auf verschiedenes Unterrichtsmaterial leisten. Darüber hinaus unterrichten einige der teilnehmenden Lehrkräfte aufgrund des Lehrer*innenmangels im Land Berlin das Fach Geographie fachfremd. Es ist denkbar, dass auch dieser Aspekt Auswirkungen auf das Fachwissen der Schüler*innen hat.

Fachsprache

Bezüglich der fachsprachlichen Kompetenzen zeigten sich in den Beobachtungen auf Schüler*innenseite insbesondere Vorbehalte gegenüber dem Schreiben von Texten, die über den Umfang von ein bis zwei Sätzen hinaus gehen. Auch die Lehrkräfte gaben an, dass die Schüler*innen im Geographieunterricht in der Regel nur sehr wenig schreiben müssen. Das Schreiben ganzer Texte beispielsweise war zuvor in keiner Klasse Gegenstand des Geographieunterrichts. Insofern haben sowohl Schüler*innen als auch Lehrer*innen den Umfang an Schreibaufgaben in beiden Treatments als höher bewertet als normalerweise üblich.

Selbsteinschätzung

Verstärkt im ersten Design-Zyklus sind mir verschiedene Schüler*innenaussagen zur Selbsteinschätzung aufgefallen, die auf ein eher negatives Fähigkeitsselbstkonzept schließen lassen. Insbesondere Schülerinnen zeigten sich in ihrem eigenen Selbstbild verunsichert. Sätze wie „Ich bin eh zu dumm“, „Geo kann ich nicht“, „Geo hab ich noch nie verstanden“, „In Deutsch bin ich schlecht“, „Ich kann das nicht, weil ich Legasthenie habe“ sind in allen Klassen im ersten Design-Zyklus aufgefallen. Kindern, die die Aufgaben nicht lösen wollten, haben auch trotz meiner Bitte nicht mitgemacht, weil sie fürchteten, „einfach zu dumm“ für die Aufgaben zu sein. In der Auswertung der Selbsteinschätzungsitems von t1 zeigte sich, dass es signifikante Geschlechterunterschiede in der Selbsteinschätzung zu Ungunsten der Mädchen gab. Diese Unterschiede wurden daher im sprachsensiblen Treatment zu adressieren versucht. In Design-Zyklus II, also einer anderen Kohorte, konnten diese Unterschiede zu t1 nicht mehr beobachtet werden.

1.2 Rückmeldungen zu den Treatments aus Zyklus I und II

Die Lehrkräfte aus Design-Zyklus I waren stark in die Entwicklung des Treatments involviert, haben die Unterrichtsreihen aber nicht selbst durchgeführt. Die Lehrkräfte in Design-Zyklus II haben die Unterrichtsreihe durchgeführt, dafür aber erst im Nachgang der Unterrichtsdurchführung in Form eines Fragebogens Rückmeldung zur Unterrichtsreihe gegeben. Die Schüler*innen wurden zu t3 des dritten Erhebungszeitpunkts per Fragebogen nach positiven und negativen Aspekten der Unterrichtsreihen befragt. Insgesamt ergeben sich in den Rückmeldungen sowohl auf Schüler*innen- als auch auf Lehrer*innenseite keine konkreten Hinweise auf weitere, notwendige Überarbeitungen. Es gibt darüber hinaus keine signifikanten Unterschiede zwischen Experimental- und Kontrollgruppe hinsichtlich der Freude am Unterricht, der Neugierde auf die nächste Schulstunde sowie der Vorfreude auf den Unterricht. Die folgenden Rückmeldungen sind daher lediglich mögliche Hinweise auf weiteren Forschungsbedarf.

Sprachsensible Unterrichtsreihe

Von Schüler*innenseiten der Experimentalgruppe (N = 55) kam am häufigsten die Rückmeldung, dass zu viele Arbeitsblätter ausgegeben wurden (20 %). Außerdem haben 5,5 % angemerkt, dass zu viele Schreibaufgaben in der Unterrichtsreihe vorkamen. Dass viel geschrieben wurde, haben die Lehrer*innen allerdings als besonders positiv bewertet. Eine ISS-Lehrkraft sowie manche Schüler*innen merkten an, dass das Aufgabenverständnis nicht immer uneingeschränkt gegeben und die sprachlichen Anforderungen teils noch zu hoch waren (7,3 %). Ebenfalls 7,3 % der Schüler*innen geben an, dass der Stoff zu umfangreich war. Die Lehrkräfte bewerteten vor allem das selbstständige Arbeiten der Schüler*innen und die methodische Umsetzung der fachlichen Inhalte positiv.

Nicht-sprachsensible Unterrichtsreihe

In der Kontrollgruppe (N = 32) merkten 9,4 % der Schüler*innen an, zu viel schreiben zu müssen. Dies ist auffällig, da der Schreibanteil der Kontrollgruppe deutlich geringer war als in der Experimentalgruppe. 9,4 % der Schüler*innen gaben an, dass die Unterrichtsreihe zu viel Stoff enthalten hat. Keine*r der Schüler*innen merkte an, Schwierigkeiten mit der Aufgabenstellung zu haben. Dies ist ebenfalls auffällig, da die Aufgabenstellung in der sprachsensiblen Gruppe mehrfach überarbeitet und sprachlich niedrigschwellig angelegt sein sollte. Außerdem hatten laut Aussage der Lehrkräfte einige Schüler*innen Konzentrationsschwierigkeiten, weil manche Stunden in den Nachmittag fielen. In manchen Phasen des selbstständigen Erarbeitens gaben die Lehrkräfte außerdem an, dass die Schüler*innen überfordert waren. Auch in der nicht-sprachsensiblen Unterrichtsreihe wurde von den Lehrkräften positiv bewertet, dass die Schüler*innen selbstständig fachliche Inhalte erarbeiten konnten; die methodische Umsetzung der fachlichen Inhalte wurde gelobt.

Für die vorliegende Arbeit waren insbesondere die Unterrichtsbeobachtungen und Rückmeldung aus Design-Zyklus I relevant, da basierend auf ihnen die Unterrichtsreihe sowie die Erhebungsinstrumente für den zweiten Zyklus angepasst wurden. Die Lehrkräfte bewerteten beide Unterrichtsreihen positiv und hatten für beide Einheiten konstruktive Rückmeldungen, die integriert werden konnten.

2 Validität und Kontrolle von Bedrohungen der Validität im Forschungsprozess

Zur Bewertung einer Studie können über den gesamten Forschungsprozess hinweg verschiedene Kriterien wissenschaftlicher Qualität angelegt werden. Besonders im Fokus steht nachfolgend das Kriterium der methodischen Strenge mit dem zentralen Merkmal der Validität (vgl. Döring/Bortz 2016, S. 93). Inhaltliche Relevanz, methodische Strenge (Validität), ethische Aspekte sowie die Präsentation und Verwertbarkeit werden als vier verschiedene Kriterien nachfolgend bewertet. Dabei werden Bedrohungen des entsprechenden Kriteriums ebenso beleuchtet wie getroffene Maßnahmen, um den möglichen Einschränkungen der Güte entgegenzuwirken. Ziel dieses Abschnitts ist es, die Güte des eigenen Vorgehens zu bewerten und Grenzen deutlich aufzuzeigen.

2.1 Inhaltliche Relevanz

Die Themenwahl sowie die Auswahl der zu präsentierenden Ergebnisse müssen inhaltlich relevant sein. Das heißt für DBR-Projekte, dass sie einerseits einen Beitrag zur Grundlagenforschung im Sinne der Theoriebildung bzw. der (Weiter-)Entwicklung von Theorien leisten sowie andererseits für die praktische Umsetzung relevant sind (vgl. Bakker 2018, S. 13). Im Projekt ist dies insoweit erfüllt, als theoretische Design-Kriterien für sprachsensiblen Geographieunterricht abgeleitet (vgl. Kap. 4) und die Erkenntnisse in Form von Unterrichtsmaterialien und Qualifizierungsmaßnahmen für Lehrkräfte Eingang in die Praxis finden können. Zur inhaltlichen Relevanz gehört auch, dass das Forschungsprojekt in einen realistischen Rahmen eingebettet ist, das heißt, die zur Verfügung stehenden Ressourcen so eingeschätzt werden, dass die methodische Strenge nicht vernachlässigt wird.

2.2 Bewertung verschiedener Validitätsdimensionen

Die methodische Strenge ist das zentrale Kriterium der Gütebewertung. Es beschreibt den Grad der Gültigkeit wissenschaftlicher Aussagen mit dem Konzept der Validität. Man unterscheidet nach Campbell (1957) vier Typen der Validität: Interne Validität, Externe Validität, Konstruktvalidität und Statistische Validität. Diese Typologie ist auf experimentelle und quasi-experimentelle Studien zugeschnitten, die einen Anspruch darauf erheben, aus den Korrelationen Ursache-Wirkungs-Beziehungen abzuleiten, wie es auch in der vorliegenden Studie der Fall ist.

Damit die Kriterien der Validität überhaupt erfüllt sein können, muss die methodische Strenge bereits in der Grundlegung der Studie gewährt sein. Das bedeutet eine konsequent hohe Qualität bei der Literaturrecherche, der Erarbeitung des Forschungsstandes und der Theoriebildung, um daraus schlüssig die Forschungsfrage sowie die Forschungshypothesen ableiten zu können (vgl. Döring/Bortz 2016, S. 94).

Interne Validität

Interne Validität fragt danach, inwiefern der interessierende Effekt tatsächlich auf die unabhängige Variable zurückzuführen ist. Inwiefern sind zum Beispiel Veränderungen im Fachwissen auf den sprachsensiblen Geographieunterricht zurückzuführen? Die Studie gilt dann als intern valide, wenn die untersuchten Variablenzusammenhänge als kausale Ursache-Wirkungs-Relationen interpretiert werden können (vgl. Döring/Bortz 2016, S. 97). Bei quasi-experimentellen Studien wie der vorliegenden müssen die kausalen Interpretationen allerdings vorsichtig erfolgen. Insbesondere im Rahmen der DBR-Philosophie, innerhalb derer die Attribution von Effekten auf isolierte Variablen nicht möglich ist, stellt das Gütekriterium der internen Validität einen Bruch dar bzw. macht das Spannungsfeld der verschiedenen Forschungsansätze deutlich. Da die Untersuchungsbedingungen in Form von Experimental- und Kontrollgruppe aktiv variiert werden und die Zuweisung der Klassen zu Experimental- und Kontrollgruppe zufällig erfolgt ist, besteht trotzdem ein Anspruch auf hohe interne Validität, auch wenn es sich nicht um eine randomisierte Stichprobe handelt (vgl. Abschn. 6.5). Es werden neun Bedrohungen der internen Validität unterschieden (vgl. Döring/Bortz 2016, S. 103; Shadish et al. 2002), die nachfolgend dargestellt sowie hinsichtlich der vorliegenden Studie beurteilt werden.

  1. (1)

    Unklare zeitliche Abfolge | Um kausale Ursache-Wirkungs-Effekte abbilden zu können, müssen die Messungen vor und nach dem Treatment stattfinden und nicht etwa währenddessen. In der vorliegenden Studie fanden die Prä-Erhebungen unmittelbar vor dem Treatment, die Post-Erhebungen unmittelbar nach dem Treatment statt.

  2. (2)

    Selektionseffekte | Die Proband*innen in den verschiedenen Untersuchungsgruppen müssen vergleichbar sein. Unterscheiden sie sich bereits vor dem Treatment, könnten bestehende Unterschiede später fälschlich als kausale Treatmentwicklung interpretiert werden (vgl. Döring/Bortz 2016, S. 103). Um Selektionseffekte abzumildern, wird bei den interferenzstatistischen Verfahren mit Differenzscores zur Beurteilung des Treatmenterfolgs gerechnet; bestehende Unterschiede zu t1 würden somit mathematisch berücksichtigt. Bezüglich der Zielvariablen lassen sich allerdings zu t1 keine Gruppenunterschiede ausmachen (vgl. Abschn. 7.3.1).

  3. (3)

    Externe zeitliche Einflüsse | Es ist zu vermeiden, dass allein durch die unterschiedlichen Erhebungszeiträume und damit einhergehende, unterschiedliche externe Bedingungen Effekte entstehen, die nicht durch das Treatment bedingt sind. Im zyklischen Design von DBR-Projekten ist diese Bedrohung durchaus ernst zu nehmen. Um mögliche Effekte auf das Treatment zurückführen zu können, wurden in beiden Zyklen Kontrollgruppen integriert.

  4. (4)

    Reifungsprozesse | Bei Studien, bei denen ein längerer Zeitraum zwischen Prä- und Posterhebung liegt, können Reifungsprozesse der Proband*innen die Effekte des Treatments zusätzlich verzerren. Der Zeitraum zwischen Prä- und Posttest in der vorliegenden Studie belief sich auf maximal fünf Wochen. Signifikante Effekte geistiger Reifung sind daher eher auszuschließen.

  5. (5)

    Statistische Regressionseffekte | Schüler*innen, die zu Extremgruppen gehören, also besonders starke oder besonders schwache Leistungen zeigen, sind anfällig für den Regressionseffekt. Dieser beschreibt das Phänomen, dass Extremgruppen bei Messwiederholungen automatisch eine Tendenz zur Mitte zeigen, sich also extreme Einschätzungen (z. B. ein schlechtes Selbstkonzept) beim zweiten Mal abgeschwächt haben. Um diesem Effekt entgegenzuwirken, sollten die Proband*innen möglichst übliche Merkmalsausprägungen haben. Dies ist im Rahmen von Schulklassen nicht immer möglich. Denn innerhalb einer Klasse kann es vorkommen, dass es, zum Beispiel in Bezug auf die Selbsteinschätzung, Schüler*innen gibt, die sich sehr schlecht oder sehr gut einschätzen und sie daher bei Messwiederholung zur Regression der Selbsteinschätzung kommen.

  6. (6)

    Experimentelle Mortalität | Im Verlauf der Studie fallen immer wieder Proband*innen weg. Insbesondere bei DBR-Projekten ist dieser Aspekt eine relevante Bedrohung. Denn Kooperationspartner*innen zu finden und über einen längeren Zeitraum, in diesem Fall zwei Schuljahre, zu halten, ist herausfordernd. Es wurden daher von Anfang an mehr Schulen akquiriert als für die optimale Stichprobengröße errechnet (vgl. Abschn. 6.5). Dies war notwendig, da durch verschiedene Faktoren (Schulleitungswechsel, Lehrer*innenmangel im Fach Geographie etc.) schließlich einige Lehrkräfte und Klassen weggefallen sind. Darüber hinaus kam es zu den üblichen Ausfällen von einzelnen Schüler*innen zu einem, zwei oder allen Erhebungszeitpunkten aufgrund von Krankheit, Schuldistanz oder anderen schulintern bedingten Ausfällen. Insbesondere im ersten Design-Zyklus war die Anzahl an fehlenden Schüler*innen relativ groß. Außerdem kam es bei einigen Erhebungsinstrumenten zu Schwierigkeiten im ersten Design-Zyklus. Während der Fachwissenstest jeweils zu t1 und t2 in jeder Klasse durchgeführt wurde, Fehlwerte also allein auf das Fehlen einzelner Schüler*innen zu einem der Erhebungszeitpunkte zurückzuführen sind, wurden andere Erhebungen nur zu einem Erhebungszeitpunkt durchgeführt. Die Profilanalyse zur Messung der Fachsprache konnte aufgrund der mangelnden Schreibmotivation nicht in allen Klassen zu t2 erneut durchgeführt werden. Da DBR-Projekte eine gewisse Flexibilität für Umstellungen im Laufe des Forschungsprozesses einräumen, wurde die Fachsprache in einer Klasse zusätzlich mittels eines C-Tests erhoben. Es liegen daher nur Daten aus einer Klasse vor (vgl. Tab. 7.1). Im zweiten Design-Zyklus konnte der dritte Erhebungszeitpunkt in zwei Klassen aufgrund der COVID-19-Pandemie nicht stattfinden. Dies hat zur Folge, dass mehr als 10 % der Daten zu t3 fehlen und nur noch begrenzt statistische Aussagen getroffen werden können.

Tab. 7.1 Anzahl der Proband*innen nach Design-Zyklus, Erhebungszeitpunkt und -instrument sowie fehlende Daten
  1. (7)

    Testübung | Bei wiederholtem Einsatz desselben Messinstruments kann es allein durch die wiederholte Durchführung zu Lerneffekten kommen. Um zu prüfen, ob diese Übungseffekte eintreten und sie gegebenenfalls bei den Berechnungen berücksichtigen zu können, wurde im ersten Design-Zyklus eine zweite Kontrollgruppe eingesetzt, die kein Treatment erhalten hat, aber die Tests zu t1 und t2 durchgeführt hat. Es zeigen sich keine signifikanten Veränderungen von t1 zu t2 ohne Treatment. Es wurde daher im zweiten Design-Zyklus auf eine zweite Kontrollgruppe verzichtet.

  2. (8)

    Mangelnde instrumentelle Reliabilität | Bei nicht reliablen Messinstrumenten kann es zu Messwertunterschieden kommen, die nicht auf das Treatment zurückgeführt werden können. Die Reliabilität bezieht sich auf die Messgenauigkeit der Instrumente. Anders als bei der Validität (Wird gemessen, was gemessen werden soll?) steht die Frage im Zentrum, wie genau das Messinstrument misst. Um möglichst genau messen zu können, sollte, wo möglich, auf bereits entwickelte und getestete Erhebungsinstrumente zurückgegriffen werden. Dies war aber im Rahmen der Studie mit den gewählten Zielvariablen nicht immer möglich. Der Fachwissenstest musste gänzlich neu erstellt werden (vgl. Abschn. 6.2). Es zeigen sich für die gesamte Studie für die Erhebungsinstrumente insgesamt befriedigende bis sehr gute Reliabilitäten, die die Voraussetzung für den Vergleich zwischen Kontroll- und Experimentalgruppe bilden (vgl. Rost 2004). In der nachfolgenden Tabelle sind die Reliabilitäten der selbst erstellten Erhebungsinstrumente nach Optimierung für den Einsatz im zweiten Design-Zyklus sowie die vom Hogrefe-Verlag angegebenen Reliabilitäten für den LGVT 5–12 + aufgeführt (vgl. Tab. 7.2). Genauere Erläuterungen zu den Instrumenten sowie der Interpretation der Reliabilitäten sind Abschn. 6.4 zu entnehmen.

Tab. 7.2 Reliabilitäten der Erhebungsinstrumente für Design-Zyklus II
  1. (9)

    Kombination der genannten Bedrohungen der internen Validität | Die dargestellten Bedrohungen können in Kombination auftreten und sich so summativ negativ auf die interne Validität auswirken.

Externe Validität

Eine Studie ist dann extern valide, wenn sich die Ergebnisse auf andere Kontexte übertragen lassen, also die Durchführung an einem anderen Ort, zu einem anderen Zeitpunkt und mit anderen Proband*innen zu ähnlichen Ergebnissen führt. Im Rahmen des DBR-Forschungsdesigns wird die Studie an der Schule und somit als Feldstudie durchgeführt. Dem inhärent ist eine schwierigere Einhaltung der internen Validität (vgl. Jäckle 2015, S. 24) bei gleichzeitig besserer externer Validität. Insbesondere im Rahmen von DBR zeigen sich gute Bedingungen für externe Validität, da die Studie über mehrere Zyklen hinweg, also an verschiedenen Schulen, mit unterschiedlichen Klassen, Lehrkräften und Schüler*innen, in unterschiedlichen Zeiträumen durchgeführt wird und jeweils zwei bis drei Erhebungszeitpunkte pro Zyklus stattfinden. Die Ergebnisse sollten sich dabei pro Zyklus in Effektrichtung und -größe ähneln. Für die externe Validität von entscheidender Relevanz ist die Repräsentativität der Stichprobe (vgl. Döring/Bortz 2016, S. 95). Da es sich um keine experimentelle Stichprobenziehung handelt, ist die Repräsentativität eingeschränkt. Durch die verschiedenen abgedeckten Schularten, Einzugsgebiete und weitere Heterogenitätsmerkmale wurde aber der Versuch unternommen, eine möglichst gute Übertragbarkeit der Ergebnisse zu erreichen. Auch die externe Validität kann durch verschiedene Faktoren eingeschränkt werden. Sie werden nachfolgend dargelegt und im Rahmen der Studie beleuchtet (vgl. Döring/Bortz 2016, S. 104).

  1. (1)

    Wechselwirkungen des Kausaleffekts mit den Untersuchungspersonen | Die externe Validität kann dann eingehalten werden, wenn der Effekt aus Stichproben unterschiedlicher Populationen nachgewiesen werden konnte. Im Rahmen der Studie beschränkt sich die Aussagekraft auf Berliner Siebtklässler*innen aus Gymnasien und ISS im Fach Geographie zum Thema Schalenbau der Erde und Plattentektonik. Das Sample erfüllt verschiedene Heterogenitätsmerkmale, was der externen Validität zuträglich ist, weil sie schulischer Alltag in Berlin ist.

  2. (2)

    Wechselwirkungen des Kausaleffekts mit den Treatmentbedingungen | Sind die Treatmentbedingungen nicht bei jedem Erhebungszeitpunkt konstant zu halten, könnten Effekte durch andere Faktoren außerhalb des Treatments bedingt sein. Im Rahmen von Feldstudien sind die Rahmenbedingungen nicht völlig konstant zu halten. Uhrzeit der Erhebungen, Außentemperatur, die Fächer vor und nach dem Unterricht, mögliche Prüfungen in anderen Fächern u.v.m. beeinflussen die Leistungsperformanz der Schüler*innen (vgl. Helmke 2009, S. 73). Wechselwirkungen sind daher nicht auszuschließen. Um diesem Risiko zu begegnen, wurden strenge Zeit- und Durchführungsvorgaben vor den Erhebungen festgelegt, die für alle Teilnehmer*innen galten. Die Instruktionen wurden bei allen gleich mithilfe eines ausformulierten Manuals von mir dargelegt.

  3. (3)

    Wechselwirkungen des Kausaleffekts mit den abhängigen Variablen | Um einen Kausaleffekt zum Beispiel auf die abhängige Variable Fachsprache bestimmen zu können, sollte dieselbe abhängige Variable bestenfalls in mehrfacher Weise operationalisiert werden. Für die abhängigen Variablen Fachsprache und Selbsteinschätzung wurde dies im Projekt vorgenommen; das Fachwissen wird allerdings allein über den Fachwissenstest im geschlossenen Antwortformat erhoben.

  4. (4)

    Wechselwirkungen des Kausaleffekts mit den Settings | Im Rahmen von DBR werden bestimmte Lernsettings in ihrer Gesamtheit untersucht; die Isolation einzelner Faktoren ist nicht möglich; hierin liegt eine zentrale Einschränkung der externen Validität.

  5. (5)

    Kontextabhängige Mediatoreffekte | „Eine Mediatorvariable, die den interessierenden Kausaleffekt mit hervorbringt, mag in einem Setting wirken, jedoch nicht in einem anderen“ (Döring/Bortz 2016, S. 104). Wie wirksam also sprachsensibler Geographieunterricht ist, könnte beispielsweise von den Leseleistungen abhängen. In einer Gruppe ohne schwache Leser*innen könnte ein möglicher Treatmenteffekt abgeschwächt oder nicht mehr auftreten. Daher werden in Abschnitt 7.5 bezugsgruppenspezifische Treatmenteffekte dargelegt.

Konstruktvalidität

Basierend auf dem Forschungsstand werden theoretische Konstrukte abgeleitet, die in einem weiteren Schritt über beobachtbare Merkmale operationalisiert werden. Dabei ist für die Qualität der Studie die Konstruktvalidität der verwendeten Messinstrumente entscheidend. Es stellt sich die Frage, ob das Messinstrument geeignet ist, um das gewünschte, vorher definierte Konstrukt inhaltlich zu fassen. Es kann nur dann inhaltlich gültig sein, wenn es eine hohe Reliabilität und Objektivität aufweist (vgl. Döring/Bortz 2016, S. 95), was – wie nachfolgend erläutert wird – der Fall ist.

Objektivität meint intersubjektive Übereinstimmung. Ein Test ist also objektiv, wenn verschiedene Testanwender*innen bei denselben Testpersonen zu denselben Testergebnissen gelangen. Man unterscheidet zwischen Durchführungs-, Auswertungs- und Interpretationsobjektivität (vgl. Döring/Bortz 2016, S. 443). Am besten kann die Objektivität erfüllt sein, wenn man sich bei der Durchführung, Auswertung und Interpretation an ein vorher festgelegtes Testmanual hält. Im Rahmen der Studie wurde für jedes Testinstrument ein solches Testmanual erstellt; für den LGVT wurde das vom Verlag vorgegebene Manual eingesetzt. Für alle Tests habe ich vorher Musterlösungen erstellt, nach denen die Tests ausgewertet und interpretiert wurden. Bei C-Test (0, 1 oder 2 Punkte) und Fachwissenstest (0 oder 1 Punkt) ist sowohl die Auswertung als auch die Interpretation der Ergebnisse aufgrund der einfachen Punktestruktur intersubjektiv verständlich. Lediglich die Profilanalyse zeigte im ersten Design-Zyklus höhere intersubjektive Varianz; dies liegt unter anderem daran, dass die zu erreichende Punktzahl nach oben offen ist. Was als Fachbegriff bewertet wird und was nicht, wurde zwar vorher in Abstimmung mit Lehrkräften und nach Sichtung der Schulbücher festgelegt, dennoch kam es wenige Male zu Zweifelsfällen, die entsprechend dokumentiert und in allen Fällen gleich gehandhabt wurden. Die Auswertung und Interpretation ist aufgrund der vorher festgelegten Musterlösung und auszuwertenden Kategorien dennoch gut erfüllt.

Abgesehen von hoher Reliabilität und Objektivität muss zur Erfüllung der Konstruktvalidität die Datenqualität ausreichend hoch sein. Datenerhebung, -bereinigung und -aufbereitung müssen daher als einzelne Schritte durchgeführt werden. Die in dieser Studie angewandten Maßnahmen zur Sicherung der Datenqualität sind Abschnitt 6.3 zu entnehmen.

Um die Validität der einzelnen Erhebungsinstrumente zu überprüfen, wurden 20 Zusammenhangshypothesen in drei Blöcken (nach Zielvariablen) aufgestellt, die nachfolgend geprüft werden. Die Zielvariablen werden über insgesamt vier verschiedene Erhebungsinstrumente erfasst. Um die Validität dieser Instrumente zu prüfen, werden Hypothesen aufgestellt, die die auf Basis der Literatur angenommenen Zusammenhänge zwischen Zielvariablen (Fachwissen (FW), Fachsprache (FS) sowie Selbsteinschätzung) und Außenvariablen darstellen. So ist beispielsweise davon auszugehen, dass Fachwissen und Geo-Zensur signifikant miteinander korrelieren; ein valides Erhebungsinstrument für das Konstrukt Fachwissen würde diese Korrelation abbilden. Die Hypothesen werden tabellarisch je Zielvariable dargestellt.

Fachwissenstest

Für die Ergebnisse des Fachwissenstests werden Korrelationen zwischen der Geographienote und der Einschätzung „Geographie gehört zu meinen Lieblingsfächern“ angenommen (vgl. Tab. 7.3).

Tab. 7.3 Zusammenhangshypothesen zwischen Außenvariablen und der Zielvariable Fachwissen

Es zeigen sich mittlere Korrelationen mit einem Signifikanzniveau von α = .01 zwischen Geographienote und Ergebnis im Fachwissenstest (r = −.31). Die Korrelation ist negativ, da die Noten nicht umkodiert wurden, sondern auf der Skala von 1 bis 6 geblieben sind (vgl. Tab. 7.4).

Tab. 7.4 Korrelationen Fachwissen, Geographie ist Lieblingsfach und Geogeographienote

Auf Basis dieser Korrelationen wird FWH1ZensGeo angenommen; die passende H0 abgelehnt. FWH1GeoLieb hingegen wird verworfen und H0 angenommen. Letzteres spricht eher gegen die Konstruktvalidität. Eine mögliche Erklärung ist auch, dass die Schüler*innen zum Zeitpunkt der Erhebungen erst seit wenigen Wochen Geographie als Schulfach haben und es möglicherweise auch deshalb (noch) nicht zu ihren Lieblingsfächern zählen.

Fachsprache (C-Test und Profilanalyse)

Für den C-Test und die Profilanalyse werden Korrelationen mit der Zensur in Deutsch, einer Lese-Rechtschreib-Schwäche, der freizeitbezogenen Lesedauer, der Lesegeschwindigkeit, -genauigkeit und dem Leseverständnis angenommen sowie Deutsch als Erstsprache und fachsprachlicher Leistung (vgl. Tab. 7.5).

Tab. 7.5 Zusammenhangshypothesen zwischen Außenvariablen und der Zielvariable Fachsprache

Die Zielvariable Fachsprache, erhoben über C-Test und Profilanalyse, zeigt mittlere bis starke Korrelationen mit den gewählten Außenvariablen, was auf die Validität der Erhebungsinstrumente schließen lassen kann (vgl. Tab. 7.6).

Tab. 7.6 Korrelationen mit Profilanalyse und C-Test

Selbsteinschätzung

Bezüglich der Selbsteinschätzung werden Korrelationen zwischen den Zensuren in Deutsch und Geographie, der Einschätzung, ob Geographie ein Lieblingsfach ist, der Lese-Rechtschreib-Schwäche, der freizeitbezogenen Lesedauer, der Lesegeschwindigkeit, -genauigkeit, dem Leseverständnis sowie Deutsch als Erstsprache vermutet (vgl. Tab. 7.7).

Tab. 7.7 Zusammenhangshypothesen zwischen Außenvariablen und der Zielvariable Selbsteinschätzung

Fachsprachliche Einschätzung und Einschätzung zum Sachtextverständnis korrelieren mit der Deutsch- und mit der Geographienote, aber stärker mit Deutsch als mit Geographie (vgl. Tab. 7.8). Dazu kann man sagen, dass Noten generell miteinander korrelieren. Die Einschätzung des Geoverständnisses korreliert nicht mit den Leseleistungen, was für die Trennschärfe der Konstrukte spricht.

Tab. 7.8 Korrelationen mit der Selbsteinschätzung

In der Campbell-Tradition werden 14 Bedrohungen der Konstruktvalidität unterschieden, die nachfolgend dargelegt und für die vorliegende Studie bewertet werden (vgl. Döring/Bortz 2016, S. 100; Shadish et al. 2002, S. 73).

  1. (1)

    Inadäquate Konzeptspezifikation | Wenn die theoretischen Konstrukte nicht ausgeschärft sind, kann das entsprechende Konstrukt nicht ausreichend umfassend operationalisiert werden. Im Rahmen der Studie stellt die Operationalisierung der abhängigen Variablen in der Tat eine Herausforderung dar, denn Fachwissen und Fachsprache sowie die Selbsteinschätzung zu diesen Variablen sind komplexe Konstrukte, deren ganzheitliche Erfassung eine Vielzahl an Erhebungsinstrumenten benötigen würde. Dennoch: Die sprachliche Kompetenz wird über zwei bzw. drei (inkl. LGVT) Instrumente erfasst, die jeweils unterschiedlich hohe Abstraktion erfordern. Dabei ist das Fachwissen nie völlig losgelöst von der Fachsprache zu betrachten. Das Fachwissen wird allerdings nur über Ankreuzaufgaben operationalisiert. Es ist außerdem wichtig anzumerken, dass Aussagen zum Fachwissen nur in Bezug auf das Thema Schalenbau der Erde und Plattentektonik getroffen werden können, nicht etwa auf das Fachwissen im Fach Geographie insgesamt. Bei der Fachsprache allerdings sind die Interpretationsmöglichkeiten im Rahmen der Profilanalyse weitreichender, da diese nicht nur die lexikalische Ebene im Blick hat, sondern auch Aussagen über syntaktische und pragmatische Textelemente macht, die themenunabhängig sind.

  2. (2)

    Konfundierungseffekte | Eng mit der ersten Bedrohung der Konstruktvalidität geht der Konfundierungseffekt einher. Dieser bezieht sich auf mangelnde Trennschärfe der erhobenen Konstrukte und stellt für die Studie in zweierlei Hinsicht eine Bedrohung dar. Erstens sind die Konstrukte von Fachsprache und Fachwissen nicht völlig trennscharf voneinander abzugrenzen (vgl. Kap. 2). Um die mangelnde Trennschärfe abzufedern, wurden Merkmale für die beiden Konstrukte festgelegt und verschiedene Erhebungsinstrumente eingesetzt, die eine Abgrenzung erleichtern sollen. In Bezug auf den Forschungsrahmen von DBR kommt der Konfundierungseffekt zweitens insofern zum Tragen, als in DBR-Projekten Gesamtsettings Gegenstand der Untersuchungen sind. Der Erfolg oder Misserfolg einer Intervention ist also nicht auf einzelne Variablen zurückzuführen (vgl. Abschn. 6.1).

  3. (3)

    Mono-Operationalisierungs-Bias | Werden verschiedene Erhebungsinstrumente zur Erfassung desselben Konstrukts herangezogen, kann dieser Bedrohung entgegengewirkt werden. Im Rahmen der Studie ist dies, wie weiter oben ausgeführt, jedenfalls für einige Zielvariablen erreicht.

  4. (4)

    Mono-Methoden-Bias | Die Konstruktvalidität der Studie wird gesteigert, indem mehrere Operationalisierungen auf der Basis verschiedener Datenerhebungsmethoden angewendet werden. Im Rahmen dieser Studie werden beispielsweise Multiple-Choice-Formate, Lückentexte sowie textproduzierende Formate eingesetzt.

  5. (5)

    Konfundierung von Treatment und Treatmentausprägung | Wenn das Treatment nur in einer bestimmten Ausprägung untersucht wird, ist die Konstruktvalidität beeinträchtigt. Das trifft auf die vorliegende Studie zu, die lediglich eine sprachsensible Unterrichtsreihe zum Thema Schalenbau der Erde und Plattentektonik in den Blick nimmt.

  6. (6)

    Reaktivität der experimentellen Situation | Die Konstruktvalidität ist ebenfalls bedroht, wenn die Schüler*innen allein durch die Besonderheit der Forschungssituation im Vergleich zum sonstigen Unterricht ihr Verhalten verändern. Es ist schwierig zu bewerten, inwiefern dies im Rahmen der Studie der Fall war. Stärker ausgeprägt dürfte dies im ersten Design-Zyklus der Fall gewesen sein, da der Unterricht von mir selbst erteilt wurde. Im zweiten Design-Zyklus war ich in etwa der Hälfte der Schulstunden als Beobachterin in der Klasse, habe allerdings nicht mit der Klasse interagiert und somit vermutlich einen geringeren Einfluss.

  7. (7)

    Novitäts- und Störungseffekt | Auch ist damit zu rechnen, dass die neue Situation insbesondere in Zyklus I Einfluss auf die Schüler*innen hatte.

Die folgenden Effekte sind aufgrund der Messungen sowie der Tatsache, dass die Proband*innen nicht wussten, welcher Gruppe sie zugewiesen wurden, nicht zu erwarten: (8) Reaktivität der experimentellen Situation, (9) Versuchsleiter-Erwartungseffekt, (10) Reaktive Veränderung von Selbstauskünften, (11) Kompensatorischer Ausgleich in der Kontrollgruppe, (12) Kompensatorischer Wettstreit der Kontrollgruppe mit der Experimentalgruppe, (13) Empörte Demoralisierung der Kontrollgruppe, (14) Treatmentdiffusion in die Kontrollgruppe.

Statistische Validität

Werden deskriptiv- und interferenzstatistische Verfahren korrekt durchgeführt, sodass die dargestellten Effekte statistisch signifikant sind und eine relevante Effektgröße aufweisen, so ist eine Untersuchung statistisch valide. Die statistische Validität hängt wesentlich von der Datenqualität sowie der Qualität der Datenanalysen ab (vgl. Döring/Bortz 2016, S. 97). Es bestehen verschiedene Bedrohungen, die dazu führen können, dass Hypothesen fälschlicherweise angenommen (α-Fehler) oder abgelehnt werden (β-Fehler) (vgl. Döring/Bortz 2016, S. 105).

  1. (1)

    Zu geringe Teststärke | Ohne ausreichend hohe Teststärke liefern Signifikanztests keine Grundlage für wissenschaftliche Hypothesenprüfung. Um diesem Problem vorzubeugen, wurde vor Durchführung der Studie und Rekrutierung der Stichprobe (a priori) die optimale Stichprobengröße statistisch bestimmt sowie für die Hypothesenüberprüfung ein kritischer Wert für Cohens d bestimmt (vgl. Abschn. 6.4 und 6.5).

  2. (2)

    Verletzung der Voraussetzungen der verwendeten Signifikanztests | Um überhaupt statistische Tests durchführen zu können, sind gewisse Voraussetzungen nötig (normalverteilte Daten, Varianzhomogenität zwischen den Gruppen). Diese sind gegeben, wie die Analyse der Daten zu t1 zeigen.

  3. (3)

    Signifikanzfischen | Die Logik deduktiv-hypothesenprüfender quantitativer Forschung muss gewahrt sein. Ins Blaue hinein Variablenzusammenhänge zu prüfen, bis man signifikante Effekte findet, ist nicht zulässig. In der vorliegenden Arbeit wurden die Hypothesen auf Basis des Forschungsstandes aufgestellt, die Auswertung bezieht sich auf eben diese Hypothesen; explorative Befunde werden allerdings ebenfalls dargelegt, so diese besonders auffällig sind.

  4. (4)

    Mangelnde Reliabilität von Messinstrumenten | Auch bei der statistischen Validität wird die in der Studie gegebene gute Reliabilität der Messinstrumente vorausgesetzt.

  5. (5)

    Beschränkter Wertebereich von Variablen | Variablen, bei denen der Wertebereich eingeschränkt, beispielsweise kategorial, erfasst wird, haben geringere Aussagekraft, da sich Varianzen verringern und mögliche Kovarianzen mit anderen Variablen weniger stark auftreten. Die Folge ist, dass mögliche, statistische Zusammenhänge unterschätzt werden. Im Rahmen der vorliegenden Studie wurden, wann immer dies möglich war, Variablen ordinal- oder intervallskaliert erhoben; dennoch sind insbesondere bei den Kontrollvariablen einige kategoriale Variablen vorhanden.

  6. (6)

    Mangelnde Reliabilität der Treatment-Implementierung | Das Treatment muss vollständig durchgeführt werden, damit der Effekt nicht unterschätzt wird. Im Rahmen der Studie wurde im ersten Design-Zyklus bei einer Klasse nicht das ganze Treatment durchgeführt, weil eine Schulstunde entfallen ist, die nicht nachgeholt werden konnte. Im zweiten Zyklus trat dieses Problem nicht auf.

  7. (7)

    Störeinflüsse im experimentellen Setting | Im schulischen Rahmen kommt es immer wieder zu Störeinflüssen. Diese sind allerdings derart inhärent, dass eher die Abwesenheit von Störfaktoren zu einer Verzerrung der Ergebnisse führen würde. Durch die mehrfache Durchführung im zyklischen Design kann trotz der Störungen, die sich immer wieder unterscheiden, davon ausgegangen werden, dass die Effekte im Wesentlichen auf das entsprechende Lernsetting zurückzuführen sind.

  8. (8)

    Heterogenität der Untersuchungspersonen bzw. -einheiten innerhalb der Untersuchungsgruppen | Die Schüler*innen sind in ihrer Heterogenität vergleichbar. Homogene Schüler*innengruppen bilden nicht den unterrichtlichen Alltag ab und würden somit Abstriche in der externen Validität bedeuten.

  9. (9)

    Falsche Effektgrößenbestimmung | Es dürfen keine Fehler bei der Bestimmung und Interpretation der Effektgröße gemacht werden. Durch die Errechnung mit dem Programm G*Power ist diese Gefahr weitgehend eingedämmt.

2.3 Ethische Aspekte

Die Proband*innen wurden durch die Teilnahme an der Studie nicht beeinträchtigt oder gar geschädigt. Ebenso wenig führte die Nicht-Teilnahme an der Studie zu Nachteilen. Die Teilnahme war freiwillig und die Schüler*innen sowie die Erziehungsberechtigten wurden vor der Studie über die Modalitäten der Datenerhebung und -bearbeitung informiert und um ihr Einverständnis gebeten. Das Einverständnis kann jederzeit, auch nach der Teilnahme, zurückgezogen werden. Durch das Pseudonymisierungsverfahren können nachträglich einzelne Fälle aus dem Datensatz gelöscht werden. Zu keinem Zeitpunkt können die Ergebnisse einzelnen Schüler*innen zugeordnet werden. Es werden keine Analysen auf Individualebene durchgeführt. Den kooperierenden Schulen, Lehrkräften und Schüler*innen werden die Ergebnisse ebenfalls nicht auf Individual- oder Klassenebene übermittelt, sondern nur in ihrer Gesamtheit präsentiert. Die Studie wurde von der Berliner Senatsverwaltung für Bildung, Jugend und Familie genehmigt.

Aspekte der inhaltlichen Güte der Studie, insbesondere der Erhebungsinstrumente, umfassen die interne und die externe Validität, die Konstruktvalidität, ethische Aspekte sowie die Dokumentation des Forschungsprozesses. Auf diverse Bedrohungen der Validität sowie Maßnahmen, um ihnen entgegenzuwirken, bin ich in diesem Kapitel eingegangen. Eine zentrale verbleibende Schwäche liegt im Rahmen von Design-Based Research in der Untersuchung kompletter Designs, deren Erfolg oder Misserfolg nicht auf isolierte Variablen zurückzuführen ist und somit Einschränkungen der Validität bedeuten.

3 Geschlecht, Erstsprache und Lesekompetenz als bezugsgruppenspezifische Eingangsvoraussetzungen

Zunächst werden für die Prä-Messung die Effektgrößen (Cohens d) für die Gesamtstichprobe unterteilt nach Experimental- und Kontrollgruppe, für die Bezugsgruppe Leseverstehen sowie die Bezugsgruppe Geschlecht im Rahmen der Auswertungslogik von t-Tests für unabhängige Stichproben auf die drei abhängigen Variablen dargestellt. Zwischen den Bezugsgruppen Lesekompetenz und Geschlecht gibt es keine signifikanten Korrelationen, sodass beide Gruppen voneinander getrennt betrachtet werden können. Zwischen der Gruppe Deutsch als Erstsprache sowie Lesekompetenz besteht erwartungsgemäß eine signifikante Korrelation (r = .18), die als kleiner Effekt eingeordnet werden kann. Insofern wird auch diese Gruppe nachfolgend weiter gesondert betrachtet. Darüber hinaus lässt sich der Tabelle entnehmen, dass sich die Gruppen nicht hinsichtlich ihrer Zugehörigkeit zu Experimental- oder Kontrollgruppe unterscheiden (vgl. Tab. 7.9).

Tab. 7.9 Korrelationen zwischen Mädchen, hohe Lesekompetenz, Deutsch als Erstsprache, Experimental- o. Kontrollgruppe

Die zu erwartenden bezugsgruppenspezifischen Unterschiede zu t1 bilden die Voraussetzung für die Interpretation von Zusammenhängen des Treatments mit möglicherweise differenziellen Lernzuwächsen in einzelnen Bezugsgruppen (vgl. Abschn. 7.37.6). Die aufgestellten Hypothesen werden nachfolgend mithilfe der für die Gruppen errechneten kritischen d-Werte geprüft. Weitere Erläuterungen zur Berechnung und Interpretation von Cohens d können Abschnitt 6.4 entnommen werden.

3.1 Gruppenunterschiede zum ersten Erhebungszeitpunkt

Zum ersten Erhebungszeitpunkt zeigen sich im Fachwissen sowie in der Fachsprache keine signifikanten Unterschiede zwischen Kontroll- und Experimentalgruppe. Es ist also von gleichen Eingangsbedingungen und daher von guter Vergleichbarkeit hinsichtlich der Variablen Fachwissen und Fachsprache auszugehen. In der Selbsteinschätzung hingegen zeigen sich leichte Gruppenunterschiede. Die Experimentalgruppe schätzt sich bereits zum ersten Erhebungszeitpunkt besser ein als die Kontrollgruppe (Tab. 7.10).

Tab. 7.10 Unterschiede in der Gesamtstichprobe, unterteilt nach EG/KG zu t1 (α = .05; 1-β = .80)

Den Auswertungen entsprechend wird die Nullhypothese, die gleiche Eingangsvoraussetzung bezüglich der Zielvariablen Selbsteinschätzung annimmt, abgelehnt. Beim Fachwissen und der Fachsprache können gleiche Voraussetzungen angenommen werden; die entsprechenden Alternativhypothesen werden verworfen.

1)

GesamtH1FWt1: m(EGt1) ≠ m(KGt1)

verwerfen

GesamtH0FWt1: m(EGt1) = m(KGt1)

beibehalten

2)

GesamtH1FSt1: m(EGt1) ≠ m(KGt1)

verwerfen

GesamtH0FSt1: m(EGt1) = m(KGt1)

beibehalten

3)

GesamtH1SEt1: m(EGt1) ≠ m(KGt1)

annehmen

GesamtH0SEt1: m(EGt1) = m(KGt1)

verwerfen

Dass die Eingangsvoraussetzungen bei der Selbsteinschätzung nicht in beiden Gruppen gleich sind, ist problematisch, da dies Einschränkungen in der internen Validität bedeutet (Selektionseffekt) (vgl. Abschn. 7.2). Diese Bedrohung der internen Validität wird allerdings dadurch abgemildert, dass bei der Beurteilung der Treatmenteffekte nur die Differenzen zwischen t2 und t1 betrachtet werden.

3.2 Eingangsvoraussetzungen der Bezugsgruppe Lesekompetenz

In der Bezugsgruppe Lesekompetenz zeigen sich zu t1 erwartungsgemäß bei den mittleren und guten Leser*innen bessere Ergebnisse in allen Erhebungen (vgl. Tab. 7.11).

Tab. 7.11 Unterschiede in der Bezugsgruppe Lesekompetenz zu t1 (α = .05; 1-β = .80)

Auf Basis dieser Daten können alle Alternativhypothesen, die zu t1 schlechtere Leistungen für die schwächsten 30 % der Leser*innen bezüglich aller Zielvariablen vermuten, angenommen werden.

4)

LesenH1FWt1: m(LesenSL t1) < m(LesenMGL t1)

annehmen

LesenH0FWt1: m(LesenSL t1) ≥ m(LesenMGL t1)

verwerfen

5)

LesenH1FSt1: m(LesenSL t1) < m(LesenMGL t1)

annehmen

LesenH0FSt1: m(LesenSL t1) ≥ m(LesenMGL t1)

verwerfen

6)

LesenH1SEt1: m(LesenSL t1) < m(LesenMGL t1)

annehmen

LesenH0SEt1: m(LesenSL t1) ≥ m(LesenMGL t1)

verwerfen

Es ist ausgehend von diesen Daten plausibel, weitere Untersuchungen bezüglich der Zusammenhänge des Treatments mit differenziellen Lernzuwächsen in der Bezugsgruppe Lesekompetenz anzustellen (vgl. Abschn. 7.5).

3.3 Eingangsvoraussetzungen der Bezugsgruppe Geschlecht

Hinsichtlich der Bezugsgruppe Geschlecht werden bezüglich der Variable Fachsprache Vorteile für die Mädchen erwartet, wohingegen beim Fachwissen und der Selbsteinschätzung Vorteile für die Jungen erwartet werden. Diese Genderunterschiede sind bei allen Zielvariablen in der Tendenz zu erkennen; sie werden allerdings nur für die Selbsteinschätzung sowie die Profilanalyse signifikant. Für die Zielvariable Fachsprache ergibt sich kein eindeutiges Bild. Während beim C-Test ähnliche Startvoraussetzungen zwischen den Geschlechtern vorhanden sind, zeigen die Mädchen bei der Profilanalyse signifikant bessere Ergebnisse beim ersten Erhebungszeitpunkt. Die Hypothesenüberprüfung gestaltet sich daher bei der Zielvariable Fachsprache nicht so eindeutig, wie beim Fachwissen, da die Fachsprache in ihren unterschiedlichen Facetten über zwei Erhebungsinstrumente operationalisiert wird. Die H1 wird nachfolgend nur dann angenommen, wenn bei beiden Erhebungsinstrumenten demp ≥ dkrit ist. Doch auch die Richtung der Effektgröße in den einzelnen Erhebungsinstrumenten gibt Hinweise auf Interpretationsmöglichkeiten (vgl. Tab. 7.12).

Tab. 7.12 Unterschiede in der Bezugsgruppe Geschlecht zu t1 (α = .05; 1-β = .80)

Auf Basis der dargestellten Daten wird nur die Alternativhypothese bezüglich der Selbsteinschätzung angenommen; die weiteren Alternativhypothesen werden abgelehnt.

7)

GeschlH1FWt1: m(Geschlweibl t1) < m(Geschlmännl t1)

verwerfen

GeschlH0FWt1: m(Geschlweibl t1) ≥ m(Geschlmännl t1)

beibehalten

8)

GeschlH1FSt1: m(Geschlweibl t1) > m(Geschlmännl t1)

verwerfen

GeschlH0FSt1: m(Geschlweibl t1) ≤ m(Geschlmännl t1)

beibehalten

9)

GeschlH1SEt1: m(Geschlweibl t1) < m(Geschlmännl t1)

annehmen

GeschlH0SEt1: m(Geschlweibl t1) ≥ m(Geschlmännl t1)

verwerfen

Es ist ausgehend von diesen Daten hinsichtlich der Zielvariable Selbsteinschätzung statistisch plausibel, weitere Untersuchungen bezüglich differenzieller Lernzuwächse in der Bezugsgruppe Geschlecht anzustellen. Auch für die weiteren Zielvariablen werden diese Untersuchungen angestellt, da sich in der Tendenz die in der Literatur typischen Geschlechterunterschiede für t1 abzeichnen (vgl. Abschn. 7.5), auch wenn diese in der untersuchten Kohorte nicht signifikant sind.

3.4 Eingangsvoraussetzungen der Bezugsgruppe Deutsch als Erst-/Zweitsprache

Hinsichtlich der Bezugsgruppe Deutsch als Erst-/Zweitsprache zeigen sich hinsichtlich aller Variablen bessere Ergebnisse bei den Schüler*innen mit Deutsch als Erstsprache. Der empirische d-Wert überschreitet allerdings nur beim C-Test den kritischen d-Wert (vgl. Tab. 7.13).

Tab. 7.13 Unterschiede in der Bezugsgruppe Deutsch als Erst-/Zweitsprache zu t1 (α = .05; 1-β = .80)

Basierend auf den dargestellten Daten kann keine Alternativhypothese beibehalten werden. Das heißt, Schüler*innen mit Deutsch als Erst- oder Zweitsprache zeigen beim Fachwissen, der Fachsprache und der Selbsteinschätzung annähernd gleiche Eingangsvoraussetzungen; bei der Fachsprache sind bessere Leistungen bei den Deutsch-als-Erstsprachler*innen zu vermerken.

10)

SpracheH1FWt1: m(SpracheL2 t1) < m(SpracheL1 t1)

verwerfen

SpracheH0FWt1: m(SpracheL2 t1) ≥ m(SpracheL1 t1)

beibehalten

11)

SprachelH1FSt1: m(SpracheL2 t1) < m(SpracheL1 t1)

verwerfen

SpracheH0FSt1: m(SpracheL2 t1) ≥ m(SpracheL1 t1)

beibehalten

12)

SpracheH1SEt1: m(SpracheL2 t1) < m(SpracheL1 t1)

verwerfen

SpracheH0SEt1: m(SpracheL2 t1) ≥ m(SpracheL1 t1)

beibehalten

Es wäre angesichts der annähernd gleichen Ausgangslagen zu t1 ebenfalls plausibel, keine weiteren differenziellen Untersuchungen anzustellen. Auf Basis des dargestellten Forschungsstands ist es allerdings denkbar, dass es Unterschiede im Erwerb von Fachwissen und Fachsprache bei Kindern mit Deutsch als Erst- oder Zweitsprache gibt. Daher werden nachfolgend die aufgestellten Hypothesen überprüft, auch wenn sich zu t1 keine bezugsgruppenspezifischen Unterschiede in der Stichprobe feststellen lassen. Es ist zum Beispiel denkbar, dass die Gruppen unterschiedlich stark vom sprachsensiblen Treatment profitieren.

Kontroll- und Experimentalgruppe haben gleiche Voraussetzungen hinsichtlich des Fachwissens und der Fachsprache; die Experimentalgruppe schätzt sich allerdings bereits zum ersten Erhebungszeitpunkt besser ein als die Kontrollgruppe. Bezugsgruppenspezifisch zeigen sich zu t1 Vorteile für mittlere und starke Leser*innen hinsichtlich aller Zielvariablen. Mädchen zeigen zum ersten Erhebungszeitpunkt bessere fachsprachliche Leistungen und Jungen geben zu t1 eine bessere Selbsteinschätzung ab als Mädchen.

4 Effekte des sprachsensiblen Geographieunterrichts

Nachfolgend werden mit t-Tests für unabhängige Stichproben Lernzuwachseffekte ausgewertet. Es geht um die Frage, welche Gruppe mehr vom Treatment profitiert; diejenigen mit sprachsensiblem Geographieunterricht (EG) oder diejenigen ohne (KG). Dazu werden die unter Abschn. 5.2 aufgestellten Hypothesen auf Basis der empirischen Daten aus Design-Zyklus II geprüft. Hierfür betrachte ich einerseits klassischerweise die Prä-Post-Veränderungen der Gesamtstichprobe, unterteilt in Experimental- und Kontrollgruppe sowie die weiter oben erläuterten Bezugsgruppen. Die Interpretation des Interventionserfolgs erfolgt auch bei den folgenden Hypothesen mit dem kritischen Wert von Cohens demp (vgl. Abschn. 6.4).

$$\Delta d_{emp} = \frac{{\left( {m\,t2 - t1_{Gruppe1} - M\,t2 - t1_{Gruppe2} } \right)}}{{\left( {\frac{{(SD_{Gruppe1} + SD_{Gruppe2} )}}{2}} \right)}}$$

In den folgenden Tabellen (vgl. Tab. 7.14–Tab. 7.19) ist der Minuend immer in der oberen Zeile abgetragen (schwächste Leser*innen, männlich, EG); der Wert in der darunterliegenden Zeile ist der Subtrahend (mittlere und gute Leser*innen, weiblich, KG). Negative d-Werte sind dadurch bedingt.

4.1 Treatmenteffekte auf das Fachwissen

Wer profitiert hinsichtlich des Fachwissenserwerbs stärker: Experimental- oder Kontrollgruppe? Diese Frage wird mithilfe der folgenden Daten differenziert nach Bezugsgruppe beantwortet (vgl. Tab. 7.14).

Tab. 7.14 Treatmenteffekte auf die Zielvariable Fachwissen in den verschiedenen Bezugsgruppen; Zyklus II, Differenzwerte t2–t1(α = .05, 1-β = .80)

Bezogen auf die gesamte Stichprobe ist die Experimentalgruppe hinsichtlich des Fachwissenserwerbs statistisch signifikant erfolgreicher als die Kontrollgruppe. H1 kann angenommen, H0 verworfen werden.

13)

TreatmenteffektGesamtH1FW t2: m(EGt2) - m(EGt1) > m(KGt2) - m(KGt1)

annehmen

TreatmenteffektGesamtH0FW t2: m(EGt2) - m(EGt1) ≤ m(KGt2) - m(KGt1)

verwerfen

Schaut man sich die Ergebnisse der Bezugsgruppe Lesekompetenz an, ist auffällig, dass die mittleren und guten Leser*innen in der Experimentalgruppe besonders profitieren, die schwächsten 30 % allerdings den kritischen d-Wert für die Experimentalgruppe nicht erreichen. Ein ähnliches Bild zeigt sich für die Bezugsgruppe Geschlecht. Die Jungen profitieren hinsichtlich des Fachwissens in der Experimentalgruppe stärker, die Mädchen nicht. Festzuhalten ist aber auch, dass jedenfalls die Richtung der Effektgröße Vorteile für die Experimentalgruppe andeutet, die allerdings nicht signifikant werden. Auch in der Bezugsgruppe Deutsch als Erst-/Zweitsprache zeigen sich keine signifikanten Vorteile für die Experimentalgruppe, obwohl auch hier die Richtung der Effekte zu Gunsten der Experimentalgruppe ausfällt. Die H1 für die Hypothesen 14), 15) und 16) können nicht angenommen und H0 nicht verworfen werden.

14)

TreatmenteffektLesenSLH1FWt2: m(EGt2) - m(EGt1) > m(KGt2) - m(KGt1)

verwerfen

TreatmenteffektLesenSLH0FWt2: m(EGt2) - m(EGt1) ≤ m(KGt2) - m(KGt1)

beibehalten

15)

TreatmenteffektGeschlweiblH1FWt2: m(EGt2) - m(EGt1) > m(KGt2) - m(KGt1)

verwerfen

TreatmenteffektGeschlweiblH0FWt2: m(EGt2) - m(EGt1) ≤ m(KGt2) - m(KGt1)

beibehalten

16)

TreatmenteffektSpracheL2H1FWt2: m(EGt2) - m(EGt1) > m(KGt2) - m(KGt1)

verwerfen

TreatmenteffektSpracheL2H0FWt2: m(EGt2) - m(EGt1) ≤ m(KGt2) - m(KGt1)

beibehalten

4.2 Treatmenteffekte auf die Fachsprache

Für die Zielvariable Fachsprache stellt sich ebenfalls die Frage, welche Gruppe stärker profitiert. Die folgenden Daten sind Grundlage der Hypothesenüberprüfung (vgl. Tab. 7.15).

Tab. 7.15 Treatmenteffekte auf die Zielvariable Fachsprache in den verschiedenen Bezugsgruppen; Zyklus II, Differenzwerte t2-t1(α = .05, 1-β = .80)

Bezogen auf die gesamte Stichprobe ist die Experimentalgruppe hinsichtlich des Fachspracherwerbs statistisch signifikant erfolgreicher als die Kontrollgruppe. Sowohl beim C-Test als auch bei der Profilanalyse profitiert die Experimentalgruppe. H1 kann angenommen, H0 verworfen werden.

17)

TreatmenteffektGesamtH1FSt2: m(EGt2) – m(EGt1) > m(KGt2) – m(KGt1)

annehmen

TreatmenteffektGesamtH0FSt2: m(EGt2) – m(EGt1) ≤ m(KGt2) – m(KGt1)

verwerfen

Für die Bezugsgruppe Lesekompetenz zeigen sich je nach Erhebungsinstrument unterschiedliche Befunde. Aufgrund der oben dargestellten Prämisse, dass Δdemp ≥ dkrit für beide Erhebungsinstrumenten zutreffen muss, wird die Alternativhypothese, dass das sprachsensible Treatment besonders die Fachsprache von schwachen Leser*innen fördert, abgelehnt.

18)

TreatmenteffektLesenSLH1FSt2: m(EGt2) – m(EGt1) > m(KGt2) – m(KGt1)

verwerfen

TreatmenteffektLesenSLH0FSt2: m(EGt2) – m(EGt1) ≤ m(KGt2) – m(KGt1)

beibehalten

Die Veränderungen in der Fachsprache ergeben bei der Unterscheidung nach Mädchen und Jungen kein klares Bild. So zeigen die Mädchen der Experimentalgruppe beim C-Test Vorteile gegenüber der Kontrollgruppe; bei der Profilanalyse zeigen eben diese Vorteile die Jungen der Experimentalgruppe. Es ist dennoch anzumerken, dass die Richtung der Effektgröße auf mögliche Vorteile für die Profilanalyse bei den Mädchen der Experimentalgruppe hindeutet; die Effektgröße reicht aber nicht aus. Die H1 muss daher abgelehnt werden.

19)

TreatmenteffektGeschlweiblH1FSt2: m(EGt2) – m(EGt1) > m(KGt2) – m(KGt1)

verwerfen

TreatmenteffektGeschlweiblH0FSt2: m(EGt2) – m(EGt1) ≤ m(KGt2) – m(KGt1)

beibehalten

Bezüglich der Gruppe Deutsch als Erst-/Zweitsprache zeigen sich keine signifikanten Vorteile für die Experimentalgruppe, auch wenn die Effektrichtung diese andeutet. Die Alternativhypothese wird verworfen.

20)

TreatmenteffektSpracheL2H1FSt2: m(EGt2) – m(EGt1) > m(KGt2) – m(KGt1)

verwerfen

TreatmenteffektSpracheL2H0FSt2: m(EGt2) – m(EGt1) ≤ m(KGt2) – m(KGt1)

beibehalten

4.3 Treatmenteffekte auf die Selbsteinschätzung

Bei den Hypothesen zur Zielvariable Selbsteinschätzung handelt es sich um ungerichtete Hypothesen; dkrit ist daher für diese Hypothesen strenger, da zweiseitige t-Tests zugrunde liegen (vgl. Tab. 7.16). Es wurden ungerichtete Hypothesen aufgestellt, weil eine höhere/niedrigere Selbsteinschätzung zu t2 nicht notwendigerweise bedeutet, dass sie realistischer ist als zu t1. Es wird also lediglich angenommen, dass sich die Selbsteinschätzung in Zyklus II von t1 zu t2 verändert, da es im Treatment explizit adressiert wurde. Die Selbsteinschätzungsskala umfasst 21 Items zur Geographiefachsprache, dem Geographiewissen sowie zum Umgang mit Sachtexten.

Tab. 7.16 Treatmenteffekte auf die Zielvariable Selbsteinschätzung in den verschiedenen Bezugsgruppen; Zyklus II, Differenzwerte t2-t1(α = .05, 1-β = .80)

Es sind keine signifikanten Unterschiede zwischen den Gruppen zu erkennen; keine der Alternativhypothesen kann auf Basis der Daten angenommen werden.

21)

TreatmenteffektGesamtH1SEt2: m(EGt2) - m(EGt1) ≠ m(KGt2) - m(KGt1)

verwerfen

TreatmenteffektGesamtH0SEt2: m(EGt2) - m(EGt1) = m(KGt2) - m(KGt1)

beibehalten

22)

TreatmenteffektLesenSLH1SEt2: m(EGt2) - m(EGt1) ≠ m(KGt2) - m(KGt1)

verwerfen

TreatmenteffektLesenSLH0SEt2: m(EGt2) - m(EGt1) = m(KGt2) - m(KGt1)

beibehalten

23)

TreatmenteffektGeschlweiblH1SEt2: m(EGt2) - m(EGt1) ≠ m(KGt2) - m(KGt1)

verwerfen

TreatmenteffektGeschlweiblH0SEt2: m(EGt2) - m(EGt1) = m(KGt2) - m(KGt1)

beibehalten

24)

TreatmenteffektSpracheL2H1FSt2: m(EGt2) – m(EGt1) ≠ (KGt2) – m(KGt1)

verwerfen

TreatmenteffektSpracheL2H0FSt2: m(EGt2) – m(EGt1) = (KGt2) – m(KGt1)

beibehalten

Zentrale Erkenntnis bezüglich der Haupteffekte des Treatments ist, dass die Experimentalgruppe in Hinblick auf den Erwerb von Fachwissen und Fachsprache statistisch signifikant und mit mittlerer Effektgröße vom sprachsensiblen Geographieunterricht profitiert (d = .51, α = .05, 1-β = .80). Hinsichtlich der Selbsteinschätzung ergibt sich kein statistisch signifikanter Befund. Es zeigen sich außerdem bezüglich aller Variablen Vorteile für die schwächsten Leser*innen der Experimentalgruppe im Vergleich zu denen in der Kontrollgruppe; die Vorteile werden aber nicht signifikant.

5 Bezugsgruppenspezifische Treatmenteffekte

Im Folgenden werden die bezugsgruppenspezifischen Treatmenteffekte innerhalb der Kontroll- und Experimentalgruppe dargestellt. Dabei geht es z. B. um die Frage, ob starke oder schwache Leser*innen in der Experimentalgruppe höhere Lernzuwächse im Fachwissen haben. Auch hierzu wurden unter Abschn. 5.2 Hypothesen aufgestellt; diese werden wie bei der Überprüfung der Haupteffekte mithilfe des kritischen d-Werts (vgl. Abschn. 6.4) überprüft.

5.1 Bezugsgruppenspezifische Treatmenteffekte auf das Fachwissen

Wer profitiert hinsichtlich des Fachwissenserwerbs in der Experimentalgruppe stärker: schwächere oder stärkere Leser*innen, Jungen oder Mädchen, Schüler*innen mit Deutsch als Erst- oder Zweitsprache? Die folgende Datenauswertung bildet die Grundlage, um diese Frage in der Hypothesenüberprüfung zu adressieren (vgl. Tab. 7.17).

Tab. 7.17 Bezugsgruppenspezifische Treatmenteffekte innerhalb EG/KG; Zielvariable Fachwissen; Zyklus II, Differenzwerte t2-t1(α = .05, 1-β = .80)

In der Experimentalgruppe zeigt sich, dass die mittleren und guten Leser*innen im Vergleich zu den schwächsten Leser*innen signifikant höhere Fachwissenszuwächse haben. Im Vergleich zur Kontrollgruppe jedoch zeigen sowohl schwache als auch mittlere und gute Leser*innen bessere Leistungen im Fachwissenstest. Die Annahme, dass schwache Leser*innen stärker vom sprachsensiblen Treatment profitieren können als mittlere und gute Leser*innen, ist nicht haltbar. Die Alternativhypothese muss daher verworfen werden.

25)

GruppeneffektLesenH1FWt2:

m(FW LesSL | EGt2) – m(FW LesSL | EGt1) > m(FW LesMGL | EGt2) – m(FW LesMGL | EGt1)

verwerfen

GruppeneffektLesenH0FWt2:

m(FW LesSL | EGt2) – m(FW LesSL | EGt1) ≤ m(FW LesMGL | EGt2) – m(FW LesMGL | EGt1)

beibehalten

Geschlechterspezifische Unterschiede hinsichtlich des Fachwissenszuwachses zeigen sich weder in der Experimental- noch in der Kontrollgruppe in signifikantem Maße; zu t1 waren die Geschlechterunterschiede im Fachwissen zwar ebenfalls nicht signifikant, zeigten aber in der Tendenz Vorteile für die Jungen. Die Nullhypothese, dass Mädchen und Jungen annähernd gleichen Fachwissenszuwachs haben, kann beibehalten werden.

26)

GruppeneffektGeschlH1FWt2:

m(FW männl | EGt2) – m(FW männl | EGt1) < m(FW weibl | EGt2) – m(FW weibl | EGt1)

verwerfen

GruppeneffektGeschlH0FWt2:

m(FW männl | EGt2) – m(FW männl | EGt1) ≥ m(FW weibl | EGt2) – m(FW weibl | EGt1)

beibehalten

Auf Basis der Daten (vgl. Tab. 7.17) sind keine Unterschiede zwischen Schüler*innen mit Deutsch als Erst- und Zweitsprache auszumachen. Die Annahme, dass Zweitsprachler*innen besonders vom sprachsensiblen Treatment profitieren und dadurch höheren Fachwissenszuwachs haben als die Erstsprachler*innen, ist nicht haltbar.

27)

GruppeneffektSpracheH1FWt2:

m(FW SprL2 | EGt2) – m(FW SprL2 | EGt1) > m(FW SprL1 | EGt2) – m(FW SprL1 | EGt1)

verwerfen

GruppeneffektSpracheH0FWt2:

m(FW SprL2 | EGt2) – m(FW SprL2 | EGt1) ≤ m(FW SprL1 | EGt2) – m(FW SprL1 | EGt1)

beibehalten

5.2 Bezugsgruppenspezifische Treatmenteffekte auf die Fachsprache

Nachfolgend werden die gruppenspezifischen Veränderungen hinsichtlich des Erwerbs von Fachsprache innerhalb der Experimental- und Kontrollgruppe dargestellt (vgl. Tab. 7.18).

Tab. 7.18 Bezugsgruppenspezifische Treatmenteffekte innerhalb EG/KG; Zielvariable Fachsprache; Zyklus II, Differenzwerte t2-t1(α = .05, 1-β = .80)

In der Experimentalgruppe zeigen sich hinsichtlich des Fachspracherwerbs weder beim C-Test noch bei der Profilanalyse signifikante Vor- oder Nachteile für eine Gruppe von Leser*innen. Die Richtung der Effektgröße deutet allerdings eher auf Vorteile für stärkere Leser*innen hin. Im Vergleich mit der Kontrollgruppe hingegen scheinen die Vorteile für stärkere Leser*innen bei sprachsensiblem Geographieunterricht abgemildert zu werden. Der Schereneffekt zwischen starken und schwachen Leser*innen wird in der Experimentalgruppe in der Tendenz abgeschwächt. Der Schereneffekt bezeichnet das Phänomen, dass die Leistungen schwacher und starker Schüler*innen wie die Blätter einer Schere weiter auseinander gehen. Das sprachsensible Treatment ist binnendifferenziert und zielt darauf ab, alle bestmöglich zu fördern; sprachschwache Schüler*innen sollen ebenso wie sprachstarke Schüler*innen dazulernen. Dass besonders die sprachschwachen Schüler*innen profitieren, ist als Erfolg zu werten; gleichzeitig ist auch die Leistungszunahme bei den sprachstarken Schüler*innen erfreulich. Der Leistungszuwachs bei allen Schüler*innen kann ein Indiz dafür sein, dass die Binnendifferenzierung funktioniert hat. Da die Leistungen also bei allen Schüler*innen ansteigen, zeigen sich keine signifikanten Vorteile für die leseschwachen Kinder, sodass die Alternativhypothese statistisch nicht gehalten werden.

28)

GruppeneffektLesenH1FSt2:

m(FS LesSL | EGt2) – m(FS LesSL | EGt1) > m(FS LesMGL | EGt2) – m(FS LesMGL | EGt1)

verwerfen

GruppeneffektLesenH0FSt2:

m(FS LesSL | EGt2) – m(FS LesSL | EGt1) ≤ m(FS LesMGL | EGt2) – m(FS LesMGL | EGt1)

beibehalten

Es zeigen sich in der Prä-Post-Analyse der Fachsprachtests keine signifikanten genderspezifischen Unterschiede innerhalb der Experimental- oder Kontrollgruppe. Insbesondere im C-Test sind die Differenzen in der Experimentalgruppe geringer ausgeprägt als in der Kontrollgruppe. Auch im Vergleich zu t1 haben sich die Genderunterschiede zu Ungunsten der Jungen abgemildert, obwohl diese in der Tendenz immer noch zu erkennen sind, allerdings nicht mehr statistisch signifikant werden. Die Alternativhypothese wird daher verworfen.

29)

GruppeneffektGeschlH1FSt2:

m(FS weibl | EGt2) – m(FS weibl | EGt1) < m(FS männl | EGt2) – m(FS männl | EGt1)

verwerfen

GruppeneffektGeschlH0FSt2:

m(FS weibl | EGt2) – m(FS weibl | EGt1) ≥ m(FS männl | EGt2) – m(FS männl | EGt1)

beibehalten

Weder in der Kontroll- noch in der Experimentalgruppe zeigen sich signifikante Unterschiede beim Fachspracherwerb zwischen Deutsch-als-Erst- und Zweitsprachler*innen. Die Alternativhypothese, dass insbesondere Zweitsprachler*innen besonders vom Treatment profitieren, wird verworfen.

30)

GruppeneffektSpracheH1FSt2:

m(FS SprL2 | EGt2) – m(FS SprL2 | EGt1) > m(FS SprL1 | EGt2) – m(FS SprL1 | EGt1)

verwerfen

GruppeneffektSprachenH0FSt2:

m(FS SprL2 | EGt2) – m(FS SprL2 | EGt1) ≤ m(FS SprL1 | EGt2) – m(FS SprL1 | EGt1)

beibehalten

5.3 Bezugsgruppenspezifische Treatmenteffekte auf die Selbsteinschätzung

Ebenso wie bei den allgemeinen Treatmenteffekten zeigen sich bei den bezugsgruppenspezifischen Treatmenteffekten in der Selbsteinschätzung keine klaren Befunde. Durch ein strengeres dkrit aufgrund der zweiseitigen t-tests wird kein Effekt signifikant (vgl. Tab. 7.19).

Tab. 7.19 Bezugsgruppenspezifische Treatmenteffekte innnerhalb EG/KG; Zielvariable Selbsteinschätzung; Zyklus II, Differenzwerte t2-t1(α = .05, 1-β = .80)

Bezüglich der Selbsteinschätzung zeigen sich keine signifikanten Vorteile für schwache Leser*innen, die Mädchen oder Zweitsprachler*innen in der Experimental- oder Kontrollgruppe. Die Alternativhypothesen werden verworfen.

31)

GruppeneffektLesenH1SEt2:

m(SE LesSL | EGt2) – m(SE LesSL | EGt1) > m(SE LesMGL | EGt2) – m(SE LesMGL | EGt1)

verwerfen

GruppeneffektLesenH0SEt2:

m(SE LesSL | EGt2) – m(SE LesSL | EGt1) ≤ m(SE LesMGL | EGt2) – m(SE LesMGL | EGt1)

beibehalten

32)

GruppeneffektGeschlH1SEt2:

m(SE weibl | EGt2) – m(SE weibl | EGt1) > m(SE männl | EGt2) – m(SE männl | EGt1)

verwerfen

GruppeneffektGeschlH0SEt2:

m(SE weibl | EGt2) – m(SE weibl | EGt1) ≤ m(SE männl | EGt2) – m(SE männl | EGt1)

beibehalten

33)

GruppeneffektSpracheH1SEt2:

m(SE SprL2 | EGt2) – m(SE SprL2 | EGt1) > m(SE SprL1 | EGt2) – m(SE SprL1 | EGt1)

verwerfen

GruppeneffektSprachelH0SEt2:

m(SE SprL2 | EGt2) – m(SE SprL2 | EGt1) ≤ m(SE SprL1 | EGt2) – m(SE SprL1 | EGt1)

beibehalten

Zu t1 konnten keine Geschlechterunterschiede festgestellt werden. Auch zum zweiten Erhebungszeitpunkt lassen sich keine Geschlechterunterschiede hinsichtlich der Veränderungen in den Zielvariablen erkennen. Bezüglich der Unterschiede zwischen leseschwachen und -starken Schüler*innen zeigt sich in Bezug auf die Variable Fachsprache, dass der Schereneffekt in der Experimentalgruppe abgemildert werden konnte. Für die Bezugsgruppe Deutsch als Erst-/Zweitsprache zeigen sich keine Unterschiede zwischen Lerner*innen mit Deutsch als Erst- oder Zweitsprache.

6 Beständigkeit der Treatmenteffekte

Abschließend stelle ich die Treatmenteffekte im Verlauf der Erhebungen (t1–t3) je Zielvariable nach Kontroll- und Experimentalgruppe unterteilt dar. Es handelt sich um die Mittelwerte je Erhebungszeitpunkt; es sind nicht die Differenzwerte dargestellt, wie dies in den anderen Kapiteln der Fall ist. Dies liegt darin begründet, dass die Stichprobe zu t3 aufgrund der COVID-19-Pandemie mehr als 10 % geringer ist und daher für die bisher durchgeführten Darstellungen zu klein ist. Es wird nachfolgend beurteilt, wie sich die Lernzuwächse oder -verluste über die drei Erhebungszeitpunkte je Zielvariable verändern. Die Beurteilung der unter 5.2 aufgestellten Hypothesen erfolgt über Balkendiagramme; genauere Erläuterungen folgen.

6.1 Beständigkeit der Treatmenteffekte auf das Fachwissen

Über alle drei Erhebungszeitpunkte lassen sich in beiden Gruppen Fachwissenszuwächse erkennen. Zu t3 gab es einen weiteren, leichten Anstieg des Fachwissens in beiden Gruppen, auch wenn dieser nicht signifikant wird (Überlappung der Fehlerbalken). Der Zuwachs zu t3 ist in beiden Gruppen ähnlich hoch (vgl. Abb. 7.1).

Abb. 7.1
figure 1

(Eigene Darstellung)

Mittelwerte des Fachwissenstest zu t1, t2 und t3 in Kontroll- und Experimentalgruppe; Fehlerbalken 95 %.

Dass zu t3 keine Verluste, sondern sogar noch leichte Lernzuwächse zu erkennen sind, ist möglicherweise unter anderem damit zu begründen, dass an das Thema Schalenbau der Erde und Plattentektonik anschließend in den meisten Klassen Naturkatastrophen behandelt wurden, die auf das Wissen aus der Unterrichtsreihe aufbauen, auch wenn es nicht mehr explizit thematisiert wird. Die Experimentalgruppe hat im Vergleich zur Kontrollgruppe keine Nachteile; die Alternativhypothese kann daher hinsichtlich der Beständigkeit der Treatmenteffekte angenommen werden.

25)

TreatmenteffektGesamtH1FWt3:

m(EGt3-t2) - m(EGt2-t1) ≥ m(KGt3-t2) - m(KGt2-t1)

annehmen

TreatmenteffektGesamtH0FWt3:

m(EGt3-t2) - m(EGt2-t1) < m(KGt3-t2) - m(KGt2-t1)

verwerfen

6.2 Beständigkeit der Treatmenteffekte auf die Fachsprache

Zu t3 wurde wegen des zeitlichen Umfangs auf eine Profilanalyse verzichtet und nur ein C-Test eingesetzt. Es zeigen sich über alle Zeitpunkte und alle Gruppen Lernzuwächse (vgl. Abb. 7.2). Dass zu t3 nochmals Zuwächse zu verzeichnen sind, kann an Übungseffekten liegen, die nach dem dritten Mal auftreten. In Zyklus I gab es für die Kontrollgruppe, die auf Übungseffekte überprüft wurde, nur zwei Erhebungszeitpunkte. Es traten in diesem Rahmen keine signifikanten Übungseffekte auf. Denkbar ist außerdem, dass größere Lernzuwächse dann wahrscheinlicher werden, wenn bereits zu t2 mehr Wissen vorhanden ist.

Abb. 7.2
figure 2

(Eigene Darstellung)

Mittelwerte des C-Tests zu t1, t2 und t3 in Kontroll- und Experimentalgruppe; Fehlerbalken 95 %.

Auf Basis dieser Daten kann die Alternativhypothese angenommen werden.

26)

TreatmenteffektGesamtH1FSt3:

m(EGt3-t2) - m(EGt2-t1) ≥ m(KGt3-t2) - m(KGt2-t1)

annehmen

TreatmenteffektGesamtH0FSt3:

m(EGt3-t2) - m(EGt2-t1) < m(KGt3-t2) - m(KGt2-t1)

verwerfen

6.3 Beständigkeit der Treatmenteffekte auf die Selbsteinschätzung

Bezüglich der Selbsteinschätzung konnten keine Hypothesen mehr aufgestellt werden; sie ist aber der Vollständigkeit wegen dennoch dargestellt (vgl. Abschn. 5.2.4). Von Bedeutung sind insbesondere der Verlauf und die Unterschiede in Kontroll- und Experimentalgruppe. Während die Selbsteinschätzung in der Kontrollgruppe weitgehend stabil bleibt, schätzt sich die Experimentalgruppe über den Verlauf der Untersuchungen schlechter ein, sodass zwischen t1 und t3 eine (wenn auch nicht signifikante) Veränderung hin zu einer konservativeren Einschätzung der fachsprachlichen und fachlichen Kompetenzen im Geographieunterricht zu erkennen ist (vgl. Abb. 7.3).

Abb. 7.3
figure 3

(Eigene Darstellung)

Mittelwerte der Selbsteinschätzungsskala zu t1, t2 und t3 in Kontroll- und Experimentalgruppe; Fehlerbalken 95 %.

Die Beständigkeit der Treatmenteffekte zeigt hinsichtlich der Variablen Fachwissen und Fachsprache keine Verluste in beiden Gruppen. Im Gegenteil zeigen sich sogar noch weitere Leistungszuwächse. Lediglich die Selbsteinschätzung zeigt zum dritten Erhebungszeitpunkt geringere Werte als zum ersten und zweiten Erhebungszeitpunkt.