Ausgehend von grundlegenden Überlegungen zum Forschungsdesign im Rahmen von Design-Based Research (vgl. Abschn. 6.1) begründe ich im Folgenden die verschiedenen methodischen Entscheidungen. Dabei gliedern sich die Ausführungen in die Darstellung der Datenerhebungen mit der Erläuterung der Erhebungsinstrumente (vgl. Abschn. 6.2), der Datenaufbereitung (vgl. Abschn. 6.3) und der Datenauswertung (vgl. Abschn. 6.4). Anschließend werden Aspekte des Samplings für die Studie beleuchtet (vgl. Abschn. 6.5). Eine kurze Zusammenfassung der methodischen Vorgehensweise legt die zentralen Aspekte noch einmal gebündelt dar (vgl. Abschn. 6.6).

1 Grundlegende Charakteristika des Forschungsdesigns im Rahmen von Design-Based Research (DBR)

Das Forschungsprojekt ist methodisch eingebettet in den Rahmen des Design-Based Research (DBR), in dem Forschungs- und Entwicklungsarbeit miteinander verwoben werden. DBR erfreut sich international in den empirischen Bildungswissenschaften zunehmender Beliebtheit und auch in der deutschsprachigen Geographiedidaktik wird vermehrt, wenn auch immer noch vergleichsweise wenig, im Rahmen von DBR geforscht (vgl. Anderson/Shattuck 2012, S. 20; Bannan-Ritland 2003, S. 21; Feulner et al. 2015, S. 219–227). Das liegt vor allem daran, dass DBR verspricht, was Grundlagenforschung auf der einen und Anwendungsforschung auf der anderen Seite verbindet: Herausforderungen in der Praxis mithilfe von Theorien und Empirie zu bearbeiten (vgl. Anderson/Shattuck 2012, S. 16). Doch was sind die zentralen Charakteristika und Grenzen von DBR?

1.1 Forschungsanlässe und Ziele von DBR-Projekten

Am Anfang eines jeden DBR-Projekts steht ein praxisrelevantes Problem, das mithilfe von Theorie(n) gelöst oder jedenfalls adressiert werden soll (vgl. Wilhelm/Hopf 2014, S. 34). Der Anlass für die vorliegende Forschungsarbeit liegt in der unterrichtspraktischen Schwierigkeit, Geographie sprachsensibel, also unter Berücksichtigung der spezifischen sprachlichen Herausforderungen, zu unterrichten. Das übergeordnete Ziel von DBR-Projekten ist es, das Praxisproblem zu lösen; außerdem geht es um folgende Teilziele (vgl. Edelson 2002, S. 106):

  1. (1)

    Aus der Theorie sollen Design-Prinzipien abgeleitet werden, die das Praxisproblem adressieren.

  2. (2)

    Die Design-Prinzipien sollen anhand eines konkreten Unterrichtssetting operationalisiert werden.

  3. (3)

    Dieses Unterrichtssetting soll durchgeführt und hinsichtlich seiner Wirksamkeit empirisch überprüft werden.

  4. (4)

    Auf Basis der Begleitforschung sollen die zugrundeliegenden Theorien überprüft und weiterentwickelt werden.

1.2 Zeitlicher Ablauf von DBR-Projekten

Nachfolgend skizziere ich den typischen Ablauf von DBR-Projekten am Beispiel meines Forschungsprojekts (vgl. Abb. 6.1):

  1. (1)

    Ausgehend von der praktischen Herausforderung, Geographie sprachsensibel zu unterrichten, erfolgt die Entwicklung von Design-Prinzipien für SGU.

  2. (2)

    Hierfür werden relevante Theorien sowie der empirische Forschungsstand aufbereitet. Bereits bei der Problembeschreibung entsteht der erste Kontakt zu im Projekt kooperierenden Praktiker*innen, in diesem Fall Schulleitungen sowie Lehrkräfte.

  3. (3)

    Die entwickelten Design-Prinzipien werden anschließend in eine sprachsensible Unterrichtsreihe überführt. In diesem Fall handelt es sich um eine sechsstündige Unterrichtsreihe zum Thema Schalenbau der Erde und Plattentektonik. Parallel dazu erfolgt die Entwicklung der nicht-sprachsensiblen Unterrichtsreihe in gleichem Umfang und zum gleichen Thema.

  4. (4)

    Die Unterrichtsreihen werden durchgeführt und begleitend beforscht. Die gewonnenen Erkenntnisse aus Zyklus I münden dann in einen zweiten Design-Zyklus.

  5. (5)

    Der zweite Design-Zyklus besteht ebenfalls aus Design bzw. Überarbeitung, Durchführung der Unterrichtsreihen sowie Datenerhebung und -analyse.

Abb. 6.1
figure 1

(Eigene Darstellung)

Das Forschungsdesign im Überblick.

Kein Schritt im Forschungsprozess erfolgt ohne Bezugnahme auf einen anderen (vgl. Abb. 6.1). Denn das wesentliche Charakteristikum von DBR-Projekten ist die Iteration, die sich in mehreren Design-Zyklen zeigt (vgl. Feulner et al. 2015, S. 208). Die einzelnen Zyklen werden formativ evaluiert und erst am Ende des Projekts erfolgt eine abschließende summative Evaluation.

Der Forschungsprozess ist iterativ und besteht aus Zyklen von Design (Gestaltung und Entwicklung von unterrichtlichen Interventionen wie z. B. Lehr-Lern-Umgebungen), praktischer Umsetzung, Analyse (formative Evaluation unter Verwendung qualitativer und/oder quantitativer Methoden) und Re-Design auf Basis der Ergebnisse der Begleitforschung. (Feulner et al. 2015, S. 206)

Die Anzahl der Design-Zyklen von DBR-Projekten hängt von der Zielsetzung ab, das Praxisproblem zu lösen. Um dieses Ziel zu erreichen, sollte das Problem möglichst klar definiert werden. Dabei haben die Entwickler*innen einer Intervention meist einen Ziel- zustand vor Augen. Der Designprozess läuft also nicht völlig losgelöst von jeglichen Erwartungen an das Produkt ab.

Als heuristisches Grundgerüst der Problem- und Lösungsdefinition meines DBR-Projekts dienten mir die Ausführungen von Akker (2013). Er hat die einzelnen Schritte von DBR-Projekten von der theoretischen Auseinandersetzung bis zur praktischen Operationalisierung sprachlich so zugespitzt, dass auch im iterativen Forschungsprozess das Wesentliche im Fokus bleibt und ein Rahmen im grenzenlosen Raum entsteht.

  • If you want to design intervention X [for purpose/function Y in context Z]

  • then you are best advised to give that intervention the characteristics C1, C2, …, Cm [substantive emphasis]

  • and to do that via procedures P1, P2, …, Pn [methodological emphasis]

  • because of theoretical arguments T1, T2, …., Tp…

  • and empirical arguments E1, E2, …, Eq.

    (Akker 2013, S. 67)

Die Leerstellen in den Zeilen füllen zu können, bedeutet, Antworten auf das Praxisproblem gefunden zu haben. Gleichzeitig stellt die Zuspitzung des gesamten Forschungsprozesses und -ergebnisses auf nur wenige Zeilen die eigentliche Herausforderung des gesamten Projekts dar. Selbstverständlich garantieren diese heuristischen Prinzipien, wie alle anderen Heuristiken, keinen Erfolg. Sie helfen aber dabei, die am besten geeigneten Inhalte und Methoden für die Design- und Entwicklungsaufgabe auswählen und anwenden zu können sowie einen roten Faden im Forschungsprozess zu spinnen (vgl. Akker 2013, S. 67).

1.3 Grenzen von DBR und zu anderen Forschungsansätzen

DBR steht als neuerer Forschungsansatz, der sich erst allmählich in der deutschen Forschung etabliert, den klassischen Forschungsansätze (Grundlagen- und Anwendungsforschung) gegenüber. Bei DBR werden Grundlagenstudien und anwendungsbezogene Entwicklungsarbeiten zusammengedacht (vgl. Wilhelm/Hopf 2014, S. 33), um einen für die Bildungspraxis, insbesondere Schulen, nutzbaren Ansatz zu schaffen:

We hope that [it; eigene Ergänzung] will inspire many researchers to consider the marriage of the divergent character of design processes with the convergent constraints of basic and applied educational research as the fertile ground for exploring solutions to and the reconceptualization of education at all levels. (vgl. Kelly et al. 2008, Preface)

Während das Ziel experimenteller Grundlagenforschung das Testen von Theorie(n) ist, liegt der Fokus bei Anwendungsforschung auf der Überprüfung von intendierten Anwendungen einer Theorie, also der konkreten Lernumgebung. DBR-Projekte können zwischen diesen Polen verortet werden. Bei ihnen geht es darum, Theorien anhand des entwickelten Unterrichtsdesigns zu testen und Theorie und Praxis gleichzeitig weiterzuentwickeln (vgl. Bakker 2018, S. 13). Das Ziel ist es, herauszufinden, wie, mit wem, unter welchen Umständen und mit welchen Ergebnissen ein Unterrichtssetting funktioniert oder nicht funktioniert, um das Unterrichtsdesign sowie die Theorie zu verbessern (vgl. McKenney/Reeves 2019, S. 23).

Gerade dadurch, dass bei DBR-Projekten Unterrichtssettings in ihrer Gesamtheit in „einem komplexen Wechselspiel verschiedener Einflussfaktoren“ (Wilhelm/Hopf 2014, S. 33) untersucht werden, entsteht der Umstand, dass Einzelfaktoren nicht isoliert betrachtet werden können, wie es bei der Grundlagenforschung der Fall ist. Letztlich lässt sich der Erfolg oder Misserfolg bei DBR-Projekten also nicht auf eine Variable kondensieren. Diese Einschränkung wird im weiteren Verlauf der Arbeit noch kritisch beleuchtet, da sich daraus Einschränkungen für die interne Validität ergeben (vgl. Abschn. 7.2 und 8.3). Vorteil ist, dass die zu untersuchende Wirksamkeit nicht durch eine strenge Kontrolle der Rahmenbedingungen eingeschränkt wird. Ein weiterer Unterschied zu klassischer Grundlagen- und Anwendungsforschung liegt im zyklisch angelegten Forschungsprozess von DBR-Projekten. Formative Evaluation nimmt demnach in DBR-Projekten eine zentrale Rolle ein, während sie bei den anderen Forschungsansätzen, wenn überhaupt, der summativen Evaluation nachgeordnet ist (vgl. DBRC 2003, S. 7).

Die dargestellten Unterschiede von DBR im Vergleich zu klassischen Forschungsansätzen ergeben sich insbesondere aus dem Anspruch, innovativem Denken und Handeln den bestmöglichen Nährboden zu geben. Bakker (2018) spricht in diesem Zusammenhang von DBR als „science fiction or rather science faction, among the research approaches […] The focus on what is possible rather than actual fits Vygotsky’s (1987) view on teaching“ (Bakker 2018, S. 3). Das DBRC fasst in Hinblick auf das Spannungsfeld von DBR im Rahmen klassischer Forschungsansätze die Vorteile von DBR wie folgt zusammen:

However, randomized trials are not necessarily the appropriate end goal of our research approach; we do not understand issues of context well enough yet to guarantee that randomized trials are the best means to answer the questions we care about. The use of randomized trials may hinder innovation studies by prematurely judging the efficacy of an intervention. (DBRC 2003, S. 6)

DBR-Projekte können mit Elementen klassischer experimenteller Forschung verbunden werden. Das heißt, dass klare Bruchlinien zu anderen Forschungsansätzen nicht immer zu ziehen sind. So wird im vorliegenden Projekt beispielsweise mit einem hypothesentestenden Design mit Experimental- und Kontrollgruppen gearbeitet. Die dargestellten Unterschiede zwischen den Forschungsansätzen sind also mehr als Tendenzen zu verstehen denn als strenge Kriterien auf einer Checkliste, deren Einhaltung für den einen oder den anderen Ansatz unabdingbar wären. Tab. 6.1 gibt einen Überblick über die verschiedenen Eigenschaften und deren Ausprägungen in den unterschiedlichen Forschungsansätzen.

Tab. 6.1 Forschungsdesigns im Überblick

Zusammengefasst sind meine Überlegungen in diesem Abschnitt als heuristisches Rahmenmodell gedacht, um die Anforderungen aus der geographiedidaktischen Schulpraxis nach einer an einem Designprozess für ein Produkt orientierten Methode mit wissenschaftlichen Anforderungen in Einklang zu bringen. Zu diesem Zweck unterscheide ich zwischen Grundlagen-, Anwendungs- und Designforschung. In der Designforschung liegt der Schwerpunkt auf dem Entwicklungsgedanken, der es erforderlich macht, bei Bedarf auf sich verändernde Praxisanforderungen zu reagieren. Risiken und Nebenwirkungen liegen beim Design-Based Research darin, in einem einzelnen Zyklus gewonnene Evidenzen, die vielleicht nur Erwartungen der Beteiligten reflektieren, zu verallgemeinern und Erfolge und Misserfolge durch selektive Stichproben, z. B. durch die Zusammenarbeit mit besonders interessierten und kompetenten Lehrkräften, zu erzeugen und nicht durch eine schul- und unterrichtsbezogene Maßnahme.

2 Datenerhebung

Die Datenerhebungen wurden in zwei Design-Zyklen durchgeführt (vgl. Abb. 6.1). Design-Zyklus I fand im zweiten Halbjahr des Schuljahres 2018/19 statt; Design-Zyklus II im ersten Halbjahr des Schuljahres 2019/20. Um das Treatment auf Prä-Post-Veränderungen zu prüfen, wurden in beiden Design-Zyklen Datenerhebungen sowohl unmittelbar vor (t1) als auch unmittelbar nach dem Treatment (t2) durchgeführt. Im zweiten Design-Zyklus fand außerdem ein dritter Erhebungszeitpunkt acht Wochen nach der letzten Unterrichtsstunde statt, um die Beständigkeit möglicher Lerneffekte zu überprüfen (t3). Als unabhängige Variable wurde der Unterricht hinsichtlich des Maßes an Sprachsensibilität variiert. Während die Experimentalgruppe sprachsensiblen Geographieunterricht zum Thema Schalenbau der Erde und Plattentektonik im Umfang von sechs Schulstunden erhielt, bekam Kontrollgruppe I nicht-sprachsensiblen Unterricht zum gleichen Thema im gleichen zeitlichen Umfang. In Design-Zyklus I wurde außerdem eine zweite Kontrollgruppe eingesetzt, die zur Kontrolle der Lerneffekte durch den Einsatz der Erhebungsinstrumente diente, und sonstigen, ohnehin anstehenden Geographieunterricht zu einem anderen Thema erhielt (vgl. Abb. 6.2). Da sich keine signifikanten Lerneffekte allein aufgrund der wiederholten Durchführung der Tests zeigten, wurde im zweiten Design-Zyklus auf Kontrollgruppe II verzichtet.

Abb. 6.2
figure 2

(Eigene Darstellung)

Ablauf pro Design-Zyklus; kursiv = nur in jeweils einem der beiden Zyklen vorhanden.

Während die Treatments im ersten Design-Zyklus von mir selbst durchgeführt wurden, oblag die Durchführung der Treatments im zweiten Design-Zyklus zur Verbesserung der Objektivität der Geographielehrkraft der entsprechenden Klasse. Die sich daraus ergebenden Einschränkungen stelle ich in Abschn. 7.2 dar. Alle Lehrkräfte des zweiten Design-Zyklus (sowohl in der Experimental- als auch in der Kontrollgruppe) erhielten vor der Durchführung eine 90-minütige Schulung.

2.1 Erhebung und Beschreibung der Kontrollvariablen

Die Kontrollvariablen wurden mittels eines Fragebogens sowie eines Lesegeschwindigkeits- und -verständnistests (LGVT 5-12+) erhoben (vgl. Schneider et al. 2017).

Der Test besteht in der Aufgabe, einen Fließtext innerhalb von sechs Minuten so schnell und genau wie möglich zu lesen. Innerhalb der Bearbeitungszeit ist an maximal 47 Textstellen auszuwählen, „welches von drei vorgegebenen Wörtern am besten in den Sinnzusammenhang passt. Die Anzahl der gelesenen Wörter, die Anzahl der korrekten Lösungen (ratekorrigiert) und schließlich das Verhältnis zwischen bearbeiteten und korrekt gelösten Items werden als Kennwerte für Lesegeschwindigkeit, Leseverständnis und Lesegenauigkeit herangezogen.“ (Hogrefe Verlag 2017)

Die Items des Fragebogens habe ich in Anlehnung an größere Schulleistungsstudien sowie Studien zur Literalität selbst erstellt (vgl. Frederking et al. 2017; Kurtz et al. 2015; Meier 2018; Weinert et al. 2016). Die Items des Fragebogens umfassten Fragen zu

  • Geschlecht (Item 1),

  • Alter (Item 6),

  • Sprachbiographie im weiteren Sinne (Fragen 2–5, 11–13) und

  • Zensuren in den Fächern Deutsch und Geographie (Frage 8–10).

Aus datenschutzrechtlichen Gründen konnte ich keine Informationen zum sozioökonomischen Hintergrund erheben. Da sich die Items aus Design-Zyklus I als inhaltlich sinnvoll und verständlich erwiesen haben, wurden sie unverändert in Design-Zyklus II eingesetzt.

2.2 Erhebung und Beschreibung der Zielvariablen

Die Zielvariablen lassen sich abgeleitet aus der Fragestellung in drei Variablen untergliedern. Die Studie erhebt Veränderungen im Fachwissen, in der Fachsprache sowie in der Selbsteinschätzung. Die Selbsteinschätzung der Schüler*innen wurde in Design-Zyklus I als Kontrollvariable, also nicht im Prä-Post-Vergleich erhoben, weil zunächst keine Veränderung der Selbsteinschätzung durch das Treatment erwartet bzw. angestrebt wurde. Da sich aber auffällige Korrelationen zwischen der Selbsteinschätzung, dem Geschlecht sowie Fachwissen und Fachsprache zeigten, wurde die Selbsteinschätzung in Design-Zyklus II ebenfalls als Zielvariable aufgenommen.

Fachwissen

Um das Fachwissen für den Themenbereich Schalenbau der Erde und Plattentektonik zu erfassen, habe ich einen Fachwissenstest mit geschlossenem Itemformat entwickelt. Für die Konstruktion des Fachwissenstests besonders von Belang ist die sprachliche Barrierefreiheit. Ziel war es, das Fachwissen im genannten Themenbereich möglichst unabhängig von den sprachlichen Kompetenzen zu erheben. Der Test ist daher im Ankreuzformat mit den Antwortoptionen Richtig/Falsch erstellt. Für jedes richtige Kreuz gab es einen Punkt, Punktabzüge bei falsch gesetzten Kreuzen gab es nicht. Um möglichst zu vermeiden, dass Schüler*innen voneinander abschreiben, gab es Versionen A und B, die zwar jeweils aus denselben Items bestanden, welche aber in unterschiedlicher Reihenfolge angeordnet waren.

Fachsprache

Um ein möglichst umfassendes Bild der fachsprachlichen Kompetenzen der Schüler*innen zu erheben, habe ich zwei verschiedene, unterschiedlich schreibintensive, Erhebungsinstrumente für mein Projekt adaptiert.

Beim C-Test (kurz für Cloze-Test) handelt es sich um eine besondere Art des Lückentests, der häufig in der Spracherwerbsforschung, Zweitsprachdidaktik und zur Feststellung von Erst- oder Fremdsprachkompetenz eingesetzt wird (vgl. Scholten-Akoun et al. 2012, S. 32). Ein C-Test besteht aus vier bis fünf in sich geschlossenen Texten mit jeweils etwa 20 Lücken, wobei die Überschrift sowie der erste und letzte Satz vollständig sind, damit man sich den Textkontext erschließen kann (vgl. Junk-Deppenmeier 2009, S. 86). Die Lücken werden systematisch eingebaut: Bei jedem zweiten oder dritten Wort (je nach Schwierigkeit) wird die letzte Hälfte des Wortes getilgt (vgl. Reich 2007, S. 162). Aufgrund der klaren Vorgaben sowie eines Generators, der im Internet frei zugänglich ist (vgl. Deutsche Welle o. J.), lassen sich C-Tests mit eigenen Inhalten und nach gewünschtem Schwierigkeitsgrad vergleichsweise einfach selbst erstellen. Der C-Test erfüllt alle Hauptgütekriterien wissenschaftlicher Testverfahren, da er unter genauen Vorgaben durchgeführt, ausgewertet und interpretiert werden kann (vgl. Döll 2012, S. 109).

Der C-Test unterscheidet zwischen einem Worterkennungs- und einem Richtig/Falsch-Wert. Wird das Wort richtig erkannt, aber zum Beispiel falsch geschrieben, wird 1 Punkt vergeben. Ist das ergänzte Wort vollständig richtig, werden 2 Punkte vergeben. Ist das Wort nicht zu erkennen oder gar nicht ausgefüllt, werden keine Punkte vergeben. Ebenso wie für den Fachwissenstest wurden zwei Versionen eingesetzt. Die Versionen unterscheiden sich in der Reihenfolge der Texte; die Texte selbst sind identisch.

Bei der Profilanalyse versprachlichen Schüler*innen in mündlicher oder schriftlicher Form eine Bildfolge (vgl. Siems 2013, S. 3). Die Profilanalyse geht auf Grießhaber (2006) und Reich et al. (2007) zurück und diente ursprünglich als diagnostisches Tool, das deutsche Sprachkenntnisse bei Kindern und Jugendlichen mit Deutsch als Zweitsprache feststellte. Profilanalysen können auf verschiedene Weisen eingesetzt werden, da sowohl der Komplexitätsgrad als auch die Ausrichtung des Verfahrens je nach Bedarf modifiziert werden können. Daher wird die Profilanalyse zwischenzeitlich auch als Tool eingesetzt, den Stand fachsprachlicher Kompetenzen von Schüler*innen am Übergang von der Primar- zur Sekundarstufe festzustellen (vgl. Gantefort/Roth 2008, S. 30). Eben in diesem Sinne habe ich die Profilanalyse auch im Rahmen dieser Studie adaptiert eingesetzt. Die Schüler*innen verschriftlichen eine Bildfolge, bestehend aus vier Abbildungen, zur Entstehung der Alpen. Anschließend werden die Texte auf Basis verschiedener zuvor festgelegter Kriterien analysiert. Die untersuchten Merkmalskategorien stützen sich dabei auf einen Konsens der in der Theorie diskutierten Oberflächenmerkmale von Fachsprache (vgl. Gantefort/Roth 2008; Grießhaber 2006; Heilmann 2009; Wildemann/Fornol 2016) (vgl. Abschn. 2.1).

Anzahl der Wörter (tokens)

Anzahl der Sätze (tokens)

Inhaltliche Aufgabenbewältigung

Gestaltung des Anfangs

Passivkonstruktionen (tokens)

Man-Konstruktionen (tokens)

Erweiterter Infinitiv mit zu, um…zu + Infinitiv (tokens)

Lassen (tokens)

Satzart (tokens)

Fachbegriffe (types und tokens)

Nichtfachliche Fremdwörter (types und tokens)

Abkürzungen (types und tokens)

Nominalisierungen (types und tokens)

Komposita (types und tokens)

Demonstrativa (types und tokens)

Konnektoren (types und tokens)

Die Auswertung der Profilanalyse erfolgt durch Auszählen der einzelnen Ausprägungen. Dabei wird bei den meisten, überwiegend lexikalischen Merkmalen zwischen types, also den verschiedenen Vorkommenstypen eines Oberflächenmerkmals, und tokens, der Anzahl eines types, unterschieden. Pro type und token wird ein Punkt vergeben. Bei der Kategorie inhaltliche Aufgabenbewältigung handelt es sich um das einzige Kriterium, das den geschriebenen Text fachlich-inhaltlich bewertet. Dabei können maximal 18 Punkte erreicht werden. Die Kategorie Gestaltung des Anfangs erfasst pragmatische Textkompetenz; es können maximal 5 Punkte erreicht werden. Bei der Satzart können pro Satz maximal 5 Punkte erreicht werden, wobei die Abstufungen von unvollständigem Satz (0 Punkte) bis hin zu Hauptsatz mit mehreren Nebensätzen (5 Punkte) reichen. Die Skala der Profilanalyse ist theoretisch nach oben offen.

Selbsteinschätzung

In Design-Zyklus I wurden als Kontrollvariable auch Items zur Selbsteinschätzung der geographiespezifischen Fachsprachlichkeit zu t1 eingesetzt. Da sich bei der Auswertung von Zyklus I auffällige Korrelationen mit Kontroll- sowie den Zielvariablen zeigten, machten die Schüler*innen in Design-Zyklus II zu allen Messzeitpunkten Angaben zu ihrer Selbsteinschätzung bezüglich der

  1. (1)

    Geographiefachsprache,

  2. (2)

    Geographiefachkompetenz sowie

  3. (3)

    Sachtextkompetenz.

Die Items wurden verschiedenen Studien zur Fachsprachlichkeit und Literalität entlehnt (vgl. Frederking et al. 2017; Kurtz et al. 2015; Meier 2018; Weinert et al. 2016). Für die Überprüfung der Hypothesen wird die Gesamtskala zur Selbsteinschätzung mit 21 Items verwendet (vgl. Abschn. 5.2). Die Anzahl der Items wurde zu t3 ebenfalls wie bei den anderen Erhebungsinstrumenten reduziert; auf die Skala zur Sachtextkompetenz wurde gänzlich verzichtet, da keine weiteren Änderungen von t2 auf t3 zu erwarten waren.

Die Datenerhebungen fanden in zwei Design-Zyklen mit je zwei bzw. drei Erhebungszeitpunkten statt. Dabei wurden neben verschiedenen Kontrollvariablen das Fachwissen, die Fachsprache sowie die Selbsteinschätzung bezüglich des Fachwissens und der Fachsprache erhoben. Die Erhebungsinstrumente wurden adaptiert oder im Falle des Fachwissenstests neu erstellt.

3 Datenaufbereitung

Um die Befragten bei der Wiederholung der Erhebungen zum zweiten Erhebungszeitpunkt den Daten des ersten Erhebungszeitpunkts zuordnen zu können sowie gleichzeitig die Anonymität der Befragten bestmöglich zu wahren, erstellten die Schüler*innen ihren eigenen Decknamen bestehend aus zwei Buchstaben und ein bis zwei Ziffern nach folgendem Schema:

Letzter Buchstabe des Vornamens des Vaters, z. B. Peter

Zweiter Buchstabe des Vornamens der Mutter, z. B. Hülya

Summe des eigenen Geburtstags und Geburtsmonats, z. B. 23.02. = 25

Es ergibt sich folgendes Pseudonym: rü25

Das Verfahren hat den Vorteil, auf Listen der Depseudonymisierung zu verzichten und dennoch Datensätze einzelner Proband*innen auch nachträglich, zum Beispiel bei Widerruf der Einverständniserklärung, zu entfernen, da die Pseudonyme sowohl für die Kinder als auch die Erziehungsberechtigten leicht erinnert bzw. erneut erstellt werden können. Trotz der Vorteile und der Empfehlung dieses Verfahren durch die Berliner Senatsverwaltung für Bildung, Jugend und Familie zeigten sich folgende Nachteile des Verfahrens:

  1. 1.

    Manchen Schüler*innen war es nicht möglich, die Summe von Geburtstag und Geburtsmonat korrekt im Kopf zu errechnen.

  2. 2.

    Kinder, deren Eltern einen Vornamen haben, der erst ins lateinische Alphabet übersetzt werden muss, hatten Schwierigkeiten bei der Erstellung des Pseudonyms.

  3. 3.

    Das Verfahren legt ein klassisches Verständnis von Familie als der Kernfamilie mit Mutter, Vater, Kind zugrunde. Dieses Verständnis greift zu kurz und trifft auf viele Familien nicht mehr zu.

Diese Probleme führten dazu, dass viele Schüler*innen im ersten Design-Zyklus zu t2 nicht dasselbe Pseudonym angegeben haben wie zu t1, was eine Zuordnung schwierig und in Einzelfällen unmöglich machte. Im zweiten Design-Zyklus sollten die Schüler*innen deshalb zusätzlich ihr Lieblingstier notierten. Auch an dieser Stelle haben manche erwartungsgemäß zu t1, t2 und t3 unterschiedliche Tiere aufgeschrieben. Das zusätzliche Feld gab aber eine Schriftprobe, mit der die Zweifelsfälle leichter zuordenbar wurden. Weder die Realnamen der Schüler*innen noch das Geburtsdatum wurden erhoben; eine Liste, mit der die Zuordnung von Realnamen zum Pseudonym möglich wäre, existiert nicht.

Alle Daten wurden in SPSS eingegeben und ausgewertet. Der Profilanalyse war vor der Dateneingabe in SPSS ein weiterer Schritt vorgeschaltet. Die Schüler*innentexte wurden zuvor ohne Korrekturen in der Originalfassung in einer Excel-Datei digitalisiert und die Auszählungen der Merkmalsausprägungen dort eingetragen. Das Ergebnis pro Kategorie und Schüler*in wurde dann in die SPSS-Datei übertragen. Vor der Dateneingabe wurde ein vollständig kommentierter und gelabelter Codeplan erstellt, mithilfe dessen alle Daten in die SPSS-Datenmaske eingetragen wurden. Sofern Werte kontraintuitiv vergeben wurden, erfolgte die Invertierung in einem separaten Schritt nach der Dateneingabe, um Kodierungsfehler zu vermeiden. Bei der Dateneingabe wurden auch fehlende Werte berücksichtigt, die in drei Kategorien gegliedert wurden. Die Kodierung berücksichtigt, ob Proband*innen zum Erhebungszeitpunkt nicht anwesend waren (Kodierung -888), einzelne Werte im Fragebogen fehlen, zum Beispiel, weil eine Frage überlesen wurde (Kodierung -999), und ob bewusst falsche Angaben gemacht wurden (Kodierung -777). Um festzustellen, ob Proband*innen wissentlich falsche Angaben gemacht haben, wurden die Fragebogen auf Ankreuzmuster und Kommentare geprüft. Die Dateneingabe wurde von mir sowie von studentischen Hilfskräften durchgeführt, die sich gegenseitig stichprobenartig auf Tipp- und Flüchtigkeitsfehler überprüften. Eine abschließende Überprüfung der Dateneingabe habe ich vorgenommen. In der Überprüfung habe ich zunächst die Wertebereiche der einzelnen Variablen geprüft. Wenn der Wertebereich einer Variable beispielsweise 1 bis 5 umfasst, ist ein eingegebener Wert von 55 sehr wahrscheinlich ein Tippfehler, kann geprüft und korrigiert werden. Nachdem die Wertebereiche überprüft wurden, habe ich die Häufigkeitsverteilung der Variablen betrachtet. Werte, die extrem hoch/niedrig oder extrem selten vorkamen, wurden nochmals mit den Original-Fragebögen abgeglichen und gegebenenfalls korrigiert. Schließlich wurden alle Variablennamen sowie deren Labels auf Richtigkeit und Verständlichkeit geprüft und gegebenenfalls korrigiert. Soweit möglich, handelt es sich bei den meisten Variablen um verhältnisskalierte Ausprägungen. Dies erlaubt es, die Daten miteinander zu vergleichen und in einer abschließenden Synthese die Ergebnisse aufeinander zu beziehen.

Alle Daten wurden pseudonymisiert erhoben, sodass die Tests der verschiedenen Erhebungszeitpunkte derselben Person zugeordnet werden konnten, diese aber nicht als Realperson bekannt ist. Mittels Codeplan wurde eine Datenmaske in SPSS erstellt; kontraintuitive Daten wurden invertiert. Darüber hinaus wurden die Daten auf ihre Fehler überprüft und, wenn notwendig, korrigiert, um die Qualität der Datenauswertung zu sichern.

4 Datenauswertung

In der Datenauswertung habe ich verschiedene deskriptive sowie interferenzstatistische Verfahren angewendet (insbesondere t‐Tests für unabhängige Stichproben) (vgl. Sedlmeier/Renkewitz 2008). Dabei spielen die Berechnung der Effektgröße Cohens d und des Korrelationskoeffizienten PearsonsFootnote 1 r eine große Rolle bei der Bewertung der Wirksamkeit des Treatments im Prä-Post-Vergleich.

4.1 Reliabilitäten

Um die Skalen hinsichtlich ihrer Güte zu überprüfen, wurde jeweils der Reliabilitätskoeffizient Cronbachs α errechnet (vgl. Bortz/Schuster 2010, S. 429; Döring/Bortz 2016, S. 443; Moosbrugger/Kelava 2012, S. 133). Cronbachs α bewegt sich zwischen 0 (völlig unzuverlässige Messung, die nur aus zufälligen Messfehlern besteht) und 1 (perfekte zuverlässige Messung, gänzlich ohne Beeinträchtigung durch Messfehler). Dabei gelten in der Individualdiagnostik Reliabilitäten ab ≥ .80 als sehr gut. Für Gruppenvergleiche und für neu erstellte, nicht mehrfach überarbeitete Erhebungsinstrumente mit innovativem Anspruch können zunächst auch Reliabilitäten von ≥ .55 als ausreichend eingestuft werden. Als Faustregeln gelten die folgenden Werte (vgl. Rost 2013, S. 178–179):

Cronbachs α ≥ .55 ausreichende Reliabilität

Cronbachs α ≥ .75 gute Reliabilität

Cronbachs α ≥ .80 sehr gute Reliabilität

Cronbachs α ≥ .85 exzellente Reliabilität

Cronbachs α ≥ .90 herausragende Reliabilität

Fachwissenstest

Nach Berechnung der Itemschwierigkeiten, Trennschärfen und Skalenreliabilitäten verbleiben von ursprünglich 129 Items in Design-Zyklus I noch insgesamt 34 Items. Während Design-Zyklus I noch diverse Distraktoren zu typischen Schüler*innenvorstellungen zum Themenkomplex beinhaltete (vgl. Conrad 2014, 2016), fielen viele davon in Design-Zyklus II weg, da diese eine Lösungswahrscheinlichkeit von ≥ 80 % erreichten. Um die gewünschte inhaltliche Bandbreite abzudecken, wurden für den Design-Zyklus II weitere Items neu entwickelt, deren statistische Güte sich im Design-Zyklus II bewährte (Cronbachs α zu t2 = .79, N = 133). In Zyklus II umfasst der Fachwissenstest 45 Items. Zu t3 wurden nach einer weiteren Reliabilitätsanalyse die Items von 45 auf 22 reduziert, da für diesen Zeitpunkt für alle Erhebungen nur noch 15 Minuten zur Verfügung standen. Es zeigen sich auch an dieser Stelle noch hohe Reliabilitäten (Cronbachs α zu t3 = .71, N = 95).

C-Test

Nach Analyse der Items aus Design-Zyklus I hinsichtlich Reliabilität und Lösungswahrscheinlichkeiten (≤ 20 % | ≥ 80%) wurden die Items in Design-Zyklus II von 82 auf 53 reduziert, wobei die Anzahl von vier Texten zu t1 und t2 gleichblieb, um weiterhin inhaltliche Vielfalt zu gewährleisten. Die Reliabilität für den gesamten C-Test ist hoch (Cronbachs α = .96 zu t2, N = 116). Zu t3 wurden aufgrund der Zeitbegrenzung für die Erhebungen nur noch zwei der vier Texte eingesetzt; auch zu diesem Erhebungszeitpunkt mit verringerter Itemanzahl zeigt sich eine hohe Reliabilität (Cronbachs α = .89, zu t3, N = 116).

Profilanalyse

Für beide Design-Zyklen zeigt sich eine höhere Reliabilität der Profilanalyse, wenn die Auswertungskategorie Anzahl der Wörter nicht in die Analyse der Profilanalyse einfließt (Cronbachs α zu t2 für types = .78, N = 165). Inhaltlich interpretiert bedeutet das, dass ein langer Text nicht automatisch ein fachsprachlich angemessener ist und umgekehrt. Zu t3 wurde aufgrund der beschriebenen begrenzten zeitlichen Ressourcen auf eine wiederholte Durchführung der Profilanalyse verzichtet.

Skala zur Selbsteinschätzung

Bei den Skalen zur Selbsteinschätzung handelt es sich um fünfstufige Likert-Skalen (vgl, Döring/Bortz 2016, S. 269–270), die mindestens gute Reliabilitäten erreichen (vgl. Tab. 6.2).

Tab. 6.2 Reliabilitäten der Selbsteinschätzungsskalen

4.2 Interpretation der Korrelationen

Zusammenhänge zwischen Kontrollvariablen und abhängigen Variablen sowie zwischen den abhängigen Variablen werden in Kapitel 7.2.2 aufgeführt. Für die Darstellung der Korrelationen wird der Korrelationskoeffizient r herangezogen. Es gelten für die Interpretation folgende Kennwerte (vgl. Tab. 6.3):

Tab. 6.3 Optimale Stichprobenumfänge für den Vergleich von zwei Mittelwerten aus abhängigen/korrelierten Stichproben bei unterschiedlichen Korrelationen nach Effektgrößen (1 – β = .80; einseitiger Test)

Die in der vorliegenden Arbeit betrachteten Korrelationen beziehen sich auf die Stichprobe aus einem Designzyklus und umfassen daher meistens ein N ≈ 150; die Effektgrößen können also überwiegend als klein oder mittel eingestuft werden; je nachdem, welches Signifikanzniveau zugrunde gelegt wird.

4.3 Berechnung und Interpretation der Effektgrößen

Um die in Kapitel 5.2 aufgestellten Hypothesen zu überprüfen und die verschiedenen Gruppen auf mögliche Unterschiede prüfen zu können, werden t-Tests für unabhängige Stichproben durchgeführt (vgl. Hager 2004). Diese erlauben es, Mittelwerte zweier Gruppen zu vergleichen und mögliche Gruppenunterschiede auf Signifikanzen zu untersuchen. Die Beurteilung von Gruppenunterschieden erfolgt primär mittels der empirischen Effektgröße Cohens demp.

$${d}_{emp}=\frac{({M}_{Gruppe1}- {M}_{Gruppe2})}{\left(\frac{{(SD}_{Gruppe1} + {SD}_{Gruppe2})}{2}\right)}$$

In der Literatur gelten folgende Richtwerte zur Interpretation von Cohens d (vgl. Cohen 1988; Döring/Bortz 2016, S. 669):

d ≥ .10 kleiner Effekt

d ≥ .30 mittlerer Effekt

d ≥ .50 großer Effekt

Hattie (2012) geht davon aus, dass erst bei d ≥ .40 eine Intervention derart erfolgreich ist, dass sie einen Unterschied zu einem ohnehin vorkommenden Lerneffekt macht. Doch auch diese Schwelle ist ein Richtwert, kein fester Schwellenwert. Diese unterschiedlichen Interpretationsmöglichkeiten machen offensichtlich, wie relativ diese Richtwerte einzuschätzen sind.

Ein Beispiel soll die Bedeutung der Werte von Cohens d anhand einer einfachen Rechnung verständlich machen.

Ein Cohens d = .50 bedeutet, dass der Lernzuwachs in Gruppe 1 eine halbe Standardabweichung größer ist als der Lernzuwachs in der Kontrollgruppe.

$${d}_{emp}=\frac{(1- 0.5)}{\left(\frac{1 + 1)}{2}\right)}=0.5$$

d = −.50 würde bedeuten, dass der Lernzuwachs in Gruppe 2 eine halbe Standardabweichung größer ist als in der Experimentalgruppe. Die Werte können also auch negativ sein, je nachdem, welche Gruppe Minuend und welche Subtrahend ist.

Anders als bei der Darstellung der Eingangsvoraussetzungen der verschiedenen Gruppen werden die zu erwartenden Kontraste zwischen Kontroll- und Experimentalgruppe über Veränderungsscores, also Lernzuwachseffekte, im Prä-Post-Design berechnet (vgl. Hager 2004, S. 314). Konkret werden dabei standardisierte Lernzuwächse im Prä-Post-Vergleich für die verschiedenen Bezugsgruppen dargestellt. Ein einzelner Differenzwert repräsentiert dabei die standardisierte Mittelwertsveränderung zwischen dem ersten und dem zweiten Messzeitpunkt auf eine abhängige Variable. Das hat den Vorteil, dass eventuell zum Messzeitpunkt t1 bestehende unterschiedliche Ausgangslagen zwischen Kontroll- und Experimentalgruppe berücksichtigt werden. Es zeigt sich allerdings in der Auswertung, dass zu t1 keine Unterschiede zwischen Experimental- und Kontrollgruppe vorhanden sind (vgl. Abschn. 7.3.1). Außerdem wird durch die Veränderungsscores der natürliche Zuwachs, der ohnehin in beiden Gruppen zu erwarten ist, ebenfalls berücksichtigt. Auf Basis der Differenzwerte ergibt sich mit folgender Formel die Effektgröße Cohens d zur Interpretation des Interventionserfolgs.

$$\Delta\,demp=\frac{({M t2-t1}_{Gruppe1}- {M t2-t1}_{Gruppe2})}{\left(\frac{{(SD}_{Gruppe1} + {SD}_{Gruppe2})}{2}\right)}$$

Um zu überprüfen, ob Gruppenunterschiede signifikant werden, reicht allerdings die Effektgröße d allein nicht aus. Denn die Interpretierbarkeit der Effekte hängt maßgeblich von der Gruppengröße ab. Daher muss zusätzlich die jeweilige Teststärke betrachtet werden. Die Teststärke (1-β) bezeichnet die Wahrscheinlichkeit, mit der ein Signifikanztest einen tatsächlich in den untersuchten Gruppen vorhandenen Effekt bestimmter Größe aufdecken kann. Bei hoher Teststärke weist ein Signifikanztest eine hohe Sensitivität auf, kann also auch bei kleineren Effekten mit großer Sicherheit auftretende Effekte aufdecken. Konventionell wird in Anlehnung an Cohen (1988) eine Teststärke von mindestens 80 % gefordert. Das heißt, es wird eine β-Fehlerwahrscheinlichkeit (Wahrscheinlichkeit, die H0 fälschlich anzunehmen bzw. die H1 fälschlich zu verwerfen) von maximal 20 % akzeptiert. Die Teststärke eines Signifikanztests steigt mit dem Signifikanzniveau α, mit dem Stichprobenumfang N sowie der Effektgröße d (vgl. Döring/Bortz 2016, S. 809). Die mindestens geforderte Teststärke von 1-β ≥ .80 wird bei einem α-Fehler von .05 auch für die vorliegende Studie angenommen. Zur Verdeutlichung der abstrakten Ausführungen dient ein einfaches Rechenbeispiel:

Bei zwei Gruppen (NGruppe1 = 100; NGruppe2 = 150) zeigen sich hinsichtlich des Lernzuwachses Gruppenunterschiede mit einer Effektgröße von d = .50. In diesem Beispiel sind signifikante Gruppenunterschiede vorhanden; die Teststärke beläuft sich auf .99. Bei zwei weiteren Gruppen (NGruppe3 = 20; NGruppe4 = 20) zeigen sich hinsichtlich des Lernzuwachses ebenfalls Unterschiede mit einer Effektgröße von d = .50. Bei diesen beiden Gruppen ist allerdings nicht von signifikanten Gruppenunterschieden die Rede, da sich die Teststärke nur noch auf .46 beläuft. Der kritische d-Wert, also derjenige Wert, der mindestens erreicht werden müsste, um von signifikanten Gruppenunterschieden zu reden, liegt für Gruppe 3 und 4 bei .80, wenn eine Teststärke von ≥ .80 erreicht werden soll.

Um das im Beispiel dargelegte Problem von Cohens d zu vermeiden, wird also für jeden Gruppenvergleich bei der Hypothesenprüfung im Ergebnisteil (vgl. Abschn. 7.37.6) mithilfe von G*Power (vgl. Faul et al. 2007) ein kritischer d-Wert (dkrit) berechnet. Je nachdem, ob die zu überprüfenden Hypothesen gerichtet oder ungerichtet sind, werden ein- oder zweiseitige t-tests für unabhängige Stichproben zugrunde gelegt. Ist demp ≥ dkrit, wird die statistische H1 mit einer 80%igen Sicherheit angenommen und die statistische H0 mit 95%-iger Sicherheit abgelehnt.

Die Datenauswertung bezieht sich im Wesentlichen auf die Berechnung der Reliabilitäten, Korrelationen sowie die Effektgrößen. Die Erhebungsinstrumente zeigen für den zweiten Design-Zyklus, also nach der Überarbeitung, sehr gute Reliabilitäten. Für die Berechnung der Effektgrößen wurde die Formel für Cohens d so modifiziert, dass sie auf Differenzwerten basiert, um gegebenenfalls unterschiedliche Eingangsvoraussetzungen zwischen Kontroll- und Experimentalgruppe zu berücksichtigen.

5 Sampling

In der vorliegenden Studie werden die Forschungshypothesen basierend auf der Analyse selbst erhobener Daten untersucht. Im Rahmen dieser quantitativen empirische Originalstudie sind verschiedene Aspekte der Stichprobengröße sowie der Stichprobenziehung zu erläutern (vgl. Döring/Bortz 2016, S. 182).

5.1 Stichprobengröße

Vor der Durchführung der Studie habe ich a priori mithilfe von G*Power den optimalen Stichprobenumfang für den ersten Design-Zyklus ermittelt (vgl. Döring/Bortz 2016, S. 671–673). Optimal bedeutet in diesem Kontext ein perfektes Kosten-Nutzen-Verhältnis der Stichprobengröße. Für einen einseitigen t-Test für unabhängige Stichproben mit einer gewünschten Effektgröße von d = .40, einem α-Fehler = .05 und einer Teststärke von .80 ergab sich eine Stichprobengröße von 156 mit 78 Proband*innen pro Gruppe (vgl. Abb. 6.3). Diese Stichproben- und Gruppengröße wurde im ersten Design-Zyklus fast erreichet und im zweiten Design-Zyklus überschritten.

Abb. 6.3
figure 3

(Quelle: Faul et al. 2007)

Screenshot G*Power-Berechnung der optimalen Stichprobengröße bei einem einseitigen t-test für unabhängige Stichproben (a priori).

Nach Analyse der Daten zeigten sich für die Zielvariablen Fachwissen und Fachsprache eine Teststärke von d = .51. Die in der post-hoc-Analyse berechnete Teststärke für die Gesamtstichprobe in Zyklus II beträgt .94 (vgl. Abb. 6.4).

Abb. 6.4
figure 4

(Quelle: Faul et al. 2007)

Screenshot G*Power Berechnung der erreichten Teststärke bei einem einseitigen t-test für unabhängige Stichproben (post-hoc).

5.2 Stichprobenziehung

Insgesamt haben an der Studie 320 Schüler*innen aus zwölf Klassen und sechs Berliner Schulen teilgenommen (vgl. Tab. 6.4). Die Zuweisung der Klassen zu Experimental- oder Kontrollgruppe erfolgte pro Schule zufällig.

Tab. 6.4 Stichprobengröße nach Design-Zyklus

Der Stichprobenziehung zugrunde liegt die Maßgabe, dass die Proband*innen Teil der Zielpopulation sind, damit überhaupt eine Form der Übertragbarkeit der Ergebnisse gegeben sein kann und die Überprüfung der Forschungshypothesen sowie die Adressierung der Forschungsfrage möglich sind. Dem Forschungsinteresse entsprechend handelt es sich bei der Zielpopulation um alle Schüler*innen am Übergang von Primar- zu Sekundarstufe, was in Berlin in der 7. Klasse der Fall ist. Da eine Vollerhebung nicht infrage kommt, wird ein Sampling erstellt, das möglichst aussagekräftig bezüglich der Zielpopulation ist. Wie aussagekräftig das Sampling ist, hängt davon ab, „wie gut bzw. unverzerrt die Merkmalszusammensetzung in der Stichprobe die Merkmalszusammensetzung in der Population widerspiegelt“ (Döring/Bortz 2016, S. 298) und insofern sollte ein charakteristisches Sampling eine heterogene Schüler*innenschaft umfassen.

Für das Sampling wurden zunächst alle weiterführenden Schulen im Berliner Bezirk Tempelhof-Schöneberg um die Teilnahme an der Studie gebeten. Der ausgewählte Bezirk bildet Gesamtberlin hinsichtlich der Merkmale Ausländer*innenanteil, Arbeitslosenquote und Bevölkerungsdichte gut ab (vgl. Tab. 6.5). Darüber hinaus erstreckt sich der Bezirk Tempelhof-Schöneberg vom Stadtzentrum bis an die Landesgrenze Berlin-Brandenburg, umfasst also verschiedene Einzugsgebiete.

Tab. 6.5 Vergleich statistischer Kennwerte Land Berlin und Bezirk Tempelhof-Schöneberg für Dezember 2018

Mit einer Teilnahmequote von 10 % nahmen drei Schulen in diesem Bezirk an der Studie teil. Da dies jedoch nicht ausreichte, mussten noch weitere Schulen aus verschiedenen Einzugsgebieten und unterschiedlicher Schularten angeschrieben und um Teilnahme gebeten werden. Schließlich haben sechs Schulen im Land Berlin teilgenommen; zwei davon am Stadtrand in eher bürgerlichem Einzugsgebiet, vier innerhalb des Berliner S-Bahnrings mit sehr heterogener Schüler*innenschaft. Damit wurde auf Schulebene ein Sample erreicht, das unterschiedliche (soziale) Hintergründe abbildet. Zugleich war es nicht möglich, das Sample auf Schüler*innenebene mit Daten für Gesamtberlin abzugleichen, da die Datenschutzvorgaben des Berliner Senats die Erhebung von Daten, die Rückschlüsse auf den sozioökonomischen Status und damit auf das Elternhaus der Kinder zulassen, untersagen. An der Studie haben drei Gymnasialklassen und neun Klassen der Integrierten Sekundarschule (ISS) teilgenommen. Die Proband*innen erhielten das Treatment in ihren Klassenverbänden und wurden nicht zufällig neuen Gruppen zugewiesen werden (Klumpen); es handelt sich also um nicht-randomisierte Gruppen (vgl. Döring/Bortz 2016, S. 315). Dies hat für die verschiedenen statistischen Auswertungsverfahren Konsequenzen, die berücksichtigt werden müssen.

Die Heterogenität der Schüler*innenschaft zeigt sich in den erhobenen Daten bei der Sprachbiographie der Schüler*innen. 23 % der Gesamtstichprobe sprechen Deutsch nicht als Erstsprache (vgl. Tab. 6.6), knapp die Hälfte der an der Studie teilgenommenen Schüler*innen spricht mindestens noch eine weitere Sprache als Deutsch mit ihren Eltern (vgl. Tab. 6.7). Insgesamt sprechen die Schüler*innen der Stichprobe 35 verschiedene Sprachen.

Tab. 6.6 Anteil an Schüler*innen mit und ohne Deutsch als eine Erstsprache
Tab. 6.7 Anteil mehrsprachiger Schüler*innen

Quantitative Studien folgen in der Regel dem Anspruch, repräsentative Ergebnisse zu erzielen. Eine repräsentative Stichprobe ist hierfür maßgebend. Im Rahmen dieser Studie handelt es sich nicht um eine zufällige Stichprobe und daher kann auch nicht von Repräsentativität ohne Einschränkungen für die Zielpopulation gesprochen werden. Doch in dem gewählten Forschungsdesign ist dies auch nicht der leitende Anspruch (vgl. Abschn. 6.1). Gleichwohl ist der Anspruch, sich durch hohe Reflexion und möglichst häufigen Rückgriff auf Verfahren, die auf Zufälligkeit beruhen (z.B. Zuweisung Kontroll- und Experimentalgruppe), an das Kriterium der Repräsentativität anzunähern.

Die benötigte Stichprobengröße wurde mit G*Power vor der Durchführung der Studie berechnet. Es wurden eine gewünschte Teststärke von .80, ein Alpha-Fehler von .05 und eine Effektgröße von d = .40 zugrunde gelegt. Über beide Design-Zyklen haben 320 Schüler*innen an der Studie teilgenommen. Die Studie wurde an sechs Berliner Schulen und in zwölf Klassen durchgeführt. Die Stichprobenziehung erfolgte nicht zufällig; die Zuordnung zu Experimental- und Kontrollgruppe erfolgte pro Schule zufällig.

6 Zusammenfassung des methodischen Vorgehens

Zur Zusammenfassung des Untersuchungsdesigns orientiere ich mich an den von Döring/Bortz (2016) vorgeschlagenen Klassifikationskriterien von Forschungsdesigns. Die Kategorien werden für das vorliegende Projekt in Tabellenform durchdekliniert sowie um weitere zentrale Aspekte erweitert. Tab. 6.8 soll einen Überblick über das methodische Vorgehen geben, die Begründung der Wahl ist den vorangegangenen Kapiteln zu entnehmen.

Tab. 6.8 Klassifikationskriterien des Untersuchungsdesigns