Zusammenfassung
Während die empirische Bildungsforschung literale Kompetenzen wie Lesen und Orthographie an weiterführenden Schulen recht umfassend in den Blick nimmt, gibt es vergleichsweise wenige Studien, die Texttiefenmerkmale untersuchen. Unser Beitrag analysiert instruktionale und argumentative Texte einer Stichprobe von Lernenden (N = 208) in Jahrgang 9 an nichtgymnasialen Schulformen und nimmt dabei differentielle Analysen nach Migrationshintergrund und Familiensprachen vor. Texttiefenmerkmale werden dabei mittels eines analytischen Diagnoseinstruments ausgewertet, das nach Struktur und Kohärenz unterscheidet. Ergänzend wird die Textqualität durch einen holistischen Vergleich der Texte (Comparative Judgement mit der Software Comproved®) bestimmt, zudem wurde die Textlänge erfasst. Hohe Korrelationen zwischen der analytischen Auswertung, dem holistischen Rating und der Textlänge bei insgesamt 415 Texten weisen darauf hin, dass Struktur und Kohärenz wichtige Aspekte der Textqualität sind. Die analytische Auswertung offenbart, dass im Bereich der Struktur fast alle Lernenden und im Bereich der Kohärenz etwa ein Drittel der Lernenden weniger als die Hälfte des theoretischen Maximums erreichen. Leistungsunterschiede zeigen sich nicht nur in den Bereichen Struktur und Kohärenz, sondern auch in der Auswertung der holistischen Textqualität sowie der Textlänge, zuungunsten von Lernenden mit Migrationshintergrund sowie insbesondere von Lernenden, die in der Familie ausschließlich andere Sprachen als Deutsch sprechen. Die Ergebnisse legen damit nahe, dass viele Lernende an nichtgymnasialen Schulformen besserer Unterstützung im Bereich der Texttiefenmerkmale bedürfen. Unser Diagnoseinstrument könnte im Sinne eines Assessment for Learning dabei helfen, auch schwächere Schreibende bei der Gestaltung von Struktur und Kohärenz zu unterstützen.
Abstract
While empirical educational research in secondary schools focuses quite extensively on aspects of literacy such as reading and spelling, relatively few studies investigate deep features of writing. In our paper, we compare instructional and argumentative texts in German from a sample of students (N = 208) in Year 9 at lower track schools and perform differential analyses regarding migration backgrounds and languages spoken at home. We evaluate deep features of writing with an analytical rating scheme that distinguishes between structure and coherence. We also assess text quality via holistic comparisons of texts (Comparative Judgement with the software Comproved®) and measure text length. High correlations between the analytic rating, the holistic rating, and text length for a total of 415 texts indicate that structure and coherence are important aspects of text quality. The results of the analytical rating show that regarding structure, almost all students, and regarding coherence, about one-third of the students obtain less than half of the theoretical maximum. Achievement disparities did not only show regarding structure and coherence, but also in the holistic rating and regarding text length among students with migration backgrounds and, in particular, among students exclusively speaking languages other than German at home. The results thus reveal that many students at lower track schools need better support regarding deep level features of writing. Our diagnostic tool could be used as an Assessment for Learning to support weaker writers in developing structure and coherence of their texts.
Avoid common mistakes on your manuscript.
1 Einleitung
Obschon das Interesse der empirischen Bildungsforschung im Bereich literaler Kompetenzen eher die Lesefähigkeit fokussiert (für eine Kritik, siehe Klinger et al. 2019), wird in den letzten Jahren zunehmend auch das Schreiben in unterschiedlichen Sprachen in den Blick genommen (z. B. Klinger et al. 2019; Köller et al. 2019; Marx und Steinhoff 2021; Vögelin et al. 2020). Dabei steht in größeren erziehungswissenschaftlichen Studien die Erfassung von Textoberflächenmerkmalen (bzw. surface features, Parr und Timperley 2010) – wie beispielsweise der Rechtschreibung und anderer linguistischer Parameter – eher im Vordergrund (z. B. Klinger et al. 2019; Schipolowski und Böhme 2016). Vergleichsweise wenige Untersuchungen fokussieren hingegen Texttiefenmerkmale wie Struktur und Kohärenz (bzw. deep features, Parr und Timperley 2010) und Möglichkeiten ihrer unterrichtlichen Förderung.
Der Fokus der erziehungswissenschaftlichen Forschung auf Textoberflächenmerkmale ist insofern nicht ausreichend, da vorliegende Studien darauf hinweisen, dass viele Jugendliche und insbesondere Lernende mit Migrationshintergrund bzw. mit anderen Familiensprachen als Deutsch (Krelle und Willenberg 2008; Neumann 2014; Neumann und Lehmann 2008) ihre kommunikativen Absichten nicht angemessen schriftlich ausdrücken können und somit Unterstützung im Bereich der Texttiefenmerkmale benötigen. Jedoch zeigen internationale Studien (z. B. Lee 2010; Parr und Timperley 2010) wie auch eigene Befunde (Müller und Busse 2022), dass die Diagnose von Textqualität herausfordernd ist und sich Lehrkräfte bei Rückmeldungen zu Texten eher auf Textoberflächenmerkmale und weniger auf Texttiefenmerkmale beziehen. Da Texte mit vielen Fehlern im Bereich der Oberflächenmerkmale oft schlechter beurteilt werden (Rezaei und Lovorn 2010; vgl. auch Müller und Busse 2022), kann eine Fokussierung auf Oberflächenmerkmale insbesondere schwächere Schreibende sowie ZweitsprachlernendeFootnote 1 (L2) benachteiligen, wenn diese mehr Fehler im Bereich der Oberflächenmerkmale machen (vgl. zu Leistungen im Bereich der Oberflächenmerkmale Thomé und Eichler 2008). Gleichzeitig kann die Fokussierung auf Oberflächenmerkmale aber auch stärkere Lernende benachteiligen, wenn Potenziale von Texten im Bereich der Texttiefenmerkmale durch den einseitigen Fokus teilweise nicht erkannt bzw. im Feedback und in Benotungen nicht anerkennend berücksichtigt werden (Müller und Busse 2022). Daher ist es wichtig, dass Lehrkräfte entsprechende Diagnoseinstrumente zur Verfügung haben, um Texttiefenmerkmale zu analysieren und davon ausgehend – im Sinne eines formativen Assessment for Learning (Black und Wiliam 2009; Wiliam 2011) – lernförderliche Rückmeldungen zu verfassen, damit Lernende sich entsprechend weiterentwickeln können.
Im Rahmen des von der Stiftung Mercator geförderten Projektes WeLiKe Feedback untersuchen wir in der vorliegenden Studie mit einer Stichprobe von Lernenden in Jahrgang 9 die Texttiefenmerkmale Struktur und Kohärenz in instruktionalen und argumentativen Texten anhand eines analytischen Diagnoseinstruments, das sich für ein Assessment for Learning im Unterricht eignet. Unter Struktur verstehen wir die Organisation eines Textes in Einleitung, Hauptteil und Schluss mit entsprechendem Themenbezug, wohingegen sich Kohärenz auf die Verknüpfung von Textbestandteilen bezieht (Crossley und McNamara 2010; Vögelin et al. 2020)Footnote 2. Zur Erfassung der Textqualität ziehen wir noch ein holistisches Auswertungsverfahren sowie die Textlänge hinzu, die als valider Indikator für Textqualität gilt (vgl. 2.3). Dabei vergleichen wir jeweils die Ergebnisse von Lernenden mit und ohne MigrationshintergrundFootnote 3 und beziehen zur trennschärferen Unterscheidung (vgl. auch Petersen 2019) die FamiliensprachenFootnote 4 mit ein, wobei wir in Anlehnung an andere Untersuchungen (z. B. Rüßmann et al. 2016; Rüßmann 2018) drei sprachliche Gruppen unterscheiden: Lernende, die in der Familie nur Deutsch sprechen (FD), Lernende, die neben Deutsch noch mindestens eine andere Sprache in der Familie sprechen (FD + aS) und Lernende, die in der Familie (eine) andere Sprache(n) als Deutsch sprechen (FaS).Footnote 5
2 Theoretischer Hintergrund
2.1 Curriculare Erwartungen in Bezug auf das Schreiben
Die Fähigkeit, Texte entsprechend eines kommunikativen Zwecks zu verfassen, gehört zu den Schlüsselqualifikationen, die Lernende bis zum ersten allgemeinbildenden Schulabschluss erwerben sollen (KMK 2004). Eine Analyse der Bildungsstandards und unterschiedlicher Curricula für das Fach Deutsch in Jahrgang 9 bzw. 10 (Müller et al. 2021) zeigt dabei, dass Lernende strukturierte und kohärente Texte verfassen sollen (z. B. KMK 2004, S. 11 ff.). So wird beispielsweise erwartet, dass Lernende ihren Texten z. B. durch Absätze eine „strukturierte äußere Form“ verleihen (Niedersächsisches Kultusministerium 2014, S. 15) und dass sie „relevantes sprachliches Wissen zur Herstellung von Textkohärenz beim Schreiben eigener Texte einsetzen“ können (Schulministerium NRW 2022, S. 28). Allerdings gibt es kaum Ausführungen, welche weiteren Struktur- und Kohärenzmerkmale Lernende bereits beherrschen sollten und nur vereinzelt wird beispielsweise auf den Gebrauch von spezifischen Konjunktionen verwiesen (z. B. Niedersächsisches Kultusministerium 2014, S. 23).
Im Fokus der Bildungsdokumente steht das Schreiben in unterschiedlichen Genres, wie beispielsweise Argumentationen (Müller et al. 2021; z. B. auch KMK 2004, S. 12; Niedersächsisches Kultusministerium 2014, S. 17; Schulministerium NRW 2022, S. 28). Für dieses Genre wird in den Bildungsdokumenten recht konkret erwartet, dass Lernende Argumente finden, formulieren und gewichten sowie Schlüsse ziehen und begründet Stellung beziehen können sollen (z. B. KMK 2004, S. 12). Allerdings ist das Erstellen von klar strukturierten und logisch überzeugenden argumentativen Texten besonders herausfordernd, da es – im Gegensatz zu anderen Textsorten – die Lernenden vor die Aufgabe stellt, Argumente und unterstützende Beispiele selbst zu entwickeln und aufeinander sowie auf den argumentativen Zweck abzustimmen (Nippold et al. 2005).
Im Vergleich dazu dürfte das Verfassen von instruktionalen Texten etwas weniger herausfordernd sein, zumal dieses Genre den Lernenden – in Form von Rezepten, Bedienungs- oder Gebrauchsanweisungen – oft aus dem Alltag bekannt ist. Überraschend ist jedoch, dass die Bildungsdokumente für instruktionales Schreiben weniger konkrete Erwartungen als für das argumentative Schreiben enthalten; so heißt es beispielsweise, dass Lernende auf Grundlage von grafischen Darstellungen informierend-appellierende Texte verfassen können sollen (z. B. Niedersächsisches Kultusministerium 2014, S. 17). Wird eine solche Informationsgrundlage geliefert, besteht die Schwierigkeit beim Verfassen von Instruktionen also nicht im Generieren von Informationen, sondern liegt darin, dass Lernende die für das Instruktionsziel relevanten Informationen filtern, ordnen und angemessen miteinander verknüpfen müssen (Bachmann 2014).
Insgesamt scheint für das Verfassen von argumentativen und instruktionalen Texten eine strukturierte und kohärente Darstellungsweise besonders relevant zu sein (vgl. auch Becker-Mrotzek et al. 2014). Dabei stellt sich die Frage, inwieweit Lernende der Sekundarstufe I diese curricularen Anforderungen im Bereich der Texttiefenmerkmale auch erfüllen.
2.2 Befunde zum Schreiben von fortgeschrittenen Lernenden in Abhängigkeit von Migrationshintergrund und Familiensprachen
Internationale Studien zeigen, dass das Verfassen von Texten für viele Jugendliche herausfordernd ist (z. B. National Center for Education Statistics 2012), wobei angenommen werden kann, dass Lernende aus Minoritäten bzw. Lernende mit Migrationshintergrund besondere Unterstützungsbedarfe haben (Ministry of Education 2018; National Center for Education Statistics 2012). Häufig können bereits bestehende Leistungsunterschiede während der Sekundarstufe nicht aufgeholt werden (Ministry of Education 2018) bzw. der Anteil schwacher Schreibender nimmt bis zur Klasse 12 sogar im Verhältnis zu (National Center for Education Statistics 2012). Allerdings scheint für Leistungsunterschiede im Schreiben nicht allein der Migrationshintergrund an sich bedeutsam zu sein, sondern ob in der L1 bzw. in der L2 geschrieben wird. So legt eine ältere systematische Übersicht (Silva 1993) nahe, dass L2-Schreibende an Schulen und Universitäten gegenüber L1-Schreibenden häufiger Probleme haben, Texte in Einleitung, Hauptteil und Schluss zu strukturieren, Textteile weniger verknüpfen, Pro- und Contra-Argumente vermischen, weniger angemessene Beispiele und Verknüpfungen verwenden und insgesamt die Texte weniger an die Lesenden anpassen. Zudem zeigt die Übersicht von Hinkel (2011), dass L2-Schreibende Texte weniger durch sinnvolle Absätze gliedern, oft kürzere und weniger elaborierte bzw. weniger kohärente Texte verfassen und häufig Gegenargumente auslassen bzw. eher unpassende Unterstützung für Argumentationsgänge verwenden. Dies könnte darauf zurückzuführen sein, dass beim Schreiben in einer anderen Sprache nicht nur semantische und syntaktische Strukturen weniger zugänglich sind, sondern auch die Anforderungen an das Arbeitsgedächtnis höher sind, als wenn in der L1 geschrieben wird (Abu-Rabia 2003; Manchón et al. 2009).
Im deutschsprachigen Kontext wird in der sprachwissenschaftlichen bzw. sprachdidaktischen Forschung der Begriff Textproduktion bzw. Textkompetenz verwendet, wenn in Untersuchungen Texttiefenmerkmale in den Blick genommen werden (vgl. dazu auch Bachmann und Becker-Mrotzek 2017). Jedoch ist im hiesigen Raum die Datenlage zur Textproduktion bzw. Textkompetenz insgesamt vergleichsweise dünn, da sich Studien zu literalen Kompetenzen häufig auf das Lesen konzentrieren (z. B. PISA) oder allenfalls Textoberflächenmerkmale wie Rechtschreibung erheben (wie z. B. der IQB-Bildungstrend) – möglicherweise auch, weil diese einfacher zu operationalisieren sind. Aus den vorliegenden sprachwissenschaftlich bzw. sprachdidaktisch orientierten Studien ist jedoch schon länger bekannt, dass viele Lernende an Schulen und Universitäten Schwierigkeiten haben, ihre Texte zu strukturieren (z. B. Feilke 1988). Die DESI-Studie von 2003/04 (N = ca. 11.000) offenbarte bei ca. 50 % der Lernenden in Klasse 9 an nichtgymnasialen SchulformenFootnote 6 Schwierigkeiten bei der Textproduktion; die Texte im unteren Leistungsspektrum waren oft unverständlich und erfüllten ihren kommunikativen Zweck nicht (Neumann und Lehmann 2008). Sowohl bei der allgemeinen Textproduktion als auch im Bereich Argumentation (Krelle und Willenberg 2008) zeigten mehrsprachige LernendeFootnote 7 an nichtgymnasialen Schulformen (unter Kontrolle von Bildungsgang, sozialer Herkunft und kognitiven Grundfähigkeiten) signifikant niedrigere Leistungen als Peers mit Familiensprache Deutsch (FD). Die differenzierte Reanalyse der DESI- und IMOSS-Daten legt nahe, dass Lernende mit anderen Familiensprachen (FaS) im Bereich des Schreibens insgesamt niedrigere Ergebnisse erzielen als Lernende mit FD; zudem können Leistungsrückstände, die bereits in Klasse 7 bestehen, bis zur Klasse 9 nicht aufgeholt werden. Für Lernende mit anderen Familiensprachen neben Deutsch (FD + aS) ergaben die Daten hingegen keine signifikanten Unterschiede zu Lernenden mit FD (Neumann 2014).
Auch in neueren Untersuchungen (Becker-Mrotzek et al. 2015) erzielen Lernende, in deren Familien andere Sprachen als Deutsch gesprochen werden, niedrigere Ergebnisse in der Textqualität (berichtende, argumentative und instruierende Texte)Footnote 8 als Lernende aus einsprachig Deutsch sprechenden Familien, sowohl an Real- und Hauptschulen als auch an Gymnasien (N = 277; Klasse 5 & 9)Footnote 9. Zusätzlich zur Textkomposition wurden die Teilfähigkeiten Kohärenzbildung und Perspektivenübernahme in separaten TestaufgabenFootnote 10 erfasst, bei denen sich jedoch keine Unterschiede hinsichtlich der Familiensprachen zeigten (Becker-Mrotzek et al. 2015), weshalb die Teilfähigkeiten der Kohärenzbildung und Perspektivübernahme unabhängig vom Sprachhintergrund sein könnten.
Studien aus der Schweiz legen nahe, dass der Anteil der Lernenden in Klasse 7 (N = 697) mit geringerer TextkompetenzFootnote 11 (beschreibende Texte) an Realschulen im Vergleich zum Untergymnasium besonders hoch ist (83,6 %); ähnlich wie in Deutschland weisen dort Lernende mit mehreren Familiensprachen signifikant häufiger (67,7 %) geringe Werte im Bereich der Textkompetenz auf als Lernende mit FD (55,9 %) (Gebhardt et al. 2020). Zudem bleiben Texte von mehrsprachigen Lernenden (N = 1178; Klasse 3 & 6) im inhaltlichen Bereich (beschreibende Texte) hinter denen der Lernenden mit FD zurück, wobei Leistungsunterschiede in Klasse 8 jedoch nicht mehr zu bestehen scheinen (Dittmann-Domenichini 2014).
Allerdings ist die Studienlage für Leistungen im Bereich der Texttiefenmerkmale von Lernenden in Abhängigkeit von Migrationshintergrund oder Familiensprachen im deutschsprachigen Raum nicht eindeutig (für eine Übersicht, siehe Marx 2017). So konnten im Bereich der Argumentation in den gymnasialen Klassen 11 bis 13 sowie bei Studierenden (n = 72) keine Unterschiede zwischen Lernenden mit mehreren Familiensprachen und Lernenden mit FD nachgewiesen werden (Petersen 2013). Allerdings wurden ausschließlich höhere Bildungsgänge berücksichtigt, obwohl von Schreibleistungsunterschieden in Abhängigkeit des Bildungsganges auszugehen ist (Gebhardt et al. 2020; Neumann und Lehmann 2008). Der Einfluss des Bildungsganges auf Texttiefenmerkmale zuungunsten von Lernenden an Gesamt- und Oberschulen im Vergleich zu Gymnasien zeigt sich auch in einer Studie in Klasse 6 (N = 322); bezogen auf die Familiensprachen (FD, FD + as, FaS) ergaben sich allerdings keine signifikanten Unterschiede im Gesamtsample (beschreibende Texte; Marx und Steinhoff 2017).
Bezüglich der Textlänge zeigen verschiedene Studien, dass Lernende, die in der L1 schreiben, längere Texte verfassen, als Lernende, die in der L2 (Hinkel 2011; Marx und Steinhoff 2017) bzw. Fremdsprache (Gebhardt et al. 2020) schreiben. Auch bildungsgangbezogene Unterschiede werden deutlich, da Lernende an nichtgymnasialen Schulformen besonders kurze beschreibende Texte verfassen (Marx und Steinhoff 2017; Rüßmann et al. 2016; Rüßmann 2018). Speziell an Hauptschulen schreiben Lernende mit FaS kürzere Texte als ihre Peers mit FD; für Lernende mit FaS ergeben sich zudem zwischen Klasse 5 und 9 keine signifikanten Zuwächse in der Textlänge (Instruktionen und Berichte; Mathiebe 2018). Andere Studien, die Stichproben an unterschiedlichen Schulformen untersuchen, zeigen wiederum keine signifikanten Unterschiede in der Textlänge zwischen Lernenden mit unterschiedlichen Familiensprachen (Erzähltexte mit Bildimpuls bei Böhmer 2015; Marx und Steinhoff 2017; Rüßmann et al. 2016).
Insgesamt weisen die Ergebnisse darauf hin, dass vor allem Lernende an nichtgymnasialen Schulformen Unterstützungsbedarf im Bereich des Schreibens haben. Allerdings wird nicht in allen der zuvor berichteten Studien eine transparente Unterscheidung sprachlicher Hintergründe und unterschiedlicher Schulformen vorgenommen, was die Vergleichbarkeit und Interpretation der Ergebnisse erschwert. Hinzukommt, dass in den Studien verschiedene Textsorten untersucht werden, die unterschiedliche Anforderungen bergen (vgl. 2.1), wodurch sich abweichende Ergebnisse teilweise erklären lassen könnten. Auch die Analyse von Schreibprodukten ist ein komplexes und in Studien keinesfalls vereinheitlichtes Unterfangen (z. B. Grabowski 2022; Neumann 2017). Insofern werden weitere Studien benötigt, die Textqualität von Lernenden in Abhängigkeit von Familiensprachen erfassen und dabei unterschiedliche Maße zur Messung von Textqualität heranziehen.
2.3 Unterschiedliche Textauswertungsverfahren im Vergleich
Die zuvor gesichteten Studien nutzen unterschiedliche Herangehensweisen zur Bestimmung von Textqualität. Insgesamt ist die Entwicklung eines objektiven, reliablen, universellen und für den schulischen Kontext geeigneten Beurteilungsansatzes von Texten herausfordernd, da in Abhängigkeit von Fokus und Forschungsinteresse unterschiedliche Komponenten eine Rolle spielen (vgl. den Herausgeberband von van Steendam et al. 2012). Im Folgenden konzentrieren wir uns auf die Gegenüberstellung von analytischen und holistischen Verfahren sowie der Textlänge und skizzieren Stärken und Schwächen (vgl. Grabowski 2022; Neumann 2017).
Der analytische Zugang ermöglicht es, Elemente eines Textes in Form von unterschiedlichen (textsortenspezifischen) Einzelkategorien bzw. Kriterien zu fokussieren, die möglichst eindeutig beschrieben sind, separat betrachtet und positiv oder negativ beurteilt werden können (Weigle 2002; Wilmsmeier et al. 2016). Dabei kann sich, je nach Fokus, sowohl auf Textoberflächen- als auch auf Texttiefenmerkmale bezogen werden (Grabowski 2022). Bei der analytischen Textbeurteilung stehen Transparenz und Nachvollziehbarkeit der Beurteilung im Vordergrund (Lesterhuis et al. 2018), weshalb sich analytische Kriterien auch im schulischen Kontext für ein formatives Assessment for Learning (Black und Wiliam 2009; Wiliam 2011) eignen. Dies bedeutet, dass die Ergebnisse der Textbeurteilung nicht nur genutzt werden, um Informationen über das Lernen einzuholen (Assessment of Learning), sondern um davon ausgehend Feedback und Hilfestellungen für das weitere Lernen bereitzustellen und die Lernenden aktiv in die Verbesserung mit einzubeziehen (Wiliam 2011). Dafür müssen die Auswertungsverfahren möglichst übersichtlich gestaltet und für Lernende verständlich sein.
Eine Limitation von analytischen Ratings für Forschungszwecke liegt darin, dass (selbst bei vorherigem Training der Rater) nicht verhindert werden kann, dass Einzelbeurteilungen bis zu einem bestimmten Punkt subjektiv sind (Trace et al. 2016). Um die Validität analytischer Verfahren zu erhöhen, sollten daher entweder unabhängige Ratings von mehreren trainierten Personen unter Kontrolle der Interrater-Reliabilität durchgeführt werden (Cho 1999), oder die Auswertung der Texte sollte in Teams stattfinden, wobei in Zweifelsfällen durch Diskussion ein Konsens erzielt wird, um subjektive Beurteilungstendenzen der Rater zu mindern (Trace et al. 2016). Um aussagekräftige Ergebnisse über die Schreibleistungen von Lernenden zu erzielen, wird zudem empfohlen, mehrere Schreibaufgaben auszuwerten (Schoonen 2012; van den Bergh et al. 2012), wobei das Analyseschema auf die von Lernenden erwartbaren Kompetenzen abgestimmt sein und bestimmte Aufgabenmerkmale berücksichtigen muss (Grabowski 2022).
Um die Validität von analytischen Auswertungsverfahren zu erhöhen, kann es sich anbieten, auf weitere Beurteilungsverfahren zurückzugreifen, wie beispielsweise ein holistisches Rating. Dabei bestätigen internationale (Crossley und McNamara 2010) wie nationale Studien (Grabowski et al. 2014; Wilmsmeier et al. 2016), dass Ergebnisse holistischer Ratings valide Maße der Textqualität sind. Holistische Ratings unterscheiden entweder anhand von kriterialen Erwartungshorizonten unterschiedliche Leistungsprofile (z. B. in den großen Schulleistungsstudien; Ministry of Education 2018; National Center for Education Statistics 2012; Neumann und Lehmann 2008) – oder können im Sinne eines impressionistischen holistischen Verfahrens durchgeführt werden. Bei impressionistischen holistischen Verfahren wird der gesamte Text durch Rater global eingeschätzt, wobei das Globalurteil in einen Gesamtscore (z. B. im Sinne einer Rankingplatzierung) resultiert (Lesterhuis et al. 2018). Impressionistische holistische Verfahren bringen den Vorteil der Effizienz mit sich (Schipolowski und Böhme 2016), weil keine detaillierten Kriterien auf Vorhandensein überprüft werden müssen und sie daher recht schnell und ohne spezifisches Vorwissen durchgeführt werden können. Allerdings ist mit dem Fehlen klarer Kriterien das Problem verbunden, dass, abhängig vom Rater, verschiedene Dimensionen von Textqualität (z. B. Rechtschreibung, Strukturierung, Erfüllung der Ausgabenstellung, Lesendenorientierung) unterschiedlich stark ins Gewicht fallen können (Lesterhuis et al. 2018; Weigle 2002), wodurch eine einzelne Bewertung wenig reliabel ist. Um eine zufriedenstellende Reliabilität zu erreichen, ist es daher notwendig, pro Text eine größere Anzahl an impressionistischen holistischen Einschätzungen vornehmen zu lassen (Goossens und de Maeyer 2018) und aus den Mehrfachurteilen einen holistischen Gesamtscore für jeden Text zu berechnen (Pollitt 2012). Für den schulischen Kontext ist ein derartiges Vorgehen daher nur mit Einschränkungen einsetzbar; hinzukommt, dass durch die globale Beurteilung von Texten keine detaillierten Aussagen über das Lernen und Möglichkeiten für dessen Verbesserung getroffen werden können.
Zusätzlich hat sich im Kontext der empirischen Schreibforschung die Auswertung der Textlänge (Anzahl der Wörter) bewährt, die relativ einfach erfasst werden kann. Sie kann entweder als Ausgangspunkt für weitere linguistische Analysen (z. B. Type-Token-Ratio) genutzt werden (Levitzky-Aviad und Laufer 2013) oder zusätzlich zu analytischen oder holistischen Verfahren zu Validierungszwecken hinzugezogen werden. Dass die Textlänge ein valider Prädiktor für Textqualität ist, konnte für die Sekundarstufe I (Grabowski 2022), für einsprachige (Grabowski et al. 2014) und mehrsprachige Lernende (Marx und Steinhoff 2017) sowie für die Schul(fremd)sprachen Deutsch, Englisch und Französisch (Gebhardt et al. 2020), bestätigt werden. Allerdings lässt die Textlänge bei alleiniger Betrachtung keine detaillierten Aussagen über Textqualität zu.
Der vorliegende Beitrag untersucht eine Stichprobe von Lernenden im Fach Deutsch und analysiert die Textqualität in Abhängigkeit vom Migrationshintergrund und unterschiedlicher familiensprachlicher Konstellationen (FD, FD + as, FaS). Die Diskussion der unterschiedlichen Textauswertungsverfahren verdeutlicht die Relevanz der Erfassung von Textqualität anhand mehrerer Qualitätsmaße. Daher nutzen wir im Folgenden ein analytisches Auswertungsverfahren, das nach Struktur und Kohärenz differenziert und sich für ein Assessment for Learning im schulischen Kontext anbietet. Zudem ziehen wir zu Validierungszwecken ein holistisches impressionistisches Rating und die Textlänge als Maße von Textqualität hinzu.
3 Forschungsfragen
Im vorliegenden Beitrag gehen wir folgenden Forschungsfragen (FF) nach und stellen folgende Hypothesen (H) auf:
FF1
Inwieweit schreiben die Lernenden der Stichprobe strukturierte und kohärente Instruktionen und Argumentationen auf Deutsch?
Auf der Grundlage der zuvor skizzierten Befunde zu Schwierigkeiten bei der Gestaltung von Texttiefenmerkmalen insbesondere bei Lernenden an nichtgymnasialen Schulformen wird erwartet, dass das im Analyseschema festgelegte theoretische Maximum im Bereich Struktur und Kohärenz nur von einer geringen Anzahl an Lernenden erreicht wird. Konkret erwarten wir auf Grundlage der textsortenspezifischen Herausforderungen, dass Lernende in der Textsorte Argumentation niedrigere Werte erreichen als in der Instruktion (H1).
FF2a
Inwiefern bestehen Unterschiede in Bezug auf Textstruktur und Textkohärenz zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund und sprachlichen Hintergründen?
Ausgehend von zuvor skizzierten Befunden kann angenommen werden, dass Lernende ohne Migrationshintergrund bessere Ergebnisse erzielen als Lernende mit Migrationshintergrund. Zudem vermuten wir, dass Lernende mit FD bessere Ergebnisse erzielen als Lernende mit FaS (H2a). Für Lernende mit FD + aS wird aufgrund der uneindeutigen Befundlage keine Hypothese aufgestellt.
FF2b
Inwiefern zeigen sich Unterschiede zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund bzw. sprachlichen Hintergründen, wenn holistische Textqualität und Textlänge berücksichtigt werden?
Es kann davon ausgegangen werden, dass sich die Leistungsunterschiede zwischen Lernenden mit und ohne Migrationshintergrund sowie in Abhängigkeit von den sprachlichen Hintergründen auch im holistischen Rating sowie in der Textlänge zeigen (H2b).
4 Methode
4.1 Design und Stichprobe
Die Daten stammen aus dem Forschungsprojekt WeLiKe Feedback, in dessen Rahmen Deutsch- und Englischlehrkräfte an weiterführenden Schulformen darin fortgebildet wurden, formatives Feedback zu Texten zu geben (Siekmann et al. 2022a). Im Rahmen einer quasi-experimentellen Interventionsstudie mit Prä-Post-Design wurden die Feedbackmaßnahmen dann von den Lehrkräften über den Zeitraum eines halben Jahres im Unterricht implementiert. Ausgehend von den oben dargestellten Befunden (2.2) wurde das Projekt nur an nichtgymnasialen Schulformen durchgeführt.
In diesem Beitrag beziehen wir uns auf Prätest-Daten von N = 208 Lernenden in Klasse 9 an weiterführenden nichtgymnasialen SchulformenFootnote 12 in Niedersachsen und Nordrhein-Westfalen (MAlter = 14,03, SD = 0,75; 91 weiblich, 112 männlich), die vor Einsatz der Fortbildungsmaßnahmen erhoben wurden. Etwa die Hälfte der Stichprobe hat einen Migrationshintergrund (Lernende mit Migrationshintergrund n = 106; Lernende ohne Migrationshintergrund n = 98), jedoch sprechen 110 Lernende ausschließlich Deutsch (n = 110); rund ein Drittel (n = 67) der Lernenden spricht in der Familie neben Deutsch noch mindestens eine andere Sprache (FD + aS) und ca. 15 % (n = 30) der Lernenden sprechen in der Familie (eine) andere Sprache(n) als Deutsch (FaS) (vgl. Tab. 1).
Die Erhebung fand im Schuljahr 2020 statt und wurde als Pen-and-Paper-Testung im Klassenverband auf Deutsch sowie im Einklang mit einem positiven EthikvotumFootnote 13 durchgeführt.
4.2 Messinstrumente und Operationalisierung
Im Rahmen der Datenerhebung sollten die Lernenden einen instruktionalen und einen argumentativen Text verfassen. Die Aufgabenstellung für den instruktionalen Text basiert auf dem Instrument „Bumerang“ (Reich et al. 2009, S. 231 ff., in der Fassung des MEZ-ProjektsFootnote 14, z. B. Klinger et al. 2019). Dabei sollten die Lernenden einen Artikel mit einer Bauanleitung für ein Lebkuchenhaus verfassen und neun Fotografien mit Arbeitsschritten so beschreiben, dass die Arbeitsschritte ohne Bilder verständlich waren. Die Aufgabenstellung für den argumentativen Text (adaptiert von Köller et al. 2019) lautete: „‚Die Fähigkeit eines Lehrers, ein gutes Verhältnis zu Schülern aufbauen zu können, ist wichtiger als hervorragendes Fachwissen.‘ Stimmst du zu oder nicht? Begründe deine Meinung in einem zusammenhängenden Text.“ und wurde bereits in anderen Studien zur Erhebung des argumentativen Schreibens eingesetzt (Köller et al. 2019; Siekmann et al. 2022b). Über die Aufgabenstellungen hinaus gab es keine weiteren Instruktionen, die die Lernenden beim Verfassen der Texte beachten sollten.
Neben den Schreibaufgaben wurden mittels Fragebogen Informationen zum soziodemographischen Hintergrund der Lernenden sowie zu ihrer Deutschnote durch Selbstangaben erfasst und es wurde ein Subtest zum Muster- und Reihenfortsetzen aus dem Kognitiven Fähigkeitstest (KFT; Heller und Perleth 2000) durchgeführt. Die Erhebungen wurden von geschulten Testleiterinnen in 90 min während der Unterrichtszeit durchgeführt.
4.3 Auswertungsverfahren
Um den Herausforderungen der Textauswertung, die in der Literatur diskutiert werden (vgl. 2.3) gerecht zu werden, vergleichen wir unser analytisches Auswertungsverfahren mit einem impressionistischen holistischen Ansatz und erfassen zusätzlich die Textlänge. Insgesamt wurden die Transkripte (nicht bereinigt, d. h. unter Beibehaltung der originalen Orthographie und Grammatik sowie der optischen Gliederung) von 415 Lernendentexte ausgewertet (ein Text fehlte). Für die analytische Auswertung wurde ein bereits pilotiertes Auswertungsschema (Schubert et al. 2019; Siekmann et al. 2022b in Anlehnung an Parr et al. 2007) eingesetzt, das gemeinsam mit Lehrkräften entwickelt wurde, an curriculare Vorgaben (z. B. KMK 2004) angelehnt, an die Schreibaufgaben entsprechend angepasst und überschaubar gestaltet ist (vgl. Anhang 1), sodass es im schulischen Kontext im Sinne eines Assessment for Learning (Wiliam 2011) genutzt werden kann. Unser Vorgehen wurde mit Kooperationspartnern aus Neuseeland entwickelt, wo das Prinzip des Assessment for Learning bereits durch das e‑asTTle-Tool in den Schulen eingesetzt wird (Parr 2021; Wilson und Parr 2022).
Zwei Raterinnen aus dem Projektteam wurden im Einsatz des Analyseschemas geschult. Alle Lernendentexte wurden von denselben zwei Raterinnen anhand des Auswertungsschemas in Bezug auf Struktur und Kohärenz analysiert. Die Auswertung erfolgte als Teamarbeit in Anlehnung an das unter 2.3 beschriebene Vorgehen (vgl. auch Trace et al. 2016); in Zweifelsfällen fand eine Diskussion statt bis Konsens erreicht wurde.
Für Textstruktur konnten dabei insgesamt acht und für Textkohärenz insgesamt neun Einzelpunkte erreicht werden. Die acht Punkte für Struktur wurden für das Vorhandensein relevanter Textteile (Einleitung, Hauptteil, Schluss) sowie für das sinnvolle Gliedern durch Absätze vergeben; im Bereich Kohärenz wurden die neun Punkte für konsistenten Bezug auf Thema bzw. These in den einzelnen Textteilen, für die Ausführlichkeit der Entwicklung von Anleitung bzw. Argumentation sowie für die Verknüpfung der Textteile („Roter Faden“) vergeben (vgl. Anhang 1, Analyseschema).
Das holistische Rating erfolgte mittels der Methode Comparative Judgement (z. B. Lesterhuis et al. 2018) mit der Software Comproved® (ehemals D‑PAC, vgl. Goossens und de Maeyer 2018). Fünf Raterinnen (Lehramtsstudierende des Fachs Deutsch im Master), die über Unterrichtserfahrung verfügten, beurteilten die Lernendentexte global, indem sie jeden Text jeweils mit einem anderen Text verglichen und auswählten, welcher der beiden Texte besser gelungen war (insgesamt jeweils 350 Vergleiche pro Raterin). Das holistische Rating erzielte eine ReliabilitätFootnote 15 von > 0,80. Nach Abschluss des Ratings wurde von der Software ein Ranking der Texte erstellt (Rang 1–207 bzw. 1–208), anschließend wurde für die inferenzstatistischen Berechnungen das Ranking über eine Variablentransformation mit SPSS in die Ränge 1–10 überführt. Zusätzlich wurde die Textlänge erhoben, wobei unabhängig von korrekter Schreibweise die Anzahl der Wörter gezählt wurde.
4.4 Statistische Analysen
Die statistischen Analysen wurden mit SPSS (Version 28) durchgeführt. Dabei wurden Pearson-Korrelationen zwischen den Schreibmessungen untereinander sowie mit der kognitiven Basisfähigkeit und der Schulnote DeutschFootnote 16 durchgeführt, um das analytische Auswertungsschema zu validieren. Die Korrelationskoeffizienten wurden nach Cohen (1988) interpretiert, wobei unterschieden wird zwischen kleinem (r ≥ 0,10), mittlerem (r ≥ 0,30) und großem Effekt (r ≥ 0,50).
Für die Schreibmessungen wurden Mittelwertvergleiche anhand von T‑Tests und Varianzanalysen durchgeführt. Im Rahmen der T‑Tests wurden Effektstärken der Mittelwertunterschiede berichtet, die nach Cohen (1988) interpretiert wurden. Es wird unterschieden zwischen kleinem (d ≥ 0,20), mittlerem (d ≥ 0,50) und großem (d ≥ 0,80) Effekt. Die Effektstärken der Varianzanalysen wurden als partielles Omega-Quadrat (ω2p) berichtet, da dieses weniger Verzerrungen unterworfen ist als das häufig verwendete partielle Eta-Quadrat (η2p) (Albers und Lakens 2018). Dabei wird unterschieden zwischen kleinem (0,01 ≤ ω2p < 0,06), mittlerem (0,06 ≤ ω2p < 0,14) und großem Effekt (ω2p ≥ 0,14) (Cohen 1988).
5 Ergebnisse
Für die Validierung der Schreibmessungsverfahren wurden die unterschiedlichen Messverfahren (analytisches und holistisches Rating sowie Textlänge) mit der kognitiven Basisfähigkeit und der Note im Fach Deutsch korreliert (vgl. Tab. 2).
Zwischen den drei Schreibmessungsverfahren zeigten sich hohe Korrelationen. Die Korrelationen zwischen den Schreibmessungen in Abhängigkeit der Textsorte unterschieden sich dabei kaum (Vergleich zwischen dem Bereich unterhalb und oberhalb der Diagonale in Tab. 2). Insgesamt kann damit angenommen werden, dass das analytische Rating ein valides Maß zur Erfassung von Textqualität darstellt. Wie erwartet lagen zudem signifikante schwache bis mittlere Korrelationen zwischen Schreibmessungen und kognitiver Basisfähigkeit vor, sowie schwache Korrelationen zwischen Schreibmessungen und Deutschnote.
5.1 FF1: Inwieweit schreiben die Lernenden der Stichprobe strukturierte und kohärente Instruktionen und Argumentationen auf Deutsch?
Insgesamt hatten Lernende große Schwierigkeiten im Bereich der Strukturierung und Kohärenzerstellung ihrer Texte, wobei jedoch in der Struktur durchweg niedrigere Werte erzielt wurden als in der Kohärenz (vgl. Abb. 1a, b).
Struktur
Im Bereich der Struktur (vgl. Anhang 1, Analyseschema Struktur) erreichten insgesamt 96,2 % der Texte weniger als die Hälfte des theoretischen Maximums (vgl. Abb. 1a). Konkret fehlte in 59,75 % der Texte ein Abschnitt, der als Einleitung identifiziert werden konnte. Die wenigsten Probleme schienen im Bereich des Hauptteils vorzuliegen, der lediglich in 2,4 % der Texte nicht identifiziert werden konnte – etwa, wenn ein Text unmittelbar nach der Einleitung endete. In 74 % der Texte fehlte ein Abschnitt, der als Fazit erkennbar war. Strukturierende Absätze zwischen den Textteilen sowie den Abschnitten des Hauptteils fehlten in insgesamt 79,3 % der Texte. Im Bereich Struktur erreichte kein Text Punktzahlen im oberen Bereich (7 oder 8 Punkte).
Struktur in verschiedenen Textorten
Auffällig war, dass in den argumentativen Texten meist die Einleitung fehlte und dass in dieser Textsorte zudem seltener Absätze zwischen Einleitung und Hauptteil, bzw. zwischen den einzelnen Abschnitten des Hauptteils gemacht wurden. Entsprechend erzielten die Lernenden im Bereich Struktur in der Textsorte Argumentation eine etwas niedrigere Punktzahl als in der Instruktion (97,6 % vs. 94,7 % der Lernenden erreichten Punktzahlen unterhalb der Hälfte des theoretischen Maximums); die Unterschiede waren signifikant (t (180) = 2,95, p = 0,004, d = 0,22) mit kleiner Effektstärke.
Kohärenz
Im Bereich Kohärenz (vgl. Anhang 1, Analyseschema Kohärenz) wurden insgesamt etwas höhere Werte erzielt als in der Struktur (vgl. Abb. 1b), textsortenspezifische Bestandteile waren zumindest in Ansätzen vorhanden und die Textteile waren weitestgehend kohärent miteinander verknüpft. Dennoch erreichten insgesamt 32,6 % der Texte weniger als die Hälfte des theoretischen Maximums: In 39,25 % der Texte fehlte beispielsweise ein geforderter textsortenspezifischer Satz in der Einleitung (z. B. das Statement in den argumentativen Texten) und in 76,4 % der Texte bezog sich das Fazit nicht auf das Thema (z. B. wenn in argumentativen Texten die These nicht wieder aufgegriffen wurde). Zwar waren 93,5 % aller Texte mindestens lose miteinander verknüpft (z. B. durch Konjunktionen wie „und“ bzw. „dann“), d. h. das erste Kriterium der Kategorie „Roter Faden“ im Analyseschema Kohärenz wurde erfüllt. Allerdings war die Verknüpfung der einzelnen Schritte bzw. Argumente und Beispiele nur in 48,2 % der Texte „weitgehend schlüssig“ (vgl. Anhang 1, Analyseschema Kohärenz, Kategorie „Roter Faden“, Kriterium 2), da z. T. Konjunktionen inkorrekt eingesetzt wurden oder sich Argumente widersprachen. Nur 6,25 % der Texte verfügten über eine optimale Verknüpfung des Gesamttexts (vgl. Anhang 1, Analyseschema Kohärenz, Kategorie „Roter Faden“, Kriterium 3). Insgesamt erreichten nur 5,75 % der Texte im Bereich Kohärenz Punktzahlen im oberen Bereich (8 oder 9 Punkte).
Kohärenz in verschiedenen Textsorten
In der Textsorte Instruktion fehlte in 60,6 % der Texte im Hauptteil die vollständige Beschreibung der erforderlichen Schritte (vgl. Analyseschema Kohärenz, Kriterien für instruktionale Texte, Kategorie „Entwicklung der Anleitung“) doch die argumentativen Texte waren weitaus lückenhafter, da der Argumentationsgang in 93,7 % der Texte nicht abgeschlossen wurde und oft nur Argumente ohne Beispiele aneinandergereiht wurden (vgl. Analyseschema Kohärenz, Kriterien für argumentative Texte, Kategorie „Entwicklung der Argumentation“). Somit erzielten die Lernenden im Bereich Kohärenz in der Textsorte Argumentation eine niedrigere Punktzahl als in der Instruktion (39,6 % vs. 25,5 % der Lernenden erreichten Punktzahlen unterhalb der Hälfte des theoretischen Maximums), die Unterschiede waren signifikant (t (180) = 5,50, p < 0,001, d = 0,41) mit kleiner Effektstärke.
5.2 FF2a: Inwiefern bestehen Unterschiede in Bezug auf Textstruktur und Textkohärenz zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund und sprachlichen Hintergründen?
Abb. 2 und 3 zeigen, dass Lernende mit Migrationshintergrund in den Bereichen Struktur und Kohärenz niedrigere Werte erzielten als Lernende ohne Migrationshintergrund. Bei der Unterscheidung nach Familiensprachen erreichten Lernende mit FD + aS sowie FaS zudem durchweg niedrigere Werte als Lernende mit FD.
Von den Lernenden erzielte Punktzahl im analytischen Rating in Bezug auf Textstruktur (max. 8 Punkte); Mittelwerte und Standardabweichungen für die Gesamtvariable (Mittel der beiden Texte) sowie für den instruktionalen und argumentativen Text für a Lernende ohne (n = 98) und mit Migrationshintergrund (n = 106) sowie b für Lernende mit FD (n = 110), mit FD + aS (n = 67) und mit FaS (n = 30) im Vergleich
Von den Lernenden erzielte Punktzahl im analytischen Rating in Bezug auf Textkohärenz (max. 9 Punkte); Mittelwerte und Standardabweichungen für die Gesamtvariable (Mittel der beiden Texte) sowie für den instruktionalen und argumentativen Text für a Lernende ohne (n = 98) und mit Migrationshintergrund (n = 106) sowie b für Lernende mit FD (n = 110), mit FD + aS (n = 67) und mit FaS (n = 30) im Vergleich
Im Bereich der Struktur (vgl. Abb. 2a) erzielten Lernende ohne Migrationshintergrund in instruktionalen Texten eine signifikant höhere Punktzahl (kleiner Effekt) als Lernende mit Migrationshintergrund (t (202) = 2,51, p = 0,013, d = 0,35). Auch in argumentativen Texten erzielten Lernende ohne Migrationshintergrund im Bereich Struktur höhere Werte im Vergleich zu Peers mit Migrationshintergrund; dieser Unterschied war jedoch nicht signifikant (p = 0,124). In argumentativen Texten erreichten allerdings alle Lernenden im Bereich Struktur relativ zum theoretischen Maximum sehr niedrige Werte, sodass sich hier mögliche Bodeneffekte zeigten.
Betrachtet man Unterschiede im Bereich Struktur in Abhängigkeit von den Familiensprachen (vgl. Abb. 2b), ergab sich für den instruktionalen Text ein kleiner signifikanter Gesamteffekt zwischen den Gruppen (F (2) = 4,60, p = 0,011, ω2p = 0,034). Post-Hoc-Tests zeigten allerdings, dass die Lernenden mit FD zwar signifikant höhere Werte erzielten als die Peers mit FaS (p = 0,014), der Unterschied zwischen Lernenden mit FD und FD + aS war jedoch nicht signifikant (p = 0,154), ebenso wie der Unterschied zwischen Lernenden mit FD + aS und FaS (p = 0,376). Für den argumentativen Text zeigte sich eine Tendenz zwischen den Gruppen, der Gesamteffekt war aber nicht statistisch signifikant (p = 0,062), möglicherweise auch aufgrund von Bodeneffekten.
Im Bereich Kohärenz (vgl. Abb. 3a) erzielten ebenfalls die Lernenden ohne Migrationshintergrund eine signifikant höhere Punktzahl im instruktionalen (t (202) = 4,68, p < 0,001; d = 0,66) (mittlerer Effekt) und argumentativen Text (t (201) = 2,42, p = 0,017, d = 0,34) (kleiner Effekt) als Lernende mit Migrationshintergrund. Die Unterschiede zwischen Lernenden mit und ohne Migrationshintergrund waren in der instruktionalen Textsorte besonders ausgeprägt.
In Abhängigkeit von den Familiensprachen (vgl. Abb. 3b) zeigte sich im Bereich Kohärenz der instruktionalen Texte sogar ein mittlerer bis großer signifikanter Gesamteffekt (F (2) = 14,81, p < 0,001, ω2p = 0,118). Post-Hoc-Tests zeigten, dass Lernende mit FD nicht nur eine signifikant höhere Punktzahl erzielten als Lernende mit FaS (p < 0,001), sondern auch als Lernende mit FD + aS (p = 0,005). Lernende mit FD + aS erreichten ebenfalls signifikant höhere Werte als Lernende mit FaS (p = 0,027). Im Bereich Kohärenz der argumentativen Texte war der Gesamteffekt in Bezug auf die Familiensprachen jedoch nicht signifikant (p = 0,058), obschon eine Tendenz erkennbar ist (F (2) = 2,89, ω2p = 0,018).
Insgesamt zeigte sich, dass im Bereich Struktur alle Lernenden im argumentativen Text große Unterstützungsbedarfe haben und dass im instruktionalen Text die Leistungsunterschiede besonders ausgeprägt waren, wobei Lernende mit FaS im Vergleich zu den anderen sprachlichen Gruppen die niedrigsten Werte erzielten. Im Bereich Kohärenz wurden zwar von den Lernenden insgesamt etwas höhere Werte erreicht, doch auch hier waren im instruktionalen Text die Leistungsunterschiede zuungunsten der Lernenden mit FD + aS und FaS besonders deutlich.
5.3 FF2b: Inwiefern zeigen sich Unterschiede zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund bzw. sprachlichen Hintergründen, wenn holistische Textqualität und Textlänge berücksichtigt werden?
Zur Beantwortung von H2b wurden Ergebnisse des holistischen Ratings sowie der Textlänge hinzugezogen. Dabei zeigte sich in Einklang mit den Befunden aus dem zuvor beschriebenen analytischen Rating, dass die Lernenden mit Migrationshintergrund und insbesondere Lernende mit FaS besonders häufig niedrige Ränge im holistischen Rating erreichten und zudem die kürzesten Texte verfassten.
Im holistischen Rating zeigte sich (vgl. Abb. 4), dass sich im oberen Rankingbereich häufiger Texte von Lernenden ohne Migrationshintergrund (ca. 60 %) als von Lernenden mit Migrationshintergrund befanden (ca. 40 %). Die Unterschiede waren signifikant für instruktionale (t (200) = 3,75, p = 0,002, d = 0,45) und argumentative Texte (t (201) = 4,01, p < 0,001, d = 0,56), mit kleinem bzw. mittlerem Effekt.
Ca. 23 % der Lernenden mit FaS verfassten Texte im oberen Rankingbereich; ihre Texte erreichten somit eine niedrigere Platzierung als die Texte von Lernenden mit FD + aS, die zu ca. 50 % im oberen Rankingbereich vertreten waren. Am höchsten waren die Texte von Lernenden mit FD platziert, die sich zu knapp 60 % im oberen Rankingbereich befanden. Es zeigten sich signifikante Gesamteffekte im instruktionalen (F (2) = 8,48, p < 0,001, ω2p = 0,068) und argumentativen Text (F (2) = 9,92, p < 0,001, ω2p = 0,080) mit jeweils mittlerem Effekt. Post-Hoc-Tests bestätigten, dass Lernende mit FD im instruktionalen Text signifikant höhere holistische Scores erzielten als Lernende mit FaS (p < 0,001). Im argumentativen Text erzielten Lernende mit FD signifikant höhere holistische Scores als Lernende mit FaS (p < 0,001); zudem erreichten Lernende mit FD + aS signifikant höhere Scores als Lernende mit FaS (p = 0,012).
In Bezug auf die Textlänge (vgl. Tab. 3) bestanden Unterschiede zwischen Lernenden mit und ohne Migrationshintergrund, wobei Lernende mit Migrationshintergrund signifikant kürzere instruktionale (t (202) = 3,16, p = 0,002; d = 0,44) und argumentative (t (202) = 4,43, p < 0,001; d = 0,62) Texte schrieben (kleiner bzw. mittlerer Effekt). Zudem bestanden in Abhängigkeit von den Familiensprachen signifikante Gruppenunterschiede in instruktionalen (F (2) = 5,90; p = 0,003, ω2p = 0,045) und argumentativen Texten (F (2) = 14,23, p < 0,001, ω2p = 0,113), mit kleinem Effekt im instruktionalen und mit mittlerem bis großem Effekt im argumentativen Text. Post-Hoc-Tests zeigten, dass instruktionale (p = 0,003) und argumentative Texte (p < 0,001) von Lernenden mit FD signifikant länger waren als von Lernenden mit FaS. Zudem waren die argumentativen Texte von Lernenden mit FD signifikant länger als die von Lernenden mit FD + aS (p = 0,003). Insgesamt ergab sowohl das holistische Rating und die daraus generierten Scores, als auch die Textlänge, dass Texte von Lernenden mit Migrationshintergrund und insbesondere mit FaS im unteren Rankingbereich lagen und zudem signifikant kürzer waren als Texte von Lernenden ohne Migrationshintergrund bzw. mit FD.
6 Diskussion
Die vorliegende Untersuchung knüpft an empirische Untersuchungen zu Texttiefenmerkmalen in Texten von Lernenden an nichtgymnasialen Schulformen der Sekundarstufe I an und nutzte dabei ein neu entwickeltes analytisches Auswertungsschema zur Erfassung von Struktur und Kohärenz sowie zwei weitere Auswertungsverfahren zur Erfassung der Textqualität. Dabei zeigte sich, dass das analytische Rating hoch mit dem holistischen Textauswertungsverfahren und der Textlänge korreliert. Da sich holistische Auswertungen als valide Verfahren zur Einschätzung von Textqualität erwiesen haben und Textlänge allgemein als Indikator für Textqualität gilt (vgl. 2.3), kann angenommen werden, dass unser analytisches Auswertungsschema (vgl. auch Siekmann et al. 2022b, angelehnt an Parr et al. 2007) ein solides Messverfahren darstellt. Unsere Ergebnisse unterstützen Befunde von Studien, in denen sich Struktur und Kohärenz als zentrale Aspekte von Textqualität herauskristallisierten (Crossley und McNamara 2010; Plakans und Gebril 2017; Vögelin et al. 2020).
In der analytischen Auswertung (FF1) zeigte sich, dass alle Lernenden Schwierigkeiten hatten, ihre Texte angemessen zu strukturieren und weniger als die Hälfte des theoretischen Maximums erreichten. Oft fehlten relevante Textbestandteile (Einleitung und insbesondere Fazit) sowie Absätze zur optischen Gliederung der Gedanken. Keiner der Texte näherte sich im Bereich Struktur dem theoretischen Maximum. Zwar zeigten sich die Schwierigkeiten der Lernenden im Bereich der Textstruktur besonders deutlich, aber auch die Kohärenzerstellung war in vielen Texten ausbaufähig; ein Drittel der Lernenden erreichte weniger als die Hälfte des theoretischen Maximums und weniger als 6 % der Lernenden näherten sich dem theoretischen Maximum.
Dass in unseren Daten die Schwierigkeiten der Lernenden im Bereich Struktur besonders ausgeprägt waren und sich hier sogar Bodeneffekte abzeichneten, könnte darauf zurückzuführen sein, dass das Struktur-Analyseschema das Vorhandensein von Absätzen einbezieht, die Lernendentexte jedoch fast nie Absätze aufwiesen. Insofern könnte das Analyseinstrument diesbezüglich überarbeitet werden. Gleichzeitig ist jedoch das sinnvolle, optische Gliedern von Texten durch die Verwendung textgraphischer Mittel ein relevanter Bestandteil von Textqualität und ist in den curricularen Vorgaben gefordert (z. B. KMK 2004, S. 11 ff.).
Das Verfassen argumentativer Texte fiel den Lernenden erwartungsgemäß insgesamt schwerer als das Verfassen der Instruktionen (H1), möglicherweise da die instruktionale Schreibaufgabe Bildimpulse enthielt, die das Schreiben vorstrukturierten und die Textplanung entlasteten. Das Erstellen von klar strukturierten und logisch überzeugenden argumentativen Texten ist insgesamt besonders herausfordernd (Nippold et al. 2005, vgl. 2.1) und erfordert zudem auch nichtlinguistische Fähigkeiten wie beispielsweise Perspektivübernahme (Becker-Mrotzek et al. 2014). Schwierigkeiten beim argumentativen Schreiben sind gleichzeitig besonders problematisch, da das Argumentieren im Deutschunterricht (Müller et al. 2021) sowie den meisten anderen Schulfächern (z. B. Peltzer et al. 2022 für den Englischunterricht; Heitmann et al. 2014 für Naturwissenschaften) vorausgesetzt wird und darüber hinaus ein wichtiges Mittel ist, um die eigene Stimme für Partizipation und gesellschaftliche Teilhabe zu finden (Peltzer et al. 2022). Insofern ist das argumentative Schreiben eine Schlüsselkompetenz, die stärker gefördert werden muss.
In einem nächsten Schritt wurde untersucht, inwiefern Unterschiede in Bezug auf Textstruktur und Textkohärenz zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund und Familiensprachen in der analytisch (FF2a) sowie holistisch erfassten Textqualität und der Textlänge bestehen (FF2b). Zwar ist der Forschungsstand zu Schreibleistungen von Lernenden mit Migrationshintergrund im deutschsprachigen Raum uneinheitlich, doch bestätigte sich in unserer Stichprobe die Hypothese (H2a), dass Leistungsdisparitäten zuungunsten von Lernenden mit Migrationshintergrund im Bereich der Texttiefenmerkmale bestehen. Diese Leistungsdisparitäten ließen sich auch in unterschiedlichen Auswertungsverfahren (holistisch und Textlänge) nachweisen (H2b). Da die familiäre Sprachsozialisation von Lernenden mit Migrationshintergrund heterogen ist, wurde zusätzlich eine vergleichende Gegenüberstellung von Lernenden mit Familiensprache Deutsch (FD), Lernenden mit Deutsch und mindestens einer anderen Familiensprache (FD + aS) sowie Lernenden mit ausschließlich (einer) anderen Familiensprache(n) als Deutsch (FaS) durchgeführt. Dabei zeigte sich in Einklang mit Befunden zu Lernenden mit unterschiedlichen Familiensprachen aus der DESI-Studie (Krelle und Willenberg 2008; Neumann 2014; Neumann und Lehmann 2008), dass insbesondere Lernende mit FaS Schwierigkeiten bei der Strukturierung und Kohärenzerstellung ihrer Texte hatten. Zudem belegten Lernende mit FaS im holistischen Rating die unteren Ränge und verfassten die kürzesten Texte. Gleichwohl zeigten auch die Lernenden mit FD + aS im Vergleich zu Lernenden mit FD signifikant geringere Leistungen bei der Kohärenzerstellung in instruktionalen Texten. Die Differenzierung familiensprachlicher Gruppen führt somit insgesamt zu trennschärferen Ergebnissen, weshalb diese Unterscheidung auch in zukünftigen Forschungen zu sprachlichen Leistungen die ohnehin umstrittene Unterteilung in Lernende mit und ohne Migrationshintergrund (für Kritik, siehe Marx 2017; Petersen 2019) ergänzen sollte.
Einschränkend muss konstatiert werden, dass die Klumpenstichprobe nicht repräsentativ für Lernende an nichtgymnasialen Schulformen ist und zudem nur Daten aus zwei Bundesländern berücksichtigt wurden. Zudem müsste vor dem Hintergrund entsprechender Studien, die Zusammenhänge zwischen literalen Kompetenzen und dem sozioökonomischen Hintergrund nahelegen (z. B. Gebhardt et al. 2020; Hippmann et al. 2019; National Center for Education Statistics 2012), in Studien mit größeren Stichproben weiter untersucht werden, inwiefern der sozioökonomische Hintergrund der Lernenden die Ergebnisse von unterschiedlichen familiensprachlichen Gruppen konfundiert.
Da sich viele Studien im Bereich literaler Kompetenzen entweder auf Textoberflächenmerkmale wie Rechtschreibung bzw. andere Parameter wie z. B. den Wortschatz konzentrieren (Böhmer 2015; Mathiebe 2018; Usanova und Schnoor 2021), bei der Untersuchung von Texttiefenmerkmalen bereits älteren Datums sind (z. B. Neumann und Lehmann 2008) oder Gymnasien fokussieren (z. B. Petersen 2013), geben unsere Daten wichtige Einblicke. Sie zeigen in Übereinstimmung mit den älteren Befunden der DESI-Studie zur Textproduktion allgemein (Neumann und Lehmann 2008) bzw. zum argumentativen Schreiben (Krelle und Willenberg 2008), dass viele Lernende an nichtgymnasialen Schulformen mehr Unterstützung bei der Gestaltung von Texttiefenmerkmalen benötigen. Die differenziellen Analysen legen zudem nahe, dass entsprechende Fördermaßnahmen insbesondere Lernende mit FaS stärker in den Blick nehmen sollten. Insgesamt geben unsere Daten also nuancierte Einblicke in Herausforderungen von Lernenden im Bereich der Struktur und Kohärenzerstellung in instruktionalen und argumentativen Texten.
Eine weitere Limitation ist, dass das von uns verwendete Analyseschema im Vergleich zu anderen Auswertungsansätzen (z. B. bei Becker-Mrotzek et al. 2015; Wilmsmeier et al. 2016) eine sehr überschaubare Anzahl an Kategorien beinhaltet. Gleichzeitig liegt darin auch eine Stärke: Das mit Lehrkräften entwickelte Analyseschema kann im Unterricht von Lehrkräften und Lernenden recht einfach im Sinne eines Assessment for Learning genutzt zu werden, insbesondere in der Arbeit mit eher schwächeren Schreibenden. Weitere wichtige Texttiefenmerkmale wie beispielsweise Adressatenorientierung (Becker-Mrotzek et al. 2014) könnten noch ergänzt werden. Insofern unterscheidet sich unser Vorgehen von anderen Studien, da es uns ermöglicht, die Ergebnisse unserer Leistungsmessung für schulisches Lernen nutzbar zu machen.
7 Fazit und pädagogische Implikationen
Insgesamt zeigt unsere Studie, dass Struktur und Kohärenz zentrale Aspekte von Textqualität sind, die durch unser analytisches Auswertungsschema valide erfasst werden können. Es zeigte sich zudem, dass viele Lernende unserer Stichprobe in diesen Bereichen die Erwartungen kaum erfüllen, weshalb entsprechende Kompetenzen im schulischen Kontext noch weiter ausgebaut werden müssen. Das Auswertungsschema könnte (auch im Rahmen zukünftiger Studien) im Unterricht eingesetzt werden, um differenziert Stärken und Schwächen im Bereich der Texttiefenmerkmale zu analysieren und somit im Sinne eines Assessments for Learning (Wiliam 2011) zu ermöglichen, dass sich Lehrkräfte und Lernende (z. B. auch im Peer- bzw. Self-Assessment) anhand spezifischer Kriterien einen Überblick über die Qualität von Texten in Bezug auf Struktur und Kohärenz verschaffen. Anhand der Kriterien wird transparent, was an einem Text bereits gut gelungen ist und welche Aspekte die Textqualität beeinträchtigen; darüber hinaus machen die Kriterien bei wiederholtem Einsatz Fortschritte sichtbar. Ausgehend von dieser Bestandsaufnahme kann dann detailliertes Feedback gegeben werden, das die Lernenden aktiv in den Verbesserungsprozess mit einbezieht, was ein Kernelement guter Feedbackpraktiken ist (Busse et al. 2022).
Notes
Während Erstsprache (L1) meist für die Bezugnahme auf die Sprache verwendet wird, die sich ein Kind von Geburt an aneignet, bezieht sich Zweitsprache (L2) meist auf die zeitlich versetzte Aneignung einer weiteren Sprache nach der L1 (Elsner 2020). Diese Unterscheidung ist nicht immer trennscharf; in internationalen Studien wird L2 teilweise auch als Sammelbegriff für verschiedene Formen der Sprachaneignung nach der Erstsprache verwendet und bezeichnet so z. B. auch mehrsprachig aufwachsende Lernende oder Fremdsprachlernende.
Die Fokussierung auf Struktur und Kohärenz beruht auf Forschungsbefunden, die zeigen, dass allgemeine Organisation und Kohärenz Unterschiede in der Beurteilung von Schreibleistungen erklären können, Kohäsion hingegen nicht (z. B. Plakans und Gebril 2017).
Lernende mit Migrationshintergrund sind im Folgenden eingewanderte Lernende oder Lernende, die direkte Nachkommen von eingewanderten Personen sind (d. h. mindestens ein Elternteil ist nicht in Deutschland geboren). Wenngleich die Bezeichnung „mit Migrationshintergrund“ zunehmend auf Kritik stößt und die Fachkommission für Integrationsfähigkeit in ihrem aktuellen Bericht (2021) für die Nutzung der Bezeichnung „Eingewanderte oder ihre direkten Nachkommen“ plädiert, würde bei Bezugnahme auf Lernende diese Bezeichnung die Lesbarkeit erheblich erschweren. Es bleibt festzuhalten, dass ein universell einsetzbarer Begriff, der wissenschaftliche, politische und sprachliche Erwartungen erfüllt – auch aus Sicht der Kommission (S. 10) – nicht gefunden werden kann.
Unter Familiensprache verstehen wir „[…] die Sprache der Familie und damit jene Sprache, in der die erziehenden Personen und Geschwister kommunizieren. Es kann sich dabei auch um mehrere Sprachen handeln“ (Jeuk 2003, S. 14).
Die in anderen Publikationen gängige Definition ex negativo „Familiensprache nicht Deutsch“ wird hier durch die Formulierung „andere Familiensprachen als Deutsch“ ersetzt.
In der DESI-Studie wird die Gruppe der Lernenden, die mit mehreren Sprachen gleichzeitig aufwachsen, als mehrsprachige Lernende bezeichnet.
Textqualität wurde hier anhand von Textlänge, holistischen Kompetenzstufeneinschätzungen und detaillierten Ratingskalen bestimmt (vgl. auch Becker-Mrotzek et al. 2014), wobei im Rating unter anderem auch Kohärenzbildung und Perspektivübernahme in den Texten (i. S. v. Nachvollziehbarkeit des Sachverhalts bzw. Adressatenorientierung) bewertet wurden.
Auch bei Becker-Mrotzek et al. (2015) erzielen Lernende an Gymnasien bessere Ergebnisse in der Textqualität als die Lernenden an den anderen Schulformen.
Es handelt sich dabei meist um Aufgaben im Multiple-Choice-Format, bei denen Lernende in verschiedenen Szenarien eine Zuordnung vornehmen mussten, z. B. Reihenfolge und zusammenfassende Sätze zu Bildergeschichten oder Emotionen und räumliche Perspektive einer bestimmten Person (vgl. Becker-Mrotzek et al. 2015).
Textkompetenz wird in dieser Studie gemessen als Zusammenspiel schriftlicher und mündlicher Textproduktion (Schreiben und monologisches Sprechen) sowie Textrezeption (Lesen).
Realschulen: n = 98; 47,1 %; Hauptschulen: n = 45; 21,6 %; Gesamtschulen: n = 19; 9,1 %; Sekundarschulen: n = 20; 9,6 %; Oberschulen: n = 26; 12,5 %.
Das Ethikvotum wurde von der lokalen Ethikkommission der Universität Koblenz-Landau eingeholt.
MEZ – Mehrsprachigkeitsentwicklung im Zeitverlauf; 2014–2019; Projektkoordination: Prof. Dr. Dr. h.c. mult. Ingrid Gogolin; © MEZ 2014.
Der Reliabiltätskoeffizient wurde durch ICC (Intraklassen-Korrelation) durch die Software Comproved® berechnet (vgl. auch Goossens und de Maeyer 2018).
Um die Interpretation der Ergebnisse zu erleichtern, wurde die Deutschnote umkodiert, sodass hohe Werte bessere Noten indizieren.
Literatur
Abu-Rabia, S. (2003). The influence of working memory on reading and creative writing pocesses in a Second Language. Educational Psychology, 23(2), 209–222. https://doi.org/10.1080/01443410303227.
Albers, C., & Lakens, D. (2018). When power analyses based on pilot data are biased: Inaccurate effect size estimators and follow-up bias. Journal of Experimental Social Psychology, 74, 187–195. https://doi.org/10.1016/j.jesp.2017.09.004.
Bachmann, T. (2014). Schriftliches Instruieren. In H. Feilke & T. Pohl (Hrsg.), Schriftlicher Sprachgebrauch – Texte verfassen (S. 270–286). Baltmannsweiler: Schneider.
Bachmann, T., & Becker-Mrotzek, M. (2017). Schreibkompetenz und Textproduktion modellieren. In M. Becker-Mrotzek, J. Grabowski & T. Steinhoff (Hrsg.), Forschungshandbuch empirische Schreibdidaktik (S. 25–54). Münster: Waxmann.
Becker-Mrotzek, M., Grabowski, J., Jost, J., Knopp, M., & Linnemann, M. (2014). Adressatenorientierung und Kohärenzherstellung im Text. Zum Zusammenhang kognitiver und sprachlicher realisierter Teilkompetenzen von Schreibkompetenz. Didaktik Deutsch, 19(37), 21–43. https://doi.org/10.25656/01:17151.
Becker-Mrotzek, M., Brinkhaus, M., Grabowski, J., Hennecke, V., Jost, J., Knopp, M., Schmitt, M., Weinzierl, C., & Wilmsmeier, S. (2015). Kohärenzherstellung und Perspektivübernahme als Teilkomponenten der Schreibkompetenz. Von der diagnostischen Absicherung zur didaktischen Implementierung. In A. Redder, J. Naumann, R. Tracy & S. Lambert (Hrsg.), Forschungsinitiative Sprachdiagnostik und Sprachförderung: Ergebnisse (S. 177–205). Münster: Waxmann.
van den Bergh, H., de Maeyer, S., van Weijen, D., & Tillema, M. (2012). Generalizability of text quality scores. In Measuring writing: recent insights into theory, methodology and practice (S. 23–32). Leiden: Brill. https://doi.org/10.1163/9789004248489_003.
Black, P., & Wiliam, D. (2009). Developing the theory of formative assessment. Educational Assessment, Evaluation and Accountability, 21(1), 5–31. https://doi.org/10.1007/s11092-008-9068-5.
Böhmer, J. (2015). Biliteralität: eine Studie zu literaten Strukturen in Sprachproben von Jugendlichen im Deutschen und im Russischen. Münster: Waxmann.
Busse, V., Müller, N., & Siekmann, L. M. (2022). Wirksame Schreibförderung durch diversitätssensibles formatives Feedback. In V. Busse, N. Müller & L. M. Siekmann (Hrsg.), Schreiben fachübergreifend fördern. Grundlagen und Anregungen für Schule, Unterricht und Lehrkräftebildung (S. 114–133). Hannover: Klett.
Cho, D. (1999). A study on ESL writing assessment: Intra-rater reliability of ESL compositions. Melbourne Papers in Language Testing, 8(1), 1–24. https://doi.org/10.3316/aeipt.105884.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale: Erlbaum.
Crossley, S., & McNamara, D. S. (2010). Cohesion, coherence, and expert evaluations of writing proficiency. Proceedings of the Annual Meeting of the Cognitive Science Society, 32(32), 984–989.
Dittmann-Domenichini, N. (2014). Hören, Lesen, Schreiben – Eine Analyse schulsprachlicher Kompetenzen im Zeichen relevanter Bildungsübergänge. In B. Ahrenholz & P. Grommes (Hrsg.), Zweitspracherwerb im Jugendalter (S. 151–170). Berlin: De Gruyter. https://doi.org/10.1515/9783110318593.
Elsner, D. (2020). Fremdsprachen. In I. Gogolin, A. Hansen, S. McMonagle & D. Rauch (Hrsg.), Handbuch Mehrsprachigkeit und Bildung (S. 39–45). Wiesbaden: Springer. https://doi.org/10.1007/978-3-658-20285-9_5.
Fachkommission für Integrationsfähigkeit (2021). Gemeinsam die Einwanderungsgesellschaft gestalten: Bericht der Fachkommission der Bundesregierung zu den Rahmenbedingungen der Integrationsfähigkeit. https://www.fachkommission-integrationsfaehigkeit.de/fk-int/dokumente/bericht-der-fachkommission-integrationsfaehigkeit-1880150. Zugegriffen: 20. Sept. 2022.
Feilke, H. (1988). Ordnung und Unordnung in argumentativen Texten. Zur Entwicklung der Fähigkeit. Der Deutschunterricht, 40(3), 65–81.
Gebhardt, A., Brühwiler, C., Manno, G., & Cuenat, M. E. (2020). Profile mehrsprachiger Textkompetenz in den schulisch geförderten Sprachen Deutsch, Englisch und Französisch. In G. Manno, M. E. Cuenat, C. P. Le Racine & C. Brühwiler (Hrsg.), Schulischer Mehrsprachenerwerb am Übergang zwischen Primarstufe und Sekundarstufe I (S. 207–225). Münster: Waxmann.
Goossens, M., & de Maeyer, S. (2018). How to obtain efficient high reliabilities in assessing texts: rubrics vs comparative judgement. In E. Ras & A. E. R. Guerrero (Hrsg.), Technology enhanced assessment (S. 13–25). Cham: Springer. https://doi.org/10.1007/978-3-319-97807-9_2.
Grabowski, J. (2022). Operationalisierungen der Textqualität. In M. Becker-Mrotzek & J. Grabowski (Hrsg.), Schreibkompetenz in der Sekundarstufe. Theorie, Diagnose und Förderung (S. 209–222). Münster: Waxmann.
Grabowski, J., Becker-Mrotzek, M., Knopp, M., Jost, J., & Weinzierl, C. (2014). Comparing and combining different approaches to the assessment of text quality. In D. Knorr, C. Heine & J. Engberg (Hrsg.), Methods in writing process research (S. 147–165). Berlin: Peter Lang.
Heitmann, P., Hecht, M., Schwanewedel, J., & Schipolowski, S. (2014). Students’ argumentative writing skills in science and first-language education: commonalities and differences. International Journal of Science Education, 36(18), 3148–3170. https://doi.org/10.1080/09500693.2014.962644.
Heller, K. A., & Perleth, C. (2000). Kognitiver Fähigkeitstest für 4. bis 12. Klassen, Revision: KFT 4–12+ R. Weinheim: Beltz.
Hinkel, E. (2011). What research on second language writing tells us and what it doesn’t. Handbook of research in second language teaching and learning, 2, 523–538.
Hippmann, K., Jambor-Fahlen, S., & Becker-Mrotzek, M. (2019). Der Einfluss familiärer Hintergrundvariablen auf die Leseleistung von Grundschulkindern im Anfangsunterricht. Zeitschrift für Erziehungswissenschaft, 22(1), 51–73. https://doi.org/10.1007/s11618-018-0861-8.
Jeuk, S. (2003). Erste Schritte in der Zweitsprache Deutsch. Eine empirische Studie zum Zweitspracherwerb türkischer Migrantenkinder in Kindertageseinrichtungen. Freiburg im Breisgau: Fillibach.
Klinger, T., Usanova, I., & Gogolin, I. (2019). Entwicklung rezeptiver und produktiver schriftsprachlicher Fähigkeiten im Deutschen. Zeitschrift für Erziehungswissenschaft, 22(1), 75–103. https://doi.org/10.1007/s11618-018-00862-0.
KMK (2004). Beschlüsse der Kultusministerkonferenz: Bildungsstandards im Fach Deutsch für den Hauptschulabschluss. Beschluss vom 15.10.2004. München: Wolters Kluwer.
Köller, O., Fleckenstein, J., Meyer, J., Paeske, A. L., Krüger, M., Rupp, A. A., & Keller, S. (2019). Schreibkompetenzen im Fach Englisch in der gymnasialen Oberstufe. Zeitschrift für Erziehungswissenschaft, 22(6), 1281–1312. https://doi.org/10.1007/s11618-019-00910-3.
Krelle, M., & Willenberg, H. (2008). Argumentation Deutsch. In E. Klieme (Hrsg.), Unterricht und Kompetenzerwerb in Deutsch und Englisch. Ergebnisse der DESI-Studie (S. 81–88). Weinheim: Beltz. https://doi.org/10.25656/01:3507.
Lee, I. (2010). Writing teacher education and teacher learning: testimonies of four EFL teachers. Journal of Second Language Writing, 19(3), 143–157. https://doi.org/10.1057/9781137316257.
Lesterhuis, M., van Daal, T., van Gasse, R., Coertjens, L., Donche, V., & de Maeyer, S. (2018). When teachers compare argumentative texts: Decisions informed by multiple complex aspects of text quality. L1 Educational Studies in Language and Literature 18. https://doi.org/10.17239/L1ESLL-2018.18.01.02.
Levitzky-Aviad, T., & Laufer, B. (2013). Lexical properties in the writing of foreign language learners over eight years of study: Single words and collocations. In C. Bardel, C. Lindqvist & B. Laufer (Hrsg.), L2 (S. 127–148). Amsterdam: EuroSLA Monographs.
Manchón, R., Murphy, L., & Roca de Larios, J. (2009). The temporal dimension and problem-solving nature of foreign language composing processes. Implications for theory. In R. Manchon (Hrsg.), Writing in foreign language contexts: Learning, teaching, and research (S. 102–129). Clevedon: Multilingual Matters.
Marx, N. (2017). Schreibende mit nichtdeutscher Familiensprache. In M. Becker-Mrotzek, J. Grabowski & T. Steinhoff (Hrsg.), Forschungshandbuch empirische Schreibdidaktik (S. 139–152). Münster: Waxmann.
Marx, N., & Steinhoff, T. (2017). Schreibförderung in der multilingualen Orientierungsstufe: zur Wirksamkeit des wiederholten Einsatzes unterschiedlich profilierter Revisionsarrangements auf die Textproduktion von Schülerinnen und Schülern der 6. Jahrgangsstufe in Oberschulen, Gesamtschulen und Gymnasien in den Erstsprachen Deutsch und Türkisch und in der Zweitsprache Deutsch: Schlussbericht zu dem vom BMBF geförderten Forschungsprojekt: Projektlaufzeit: 10.2013-09.2016: Universität Siegen.
Marx, N., & Steinhoff, T. (2021). Können einzelsprachliche Interventionen sprachenübergreifende Effekte haben? Wie die schulische Majoritätssprache Herkunftssprachen fördern kann. Zeitschrift für Erziehungswissenschaft, 24(4), 819–839. https://doi.org/10.1007/s11618-021-01032-5.
Mathiebe, M. (2018). Wortschatz und Schreibkompetenz: bildungssprachliche Mittel in Schülertexten der Sekundarstufe I. Münster: Waxmann.
Ministry of Education (2018). Achievement and progress in mathematics, reading and writing in primary schooling: Analysis of e‑asTTle assessment data, 2011 to 2016 April 2018. Wellington: New Zealand Government.
Müller, N., & Busse, V. (2022). Individuelle Schreibförderung und sprachliche Diversität: Eine Analyse von Lehrkräftefeedbacks und Anregungen für die Praxis. In D. Rott & C. Fischer (Hrsg.), Individuelle Förderung – Heterogenität und Handlungsperspektiven in der Schule (S. 127–140). Münster: Waxmann.
Müller, N., Lindefjeld, K. A., & Busse, V. (2021). Underlying beliefs about writing and teaching writing in Germany: An analysis of policy documents for German in Year 9 at secondary school. In J. V. Jeffery & J. M. Parr (Hrsg.), International perspectives on writing curricula and development. A cross-case comparison (S. 123–146). London: Routledge.
National Center for Education Statistics (2012). The nation’s report card: writing 2011 (NCES 2012–470). Washington, DC: Institute of Education Sciences, US Department of Education.
Neumann, A. (2014). Jugendliche DaZ-Lerner schreiben schulische Textformen – Reanalysen der Leistungsdaten und Schülerbefragungen aus DESI und IMOSS. In B. Ahrenholz & P. Grommes (Hrsg.), Zweitspracherwerb im Jugendalter (S. 171–192). Berlin: De Gruyter. https://doi.org/10.1515/9783110318593.171.
Neumann, A. (2017). Zugänge zur Bestimmung von Textqualität. In M. Becker-Mrotzek, J. Grabowski & T. Steinhoff (Hrsg.), Forschungshandbuch empirische Schreibdidaktik (S. 203–219). Münster: Waxmann.
Neumann, A., & Lehmann, R. H. (2008). Schreiben Deutsch. In E. Klieme (Hrsg.), Unterricht und Kompetenzerwerb in Deutsch und Englisch. Ergebnisse der DESI-Studie (S. 89–103). Weinheim: Beltz. https://doi.org/10.25656/01:3149.
Niedersächsisches Kultusministerium (2014). Kerncurriculum für die Hauptschule. Schuljahrgänge 5–10. Deutsch. http://www.cuvo.nibis.de. Zugegriffen: 22. Sept. 2022.
Nippold, M. A., Ward-Lonergan, J. M., & Fanning, J. L. (2005). Persuasive writing in children, adolescents, and adults. https://doi.org/10.1044/0161-1461(2005/012).
Parr, J. M. (2021). Writing as portrayed in New Zealand. In J. V. Jeffery & J. M. Parr (Hrsg.), International perspectives on writing curricula and development. A cross-case comparison (S. 18–36). London: Routledge. https://doi.org/10.4324/9781003051404.
Parr, J. M., & Timperley, H. S. (2010). Feedback to writing, assessment for teaching and learning and student progress. Assessing Writing, 15(2), 68–85. https://doi.org/10.1016/j.asw.2010.05.004.
Parr, J. M., Glasswell, K., & Aikman, M. (2007). Supporting teacher learning and informed practice in writing through assessment tools for teaching and learning. Asia-Pacific Journal of Teacher Education, 35(1), 69–87. https://doi.org/10.1080/13598660601111281.
Peltzer, K., Siekmann, L. M., Parr, J. M., & Busse, V. (2022). What beliefs about writing guide EFL curricula? An analysis of relevant policy documents for teaching English at German secondary schools. Zeitschrift für Erziehungswissenschaft. https://doi.org/10.1007/s11618-022-01089-w.
Petersen, I. (2013). Schreibfähigkeit und Mehrsprachigkeit. Berlin: De Gruyter. https://doi.org/10.1515/9783110318333.
Petersen, I. (2019). Messung, Beurteilung und Förderung von Schreibkompetenz in Deutsch als Erst- und Zweitsprache – ein Überblick. In I. Petersen & I. Kaplan (Hrsg.), Schreibkompetenzen messen, beurteilen und fördern (S. 11–26). Münster: Waxmann.
Plakans, L., & Gebril, A. (2017). Exploring the relationship of organization and connection with scores in integrated writing assessment. Assessing Writing, 31, 98–112. https://doi.org/10.1016/j.asw.2016.08.005.
Pollitt, A. (2012). Comparative judgement for assessment. International Journal of Technology and Design Education, 22(2), 157–170. https://doi.org/10.1007/s10798-011-9189-x.
Reich, H. H., Roth, H.-J. & Döll, M. (2009). Fast catch Bumerang. Deutsche Sprachversion. Auswertungsbogen und Auswertungshinweise. In: D. Lengyel, H. H. Reich, H.-J. Roth & M. Döll (Hrsg.), Von der Sprachdiagnose zur Sprachförderung (S. 209–241). Münster: Waxmann.
Rezaei, A. R., & Lovorn, M. (2010). Reliability and validity of rubrics for assessment through writing. Assessing Writing, 15(1), 18–39. https://doi.org/10.1016/j.asw.2010.01.003.
Rüßmann, L. (2018). Schreibförderung durch Sprachförderung: Eine Interventionsstudie zur Wirksamkeit sprachlich profilierter Schreibarrangements in der mehrsprachigen Sekundarstufe I. Münster: Waxmann.
Rüßmann, L., Steinhoff, T., Marx, N., & Wenk, A. K. (2016). Schreibförderung durch Sprachförderung? Zur Wirksamkeit sprachlich profilierter Schreibarrangements in der mehrsprachigen Sekundarstufe I unterschiedlicher Schulformen. Didaktik Deutsch: Halbjahresschrift für die Didaktik der deutschen Sprache und Literatur, 21(40), 41–59. https://doi.org/10.25656/01:16939.
Schipolowski, S., & Böhme, K. (2016). Assessment of writing ability in secondary education: comparison of analytic and holistic scoring systems for use in large-scale assessments. L1 Educational Studies in Language and Literature, 16, 1–22. https://doi.org/10.17239/L1ESLL-2016.16.01.03.
Schoonen, R. (2012). The validity and generalizability of writing scores: The effect of rater, task and language. In E. van Steendam, H. H. Tillema, G. Rijlaarsdam & H. den van Bergh (Hrsg.), Measuring writing: recent insights into theory, methodology and practice (S. 1–22). Leiden: Brill. https://doi.org/10.1163/9789004248489_002.
Schubert, P., Parr, J. M., & Busse, V. (2019). The effect of feedback on EFL learners’ writing self-efficacy: results from an experimental study. EARLI: JURE. Junior researchers thinking tomorrow’s education. Aachen: RWTH Aachen University.
Schulministerium, N. R. W. (2022). Kernlehrplan für die Sekundarstufe I Hauptschule in Nordrhein-Westfalen. Deutsch. https://www.schulentwicklung.nrw.de/lehrplaene. Zugegriffen: 22. Sept. 2022.
Siekmann, L. M., Müller, N., & Busse, V. (2022a). Wie können Lehrkräfte Feedback zur Schreibförderung in größeren Lerngruppen einsetzen? Fortbildungsinhalte aus dem Projekt WeLiKe Feedback. In V. Busse, N. Müller & L. M. Siekmann (Hrsg.), Schreiben fachübergreifend fördern. Grundlagen und Anregungen für Schule, Unterricht und Lehrkräftebildung (S. 268–287). Hannover: Klett.
Siekmann, L. M., Parr, J. M., & Busse, V. (2022b). Structure and coherence as challenges in composition: a study of assessing less proficient EFL writers’ text quality. Assessing Writing, 54, 100672. https://doi.org/10.1016/j.asw.2022.100672.
Silva, T. (1993). Toward an understanding of the distinct nature of L2 writing: the ESL research and its implications. TESOL Quarterly, 27(4), 657–677. https://doi.org/10.2307/3587400.
van Steendam, E., Tillema, H. H., Rijlaarsdam, G., & van den Bergh, H. (Hrsg.). (2012). Measuring writing: recent insights into theory, methodology and practice. Leiden: Brill. https://doi.org/10.17239/jowr-2014.06.01.4.
Thomé, G., & Eichler, W. (2008). Rechtschreiben Deutsch. In E. Klieme (Hrsg.), Unterricht und Kompetenzerwerb in Deutsch und Englisch. Ergebnisse der DESI-Studie (S. 104–111). Weinheim: Beltz. https://doi.org/10.25656/01:3509.
Trace, J., Meier, V., & Janssen, G. (2016). “I can see that”: Developing shared rubric category interpretations through score negotiation. Assessing Writing, 30, 32–43. https://doi.org/10.1016/j.asw.2016.08.001.
Usanova, I., & Schnoor, B. (2021). Exploring multiliteracies in multilingual students: profiles of multilingual writing skills. Bilingual Research Journal. https://doi.org/10.1080/15235882.2021.1890649.
Vögelin, C., Jansen, T., Keller, S. D., Machts, N., Möller, J., & Hui, S. K. F. (2020). Organisational quality of ESL argumentative essays and its influence on pre-service teachers’ judgments. Cogent Education, 7(1), 1760188. https://doi.org/10.1080/2331186X.2020.1760188.
Weigle, S. C. (2002). Assessing writing. Cambridge: University Press. https://doi.org/10.1017/CBO9780511732997.
Wiliam, D. (2011). What is assessment for learning? Studies in Educational Evaluation, 37(1), 3–14. https://doi.org/10.1016/j.stueduc.2011.03.001.
Wilmsmeier, S., Brinkhaus, M., & Hennecke, V. (2016). Ratingverfahren zur Messung von Schreibkompetenz in Schülertexten. Bulletin VALS-ASLA, 103, 101–117.
Wilson, A., & Parr, J. M. (2022). Schreibunterricht in neuseeländischen Sekundarschulen. In V. Busse, N. Müller & L. M. Siekmann (Hrsg.), Schreiben fachübergreifend fördern. Grundlagen und Anregungen für Schule, Unterricht und Lehrkräftebildung (S. 253–267). Hannover: Klett.
Danksagung
Wir danken der Stiftung Mercator für die Förderung sowie den Lernenden und Lehrkräften, die am Projekt „WeLiKe Feedback“ teilgenommen haben. Ebenfalls bedanken wir uns bei der Projektkollegin Lea Siekmann und den (ehemaligen) Hilfskräften Katrin Peltzer, Anna Klasen und Jana Zander für die tatkräftige Unterstützung.
Förderung
Das Projekt „Weiterbildung von Lehrkräften zur Förderung schriftsprachlicher Kompetenzen durch Feedback (WeLiKe Feedback)“ wurde gefördert durch die Stiftung Mercator.
Funding
Open Access funding enabled and organized by Projekt DEAL.
Author information
Authors and Affiliations
Corresponding author
Ethics declarations
Interessenkonflikt
N. Müller und V. Busse geben an, dass kein Interessenkonflikt besteht.
Additional information
Die Daten der vorliegenden Studie stammen aus dem Projekt „Weiterbildung von Lehrkräften zur Förderung von Schreibkompetenz durch Feedback (WeLiKe Feedback)“, das vom Mercator-Institut gefördert wurde (Projektnr.: 1111109).
Supplementary Information
Rights and permissions
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.
About this article
Cite this article
Müller, N., Busse, V. Herausforderungen beim Verfassen von Texten in der Sekundarstufe – Eine differenzielle Untersuchung nach Migrationshintergrund und Familiensprachen. Z Erziehungswiss 26, 921–947 (2023). https://doi.org/10.1007/s11618-023-01158-8
Received:
Revised:
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1007/s11618-023-01158-8