1 Einleitung

Obschon das Interesse der empirischen Bildungsforschung im Bereich literaler Kompetenzen eher die Lesefähigkeit fokussiert (für eine Kritik, siehe Klinger et al. 2019), wird in den letzten Jahren zunehmend auch das Schreiben in unterschiedlichen Sprachen in den Blick genommen (z. B. Klinger et al. 2019; Köller et al. 2019; Marx und Steinhoff 2021; Vögelin et al. 2020). Dabei steht in größeren erziehungswissenschaftlichen Studien die Erfassung von Textoberflächenmerkmalen (bzw. surface features, Parr und Timperley 2010) – wie beispielsweise der Rechtschreibung und anderer linguistischer Parameter – eher im Vordergrund (z. B. Klinger et al. 2019; Schipolowski und Böhme 2016). Vergleichsweise wenige Untersuchungen fokussieren hingegen Texttiefenmerkmale wie Struktur und Kohärenz (bzw. deep features, Parr und Timperley 2010) und Möglichkeiten ihrer unterrichtlichen Förderung.

Der Fokus der erziehungswissenschaftlichen Forschung auf Textoberflächenmerkmale ist insofern nicht ausreichend, da vorliegende Studien darauf hinweisen, dass viele Jugendliche und insbesondere Lernende mit Migrationshintergrund bzw. mit anderen Familiensprachen als Deutsch (Krelle und Willenberg 2008; Neumann 2014; Neumann und Lehmann 2008) ihre kommunikativen Absichten nicht angemessen schriftlich ausdrücken können und somit Unterstützung im Bereich der Texttiefenmerkmale benötigen. Jedoch zeigen internationale Studien (z. B. Lee 2010; Parr und Timperley 2010) wie auch eigene Befunde (Müller und Busse 2022), dass die Diagnose von Textqualität herausfordernd ist und sich Lehrkräfte bei Rückmeldungen zu Texten eher auf Textoberflächenmerkmale und weniger auf Texttiefenmerkmale beziehen. Da Texte mit vielen Fehlern im Bereich der Oberflächenmerkmale oft schlechter beurteilt werden (Rezaei und Lovorn 2010; vgl. auch Müller und Busse 2022), kann eine Fokussierung auf Oberflächenmerkmale insbesondere schwächere Schreibende sowie ZweitsprachlernendeFootnote 1 (L2) benachteiligen, wenn diese mehr Fehler im Bereich der Oberflächenmerkmale machen (vgl. zu Leistungen im Bereich der Oberflächenmerkmale Thomé und Eichler 2008). Gleichzeitig kann die Fokussierung auf Oberflächenmerkmale aber auch stärkere Lernende benachteiligen, wenn Potenziale von Texten im Bereich der Texttiefenmerkmale durch den einseitigen Fokus teilweise nicht erkannt bzw. im Feedback und in Benotungen nicht anerkennend berücksichtigt werden (Müller und Busse 2022). Daher ist es wichtig, dass Lehrkräfte entsprechende Diagnoseinstrumente zur Verfügung haben, um Texttiefenmerkmale zu analysieren und davon ausgehend – im Sinne eines formativen Assessment for Learning (Black und Wiliam 2009; Wiliam 2011) – lernförderliche Rückmeldungen zu verfassen, damit Lernende sich entsprechend weiterentwickeln können.

Im Rahmen des von der Stiftung Mercator geförderten Projektes WeLiKe Feedback untersuchen wir in der vorliegenden Studie mit einer Stichprobe von Lernenden in Jahrgang 9 die Texttiefenmerkmale Struktur und Kohärenz in instruktionalen und argumentativen Texten anhand eines analytischen Diagnoseinstruments, das sich für ein Assessment for Learning im Unterricht eignet. Unter Struktur verstehen wir die Organisation eines Textes in Einleitung, Hauptteil und Schluss mit entsprechendem Themenbezug, wohingegen sich Kohärenz auf die Verknüpfung von Textbestandteilen bezieht (Crossley und McNamara 2010; Vögelin et al. 2020)Footnote 2. Zur Erfassung der Textqualität ziehen wir noch ein holistisches Auswertungsverfahren sowie die Textlänge hinzu, die als valider Indikator für Textqualität gilt (vgl. 2.3). Dabei vergleichen wir jeweils die Ergebnisse von Lernenden mit und ohne MigrationshintergrundFootnote 3 und beziehen zur trennschärferen Unterscheidung (vgl. auch Petersen 2019) die FamiliensprachenFootnote 4 mit ein, wobei wir in Anlehnung an andere Untersuchungen (z. B. Rüßmann et al. 2016; Rüßmann 2018) drei sprachliche Gruppen unterscheiden: Lernende, die in der Familie nur Deutsch sprechen (FD), Lernende, die neben Deutsch noch mindestens eine andere Sprache in der Familie sprechen (FD + aS) und Lernende, die in der Familie (eine) andere Sprache(n) als Deutsch sprechen (FaS).Footnote 5

2 Theoretischer Hintergrund

2.1 Curriculare Erwartungen in Bezug auf das Schreiben

Die Fähigkeit, Texte entsprechend eines kommunikativen Zwecks zu verfassen, gehört zu den Schlüsselqualifikationen, die Lernende bis zum ersten allgemeinbildenden Schulabschluss erwerben sollen (KMK 2004). Eine Analyse der Bildungsstandards und unterschiedlicher Curricula für das Fach Deutsch in Jahrgang 9 bzw. 10 (Müller et al. 2021) zeigt dabei, dass Lernende strukturierte und kohärente Texte verfassen sollen (z. B. KMK 2004, S. 11 ff.). So wird beispielsweise erwartet, dass Lernende ihren Texten z. B. durch Absätze eine „strukturierte äußere Form“ verleihen (Niedersächsisches Kultusministerium 2014, S. 15) und dass sie „relevantes sprachliches Wissen zur Herstellung von Textkohärenz beim Schreiben eigener Texte einsetzen“ können (Schulministerium NRW 2022, S. 28). Allerdings gibt es kaum Ausführungen, welche weiteren Struktur- und Kohärenzmerkmale Lernende bereits beherrschen sollten und nur vereinzelt wird beispielsweise auf den Gebrauch von spezifischen Konjunktionen verwiesen (z. B. Niedersächsisches Kultusministerium 2014, S. 23).

Im Fokus der Bildungsdokumente steht das Schreiben in unterschiedlichen Genres, wie beispielsweise Argumentationen (Müller et al. 2021; z. B. auch KMK 2004, S. 12; Niedersächsisches Kultusministerium 2014, S. 17; Schulministerium NRW 2022, S. 28). Für dieses Genre wird in den Bildungsdokumenten recht konkret erwartet, dass Lernende Argumente finden, formulieren und gewichten sowie Schlüsse ziehen und begründet Stellung beziehen können sollen (z. B. KMK 2004, S. 12). Allerdings ist das Erstellen von klar strukturierten und logisch überzeugenden argumentativen Texten besonders herausfordernd, da es – im Gegensatz zu anderen Textsorten – die Lernenden vor die Aufgabe stellt, Argumente und unterstützende Beispiele selbst zu entwickeln und aufeinander sowie auf den argumentativen Zweck abzustimmen (Nippold et al. 2005).

Im Vergleich dazu dürfte das Verfassen von instruktionalen Texten etwas weniger herausfordernd sein, zumal dieses Genre den Lernenden – in Form von Rezepten, Bedienungs- oder Gebrauchsanweisungen – oft aus dem Alltag bekannt ist. Überraschend ist jedoch, dass die Bildungsdokumente für instruktionales Schreiben weniger konkrete Erwartungen als für das argumentative Schreiben enthalten; so heißt es beispielsweise, dass Lernende auf Grundlage von grafischen Darstellungen informierend-appellierende Texte verfassen können sollen (z. B. Niedersächsisches Kultusministerium 2014, S. 17). Wird eine solche Informationsgrundlage geliefert, besteht die Schwierigkeit beim Verfassen von Instruktionen also nicht im Generieren von Informationen, sondern liegt darin, dass Lernende die für das Instruktionsziel relevanten Informationen filtern, ordnen und angemessen miteinander verknüpfen müssen (Bachmann 2014).

Insgesamt scheint für das Verfassen von argumentativen und instruktionalen Texten eine strukturierte und kohärente Darstellungsweise besonders relevant zu sein (vgl. auch Becker-Mrotzek et al. 2014). Dabei stellt sich die Frage, inwieweit Lernende der Sekundarstufe I diese curricularen Anforderungen im Bereich der Texttiefenmerkmale auch erfüllen.

2.2 Befunde zum Schreiben von fortgeschrittenen Lernenden in Abhängigkeit von Migrationshintergrund und Familiensprachen

Internationale Studien zeigen, dass das Verfassen von Texten für viele Jugendliche herausfordernd ist (z. B. National Center for Education Statistics 2012), wobei angenommen werden kann, dass Lernende aus Minoritäten bzw. Lernende mit Migrationshintergrund besondere Unterstützungsbedarfe haben (Ministry of Education 2018; National Center for Education Statistics 2012). Häufig können bereits bestehende Leistungsunterschiede während der Sekundarstufe nicht aufgeholt werden (Ministry of Education 2018) bzw. der Anteil schwacher Schreibender nimmt bis zur Klasse 12 sogar im Verhältnis zu (National Center for Education Statistics 2012). Allerdings scheint für Leistungsunterschiede im Schreiben nicht allein der Migrationshintergrund an sich bedeutsam zu sein, sondern ob in der L1 bzw. in der L2 geschrieben wird. So legt eine ältere systematische Übersicht (Silva 1993) nahe, dass L2-Schreibende an Schulen und Universitäten gegenüber L1-Schreibenden häufiger Probleme haben, Texte in Einleitung, Hauptteil und Schluss zu strukturieren, Textteile weniger verknüpfen, Pro- und Contra-Argumente vermischen, weniger angemessene Beispiele und Verknüpfungen verwenden und insgesamt die Texte weniger an die Lesenden anpassen. Zudem zeigt die Übersicht von Hinkel (2011), dass L2-Schreibende Texte weniger durch sinnvolle Absätze gliedern, oft kürzere und weniger elaborierte bzw. weniger kohärente Texte verfassen und häufig Gegenargumente auslassen bzw. eher unpassende Unterstützung für Argumentationsgänge verwenden. Dies könnte darauf zurückzuführen sein, dass beim Schreiben in einer anderen Sprache nicht nur semantische und syntaktische Strukturen weniger zugänglich sind, sondern auch die Anforderungen an das Arbeitsgedächtnis höher sind, als wenn in der L1 geschrieben wird (Abu-Rabia 2003; Manchón et al. 2009).

Im deutschsprachigen Kontext wird in der sprachwissenschaftlichen bzw. sprachdidaktischen Forschung der Begriff Textproduktion bzw. Textkompetenz verwendet, wenn in Untersuchungen Texttiefenmerkmale in den Blick genommen werden (vgl. dazu auch Bachmann und Becker-Mrotzek 2017). Jedoch ist im hiesigen Raum die Datenlage zur Textproduktion bzw. Textkompetenz insgesamt vergleichsweise dünn, da sich Studien zu literalen Kompetenzen häufig auf das Lesen konzentrieren (z. B. PISA) oder allenfalls Textoberflächenmerkmale wie Rechtschreibung erheben (wie z. B. der IQB-Bildungstrend) – möglicherweise auch, weil diese einfacher zu operationalisieren sind. Aus den vorliegenden sprachwissenschaftlich bzw. sprachdidaktisch orientierten Studien ist jedoch schon länger bekannt, dass viele Lernende an Schulen und Universitäten Schwierigkeiten haben, ihre Texte zu strukturieren (z. B. Feilke 1988). Die DESI-Studie von 2003/04 (N = ca. 11.000) offenbarte bei ca. 50 % der Lernenden in Klasse 9 an nichtgymnasialen SchulformenFootnote 6 Schwierigkeiten bei der Textproduktion; die Texte im unteren Leistungsspektrum waren oft unverständlich und erfüllten ihren kommunikativen Zweck nicht (Neumann und Lehmann 2008). Sowohl bei der allgemeinen Textproduktion als auch im Bereich Argumentation (Krelle und Willenberg 2008) zeigten mehrsprachige LernendeFootnote 7 an nichtgymnasialen Schulformen (unter Kontrolle von Bildungsgang, sozialer Herkunft und kognitiven Grundfähigkeiten) signifikant niedrigere Leistungen als Peers mit Familiensprache Deutsch (FD). Die differenzierte Reanalyse der DESI- und IMOSS-Daten legt nahe, dass Lernende mit anderen Familiensprachen (FaS) im Bereich des Schreibens insgesamt niedrigere Ergebnisse erzielen als Lernende mit FD; zudem können Leistungsrückstände, die bereits in Klasse 7 bestehen, bis zur Klasse 9 nicht aufgeholt werden. Für Lernende mit anderen Familiensprachen neben Deutsch (FD + aS) ergaben die Daten hingegen keine signifikanten Unterschiede zu Lernenden mit FD (Neumann 2014).

Auch in neueren Untersuchungen (Becker-Mrotzek et al. 2015) erzielen Lernende, in deren Familien andere Sprachen als Deutsch gesprochen werden, niedrigere Ergebnisse in der Textqualität (berichtende, argumentative und instruierende Texte)Footnote 8 als Lernende aus einsprachig Deutsch sprechenden Familien, sowohl an Real- und Hauptschulen als auch an Gymnasien (N = 277; Klasse 5 & 9)Footnote 9. Zusätzlich zur Textkomposition wurden die Teilfähigkeiten Kohärenzbildung und Perspektivenübernahme in separaten TestaufgabenFootnote 10 erfasst, bei denen sich jedoch keine Unterschiede hinsichtlich der Familiensprachen zeigten (Becker-Mrotzek et al. 2015), weshalb die Teilfähigkeiten der Kohärenzbildung und Perspektivübernahme unabhängig vom Sprachhintergrund sein könnten.

Studien aus der Schweiz legen nahe, dass der Anteil der Lernenden in Klasse 7 (N = 697) mit geringerer TextkompetenzFootnote 11 (beschreibende Texte) an Realschulen im Vergleich zum Untergymnasium besonders hoch ist (83,6 %); ähnlich wie in Deutschland weisen dort Lernende mit mehreren Familiensprachen signifikant häufiger (67,7 %) geringe Werte im Bereich der Textkompetenz auf als Lernende mit FD (55,9 %) (Gebhardt et al. 2020). Zudem bleiben Texte von mehrsprachigen Lernenden (N = 1178; Klasse 3 & 6) im inhaltlichen Bereich (beschreibende Texte) hinter denen der Lernenden mit FD zurück, wobei Leistungsunterschiede in Klasse 8 jedoch nicht mehr zu bestehen scheinen (Dittmann-Domenichini 2014).

Allerdings ist die Studienlage für Leistungen im Bereich der Texttiefenmerkmale von Lernenden in Abhängigkeit von Migrationshintergrund oder Familiensprachen im deutschsprachigen Raum nicht eindeutig (für eine Übersicht, siehe Marx 2017). So konnten im Bereich der Argumentation in den gymnasialen Klassen 11 bis 13 sowie bei Studierenden (n = 72) keine Unterschiede zwischen Lernenden mit mehreren Familiensprachen und Lernenden mit FD nachgewiesen werden (Petersen 2013). Allerdings wurden ausschließlich höhere Bildungsgänge berücksichtigt, obwohl von Schreibleistungsunterschieden in Abhängigkeit des Bildungsganges auszugehen ist (Gebhardt et al. 2020; Neumann und Lehmann 2008). Der Einfluss des Bildungsganges auf Texttiefenmerkmale zuungunsten von Lernenden an Gesamt- und Oberschulen im Vergleich zu Gymnasien zeigt sich auch in einer Studie in Klasse 6 (N = 322); bezogen auf die Familiensprachen (FD, FD + as, FaS) ergaben sich allerdings keine signifikanten Unterschiede im Gesamtsample (beschreibende Texte; Marx und Steinhoff 2017).

Bezüglich der Textlänge zeigen verschiedene Studien, dass Lernende, die in der L1 schreiben, längere Texte verfassen, als Lernende, die in der L2 (Hinkel 2011; Marx und Steinhoff 2017) bzw. Fremdsprache (Gebhardt et al. 2020) schreiben. Auch bildungsgangbezogene Unterschiede werden deutlich, da Lernende an nichtgymnasialen Schulformen besonders kurze beschreibende Texte verfassen (Marx und Steinhoff 2017; Rüßmann et al. 2016; Rüßmann 2018). Speziell an Hauptschulen schreiben Lernende mit FaS kürzere Texte als ihre Peers mit FD; für Lernende mit FaS ergeben sich zudem zwischen Klasse 5 und 9 keine signifikanten Zuwächse in der Textlänge (Instruktionen und Berichte; Mathiebe 2018). Andere Studien, die Stichproben an unterschiedlichen Schulformen untersuchen, zeigen wiederum keine signifikanten Unterschiede in der Textlänge zwischen Lernenden mit unterschiedlichen Familiensprachen (Erzähltexte mit Bildimpuls bei Böhmer 2015; Marx und Steinhoff 2017; Rüßmann et al. 2016).

Insgesamt weisen die Ergebnisse darauf hin, dass vor allem Lernende an nichtgymnasialen Schulformen Unterstützungsbedarf im Bereich des Schreibens haben. Allerdings wird nicht in allen der zuvor berichteten Studien eine transparente Unterscheidung sprachlicher Hintergründe und unterschiedlicher Schulformen vorgenommen, was die Vergleichbarkeit und Interpretation der Ergebnisse erschwert. Hinzukommt, dass in den Studien verschiedene Textsorten untersucht werden, die unterschiedliche Anforderungen bergen (vgl. 2.1), wodurch sich abweichende Ergebnisse teilweise erklären lassen könnten. Auch die Analyse von Schreibprodukten ist ein komplexes und in Studien keinesfalls vereinheitlichtes Unterfangen (z. B. Grabowski 2022; Neumann 2017). Insofern werden weitere Studien benötigt, die Textqualität von Lernenden in Abhängigkeit von Familiensprachen erfassen und dabei unterschiedliche Maße zur Messung von Textqualität heranziehen.

2.3 Unterschiedliche Textauswertungsverfahren im Vergleich

Die zuvor gesichteten Studien nutzen unterschiedliche Herangehensweisen zur Bestimmung von Textqualität. Insgesamt ist die Entwicklung eines objektiven, reliablen, universellen und für den schulischen Kontext geeigneten Beurteilungsansatzes von Texten herausfordernd, da in Abhängigkeit von Fokus und Forschungsinteresse unterschiedliche Komponenten eine Rolle spielen (vgl. den Herausgeberband von van Steendam et al. 2012). Im Folgenden konzentrieren wir uns auf die Gegenüberstellung von analytischen und holistischen Verfahren sowie der Textlänge und skizzieren Stärken und Schwächen (vgl. Grabowski 2022; Neumann 2017).

Der analytische Zugang ermöglicht es, Elemente eines Textes in Form von unterschiedlichen (textsortenspezifischen) Einzelkategorien bzw. Kriterien zu fokussieren, die möglichst eindeutig beschrieben sind, separat betrachtet und positiv oder negativ beurteilt werden können (Weigle 2002; Wilmsmeier et al. 2016). Dabei kann sich, je nach Fokus, sowohl auf Textoberflächen- als auch auf Texttiefenmerkmale bezogen werden (Grabowski 2022). Bei der analytischen Textbeurteilung stehen Transparenz und Nachvollziehbarkeit der Beurteilung im Vordergrund (Lesterhuis et al. 2018), weshalb sich analytische Kriterien auch im schulischen Kontext für ein formatives Assessment for Learning (Black und Wiliam 2009; Wiliam 2011) eignen. Dies bedeutet, dass die Ergebnisse der Textbeurteilung nicht nur genutzt werden, um Informationen über das Lernen einzuholen (Assessment of Learning), sondern um davon ausgehend Feedback und Hilfestellungen für das weitere Lernen bereitzustellen und die Lernenden aktiv in die Verbesserung mit einzubeziehen (Wiliam 2011). Dafür müssen die Auswertungsverfahren möglichst übersichtlich gestaltet und für Lernende verständlich sein.

Eine Limitation von analytischen Ratings für Forschungszwecke liegt darin, dass (selbst bei vorherigem Training der Rater) nicht verhindert werden kann, dass Einzelbeurteilungen bis zu einem bestimmten Punkt subjektiv sind (Trace et al. 2016). Um die Validität analytischer Verfahren zu erhöhen, sollten daher entweder unabhängige Ratings von mehreren trainierten Personen unter Kontrolle der Interrater-Reliabilität durchgeführt werden (Cho 1999), oder die Auswertung der Texte sollte in Teams stattfinden, wobei in Zweifelsfällen durch Diskussion ein Konsens erzielt wird, um subjektive Beurteilungstendenzen der Rater zu mindern (Trace et al. 2016). Um aussagekräftige Ergebnisse über die Schreibleistungen von Lernenden zu erzielen, wird zudem empfohlen, mehrere Schreibaufgaben auszuwerten (Schoonen 2012; van den Bergh et al. 2012), wobei das Analyseschema auf die von Lernenden erwartbaren Kompetenzen abgestimmt sein und bestimmte Aufgabenmerkmale berücksichtigen muss (Grabowski 2022).

Um die Validität von analytischen Auswertungsverfahren zu erhöhen, kann es sich anbieten, auf weitere Beurteilungsverfahren zurückzugreifen, wie beispielsweise ein holistisches Rating. Dabei bestätigen internationale (Crossley und McNamara 2010) wie nationale Studien (Grabowski et al. 2014; Wilmsmeier et al. 2016), dass Ergebnisse holistischer Ratings valide Maße der Textqualität sind. Holistische Ratings unterscheiden entweder anhand von kriterialen Erwartungshorizonten unterschiedliche Leistungsprofile (z. B. in den großen Schulleistungsstudien; Ministry of Education 2018; National Center for Education Statistics 2012; Neumann und Lehmann 2008) – oder können im Sinne eines impressionistischen holistischen Verfahrens durchgeführt werden. Bei impressionistischen holistischen Verfahren wird der gesamte Text durch Rater global eingeschätzt, wobei das Globalurteil in einen Gesamtscore (z. B. im Sinne einer Rankingplatzierung) resultiert (Lesterhuis et al. 2018). Impressionistische holistische Verfahren bringen den Vorteil der Effizienz mit sich (Schipolowski und Böhme 2016), weil keine detaillierten Kriterien auf Vorhandensein überprüft werden müssen und sie daher recht schnell und ohne spezifisches Vorwissen durchgeführt werden können. Allerdings ist mit dem Fehlen klarer Kriterien das Problem verbunden, dass, abhängig vom Rater, verschiedene Dimensionen von Textqualität (z. B. Rechtschreibung, Strukturierung, Erfüllung der Ausgabenstellung, Lesendenorientierung) unterschiedlich stark ins Gewicht fallen können (Lesterhuis et al. 2018; Weigle 2002), wodurch eine einzelne Bewertung wenig reliabel ist. Um eine zufriedenstellende Reliabilität zu erreichen, ist es daher notwendig, pro Text eine größere Anzahl an impressionistischen holistischen Einschätzungen vornehmen zu lassen (Goossens und de Maeyer 2018) und aus den Mehrfachurteilen einen holistischen Gesamtscore für jeden Text zu berechnen (Pollitt 2012). Für den schulischen Kontext ist ein derartiges Vorgehen daher nur mit Einschränkungen einsetzbar; hinzukommt, dass durch die globale Beurteilung von Texten keine detaillierten Aussagen über das Lernen und Möglichkeiten für dessen Verbesserung getroffen werden können.

Zusätzlich hat sich im Kontext der empirischen Schreibforschung die Auswertung der Textlänge (Anzahl der Wörter) bewährt, die relativ einfach erfasst werden kann. Sie kann entweder als Ausgangspunkt für weitere linguistische Analysen (z. B. Type-Token-Ratio) genutzt werden (Levitzky-Aviad und Laufer 2013) oder zusätzlich zu analytischen oder holistischen Verfahren zu Validierungszwecken hinzugezogen werden. Dass die Textlänge ein valider Prädiktor für Textqualität ist, konnte für die Sekundarstufe I (Grabowski 2022), für einsprachige (Grabowski et al. 2014) und mehrsprachige Lernende (Marx und Steinhoff 2017) sowie für die Schul(fremd)sprachen Deutsch, Englisch und Französisch (Gebhardt et al. 2020), bestätigt werden. Allerdings lässt die Textlänge bei alleiniger Betrachtung keine detaillierten Aussagen über Textqualität zu.

Der vorliegende Beitrag untersucht eine Stichprobe von Lernenden im Fach Deutsch und analysiert die Textqualität in Abhängigkeit vom Migrationshintergrund und unterschiedlicher familiensprachlicher Konstellationen (FD, FD + as, FaS). Die Diskussion der unterschiedlichen Textauswertungsverfahren verdeutlicht die Relevanz der Erfassung von Textqualität anhand mehrerer Qualitätsmaße. Daher nutzen wir im Folgenden ein analytisches Auswertungsverfahren, das nach Struktur und Kohärenz differenziert und sich für ein Assessment for Learning im schulischen Kontext anbietet. Zudem ziehen wir zu Validierungszwecken ein holistisches impressionistisches Rating und die Textlänge als Maße von Textqualität hinzu.

3 Forschungsfragen

Im vorliegenden Beitrag gehen wir folgenden Forschungsfragen (FF) nach und stellen folgende Hypothesen (H) auf:

FF1

Inwieweit schreiben die Lernenden der Stichprobe strukturierte und kohärente Instruktionen und Argumentationen auf Deutsch?

Auf der Grundlage der zuvor skizzierten Befunde zu Schwierigkeiten bei der Gestaltung von Texttiefenmerkmalen insbesondere bei Lernenden an nichtgymnasialen Schulformen wird erwartet, dass das im Analyseschema festgelegte theoretische Maximum im Bereich Struktur und Kohärenz nur von einer geringen Anzahl an Lernenden erreicht wird. Konkret erwarten wir auf Grundlage der textsortenspezifischen Herausforderungen, dass Lernende in der Textsorte Argumentation niedrigere Werte erreichen als in der Instruktion (H1).

FF2a

Inwiefern bestehen Unterschiede in Bezug auf Textstruktur und Textkohärenz zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund und sprachlichen Hintergründen?

Ausgehend von zuvor skizzierten Befunden kann angenommen werden, dass Lernende ohne Migrationshintergrund bessere Ergebnisse erzielen als Lernende mit Migrationshintergrund. Zudem vermuten wir, dass Lernende mit FD bessere Ergebnisse erzielen als Lernende mit FaS (H2a). Für Lernende mit FD + aS wird aufgrund der uneindeutigen Befundlage keine Hypothese aufgestellt.

FF2b

Inwiefern zeigen sich Unterschiede zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund bzw. sprachlichen Hintergründen, wenn holistische Textqualität und Textlänge berücksichtigt werden?

Es kann davon ausgegangen werden, dass sich die Leistungsunterschiede zwischen Lernenden mit und ohne Migrationshintergrund sowie in Abhängigkeit von den sprachlichen Hintergründen auch im holistischen Rating sowie in der Textlänge zeigen (H2b).

4 Methode

4.1 Design und Stichprobe

Die Daten stammen aus dem Forschungsprojekt WeLiKe Feedback, in dessen Rahmen Deutsch- und Englischlehrkräfte an weiterführenden Schulformen darin fortgebildet wurden, formatives Feedback zu Texten zu geben (Siekmann et al. 2022a). Im Rahmen einer quasi-experimentellen Interventionsstudie mit Prä-Post-Design wurden die Feedbackmaßnahmen dann von den Lehrkräften über den Zeitraum eines halben Jahres im Unterricht implementiert. Ausgehend von den oben dargestellten Befunden (2.2) wurde das Projekt nur an nichtgymnasialen Schulformen durchgeführt.

In diesem Beitrag beziehen wir uns auf Prätest-Daten von N = 208 Lernenden in Klasse 9 an weiterführenden nichtgymnasialen SchulformenFootnote 12 in Niedersachsen und Nordrhein-Westfalen (MAlter = 14,03, SD = 0,75; 91 weiblich, 112 männlich), die vor Einsatz der Fortbildungsmaßnahmen erhoben wurden. Etwa die Hälfte der Stichprobe hat einen Migrationshintergrund (Lernende mit Migrationshintergrund n = 106; Lernende ohne Migrationshintergrund n = 98), jedoch sprechen 110 Lernende ausschließlich Deutsch (n = 110); rund ein Drittel (n = 67) der Lernenden spricht in der Familie neben Deutsch noch mindestens eine andere Sprache (FD + aS) und ca. 15 % (n = 30) der Lernenden sprechen in der Familie (eine) andere Sprache(n) als Deutsch (FaS) (vgl. Tab. 1).

Tab. 1 Zusammensetzung der Stichprobe

Die Erhebung fand im Schuljahr 2020 statt und wurde als Pen-and-Paper-Testung im Klassenverband auf Deutsch sowie im Einklang mit einem positiven EthikvotumFootnote 13 durchgeführt.

4.2 Messinstrumente und Operationalisierung

Im Rahmen der Datenerhebung sollten die Lernenden einen instruktionalen und einen argumentativen Text verfassen. Die Aufgabenstellung für den instruktionalen Text basiert auf dem Instrument „Bumerang“ (Reich et al. 2009, S. 231 ff., in der Fassung des MEZ-ProjektsFootnote 14, z. B. Klinger et al. 2019). Dabei sollten die Lernenden einen Artikel mit einer Bauanleitung für ein Lebkuchenhaus verfassen und neun Fotografien mit Arbeitsschritten so beschreiben, dass die Arbeitsschritte ohne Bilder verständlich waren. Die Aufgabenstellung für den argumentativen Text (adaptiert von Köller et al. 2019) lautete: „‚Die Fähigkeit eines Lehrers, ein gutes Verhältnis zu Schülern aufbauen zu können, ist wichtiger als hervorragendes Fachwissen.‘ Stimmst du zu oder nicht? Begründe deine Meinung in einem zusammenhängenden Text.“ und wurde bereits in anderen Studien zur Erhebung des argumentativen Schreibens eingesetzt (Köller et al. 2019; Siekmann et al. 2022b). Über die Aufgabenstellungen hinaus gab es keine weiteren Instruktionen, die die Lernenden beim Verfassen der Texte beachten sollten.

Neben den Schreibaufgaben wurden mittels Fragebogen Informationen zum soziodemographischen Hintergrund der Lernenden sowie zu ihrer Deutschnote durch Selbstangaben erfasst und es wurde ein Subtest zum Muster- und Reihenfortsetzen aus dem Kognitiven Fähigkeitstest (KFT; Heller und Perleth 2000) durchgeführt. Die Erhebungen wurden von geschulten Testleiterinnen in 90 min während der Unterrichtszeit durchgeführt.

4.3 Auswertungsverfahren

Um den Herausforderungen der Textauswertung, die in der Literatur diskutiert werden (vgl. 2.3) gerecht zu werden, vergleichen wir unser analytisches Auswertungsverfahren mit einem impressionistischen holistischen Ansatz und erfassen zusätzlich die Textlänge. Insgesamt wurden die Transkripte (nicht bereinigt, d. h. unter Beibehaltung der originalen Orthographie und Grammatik sowie der optischen Gliederung) von 415 Lernendentexte ausgewertet (ein Text fehlte). Für die analytische Auswertung wurde ein bereits pilotiertes Auswertungsschema (Schubert et al. 2019; Siekmann et al. 2022b in Anlehnung an Parr et al. 2007) eingesetzt, das gemeinsam mit Lehrkräften entwickelt wurde, an curriculare Vorgaben (z. B. KMK 2004) angelehnt, an die Schreibaufgaben entsprechend angepasst und überschaubar gestaltet ist (vgl. Anhang 1), sodass es im schulischen Kontext im Sinne eines Assessment for Learning (Wiliam 2011) genutzt werden kann. Unser Vorgehen wurde mit Kooperationspartnern aus Neuseeland entwickelt, wo das Prinzip des Assessment for Learning bereits durch das e‑asTTle-Tool in den Schulen eingesetzt wird (Parr 2021; Wilson und Parr 2022).

Zwei Raterinnen aus dem Projektteam wurden im Einsatz des Analyseschemas geschult. Alle Lernendentexte wurden von denselben zwei Raterinnen anhand des Auswertungsschemas in Bezug auf Struktur und Kohärenz analysiert. Die Auswertung erfolgte als Teamarbeit in Anlehnung an das unter 2.3 beschriebene Vorgehen (vgl. auch Trace et al. 2016); in Zweifelsfällen fand eine Diskussion statt bis Konsens erreicht wurde.

Für Textstruktur konnten dabei insgesamt acht und für Textkohärenz insgesamt neun Einzelpunkte erreicht werden. Die acht Punkte für Struktur wurden für das Vorhandensein relevanter Textteile (Einleitung, Hauptteil, Schluss) sowie für das sinnvolle Gliedern durch Absätze vergeben; im Bereich Kohärenz wurden die neun Punkte für konsistenten Bezug auf Thema bzw. These in den einzelnen Textteilen, für die Ausführlichkeit der Entwicklung von Anleitung bzw. Argumentation sowie für die Verknüpfung der Textteile („Roter Faden“) vergeben (vgl. Anhang 1, Analyseschema).

Das holistische Rating erfolgte mittels der Methode Comparative Judgement (z. B. Lesterhuis et al. 2018) mit der Software Comproved® (ehemals D‑PAC, vgl. Goossens und de Maeyer 2018). Fünf Raterinnen (Lehramtsstudierende des Fachs Deutsch im Master), die über Unterrichtserfahrung verfügten, beurteilten die Lernendentexte global, indem sie jeden Text jeweils mit einem anderen Text verglichen und auswählten, welcher der beiden Texte besser gelungen war (insgesamt jeweils 350 Vergleiche pro Raterin). Das holistische Rating erzielte eine ReliabilitätFootnote 15 von > 0,80. Nach Abschluss des Ratings wurde von der Software ein Ranking der Texte erstellt (Rang 1–207 bzw. 1–208), anschließend wurde für die inferenzstatistischen Berechnungen das Ranking über eine Variablentransformation mit SPSS in die Ränge 1–10 überführt. Zusätzlich wurde die Textlänge erhoben, wobei unabhängig von korrekter Schreibweise die Anzahl der Wörter gezählt wurde.

4.4 Statistische Analysen

Die statistischen Analysen wurden mit SPSS (Version 28) durchgeführt. Dabei wurden Pearson-Korrelationen zwischen den Schreibmessungen untereinander sowie mit der kognitiven Basisfähigkeit und der Schulnote DeutschFootnote 16 durchgeführt, um das analytische Auswertungsschema zu validieren. Die Korrelationskoeffizienten wurden nach Cohen (1988) interpretiert, wobei unterschieden wird zwischen kleinem (r ≥ 0,10), mittlerem (r ≥ 0,30) und großem Effekt (r ≥ 0,50).

Für die Schreibmessungen wurden Mittelwertvergleiche anhand von T‑Tests und Varianzanalysen durchgeführt. Im Rahmen der T‑Tests wurden Effektstärken der Mittelwertunterschiede berichtet, die nach Cohen (1988) interpretiert wurden. Es wird unterschieden zwischen kleinem (d ≥ 0,20), mittlerem (d ≥ 0,50) und großem (d ≥ 0,80) Effekt. Die Effektstärken der Varianzanalysen wurden als partielles Omega-Quadrat (ω2p) berichtet, da dieses weniger Verzerrungen unterworfen ist als das häufig verwendete partielle Eta-Quadrat (η2p) (Albers und Lakens 2018). Dabei wird unterschieden zwischen kleinem (0,01 ≤ ω2p < 0,06), mittlerem (0,06 ≤ ω2p < 0,14) und großem Effekt (ω2p ≥ 0,14) (Cohen 1988).

5 Ergebnisse

Für die Validierung der Schreibmessungsverfahren wurden die unterschiedlichen Messverfahren (analytisches und holistisches Rating sowie Textlänge) mit der kognitiven Basisfähigkeit und der Note im Fach Deutsch korreliert (vgl. Tab. 2).

Tab. 2 Korrelationen zwischen den unterschiedlichen Schreibmessungsverfahren sowie der kognitiven Basisfähigkeit und der Deutschnote

Zwischen den drei Schreibmessungsverfahren zeigten sich hohe Korrelationen. Die Korrelationen zwischen den Schreibmessungen in Abhängigkeit der Textsorte unterschieden sich dabei kaum (Vergleich zwischen dem Bereich unterhalb und oberhalb der Diagonale in Tab. 2). Insgesamt kann damit angenommen werden, dass das analytische Rating ein valides Maß zur Erfassung von Textqualität darstellt. Wie erwartet lagen zudem signifikante schwache bis mittlere Korrelationen zwischen Schreibmessungen und kognitiver Basisfähigkeit vor, sowie schwache Korrelationen zwischen Schreibmessungen und Deutschnote.

5.1 FF1: Inwieweit schreiben die Lernenden der Stichprobe strukturierte und kohärente Instruktionen und Argumentationen auf Deutsch?

Insgesamt hatten Lernende große Schwierigkeiten im Bereich der Strukturierung und Kohärenzerstellung ihrer Texte, wobei jedoch in der Struktur durchweg niedrigere Werte erzielt wurden als in der Kohärenz (vgl. Abb. 1a, b).

Abb. 1
figure 1

Von den Lernenden erzielte Punktzahl im analytischen Rating in Bezug auf a Textstruktur (max. 8 Punkte) und b Textkohärenz (max. 9 Punkte); Mittelwerte und Standardabweichungen für den instruktionalen (n = 208) und argumentativen Text (n = 207)

Struktur

Im Bereich der Struktur (vgl. Anhang 1, Analyseschema Struktur) erreichten insgesamt 96,2 % der Texte weniger als die Hälfte des theoretischen Maximums (vgl. Abb. 1a). Konkret fehlte in 59,75 % der Texte ein Abschnitt, der als Einleitung identifiziert werden konnte. Die wenigsten Probleme schienen im Bereich des Hauptteils vorzuliegen, der lediglich in 2,4 % der Texte nicht identifiziert werden konnte – etwa, wenn ein Text unmittelbar nach der Einleitung endete. In 74 % der Texte fehlte ein Abschnitt, der als Fazit erkennbar war. Strukturierende Absätze zwischen den Textteilen sowie den Abschnitten des Hauptteils fehlten in insgesamt 79,3 % der Texte. Im Bereich Struktur erreichte kein Text Punktzahlen im oberen Bereich (7 oder 8 Punkte).

Struktur in verschiedenen Textorten

Auffällig war, dass in den argumentativen Texten meist die Einleitung fehlte und dass in dieser Textsorte zudem seltener Absätze zwischen Einleitung und Hauptteil, bzw. zwischen den einzelnen Abschnitten des Hauptteils gemacht wurden. Entsprechend erzielten die Lernenden im Bereich Struktur in der Textsorte Argumentation eine etwas niedrigere Punktzahl als in der Instruktion (97,6 % vs. 94,7 % der Lernenden erreichten Punktzahlen unterhalb der Hälfte des theoretischen Maximums); die Unterschiede waren signifikant (t (180) = 2,95, p = 0,004, d = 0,22) mit kleiner Effektstärke.

Kohärenz

Im Bereich Kohärenz (vgl. Anhang 1, Analyseschema Kohärenz) wurden insgesamt etwas höhere Werte erzielt als in der Struktur (vgl. Abb. 1b), textsortenspezifische Bestandteile waren zumindest in Ansätzen vorhanden und die Textteile waren weitestgehend kohärent miteinander verknüpft. Dennoch erreichten insgesamt 32,6 % der Texte weniger als die Hälfte des theoretischen Maximums: In 39,25 % der Texte fehlte beispielsweise ein geforderter textsortenspezifischer Satz in der Einleitung (z. B. das Statement in den argumentativen Texten) und in 76,4 % der Texte bezog sich das Fazit nicht auf das Thema (z. B. wenn in argumentativen Texten die These nicht wieder aufgegriffen wurde). Zwar waren 93,5 % aller Texte mindestens lose miteinander verknüpft (z. B. durch Konjunktionen wie „und“ bzw. „dann“), d. h. das erste Kriterium der Kategorie „Roter Faden“ im Analyseschema Kohärenz wurde erfüllt. Allerdings war die Verknüpfung der einzelnen Schritte bzw. Argumente und Beispiele nur in 48,2 % der Texte „weitgehend schlüssig“ (vgl. Anhang 1, Analyseschema Kohärenz, Kategorie „Roter Faden“, Kriterium 2), da z. T. Konjunktionen inkorrekt eingesetzt wurden oder sich Argumente widersprachen. Nur 6,25 % der Texte verfügten über eine optimale Verknüpfung des Gesamttexts (vgl. Anhang 1, Analyseschema Kohärenz, Kategorie „Roter Faden“, Kriterium 3). Insgesamt erreichten nur 5,75 % der Texte im Bereich Kohärenz Punktzahlen im oberen Bereich (8 oder 9 Punkte).

Kohärenz in verschiedenen Textsorten

In der Textsorte Instruktion fehlte in 60,6 % der Texte im Hauptteil die vollständige Beschreibung der erforderlichen Schritte (vgl. Analyseschema Kohärenz, Kriterien für instruktionale Texte, Kategorie „Entwicklung der Anleitung“) doch die argumentativen Texte waren weitaus lückenhafter, da der Argumentationsgang in 93,7 % der Texte nicht abgeschlossen wurde und oft nur Argumente ohne Beispiele aneinandergereiht wurden (vgl. Analyseschema Kohärenz, Kriterien für argumentative Texte, Kategorie „Entwicklung der Argumentation“). Somit erzielten die Lernenden im Bereich Kohärenz in der Textsorte Argumentation eine niedrigere Punktzahl als in der Instruktion (39,6 % vs. 25,5 % der Lernenden erreichten Punktzahlen unterhalb der Hälfte des theoretischen Maximums), die Unterschiede waren signifikant (t (180) = 5,50, p < 0,001, d = 0,41) mit kleiner Effektstärke.

5.2 FF2a: Inwiefern bestehen Unterschiede in Bezug auf Textstruktur und Textkohärenz zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund und sprachlichen Hintergründen?

Abb. 2 und 3 zeigen, dass Lernende mit Migrationshintergrund in den Bereichen Struktur und Kohärenz niedrigere Werte erzielten als Lernende ohne Migrationshintergrund. Bei der Unterscheidung nach Familiensprachen erreichten Lernende mit FD + aS sowie FaS zudem durchweg niedrigere Werte als Lernende mit FD.

Abb. 2
figure 2

Von den Lernenden erzielte Punktzahl im analytischen Rating in Bezug auf Textstruktur (max. 8 Punkte); Mittelwerte und Standardabweichungen für die Gesamtvariable (Mittel der beiden Texte) sowie für den instruktionalen und argumentativen Text für a Lernende ohne (n = 98) und mit Migrationshintergrund (n = 106) sowie b für Lernende mit FD (n = 110), mit FD + aS (n = 67) und mit FaS (n = 30) im Vergleich

Abb. 3
figure 3

Von den Lernenden erzielte Punktzahl im analytischen Rating in Bezug auf Textkohärenz (max. 9 Punkte); Mittelwerte und Standardabweichungen für die Gesamtvariable (Mittel der beiden Texte) sowie für den instruktionalen und argumentativen Text für a Lernende ohne (n = 98) und mit Migrationshintergrund (n = 106) sowie b für Lernende mit FD (n = 110), mit FD + aS (n = 67) und mit FaS (n = 30) im Vergleich

Im Bereich der Struktur (vgl. Abb. 2a) erzielten Lernende ohne Migrationshintergrund in instruktionalen Texten eine signifikant höhere Punktzahl (kleiner Effekt) als Lernende mit Migrationshintergrund (t (202) = 2,51, p = 0,013, d = 0,35). Auch in argumentativen Texten erzielten Lernende ohne Migrationshintergrund im Bereich Struktur höhere Werte im Vergleich zu Peers mit Migrationshintergrund; dieser Unterschied war jedoch nicht signifikant (p = 0,124). In argumentativen Texten erreichten allerdings alle Lernenden im Bereich Struktur relativ zum theoretischen Maximum sehr niedrige Werte, sodass sich hier mögliche Bodeneffekte zeigten.

Betrachtet man Unterschiede im Bereich Struktur in Abhängigkeit von den Familiensprachen (vgl. Abb. 2b), ergab sich für den instruktionalen Text ein kleiner signifikanter Gesamteffekt zwischen den Gruppen (F (2) = 4,60, p = 0,011, ω2p = 0,034). Post-Hoc-Tests zeigten allerdings, dass die Lernenden mit FD zwar signifikant höhere Werte erzielten als die Peers mit FaS (p = 0,014), der Unterschied zwischen Lernenden mit FD und FD + aS war jedoch nicht signifikant (p = 0,154), ebenso wie der Unterschied zwischen Lernenden mit FD + aS und FaS (p = 0,376). Für den argumentativen Text zeigte sich eine Tendenz zwischen den Gruppen, der Gesamteffekt war aber nicht statistisch signifikant (p = 0,062), möglicherweise auch aufgrund von Bodeneffekten.

Im Bereich Kohärenz (vgl. Abb. 3a) erzielten ebenfalls die Lernenden ohne Migrationshintergrund eine signifikant höhere Punktzahl im instruktionalen (t (202) = 4,68, p < 0,001; d = 0,66) (mittlerer Effekt) und argumentativen Text (t (201) = 2,42, p = 0,017, d = 0,34) (kleiner Effekt) als Lernende mit Migrationshintergrund. Die Unterschiede zwischen Lernenden mit und ohne Migrationshintergrund waren in der instruktionalen Textsorte besonders ausgeprägt.

In Abhängigkeit von den Familiensprachen (vgl. Abb. 3b) zeigte sich im Bereich Kohärenz der instruktionalen Texte sogar ein mittlerer bis großer signifikanter Gesamteffekt (F (2) = 14,81, p < 0,001, ω2p = 0,118). Post-Hoc-Tests zeigten, dass Lernende mit FD nicht nur eine signifikant höhere Punktzahl erzielten als Lernende mit FaS (p < 0,001), sondern auch als Lernende mit FD + aS (p = 0,005). Lernende mit FD + aS erreichten ebenfalls signifikant höhere Werte als Lernende mit FaS (p = 0,027). Im Bereich Kohärenz der argumentativen Texte war der Gesamteffekt in Bezug auf die Familiensprachen jedoch nicht signifikant (p = 0,058), obschon eine Tendenz erkennbar ist (F (2) = 2,89, ω2p = 0,018).

Insgesamt zeigte sich, dass im Bereich Struktur alle Lernenden im argumentativen Text große Unterstützungsbedarfe haben und dass im instruktionalen Text die Leistungsunterschiede besonders ausgeprägt waren, wobei Lernende mit FaS im Vergleich zu den anderen sprachlichen Gruppen die niedrigsten Werte erzielten. Im Bereich Kohärenz wurden zwar von den Lernenden insgesamt etwas höhere Werte erreicht, doch auch hier waren im instruktionalen Text die Leistungsunterschiede zuungunsten der Lernenden mit FD + aS und FaS besonders deutlich.

5.3 FF2b: Inwiefern zeigen sich Unterschiede zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund bzw. sprachlichen Hintergründen, wenn holistische Textqualität und Textlänge berücksichtigt werden?

Zur Beantwortung von H2b wurden Ergebnisse des holistischen Ratings sowie der Textlänge hinzugezogen. Dabei zeigte sich in Einklang mit den Befunden aus dem zuvor beschriebenen analytischen Rating, dass die Lernenden mit Migrationshintergrund und insbesondere Lernende mit FaS besonders häufig niedrige Ränge im holistischen Rating erreichten und zudem die kürzesten Texte verfassten.

Im holistischen Rating zeigte sich (vgl. Abb. 4), dass sich im oberen Rankingbereich häufiger Texte von Lernenden ohne Migrationshintergrund (ca. 60 %) als von Lernenden mit Migrationshintergrund befanden (ca. 40 %). Die Unterschiede waren signifikant für instruktionale (t (200) = 3,75, p = 0,002, d = 0,45) und argumentative Texte (t (201) = 4,01, p < 0,001, d = 0,56), mit kleinem bzw. mittlerem Effekt.

Abb. 4
figure 4

Verteilung der Texte beider Textsorten (N = 414) im analytischen Rating auf den oberen und unteren Ratingbereich: Texte von Lernenden ohne (n = 194) und mit Migrationshintergrund (n = 212) sowie von Lernenden mit FD (n = 218), mit FD + aS (n = 134) und mit FaS (n = 60)

Ca. 23 % der Lernenden mit FaS verfassten Texte im oberen Rankingbereich; ihre Texte erreichten somit eine niedrigere Platzierung als die Texte von Lernenden mit FD + aS, die zu ca. 50 % im oberen Rankingbereich vertreten waren. Am höchsten waren die Texte von Lernenden mit FD platziert, die sich zu knapp 60 % im oberen Rankingbereich befanden. Es zeigten sich signifikante Gesamteffekte im instruktionalen (F (2) = 8,48, p < 0,001, ω2p = 0,068) und argumentativen Text (F (2) = 9,92, p < 0,001, ω2p = 0,080) mit jeweils mittlerem Effekt. Post-Hoc-Tests bestätigten, dass Lernende mit FD im instruktionalen Text signifikant höhere holistische Scores erzielten als Lernende mit FaS (p < 0,001). Im argumentativen Text erzielten Lernende mit FD signifikant höhere holistische Scores als Lernende mit FaS (p < 0,001); zudem erreichten Lernende mit FD + aS signifikant höhere Scores als Lernende mit FaS (p = 0,012).

In Bezug auf die Textlänge (vgl. Tab. 3) bestanden Unterschiede zwischen Lernenden mit und ohne Migrationshintergrund, wobei Lernende mit Migrationshintergrund signifikant kürzere instruktionale (t (202) = 3,16, p = 0,002; d = 0,44) und argumentative (t (202) = 4,43, p < 0,001; d = 0,62) Texte schrieben (kleiner bzw. mittlerer Effekt). Zudem bestanden in Abhängigkeit von den Familiensprachen signifikante Gruppenunterschiede in instruktionalen (F (2) = 5,90; p = 0,003, ω2p = 0,045) und argumentativen Texten (F (2) = 14,23, p < 0,001, ω2p = 0,113), mit kleinem Effekt im instruktionalen und mit mittlerem bis großem Effekt im argumentativen Text. Post-Hoc-Tests zeigten, dass instruktionale (p = 0,003) und argumentative Texte (p < 0,001) von Lernenden mit FD signifikant länger waren als von Lernenden mit FaS. Zudem waren die argumentativen Texte von Lernenden mit FD signifikant länger als die von Lernenden mit FD + aS (p = 0,003). Insgesamt ergab sowohl das holistische Rating und die daraus generierten Scores, als auch die Textlänge, dass Texte von Lernenden mit Migrationshintergrund und insbesondere mit FaS im unteren Rankingbereich lagen und zudem signifikant kürzer waren als Texte von Lernenden ohne Migrationshintergrund bzw. mit FD.

Tab. 3 Mittelwerte (M) und Standardabweichungen (SD) der Textlänge von Lernenden mit und ohne Migrationshintergrund sowie entsprechend der Familiensprachen Deutsch (FD), Deutsch und andere Sprachen (FD+aS) sowie andere Sprachen als Deutsch (FaS)

6 Diskussion

Die vorliegende Untersuchung knüpft an empirische Untersuchungen zu Texttiefenmerkmalen in Texten von Lernenden an nichtgymnasialen Schulformen der Sekundarstufe I an und nutzte dabei ein neu entwickeltes analytisches Auswertungsschema zur Erfassung von Struktur und Kohärenz sowie zwei weitere Auswertungsverfahren zur Erfassung der Textqualität. Dabei zeigte sich, dass das analytische Rating hoch mit dem holistischen Textauswertungsverfahren und der Textlänge korreliert. Da sich holistische Auswertungen als valide Verfahren zur Einschätzung von Textqualität erwiesen haben und Textlänge allgemein als Indikator für Textqualität gilt (vgl. 2.3), kann angenommen werden, dass unser analytisches Auswertungsschema (vgl. auch Siekmann et al. 2022b, angelehnt an Parr et al. 2007) ein solides Messverfahren darstellt. Unsere Ergebnisse unterstützen Befunde von Studien, in denen sich Struktur und Kohärenz als zentrale Aspekte von Textqualität herauskristallisierten (Crossley und McNamara 2010; Plakans und Gebril 2017; Vögelin et al. 2020).

In der analytischen Auswertung (FF1) zeigte sich, dass alle Lernenden Schwierigkeiten hatten, ihre Texte angemessen zu strukturieren und weniger als die Hälfte des theoretischen Maximums erreichten. Oft fehlten relevante Textbestandteile (Einleitung und insbesondere Fazit) sowie Absätze zur optischen Gliederung der Gedanken. Keiner der Texte näherte sich im Bereich Struktur dem theoretischen Maximum. Zwar zeigten sich die Schwierigkeiten der Lernenden im Bereich der Textstruktur besonders deutlich, aber auch die Kohärenzerstellung war in vielen Texten ausbaufähig; ein Drittel der Lernenden erreichte weniger als die Hälfte des theoretischen Maximums und weniger als 6 % der Lernenden näherten sich dem theoretischen Maximum.

Dass in unseren Daten die Schwierigkeiten der Lernenden im Bereich Struktur besonders ausgeprägt waren und sich hier sogar Bodeneffekte abzeichneten, könnte darauf zurückzuführen sein, dass das Struktur-Analyseschema das Vorhandensein von Absätzen einbezieht, die Lernendentexte jedoch fast nie Absätze aufwiesen. Insofern könnte das Analyseinstrument diesbezüglich überarbeitet werden. Gleichzeitig ist jedoch das sinnvolle, optische Gliedern von Texten durch die Verwendung textgraphischer Mittel ein relevanter Bestandteil von Textqualität und ist in den curricularen Vorgaben gefordert (z. B. KMK 2004, S. 11 ff.).

Das Verfassen argumentativer Texte fiel den Lernenden erwartungsgemäß insgesamt schwerer als das Verfassen der Instruktionen (H1), möglicherweise da die instruktionale Schreibaufgabe Bildimpulse enthielt, die das Schreiben vorstrukturierten und die Textplanung entlasteten. Das Erstellen von klar strukturierten und logisch überzeugenden argumentativen Texten ist insgesamt besonders herausfordernd (Nippold et al. 2005, vgl. 2.1) und erfordert zudem auch nichtlinguistische Fähigkeiten wie beispielsweise Perspektivübernahme (Becker-Mrotzek et al. 2014). Schwierigkeiten beim argumentativen Schreiben sind gleichzeitig besonders problematisch, da das Argumentieren im Deutschunterricht (Müller et al. 2021) sowie den meisten anderen Schulfächern (z. B. Peltzer et al. 2022 für den Englischunterricht; Heitmann et al. 2014 für Naturwissenschaften) vorausgesetzt wird und darüber hinaus ein wichtiges Mittel ist, um die eigene Stimme für Partizipation und gesellschaftliche Teilhabe zu finden (Peltzer et al. 2022). Insofern ist das argumentative Schreiben eine Schlüsselkompetenz, die stärker gefördert werden muss.

In einem nächsten Schritt wurde untersucht, inwiefern Unterschiede in Bezug auf Textstruktur und Textkohärenz zwischen Lernenden in Abhängigkeit von deren Migrationshintergrund und Familiensprachen in der analytisch (FF2a) sowie holistisch erfassten Textqualität und der Textlänge bestehen (FF2b). Zwar ist der Forschungsstand zu Schreibleistungen von Lernenden mit Migrationshintergrund im deutschsprachigen Raum uneinheitlich, doch bestätigte sich in unserer Stichprobe die Hypothese (H2a), dass Leistungsdisparitäten zuungunsten von Lernenden mit Migrationshintergrund im Bereich der Texttiefenmerkmale bestehen. Diese Leistungsdisparitäten ließen sich auch in unterschiedlichen Auswertungsverfahren (holistisch und Textlänge) nachweisen (H2b). Da die familiäre Sprachsozialisation von Lernenden mit Migrationshintergrund heterogen ist, wurde zusätzlich eine vergleichende Gegenüberstellung von Lernenden mit Familiensprache Deutsch (FD), Lernenden mit Deutsch und mindestens einer anderen Familiensprache (FD + aS) sowie Lernenden mit ausschließlich (einer) anderen Familiensprache(n) als Deutsch (FaS) durchgeführt. Dabei zeigte sich in Einklang mit Befunden zu Lernenden mit unterschiedlichen Familiensprachen aus der DESI-Studie (Krelle und Willenberg 2008; Neumann 2014; Neumann und Lehmann 2008), dass insbesondere Lernende mit FaS Schwierigkeiten bei der Strukturierung und Kohärenzerstellung ihrer Texte hatten. Zudem belegten Lernende mit FaS im holistischen Rating die unteren Ränge und verfassten die kürzesten Texte. Gleichwohl zeigten auch die Lernenden mit FD + aS im Vergleich zu Lernenden mit FD signifikant geringere Leistungen bei der Kohärenzerstellung in instruktionalen Texten. Die Differenzierung familiensprachlicher Gruppen führt somit insgesamt zu trennschärferen Ergebnissen, weshalb diese Unterscheidung auch in zukünftigen Forschungen zu sprachlichen Leistungen die ohnehin umstrittene Unterteilung in Lernende mit und ohne Migrationshintergrund (für Kritik, siehe Marx 2017; Petersen 2019) ergänzen sollte.

Einschränkend muss konstatiert werden, dass die Klumpenstichprobe nicht repräsentativ für Lernende an nichtgymnasialen Schulformen ist und zudem nur Daten aus zwei Bundesländern berücksichtigt wurden. Zudem müsste vor dem Hintergrund entsprechender Studien, die Zusammenhänge zwischen literalen Kompetenzen und dem sozioökonomischen Hintergrund nahelegen (z. B. Gebhardt et al. 2020; Hippmann et al. 2019; National Center for Education Statistics 2012), in Studien mit größeren Stichproben weiter untersucht werden, inwiefern der sozioökonomische Hintergrund der Lernenden die Ergebnisse von unterschiedlichen familiensprachlichen Gruppen konfundiert.

Da sich viele Studien im Bereich literaler Kompetenzen entweder auf Textoberflächenmerkmale wie Rechtschreibung bzw. andere Parameter wie z. B. den Wortschatz konzentrieren (Böhmer 2015; Mathiebe 2018; Usanova und Schnoor 2021), bei der Untersuchung von Texttiefenmerkmalen bereits älteren Datums sind (z. B. Neumann und Lehmann 2008) oder Gymnasien fokussieren (z. B. Petersen 2013), geben unsere Daten wichtige Einblicke. Sie zeigen in Übereinstimmung mit den älteren Befunden der DESI-Studie zur Textproduktion allgemein (Neumann und Lehmann 2008) bzw. zum argumentativen Schreiben (Krelle und Willenberg 2008), dass viele Lernende an nichtgymnasialen Schulformen mehr Unterstützung bei der Gestaltung von Texttiefenmerkmalen benötigen. Die differenziellen Analysen legen zudem nahe, dass entsprechende Fördermaßnahmen insbesondere Lernende mit FaS stärker in den Blick nehmen sollten. Insgesamt geben unsere Daten also nuancierte Einblicke in Herausforderungen von Lernenden im Bereich der Struktur und Kohärenzerstellung in instruktionalen und argumentativen Texten.

Eine weitere Limitation ist, dass das von uns verwendete Analyseschema im Vergleich zu anderen Auswertungsansätzen (z. B. bei Becker-Mrotzek et al. 2015; Wilmsmeier et al. 2016) eine sehr überschaubare Anzahl an Kategorien beinhaltet. Gleichzeitig liegt darin auch eine Stärke: Das mit Lehrkräften entwickelte Analyseschema kann im Unterricht von Lehrkräften und Lernenden recht einfach im Sinne eines Assessment for Learning genutzt zu werden, insbesondere in der Arbeit mit eher schwächeren Schreibenden. Weitere wichtige Texttiefenmerkmale wie beispielsweise Adressatenorientierung (Becker-Mrotzek et al. 2014) könnten noch ergänzt werden. Insofern unterscheidet sich unser Vorgehen von anderen Studien, da es uns ermöglicht, die Ergebnisse unserer Leistungsmessung für schulisches Lernen nutzbar zu machen.

7 Fazit und pädagogische Implikationen

Insgesamt zeigt unsere Studie, dass Struktur und Kohärenz zentrale Aspekte von Textqualität sind, die durch unser analytisches Auswertungsschema valide erfasst werden können. Es zeigte sich zudem, dass viele Lernende unserer Stichprobe in diesen Bereichen die Erwartungen kaum erfüllen, weshalb entsprechende Kompetenzen im schulischen Kontext noch weiter ausgebaut werden müssen. Das Auswertungsschema könnte (auch im Rahmen zukünftiger Studien) im Unterricht eingesetzt werden, um differenziert Stärken und Schwächen im Bereich der Texttiefenmerkmale zu analysieren und somit im Sinne eines Assessments for Learning (Wiliam 2011) zu ermöglichen, dass sich Lehrkräfte und Lernende (z. B. auch im Peer- bzw. Self-Assessment) anhand spezifischer Kriterien einen Überblick über die Qualität von Texten in Bezug auf Struktur und Kohärenz verschaffen. Anhand der Kriterien wird transparent, was an einem Text bereits gut gelungen ist und welche Aspekte die Textqualität beeinträchtigen; darüber hinaus machen die Kriterien bei wiederholtem Einsatz Fortschritte sichtbar. Ausgehend von dieser Bestandsaufnahme kann dann detailliertes Feedback gegeben werden, das die Lernenden aktiv in den Verbesserungsprozess mit einbezieht, was ein Kernelement guter Feedbackpraktiken ist (Busse et al. 2022).