1 Einleitung

Sprachlichen Fähigkeiten kommen als Voraussetzung für das Lernen sowie Gegenstand von Leistungstests für den Bildungserfolg eine besondere Rolle zu (vgl. Gogolin 2009; Kempert et al. 2016). Für viele Schüler(innen) mit Migrationshintergrund gehören neben dem Deutschen auch Herkunftssprachen zu ihrem sprachlichen Repertoire. Die Aneignung und Weiterentwicklung sprachlicher Fähigkeiten erfolgt in sozialen Kontexten und in der Interaktion mit Menschen. Obwohl Kontakte zu Gleichaltrigen, sog. Peerbeziehungen, in der Adoleszenz von zunehmender Bedeutung sind (z. B. Heyer et al. 2012; Hannover und Zander 2016), wurde ihre Rolle für die Entwicklung verkehrs- und herkunftssprachlicher Kompetenzen von Jugendlichen noch unzureichend untersucht. Modellen der Sprachaneignung (z. B. Esser 2006) zufolge spielt u. a. die Qualität des sprachlichen Inputs eine wichtige Rolle. Demnach sollten die sprachlichen Fähigkeiten von wichtigen Interaktionspartnern, wie den Peers, im Zusammenhang mit den individuellen sprachlichen Fähigkeiten stehen. Allerdings stellt die Prüfung dieser Annahme hohe Anforderungen bei der Datenerhebung, da sowohl die Erfassung von Netzwerken, in denen Jugendliche interagieren, als auch umfassende Testungen der befragten Jugendlichen und ihrer Peers in verschiedenen Sprachen notwendig wären. Bisher liegen solche Daten weitestgehend getrennt voneinander vor. Eine ökonomische Möglichkeit zur Erfassung sprachlicher Fähigkeiten relevanter Peers wäre die Erhebung von Fremdeinschätzungen ihrer sprachlichen Fähigkeiten. Dabei könnten Befragungspersonen je nach Forschungsinteresse bestimmte Peers aus ihrem (egozentrierten) Netzwerk benennen (für eine Beschreibung des Erhebungsverfahrens egozentrierter Netzwerke siehe Herz 2012) und die sprachlichen Fähigkeiten dieser Peers einschätzen. Bei solchen Erhebungsverfahren stellt sich jedoch die Frage nach der Akkuratheit der Einschätzung von Eigenschaften Dritter (vgl. Wolf 2010, S. 474 f.). Akkurate Fremdeinschätzungen der sprachlichen Fähigkeiten wären aber eine zentrale Voraussetzung, wenn diese als ökonomisches Verfahren eingesetzt werden sollten, um Aussagen über die Sprachkenntnisse von Netzwerkpersonen und deren Bedeutung für die individuelle Entwicklung sprachlicher Fähigkeiten treffen zu können. Über Fremdeinschätzungen unter Jugendlichen und deren Qualität ist bisher jedoch kaum etwas bekannt.

Vor diesem Hintergrund besteht das Ziel des vorliegenden Beitrags in der Analyse von Fremdeinschätzungen der sprachlichen Fähigkeiten von Mitschüler(inne)n im Deutschen sowie den Herkunftssprachen Türkisch und Russisch, um zu klären, inwieweit diese als Indikatoren für die tatsächlichen Sprachfähigkeiten der Peers herangezogen werden könnten. Durch den Einbezug der unterschiedlichen Sprachen kann bewertet werden, inwieweit Fremdeinschätzungen auch in Sprachen gelingen können, die in der Regel nicht im schulischen Kontext verankert sind und von den Urteiler(inne)n ggf. nicht selbst beherrscht werden. Die Ergebnisse sind somit insbesondere für Studiendesigns relevant, für die in Ermangelung objektiver Indikatoren die Erfassung der sprachlichen Fähigkeiten von Personen aus dem sozialen (Peer‑)Umfeld von Studienteilnehmer(inne)n mittels Fremdeinschätzungen gewinnbringend wären. Unter Rückgriff auf Modelle der Urteilsakkuratheit von Lehrerurteilen akademischer Fähigkeiten von Schüler(innen) (vgl. Südkamp et al. 2012) wird im Rahmen des Beitrags untersucht, welchen Einflussfaktoren Schülerurteile über sprachliche Fähigkeiten von Mitschüler(inne)n unterliegen, wie akkurat diese ausfallen und unter welchen Bedingungen akkuratere Einschätzungen gelingen. Dabei stehen Eigenschaften der urteilenden Personen, der beurteilten Personen und Merkmale der Beziehung zwischen beiden im Fokus. Das Vorgehen ermöglicht zudem, potentielle leistungsbezogene Vorurteile unter Schüler(inne)n aufzudecken. Solche Vorurteile können sich nachteilig auf die Leistungsentwicklung auswirken, was insbesondere für ethnische Minderheiten in sprachlichen Leistungsdomänen nachgewiesen werden konnte (für eine Metaanalyse siehe Nadler und Clark 2011).

2 Fremdeinschätzungen akademischer Leistungen von Schüler(inne)n

Urteile über akademische Leistungen und Fähigkeiten von Schüler(inne)n werden im schulischen Kontext regelmäßig durch Lehrkräfte vorgenommen. Im Gegensatz zur formellen Diagnostik (z. B. psychometrische Intelligenztests), stehen bei Diagnoseleistungen von Lehrkräften informelle Urteile im Vordergrund (vgl. Schrader 2013). Mit der Frage, wie gut Lehrkräfte „Merkmale der Schülerinnen und Schüler, aber auch Lern- und Aufgabenanforderungen zutreffend einzuschätzen“ können, beschäftigt sich die pädagogisch-psychologische Forschung unter dem Stichwort ‚Diagnostische Kompetenz‘ (vgl. Karing und Artelt 2013, S. 167). Im Fokus dabei steht häufig die Urteilsakkuratheit als messbares Produkt diagnostischer Kompetenz, bei der die Übereinstimmung zwischen einem Lehrerurteil und über Tests oder Fragebögen erhobener Schülermerkmale untersucht werden (vgl. Praetorius und Südkamp 2017, S. 14 f.; Herppich et al. 2018). Ein gängiges Maß der Urteilsakkuratheit stellt die RangkomponenteFootnote 1 dar, welche den Zusammenhang zwischen Urteil und tatsächlicher Merkmalsausprägung korrelativ überprüft (vgl. Schrader 2013). In den Übersichtsarbeiten von Hoge und Coladarci (1989) und Südkamp et al. (2012) betrugen die gefundenen Korrelationen zwischen Lehrerurteilen akademischer Fähigkeiten und den erbrachten Schülerleistungen im Median r = 0,66 bzw. r = 0,53 und zeigen, dass Lehrer(innen) die Rangfolge der Schülerleistungen in ihren Klassen im Mittel recht gut einschätzen können (vgl. Hoge und Coladarci 1989, S. 303; Südkamp et al. 2012, S. 755). Insgesamt gelingt es ihnen dabei besser, leistungsbezogene Merkmale als andere Schülermerkmale (z. B. kognitive Fähigkeiten, akademische Selbstkonzepte, Lernmotivation) zu bewerten (siehe Südkamp et al. 2012; Machts et al. 2016; Spinath 2005). Zugleich zeigen sich auch in Bezug auf die Urteilsakkuratheit akademischer Fähigkeiten große Unterschiede zwischen Lehrkräften: Südkamp et al. (2012) berichten eine Spannweite der Korrelationen zwischen r = −0,03 und r = 0,84. Dies wirft die Frage nach Moderatoren der Urteilsakkuratheit auf (siehe Abschn. 3).

Im Kontext von Schülerurteilen akademischer Leistungen liegt der Forschungsfokus zumeist auf Zusammenhängen zwischen Selbsteinschätzungen und leistungsbezogenen Merkmalen von Schüler(inne)n. Nach Brown et al. (2015) fallen diese bei Korrelationen zwischen r = 0,20 und r = 0,80 (wobei nur wenige Studien höhere Korrelationen als r = 0,60 berichten) überwiegend schwach bis moderat aus (vgl. Brown et al. 2015, S. 446). In ähnlichem Umfang bewegen sich auch Zusammenhänge zwischen Selbsteinschätzungen sprachlicher Fähigkeiten und Sprachtests (siehe Edele et al. 2015). Fremdeinschätzungen von Fähigkeiten zwischen Schüler(innen) wurden bisher jedoch selten untersucht. Eine der Ausnahmen bildet eine Studie von Pohlmann et al. (2004), in welcher bei Gymnasiast(inn)en der siebten und neunten Klasse Fremdeinschätzungen von Schülerselbstkonzepten durch Lehrkräfte und Mitschüler(innen) untersucht wurden. Die berichtete Korrelation zwischen den Selbstkonzepten und Fremdeinschätzungen durch Mitschüler(innen) lag für das Fach Deutsch bei r = 0,37 und muss aufgrund der identischen Metrik der beiden Skalen als eher schwach bewertet werden (vgl. Pohlmann et al. 2004, S. 161 f.). Höher fiel der Zusammenhang zwischen den durch die Mitschüler(innen) eingeschätzten Selbstkonzepten und der Deutschnote (r = 0,46) aus; dieser übertraf sogar den der Deutschnote mit dem Fähigkeitsselbstkonzept der Schüler(innen) (r = 0,39; vgl. Pohlmann et al. 2004). Diesen Umstand erklären die Autoren mit der Tendenz, bei der Bewertung anderer Personen „leicht zugängliche Informationen“ heranzuziehen (Pohlmann et al. 2004, S. 165). Ähnlich zeigte sich bei Lehrereinschätzungen von Schülerselbstkonzepten, dass diese stärker durch die Schülerleistungen als deren Selbstkonzepte vorhergesagt werden (vgl. Praetorius et al. 2010, S. 128): Das Fähigkeitsselbstkonzept einer Person speist sich aus der individuellen Interpretation der eigenen Fähigkeiten und entzieht sich damit der direkten Beobachtbarkeit, wohingegen Leistungen im Zentrum der Unterrichtswahrnehmung von Lehrkräften stehen.

Ferner fielen bei Pohlmann et al. (2004) die Schülerselbstkonzepte höher aus als die Fremdeinschätzungen durch Lehrkräften und Mitschüler(innen). Als mögliche Ursache nennen die Autoren den für Selbstberichte bekannten „self-serving bias“, die Tendenz die eigenen Fähigkeiten zu Zwecken des Selbstschutzes zu überhöhen (Pohlmann et al. 2004, S. 164). Somit könnten Fremdeinschätzungen im Vergleich zu Selbsteinschätzungen sogar akkurater sein. Eine Studie von Stipek (1981) zeigte, dass Kinder zu Beginn der Schulzeit die Leistungen ihrer Peers akkurater einschätzten als ihre eigenen. Peers, die von Lehrkräften als leistungsstark bewertet wurden, wurden auch von Mitschüler(inne)n als intelligent eingeschätzt, wogegen ein Zusammenhang mit Lehrereinschätzungen bei Selbsteinschätzungen von Intelligenz erst ab der zweiten und dritten Klasse nachgewiesen werden konnte (vgl. Stipek 1981). Auch Befunde aus der Persönlichkeitsforschung zeigen, dass Peerratings der „Big-Five“-Persönlichkeitsmerkmale inkrementelle Validität über Selbsteinschätzungen hinaus besitzen oder sogar validere Prädiktoren für akademische Leistungen darstellen können (z. B. Bratko et al. 2006; Connelly und Ones 2010; Ziegler et al. 2010).

Dagegen zeigt eine Studie von Zander et al. (2014) anhand einer Stichprobe von Neuntklässlern, dass Fremdeinschätzungen durch negative leistungsbezogene Vorurteile gegenüber Schüler(inne)n mit Migrationshintergrund verzerrt sind. In der Studie bewerteten Schüler(innen) nach der Bearbeitung eines standardisierten Leistungstests in Mathematik ihre eigene Leistung und die eines selbstgewählten Peers, sodass tatsächliche sowie wahrgenommene Leistungsdifferenzen ermittelt werden konnten. Die Jugendlichen mit Migrationshintergrund neigten dazu, die Leistung ihrer Mitschüler(innen) ohne Migrationshintergrund zu überschätzen und ihre eigenen zu unterschätzen (vgl. Zander et al. 2014). Besonders deutlich wurde dieser Bias bei Schüler(innen) mit Migrationshintergrund, die einen leistungsschwächeren Peer ohne Migrationshintergrund wählten, diesen aber als genauso gut oder sogar besser einschätzten (vgl. Zander et al. 2014). Obwohl die Performanz von befreundeten Vergleichspartnern tendenziell zu optimistisch bewertet wurde, blieb dieser „pal effect“ aus, wenn Schüler(innen) ohne Migrationshintergrund Peers mit Migrationshintergrund bewerteten (vgl. Zander et al. 2014, S. 66 f.).

Im Gegensatz zu Leistungsbeurteilungen von Lehrern handelt es sich bei Fremdeinschätzungen unter Schüler(inne)n um weniger klar umrissene Bewertungssituationen. Lehrer(innen) dokumentieren Kompetenzen und Lernfortschritte ihrer Schüler(innen) regelmäßig, verfügen über umfassende Erfahrungen in der Fähigkeitseinschätzung, können dabei auf verschiedene Informationsquellen zurückgreifen und die Art und Weise der Informationsverarbeitung an das Ziel der Beurteilung anpassen (z. B. Dünnebier et al. 2009). Basierend auf dem Kontinuum-Modell von Fiske und Neuberg (1990) beschreiben Herppich et al. (2018) Informationsverarbeitungsprozesse bei Leistungsurteilen von Lehrkräften auf einem Kontinuum zwischen zwei distinkten Modi: Bei der Bildung eines ersten Eindrucks wird mit größerer Wahrscheinlichkeit der erste Modus aktiviert, bei dem die Urteilsbildung auf Grundlage weniger und leicht beobachtbarer Merkmale heuristisch abläuft, wogegen bei Urteilen mit weitreichenden Folgen (z. B. Schullaufbahnempfehlungen) gemäß dem zweiten Modus eine kontrollierte und individualisierte Informationsverarbeitung wahrscheinlicher wird. Dagegen fällt bei informellen Urteilen akademischer Fähigkeiten unter Schüler(innen) die Motivation für eine kriteriengeleitete und individualisierte Bewertung aufgrund fehlender Expertise und Urteilskonsequenzen womöglich gering aus. In der Folge könnten kategoriengeleitete Informationsverarbeitungsprozesse aktiviert werden, die anfälliger für Verzerrungen sind. Auch sind objektive Leistungsrückmeldungen nicht immer öffentlich oder gar verfügbar (z. B. im Falle der Herkunftssprachen), sodass sich Schüler(innen) vermutlich stärker auf Leistungseindrücke aus informellen Kontexten berufen und Bewertungen aus leicht beobachtbaren Verhaltensweisen ableiten müssen. Dies wirft die Frage auf, von welchen Faktoren die Urteile sowie deren Akkuratheit beeinflusst sein könnten.

3 Determinanten von Urteilen und Moderatoren der Urteilsakkuratheit

Mit den Bedingungen akkurater Einschätzungen durch Außenstehende beschäftigt sich das heuristische Modell von Südkamp et al. (2012, S. 756 f.), welches auf Grundlage theoretischer und empirischer Befunde Moderatoren der Urteilsakkuratheit für Lehrerurteile akademischer Leistungen von Schüler(inne)n beschreibt. Die Urteilsakkuratheit ergibt sich aus der Übereinstimmung des Lehrerurteils mit der Schülerleistung (meist gemessen als Korrelation) und wird beeinflusst von Merkmalen der Lehrkraft, Merkmalen der Schüler(innen), Eigenschaften des Leistungstests und des Urteils. Abb. 1 zeigt das Modell übertragen auf den Kontext von Fremdeinschätzungen unter Schüler(inne)n.

Abb. 1
figure 1

Heuristische Modell der Urteilsakkuratheit nach Südkamp et al. (2012, S. 756) modifiziert auf das Anwendungsbeispiel von Fremdeinschätzungen unter Schüler(inne)n

Auf der Ebene der einschätzenden Personen werden Personeneigenschaften als Moderationseffekte der Urteilsakkuratheit diskutiert, die die Art und Weise beeinflussen, wie gut urteilsrelevante Informationen aufgenommen, wahrgenommen und interpretiert werden können (vgl. Südkamp et al. 2012, S. 746; Förster und Böhmer 2017, S. 49). Dabei wird beispielsweise vermutet, dass höhere kognitive Grundfähigkeiten von Lehrkräften vorteilhaft für die Bewältigung intelligenter Denk- und Wahrnehmungsprozesse im Zusammenhang des Urteilens sein sollten: es müssen komplexe Informationen wahrgenommen, entschlüsselt, relevante Informationen erinnert und in einer angemessenen Beurteilung zusammengeführt werden (vgl. Kaiser et al. 2012, S. 253). In einer experimentellen Studie fanden Kaiser et al. (2012) einen positiven Moderationseffekt der kognitiven Fähigkeiten von Lehramtsstudierenden auf die Urteilsakkuratheit im computersimulierten Klassenraum. Zudem stehen kognitive Fähigkeiten eng im Zusammenhang mit fachlichen Leistungen und Kompetenzen (Schrader und Helmke 2008), die ebenfalls in Verbindung mit der Urteilsakkuratheit gebracht werden können. Einer Studie von Kruger und Dunning (1999) zufolge gelang es Studierenden mit geringen Testleistungen in einem Grammatiktest weder ihre eigenen noch die Leistungen ihrer Mitstudierenden im selben Test gut einzuschätzen. Bei leistungsstarken gegenüber leistungsschwachen Teilnehmer(inne)n fielen die Korrelationen zwischen den eingeschätzten und den tatsächlichen Leistungen ihrer Peers im Mittel fast doppelt so hoch aus (r = 0,66) (Kruger und Dunning 1999, S. 1127). Zu ähnlichen Ergebnissen kamen auch Analysen mit Selbsteinschätzungen (vgl. Alderson 2005; Brantmeier und Vanderplank 2008).

Hinsichtlich von Merkmalen der eingeschätzten Schüler(innen) liegen verschiedene Hinweise auf Moderationen der Urteilsakkuratheit vor. Während Befunde mehrheitlich auf positiv verzerrte Lehrerurteile literaler Fähigkeiten von Mädchen auch unter Kontrolle objektiver Leistungen deuteten (z. B. Hinnant et al. 2009; Ready und Wright 2011; Kuhl und Hannover 2012; Lorenz et al. 2016; Meissel et al. 2017), fanden andere Studien keine geschlechtsbezogenen Unterschiede von Leistungsurteilen (z. B. Karing et al. 2011; Zhu und Urhahne 2015). Nicht hinreichend belegt ist zudem, ob die höheren Leistungsurteile bei Mädchen auch im Sinne der Rangkomponente inakkurater ausfallen oder tatsächlich akkurater sind. Wiederholt konnte belegt werden, dass in Bewertungen akademischer Leistungen auch motivational-affektive Merkmale von Schüler(inne)n eingehen. Für Lehrkräfte zeigte sich, dass das Fähigkeitsselbstkonzept der Schüler(innen), ihre Unterrichtsbeteiligung sowie niedrigere Erfolgserwartungen und Leistungsangst mit dem Leistungsurteil zusammenhingen (vgl. Schrader und Helmke 1990; Rakoczy et al. 2008; Urhahne et al. 2010; Kaiser et al. 2013). Ähnliches ergab sich im Kontext von Nominierungen kompetenter Peers unter Grundschüler(inne)n. Diese wurden häufig mit Arbeitseinstellungen und -weisen, Persönlichkeitsmerkmalen und dem Sozialverhalten der eingeschätzten Mitschüler(innen) begründet (vgl. Stipek 1981). In einigen Studien konnte zudem ein über objektive Leistungen hinausgehender Einfluss des ethnischen Hintergrunds von Schüler(innen) auf die Leistungsbewertungen (z. B. bei Ready und Wright 2011; Glock et al. 2015; Meissel et al. 2017) sowie die Leistungserwartungen von Lehrkräften (z. B. Tenenbaum und Ruck 2007; van den Bergh et al. 2010; Tobisch und Dresel 2017) zum Nachteil von Schüler(inne)n mit Migrationshintergrund ermittelt werden. Widersprüchliche Ergebnisse liefern Studien dabei jedoch in Bezug auf die Akkuratheit von Einschätzungen. Bei Zander et al. (2014, S. 67) ergaben sich z. B. akkuratere Urteile bei Schüler(innen) ohne Migrationshintergrund, die (stereotypengemäß) einen leistungsschwächeren Peer mit Migrationshintergrund bewertet hatten. Auch Kaiser et al. (2017) berichten akkuratere Lehrerurteile in Bezug auf Schüler(innen), die einer Minderheit im Klassenkontext angehörten (unabhängig davon, ob das Geschlecht oder der ethnische Hintergrund das Minderheitsmerkmal darstellte). Möglicherweise stellen sich in solchen Fällen größere Herausforderungen bei Bewertung, die Lehrerurteile aufgrund einer individualisierten Informationsverarbeitung akkurater werden lassen (vgl. Kaiser et al. 2017). Dagegen fanden z. B. Breidebach und Gruber (2018) sowie Glock et al. (2015) inakkuratere Lehrerurteile für Schüler(inne)n mit Migrationshintergrund.

Südkamp et al. (2012) unterstellen in ihrem Modell auch einen Einfluss der Beziehung zwischen Merkmalen der einschätzenden und eingeschätzten Personen, welcher aber bisher selten untersucht wurde. Eine Ausnahme bildet eine Studie von Zhu und Urhahne (2015), in der der Umgang der Lehrkräfte mit den Schüler(inne)n (aus Schülersicht) untersucht wurde. Jedoch moderierten keine der einbezogenen Beziehungsmerkmale (darunter: Lernunterstützung, Erreichbarkeit, Bevorzugung und gerechte Notenvergabe) die Akkuratheit der Lehrerurteile in der Fremdsprache Englisch. Unterschiedliche Befunde belegen den Einfluss des Bekanntheitsgrads zur eingeschätzten Person auf die Urteilsakkuratheit. In einer Studie von Ready und Wright (2011) zeigte sich, dass Urteilsverzerrungen literaler Fähigkeiten durch nicht leistungsbezogene Merkmale der Schüler(innen) (z. B. ethnische Herkunft) im Verlauf eines Schuljahres abnahmen, wenn die Lehrkräfte ihre Schüler(innen) besser kennengelernt hatten. Auch in der Persönlichkeitsforschung gilt als gesichert, dass die Qualität der Einschätzungen von Außenstehenden mit steigendem Bekanntheitsgrad zunimmt (vgl. Marsh und Craven 1991; Borkenau und Liebler 1993; Connelly und Ones 2010). Hayes und Dunning (1997) berichten beispielsweise höhere Übereinstimmungen zwischen Selbst- und Fremdeinschätzungen bezüglich verschiedener Persönlichkeitsmerkmale unter Freunden. Connelly und Ones (2010) betonen, dass dabei nicht allein die Kontakthäufigkeit entscheidend ist, sondern vor allem die emotionale Nähe Einblicke in Einstellungen und Gefühle einer anderen Person erlaubt, die zur verbesserten Einschätzung insbesondere von Persönlichkeitsmerkmalen führen, die eher im Verborgenen liegen (siehe auch Funder und Dobroth 1987; Clovin und Funder 1991; Vazire 2010). In Kontrast dazu stehen die Ergebnisse von Zander et al. (2014), wonach negative leistungsbezogene Vorurteile gegenüber Schüler(inne)n mit Migrationshintergrund auch unter befreundeten Jugendlichen bestehen.

Weitere Einflüsse auf die Urteilsakkuratheit können ferner von Merkmalen des Leistungsurteiles sowie des zum Vergleich herangezogenen Leistungstests ausgehen (siehe Abb. 1). Dabei ergaben sich höhere Korrelationen zwischen Lehrerurteilen und den Leistungen von Schüler(inne)n in Studien, in denen die Lehrkräfte über den als Vergleichsmaßstab herangezogenen Leistungstest in Kenntnis gesetzt wurden, sowie in Studien, bei denen Leistungstests und Lehrerurteile kongruente Konstrukte erfassten (Südkamp et al. 2012). Da diese Moderatoren nicht Gegenstand des vorliegenden Beitrags sind, wird aus Platzgründen auf eine detailliertere Darstellung des Forschungsstands verzichtet.

4 Ziel der Studie und Fragestellungen

Ziel des Beitrags ist die Prüfung, inwieweit Fremdeinschätzungen der sprachlichen Fähigkeiten von Mitschüler(inne)n als Indikatoren für deren tatsächliche Sprachfähigkeiten herangezogen werden könnten. Dazu werden Determinanten sowie die Akkuratheit von Schülerurteilen über sprachliche Fähigkeiten von Mitschüler(inne)n im Deutschen und den Herkunftssprachen Türkisch und Russisch untersucht. Fokussiert werden dabei Eigenschaften der urteilenden Personen, der beurteilten Personen und Merkmale der Beziehung zwischen beiden. Im Rahmen der Analysen sollen erste Antworten auf folgende Fragen gefunden werden:

Fragestellung I

Welche Merkmale der eingeschätzten Mitschüler(innen) beeinflussen die Fremdeinschätzungen sprachlicher Fähigkeiten über Testleistungen hinaus?

Fragestellung II

Wie akkurat sind Fremdeinschätzungen der sprachlichen Fähigkeiten von Mitschüler(inne)n im Deutschen und den Herkunftssprachen Türkisch und Russisch?

Fragestellung III

Von welchen Merkmalen der (a) urteilenden und (b) beurteilten Schüler(innen) sowie (c) deren Beziehung wird die Urteilsakkuratheit moderiert?

Die erste Forschungsfrage bezieht sich auf Faktoren, die die Fremdeinschätzungen über objektive Maßstäbe hinaus determinieren. Der Forschungsstand lässt erwarten, dass Schüler(inne)n, die zu Hause auch Türkisch oder Russisch sprechen, bei gleicher Leistung im Deutschen schlechtere Bewertungen ihrer Fähigkeiten erhalten als monolingual deutsch aufgewachsene Jugendliche (H1) (siehe Ready und Wright 2011; Zander et al. 2014; Meissel et al. 2017; Tobisch und Dresel 2017). Aufgrund der Hinweise auf eine Überschätzung literaler Fähigkeiten von Mädchen (siehe Hinnant et al. 2009; Ready und Wright 2011; Kuhl und Hannover 2012; Lorenz et al. 2016; Meissel et al. 2017) erwarten wir zudem, dass Mädchen im Vergleich zu Jungen positivere Fähigkeiten in den untersuchten Sprachen zugeschrieben werden (H2). Ferner zeigte sich bei Lehrer- und Schülerurteilen, dass diese von motivational-affektiven Schülermerkmalen beeinflusst werden (siehe Stipek 1981; Schrader und Helmke 1990; Rakoczy et al. 2008; Urhahne et al. 2010; Kaiser et al. 2013). Motivational-affektive Verhaltensweisen, wie Ängstlichkeit, Unterrichtsbeteiligung und Fleiß, sind relativ einfach zu beobachten und daher als Urteilskriterien schnell verfügbar. Leider standen solche Verhaltensindikatoren nicht zur Verfügung. Anzunehmen ist jedoch ein enger Zusammenhang zwischen solchen Verhaltensweisen und den Selbsteinschätzungen sprachlicher Fähigkeiten, da sich letztere in leicht beobachtbarem Verhalten manifestieren könnten: Schüler(innen), die ihre eigenen Fähigkeiten in einer Sprache als hoch ansehen, verhalten sich womöglich offensiver, z. B. indem sie sich häufiger im Unterricht melden, die betreffende Sprache häufiger nutzen oder Mitschüler(innen) korrigieren. Daher soll geprüft werden, ob die Selbsteinschätzungen sprachlicher Fähigkeiten der eingeschätzten Mitschüler(innen) die Fremdeinschätzungen über objektive Leistungsmaße hinaus vorhersagen (H3).

Die Urteilsakkuratheit (Forschungsfrage II) wird im Sinne der Rangkomponente operationalisiert, als die Akkuratheit mit der die Rangfolge der Fähigkeiten von Peers korrekt eingeschätzt wird (vgl. Schrader 2013; Karst 2017). Dabei lässt sich angesichts des bisherigen Forschungsstandes eine signifikante, aber moderate Vorhersage der Fremdeinschätzungen durch die testbasierten Leistungsindikatoren sprachlicher Fähigkeiten erwarten (H4). Als potentielle Moderatoren der Urteilsakkuratheit (Forschungsfrage III) werden Merkmale der beurteilten Schüler(innen) (Geschlecht, Sprachhintergrund) und der urteilenden Schüler(innen) (kognitive Fähigkeiten, Geschlecht) sowie deren Beziehung (Beziehungsqualität, gleicher Sprachhintergrund, gemeinsamer Unterricht) untersucht. Aufgrund der engen Verbindungen zwischen kognitiven Fähigkeiten und Informationsverarbeitungsprozessen sowie fachlichen Kompetenzen (siehe Südkamp et al. 2012; Kaiser et al. 2012; Förster und Böhmer 2017), lässt sich ein positiver Moderationseffekt der kognitiven Fähigkeiten der einschätzenden Personen auf die Urteilsakkuratheit erwarten (H5). Ferner sollte die Genauigkeit von Fremdeinschätzungen beeinflusst werden durch die Qualität der Beziehung zur beurteilten Person (z. B. Marsh und Craven 1991; Hayes und Dunning 1997) und die Gelegenheiten, die zu bewertenden Eigenschaften dieser zu beobachten (Funder 1995). Erwartet werden daher akkuratere Fremdeinschätzungen mit zunehmender Beziehungsqualität zwischen urteilenden und beurteilten Schüler(inne)n sowie im Falle eines gemeinsamen Unterrichts (H6). Schließlich gehen wir auch der Frage nach, ob Fremdurteile unter Schüler(inne)n mit gleichem Sprachhintergrund besser gelingen. Insbesondere für die Herkunftssprachen Türkisch und Russisch liegt die Annahme auf der Hand, dass akkuratere Einschätzungen sprachlicher Fähigkeiten gelingen, wenn die Urteilenden selbst Kenntnisse in der betreffenden Sprache haben (H7). Da die Befunde zur Wirkung der Merkmale Geschlecht und des ethnischen bzw. sprachlichen Hintergrunds in Bezug auf die Urteilsakkuratheit bisher noch nicht zufriedenstellend geklärt werden konnten (siehe Abschn. 3), beziehen wir diese ungerichtet in die Analysen ein.

5 Methoden

5.1 Stichprobe

Die Datengrundlage bildet der erste Messzeitpunkt (2016) des Forschungsprojekts Mehrsprachigkeitsentwicklung im Zeitverlauf (MEZ). In diesem wurden Schüler(innen) der siebten und neunten Klasse befragt und Daten zu rezeptiven (Leseverstehen) und produktiven (Schreibfähigkeiten) sprachlichen Fähigkeiten in der Unterrichtssprache Deutsch sowie den Herkunftssprachen Türkisch und Russisch erhoben (siehe Gogolin et al. 2017). In einem Fragebogen waren die Jugendlichen zudem aufgefordert, jeweils bis zu drei andere Studienteilnehmer(innen) aus schulinternen, jahrgangsübergreifenden Teilnehmerlisten auszuwählen und diese hinsichtlich ihrer sprachlichen Fähigkeiten im Deutschen und sofern zutreffend auch deren herkunftssprachlichen Fähigkeiten im Russisch bzw. Türkisch einzuschätzen. Ferner machten die Befragten Angaben zu ihrer Beziehung zu den eingeschätzten Peers. Die Vorgabe lautete, schulintern drei andere Studienteilnehmer(innen) zu wählen, die sie kennen, wobei möglichst eine Person darunter sein sollte, mit der sie keinen gemeinsamen Unterricht hatten. So sollte eine ausreichende Bekanntschaft und zugleich eine Variabilität hinsichtlich der Beziehungsmerkmale erreicht werden.

Insgesamt hatten 1166 Schüler(innen) den Fragebogen zur Erfassung der Fremdeinschätzungen sprachlicher Fähigkeiten ausgefüllt. Die Teilnehmer(innen) waren im Durschnitt 14,6 Jahre alt, entstammten zu etwa gleichen Teilen den Jahrgängen sieben und neun und waren zu rund 63 % weiblich. Ein Gymnasium wurde von 56 % der Teilnehmer(innen) besucht. Rund 38 % der Jugendlichen waren monolingual deutsch, 24 % deutsch-russisch und 38 % deutsch-türkisch aufgewachsen. Die Stichprobe der Teilnehmer(innen) war zugleich jene, aus der die Peers zur Einschätzung entstammten, d. h. die Teilnehmer(innen) konnten zugleich Urteilende und Beurteilte sein. Hieraus ergab sich eine Datenstruktur, bei der Teilnehmer(innen) im Datensatz mehrfach auftauchen konnten: Nämlich als Urteilende (je nach Anzahl der vorgenommenen Einschätzungen) sowie als Beurteilte (abhängig davon, von wie vielen Teilnehmer(inne)n sie zur Bewertung ausgewählt wurden). Aufgrund der daraus resultierenden Abhängigkeiten in den Daten war eine besondere Analysemethode notwendig, die im Folgenden beschrieben wird.

5.2 Analysemethoden

Die Vorhersage der Fremdeinschätzungen sprachlicher Fähigkeiten im Deutschen und den Herkunftssprachen Türkisch und Russisch erfolgte mittels kreuzklassifizierter Mehrebenenmodelle (siehe Hox et al. 2018), um die genestete Datenstruktur der Fremdeinschätzungen (L1) innerhalb von Schulen nach urteilenden Schüler(inne)n (L2) und beurteilten Mitschüler(inne)n (L2) angemessen zu berücksichtigen.Footnote 2 Die Vorgehensweise orientiert sich an einem Anwendungsbeispiel von Karst et al. (2017) zur Bestimmung von Kennwerten diagnostischer Kompetenz mittels linearer Mischmodelle. Im Unterschied zu streng hierarchischen Modellen wurden im vorliegenden Beitrag zwei Zufallseffekte modelliert, die zulassen, dass die Mittelwerte der Fremdeinschätzungen nach urteilenden Schüler(inne)n und eingeschätzten Mitschüler(inne)n variieren können (siehe Hox et al. 2018, S. 161 f.). Auf dem untersten Level (L1) befinden sich die Fremdeinschätzungen (i), die sich aus einer spezifischen Kombination von Urteiler(inne)n (j) und Beurteilten (k) ergeben. Diese Einschätzungen bilden eine Kreuzklassifizierung, da sie innerhalb der übergeordneten Gruppierungsebene (L2) von Schulen gleichzeitig bestimmten Urteiler(inne)n und Beurteilten zugeordnet werden können. Für das Nullmodell kann die Fremdeinschätzung (i) einer urteilenden Person (j) und einem eingeschätzten Peer (k) modelliert werden durch die folgende Formel (vgl. Hox et al. 2018, S. 167 f.):

$$Y_{i\left(jk\right)}=\beta _{0}+u_{0j}+v_{0k}+e_{i\left(jk\right)}.$$

Dabei wird die abhängige Variable (hier die Fremdeinschätzung) modelliert durch einen Intercept β0 sowie die Residualfehlerterme uj für Urteiler(innen) und v0k für Beurteilte in Schulen und das Regressionsresiduum ei(jk). Ermittelt wird dabei ein fester Effekt für einen Gesamt-Intercept sowie die als Zufallseffekte modellierten Varianzkomponenten \(\sigma _{e}^{2}\) für die Varianz der Fremdeinschätzungen nach Urteiler(innen) \(\sigma _{u}^{2}\) und Beurteilten \(\sigma _{v}^{2}\). Dieses Grundmodell kann nun z. B. durch die Aufnahme von Merkmalen der Urteiler(innen) und Beurteilten als Prädiktoren erweitert werden (z. B. Fremdeinschätzungi(jk) = β0 + β1Geschlecht-Urteilerj + β2Geschlecht-Beurteilterk + u0j + v0k + ei(jk)).

Alle Analysen erfolgten in R (R Core Team 2017) mit dem Paket „lme4“ (Bates et al. 2015). Berechnet wurden getrennte Modelle zur Vorhersage der Fremdeinschätzungen sprachlicher Fähigkeiten im Deutschen, im Türkischen und im Russischen. Zur korrekten Interpretation des Intercepts und der Interaktionsterme wurden die abhängigen Variablen sowie alle metrischen Prädiktoren jeweils am Gesamtmittelwert z‑standardisiert. Um die Frage zu beantworten, welche Merkmale den Zusammenhang zwischen den Fremdeinschätzungen und den Testleistungen der Peers (also die Urteilsakkuratheit) moderieren, wurden Interaktionsterme der potentiellen Moderatoren mit den Testleistungen der Peers in die Modelle aufgenommen. Zur Prüfung der Signifikanz der Parameter wurden Modelle mittels Likeliehood-Ratio-Tests (siehe Hox et al. 2018) gegeneinander getestet, die die entsprechenden Parameter enthalten bzw. nicht enthalten. Zudem wurden zur Ermittlung der Effektstärken marginale (fixed effects) und konditionale (Gesamtmodell) R‑Quadrat Schätzer berechnet (nach Nakagawa und Schielzeth 2013). Erstere können zudem genutzt werden, um Effekte der Testleistungen der eingeschätzten Peers auf die Fremdeinschätzungen mit den quadrierten Korrelationen aus anderen Studien zu vergleichen.

5.3 Variablen

5.3.1 Fremdeinschätzungen sprachlicher Fähigkeiten (Abhängige Variablen)

Die verwendeten Fremdeinschätzungsskalen sind angelehnt an die Erfassung leistungsbezogener Selbstkonzepte (nach Wagner et al. 2009). Für die Sprachen Deutsch, Türkisch und Russisch wurden mit Hilfe von jeweils drei Items Einschätzungen der FähigkeitenFootnote 3 der gewählten Peers im Texte lesen und verstehen, Texte schreiben und Wortschatz/Vokabeln auf einer sechs-stufigen Notenskala erfasst. Dabei wurden die Items jeweils so rekodiert, dass ein hoher Skalenwert für gute sprachliche Fähigkeiten steht. Die gebildeten Einschätzungsskalen für das Deutsche (M = 4,8; SD = 0,8; Min = 1; Max = 6) und die Herkunftssprachen Türkisch (M = 4,5; SD = 0,9) und Russisch (M = 4,8; SD = 0,9) wiesen eine hohe interne Konsistenz auf (Deutsch α = 0,85; Russisch α = 0,89; Türkisch α = 0,90). Fälle, bei denen Schüler(innen) angaben, die Fähigkeiten des gewählten Peer nicht einschätzen zu können, wurden aus den Analysen ausgeschlossen.

5.3.2 Testbasierte Leistungsindikatoren für Sprachfähigkeiten der eingeschätzten Mitschüler(innen)

Zur Abbildung sprachlicher Fähigkeiten der eingeschätzten Mitschüler(innen) im Deutschen und den Herkunftssprachen Russisch und Türkisch wurden Maße für rezeptive sowie produktive sprachliche Fähigkeiten herangezogen. Bei ersterem handelt es sich um einen Lesegeschwindigkeits- und Leseverständnistest (LGVT 5–12+ nach Schneider et al. 2017; sowie in Kooperation entwickelte Parallelversionen für das Russische und Türkische). Der Test wurde speziell für die Klassenstufen 5–12 entwickelt und „weist eine hinreichende Korrelation mit dem PISA 2000-Leseverständnistest auf“ (Gogolin et al. 2017, S. 16). Dabei handelt es sich um einen Fließtext, bei dem an verschiedenen Stellen aus drei Alternativen das Wort unterstrichen werden sollte, welches am besten in den Textzusammenhang passt. Verwendet wurden jeweils die erzielten Rohwerte für das Leseverstehen im Deutschen (Min = 0; Max = 85; M = 29,2; SD = 10,4; α = 0,82) sowie den Herkunftssprachen Türkisch (Min = −12; Max = 46; M = 8,5; SD = 9,0; α = 0,64) und Russisch (Min = −8; Max = 57; M = 9,4; SD = 12,3; α = 0,86). In die Rohwertzählung gingen korrekte Unterstreichungen mit zwei Punkten, falsche oder mehrere Unterstreichungen mit einem Minuspunkt und Auslassungen mit null Punkten ein.

Die schriftliche Sprachproduktion wurde mit dem Schreibimpuls Lebkuchenhaus (basierend auf dem „FörMig-Bumerang“ nach Dirim und Döll 2009) erfasst. Bei dieser Aufgabe waren die Schüler(innen) aufgefordert, auf Grundlage einer Bilderfolge die darin dargestellte Anfertigung eines Lebkuchenhauses als Artikel für ein Jugendmagazin schriftlich wiederzugeben. In die Analysen ging die Punktzahl für die Aufgabenbewältigung im Deutschen (Min = 9; Max = 27; M = 17,9; SD = 3,8; α = 0,84) sowie den Herkunftssprachen Türkisch (Min = 0; Max = 24; M = 12,7; SD = 4,6; α = 0,90) und Russisch ein (Min = 0; Max = 26; M = 10,6; SD = 6,1; α = 0,95). Dazu bewerten geschulte Auswerter(innen) für jeden der neun abgebildeten Arbeitsschritte, ob dieser „nicht“, „angedeutet“, „einfach“ oder „differenziert, ausführlich“ durch die Schüler(innen) beschrieben wurde. Je nach dem konnten jeweils Null, ein, zwei oder drei und insgesamt maximal 27 Punkte vergeben werden.

5.3.3 Weitere Merkmale der eingeschätzten Mitschüler(innen)

In allen Modellen wurden das Geschlecht (0 = männlich, 1 = weiblich), die besuchte Klassenstufe (0 = Jahrgang 7; 1 = Jahrgang 9), der besuchte Bildungsgang (0 = andere, 1 = Gymnasium) sowie die selbsteingeschätzten Sprachfähigkeiten einbezogen. Die Selbsteinschätzungen sprachlicher Fähigkeiten (nach Wagner et al. 2009) wurden mit Hilfe von rekodierten Notenskalen (sechsstufig) erfasst. In diese gingen je sechs Items zur Bewertung der Fähigkeiten und Kenntnisse in den Bereichen „Aussprache“, „Texte schreiben“, „Rechtschreibung und Zeichensetzung“, „richtige Grammatik beim Sprechen“, „richtige Grammatik beim Schreiben“ und „Wortschatz und Vokabeln“ einFootnote 4. Die Mittelwerte der hoch intern konsistenten Skalen lagen bei 5,1 Punkten im Deutschen (Min = 1,3; Max = 6,0; SD = 0,7; α = 0,87), 4,2 Punkten im Türkischen (Min = 1,2; Max = 6,0; SD = 1,0; α = 0,92) und 4,1 Punkten im Russischen (Min = 1,8; Max = 6,0; SD = 1,0; α = 0,90). Für die Modelle im Deutschen wurden darüber hinaus Dummyvariablen generiert, die den Sprachhintergrund der eingeschätzten Mitschüler(innen) abbildeten (25 % deutsch-russisch; 36 % deutsch-türkisch).

5.3.4 Merkmale der urteilenden Schüler(innen)

In allen Modellen wurden das Geschlecht und die kognitiven Fähigkeiten der urteilenden Schüler(innen) berücksichtigt. Letztere wurden mit Hilfe des nonverbalen Untertests (N2) des kognitiven Fähigkeitstests (KFT 4–12 + R) von Heller und Perleth (2000) erhoben. Der Test besteht aus 25 Multiple-Choice-Aufgaben, bei denen die Schüler(innen) figurale Analogien erkennen sollten. Um eine Vergleichbarkeit der Testwerte zwischen Schüler(inne)n der Klassen sieben und neun zu gewährleisten, wurden die auf Basis der Summe richtiger Antworten gebildeten jahrgangsnormierten T‑Wertsummen verwendet (0,85 < α < 0,92).

5.3.5 Beziehungsmerkmale

Auf der Beziehungsebene wurden die Beziehungsqualität, der gemeinsame Unterrichtsbesuch und das Vorhandensein eines identischen Sprachhintergrunds (Dummy) als Moderatoren für die Urteilsakkuratheit berücksichtigt. Zur Erfassung der Beziehungsqualität wurden Angaben zum BekanntheitsgradFootnote 5 sowie der subjektiven WichtigkeitFootnote 6 der einzuschätzenden Zielpersonen für die Befragten zu einem Mittelwert verrechnet (r = 0,79). Der Mittelwert aus diesen zwei fünfstufigen Items kann im Falle einer hohen Punktzahl als eine hohe Beziehungsqualität zwischen einschätzender und eingeschätzter Person interpretiert werden (Modelle Deutsch: M = 3,5; SD = 1,2; Türkisch: M = 3,6; SD = 1,2; Russisch: M = 3,4; SD = 1,3). Die befragten Schüler(innen) waren ferner aufgefordert anzugeben, ob sie mit der einzuschätzenden Person (irgendeinen) gemeinsamen Unterricht hatten. In den Modellen im Deutschen beziehen sich 79 % der Fremdeinschätzungen auf Personen, die die urteilenden Schüler(innen) aus dem Unterricht kennen (Türkisch 69 %; Russisch 75 %). Der Anteil von Fremdeinschätzungen unter Jugendlichen mit geteiltem Sprachhintergrund lag in den Modellen im Deutschen bei rund 36 % (Türkisch 67 %; Russisch 57 %).

6 Ergebnisse

6.1 Fremdeinschätzungen sprachlicher Fähigkeiten im Deutschen

Tab. 1 zeigt die Modelle zur Vorhersage der Fremdeinschätzungen sprachlicher Fähigkeiten im Deutschen mit zwei random intercepts zur Berücksichtigung der genesteten Datenstruktur nach urteilenden und beurteilten Schüler(innen) in Schulen. Der Varianzanteil, der auf die Clusterung nach urteilenden Schüler(innen) zurückzuführen ist, lag bei ICC = 28 %, für die eingeschätzten Mitschüler(innen) sind es ICC = 35 % (D0). Die Testleistungen der Peers im Schreiben und Lesen erklärten im Modell D1 gemeinsam 12 % der Varianz der Fremdeinschätzungen sprachlicher Fähigkeiten. Erreichten die eingeschätzten Peers eine um eine Standardabweichung höhere Testleistung in der Schreibaufgabe, fiel das Schülerurteil um b = 0,18 Standardabweichungen höher aus. Ein Anstieg der Testleistung im Lesen war mit einer Zunahme der Fremdeinschätzung um b = 0,25 Standardabweichungen assoziiert. Auch getrennt erwiesen sich die beiden Prädatoren als signifikant, wobei die Varianzaufklärungen durch die Testleistungen im Schreiben bei 6 % und durch das Leseverständnis bei 9 % lagen (siehe Tab. 4 im Anhang). Im Modell D2 wurden die weiteren Merkmale der eingeschätzten Mitschüler(innen) aufgenommen. Während die Fremdeinschätzungen bei Mädchen und Peers mit höheren Selbsteinschätzungen sprachlicher Fähigkeiten im Deutschen unter Kontrolle des Bildungsgangs und der Jahrgangsstufe höher ausfielen, wurden Jugendliche mit deutsch-russischem und deutsch-türkischem Sprachhintergrund signifikant schlechter bewertet. Im Modell D3 zeigte sich ein signifikanter Geschlechtereffekt, wonach weibliche Urteilende die sprachlichen Fähigkeiten ihrer Peers um b = 0,24 Standardabweichungen höher einschätzten. Der positive Haupteffekt der kognitiven Fähigkeiten ist aufgrund des geringen Regressionsgewichts dagegen eher zu vernachlässigen (D3). Auf der Beziehungsebene ergab sich lediglich für die Beziehungsqualität ein signifikanter Haupteffekt (siehe D4), wonach die Schülerurteile mit steigender Beziehungsqualität zur eingeschätzten Person höher ausfielen. Während alle anderen Effekte weitestgehend stabil blieben, ergaben sich unter Berücksichtigung der Beziehungsmerkmale nunmehr keine positiv verzerrten Bewertungen weiblicher Peers.

Tab. 1 Kreuzklassifizierte Mehrebenenmodelle für Fremdeinschätzungen im Deutschen (z-standardisiert)

Die durchgeführten Likelihood-Ratio-Tests verwiesen auf signifikante Modellverbesserungen durch die aufgenommenen Prädiktoren. Im Modell D4 wurden 26 % der Varianz der Fremdeinschätzungen durch die Prädiktoren gemeinsam erklärt. Zur Abschätzung, welche der Prädiktoren den stärksten Effekt auf die Fremdeinschätzungen sprachlicher Fähigkeiten hatten, wurden für das Modell D4 zusätzlich standardisierte RegressionskoeffizientenFootnote 7 berechnet. Dabei erwiesen sich ein türkischer Sprachhintergrund der Peers (β = −0,20), die Selbsteinschätzungen (β = 0,17) sowie die Leseleistungen (β = 0,16), als stärkste Prädiktoren.

Zur Überprüfung, ob das Geschlecht und der Sprachhintergrund der eingeschätzten Peers, die Urteilermerkmale Geschlecht und kognitive Fähigkeiten sowie die Merkmale auf Beziehungsebene (Beziehungsqualität, gemeinsamer Unterricht, geteilter Sprachhintergrund) die Urteilsakkuratheit moderieren, wurden aufbauend auf dem Modell D4 weitere Modelle mit jeweils einer Interaktion für die genannten Prädiktoren mit den testbasierten Leistungsindikatoren im Schreiben und Lesen berechnet. Dabei zeigte sich, dass die negativ verzerrten Fremdeinschätzungen gegenüber Schüler(inne)n mit russischem Sprachhintergrund in Bezug auf die Testleistungen im Schreiben im Sinne der Rangkomponente zudem inakkurater ausfielen (Modell D4a: b = −0,10). Eine signifikante Moderation der Urteilsakkuratheit in Bezug auf die Testleistungen im Lesen ergab sich darüber hinaus für das Geschlecht der Urteilenden (Modell D4b: b = −0,08). Demnach gelang es Schülerinnen schlechter die Rangordnung der Leistungen ihrer Peers im Lesen einzuschätzen. Weder die kognitiven Fähigkeiten der Urteiler(innen), das Geschlecht der Beurteilten noch die Merkmale auf Beziehungsebene moderierten die Urteilsakkuratheit, weshalb auf eine Darstellung der Modelle mit diesen Interaktionseffekten in Tab. 1 verzichtet wurde. Einer Tendenz nach ließ sich eine positive Moderation der Urteilsakkuratheit in Bezug auf Testleistung im Schreiben durch einen gemeinsamen Unterrichtsbesuch annehmen (b = 0,06; p = 0,085). Da dies jedoch nur auf einem 10 %-Signifikanzniveau gegen den Zufall abgesichert werden konnte, wurde auf die Darstellung dieses Modells verzichtet.

6.2 Fremdeinschätzungen sprachlicher Fähigkeiten im Türkischen

Die Ergebnisse der Regressionsanalysen zur Vorhersage der Fremdeinschätzungen sprachlicher Fähigkeiten im Türkischen unter Berücksichtigung der Clusterung (siehe T0) nach urteilenden (ICC = 0,40) und beurteilten Schüler(innen) (ICC = 0,26) sind in Tab. 2 dargestellt. Die Testleistungen der eingeschätzten Peers waren sowohl einzeln (siehe Tab. 4) als auch gemeinsam (Modell T1) prädiktiv für das Schülerurteil sprachlicher Fähigkeiten, wobei höhere Testleistungen im Schreiben und Lesen mit einem Anstieg der Fremdeinschätzungen sprachlicher Fähigkeiten im Türkischen assoziiert waren. Im Modell T2 zeigte sich, dass die Fremdeinschätzungen über objektive Testleistungen hinaus auch von den Selbsteinschätzungen der Peers vorhergesagt wurden (b = 0,26). Bei gleicher Leistung wurden Mädchen zudem um b = 0,19 Standardabweichungen positiver bewertet, wobei dieser Effekt mit Aufnahme der Merkmale der Urteilenden im Modell T3 seine Signifikanz verlor und sich nun positivere Leistungsurteile für weibliche Urteilende ergaben. Ein signifikanter Haupteffekt zeigte sich ferner im Modell T4 für einen geteilten Sprachhintergrund: Waren die Urteilenden selbst türkischsprachig, fielen die Fähigkeitsurteile um b = 0,45 Standardabweichungen geringer aus. Eine Berechnung von standardisierten Regressionskoeffizienten für das Modell T4 ergab, dass der stärkste Einfluss auf die Fremdeinschätzungen sprachlicher Fähigkeiten von den Selbsteinschätzungen sprachlicher Fähigkeiten (β = 0,27) ausging, gefolgt von einem geteilten Sprachhintergrund (β = −0,21) und den erzielten Testleistungen der Peers im Lesen (β = 0,12) und Schreiben (β = 0,10).

Tab. 2 Kreuzklassifizierte Mehrebenenmodelle für Fremdeinschätzungen im Türkischen (z-standardisiert)

Bei den Analysen zur Urteilsakkuratheit ergaben sich drei signifikante Moderationseffekte. Mit steigender Beziehungsqualität nahm der Zusammenhang zwischen den getesteten Fähigkeiten im Schreiben und den fremdeingeschätzten Fähigkeiten geringfügig zu (siehe T4a). Im Vergleich zu Urteilenden mit anderem Sprachhintergrund gelang es Urteilenden mit türkischem Sprachhintergrund deutlich besser, die Leistungen der von ihnen eingeschätzten Peers in Bezug auf die Testleistungen im Schreiben (b = 0,23) und Lesen (b = 0,13) in die richtige Rangfolge zu bringen (siehe T4b und T4c). Weder die Merkmale der Urteiler(innen) noch das Geschlecht der eingeschätzten Peers oder ein gemeinsamer Unterrichtsbesuch moderierten die Akkuratheit der Fremdeinschätzungen im Türkischen.

Für alle Modelle im Türkischen ergaben sich signifikante Modellverbesserungen durch die aufgenommenen Prädiktoren. Die Testleistungen der eingeschätzten Peers erklärten 12 % der Varianz der Fremdeinschätzungen. Der beste Modellfit ergab sich für das Modell T4c, bei dem 25 % der Varianz der Fremdeinschätzungen durch die Prädiktoren erklärt wurden.

6.3 Fremdeinschätzungen sprachlicher Fähigkeiten im Russischen

Auch für das Russische wurden Regressionsmodelle mit zwei Zufallseffekten (random intercepts) berechnet, die Mittelwertunterschiede der Fremdeinschätzungen sprachlicher Fähigkeiten auf Ebene der urteilenden (ICC = 0,08) und beurteilten Schüler(inne)n (ICC = 0,31) modellieren (siehe Tab. 3). Die Schreib- und Lesefähigkeiten der eingeschätzten Mitschüler(innen) im Russischen waren sowohl für sich als auch gemeinsam prädiktiv für die Fremdeinschätzungen, wobei höhere Fähigkeiten mit höheren Leistungsurteilen assoziiert waren (siehe Modell R1 und ergänzend Tab. 4). Mit Aufnahme der Selbsteinschätzungen sprachlicher Fähigkeiten im Modell R2, die die Fremdeinschätzungen signifikant vorhersagten, verloren sich jedoch die signifikanten Einflüsse der Testleistungen. In den Modellen R3 und R4 zeigte sich, dass weibliche Urteilende signifikant positivere Leistungsurteile fällten. Für die kognitiven Fähigkeiten der urteilenden Jugendlichen sowie die Beziehungsmerkmale ergaben sich keine signifikanten Haupteffekte.

Tab. 3 Kreuzklassifizierte Mehrebenenmodelle für Fremdeinschätzungen im Russischen (z-standardisiert)

Bei der Prüfung von Moderatoren der Urteilsakkuratheit ergab sich in Bezug auf die Testleistungen im Lesen ein positiver Effekt im Falle eines gemeinsamen Unterrichtsbesuchs (Modell R4a: b = 0,22). Dieses Modell wies zugleich mit 25 % erklärter Varianz den besten Modellfit auf. Nicht ausreichend gegen den Zufall abgesichert werden konnten drei weitere Interaktionsterme, die aus diesem Grund nicht in die Ergebnistabelle aufgenommen wurden. Bei diesen deutete sich an, dass die Fremdeinschätzungen im Russischen womöglich in Bezug auf die Testleistungen im Lesen von weiblichen Peers (b = 0,23; p = 0,085) sowie mit steigender Beziehungsqualität (b = 0,10; p = 0,079) und in Bezug auf die Testleistungen im Schreiben im Falle eines gemeinsamen Unterrichtsbesuchs (b = 0,20; p = 0,087) akkurater ausfallen könnten.

Die für das Modell R4 zusätzlich berechneten standardisierten Regressionskoeffizienten ergaben, dass die Fremdeinschätzungen sprachlicher Fähigkeiten im Russischen am stärksten durch die Selbsteinschätzungen (β = 0,34) der Russischherkunftssprecher beeinflusst wurden, gefolgt vom Geschlecht der Urteilenden (β = 0,15).

7 Diskussion

Im vorliegenden Beitrag wurden Schülerurteile über die sprachlichen Fähigkeiten von Mitschüler(inne)n im Deutschen sowie den Herkunftssprachen Türkisch und Russisch mit dem Ziel in den Blick genommen, zu bewerten, ob und unter welchen Bedingungen sich diese als Indikatoren sprachlicher Fähigkeiten von Peers (z. B. im Rahmen egozentrierter Netzwerke) eignen könnten. Mit Hilfe solcher Indikatoren wäre es mit relativ geringem Aufwand möglich, die Qualität des sprachlichen Inputs durch relevante Interaktionspartner und deren Bedeutung für die individuelle Sprachentwicklung und den Bildungserfolg Jugendlicher weiter zu erforschen. Der Beitrag fokussierte vor diesem Hintergrund erstens auf Determinanten der Fremdeinschätzungen der sprachlichen Fähigkeiten von Mitschüler(inne)n, wobei es um die Prüfung von Merkmalen der eingeschätzten Peers ging, die die Fremdeinschätzungen über Testleistungen hinaus beeinflussen könnten (Fragestellung I). Zweitens wurde die Rangkomponente in Bezug auf Testleistungen im Lesen und Schreiben herangezogen, um die Frage nach der Urteilsakkuratheit der Fremdeinschätzungen zu klären (Fragestellung II). Und schließlich wurden Merkmale der urteilenden und beurteilten Schüler(innen) sowie deren Beziehung als Moderatoren der Urteilsakkuratheit untersucht (Fragestellung III).

7.1 Fragestellung I: Einflussfaktoren auf die Fremdeinschätzungen unter Kontrolle der objektiven Leistungsindikatoren

Für das Deutsche wurden leistungsbezogene Vorurteile gegenüber Schüler(inne)n sprachlicher Minderheiten (H1) erwartet (vgl. Zander et al. 2014). In der Tat zeigte sich, dass gegenüber monolingual deutsch aufgewachsenen Schüler(inne)n Peers mit anderer Herkunftssprache signifikant geringere Leistungsurteile erhielten, wobei diejenigen mit türkischem Sprachhintergrund am schlechtesten bewertet wurden. Dieser Effekt entspricht in seiner Richtung den möglicherweise aus den Medien bekannten Befunden den PISA-Studien (vgl. Stanat et al. 2010) und belegt nach Sprachhintergrund variierende leistungsbezogene Vorurteile bei den Jugendlichen.

Die Erwartung, dass die sprachlichen Fähigkeiten von Mädchen im Vergleich zu Jungen höher bewertet werden (wie z. B. bei Hinnant et al. 2009) bestätigte sich nicht (H2): Während sich im Russischen von vornherein kein Geschlechtereffekt zeigte, waren im Deutschen und Türkischen zunächst positivere Leistungsurteile bei der Einschätzung von Mädchen zu beobachten, wobei sich der Effekt unter Kontrolle von Urteiler- und Beziehungsmerkmalen verlor. Dagegen ergab sich in allen Sprachen, ein systematischer Einfluss des Geschlechts der Urteilenden, wonach Mädchen positivere Leistungsurteile vergaben. Vermutlich war der Effekt des Geschlechts der eingeschätzten Mitschüler(innen) mit dem Geschlechtereffekt der Urteilenden einerseits und der Beziehungsqualität andererseits konfundiert, denn Mädchen gaben zudem im Mittel eine höhere Beziehungsqualität zu den von ihnen gewählten (und zu über 78 % weiblichen) Peers an.

Vermutet wurde ferner, dass sich Schüler(innen) bei der Fremdeinschätzung an leicht beobachtbaren Verhaltensweisen orientieren, die mit motivationalen oder affektiven Merkmalen zusammenhängen (z. B. Rakoczy et al. 2008; Urhahne et al. 2010; Kaiser et al. 2013). Da keine direkten Indikatoren für solche Verhaltensweisen vorlagen, wurden die Selbsteinschätzungen sprachlicher Fähigkeiten der beurteilten Peers einbezogen, von denen erwartet werden kann, dass sie sich in Verhaltensweisen manifestieren (wie z. B. Unterrichtsbeteiligung, Gebrauch der Herkunftssprache), die sich leicht in Bezug auf sprachliche Kompetenzen interpretieren lassen. Gemäß der Erwartung ergaben sich über objektive Leistungsindikatoren hinaus Effekte der Selbsteinschätzungen sprachlicher Fähigkeiten der Peers auf die Fremdeinschätzungen (H3). Eine Limitation der Studie besteht allerdings darin, dass die Überprüfung der Annahme eines indirekten Zusammenhangs der Selbsteinschätzungen über beobachtbares Verhalten auf die Fremdeinschätzungen aufgrund der fehlenden objektiven Verhaltensindikatoren nicht möglich war. In allen untersuchten Sprachen war der Einfluss der Selbsteinschätzungen auf die Fremdeinschätzungen sogar stärker als der der Testleistungen. Dies galt insbesondere für das Russische, für das nach Kontrolle der Selbsteinschätzungen kein zusätzlicher Effekt der Testleistungen auf die Fremdeinschätzungen mehr zu finden war. Zu berücksichtigen ist jedoch, dass die Selbst- und Fremdeinschätzungen auf derselben Skala und zum Teil mit Hilfe derselben Items gemessen wurden. Der stärkere Zusammenhang zwischen diesen Indikatoren ist somit auch auf die höhere inhaltliche wie konzeptionelle Kongruenz der Maße zurückzuführen. Dafür sprechen die höheren Kriteriums-Urteils-Korrelationen bei Lehrerurteilen, wenn dieses und der zum Vergleich herangezogene Leistungstest auf derselben Metrik verortet ist und dieselbe Leistungsdomäne abbilden (z. B. Hoge und Coladarci 1989; Südkamp et al. 2012).

7.2 Fragestellung II: Urteilsakkuratheit der Fremdeinschätzungen

Hypothesenkonform zeigte sich eine signifikante, aber moderate Vorhersage der Fremdeinschätzungen sprachlicher Fähigkeiten durch die objektiven Testleistungen der eingeschätzten Peers (H4). Die Testleistungen im Lesen und Schreiben erklärten gemeinsam zwischen 12 und 16 % der Varianz der Fremdeinschätzungen im Deutschen, Türkischen und Russischen. Für das Leseverständnis allein lagen die Varianzaufklärungen zwischen 8 und 12 %, für Testleistungen im Schreiben zwischen 6 und 13 % (siehe Tab. 4 im Anhang). Als Vergleichsgröße zur Beurteilung der Urteilsakkuratheit können die in anderen Studien gefundenen Korrelationen zwischen Leistungsurteilen und Leistungstests quadriert herangezogen werden, die dem Anteil erklärter Varianz entsprechen. Für die Urteilsakkuratheit von Leistungsbeurteilungen durch Lehrkräfte ergaben sich in der Metaanalyse von Südkamp et al. (2012) durchschnittlich 28 % erklärter Varianz (bei r = 0,53), was deutlich höher ausfällt als in der vorliegenden Studie. Auch Pohlmann et al. (2004) fanden mit einem R‑Quadrat von 0,21 höhere Varianzaufklärungen der durch Mitschüler(innen) eingeschätzten Schülerselbstkonzepte im Deutschen durch die Deutschnote. Vergleichbar scheinen die im vorliegenden Beitrag ermittelten Varianzaufklärungen mit Zusammenhängen zwischen Selbstberichten sprachlicher Fähigkeiten und Testleistungen: Edele et al. (2015) berichten Varianzaufklärungen von 5–12 % für die Selbsteinschätzungen im Deutschen durch Schülerleistungen im Leseverstehen sowie 6–19 % bei Selbsteinschätzungen in den Herkunftssprachen Türkisch und Russisch durch einen Hörverständnistests.

Obwohl sich die Fremdeinschätzungen und verwendeten Leistungsindikatoren inhaltlich auf kongruente Konstrukte bezogen, fallen die Zusammenhänge eher moderat bis gering aus. Analog zu Selbsteinschätzungen sprachlicher Fähigkeiten lässt sich für Fremdeinschätzungen vermuten, dass diese als Prädiktoren für individuelle sprachliche Fähigkeiten von Schüler(innen) womöglich plausible Ergebnisse erzeugen, aber die Effekte sprachlicher Fähigkeiten von Peers aufgrund der Ungenauigkeit der Maße potentiell unterschätzt werden könnten (vgl. Edele et al. 2015). Vergleiche zwischen Modellen in denen der Einfluss sprachlicher Fähigkeiten von Peers mittels Fremdeinschätzungen gemessen wird und solchen, in denen testbasierte Leistungsinformationen verwendet werden, könnten hier weitere Erkenntnisse liefern.

7.3 Fragestellung III: Moderatoren der Urteilsakkuratheit

Als Moderatoren der Urteilsakkuratheit wurden Merkmale der eingeschätzten Peers (Sprachhintergrund und Geschlecht), Merkmale der urteilenden Schüler(innen) (kognitive Fähigkeiten und Geschlecht) sowie Merkmale auf Beziehungsebene (Beziehungsqualität, gemeinsamer Unterricht, geteilter Sprachhintergrund) geprüft. In Bezug auf Fremdeinschätzungen im Deutschen hatten sich negativ verzerrte Leistungsurteile gegenüber Schüler(inne)n mit nicht-deutscher Herkunftssprache gezeigt. In Bezug auf die Testleistungen von russischsprachigen Peers im Schreiben ergab sich nun, dass diese auch im Sinne der Rangkomponente inakkurater ausfielen.

Sowohl im Deutschen als auch in den Herkunftssprachen Türkisch und Russisch vergaben Mädchen höhere Fremdeinschätzungen. Eine Moderation der Urteilsakkuratheit durch das Geschlecht der Urteilenden ließ sich jedoch lediglich für das Deutsche nachweisen, wonach die überhöhten Fähigkeitsurteile von Mädchen in Bezug auf das Leseverständnis im Sinne der Rangkomponente inakkurater ausfielen. Das Geschlecht der beurteilten Mitschüler(innen) moderierte die Akkuratheit der Fremdeinschätzungen dagegen in keiner der untersuchten Sprachen. Die aus Theorie und Forschung abgeleitete Vermutung, dass die kognitiven Fähigkeiten der Urteilenden die Urteilsakkuratheit positiv moderieren könnte (z. B. Brantmeier und Vanderplank 2008; Südkamp et al. 2012; Kaiser et al. 2012), konnte weder für das Deutsche noch die Herkunftssprachen bestätigt werden (H5).

Die Analysen lieferten verschiedene Anhaltspunkte für die Annahme, dass die Urteilsakkuratheit von der Beziehung zur eingeschätzten Person moderiert wird (z. B. Marsh und Craven 1991; Funder 1995; Hayes und Dunning 1997). Erwartet wurden akkuratere Fremdeinschätzungen sprachlicher Fähigkeiten mit steigender Beziehungsqualität sowie im Falle eines gemeinsamen Unterrichtsbesuchs (H6). Im Russischen wurde die Rangkomponente in Bezug auf die Leseleistungen positiv von einem gemeinsamen Unterrichtsbesuch moderiert. Möglicherweise gilt dies auch in Bezug auf die Schreibfähigkeiten von Peers im Russischen sowie im Deutschen, allerdings konnten die gefunden Interaktionseffekte hier nur auf einem 10 %-Signifikanzniveau gegen den Zufall abgesichert werden. Eine positive Moderation der Urteilsakkuratheit mit steigender Beziehungsqualität ergab sich für Fremdeinschätzungen in Bezug auf die Testleistungen von Peers im Schreiben im Türkischen und in der Tendenz auch im Russischen (bei p = 0,079). Eine positive Moderation der Urteilsakkuratheit durch das Vorhandensein eines identischen Sprachhintergrunds (H7) ergab sich im Türkischen sowohl in Bezug auf die Testleistungen von Peers im Lesen als auch Schreiben. Dabei zeigte sich, dass die Leistungsurteile von Schüler(innen) ohne türkischen Sprachhintergrund tendenziell zu optimistisch ausfielen, während diese bei türkischsprachigen Urteiler(inne)n strenger, aber zugleich akkurater waren. Im Russischen blieb ein solcher Moderationseffekt erwartungswidrig aus, was daran liegen könnte, dass in der Studie auch Schüler(innen) (mit und ohne russischem Sprachhintergrund) vertreten waren, die Russisch als Fremdsprache lernten. Dies könnte erklären, warum sich Effekte des gemeinsamen Unterrichtsbesuchs bei den Fremdeinschätzungen im Russischen deutlicher zeigten als im Türkischen. Sollte dies zutreffen, sprächen die gefundenen Effekte in den Herkunftssprachen beide dafür, dass die Einschätzungen besser gelingen, wenn die Urteilenden selbst Kenntnisse in den betreffenden Sprachen haben. Allerdings kann mit den vorliegenden Daten nicht geklärt werden, ob der Effekt im Russischen tatsächlich auf einen gemeinsamen Fremdsprachenunterricht zurückzuführen ist.

7.4 Fazit

Über Fremdeinschätzungen der sprachlichen Fähigkeiten unter Schüler(inne)n war bisher kaum etwas bekannt. Im Hinblick auf die Einschätzungen herkunftssprachlicher Fähigkeiten von Peers lagen gar keine Befunde vor. Im vorliegenden Beitrag konnten systematische und signifikant positive Zusammenhänge zwischen fremdeingeschätzten Sprachfähigkeiten und den gemessenen Testleistungen von Jugendlichen anhand zweier Leistungsindikatoren im Deutschen, Russischen und Türkischen nachgewiesen werden. Die eingangs formulierte Frage, ob in Ermangelung objektiver Maße Fremdeinschätzungen als Proxys für sprachliche Fähigkeiten von Peers eingesetzt werden könnten, muss auf Grundlage der vorliegenden Daten jedoch abgelehnt werden. Dies ist mit der relativ geringen Urteilsakkuratheit im Sinne der Rangkomponente einerseits und andererseits den systematischen Verzerrungen der Urteile nach Merkmalen der eingeschätzten Peers, dem Geschlecht der Urteilenden und Beziehungsmerkmalen zu begründen. Für die Frage nach der Rolle der Qualität des sprachlichen Inputs von Peers für die individuelle Entwicklung sprachlicher Fähigkeiten bedeutet dies, dass entweder objektive Leistungsmaße für die Peers erfasst werden sollten oder andere Proxis für den sprachlichen Input herangezogen werden müssen (z. B. über die Erfassung der Sprachnutzung oder sprachbezogener Aktivitäten mit Peers).

Besonders bedenklich erscheint der Befund, dass bei gleicher Leistung die sprachlichen Fähigkeiten im Deutschen von herkunftssprachlich russischen sowie türkischen Schüler(inne)n signifikant schlechter bewertet wurden. Dies galt unabhängig von der Qualität der Beziehung zwischen urteilender und beurteilter Person und trotz der Tatsache, dass die Teilnehmenden überwiegend bereits in Deutschland geboren wurden und alle seit mindestens der dritten Klasse eine Schule in Deutschland besuchten (siehe Gogolin et al. 2017). Solche Vorurteile können negative Folgen für die Leistungsentwicklungen von Jugendlichen mit nicht-deutscher Herkunftssprache haben, da leistungsbezogene Selbstkonzepte wesentlich durch Rückmeldungen signifikanter Anderer geformt werden (vgl. Marsh 1990). Dies belegen Studien, die eine Leistungsbeeinträchtigungen durch Stereotypenbedrohungen für verschiedene ethnische Minderheiten insbesondere in sprachlichen Domänen nachgewiesen haben (siehe Nadler und Clark 2011 für eine Metaanalyse). Die Befunde sprechen deutlich dafür, dass Anstrengungen unternommen werden sollten, die negativen und unzutreffenden leistungsbezogenen Stereotype gegenüber lebensweltlich mehrsprachigen Schüler(inne)n abzubauen. In diesem Zusammenhang wären Studien wünschenswert, die Wirkungszusammenhänge zwischen Fremdeinschätzungen und Selbstkonzepten sprachlicher Fähigkeiten sowie die Konsequenzen von negativ verzerrten Leistungsurteilen gegenüber Schüler(inne)n mit sprachlichem Migrationshintergrund weiter fokussieren (wie z. B. bei Sander et al. 2017).

Die vorliegenden Ergebnisse deuten insgesamt auf eine heuristische Informationsverarbeitung bei der Beurteilung sprachlicher Fähigkeiten von Peers hin (siehe Herppich et al. 2018), wobei im Sinne eines Halo-Effekts (Nisbett und Wilson 1977) der Gesamteindruck zu einer Person sowie Leistungsstereotype eingehen. Welche Prozesse genau bei der Urteilsbildung abliefen, kann mit den vorliegenden Daten jedoch nicht geklärt werden. Interessant wären hier Studiendesigns, die weitere Merkmale der urteilenden Schüler(innen), wie z. B. motivationale Aspekte der Leistungsbeurteilung und Einstellungen berücksichtigen. Für ein besseres Verständnis darüber, welche Informationen bei der Bewertung sprachlicher Fähigkeiten von Peers genutzt werden, könnten ergänzend Einflüsse von Merkmalen der Peers, wie sprachprosodische Merkmale (z. B. der Akzent, siehe Anderson et al. 2007), motivationale Merkmale (z. B. Unterrichtsbeteiligung) sowie andere beobachtbare Verhaltensweisen (z. B. Leseverhalten, Sprachnutzung) untersucht werden.

Eine Limitation des Studiendesigns betrifft die geringen Fallzahlen innerhalb der Gruppierungsebene der urteilenden Schüler(innen). In Studien zur Urteilsakkuratheit von Lehrkräften werden Rangkorrelationen für die Urteile in der Regel auf Basis der Einschätzungen aller Schüler(innen) einer Klasse erfasst. In unserem Falle konnten aus befragungsökonomischen Gründen maximal drei Peers eingeschätzt werden, was sowohl die Ermittlung von Moderationseffekten einschränkt als auch dazu führen kann, dass sich Fehleinschätzungen stärker auf die ermittelten Regressionskoeffizienten auswirken. In Bezug auf die Beziehungsmerkmale konnten erwartungsgemäße Hinweise darauf gefunden werden, dass Gelegenheiten, die Eigenschaften von Peers zu beobachten, sich positiv auf die Urteilsakkuratheit auswirken (Funder 1995). Zugleich variierten diese je nach Sprache und dem für die Bewertung der Urteilsakkuratheit herangezogenen Leistungskriterium (Lesen, Schreiben). Zur weiteren Klärung könnte z. B. berücksichtigt werden, wie sich der Besuch eines gemeinsamen herkunftssprachlichen (ggf. auch fremdsprachlichen) Unterrichts oder auch die gemeinsame Nutzung der Herkunftssprache auf die Urteilsakkuratheit auswirkt. Zudem müssten Effekte der Beziehungsqualität mit größeren Stichproben untersucht werden, bei denen Urteiler(innen) mehr als nur drei Peers einschätzen. Es lässt sich vermuten, dass die Jugendlichen ohnehin ihre engsten Peers wählten (vgl. Dijkstra et al. 2008), sodass Unterschiede nach der Beziehungsqualität in der vorliegenden Studie nicht ausreichend gegeben waren.

Mögliche Verbesserungen schließen auch die Fremdeinschätzungen selbst ein. Diese stießen als Notenskala bei höheren Fähigkeitsurteilen an ihre Grenzen. Eine Erfassungsmethode, bei der Urteil und Kriterium auf derselben Skala verortet sind, hätte den Vorteil, dass über die Rangkomponente hinaus auch Aussagen über die Urteilsakkuratheit hinsichtlich des Leistungsniveaus sowie die Heterogenität der Schülerleistungen möglich wären (vgl. Karst 2017). Neuere Erkenntnisse zur Akkuratheit von Lehrerurteilen legen nahe, dass globalere Urteile geeignet sind, um die Rangfolge von Schülerleistungen einzuschätzen, wogegen die Beurteilung des Niveaus und der Streuung von Schülerleistungen differenziertere Maße erfordern (vgl. Karst et al. 2018). Ferner hätte es sinnvoll sein können, die Schüler(innen) darüber zu informieren, dass ihre Einschätzungen mit den erhobenen Tests im Lesen und Schreiben verglichen werden. Eine entsprechende Informiertheit moderierte nach Südkamp et al. (2012) die Korrelationen zwischen Urteil und Kriterium positiv.

Trotz der benannten Limitationen konnten mit der durchgeführten Studie wichtige Erkenntnisse gewonnen und die Möglichkeiten und Grenzen von Fremdeinschätzungen zur Erhebung sprachlicher Fähigkeiten von Peers im Rahmen klassischer (egozentrierter) Fragebogenerhebungen aufgezeigt werden. Einerseits deuten die Befunde auf Bedingungen, unter denen akkuratere Fremdeinschätzungen unter Schüler(innen) gelingen könnten (z. B. durch Urteile innerhalb von Klassengrenzen), andererseits belegen die Ergebnisse deutliche Grenzen von Fremdeinschätzungen als ökonomisches Verfahren zur Erfassung sprachlicher Fähigkeiten. So ist von der Nutzung dieser als Indikatoren tatsächlicher Kompetenzen von Peers in der hier untersuchten Form abzuraten. Nichtsdestotrotz erscheint die Beschäftigung mit Wahrnehmungsprozessen sprachlicher Fähigkeiten unter Schüler(inne)n auch unabhängig von der Frage nach ihrer Validität wichtig. Stereotype Überzeugungen können sich im Handeln manifestieren und damit Lernprozesse negativ beeinflussen (siehe Karst und Bonefeld 2020). So können beispielsweise Leistungserwartungen von Lehrkräften im Fach Deutsch bei gleicher Leistung gegenüber Schüler(innen) ethnischer Minderheiten negativ verzerrt sein (z. B. Lorenz et al. 2016), wobei das Ausmaß negativ verzerrter Leistungserwartungen den Umfang von Leistungsdisparitäten zwischen Schüler(inne)n mit und ohne Migrationshintergrund erklären kann (van den Bergh et al. 2010). Nun bestätigen die vorliegenden Ergebnisse, dass solche negativ verzerrten Leistungserwartungen auch unter (befreundeten) Schüler(inne)n vorzufinden sind (siehe Zander et al. 2014). Vor dem Hintergrund der ungleichen Bildungserfolgschancen von Schüler(inne)n mit und ohne Migrationshintergrund (siehe Stanat et al. 2010; Kempert et al. 2016) sollten leistungsbezogene Vorurteile insbesondere in sprachlichen Domänen ernst genommen werden und Peers als wichtiger sozialer Faktor für das Lernen auch im Hinblick auf negative Folgen von Stigmatisierungs- und Zuschreibungsprozessen weiter untersucht werden.