1 Einleitung

Lern- und leistungsbezogene Ängste gelten als motivationshinderlicher und leistungshemmender Faktor (Hembree 1990; Jonberg und Porsch 2017; Pekrun und Götz 2006; Sorvo et al. 2019). Zudem beeinträchtigen sie die kindliche Lebensqualität und emotionale Befindlichkeit (Pixner und Kaufmann 2013). In der Literatur werden die Begriffe Leistungsangst und Prüfungsangst (PA, im Engl. beides test anxiety) oft synonym verwendet und umfassen im Gegensatz zu allgemeinen schul- oder fachbezogenen Ängstlichkeitsmaßen (siehe auch Sorvo et al. 2019) kognitive und affektive Angst-Reaktionen (Worry- und Emotionality-Komponente, Zeidner 1998) von Lernenden in ausgewiesenen schulischen Leistungssituationen. Die PA kann auch als eine Facette der schulischen Leistungsangst beschrieben werden und bezieht sich dann explizit auf Test- und Prüfungssituationen im Unterricht, die mit Leistungsbewertungen verbunden sind (Pekrun und Götz 2006).

Die Mechanismen, die den Zusammenhang zwischen PA und Leistungsentwicklung erklären, sind komplex. Die Defizittheorie besagt, dass Leistungsdefizite in einem Fach langfristig die Entstehung von Ängsten begünstigen (Krinzinger et al. 2009), während andere Modelle Effekte einer durch Ängste induzierten Leistungsminderung beschreiben (Sorvo et al. 2019). Gemeinhin wird jedoch angenommen, dass PA und Leistung in einem reziprok negativen Zusammenhang stehen (u. a. Carey et al. 2016). Gepaart mit der Entwicklung von Vermeidungstendenzen kann langfristig ein Teufelskreis entstehen: Durch weniger intensive Auseinandersetzung mit dem Lernstoff wird weniger gelernt, was – bei nachfolgender ungünstiger Lernkurve – einen Anstieg leistungsbezogener Ängste begünstigen kann, wiederum gefolgt von negativen Effekten auf die Leistung (Hembree 1990; Pekrun et al. 2017).

Bislang gibt es wenige längsschnittliche Studien, die das Zusammenspiel von PA und Leistungsentwicklung am Ende der Grundschulzeit betrachten. Dabei besteht insbesondere im deutschsprachigen Raum Forschungs- und möglicherweise Handlungsbedarf, wenn man berücksichtigt, dass sich die Kinder zu diesem Zeitpunkt mit der Einführung von Noten im dritten und der anstehenden Übergangsentscheidung im vierten Schuljahr oft einem erhöhten (Leistungs‑)Druck ausgesetzt sehen (Pixner und Kaufmann 2013; Valtin und Wagner 2004).

Der Kontroll-Wert-Theorie zu Bedingungen und Wirkungen von Prüfungsangst von Pekrun und Götz (2006) zufolge, wird PA neben Leistungserfahrungen auch von Überzeugungen im Sinne eines Kontrollerlebens und der Valenz von Misserfolg und dessen Konsequenzen beeinflusst. Das akademische Selbstkonzept (aSK) ist definiert als die Wahrnehmung und Bewertung der eigenen akademischen Leistungsfähigkeit (Shavelson et al. 1976). Es zeigt bereits in der Grundschulzeit Zusammenhänge mit schulischer Leistung (Ehm et al. 2019; Faber 2012; Helmke und van Aken 1995; Kastens et al. 2013; Lipowsky et al. 2011). In der vorliegenden Untersuchung wird das Zusammenspiel der Entwicklung von PA und Leistung im Fach Mathematik von Kindern am Ende des dritten und vierten Schuljahres analysiert. Es wird überprüft, wie stabil sich das Konstrukt PA von der dritten zur vierten Klasse darstellt und welche reziproken Zusammenhänge zwischen den beiden Konstrukten bestehen. Ferner untersuchen wir, inwiefern die Ausprägung des aSK Einfluss auf diese Beziehung hat.

2 Theoretische und empirische Einbettung

2.1 Prüfungsangst am Ende der Grundschulzeit

Der Kontroll-Wert-Theorie nach (Pekrun und Götz 2006) beeinflusst PA als negativ-aktivierende Emotion das Lernen und die schulische Leistung auf drei Ebenen: Erstens werden bereits in der Vorbereitung auf Prüfungssituationen und in der Stoffaufarbeitung eher starre Lernstrategien, wie Auswendiglernen, effektiveren Strategien, wie Anstrengungsmanagement (z. B. sich Mühe geben, den Lernstoff zu verstehen) oder Überwachungsstrategien (z. B. sich selbst Fragen zu Lerninhalten stellen) vorgezogen. Zweitens beeinträchtigt PA die Motivation. So ist diese weniger intrinsisch und das Interesse am Stoff geht verloren. Drittens kann die Angst zu versagen bei starker Ausprägung kognitive Ressourcen binden, was insbesondere bei herausfordernden Aufgaben dazu führt, dass diese weniger effektiv gelöst werden. Misserfolg führt dann zur Entstehung oder Verstärkung von PA, wenn er bzw. seine Konsequenzen eine gewisse Wertigkeit (Valenz) für die Person haben. Zusätzlich spielt subjektiver Kontrollmangel, auch im Sinne einer Kompetenzüberzeugung, eine zentrale Rolle bei der Genese von Angst.

Während bei älteren Lernenden in der Regel negative Zusammenhänge zwischen PA und der Leistung zu finden sind, gibt es einige Untersuchungen, die diese Zusammenhänge in den ersten Schuljahren nicht bestätigen. So fanden Hembree (1988) und Krinzinger et al. (2009) keine Zusammenhänge zwischen PA und Leistung, obwohl die Lernenden Anzeichen von PA bei sich wahrnahmen. Wenn in Leistungssituationen komplexe Problemlösekompetenzen gefordert werden, das Arbeitsgedächtnis also stark belastet wird, konnten jedoch auch bei jüngeren Lernenden Zusammenhänge zwischen PA und Leistung nachgewiesen werden (Ramirez et al. 2013; Wu et al. 2012). Insgesamt lassen sich im Primarbereich Korrelationen zwischen r = −0,11 und r = −0,37 aufzeigen (Helmke 1997; Pixner und Kaufmann 2013) und tendenziell werden die querschnittlichen Zusammenhänge zwischen PA und Leistungsmaßen im Laufe der Schulzeit enger (Hembree 1988; Pixner und Kaufmann 2013).

Bisherige Studien, die den Zusammenhang von PA und Leistung querschnittlich korrelativ untersuchten, erlauben allerdings keine Rückschlüsse auf die Wirkungsrichtung des Zusammenhangs der Konstrukte. Gemeinhin werden diese Korrelationen derart interpretiert, dass die PA als Prädiktor der Leistung betrachtet wird. Wie bereits erwähnt, ist die Entwicklung von PA jedoch nicht als unabhängig von gemachten Lernerfahrungen zu sehen. Längsschnittliche Erhebungen, die reziproke Zusammenhänge zwischen PA und Leistungsmaßen am Ende des Primarbereichs untersuchen, sind uns dennoch nicht bekannt.

Ähnlich dünn ist die Befundlage bei der Frage nach der Stabilität der PA während der Grundschulzeit (z. B. Eden et al. 2013). Ältere Studien berichten bezüglich der mittleren Ausprägung der PA einen Anstieg in den ersten (Grund‑)Schuljahren bis hin zu einer Stagnation zu Beginn der Sekundarstufe (Hembree 1988). Zur korrelativen Stabilität von PA fanden Martschinke und Kammermeyer (2006) einen Zusammenhang von r = 0,50 (p < 0,05), gemessen je am Anfang und Ende des ersten Schuljahres. PA scheint sich erst über die Grundschulzeit hinweg zu entwickeln und ebenso festigen sich Zusammenhänge mit Leistungsmaßen über die Zeit (siehe zusammenfassend Cortina 2008). Es ist anzunehmen, dass die PA – ähnlich wie andere leistungsbezogene personen- und selbstbezogene Überzeugungen – bei Grundschulkindern noch kein habitualisiertes oder persönlichkeitsspezifisches Merkmal abbildet (Asendorpf 2005). Sie entwickelt sich sowohl durch das erhaltene leistungsbezogene Feedback, als auch durch soziale Vergleichsprozesse und die subjektiven Leistungs- und Erfolgsbewertungen der Lernenden (appraisal; Pekrun und Götz 2006).

Aufgrund der vorliegenden Studienlage zur Entwicklung der PA zum Ende der Grundschule bleibt unklar, ab wann sich die Ausprägung der PA stabilisiert und inwieweit in der Grundschule (a) vorherige Leistung die Entwicklung der PA, (b) die PA die Leistungsentwicklung beeinflusst, oder aber (c) sich keine bedeutsamen Unterschiede in der Stärke der Zusammenhänge zeigen. Dabei sind auch Besonderheiten des deutschen Schulsystems zu beachten, die in der internationalen Forschung keine oder andere Bewandtnis haben: Da im vierten Schuljahr die Übergangsempfehlungen anstehen und somit oft der Leistungsdruck (Wahrnehmung einer hohen Valenz bei gleichzeitigem Gefühl geringer Kontrolle des Ergebnisses) durch die Eltern und/oder die Schule ansteigt, ist hier eher eine Zunahme der PA zu erwarten, die nicht ausschließlich auf einen appraisal tatsächlicher Leistungsrückmeldungen zurückzuführen ist. Mit einer so begründeten Zunahme der PA wäre zu vermuten, dass weniger der Effekt der erbrachten Leistung auf die PA relevant ist, sondern vor allem die PA negative Effekte auf die zukünftige Leistungsentwicklung hat.

2.2 Zur Bedeutung des akademischen Selbstkonzepts im Kontext von Prüfungsangst

Das aSK gilt als bedeutendes motivationales Merkmal schulischer Leistung und hat, vermittelt über die Anstrengungsbereitschaft (Wigfield und Eccles 2000), positive Effekte auf die Leistungsentwicklung (Marsh 1990; Marsh und Craven 2006; Valentine et al. 2004). Für das aSK ist bekannt, dass zu Beginn der Schulzeit die Leistung das aSK beeinflusst (skill-development Ansatz), während später das aSK selbst ein Prädiktor akademischer Leistungen ist (self-enhancement) und sich im Laufe der Zeit reziproke Effekte festigen (Marsh und Craven 2006). Ab wann genau und inwiefern diese Verschiebungen bereits während der Grundschulzeit stattfinden, ist nicht eindeutig geklärt (z. B. Ehm et al. 2019; Helmke und van Aken 1995; Martschinke und Kammermeyer 2006). Welche Effekte sich nachweisen lassen, scheint laut Ehm und Kollegen (2019) vom methodologischen Ansatz sowie der Operationalisierung der Konstrukte und dem Abstand der Messzeitpunkte abzuhängen (Helmke und van Aken 1995). Als gesichert gilt jedoch ein korrelativer Zusammenhang beider Konstrukte bereits im Grundschulalter (Ehm et al. 2019; Faber 2012; Helmke und van Aken 1995; Kastens et al. 2013; Lipowsky et al. 2011). Selbst wenn das aSK im Primarbereich hauptsächlich im Sinne des skill-development Ansatzes auf Leistungsrückmeldungen aufbaut, gilt die Ausbildung eines positiv-realistischen aSK, gerade weil es sich im Laufe der Zeit stabilisiert (Trautwein und Möller 2016), als wünschenswert und zu Beginn der Schulzeit leistungsförderlich (vgl. auch Praetorius et al. 2016).

Verschiedene Studien konnten zeigen, dass Selbstkonzeptmaße negativ mit PA korreliert sind (Bandalos et al. 1995; Mammarella et al. 2018; Marsh 1990). In einer Metaanalyse berichtet Hembree (1988) einen mittleren Zusammenhang von r = −0,42 zwischen PA und Maßen zur Erfassung des self-esteem bei Grundschulkindern. Für die Skala Besorgtheit bzw. Worry („Beim Diktat muss ich oft daran denken wie viele Fehler ich mache“) berichtet Faber (2012) sogar einen Zusammenhang von r = −0,67 mit dem rechtschreibbezogenen aSK (siehe auch Schoreit 2016). Auf Individualebene scheinen ein hohes aSK und PA sich jedoch nicht zwangsläufig auszuschließen. So konnte Schoreit (2016) anhand latenter Klassenanalysen Schüler*innen identifizieren (ca. 20 % der untersuchten Stichprobe), die sich als kompetent einschätzten und sich dennoch ängstlich zeigten.

Fraglich ist, ob das aSK auch einen Einfluss auf die Beziehung zwischen PA und Leistung haben kann, oder sogar als Schutzfaktor fungiert. Nach Pekrun und Götz (2006) wäre zu erwarten, dass ein hohes aSK einerseits mit hohen Leistungen und hohem Kontrollerleben einhergeht und somit vor der Ausbildung von PA schützt. Andererseits können die Folgen von Misserfolgen für diese Schüler*innen eine hohe Valenz aufweisen, was die Entstehung von PA wiederum begünstigen würde. Vor allem aber könnte dies dazu führen, dass gerade bei diesen Kindern negative Effekte auf die Leistung durch leistungshemmende Prozesse hervorgerufen werden könnten. Das sollte insbesondere dann der Fall sein, wenn die Leistungssituationen (hier die anstehende Übergangsempfehlung) mit hohen Erwartungen, bspw. von Seiten der Eltern, verbunden sind. Kinder mit hohem aSK – und hoher Wahrscheinlichkeit eine Gymnasialempfehlung zu erhalten – könnten dann anfällig für leistungshemmende Wirkungen der PA sein, weil der Leistung eine besonders hohe Wertigkeit beigemessen wird und Leistungssituationen auch als selbstwertbedrohlich wahrgenommen werden („Meine Leistungen in den letzten Klassenarbeiten sollten die Erwartungen, die an mich gestellt werden, bestätigen“). Bei Schüler*innen, die über geringe Kompetenzüberzeugungen verfügen, kann eine Leistungssituation hingegen an Valenz verlieren, das potenzielle Scheitern ist ohnehin absehbar. Die fehlende Valenz des Misserfolgs würde dann dazu führen, dass vorhandene Prüfungsängste nicht unbedingt mit einer zusätzlichen Reduktion der Leistung einhergehen.

Bisher dominieren hier variablenzentrierte Zugänge. Für die Rechtschreibleistung hat Faber (2012) bereits Hinweise auf einen moderierenden Effekt des rechtschreibbezogenen aSK auf die Ausprägung der Leistungsangst in Abhängigkeit der Leistungsstärke finden können. Martschinke und Kammermeyer (2006) konstatierten für die ersten beiden Grundschulklassen eine Mediatorfunktion von Emotionen über das aSK auf die mathematische Leistung. Dass das aSK die Beziehung zwischen Leistung und PA mediiert, zeigt beispielsweise auch die Studie von Bandalos et al. (1995).

Mammarella et al. (2018) haben einen personenzentrierten Zugang gewählt und mit Hilfe latenter Klassenanalysen Schüler*innen mit unterschiedlichen Angstprofilen identifiziert. Sie konnten zeigen, dass Schüler*innen mit so genannten high-risk Profilen u. a. signifikant geringere aSK aufwiesen. Werden aSK mit solchen personenzentrierten Ansätzen untersucht, zeigt sich, dass in erster Linie Niveauunterschiede ausschlaggebend für die Zuweisung zu latenten Gruppen sind. Die Entwicklung des aSK ist am Ende der Grundschulzeit bereits vergleichsweise stabil (Praetorius et al. 2016) und Effekte des aSK unterscheiden sich in erster Linie in Abhängigkeit davon, ob das aSK hoch oder gering ausgeprägt ist (Marsh et al. 2009). Mit dieser Studie wählen wir ebenfalls einen personenzentrierten Ansatz, mit dem wir Schüler*innen mit verschiedenen Ausprägungen des aSK identifizieren und prüfen, inwiefern diese Unterschiede Auswirkungen auf die Entwicklung der PA und den Zusammenhang zwischen PA und Leistung haben.

3 Forschungsfragen und Hypothesen

Anhand der dargestellten Forschungslage ergeben sich folgende Fragestellungen:

1

Wie stabil ist die PA gemessen vom Ende des dritten bis zum Ende des vierten Schuljahres?

Ausgehend von bisherigen Studien zur Entwicklung von PA erwarten wir eine mittlere korrelative Stabilität. Aufgrund der unklaren Befundlage zur Entwicklung der PA am Ende der Grundschulzeit bleibt offen, ob diese im untersuchten Zeitraum eher zu- oder abnimmt.

2

Gibt es einen reziproken Zusammenhang zwischen PA und Leistung im vierten Grundschuljahr oder ist eine Wirkungsrichtung dominant?

Kinder am Ende der Grundschulzeit haben bereits (negative) Leistungsrückmeldungen erhalten. Es ist also davon auszugehen, dass der Kreislauf von Rückkopplungsprozessen zwischen der Entwicklung der PA und der Leistung im vierten Schuljahr bereits in Gang gesetzt ist. Wir erwarten daher reziproke Zusammenhänge zwischen den beiden Variablen. Gleichzeitig ist jedoch anzunehmen, dass in diesem Schuljahr external begründete Leistungserwartungen den Leistungsdruck auf die Lernenden erhöhen und somit der negative Effekt der PA auf die Leistungsentwicklung stärker ausfallen könnte.

3

Welchen Effekt hat das aSK auf den Zusammenhang zwischen Prüfungsangst und Leistung am Ende des vierten Schuljahres?

Vor dem Hintergrund der Kontroll-Wert-Theorie der Leistungsemotionen (Pekrun und Götz 2006) stellt sich die Frage, inwiefern die Ausprägung kompetenzbezogener Überzeugungen Effekte auf die Zusammenhänge zwischen PA und Leistung haben. Wenngleich bei Kindern mit hohen Kompetenzüberzeugungen im Mittel geringere Werte bei der Ausprägung der PA zu erwarten sind, ist zu vermuten, dass Angst die kognitiven Fähigkeiten dieser Kinder in Leistungssituationen dennoch beeinträchtigt. Die Angst vor Versagen in Leistungssituationen könnte für diese Kinder eine besonders hohe Valenz haben, da Versagen gerade bei leistungsüberzeugten Kindern als selbstwertbedrohlich wahrgenommen werden könnte. Gleichzeitig könnte ein hohes aSK davor schützen, dass schlechte Leistungen dazu beitragen, PA zu steigern (siehe Abschn. 2.2).

4 Methodik

4.1 Stichprobe

Als Datengrundlage werden Daten der PERLE-Studie, aus dem dritten und vierten Schuljahr herangezogen (t1 und t2). Die Erhebung fand jeweils am Ende des Schuljahres in 38 Schulen in Sachsen, Berlin, Mecklenburg-Vorpommern und Thüringen statt. Bezüglich des sozialen Hintergrundes handelt es sich um eine positiv selegierte Stichprobe mit einem mittleren HISEI von M = 62,56 (SD = 15,43; min = 20; max = 90); der mittlere HISEI des IQB-Ländervergleichs liegt bei M = 48,5; SD = 15,5 (Richter et al. 2012). 61,6 % der Schüler*innen haben am Ende des vierten Schuljahres eine Gymnasial- und 23,7 % eine Realschulempfehlung erhalten. Zu den für unsere Analysen genutzten MZP liegen Daten von N = 725 Kindern vor (50,90 % Mädchen). Vollständige längsschnittliche Daten für PA und Leistung in Klassen 3 und 4 sind von 622 Schüler*innen vorhanden. Bei der Erhebung im dritten Schuljahr waren diese durchschnittlich 9,3 Jahre alt, bei der zweiten Erhebung im vierten Schuljahr 10,3 Jahre alt.

4.2 Durchführung und Testinstrumente

Zur Beantwortung der oben genannten Forschungsfragen werden Daten herangezogen, die mit Schülerfragebögen erfasst wurden. Nach Angaben zur Messinvarianz (anhand der Kriterien von Chen 2007) ist die Annahme strenger Messinvarianz für PA und aSK zulässig. Eine Listung aller Items und Hinweise zur Datenerhebung finden sich im Anhang.

Zur Erfassung der Prüfungsangst Mathematik wurde die Skala von Schwarzer und Jerusalem (1999) verwendet. Diese besteht aus fünf Items. Das Antwortformat der Items war vierstufig (1 = ‚stimmt überhaupt nicht‘ bis 4 = ‚stimmt genau‘). Höhere Ausprägungen stellten dabei für alle Items höhere PA dar. Zwischen Worry und Emotionality wurde nicht unterschieden. Die Skala wies zu beiden MZP eine gute interne Konsistenz auf (Cronbachs Alpha: t1 = 0,85; t2 = 0,88). Die durchschnittliche Ausprägung liegt im dritten Schuljahr bei M = 2,56 (SD = 0,94) und bei M = 2,47 (SD = 0,88).

Mathematikleistung

Die mathematische Leistung der Lernenden wurde mittels eines standardisierten Schulleistungstests jeweils am gleichen Tag wie die mathematischen Selbstkonzepte erfasst. Die Tests wurden im Rahmen der PERLE-Studie entwickelt und stellen Adaptionen der für die jeweilige Klassenstufe konzipierten DEMAT-Versionen (u. a. Krajewski et al. 2002) sowie des TEDI-MATH (Kaufmann et al. 2009) und des LEst 4–7 (Moser et al. 2004) dar. Darüber hinaus wurden eigenentwickelte Aufgaben ergänzt (Greb et al. 2011). Der Fokus der Tests lag zu allen MZP auf arithmetischen Aufgaben (n Items t1 = 33; t2 = 18). Der Skalierung liegt ein dichotomes Rasch-Modell zugrunde, die Mittelwerte der WLE-Schätzer sind zu t1 = 3,99 (SD = 1,37) und zu t2 = 5,23 (SD = 1,36). Zur längsschnittlichen Skalierung der Skala dienten 18 Items aus t1 als Ankeritems, die Reliabilitäten der Skala sind gut (t1: EAP/PV = 0,71; t2: EAP/PV = 0,60).

Mathematisches Fähigkeitsselbstkonzept

Im Rahmen der PERLE-Studie wurde ein Fragebogen entwickelt, der es erlauben sollte, das aSK von Beginn bis Ende der Grundschulzeit längsschnittlich zu erfassen (s. Greb et al. 2011). Der Fokus lag dabei auf kognitiven Komponenten des aSK. Das Antwortformat der Items war dreistufig (1 = ‚nicht so gut‘, 2 = ‚gut‘, 3 = ‚sehr gut‘, für das genannte Beispielitem). Höhere Ausprägungen stellten dabei für alle Items höhere Selbstkonzeptausprägungen dar. Die interne Konsistenz des Konstruktes ist zu beiden Messzeitpunkten gut (Cronbachs Alpha: t1 = 0,89; t2 = 0,90). Der Skalenmittelwert liegt Ende des dritten Schuljahres bei M = 2,24 (SD = 0,47), Ende des vierten Schuljahres bei M = 2,23 (SD = 0,48). Die korrelative Stabilität des aSK liegt bei r = 0,71; p < 0,01.

4.3 Analysen

Um reziproke Zusammenhänge zwischen der PA und der Leistung zu untersuchen, wurden beide Variablen mit einem Cross-Lagged-Panel (CLP) in ein längsschnittliches Verhältnis gesetzt (Selig und Little 2012). So konnte neben den Zusammenhängen beider Konstrukte auch die Stabilität (als Autoregression) zwischen den MZP (Ende drittes Schuljahr und Ende viertes Schuljahr) aufgezeigt werden. Die Berechnung des Designs wurde mit dem Softwarepaket Mplus 8.4 (Muthén und Muthén 2012) vorgenommen. Die Skalen zur PA und dem aSK wurden z‑standardisiert.

In der vorliegenden Auswertung beträgt der Anteil fehlender Werte auf Itemebene (häufig als Indikator für systematische Fehler herangezogen, siehe auch Lüdtke et al. 2007) weniger als 2 %. Lediglich auf Klassenebene ergeben sich höhere Werte. Fehlende Werte auf Klassenebene sind auf Nichtteilnahme einzelner Kinder oder ganzer Klassen (wegen organisatorischer Hindernisse oder Krankheit) zurückzuführen. Daher gehen wir von zufälligen Effekten (MAR, Missing At Random) zur Entstehung der fehlenden Werte aus. Für den Umgang mit fehlenden Werten wurde die Full Information Maximum Likelihood (FIML)-Methode gewählt (siehe Lüdtke et al. 2007). Für alle Variablen liegen für Individuen (Schüler*innen) in Cluster (Klassen) geschachtelte Daten vor, es wurden alle CLP Modelle mit einem MLR Schätzer unter der Option type=complex spezifiziert.

Effekte des aSK auf den Zusammenhang zwischen PA und Leistung sind insbesondere für unterschiedliche Niveauausprägungen des aSK zu erwarten (siehe Abschn. 3). Um sowohl Zusammenhänge zwischen PA und Leistung in Abhängigkeit der Ausprägung des aSK längsschnittlich zu untersuchen und Unterschiede in der Entwicklung des aSK im vierten Schuljahr simultan berücksichtigen zu können, greifen wir auf den personenzentrierten Ansatz der latenten Profilanalyse (LPA) zurück. Dieses Verfahren erlaubt es, Gruppen von Schüler*innen mit unterschiedlichen Ausprägungen ihres aSK am Ende des dritten und vierten Schuljahres zu identifizieren. Bei einer korrelativen Stabilität des aSK im vierten Schuljahr von r = 0,71 ist anzunehmen, dass sich Schüler*innen vor allem in der intraindividuellen Ausprägung ihrer aSK zu den untersuchten Messzeitpunkten unterscheiden (vgl. Marsh et al. 2009). Unklar ist, ob sich auch unterschiedliche Entwicklungen in Abhängigkeit der Ausprägung zeigen.

LPAs stellen eine Sonderform latenter Klassenanalysen dar und eignen sich zur Ermittlung latenter Profilklassen bei kontinuierlichen Variablen (DiStefano 2012; Nylund-Gibson und Choi 2018). Die Annahme ist, dass die Ausprägungen eines Merkmals durch die Zugehörigkeit zu einer Klasse erklärt werden. Die Klassen spiegeln in diesem Fall Gruppen von Schüler*innen wieder, deren aSK-Ausprägung vom Ende des dritten Schuljahres bis zum Ende des vierten Schuljahres innerhalb einer Gruppe eine geringere Varianz (oder höhere Ähnlichkeit) aufweisen als zwischen Gruppen (longitudinal LPA; siehe Brinkman et al. 2013). Wir treffen damit keine Aussagen über Verlaufsformen, Kovariationen oder Stärken von Veränderung und nutzen die Gruppenzuweisungen als deskriptives Maß. Der Vorteil dieses personenzentrierten Verfahrens gegenüber clusteranalytischen Verfahren ist, dass sowohl die Zuordnung einer Person zu einer Gruppe als auch die Bestimmung der Anzahl extrahierter Gruppen auf einem Schätzverfahren basiert, dessen Ergebnisgüte anhand verschiedener Parameter darstellbar ist (DiStefano 2012; Ferguson et al. 2019). Da die in den Modellen als Indikatoren aufgenommen Variablen (aSK Ende drittes und Ende viertes Schuljahr) wie auch bei querschnittlichen Daten häufig der Fall, nicht unabhängig voneinander sind, wurden über den Befehl „%overall%“ Korrelationen zwischen eben diesen für alle extrahierten Klassen spezifiziert (siehe Marsh et al. 2009). Die LPAs wurden in MPlus 8.4 durchgeführt, die Ergebnisse sind in Abschn. 5.3 dargestellt.

5 Ergebnisse

5.1 Entwicklung und Stabilität von mathematischer Prüfungsangst

Insgesamt weisen im dritten Schuljahr 53,3 % der befragten Lernenden und 49,5 % im vierten Schuljahr einen Wert oberhalb des theoretischen Mittels von 2,5 auf. Eine Varianzanalyse mit Messwiederholung zeigt, dass die überdurchschnittlich ausgeprägte PA Ende des dritten Schuljahres (M = 2,56; SD = 0,94) zum Ende des vierten Schuljahres (M = 2,47; SD = 0,88) sinkt; F (1; 510) = 8,44; p < 0,05. Dieser Abfall ist jedoch mit η2 = 0,02 als eher schwach zu bezeichnen. Zudem können wir eine mittlere bis hohe korrelative Stabilität der PA (r = 0,56) verzeichnen.

5.2 Wirkungszusammenhang von mathematischer Prüfungsangst und Leistung über ein Schuljahr

Zu beiden Messzeitpunkten zeigen sich negative Korrelationen zwischen PA und Leistung von r = −0,30; p < 0,05 für das dritte und r = −0,32; p < 0,05 für das vierte Schuljahr. Das CLP (Abb. 1) zeigt, dass der Effekt der PA auf die Leistung mit β = −0,21 wie erwartet etwas stärker ausfällt, als der Effekt der Leistung auf die PA: β = −0,14. Allerdings ist der Unterschied zwischen den Kreuzpfaden statistisch nicht bedeutsam. Durch das Gleichsetzen der Kreuzpfade verschlechtert sich der Modellfit nicht (∆Chi2/df = 1,29/1; ∆RMSEA = 0,00; ∆CFI = 0,00; ∆TLI = 0,00; ∆SRMR = 0,00). PA und Leistung bedingen sich für die Gesamtstichprobe längsschnittlich reziprok: Lernende, die am Ende des dritten Schuljahres geringe mathematische Leistung aufweisen, entwickeln im vierten Schuljahr eher eine PA als Lernende mit höheren Leistungen. Gleichzeitig hat eine ausgeprägte PA am Ende des dritten Schuljahres negative Effekte auf die Leistungsentwicklung.

Abb. 1
figure 1

Cross-Lagged-Panel Modell von Prüfungsangst und Leistung Ende des dritten Schuljahres (t1) und Ende des vierten Schuljahres (t2). Abgebildet sind bivariate Korrelationen und Pfadkoeffizienten mit Standardfehlern in Klammern. (N = 622; n.s. nicht signifikant. Modellfit für das restringierte Modell (strikte Invarianz): Chi2/df = 185,050/59; RMSEA = 0,059; CFI = 0,949; TLI = 0,943; SRMR = 0,037; Modellfit für Modell ohne Restriktionen: Chi2/df = 178,025/50; RMSEA = 0,064; CFI = 0,948; TLI = 0,932; SRMR = 0,036. Chi-Quadrat Differenzentest für MLR Schätzer: Chi2/df = 15,013/9; p = 0,091)

5.3 Effekte des aSK auf den Zusammenhang zwischen Prüfungsangst und Leistung

Als bedeutsame Parameter zur Bestimmung der Modellgüte der latenten Profilanalysemodelle lassen sich der AIC, BIC und adjustierte BIC sowie der Lo-Mendell-Rubin (LMR) Test heranziehen. Das Entropy Maß gibt ergänzend die Güte der Klassenzuweisung an: Werte um 1 deuten auf eine große, Werte nahe 0 auf eine sehr geringe Klassifikationsgüte hin (Ferguson et al. 2019; Geiser 2011).

Verglichen werden die Parameter für drei Modelle mit 2‑ bis 5‑Klassen. Die Ergebnisse dieser Analysen sind in Tab. 1 dargestellt.

Tab. 1 Modellparameter der LPA Lösungen

Während der adjustierte LMR likelihood Test für alle Modelle mit mehr als zwei Klassen signifikant wird, zeigen sich für deskriptive Indices des Modellvergleichs (AIC, BIC und aBIC) kaum Unterschiede zwischen der 3‑ oder 4‑Klassenlösung. Trotz hoher Startwertesets von 5000 und 500 und 50 Iterationen, die zur Modellschätzung angesetzt wurden, lassen unterschiedliche loglikelihood-Werte für eine 4‑ und 5‑Klassenlösung jedoch das Vorhandensein lokaler Maxima vermuten. Dieser Umstand und auch die Betrachtung der anderen Modellparameter lassen den Schluss zu, dass eine 3‑Klassenlösung die robustesten Schätzer der Klassenzugehörigkeit liefert. Auch das Entropy Maß ist für diese Lösung am höchsten. In Tab. 2 sind die Wahrscheinlichkeiten für die Klassifikation der Personen und die Anzahl der Fälle pro Klasse für die 3‑Klassenlösung dargestellt. In Klasse 2 befinden sich mit 57 % etwas mehr als die Hälfte der Schüler*innen.

Tab. 2 Wahrscheinlichkeiten zur Güte der Klassenzuordnung, Anzahl an Fällen und Mädchen für jede der drei in der LPA ermittelten Klassen

Wie erwartet beschreiben die drei Klassen wie bei Marsh et al. (2009), Schüler*innen mit unterschiedlichen Niveauausprägungen des aSK: niedrige, mittlere und hohe aSK (siehe Tab. 3). Schüler*innen in Klasse 1 (geringes aSK zu beiden Messzeitpunkten) weisen geringere Leistungen und höhere PA auf, in Klasse 2 (mittleres aSK zu beiden Messzeitpunkten) sind die Schüler*innen mit mäßiger PA und mittelmäßigen Leistungen geclustert, während sich in Klasse 3 (hohes aSK zu beiden Messzeitpunkten) leistungsstarke Schüler*innen mit geringer PA befinden. Für alle drei Variablen zeigt eine MANOVA, dass diese Unterschiede in den mittleren Ausprägungen zwischen den Klassen zu beiden Messzeitpunkten signifikant sind. Post-Hoc Bonferroni Vergleiche weisen lediglich für die PA am Ende des dritten Schuljahres keinen signifikanten Unterschied zwischen Klasse 1 und Klasse 2 auf (mittlere Differenz = 0,29; SE = 0,16; p = 0,20).

Tab. 3 Deskriptive Kennwerte, korrelative Stabilität innerhalb der Klassen und Ergebnisse einer MANOVA zur Prüfung von Klassenunterschieden im Querschnitt und Varianzanalyse mit Messwiederholung zwischen Klassenzugehörigkeit und Messzeitpunkt, für alle drei Variablen

ANOVAs mit Messwiederholung und dem Faktor Zeit zeigen für das aSK signifikante Interaktionseffekte, die insbesondere auf den deutlichen Abfall des aSK in Klasse 1 und deutlichen Anstieg des aSK in Klasse 3 über die Zeit zurückzuführen sind (für alle post-hoc Bonferroni korrigierten Kontrastvergleiche p < 0,00). Schüler*innen, die am Ende des dritten Schuljahres bereits unterdurchschnittliche aSK aufwiesen, berichten am Ende der Grundschulzeit nochmals reduzierte aSK, für Schüler*innen mit hohen aSK finden sich gegenteilige mittlere Verläufe. Wie vermutet, zeigt sich kein signifikanter Haupteffekt für die PA über die Zeit, jedoch ein signifikanter Interaktionseffekt (η2 = 0,01): Schüler*innen mit geringen aSK zu beiden Messzeitpunkten (Klasse 1) weisen eine Zunahme der PA zum Ende der Grundschulzeit auf, für Schüler*innen mit hohen aSK (Klasse 3) zeigt sich ein Abfall der PA im vierten Schuljahr (für alle post-hoc Bonferroni korrigierten Kontrastvergleiche p < 0,00). Die PA für Schüler*innen mit mittleren aSK (Klasse 2) verändert sich nicht. Es bestehen keine Unterschiede zwischen den Klassen in den mittleren Verläufen der Leistungsentwicklung, weder der Haupteffekt noch die Interaktion der Varianzanalyse mit Messwiederholung sind signifikant. Die korrelative Stabilität des aSK und der PA ist in Klasse 1 besonders gering mit r = 0,20 und 0,26. Für die Klassen 2 und 3 zeigen sich höhere korrelative Stabilitäten aller drei Variablen mit r > 0,40.

Werden die Zusammenhänge zwischen der Entwicklung der PA und der Leistung in einem Mehrgruppen Cross-Lagged-Panel berechnet (Tab. 4), lassen sich die zuvor berichteten reziproken Effekte zwischen PA und Leistung nicht nachweisen. Für Kinder mit geringem aSK (Klasse 1) hat die Leistung Ende des dritten Schuljahres einen geringen, aber signifikanten negativen Effekt (ß = −0,18) auf die PA am Ende des vierten Schuljahres. Es zeigt sich kein Effekt der PA auf die Leistung. Für Kinder mit hohen aSK (Klasse 3) zeigt sich der umgekehrte Effekt: PA am Ende des dritten Schuljahres ist ein bedeutsamer negativer Prädiktor (ß = −0,28) für die Leistung Ende des vierten Schuljahres. Für Klasse 2 hingegen (Kinder mit mittleren aSK), zeigen sich gar keine Zusammenhänge zwischen PA und Leistung.

Tab. 4 Pfadkoeffizienten des Cross-Lagged-Panels für alle drei Klassen

6 Diskussion

6.1 Zusammenfassung und Interpretation der Ergebnisse

Die PA wies in dieser Studie für die Gesamtstichprobe eine mittlere bis hohe korrelative Stabilität auf, es ließ sich ein leichter mittlerer Abfall der PA nachweisen und es zeigten sich negative reziproke Zusammenhänge mit PA und Leistung.

Die Ergebnisse der LPA zeigen, dass sich drei Gruppen von Schüler*innen basierend auf der Ausprägung ihrer aSK zu zwei benachbarten Messzeitpunkten unterscheiden lassen: Schüler*innen mit zu beiden Zeitpunkten unterdurchschnittlichem aSK, welches innerhalb des vierten Schuljahres abfällt, Schüler*innen, die mittlere aSK zu beiden Zeitpunkten aufweisen und Schüler*innen mit überdurchschnittlich ausgeprägtem aSK, welches im Verlauf des vierten Schuljahres weiter zunimmt. Die Relevanz einer personenzentrierten Betrachtung wird deutlich, wenn man sich die klassenbezogenen Analysen zum Zusammenhang und der Entwicklung von PA und Leistungen ansieht: Eine Zunahme der PA ist vor allem für Schüler*innen mit zu beiden Zeitpunkten geringen aSK (Klasse 1) zu beobachten, während sie für diejenigen mit zu beiden Zeitpunkten hohen aSK (Klasse 3) sogar sinkt. Auch die Zusammenhänge zwischen PA und Leistung unterscheiden sich zwischen Schüler*innen mit hohen, mittleren und geringeren aSK und zeigen überraschende Ergebnisse: Während sich für Schüler*innen mit zu beiden Messzeitpunkten mittleren aSK (Klasse 2) keine Zusammenhänge zwischen PA und Leistung am Ende der Grundschulzeit zeigen, lassen sich für Schüler*innen mit hohen aSK negative Effekte der PA am Ende des dritten Schuljahres auf die Leistungsentwicklung nachweisen. Für Schüler*innen in Klasse 1 hingegen finden sich negative Effekte der Leistung auf die PA. Während bei Schüler*innen mit geringen Kompetenzüberzeugungen PA nicht unbedingt zu einer zusätzlichen Beeinträchtigung ihrer Leistungsentwicklung führt, zeigen sich für kompetenzüberzeugte Schüler*innen, dass das aSK nicht etwa zu einer höheren Resilienz beiträgt oder als Schutzfaktor fungiert, sondern Prüfungsangst hier bedeutsame negative Auswirkungen auf die Leistungsentwicklung haben kann. Hier zeigen sich, wenn auch nur bedingt vergleichbare, Parallelen zur Studie von Mammarella et al. (2018). Dort lag der Fokus auf der Entwicklung von Angstprofilen, welche zu einem Messzeitpunkt gebildet wurden, während hier nach aSK über zwei Messzeitpunkte (aufgrund der Stabilität des Merkmals) gruppiert wurde. Durch den unterschiedlichen Fokus zeigen sich bei uns differenziertere Ergebnisse: Nämlich, dass das aSK nicht grundsätzlich ein Protektor vor PA ist, wie bei Mammarella und Kolleg’innen (siehe auch Schoreit 2016).

Nach der Kontroll-Wert-Theorie zu Bedingungen und Wirkungen von PA (Pekrun und Götz 2006) könnten zur Erklärung dieser Befunde die Valenz von Misserfolg eine bedeutsame Rolle spielen: Leistungsstarke Schüler*innen mit hohen Kompetenzüberzeugungen haben zwar weniger Angst, fürchten aber möglicherweise Misserfolg stärker. Denkbar wäre zudem, dass unsere Befunde spezifischen, mit dem Erhalt von Übergangsempfehlungen verbundenen, Prozessen geschuldet sind: Schüler*innen mit hohem aSK und hohen Leistungen sollten zwar insgesamt eine hohe Kontrollierbarkeit in Leistungssituationen wahrnehmen, andererseits sind dies möglicherweise auch die Kinder, die hohe Erwartungen an sich selbst stellen oder an die mit Erhalt einer Gymnasialempfehlung hohe Ansprüche für den weiteren Schulverlauf kommuniziert werden (siehe Kastens und van Wickeren in Vorbereitung). Ist eine Leistungssituation jedoch mit hoher Valenz verbunden, ist auch die Voraussetzung für PA geschaffen (Pekrun und Götz 2006). So wäre denkbar, dass die Leistungen in Klassenarbeiten, die im untersuchten Zeitraum geschrieben werden, nicht nur an bisherigen Leistungen, sondern auch an der erteilten Übergangsempfehlung gemessen werden. Die Angst davor, dass es nicht gelingt, die an sie gestellten Erwartungen zu bestätigen, wären dann für diese Schüler*innen größer. In diesen Fällen ist die leistungshemmende Wirkung der PA dann bedeutsam (skill-impairment), während sich für Schüler*innen mit geringen aSK eine geringere Valenz der Übergangsempfehlung ergibt und dann geringe Leistungen eher Unsicherheit verstärken und negative Effekte auf die PA aufweisen (self-decrease).

Die Befunde unserer Studie können als Hinweis darauf gesehen werden, dass die Wirkrichtung zwischen PA und Leistung durch die Wahrnehmung von Leistungserwartungen oder Bewertungsangst beeinflusst werden. Sie zeigen zudem, dass personenzentrierte Ansätze wie die hier eingesetzte LPA nicht nur weitere Erklärungen zum Zusammenspiel von Leistung, PA und aSK liefern, sondern auch neue Fragen aufwerfen.

6.2 Grenzen und Ausblick

Die vorliegenden Analysen bieten durch das längsschnittliche Design die Möglichkeit, bislang nicht untersuchte Wandlungsprozesse zwischen PA, Leistung und aSK am Ende der Grundschulzeit zu betrachten. Zudem konnten wir zeigen, dass die Beachtung von Niveauunterschieden in der Ausprägung des aSK bedeutsam ist, um Unterschiede in der Entwicklung der PA zu erklären (siehe Marsh et al. 2009; Praetorius et al. 2016; Trautwein und Möller 2016).

Eine Einschränkung unserer Studie ist, dass bei der Operationalisierung der PA nicht zwischen Worry und Emotionality differenziert wird, obwohl sich beide Facetten phänomenologisch voneinander unterscheiden und sie unterschiedlich mit Leistung zusammenhängen (Hembree 1990; Sparfeldt et al. 2005; Zeidner 1998). Ferner hätte ein weiterer Messzeitpunkt zum Schulhalbjahr des vierten Schuljahrs die Möglichkeit geboten, anhand latenter Wachstumskurvenmodelle bspw. mögliche nicht-lineare Verläufe der untersuchten Variablen in diesem Schuljahr zu untersuchen und auch Gruppen mit unterschiedlichen Entwicklungsverläufen über die Zeit zu identifizieren (Kastens et al. 2013). Konkret stellt sich die Frage, ob der Erhalt des Halbjahreszeugnisses mit der Übergangsempfehlung einen Einfluss auf die Entwicklung der PA hat. Auch wenn Übergangsempfehlungen in den meisten Bundesländern nicht mehr bindend sind, stellen sie eine bedeutsame Leistungsrückmeldung an die Schüler*innen dar, oftmals verbunden mit erhöhten Leistungsanforderung in der Schule und elterlichen Erwartungshaltungen (Pixner und Kaufmann 2013; Valtin und Wagner 2004; Kastens und van Wickeren in Vorbereitung).

Anzumerken ist an dieser Stelle auch, dass es an zusätzlichen Maßen zur Erfassung von bspw. Valenzen, Attributionsmustern oder Zielorientierungen der Schüler*innen fehlt. Denkbar wäre, dass Entwicklungen der PA und deren Zusammenhänge mit der Leistungsentwicklung neben der Ausprägung des aSK auch davon abhängig sind, ob die Schüler*innen leistungs- oder lernzielorientiert sind (Putwain und Daniels 2010). Wir stellen mit dieser Studie einige Überlegungen an, wie differentielle Effekte der im Modell von Pekrun und Götz (2006) genannten Prozesse zur Entstehung von PA für den Übergang erklärbar sein könnten. Weiterführende Studien könnten diese anhand einer Stichprobe mit größerer Heterogenität bezüglich der erhaltenen Übergangsempfehlung, sozioökonomischem Hintergrund und Migrationshintergrund und unter Berücksichtigung der Bildungsaspirationen der Eltern überprüfen.

Die Ergebnisse haben eine hohe praktische Relevanz. Lehrkräften sollte bewusst sein, dass hohe und niedrige Fähigkeitsüberzeugungen in Leistungssituationen unterschiedliche Erwartungshaltungen verursachen können und damit sowohl selbstwertdienliche, als auch selbstwertschädliche Effekte haben können. Während Schüler*innen mit hohen Fähigkeitsüberzeugungen Leistungssituationen einerseits besser bewältigen und kontrollieren können sollten, zeigen die Ergebnisse dieser Studie auf, dass für manche dieser Kinder solche auch mit negativen Effekten auf die Leistungsentwicklung verbunden sein können, indem bspw. PA den Abruf oder die Vorbereitung auf Klassenarbeiten behindern. Bei Schüler*innen mit geringen aSK besteht hingegen die Gefahr der Entstehung einer Negativspirale zwischen PA und Leistungsentwicklung. Idealerweise gelingt es der Grundschule, wichtige Weichenstellungen für die weitere Bildungslaufbahn von Schüler*innen auch dadurch zu setzen, dass sie Schüler*innen darin unterstützt, nicht durch ungünstige motivationale und emotionale Faktoren in ihrer Lernentwicklung behindert zu werden.