Theoretischer Hintergrund: Bezugsnormen und ihre Relevanz für das experimentbezogene Fähigkeitsselbstkonzept

Schüler und Schülerinnen (Schüler*innen) in Deutschland sind immer weniger von ihren naturwissenschaftlichen Fähigkeiten überzeugt (vgl. Schiepe-Tiska et al. 2016). Diese Entwicklung erscheint bedenklich, da Annahmen über die Höhe der eigenen Fähigkeiten in vielfältiger Weise das Erleben und Verhalten (Meyer 1984), das Interesse (Denissen et al. 2007; Ertl et al. 2014), die Erfolgserwartung (Priess-Groben und Hyde 2017) und die Leistungsmotivation (Eccles et al. 1983) beeinflussen. So werden auch Kurs‑, Berufs- und Karrierewahlen durch Fähigkeitsselbstkonzepte (FSK) bestimmt, da Erfolge prognostiziert werden, die als Entscheidungskriterien dienen (Köller et al. 2000; Ratschinski 2009; Ertl et al. 2014). Einen positiven Zusammenhang zwischen dem Fähigkeitsselbstkonzept und akademischer Leistung bestätigen Meta-Analysen (Hansford und Hattie 1982; Mabe und West 1982; Schöne et al. 2003; Köller et al. 2006). Ein Ziel des naturwissenschaftlichen Unterrichts sollte daher die Herausbildung eines realistisch-positiven naturwissenschaftlichen FSK sein (vgl. Schiepe-Tiska und Schmidtner 2013).

Das Fähigkeitsselbstkonzept beschreibt primär die aus deklarativem Wissen hervorgehende Einschätzung der eigenen Leistungsfähigkeit und weniger die Bewertung oder die Akzeptanz der eigenen Person (Helmke 1992; Spinath 2011). Mit der Einschränkung der Ausblendung der affektiven Komponente des allgemeinen Selbstkonzepts lässt sich das FSK – welches auch als akademisches oder schulisches Selbstkonzept (Shavelson et al. 1976; Marsh und Shavelson 1985; Stiensmeier-Pelster und Schöne 2008) bezeichnet wird – als multidimensionales, hierarchisches Konstrukt beschreiben, auf dessen unteren Hierarchieebenen sich auch die subjektiven Fähigkeitsüberzeugungen in spezifischen naturwissenschaftlichen Tätigkeiten verorten lassen (vgl. Dickhäuser 2006; Marsh et al. 1988; Shavelson et al. 1976; Autoren Jahreszahl). Aufgrund der zentralen Rolle des Experimentierens im naturwissenschaftlichen Erkenntnisweg (Heinicke und Peters 2014) und im naturwissenschaftlichen Unterricht (Barzel et al. 2012) kommt dem experimentbezogenen FSK im Kontext des naturwissenschaftlichen Unterrichts eine besondere Bedeutung zu. Analog zum Modell experimenteller Kompetenz (Schreiber et al. 2009) beschreibt das experimentbezogene FSK die subjektive Fähigkeitsüberzeugung, Experimente erfolgreich planen, durchführen und auswerten zu können.

Das experimentbezogene FSK von Schüler*innen ist – wie auch andere Facetten akademischer Selbstkonzepte (vgl. Ruploh et al. 2014) – zeitlich nicht stabil. Es kann durch praktischen Experimentalunterricht gesteigert werden (Autoren Jahreszahl). Dass die subjektive Überzeugung von der eigenen Experimentierfähigkeit zwar häufig, aber nicht notwendigerweise immer positiv mit der tatsächlichen experimentellen Performanz korreliert, belegen Schreiber et al. (2016). Bisher bleibt offen, welche Variablen diese Unterschiede in der Selbstbeurteilung der experimentbezogenen Fähigkeiten ausmachen. Relative Referenzrahmen, die von Heckhausen (1974) als Bezugsnormen definiert werden, sind als wesentliche Einflussgrößen von Fähigkeitsselbstkonzepten bekannt (Köller et al. 2006) und daher auch als relevante Einflussfaktoren experimentbezogener Fähigkeitsselbstkonzepte anzunehmen. Bezugsnormen dienen als Maßstab zur Selbst- und Fremdbewertung von Handlungsergebnissen (Sülz 2014) sowie von Fähigkeitseinschätzungen (Schöne et al. 2003). Eine Differenzierung von individueller, sozialer und kriterialer/sachlicher Bezugsnorm wird im Leistungsbereich vorgenommen (vgl. Heckhausen 1974; Dickhäuser und Rheinberg 2003; Jäger 2008).

Die individuelle Bezugsnorm ist der intrapersonale, temporale Vergleich der aktuellen eigenen akademischen Fähigkeiten zu früheren Fähigkeiten (vgl. Rheinberg 2001; Heckhausen 1974). Aufsteigende oder abfallende Leistungstendenzen im schulischen Kontext begründen demnach motivationale Konsequenzen für das FSK einer Person (Dickhäuser und Rheinberg 2003). Individuelle Vergleiche sollten entsprechend auch für die Ausprägung des experimentbezogenen Fähigkeitsselbstkonzepts Relevanz besitzen. Schüler*innen, welche sich im Laufe ihrer Schullaufbahn als zunehmend fähigere Experimentatoren erleben, sollten über ein höheres experimentbezogenes FSK verfügen, als Schüler*innen mit rückläufiger Experimentierleistung. Die individuelle Bezugsnorm gilt in der Selbstbewertung als vorherrschend bis durch den Eintritt in einen Schulklassenverband ein sozialer Vergleich mit Gleichaltrigen eintritt (vgl. Heckhausen 1974; Brunstein und Heckhausen 2018). Unter der sozialen Bezugsnorm wird der interpersonale Vergleich der eigenen Fähigkeiten mit den Fähigkeiten von Personen des sozialen Umfeldes verstanden (Dickhäuser und Rheinberg 2003). Die entsprechende Bezugsgruppe kann je nach Kontext variieren und in der Schule aus Gleichaltrigen einer Schul- oder Parallelklasse bzw. aus Kursteilnehmer*innen eines gewählten Faches bestehen. Gerade im schulischen Kontext werden die sozialen Vergleiche als wesentlicher Faktor für die Genese des Fähigkeitsselbstkonzepts gesehen (vgl. Helmke 1992; Stiensmeier-Pelster und Schöne 2008). Diese sozialen Bezugsnormen ziehen Personen beispielsweise maßgeblich heran, um den Schwierigkeitsgrad einer zu bewältigenden Aufgabe zu bewerten (Stiensmeier-Pelster und Schöne 2008). Gelingt es der Mehrheit der Bezugsgruppe eine Aufgabe erfolgreich zu lösen, wird diese als einfach bewertet. Die persönliche Einordnung der Schüler*innen hinsichtlich der Aufgabenbewältigung hat nachhaltige Implikationen für ihr FSK (Meyer 1973). Abhängig davon, ob der Vergleich der eigenen Leistungen mit den Leistungen anderer positiv oder negativ ausfällt, wirkt sich dies auch positiv bzw. negativ auf das Konzept der eigenen Fähigkeiten aus (Götz und Preckel 2006). Auf die Relevanz sozialer Vergleiche weist auch der häufig in Unterrichtskontexten zu beobachtende Fischteicheffekt hin. Dieser belegt, dass vergleichbar begabte Schüler*innen in leistungsfähigeren Schulen ein geringer ausgeprägtes FSK entwickeln als in leistungsschwächeren Schulen (vgl. Marsh 1987). Somit ist anzunehmen, dass Schüler*innen ebenso soziale Vergleiche ihrer Experimentierfähigkeit anstreben, um ihr eigenes experimentbezogenes FSK zu beurteilen. In der Regel wird noch eine weitere, kriteriale (sachliche) Bezugsnorm von den beiden erstgenannten unterschieden. Bei dieser wird die individuelle Leistung mit fixen Richtwerten in Beziehung gesetzt (vgl. Heckhausen 1974; Rheinberg 2001). Leistungen werden demnach bemessen nach den Anforderungen der Sache selbst (Heckhausen 1974). Diese Anforderungen repräsentieren also einen Schwellengrad an notweniger Bewältigung, um eine Aufgabe erfolgreich zu lösen. Im Kontext des naturwissenschaftlichen Unterrichts können sich diese Anforderungen z. B. in den Zielen und Kompetenzerwartungen der Lehrpläne (vgl. Heckhausen 1974; Dickhäuser und Rheinberg 2003; Stiensmeier-Pelster und Schöne 2008), in den verbalen Aufgabenstellungen durch Lehrkräfte sowie in den schriftlichen Aufgaben auf Arbeitsblättern oder in Experimentieranleitungen manifestieren. Die erfolgreiche Bewältigung kriterialer Anforderungen eines Experimentes sollte dementsprechend in einem höheren experimentbezogenen FSK der Schüler*innen münden.

Das experimentbezogene FSK sollte somit durch die positive Selbstbewertung durch gute Leistungen, die aus individueller Verbesserung (individuelle Bezugsnorm), überdurchschnittlichen Resultaten (soziale Bezugsnorm) oder dem Eintreten eines Lernzieles (kriteriale Bezugsnorm) münden, gesteigert werden (vgl. Dickhäuser und Rheinberg 2003). Bei der Leistungsbeurteilung lassen sich Unterschiede in der Bevorzugung bestimmter Bezugsnormen erkennen. Diese Präferenz wird als Bezugsnormorientierung (BNO) bezeichnet (vgl. Mischo und Rheinberg 1995; Dickhäuser und Rheinberg 2003). Ursprünglich wurden Bezugsnormorientierungen bei der Fremdbeurteilung (z. B. Lehrer beurteilt Schüler*in) erfasst (Mischo und Rheinberg 1995), sie lassen sich allerdings in gleicher Weise auf die Selbstbeurteilung übertragen (Schöne et al. 2004). Die Bevorzugung einer Bezugsnorm ist abhängig von der beurteilenden Person (Rheinberg et al. 1977). Zudem stellt sie keine ausschließende Dimension dar, da individuelle, soziale oder kriteriale Bezugsnormorientierungen auch gleichzeitig greifen können (Schöne et al. 2004). Empirische Ergebnisse zeigen, dass Grundschülern*innen die kriteriale Bezugsnormorientierung im Zusammenhang mit einer weiteren Bezugsnormorientierung (individuell oder sozial) präferieren, um ihre mathematischen Fähigkeiten zu beurteilen (Lohbeck 2017). Rheinberg et al. (1977) zeigten, dass Schüler*innen mit steigendem Alter – im Vergleich zu sozialen Bezugsnormen – zunehmend individuelle Bezugsnormen heranziehen, um die eigenen Fähigkeiten zu bewerten. Schöne et al. (2004) verorten zusätzlich einen Zusammenhang der Bevorzugung einer Bezugsnorm mit der Art des Zieles einer Handlung, bei der entweder die motivationale Ausrichtung in Kompetenzsteigerung (Lernzielorientierung) oder Kompetenzdemonstration (Leistungszielorientierung) liegt. Grund‑, Mittelstufen-, und Oberstufen-Schüler*innen mit einer hohen Lernzielorientierung bevorzugen demnach individuelle Bezugsnormen, leistungszielorientierte Schüler*innen dagegen soziale Bezugsnormen (Schöne et al. 2004). Welche Bezugsnormen Schüler*innen für die Einschätzung ihres experimentbezogenen Fähigkeitsselbstkonzepts heranziehen soll die im Folgenden berichtete Studie zeigen.

Methode

Ziel der Auswertung war die faktoranalytisch gestützte Generierung von drei bezugsnormbelasteten Skalen (kriterial, sozial, individuell) sowie einer nicht-bezugsnormbelasteten Skala (absolut) zur Erfassung des experimentbezogenen FSK, um anschließend mittels multipler Regression den Einfluss der bezugsnormbelasteten experimentbezogenen FSK auf das absolute experimentbezogene FSK zu untersuchen.

Itementwicklung

Das im Rahmen der vorliegenden Studie von uns neu entwickelte Messinstrument FbeFSK (Fragebogen zur Erfassung des bezugsnormbelasteten experimentbezogenen FSK) erhebt das absolute sowie das von sozialen, kriterialen und individuellen Bezugsnormen beeinflusste experimentbezogene FSK in vier Skalen aus jeweils fünfzehn Items. In Orientierung am dreigliedrigen Modell experimenteller Kompetenz nach Schreiber et al. (2009; siehe oben) berücksichtigt jede der vier Skalen sowohl die Fähigkeitsselbsteinschätzung bezogen auf die Planung, Durchführung und Auswertung von Experimenten. Während die Items der Skala absolut keinen Vergleichsmaßstab beinhalten (z. B. „Die zu einem Experiment benötigten Geräte kann ich problemlos bedienen.“; „Mit dem Schreiben von Versuchsprotokollen habe ich keine Probleme.“), berücksichtigen die Items der Skala sozial den sozialen Vergleich mit Mitschüler*innen (z. B. „Ein Experiment alleine nach einer Fragestellung zu entwickeln fällt mir leichter als meinen Mitschüler*innen.“; „Im Bedienen der benötigten Gerätschaften bin ich sicherer als meine Mitschüler*innen.“), die Items der Skala individuell den Vergleich zu der eigenen früheren Experimentierfähigkeit (z. B. „Grafiken aus Messdaten zu erstellen fällt mir leichter als früher.“; „Ein Experiment nach einer vorgegebenen Fragestellung zu entwickeln fällt mir leichter als früher.“) und die Items der Skala kriterial den Vergleich zu den Ansprüchen des Systems Schule (z. B. „Entstandene Messdaten des Experimentes kann ich so auswerten, dass sie den Anforderungen des Unterrichts gerecht werden.“; „Versuche fachgerecht vorzubereiten bereitet mir keine Schwierigkeiten.“). Während die Inhalte der Items vollständig neu formuliert wurden, orientiert sich die grundlegende Substrukturierung des FbeFSK in eine nicht von Bezugsnormen beeinflusste und in drei bezugsnormbelastete Fähigkeitsselbstkonzept-Skalen an den Skalen zur Erfassung des schulischen Selbstkonzeptes (SESSKO, Schöne et al. 2002, 2012), welche sich als reliables Messinstrument erwiesen haben. Zudem liegen Hinweise auf die faktorielle und kriteriale Validität des SESSKO vor (Schöne et al. 2002, 2003, 2012).

Stichprobe und Versuchsdesign

Das zuvor beschriebene Messinstrument wurde zu einem einzelnen Messzeitpunkt bei N = 169 Schüler*innen (NW = 98 ≙ 57,99 %, NM = 71 ≙ 42,01 %) der gymnasialen Oberstufe eingesetzt (Jahrgangsstufen: N10 = 97 ≙ 57,40 %, N11 = 69 ≙ 40,83 %, N12 = 3 ≙ 1,78 %; Durchschnittsalter = 16,3 Jahre). Sämtliche Teilnehmer*innen der Studie hatten mindestens ein naturwissenschaftliches Fach im vorausgegangenen Schulhalbjahr belegt (NBiologie = 140 ≙ 82,84 %, NChemie = 138 ≙ 81,66 %, NPhysik = 59 ≙ 34,91 %; Mehrfachnennung möglich). Die Bearbeitungszeit des Fragebogens betrug ca. 15–20 min zuzüglich einiger Minuten für die Instruktion.

Vorgehen bei der Datenauswertung

Vorbereitung des Datensatzes

Ein im Anschluss an die Erhebung festgestellter, fehlender kriterialer Bezug bei sechs der im Fragebogendokument vorhandenen fünfzehn Items der Skala kriterial, führte zum Ausschluss dieser sechs Items aus der Auswertung. Die Analyse der Daten erfolgte in SPSS 25. Fehlwerte sowie deren Zufälligkeit (MCAR-Test nach Little, vgl. Little 1988) wurden im Datensatz bestimmt und mittels EM-Algorithmus ersetzt. Ausreißer wurden über die Anomalie-Erkennung in SPSS bestimmt und aus der weiteren Auswertung ausgeschlossen.

Explorative Faktorenanalysen (EFA) inklusive Prüfung ihrer Voraussetzungen

Der resultierende Datensatz wurde hinsichtlich seiner Eignung zur Durchführung einer EFA geprüft (Kaiser-Meyer-Olkin-Kriterium, vgl. Kaiser und Rice (1974) und Barlett-Test, vgl. Bartlett (1951)). Eine konfirmatorische Faktorenanalyse wurde ausgeschlossen, da der neu entwickelte FbeFSK zwar die Substruktur des SESSKO nachempfindet, die vorliegenden Items aber vollständig neu entwickelt wurden. In Orientierung am Vorgehen bei der faktoranalytischen Betrachtung der bezugsnormbelasteten Skalen des SESSKO (vgl. Schöne et al. 2002; Sparfeldt et al. 2003) wurden in der hier vorliegenden Studie zwei explorative Faktorenanalysen (Hauptkomponentenalyse, Rotation: Varimax) durchgeführt und zwar einmal unter Einbezug der Items des absoluten experimentbezogenen FSK (vier zu extrahierende Faktoren: absolut, kriterial, sozial, individuell) und einmal unter Ausschluss der Items des absoluten experimentbezogenen FSK (drei zu extrahierende Faktoren: kriterial, sozial, individuell). Der dreifaktorielle Ansatz gründet sich in der Überlegung, dass das absolute FSK nicht in dem theoretischen Rahmen der Bezugsnormen zu verorten ist (vgl. Schöne et al. 2002). Da dieser Ausschluss der bezugsnorm-unabhängigen Items aus einer gemeinsamen Faktorenanalyse aber kritisch gesehen wird (vgl. Sparfeldt et al. 2003), wird in der vorliegenden Studie außerdem der o. g. vierfaktorielle Ansatz realisiert. Für die Einschätzung der tatsächlich vorliegenden Dimensionalität des Messinstrumentes wurde das Elbow-Kriterium herangezogen (vgl. Beavers et al. 2013). Ferner werden die prozentualen Anteile der durch die Faktoren aufgeklärten Gesamtvarianz der Items berichtet. Sowohl die drei- als auch die vierfaktorielle Lösung wurden unabhängig voneinander zur Konstruktion der Skalen sozial, kriterial, individuell und absolut genutzt. Items mit den höchsten Ladungen auf einem gemeinsamen Faktor wurden zu einer Skala zusammengefasst. Lagen die Höchstladungen allerdings auf einem inhaltlich unerwarteten Faktor oder wiesen die Items substanzielle Querladungen ≥0,4 auf (vgl. z. B. Noormann 2017), so wurden diese Items aus der weiteren Skalenkonstruktion ausgeschlossen. Faktorladungen unter <0,3 wurden als niedrig gewertet (vgl. Fromm 2012) und werden nicht berichtet. Als Hinweis auf die Stabilität der Faktorlösungen wurden zudem die Kommunalitäten der Items berechnet. Bei acht oder mehr Items pro Faktor und einer Stichprobengröße von N = 130 oder größer werden bereits niedrige (0,20 bis 0,40) bis mittlere Kommunalitäten (0,40 bis 0,60) als hinreichend erachtet, während sich bei Verringerung der Itemzahl pro Faktor die bei gleicher Kommunalität erforderliche Stichprobengröße deutlich erhöht (vgl. Bühner 2011). Da in die EFA mit drei zu extrahierenden Faktoren die bezugsnorm-unabhängigen Items nicht aufgenommen wurden, wurden im Falle des dreifaktoriellen Ansatzes in die weitere Skalenkonstruktion der Skala absolut alle fünfzehn zur Verfügung stehenden Items berücksichtigt.

Prüfung von Trennschärfe und Reliabilität

Es folgte eine Überprüfung der Trennschärfen (zufriedenstellend ab ri,t‑i2 > 0,40; vgl. Fisseni 1997) und Reliabilitäten (zufriedenstellend ab Cronbachs α > 0,70, vgl. Schmitt 1996) zwecks eventueller Optimierung aller Skalen. Die Summenscores der aus dem vier- und dreifaktoriellen Ansatz hervorgehenden Skalen wurden im Rahmen multipler Regressionsanalysen verwendet, um den Einfluss der bezugsnormbelasteten experimentbezogenen FSK auf das absolute experimentbezogene FSK zu untersuchen.

Multiple Regressionsanalysen inklusive Prüfung ihrer Voraussetzungen

Als Voraussetzungen der multiplen Regression wurden die Linearität der Zusammenhänge (Streudiagramme: bezugsnormbelasteter Prädiktor vs. absolutes experimentbezogenes FSK), Multikollinearität der Prädiktoren (Pearson-Korrelationen und Variance-Inflation-Faktor (VIF), VIF >2 ist tendenziell problematisch, vgl. Schneider 2007) sowie die Ausreißer (Cutoff-Werte für Ausreißer: standardisierte Residuen >|3|, vgl. Schlepper 2014; Hebelwerte >0,2, Huber 1981; Cook-Distanz >0,5, vgl. Kohn und Öztürk 2013), Autokorrelationen (Durbin-Watson-Statistik sollte innerhalb 1 und 3 liegen, vgl. Field 2013), Homoskedastizität (Trichterförmige Verteilung im Streudiagrammen – hier standardisierte Residuen vs. vorhergesagte Werte – deutet auf Heteroskedastizität hin, vgl. Tabachnick und Fidell 2014) und Normalverteilung (K-S-Test mit Lilliefors-Korrektur; p ≤ 0,05 bedeutet eine signifikante Abweichung von der Normalverteilung, vgl. Janssen und Laatz 2017) der Residuen geprüft. Die Signifikanz des Regressionsmodells wird – sowohl mit den Skalen aus der vier- als auch mit den Skalen aus der dreifaktoriellen Lösung – mittels ANOVA bestimmt. Zur Beurteilung der Varianzaufklärung werden jeweils R2 sowie das korrigierte R2 berichtet. Die relative Stärke des Einflusses der bezugsnormbelasteten experimentbezogenen FSK auf das absolute experimentbezogene FSK veranschaulichen die Regressionskoeffizienten.

Ergebnisse

Vorbereitung des Datensatzes

Unter Vorliegen der MCAR-Bedingung (MCAR-Test nach Little: χ2(753, N = 169) = 758,36, n. s.) wurden Fehlwerte (≤1,8 % pro Variable) mittels EM-Algorithmus ersetzt. Ausreißer wurden im Anschluss über die Anomalie-Erkennung in SPSS identifiziert. Drei Fälle mit einem – im Vergleich zur übrigen Stichprobe – relativ hohen Einflussmaß der primären Grundvariable (>0,09) beziehungsweise einem relativ hohen Anomalie-Index (>1,9) wurden aus den weiteren Analysen ausgeschlossen. Somit reduzierte sich die Stichprobengröße auf N = 166 Schüler*innen.

EFA

KMO-Koeffizient (KMO4 Faktor = 0,87, KMO3 Faktor = 0,88, vgl. Kaiser und Rice 1974) und Barlett-Test (χ24 Faktor(1431, N = 166) = 5556,96; p ≤ 0,001, χ23 Faktor(741, N = 166) = 3601,07; p ≤ 0,001, vgl. Bartlett 1951) bestätigten die Eignung dieses Datensatzes für die Durchführung einer explorativen Faktorenanalyse. Ein Elbow im Verlauf der Eigenwerte deutete bei Einbezug aller Items eine vierdimensionale Struktur des Messinstrumentes an (vgl. Beavers et al. 2013). Tab. 1 zeigt die Faktorladungen und Kommunalitäten der EFA unter Vorgabe vier bzw. drei zu extrahierender Faktoren (vgl. o. g. Methoden, vgl. Sparfeldt et al. 2003). Die Kommunalitäten der Einzelitems (vgl. Tab. 1) liegen überwiegend im mittleren bis vereinzelt hohen Bereich, was bei der vorliegenden Stichprobengröße einen Hinweis auf die Stabilität der Faktorlösungen liefert. Einige niedrige Kommunalitäten kommen allerdings vor. Die Faktoren des vierfaktoriellen Ansatzes erklären zusammen 48,77 %, die Faktoren des dreifaktoriellen Ansatzes (unter Ausschluss der nicht-bezugsnormbeeinflussten Items) 47,17 % der Gesamtvarianz der Items.

Tab. 1 Faktoren, Ladungen und Kommunalitäten der Skalen zum experimentbezogenen Selbstkonzept

In beiden durchgeführten EFA (vgl. Tab. 1) weist der überwiegende Anteil (s1 bis s13) der Items, die inhaltlich das von der sozialen Bezugsnorm belastete experimentbezogene FSK erfassen, die jeweils höchste Faktorladung auf einem gemeinsamen Faktor auf. Die Items s14 und 15 werden wegen unerwarteter Faktorladungen und die Items s1, s7, und s13 (4-Fakoren-EFA) bzw. s1 und s13 (3-Faktoren-EFA) wegen Querladungen ≥0,4 verworfen. Die verbleibenden zehn (4-Faktoren-EFA) bzw. elf Items (3-Faktoren-EFA) werden zu der Skala sozial zusammengefasst. Auch die Items i1 bis i10 (4-Faktoren-EFA) bzw. i1 bis i9 und i13 (3-Faktoren-EFA), welche das von der individuellen Bezugsnorm beeinflusste experimentbezogene FSK abbilden sollen, laden mit ihren höchsten Faktorladungen auf einen gemeinsamen Faktor. Die Items i11 bis i15 (4-Faktoren-EFA) bzw. i10 bis i12, i14 und i15 (3-Faktoren-EFA) werden wegen unklarer Faktorladungen, Item i1 (3-Faktoren-EFA) wird wegen einer Querladungen ≥0,4 verworfen. Die verbleibenden Items werden zu der Skala individuell zusammengefasst. Während der überwiegende Teil der kriterial belasteten Items (k1 bis k6) im dreifaktoriellen Ansatz ebenfalls deutlich auf einen gemeinsamen Faktor lädt, sind die Faktorladungen der Hälfte der kriterial belasteten Items im vierfaktoriellen Ansatz – unter Einbezug der nicht von Bezugsnormen belasteten Items (a1 bis a15) – nicht so konsistent. Zwar laden auch in der 4‑Faktoren-EFA die Items k1 bis k4 klar auf einen gemeinsamen Faktor. Auf denselben Faktor laden aber auch weitere nicht bezugsnormbelastete Items (a8 bis a15). Ebenso laden einige kriterial belastete Items (k5, k6, k8) gemeinsam mit den nicht-bezugsnormbelasteten Items a1 bis a7 auf den vierten Faktor. Da die Items k1 bis k4 im Wortlaut deutlich expliziter die kriteriale Bezugsnorm abbilden als die Items k5 bis k8 (z. B. k3: „Entstandene Messdaten des Experimentes kann ich so auswerten, dass sie den Anforderungen des Unterrichts gerecht werden“) und da die Items k1 bis k4 auf einen gemeinsamen Faktor laden, werden in die Konstruktion der Skala kriterial im vierfaktoriellen Ansatz lediglich diese Items einbezogen. Die bezugsnorm-unbelasteten Items, die ebenfalls mit k1 bis k4 auf einen gemeinsamen Faktor laden, werden verworfen, da sie inhaltlich keine kriteriale Bezugsnorm abbilden. Als Konsequenz werden im vierfaktoriellen Ansatz die Items a1 bis a7 in die weitere Konstruktion der Skala absolut einbezogen. Um später auch den Einfluss der Skalen des dreifaktoriellen Ansatzes auf das absolute experimentbezogene FSK untersuchen zu können wurden hier – der inhaltlichen Argumentation von Schöne et al. (2002) folgend – alle Items ohne Bezugsnormbelastung (a1 bis a15) in die Skalenkonstruktion einbezogen.

Trennschärfe und Reliabilität

Aufgrund zufriedenstellender Trennschärfen (h2 ≥ 0,30) und Reliabilitäten (Cronbachs α ≥ 0,77) mussten keine weiteren Items aus den Skalen ausgeschlossen werden (vgl. Tab. 2). Sowohl die aus dem vier- als auch dreifaktoriellen Ansatz hervorgehenden Skalen wurden hinsichtlich ihrer Eignung zur Durchführung multipler Regressionsanalysen getestet.

Multiple Regressionsanalysen

In beiden Ansätzen deuten Streudiagramme (bezugsnormbelasteter Prädiktor vs. absolutes experimentbezogenes FSK) auf die Linearität der modellierten Zusammenhänge hin. Residuenbasierte Hinweise auf Ausreißer (Std. Residuen4 Faktor < |2,44|; Std. Residuen3 Faktor < |2,77|, vgl. Schlepper 2014; Hebelwerte4 Faktor < 0,12, Hebelwerte3 Faktor < 0,12, vgl. Huber 1981; Cook-Distanz4 Faktor < 0,20, Cook-Distanz3 Faktor ≤ 0,29, vgl. Kohn und Öztürk 2013), Heteroskedastizität (keine auffällig trichterförmige Verteilung im Streudiagrammen der standardisierten Residuen vs. vorhergesagte Werte, vgl. Tabachnick und Fidell 2014) oder Abweichungen der Residuen von der Normalverteilung (D4 Faktor(166) = 0,05, p = 0,200, D3 Faktor(166) = 0,07, p = 0,084, vgl. Janssen und Laatz 2017) liegen in keinem der beiden Ansätze vor. Die Durbin-Watson-Statistik weist nicht auf extreme Autokorrelationen hin (Durbin-Watson4 Faktor = 1,82, Durbin-Watson3 Faktor = 1,65, vgl. Field 2013). Moderate Korrelationen der Prädiktoren (vgl. Tab. 3) sowie die VIF-Werte < 2 (VIF4 Faktor ≤ 1,52, VIF3 Faktor ≤ 1,55, vgl. Schneider 2007) liefern keinen Hinweis auf das Vorliegen von Multikollinearität. Die Durchführung multipler Regressionen erscheint daher zulässig.

Tab. 2 Item- und Skalenkennwerte
Tab. 3 Interkorrelationen der Skalen des experimentbezogenen FSK

Das postulierte und mittels ANOVA überprüfte Regressionsmodell (Prädiktoren: kriteriales, soziales und individuelles experimentbezogenes FSK; abhängige Variable: absolutes experimentbezogenes FSK) wird sowohl von den Daten aus dem vier- als auch dreifaktoriellen Ansatz gestützt (vgl. Tab. 4). Die gewählten Prädiktoren klären einen hohen Anteil (vgl. Cohen 1988) der Varianz des absoluten experimentbezogenen FSK auf. 40 % (Skalen aus dem 4‑Faktoren-Ansatz) bzw. 75 % (Skalen aus dem 3‑Faktoren-Ansatz) der Variation des absoluten experimentbezogenen FSK können durch den Einfluss der drei bezugsnormbelasteten FSK erklärt werden. Während bei Einsatz der Skalen aus dem vierfaktoriellen Ansatz alle Prädiktoren einen mindestens signifikanten (p ≤ 0,05) Einfluss auf das absolute experimentbezogene FSK haben, weisen bei Einsatz der Skalen aus dem dreifaktoriellen Ansatz lediglich der von der kriterialen sowie sozialen Bezugsnorm belastete Prädiktor einen signifikanten Einfluss (p ≤ 0,001) auf die abhängige Variable auf. Der Einfluss der individuellen experimentbezogenen FSK wird nur tendenziell (p < 0,10) gestützt. Beim Vergleich der standardisierten Regressionskoeffizienten wird deutlich, dass sowohl im vier- als auch dreifaktoriellen Ansatz das kriteriale experimentbezogene FSK den deutlich höchsten Einfluss auf das absolute experimentbezogene FSK hat. Der Einfluss der beiden anderen Prädiktoren fällt deutlich geringer aus. Während der Einfluss des sozialen und individuellen experimentbezogenen FSK im vierfaktoriellen Ansatz in Relation zueinander ungefähr gleich hoch ausfallen, ist ein Einfluss des individuellen experimentbezogenen FSK bei Einsatz der Skalen aus dem dreifaktoriellen Ansatz nicht zu belegen (vgl. Tab. 4).

Tab. 4 Multiple Regressionen zur Prädiktion des absoluten experimentbezogenen Fähigkeitsselbstkonzepts durch die bezugsnormbelasteten Fähigkeitsselbstkonzepte, β: (standardisierte) Regressionskoeffizienten, S.E.: Standardfehler; Einbeziehung der sich aus den Faktorenanalysen mit vier bzw. drei vorgegebenen Faktoren ergebenden Skalen (vgl. Tab. 1)

Diskussion

Ziel dieser Studie war es, die von Schüler*innen zur Beurteilung des experimentbezogenen Fähigkeitsselbstkonzepts herangezogenen Bezugsnormen zu untersuchen. Die als Konsequenz der Faktoren- und Reliabilitätsanalyse beschriebene Itemreduzierung führte zu einem Messinstrument, welches in vier trennscharfen, reliablen Skalen das absolute, sowie das von der sozialen, kriterialen und individuellen Bezugsnorm beeinflusste experimentbezogene Fähigkeitsselbstkonzept erfasst. Vor dem Hintergrund des notwendigen Ausschlusses relativ vieler Items der Skalen absolut und kriterial erscheint dennoch eine Überarbeitung der ausgeschlossenen Items für zukünftige Studien sinnvoll, um eine vollständigere inhaltliche Abdeckung der beiden Konstrukte und damit eine höhere inhaltliche Validität zu gewährleisten. Vielversprechend erscheint der Ansatz einer expliziteren Repräsentation der kriterialen Bezugsnorm in den ausgeschlossenen Items der Skala kriterial. Denn wie die Faktorladungen zeigen, trat das Problem der gemeinsamen Faktorladungen nicht bei den Items auf, in denen die Bezugsnorm bereits sehr explizit – im Sinne von „den Anforderungen des Unterrichts gerecht werden“ – abgebildet wurde.

Wie die Ergebnisse der beiden multiplen Regressionsanalysen übereinstimmend – unabhängig davon, ob die Skalen aus der drei- bzw. vierfaktoriellen Faktorenanalyse in die Auswertung einbezogen wurden – andeuten, ziehen die untersuchten Schüler*innen insbesondere kriteriale Vergleiche mit den Ansprüchen des Systems Schule heran, um zur Einschätzung ihrer absoluten Experimentierfähigkeit zu gelangen. Der Einfluss der sozialen und individuellen Bezugsnorm fällt hingegen wesentlich geringer aus. Dies überrascht zunächst, da im schulischen Umfeld häufig die sozialen Vergleiche als Faktor für die Genese akademischer Selbstkonzepte gelten (vgl. Helmke 1992; Wagner 1999). Auch der in verschiedenen Unterrichtskontexten zu beobachtende Fischteicheffekt deutet die Relevanz sozialer Vergleiche an (vgl. Marsh und Hau 2003). Der in der vorliegenden Studie festgestellte moderate Einfluss sozialer Vergleiche auf das absolute experimentbezogene FSK kann (und soll) aufgrund des Untersuchungsdesigns eine Relevanz des Fischteicheffektes für die Höhe des experimentbezogenen FSK aber nicht ausschließen. Zukünftige Studien wären unter Berücksichtigung der tatsächlichen individuellen Experimentierfähigkeit der Schüler*innen als Maß der Experimentierfähigkeit des Referenzfeldes zwecks Beurteilung der Relevanz des Fischteicheffektes wünschenswert. In diesem Kontext wäre es auch von Interesse zu untersuchen, ob die realisierten sozialen Vergleiche primär auf Personen mit höherer Experimentierfähigkeit gerichtet sind, wie es die von Festinger (1954) postulierte Tendenz von Aufwärtsvergleichen im Falle von Fähigkeitsvergleichen beschreibt. Hier wäre zudem zu prüfen, ob nicht gerade ein experimentierstarkes Lernumfeld durch die in diesem sozialen Umfeld vorherrschenden normativ differenzierten Lern- und Entwicklungsbedingungen – entgegen der Beobachtungen des Fischteicheffektes – größere individuelle Leistungsfortschritte erlaubt (vgl. Jerusalem 1997; Zurbriggen 2016). Eine solche individuelle Steigerung der Experimentierleistung ließe einen positiven Einfluss auf das experimentbezogene FSK erwarten, denn wie die vorliegende Studie zeigt, deutet sich ein – wenn auch moderater – positiver Einfluss der individuellen Bezugsnorm auf das experimentbezogene FSK an.

Eine Erklärung für die beobachtete Dominanz des Einflusses der kriterialen Bezugsnorm könnte in der Neutralität – der Personenunabhängigkeit – des kriterialen Bezugsrahmens (Lohbeck 2017) sowie im Gerechtigkeitsempfinden der Schüler*innen zu suchen sein: Schüler*innen empfinden die Bewertung durch eine Lehrkraft dann als besonders gerecht, wenn sie anhand einer kriterialen, nicht aber anhand einer sozialen Bezugsnorm der Lehrkraft erfolgt (Dalbert et al. 2007). Diese Empfindung der Schüler*innen deckt sich mit den Vorgaben der Bewertungsrichtlinien für Schüler*innenleistungen der Länder. So sieht §48 III SchulG NRW im Rahmen der Definition der Schulnoten eine Orientierung der Leistungsbewertung durch die Lehrkräfte an den Anforderungen, also an den kriterialen Ansprüchen des Systems Schule vor, welche sich u. a. in den schulischen Curricula manifestieren. Zudem soll allerdings die Leistungsbewertung auch den Stand des Lernprozesses der Schüler*innen abbilden (vgl. §48 I S.1 SchulG NRW), also die individuelle Entwicklung berücksichtigen. Sollte sich die Präferenz der Schüler*innen für bestimmte Bezugsnormen tatsächlich mit den von Lehrkräften im Rahmen der Leistungsbewertung herangezogenen Bezugsnormen decken, wäre in der vorliegenden Studie somit ein höherer Einfluss der individuellen Bezugsnorm zu erwarten gewesen. Rheinberg et al. (1977) stellen zudem fest, dass die Bezugsnormorientierung von Schüler*innen einem altersabhängigen Wandel unterliegt und dass insbesondere Schüler*innen der gymnasialen Oberstufe – wie sie in der vorliegenden Studie untersucht wurden – sich stärker an individuellen als an sozialen Bezugsnormen orientieren, im Vergleich zu Schüler*innen der Sekundarstufe I (Rheinberg et al. 1977). Eine Erklärung für den moderaten Einfluss der individuellen Bezugsnorm auf das experimentbezogene FSK in der vorliegenden Studie könnte in der relativ geringen Experimentiererfahrung vieler Schüler*innen (vgl. Seidel et al. 2007) – insbesondere das selbstständige Planen und Auswerten von Experimenten wird im naturwissenschaftlichen Unterricht nur wenig verlangt (vgl. Tesch und Duit 2004) – sowie in der wissenschaftsfernen Vorstrukturiertheit des Experimentalunterrichts (vgl. Höttecke und Rieß 2015) zu suchen sein. Die fehlenden Erfolgserlebnisse beim Experimentieren und die mangelnden Gelegenheiten Experimentierfehler zu begehen geben Schüler*innen möglicherweise nicht hinreichend Anlass zur Reflexion der eigenen Lernfortschritte (vgl. Gruber et al. 2006). Entsprechend setzen sie ihre heutigen Leistungen im Planen, Durchführen und Auswerten von Experimenten nicht zu ihren früheren Experimentierleistungen in Bezug.

Der in der vorliegenden Studie beobachtete deutliche Einfluss der kriterialen Bezugsnorm auf das absolute experimentbezogene FSK hat für die Praxis des Experimentalunterrichts hohe Relevanz. Die Schüler*innen gleichen demnach primär ab, ob sie den kriterialen Anforderungen des Experimentalunterrichts gerecht werden, um zur Einschätzung ihrer Experimentierfähigkeit zu gelangen. Da nur wenige Schüler*innen die schulischen Curricula zur Normierung schulischer Leistungsansprüche heranziehen dürften, betonen die vorliegenden Ergebnisse – in Übereinstimmung mit Hattie (2009) – die besondere Bedeutung der Person der Lehrkraft: Durch Auswahl geeigneter Experimentieraufgaben, Experimentieranleitungen und Experimentiermaterialien in Orientierung an curricularen Vorgaben und Zielen sowie durch individuelles Feedback zur Experimentierfähigkeit im praktischen naturwissenschaftlichen Experimentierunterricht vermitteln Lehrkräfte ihren Schüler*innen täglich die kriterialen experimentbezogenen Ansprüche des Systems Schule. Dass Feedback der Lehrkraft einen deutlichen Einfluss auf unterrichtliche Leistung der Schüler*innen hat (vgl. Hattie und Timperley 2007; Hattie 2009), welcher gegebenenfalls über FSK moderiert wird (Baadte und Schnotz 2014), ist anzunehmen. Fraglich ist aber, welche Form des Feedbacks besonders geeignet erscheint, um Schüler*innen im Experimentalunterricht zu einem positiven und gleichermaßen realistischen experimentbezogenen FSK zu begleiten. Insbesondere für attributionales Feedback, welches unterrichtliche Erfolge auf die persönlichen Begabungen von Schüler*innen zurückführt, ist ein positiver Einfluss auf unterrichtliche FSK belegt (Schunk 1982; Craven et al. 1991; Penn et al. 2001). Zwar überwiegt im Unterricht die Quantität des Feedbacks durch Mitschüler*innen gegenüber dem Feedback durch die Lehrkraft (vgl. Nuthall 2007), dennoch scheinen Schüler*innen Feedback einer Lehrkraft eher zu adaptieren (Miao und Badger 2006). Studien zum Einfluss des Feedbacks der Lehrkraft als kriterialer Vermittler der (Experimentier‑)Ansprüche des Systems Schule auf das experimentbezogene FSK der Schüler*innen erscheinen vor diesem Hintergrund von Interesse.

Auch wenn in beiden Regressionsanalysen die besondere Relevanz der kriterialen Bezugsnorm für die Höhe des absoluten experimentbezogenen FSK von Schüler*innen deutlich wird, fällt doch ein Unterschied in der Varianzaufklärung und in der absoluten Einflusshöhe der individuellen sowie der kriterialen Bezugsnorm zwischen beiden Ansätzen auf. Die sehr hohe Varianzaufklärung unter Einbezug der Skalen aus der 3‑Faktoren-EFA erklärt sich aus dem besonders hohen Einfluss der Skala kriterial in diesem Ansatz. Eine wesentliche Ursache dafür ist in dem vollständigen Einbezug aller Items der Skala absolut in die – auf den Skalen der 3‑Faktoren-EFA basierende – Regressionsanalyse zu sehen. Die Items a8–a15 der Skala absolut laden nämlich (wie deren Faktorladungen in der 4‑Faktoren-EFA zeigen) deutlich mit den Items der Skala kriterial auf einen gemeinsamen Faktor, was unweigerlich bei deren Einbezug in die Regressionsanalyse (wie in dem 3‑Faktoren-Ansatz gegeben) zu einer deutlichen Erhöhung des prädiktiven Charakters der Skala kriterial und zu einer Gefahr der Überschätzung ihres Einflusses führt. Dieser Gefahr begegnet der berichtete 4‑Faktoren-Ansatz durch Ausschluss der problematischen Items a8–a15, so dass die absolute Höhe des Einflusses der kriterialen Bezugsnorm hier ein realistischeres Bild liefert. Entsprechend erklärt sich auch der geringere Einfluss der individuellen Bezugsnorm im 3‑Faktoren-Ansatz aus dem eventuell überschätzten Einfluss der kriterialen Bezugsnorm in diesem Ansatz, denn dieser lässt – da die multiple Regressionsanalyse relative Bedeutungen der Prädiktoren aufzeigt (vgl. Budescu 1993) – die relative Relevanz der individuellen Bezugsnorm hier besonders gering erscheinen. Entsprechend sinnvoll erscheint – analog zum Vorgehen bei Sparfeldt et al. (2003) – der Einbezug der Items der Skala absolut in die EFA, wie dieser in dem berichteten 4‑Faktoren-Ansatz vorgenommen wurde. Auch das hierauf basierende multiple Regressionsmodell weist mit 40 % noch eine hohe Varianzaufklärung auf (vgl. Cohen 1988). Diese deutet allerdings auch an, dass noch weitere Einflussfaktoren für das absolute experimentbezogene FSK relevant sind.

Diese gilt es in zukünftigen Studien zu klären. So sollte insbesondere die Experimentiererfahrung erfasst werden, da Schüler*innen vergangene Ereignisse heranziehen, um ihre zukünftigen Erfolgserwartungen zu generieren (vgl. Faber 2012). Es erscheint allerdings wenig sinnvoll, ausschließlich die bisherige Experimentierhäufigkeit zu erfassen. Vielmehr wirken auch die subjektiven Interpretationen vorausgegangener Erfahrungen, vermittelt über die daraus resultierenden affektiven Reaktionen und Erinnerungen auf das Konzept eigener Fähigkeiten (vgl. Erwartungs-Wert-Modell, Eccles et al. 1983). Somit erscheint es relevant, die aus den positiven oder negativen Erfahrungen in Experimentiersituationen resultierenden Ursachenzuschreibungen für Erfolge bzw. Misserfolge beim Experimentieren als potentielle Einflussgrößen auf das absolute experimentbezogene FSK zu berücksichtigen. So ist in Orientierung am Schema der Kausalattributionen nach Weiner (1988) davon auszugehen, dass Schüler*innen in unterschiedlichem Ausmaß internale (Begabung und Anstrengung) sowie externale (Aufgabenschwierigkeit und Zufall) Ursachen für die Erklärung von unterrichtlichen Experimentiererfolgen bzw. -misserfolgen heranziehen. Bereits in anderen unterrichtlichen Kontexten wurden Zusammenhänge von Kausalattributionen und FSK belegt (Marsh 1984). Weiterhin wäre für zukünftige Studien eine differenziertere Erfassung der individuellen Bezugsnorm in Erwägung zu ziehen. Zwar ist die individuelle Bezugsnorm – so auch im vorliegenden Messinstrument – klassischerweise definiert als der temporale intrapersonale Vergleich der aktuellen eigenen akademischen Fähigkeiten zu früheren Fähigkeiten (vgl. Rheinberg 2001), Untersuchungen auf Basis des internal/external frame of reference models belegen darüber hinaus aber die Relevanz individueller interfachlicher Vergleiche für FSK (vgl. Skaalvik und Rankin 1992; Möller et al. 2009). Neben den externalen (= sozialen) Vergleichen werden hier internale Vergleiche der wahrgenommenen Fähigkeiten in einem Gebiet (z. B. Mathematik) mit den wahrgenommenen Fähigkeiten in einem anderen Gebiet (z. B. Sprachen) als relevante Größen für die Ausbildung fachspezifischer FSK gesehen (vgl. Skaalvik und Rankin 1992). Entsprechend sinnvoll wäre es daher, in kommenden Studien die Erfassung der individuellen Bezugsnorm auszuweiten, indem – neben temporalen Vergleichen mit der früheren Experimentierfähigkeit – zusätzlich Vergleiche zu anderen Fähigkeitsgebieten (z. B. Vergleiche zu sprachlichen, allgemein theoretischen bzw. allgemein praktischen Fähigkeiten) berücksichtigt werden. Eine Erweiterung des vorliegenden Modells um die beschriebenen Einflussgrößen könnte einen weiteren Beitrag zur Aufklärung der Varianz des experimentbezogenen Fähigkeitsselbstkonzepts leisten.