Einleitung

Die motivationalen Orientierungen von Lehrkräften haben einen bedeutsamen Einfluss auf die Qualität ihres Unterrichts (Bleck 2019; Holzberger et al. 2014; Künsting et al. 2016), auf Leistungsmerkmale der Lernenden (Caprara et al. 2006; Mahler et al. 2018) und auf arbeitsbezogene Merkmale der Lehrperson wie beispielsweise die Jobzufriedenheit (Caprara et al. 2003) oder das subjektive Stressempfinden (Dicke et al. 2014). Nach dem Modell professioneller Handlungskompetenz von Lehrkräften nach Baumert und Kunter (2006; Kunter 2011) können die Selbstwirksamkeitserwartungen und der Lehrkräfteenthusiasmus als wesentliche Elemente motivationaler Orientierungen aufgefasst werden. Die Selbstwirksamkeitserwartungen von Lehrkräften umfassen dabei die allgemeine und die domänenspezifische Selbstwirksamkeitserwartung (Der Begriff Selbstwirksamkeitserwartung/en wird im Folgenden abgekürzt mit SWE). Analog wird beim Lehrkräfteenthusiasmus (LE) der allgemeine Unterrichtsenthusiasmus und der domänenspezifische Fachenthusiasmus unterschieden. Daneben werden den motivationalen Orientierungen von Lehrkräften auch die Berufswahlmotive oder intrinsische Orientierungen (z. B. Interesse) zugeordnet (Kunter 2011), jedoch zeigt sich, dass diese in der Forschung zu Lehrkraftkompetenzen und Unterrichtsqualität insgesamt weniger häufig untersucht werden. In der vorliegenden Studie modellieren wir motivationale Orientierungen daher durch die Konstrukte SWE und LE. Beiden Konstrukten ist inhärent, dass sie sich in einem fachlichen und kontextspezifischen Rahmen konstituieren (Mahler 2017; Rabe et al. 2012) und somit entsprechend auch fachspezifisch zu erfassen sind.

Zur Messung der allgemeinen SWE (Schmitz und Schwarzer 2002) und der domänenspezifischen SWE (STEBI in Bleicher 2004) sowie zur Messung des LE (Kunter et al. 2011) stehen diverse Messinstrumente zur Verfügung, die bezüglich valider Testwertinterpretationen untersucht und bereits häufig in Studien eingesetzt wurden. In ihren Vollversionen enthalten diese Messinstrumente für die allgemeine SWE zehn Items, für die domänenspezifische SWE 13 Items und für den LE zwei Subskalen mit insgesamt zehn Items und gelten als Langskalen (Brandt und Moosbrugger 2020). Folglich werden zur Erfassung der motivationalen Orientierungen von Lehrkräften nach dem Modell zur Lehrkraftkompetenz nach Baumert und Kunter (2006) beim Einsatz der Langskalen 33 Items benötigt. Insbesondere in Studien, die neben motivationalen Orientierungen weitere Variablen erfassen, kommen durch die Nutzung vieler Items lange Tests zum Einsatz, was einen Einfluss auf die Messgenauigkeit haben kann (Brandt und Moosbrugger 2020). Auf diesen potenziellen Nachteil weisen Beierlein et al. (2013) bei der Konstruktion ihrer Kurzskala zur Erfassung generischer SWE in sozialwissenschaftlichen Befragungen hin. Um Testermüdungseffekten (Süß und Schmiedek 2000) vorzubeugen, aber auch um die Testbelastung von Proband:innen gering zu halten, sind kurze, valide Skalen hilfreich, insbesondere wenn komplexe Fragestellungen die Messung diverser Variablen erfordern. Mit diesem Ziel wurde eine zeitökonomische Kurzversion zur Erhebung motivationaler Orientierungen von Lehrkräften mit zwölf Items, die MotOr-Skala, basierend auf den oben genannten Langskalen entwickelt und bezüglich ihrer Messeigenschaften in mehreren Schritten validiert.

Theorie und Stand der Forschung

Motivationale Orientierungen

In der Forschung zur Lehrkräfteprofessionalität hat sich in der Naturwissenschaftsdidaktik vorrangig das Modell professioneller Handlungskompetenz von Lehrkräften nach Baumert und Kunter (2006) etabliert und wurde bereits vielfach von diversen Fachdidaktiken zur domänenspezifischen Beschreibung von Lehrkraftkompetenzen adaptiert (z. B. Gawlitza und Perels 2013; Mahler et al. 2017; Vogelsang 2014). Die Handlungskompetenz von Lehrkräften umfasst in diesem Modell vier Kompetenzaspekte: Professionswissen, selbstregulative Fähigkeiten, Überzeugungen und Werthaltungen sowie motivationale Orientierungen. Motivationale Orientierungen beeinflussen das unterrichtliche Verhalten sowie die Handlungen von Lehrkräften in der Schule und bestimmen deren Intensität und Ausdauer (Holzberger et al. 2016; Schiefele und Schaffner 2015). Die motivationale Orientierung von Lehrkräften kann individuell und in Abhängigkeit zu den Persönlichkeitsmerkmalen unterschiedlich ausgeprägt sein (Klusmann 2011; Kunter 2011), sodass im Beitrag von motivationalen Orientierungen gesprochen wird. Die motivationalen Orientierungen von Lehrkräften werden in dem Modell der Handlungskompetenz von Lehrkräften wesentlich durch die zwei Teilaspekte SWE und LE abgebildet, wenn auch weitere Aspekte wie zum Beispiel die Berufswahlmotive oder die Zielorientierung (Thommen et al. 2021) subsumiert werden könnten. Die Berufswahlmotive wurden auch in unserer übergeordneten ResohlUt-Studie (Persönliche und arbeitsbezogene Ressourcen, Wohlbefinden und Unterrichtsqualität bei Biologie- und Mathematiklehrkräften) bei praktizierenden Lehrkräften erfasst. Die statistische Überprüfung der Berufswahlmotive ergab keine signifikanten Zusammenhänge zu anderen Variablen (z. B. Unterrichtsqualität) (Milius 2022). Vor diesem Hintergrund und weil die Berufswahlmotive bei praktizierenden Lehrkräften nur retrospektiv erfasst werden können (da die Berufsentscheidung in der Regel zu Beginn des Studiums getroffen wurde), haben wir dieses Konstrukt nicht in die Modellierung der motivationalen Orientierungen aufgenommen, und beziehen uns im Folgenden auf die SWE und den LE als Teilaspekte motivationaler Orientierungen von praktizierenden Lehrkräften.

Selbstwirksamkeitserwartungen bei Lehrkräften

SWE sind Teil der sozial-kognitiven Theorie von Bandura (1997) und beschreiben die „Überzeugung einer Person, über die Fähigkeiten und Mittel zu verfügen, um diejenigen Handlungen durchführen zu können, die notwendig sind, um ein definiertes Ziel zu erreichen – und zwar auch dann, wenn Barrieren zu überwinden sind“ (Baumert und Kunter 2006, S. 502). Demnach wird die Handlung einer Person durch die Wahrnehmung der eigenen Fähigkeiten beeinflusst und reguliert. SWE referieren also auf eine Fähigkeit, die vor der Handlungsausführung im Zusammenhang mit potenziellen Schwierigkeiten subjektiv bewertet wird (Meinhardt et al. 2018). Neben dieser generischen handlungsbezogenen Komponente sind SWE auch spezifisch auf Domänen bezogen. Dies begründet sich vorrangig durch die Domänenspezifität sowohl der dispositionalen Fähigkeiten (z. B. Fachwissen) als auch der Handlungssituation (z. B. Fachunterricht), in der sich SWE konstituieren (Baumert und Kunter 2006).

Vor diesem Hintergrund stellen Lehrkräfte-SWE die „optimistische Überzeugung der eigenen Fähigkeiten, schwierige Anforderungssituationen erfolgreich bewältigen zu können“ (Schmitz und Schwarzer 2002, S. 192) im Hinblick auf berufsspezifische Anforderungen des Lehrberufes dar. Erfolgreiches Unterrichten als eine Kernaufgabe des Lehrberufes ist nicht nur von wissensbezogenen Kompetenzen abhängig, sondern wird auch maßgeblich durch die SWE reguliert. Hierbei wird zwischen einer allgemeinen und einer domänenspezifischen Dimension von Lehrkräfte-SWE unterschieden (Rabe et al. 2012). Die allgemeine Lehrkräfte-SWE zielt auf generische Merkmale im Kontext unterrichtlichen Handelns (vgl. u. a. Schwarzer und Jerusalem 2002). Ein Beispiel hierfür ist, wie selbstwirksam und damit überzeugt von den eigenen Fähigkeiten, eine Lehrkraft eine Klasse führt, den Unterricht strukturiert oder den Lernenden soziale Unterstützung bietet. Die domänenspezifische Lehrkräfte-SWE greift hingegen fachspezifische Merkmale auf, die inhärent mit dem Kontext des Faches oder diesem selbst verbunden sind. Dies zielt beispielsweise darauf, wie eine Lehrkraft ihre (fachlichen) Fähigkeiten einschätzt, den Fachunterricht inhaltlich effektiv und wirksam zu unterrichten.

Forschungsstand zu Selbstwirksamkeitserwartungen bei Lehrkräften und deren Messung

Die Forschungsergebnisse zur Relevanz von SWE für den schulischen und unterrichtlichen Kontext lassen sich auf drei Ebenen zusammenfassen: Merkmale des Unterrichts, Merkmale der Lehrperson und die Merkmale der Lernenden (siehe auch Milius 2022). Hierbei gilt es zu berücksichtigen, dass sich die meisten der berichteten Befunde auf die allgemeine SWE und weniger auf die domänenspezifische SWE beziehen. Mit Blick auf den theoretisch begründbaren positiven Zusammenhang zwischen SWE und unterrichtsbezogenen Merkmalen wie Unterrichtsqualität oder die Planung und Organisation des Unterrichts durch die Lehrkraft gibt es sowohl Studien, die diesen bestätigen, als auch Studien, die keine Zusammenhänge finden (r = 0,00–0,59; vgl. supplementary material, Tab. A1 und Künsting et al. 2016; Tschannen-Moran und Hoy 2001). Hinsichtlich der Effekte von Lehrkräfte-SWE auf individuelle Merkmale der Lehrperson zeigt sich, dass SWE einen positiven Einfluss auf arbeitsbezogene Merkmale wie die Berufszufriedenheit oder das Arbeitsengagement haben (Caprara et al. 2003; Klassen et al. 2009; Skaalvik und Skaalvik 2016). Darüber hinaus belegen Forschungsergebnisse, dass SWE positive Effekte auf die Stresstoleranz (Klassen und Chiu 2011), das Belastungserleben in seiner Gesamtheit (Brouwers und Tomic 2000; Schmitz und Schwarzer 2000) und die emotionale Erschöpfung als Teil des persönlichen Belastungserleben (Dicke et al. 2014) von Lehrkräften haben und somit als eine Resilienzressource fungieren. Hinsichtlich der dritten Wirkungsebene von Lehrkräfte-SWE auf die Merkmale der Lernenden zeigen Studien, dass sich die SWE der Lehrkräfte positiv auf die Lernleistung der Schüler:innen auswirken (Bandura 1997; Caprara et al. 2006). Diese Ergebnisse konnten jedoch in vergleichbaren Studien nicht repliziert werden (Mahler et al. 2018; Zinke 2013).

Zur Erfassung der allgemeinen Lehrkräfte-SWE hat sich im deutschsprachigen Forschungsraum die Skala von Schmitz und Schwarzer (2000) etabliert. In Bezug auf die fachspezifische Erfassung wird im Bereich der Naturwissenschaften vor allem auf den STEBI (Science Teacher Efficacy Belief Instrument) von Riggs und Enochs (1990) in deutscher Übersetzung zurückgegriffen oder entsprechende Instrumente werden fachspezifisch entwickelt (vgl. für die Physik: Rabe et al. 2012; für die Biologie: Hinterholz und Nitz 2019; für die Naturwissenschaften: Handtke und Bögeholz 2019, 2020). Anzumerken ist hier, dass der STEBI in der Vergangenheit hinsichtlich verschiedener Qualitätskriterien zwar kritisiert wurde, er aber dennoch sehr weit verbreitet ist und in einer Mehrzahl von Studien eingesetzt wurde (siehe hierzu z. B. auch Meinhardt et al. 2018). Einen ausführlichen Überblick zur Erfassung von allgemeiner Lehrkräfte-SWE geben Tschannen-Moran und Hoy (2001). Handtke und Bögeholz (2019) zeigen eine umfangreiche Übersicht über die Erfassung und Wirkung von Lehrkräfte-SWE im naturwissenschaftlichen Kontext.

Lehrkräfteenthusiasmus

Das Konstrukt des LE kann konzeptuell sowohl als ‚instrumentell-strategisches Unterrichtsverhalten‘ als auch als ‚motivational-affektives Personenmerkmal‘ aufgefasst werden (Keller et al. 2015). Ersteres bedeutet ein Verhalten, das das enthusiastische und begeisterte Unterrichten einer Lehrperson umfasst und welches sich über Anhaltspunkte wie den Einsatz von Körpersprache oder Humor identifizieren lässt (Streeter 1986). Folglich kann diese Komponente von Enthusiasmus als strategisches Instrument im Unterricht eingebracht werden, um den Lernprozess von Schüler:innen positiv zu beeinflussen (Bleck 2019). Taxer und Frenzel (2015) haben in einer Studie mit Lehrkräften untersucht, wie häufig bestimmte Emotionen zum Ausdruck gebracht, gespielt oder versteckt werden. Hierbei wurde festgestellt, dass Enthusiasmus im Sinne von begeistertem Unterrichtsverhalten eine der am häufigsten durch Lehrkräfte gezeigten Emotionen im Unterricht ist, diese Emotion jedoch auch häufig nicht genuin erlebt, sondern aus strategischen Gründen vorgespielt wird (Taxer und Frenzel 2015). Die zweite Konzeptualisierung von LE als ein motivational-affektives Personenmerkmal beschreibt den Enthusiasmus hingegen als eine affektive, personenspezifische Disposition, die das subjektive Erleben von Freude, Erregung und Vergnügen widerspiegelt und sich in bestimmten Verhaltensweisen während des Unterrichtens im Klassenraum manifestiert (Kunter et al. 2011). Folglich ist der LE kein strategisch einsetzbares Unterrichtsverhalten, sondern eine der Lehrperson inhärente positive, subjektive und erfahrungsbasierte Emotion, die den Instruktionsprozess beeinflussen kann (Kunter et al. 2008). Beim Konzept des motivational-affektiven LE werden eine tätigkeitsbezogene sowie eine fachbezogene Dimension differenziert. Die tätigkeitsbezogene Dimension umfasst den Unterrichtsenthusiasmus, der sich durch die Begeisterung und Freude am Unterrichten sowie an der Unterrichtsinteraktion mit den Schüler:innen auszeichnet (Kunter et al. 2008). Die fachbezogene Dimension bildet den Fachenthusiasmus ab, der sich durch eine positive und mit Freude verbundene Emotion während der Auseinandersetzung mit einem Fach(-inhalt) ausdrückt (Holzberger et al. 2016). Diese Dimension unterstreicht die eingangs begründete Domänenspezifität motivationaler Orientierungen.

Forschungsstand zu Lehrkräfteenthusiasmus und dessen Messung

Diverse Studien haben die Bedeutung motivationaler Kompetenzaspekte für den Unterricht und dessen Akteur:innen empirisch festgestellt, entsprechend wächst auch die Literatur zum LE (z. B. Bleck 2019) als ein Aspekt motivationaler Orientierungen. Auch beim LE lassen sich die Wirkungsbereiche in Merkmale der Lernenden, Merkmale der Lehrperson und Merkmale des Unterrichts strukturieren (siehe auch Milius 2022). Hinsichtlich der Wirkung des LE auf die Merkmale der Lernenden zeigen Studien, dass der LE das Interesse, die (Lern‑)Freude und die Motivation der Lernenden im Unterricht positiv beeinflussen kann (Bleck 2019; Keller 2011; Keller et al. 2014; Mahler 2017). Mahler et al. (2018) zeigen, dass die fachbezogenen Leistungen von Lernenden ausschließlich durch den Fachenthusiasmus beeinflusst werden und nicht durch den allgemeinen Unterrichtsenthusiasmus. Ebenso deckt Kunter (2011) einen positiven Effekt des LE auf die Mathematikleistungen der Lernenden auf. Mehrere Studien belegen, dass Lehrkräfte mit einem hohen LE, insbesondere mit hohen Werten beim Unterrichtsenthusiasmus, ihre eigene Unterrichtsqualität höher einschätzen und somit der Unterrichtsenthusiasmus als ein positiver Prädiktor für die selbstberichtete Instruktionsperformanz dienen kann (Bleck 2019; Holzberger et al. 2016; Kunter et al. 2008; Praetorius et al. 2017; vgl. auch supplementary material, Tab. A1). Lazarides et al. (2021) zeigen außerdem einen positiven Zusammenhang (r = 0,27*–0,32*) zwischen dem LE und der Schaffung eines lernförderlichen Unterrichtsklimas als eine Dimension von Unterrichtsqualität, welche durch die Schüler:innen eingeschätzt wurde (vgl. supplementary material, Tab. A1). Der LE hat auch auf weitere Merkmale der Lehrperson einen signifikanten Einfluss. So zeigen etwa Kunter et al. (2011), dass Lehrkräfte höhere Werte bei der Jobzufriedenheit und dem Arbeitsengagement aufweisen, wenn sie über einen hohen LE verfügen. Darüber hinaus wurde belegt, dass ein negativer Zusammenhang zwischen dem LE und Merkmalen von Burnout besteht (Keller 2011).

Im deutschsprachigen Forschungsraum haben sich zur Erfassung von LE die Messinstrumente von Baumert et al. (2008) und Kunter et al. (2008, 2011) etabliert, welche mit Mathematiklehrkräften validiert wurden und in weiteren Studien, wie auch in dieser, entsprechend fachspezifisch adaptiert wurden (z. B. Lazarides et al. 2019; Mahler et al. 2018). Um Enthusiasmus insbesondere als instrumentell-strategisches Unterrichtsverhalten zu messen, können beispielsweise die Indikatoren nach Streeter (1986), welche vorrangig auf manifestes Verhalten der Lehrkraft (z. B. Gestik) abzielen, herangezogen werden.

Ziel der Studie: Valide Messung motivationaler Orientierungen mit einer Kurzskala (MotOr-Skala)

Bisherige Forschungsergebnisse zur reliablen und validen Erfassung der Konstrukte SWE (z. B. Schmitz und Schwarzer 2002) und LE (z. B. Kunter et al. 2011) belegen, dass bereits häufig verwendete und zuverlässige Messinstrumente existieren. Wie eingangs erwähnt, werden zur Erfassung aller Dimensionen motivationaler Orientierungen 33 Items benötigt. Vor dem Hintergrund, dass sowohl die SWE als auch der LE den Instruktionsprozess, die Leistungsmerkmale der Lernenden als auch die arbeitsbezogenen Merkmale der Lehrkräfte positiv beeinflussen, sollten in Forschungsprojekten zur Lehrkräfteprofessionalisierung und Unterrichtsqualität die motivationalen Orientierungen von Lehrkräften ebenfalls miterhoben werden. Insbesondere bei Studien, deren Forschungsfokus auf mehreren Variablen neben den motivationalen Orientierungen liegt, bedarf es eines reliablen und validen Kurzfragebogens zur Erfassung von SWE und LE (bspw. zur Überprüfung als Drittvariable), der gleichermaßen Anforderungen an Gütekriterien von Messinstrumenten erfüllt (Krebs und Menold 2014). Anknüpfend daran wird folgende Fragestellung bearbeitet: Inwiefern lassen sich die motivationalen Orientierungen von Lehrkräften der Naturwissenschaften mithilfe des zeitökonomischen Kurzfragebogens „MotOr-Skala“ reliabel und valide erfassen?

Konstruktions- und Validierungsansatz

Im Folgenden wird das methodische Vorgehen zur Konstruktion und Validierung der MotOr-Skala vorgestellt.

Für die Konstruktion und Validierung des Kurzfragebogens werden zunächst die motivationalen Orientierungen von Lehrkräften durch die jeweiligen Langskalen der genannten Instrumente zu SWE (allgemeine SWE: 4 von 10 Items aus Schmitz und Schwarzer 2002; domänenspezifische SWE: 13 Items aus Bleicher 2004) und LE (10 Items aus Kunter et al. 2011) erhoben. Anschließend werden konstruktspezifisch die Messmodelle mit konfirmatorischen Faktorenanalysen überprüft. Anhand empirischer Faktoren (Modifikationsindizes und Faktorenladung) sowie inhaltlicher Überlegungen (vgl. supplementary material, Tab. A3) wird der Kurzfragebogen mit zwölf Items (drei Items pro Dimension) zur Erfassung der motivationalen Orientierungen abgeleitet (siehe Studie 1). Die Festlegung der Itemanzahl pro Dimension ergibt sich aus der Forschung zu Testkonstruktion und insbesondere zu Kurzskalen, die nahe legt, dass Kurzskalen für effiziente Messverfahren so kurz wie möglich bei Einhaltung entsprechender psychometrischer Qualität wie bei Langskalen (z. B. interne Konsistenz, Reliabilität und Validität) gestaltet sein sollen (Ziegler et al. 2014). Zur besseren Anwendbarkeit der MotOr-Skala im Berufsalltag der ZielgruppeFootnote 1 Lehrkräfte wird die statistische Mindestzahl deshalb auf drei Items beschränkt (latente Variablen in Messmodellen sind meist erst ab drei Indikatoren schätzbar; Kline 2010 zitiert nach Gogol et al. 2014), um ein möglichst hohes Commitment beim Einsatz des Instruments in Studien mit Lehrkräften zu erreichen. In einer Studie zu motivationalen Variablen der akademischen Angst und des akademischen Selbstkonzepts von Schüler:innen haben Gogol et al. (2014) überprüft, inwiefern Kurzskalen (3-Items) und Ein-Item-Skalen ähnlich reliabel wie entsprechende Langskalen sind. Hierbei zeigten sich insbesondere bei den 3‑Item-Kurzskalen gute Reliabilitätswerte (Reliabilitätskoeffizient ω = 0,79–0,89) sowie hohe Korrelationen mit den jeweiligen Langskalen (Korrelationskoeffizient r = 0,92–0,97). Diese empirische Evidenz unterstreicht die Konstruktion von motivationalen Kurzskalen mit drei Items.

Im Anschluss an die Konstruktion der Kurzskalen wird die inhaltliche Validität, die strukturelle Validität und die externe Validität (von Aufschnaiter und Vorholzer 2019) empirisch geprüft. Die inhaltliche und strukturelle Validität, welche die Repräsentation des Konstrukts in den jeweiligen Items sowie die theoretische Annahme über die Struktur des Konstrukts abbildet, wird in Studie 2 mithilfe eines Expert:innenratings bewertet. Die externe Validität, die Zusammenhänge mit anderen Konstrukten erfasst, wird mithilfe einer Korrelationsanalyse zur Variable Unterrichtsqualität überprüft. Hierfür wird das Modell der Basisdimensionen von Unterrichtsqualität nach Klieme et al. (2006) mit der Differenzierung zwischen allgemeinen und eher domänenspezifischen Ausprägungen der Unterrichtsqualität herangezogen. Klassenführung und die Herstellung eines lernförderlichen Unterrichtsklimas stehen dabei eher für allgemeine, generische Unterrichtsqualitätsmerkmale, während die kognitive Aktivierung eher domänenspezifisch aufzufassen ist. Bei den Korrelationen der motivationalen Kurz- bzw. Langskalen mit der Unterrichtsqualität ist mit Bezug zu Seidel und Shavelson (2007) zu erwarten, dass (H1) die allgemeine SWE sowie der Unterrichtsenthusiasmus am stärksten mit den allgemeinen Aspekten von Unterrichtsqualität (Klassenführung und lernförderliches Unterrichtsklima) korrelieren. Ebenso ist zu erwarten, dass (H2) die domänenspezifische SWE und der Fachenthusiasmus vorrangig mit der Schaffung herausfordernder Lerngelegenheiten als einer fachspezifischen Dimension von Unterrichtsqualität zusammenhängen. In Tab. 4 werden die Hypothesen ausformuliert. Die Überprüfung, ob die Korrelationen sich statistisch signifikant unterscheiden, erfolgt nach Dunn und Clark (1969). Im Folgenden werden Konstruktion und empirische Validierung unter Studie 1 berichtet und die Expert:innenbefragung unter Studie 2.

Studie 1 – Konstruktion der MotOr-Skala und empirische Validierung

Die empirische Validierung der MotOr-Skala erfolgte im Rahmen der DFGFootnote 2 geförderten Längsschnittstudie „ResohlUt“, welche den Zusammenhang persönlicher und arbeitsbezogener Ressourcen mit der Unterrichtsqualität und dem Wohlbefinden von Lehrkräften untersuchte. In dieser Studie wurden von August 2018 bis Juli 2019 über einen Zeitraum von acht Wochen 175 Mathematik- und Biologielehrkräfte in sieben Bundesländern unter anderem zu ihren motivationalen Orientierungen (SWE und LE) und Unterrichtsqualität befragt. Für die empirische Validierung der MotOr-Skala wurden ausschließlich Daten des ersten Erhebungszeitpunkts herangezogen.

Stichprobe Studie 1

Datengrundlage für die Konstruktion und Validierung der MotOr-Kurzskala war die Teilstichprobe der Biologielehrkräfte (n = 111) aus der ResohlUt-Studie, welche durch eine zusätzliche Online-Befragung auf 152 Biologielehrkräfte erweitert wurde. Die Online-Befragung enthielt nur Items zu SWE und LE, weshalb sie nur für die Auswertung der Messmodelle (vgl. 5.4.1) herangezogen wurde.

Die befragten Biologielehrkräfte unterrichteten vorrangig am Gymnasium (69,1 %), 18,5 % an einer Realschule, 9,2 % an einer Gesamtschule, und 3,1 % machten keine Angaben. Die Lehrkräfte waren mit 69 % überwiegend weiblich und durchschnittlich seit 13,4 Jahren (SD = 8,75) im Schuldienst. Die Teilnehmenden waren zum Zeitpunkt der Datenerhebung zwischen 25 und 64 Jahren alt. Das Durchschnittsalter der Befragten betrug 41,6 Jahre (SD = 10,5). Die Biologielehrkräfte der Längsschnittstudie wurden über die Schul- und Fachleiter kontaktiert und mit Informationsmaterial zur ResohlUt-Studie versorgt. Die Lehrkräfte der zusätzlichen Online-Befragung wurden durch Onlineforen für Lehrkräfte (z. B. 4teachers) und durch eine Rundmail an Realschulen in Rheinland-Pfalz akquiriert. Als Anreiz zur Teilnahme wurden den Teilnehmenden eine individualisierte Auswertung ihrer Ergebnisse in anonymisierter Form (Pseudonymisierung durch persönlichen Code) und in sozialer Bezugsnorm zur Gesamtstichprobe im Anschluss an die Datenerhebung zur Verfügung gestellt. Weitere Incentives gab es nicht.

Messinstrumente

Die allgemeine SWE wurde in Anlehnung an die COACTIV-Studie mithilfe von vier von zehn Items der Skala von Schmitz und Schwarzer (2002) erfasst. Zur Erhebung der biologiespezifischen SWE wurden 13 Items aus der überarbeiteten Subskala „Personal Science Teaching Belief Scale“ des STEBI-Instruments nach Bleicher (2004) in deutscher Übersetzung herangezogen. Der LE mit den beiden Dimensionen Fach- und Unterrichtsenthusiasmus wurde mit jeweils fünf Items von Kunter et al. (2011) erfasst. Zusammenfassend wurden die motivationalen Orientierungen von Biologielehrkräften mit 27Footnote 3 Items erhoben. Skalenübergreifend wurde eine 6‑stufige Antwortskala (1 = stimme gar nicht zu bis 6 = stimme voll zu) verwendet. Die Daten der genannten Messinstrumente in ihren Langversionen dienten zur anschließenden Konstruktion der MotOr-Kurzskala (vgl. supplementary material, Tab. A2). Für die Überprüfung der externen Validität wurde die allgemeine Unterrichtsqualität mit den Subskalen Klassenführung (7 Items, classroom management, CM) und unterstützendes Lernklima (4 Items, UL) nach Baumert et al. (2008) durch Selbsteinschätzung der Lehrkräfte erhoben. Die domänenspezifische Unterrichtsqualität wurde durch die gekürzte Subskala ‚herausfordernde Lernmöglichkeiten‘ nach Förtsch et al. (2016) erfasst (challenging learning opportunities, CLO). Bei dem Instrument von Förtsch et al. (2016) handelt es sich um ein Fremdeinschätzungsinstrument, welches zur Selbsteinschätzung in unserer Studie verwendet wurde.

Auswertung Studie 1

Mithilfe konfirmatorischer Faktorenanalysen (kFA) wurden in einem kleinschrittigen Verfahren variablenspezifisch die Langskalen modifiziert und die Auswahl der Items für die MotOr-Kurzskala bestimmt. Hierbei wurden analog dem Konstruktionsvorschlag von Kurzskalen nach Gogol et al. (2014) bei jedem Item (a) psychometrische Indikatoren in Form des Modifikationsindizes (> 4, Saris et al. 2009) und der Faktorladungen (< 5) sowie ein daraus resultierender guter Modell-Fit überprüft sowie (b) inhaltliche Überlegungen (z. B. inhaltliche Redundanz) zur Modifikation herangezogen. In Tabelle A3 im supplementary material sind die Items der Lang- und Kurzskalen mit entsprechenden psychometrischen Eigenschaften (Faktorladungen und Modifikationsindizes) und ggf. inhaltlicher Eliminationsbegründungen aufgeführt. Als Gütemaße zur Bewertung des Modell-Fits wurden die Ergebnisse des χ2-Tests, der Signifikanztestung (p-Wert) und die Fit-Indizes Comparative-Fit-Index (CFI), Root-Mean-Square-Error (RMSEA) sowie Standardized-Root-Mean-Residual (SRMR) herangezogen. Folgende Cut-Off-Werte wurden für die Fit-Indizes nach Bühner (2011) sowie Sivo et al. (2006) zugrunde gelegt: χ2/df < 2,0, p > 0,05, CFI > 0,95, RMSEA < 0,08, SRMR < 0,10. Nach der Prüfung der faktoriellen Validität wurden neben der Analyse deskriptiver Parameter und Reliabilitätsmaße auch Korrelationen mit der Unterrichtsqualität als externem Validierungsprozess überprüft. Datengrundlage hierbei waren die Daten zum ersten Befragungszeitpunkt (t0). Alle Auswertungsschritte erfolgten mithilfe der Statistik-Software R (Version 4.0.3, estimator MLR, FIML).

Ergebnisse Studie 1

Skalenkonstruktion und faktorielle Validität

Die Modellgüte der SWE- und LE-Skalen wurden jeweils anhand kFA überprüft. Das ursprüngliche Messmodell der SWE (Langskala) umfasst einen übergeordneten Faktor mit zwei Subskalen (allgemeine und domänenspezifische SWE) und 17 Items. Die faktoranalytische Prüfung des hierarchischen Messmodells der Langskala ergab einen unzureichenden Modell-Fit (vgl. Tab. 1). Der unzureichende Modellfit der Langskalen ist vermutlich auf die geringe Stichprobengröße im Vergleich zur schätzenden Parameterzahl zurückzuführen (vgl. etwa Bühner 2011; Sedlmeier und Renkewitz 2018). Daher wurde das Messmodell der Langskala in einem kleinschrittigen Verfahren durch Einbezug der Faktorladungen (< 5), der Modifikationsindizes (> 4) sowie durch inhaltliche Abwägungen (z. B. Verzerrungspotential durch Formulierung, hohe abzielende Prospektivität im Vergleich zu den anderen Items oder starke inhaltliche Kohärenz zu anderen Items) um einzelne Items reduziert (vgl. supplementary material, Tab. A3). Nach der Modifikation umfasst das Messmodell der MotOr-Skala sechs Items, die sich paritätisch auf die beiden Subskalen der SWE verteilen. Der Modell-Fit dieses Messmodells ist im Vergleich zu dem der Langskala deutlich besser (vgl. Tab. 1).

Tab. 1 Modell-Güte der Langskala und konstruierten MotOr-Kurzskala im Vergleich. Dargestellt werden die χ2-Teststatistik, der p-Wert und die Fit-Indizes Comparative Fit Index (CFI), Root Mean Square Error of Approximation (RMSEA) sowie Standardized Root Mean Square Residual (SRMR) der Langskala und der MotOr-Skala der jeweiligen Subskalen (n = 152). (Adaptierter Nachdruck mit Genehmigung von Springer Nature: Springer Spektrum, Professionelle Kompetenz von Biologielehrkräften von M. Milius, Copyright, 2022)

Das Messmodell des LE (Langskala) umfasst ebenfalls einen übergeordneten Faktor mit zwei Subskalen (Fach- und Unterrichtsenthusiasmus) und insgesamt 10 Items. Auch hier ergab die Überprüfung der Anpassungsgüte des Messmodells der Langskala mittels kFA einen stellenweise unzureichenden Modell-Fit (vgl. Tab. 1). Folglich wurden nach dem genannten Verfahren vier Items aus der Langskala eliminiert und ein modifiziertes Messmodell (MotOr) mit sechs Items konstruiert. Das modifizierte Messmodell des LE weist einen besseren Modell-Fit als das ursprüngliche Messmodell der Langskala auf (vgl. Tab. 1). Beide modifizierten Modelle (SWE und LE) weisen neben den deutlich verbesserten Modell-Fits nun durchgängig Faktorladungen über sowie Modifikationsindizes unter den genannten Cut-Off-Werten auf (vgl. supplementary material, Tab. A3), was für eine ausreichend gute faktorielle Validierung der jeweiligen Konstrukte spricht. Beim Vergleich der Modell-Fits zwischen Lang- und Kurzskalen ist jedoch zu berücksichtigen, dass bei der Kurzskala die Zahl der zu schätzenden Parameter deutlich geringer ist als bei der Langskala, wodurch sich die Relation von Stichprobengröße zu zu schätzenden Parametern verbessert.

Itemanalyse

Im Folgenden werden die deskriptiven Kennwerte und Parameter der internen Konsistenz berichtet (vgl. Tab. 2). Die einzelnen Itemmittelwerte liegen für alle Skalen über dem Skalenmittel. Folglich liegen auch die jeweiligen Skalenmittelwerte im eher zustimmenden Bereich (vgl. Tab. 2). Auffällig sind hierbei die höheren Itemwerte bei der domänenspezifischen SWE im Vergleich zur allgemeinen SWE. Ebenso zeigen sich höhere Itemwerte beim Fachenthusiasmus im Vergleich zum Unterrichtsenthusiasmus. Die überprüften Parameter zur internen Konsistenz deuten auf eine gute Reliabilität der Skalen hin. Die Werte für Cronbachs Alpha liegen sämtlich über α > 0,80 und gelten daher als gut und zuverlässig (Blanz 2015). Ebenso liegt bei allen Items eine gute Trennschärfe über dem Cut-off-Wert von 0,30 vor, sodass alle Items an der Vorhersage des Gesamtergebnisses durch Beantwortung der Skala beteiligt sind (Döring und Bortz 2016).

Tab. 2 Deskriptive Kennwerte und Reliabilität der MotOr-Skala (n = 152). (Adaptierter Nachdruck mit Genehmigung von Springer Nature: Springer Spektrum, Professionelle Kompetenz von Biologielehrkräften von M. Milius, Copyright, 2022)

Externe Validierung

Anschließend an die Konstruktion der MotOr-Kurzskala und der damit einhergehenden faktoriellen Validierung wurden sowohl die Korrelationen der Kurz- und Langskalen untereinander als auch Korrelationen zu Subskalen der Unterrichtsqualität (allgemein und domänenspezifisch) analysiert (vgl. Tab. 3). Gleichermaßen wurden auch die Interkorrelationen zwischen den Subskalen der MotOr-Skala betrachtet. Bei den Korrelationen der motivationalen Kurz- bzw. Langskalen mit der Unterrichtsqualität wurde (wie oben dargestellt) erwartet, dass die allgemeine SWE (aSWE) und der Unterrichtsenthusiasmus (UE) am stärksten mit den allgemeinen Aspekten von Unterrichtsqualität (CM & UL) korrelieren, während die domänenspezifische SWE (dSWE) und der Fachenthusiasmus (FE) vorrangig mit der Schaffung herausfordernder Lerngelegenheiten (CLO) zusammenhängen (ausformulierte Hypothese siehe Tab. 4). Nach einer Überprüfung der Skalen auf Normalverteilung wurden in R die Korrelationskoeffizienten nach Pearson berechnet.

Tab. 3 Korrelationen der Kurzskalen motivationaler Orientierungen (unterhalb der Diagonale) und der Langskalen motivationaler Orientierungen (oberhalb der Diagonale) mit der Unterrichtsqualität sowie Korrelationen von Kurz- und Langskalen untereinander (in der Diagonale, kursiv hervorgehoben). Dargestellt sind der Korrelationskoeffizient r sowie signifikante Ergebnisse mit *p < 0,05 und **p < 0,01. Die selbsteingeschätzte Unterrichtsqualität gliedert sich in die Subskalen allgemeine Unterrichtsqualität (CM = Klassenführung, UL = lernförderliches Unterrichtsklima) und domänenspezifische Unterrichtsqualität (CLO = Schaffung herausfordernder Lerngelegenheiten). Die Variablen der motivationalen Orientierungen sind die SWE (aSWE = Allgemeine Selbstwirksamkeitserwartung, dSWE = Domänenspezifische Selbstwirksamkeitserwartung) und der LE (FE = Fachenthusiasmus, UE = Unterrichtsenthusiasmus). Datengrundlage waren die Daten der Längsschnittstudie (n = 111) ohne die Online-Befragung
Tab. 4 Übersicht zu den Annahmen an die Korrelationsanalyse der Kurz- und Langskalen (aSWE = Allgemeine Selbstwirksamkeitserwartung, dSWE = Domänenspezifische Selbstwirksamkeitserwartung, FE = Fachenthusiasmus, UE = Unterrichtsenthusiasmus) mit der Unterrichtsqualität [allgemein (CM = Klassenführung, UL = lernförderliches Unterrichtsklima) und domänenspezifisch (CLO = Schaffung herausfordernder Lerngelegenheiten)] und deren Ergebnisse (Vergleich der Korrelationskoeffizienten r). Ein Haken steht für die Übereinstimmung der Tendenz mit der Annahme, ein Kreuz für die Abweichung von der Annahme. Zusätzlich wurden nach Dunn und Clark (1969) die Korrelationen miteinander verglichen und die entsprechende Statistik berichtet

Betrachtet man zunächst die Korrelationen der Kurzskalen mit ihren jeweiligen Langskalen (Diagonale in Tab. 3), zeigt sich, dass die Kurzskalen der allgemeinen SWE (aSWE) sowie des Fach- und Unterrichtsenthusiasmus (FE und UE) erwartungskonform sehr hoch mit den entsprechenden Langskalen korrelieren (r = 0,91–0,97). Die Korrelation der Kurzskala der domänenspezifischen SWE (dSWE) mit der entsprechenden Langskala ist ebenfalls hoch, fällt aber verglichen mit den anderen Konstrukten deutlich geringer aus (r = 0,65).

In Tab. 4 werden die Korrelationen zwischen den Kurzskalen und den Unterrichtsqualitätsmerkmalen verglichen mit den Korrelationen zwischen den Langskalen und den Unterrichtsqualitätsmerkmalen. Dabei zeigt sich in der Tendenz der Korrelationskoeffizienten (H1b–H1d, siehe Tab. 4), dass sowohl für die Kurzskalen als auch für die Langskalen die allgemeine SWE (aSWE) und der allgemeine Unterrichtsenthusiasmus (UE) erwartungskonform stärker mit den Subskalen allgemeiner Unterrichtsqualität (CM und UL) zusammenhängen als mit der domänenspezifischen Unterrichtsqualität (CLO). Die Hypothesen 1b und 1c konnten nach Dunn und Clark (1969) auch statistisch gegen den Zufall abgesichert werden. Eine Ausnahme bildet in Lang- und Kurzversion die Korrelation zwischen der allgemeinen SWE (aSWE) und der Dimension Klassenführung (CM) als allgemeines Unterrichtsqualitätsmerkmal, hier kann bei beiden Versionen keine erwartungskonforme Tendenz festgestellt werden.

Die Korrelationen der domänenspezifischen SWE (dSWE) bzw. des Fachenthusiasmus (FE) mit der domänenspezifischen Unterrichtsqualität (CLO) fallen für die Kurzskalen erwartungskonform höher aus als die Korrelationen mit generischen Unterrichtsqualitätsdimensionen (CM, UL; H2a–H2d, siehe Tab. 4). Diese Unterschiede sind jedoch nur in einem Fall (H2d) statistisch signifikant. Für die Langskalen fallen entgegen den Erwartungen die Unterschiede in den Korrelationskoeffizienten von domänenspezifischer SWE (dSWE) mit den verschiedenen Unterrichtsqualitätsdimensionen nur sehr marginal aus (H2a, b). Für die Korrelationen des Fachenthusiasmus (FE) mit Unterrichtsqualität finden wir erwartungskonforme Zusammenhänge, jedoch erreichen diese ebenfalls nur für Hypothese H2d statistische Signifikanz.

Mit Blick auf die Interkorrelationen zeigt sich, dass die Kurzskalen der allgemeinen und domänenspezifischen SWE weniger stark zusammenhängen als die Langskalen (Langskala: r (aSWE, dSWE) = 0,25; Kurzskala: r (aSWE, dSWE) = 0,03; siehe Tab. 3). Dies kann als ein Validitätsargument für die Kurzskala aufgefasst werden, da die beiden Konstrukte dadurch deutlicher voneinander zu trennen sind. Der Zusammenhang zwischen Unterrichts- und Fachenthusiasmus schwächt sich für die Kurzskalen im Vergleich zu den Langskalen etwas ab, bleibt jedoch signifikant bestehen (Langskala: r (FE, UE) = 0,30; Kurzskala: r (FE, UE) = 0,25; siehe Tab. 3). Die Korrelationsmuster innerhalb der motivationalen Skalen (SWE und LE) und zwischen motivationalen Skalen und Unterrichtsqualität sind für Kurz- und Langskalen tendenziell vergleichbar. Eine Ausnahme stellt die oben beschriebene veränderte Interkorrelation bei den Subskalen der SWE dar. Außerdem zeigen die Kurzskalen an wenigen Stellen schwächer ausgeprägte Korrelationskoeffizienten (z. B. aSWE * UL) als die entsprechenden Langskalen. Insgesamt zeigen diese Zusammenhänge zwischen Kurz- und Langskalen, dass die Kurzskalen ähnlich reliabel Informationen erfassen wie die Langskalen (vgl. hierzu auch Gogol et al. 2014).

Es zeigen sich somit erwartungskonforme Zusammenhänge der Kurzskalen zum Konstrukt der selbsteingeschätzten Unterrichtsqualität und die korrelative Binnenstruktur der MotOr-Skala zeigt im Sinne einer konvergenten Validierung gute Ergebnisse. Die größtenteils zutreffenden Annahmen für die Kurzskalen zumindest in ihrer Tendenz können als Argumente für die externe Validität der MotOr-Skala herangezogen werden.

Studie 2 – Inhaltliche Validierung

Nach den Validierungsschritten für Studie 1 erfolgte mit der erstellten MotOr-Skala in einer Untersuchung mit Expert:innen aus der Naturwissenschaftsdidaktik und der pädagogischen Psychologie die Überprüfung der inhaltlichen und strukturellen Validität der Items. Hierbei wird überprüft, ob die ausgewählten Testitems die SWE und den LE repräsentativ abbilden (Moosbrugger und Kelava 2020).

Stichprobe Studie 2

Die Expert:innen verteilen sich wie folgt auf die Fachbereiche: Geographiedidaktik (n = 4), Biologiedidaktik (n = 3), Physikdidaktik (n = 3) und pädagogische Psychologie (n = 1). Sechs Männer und fünf Frauen haben am Rating teilgenommen. Die Expert:innengruppe setzt sich aus sieben promovierenden wissenschaftlichen Mitarbeitenden, drei promovierten wissenschaftlichen Mitarbeitenden und ein:er Professor:in zusammen. In den meisten Fällen haben sich die Teilnehmenden bereits wissenschaftlich mit SWE und LE auseinandergesetzt (n = 7).

Methodisches Vorgehen Studie 2

Beim Expert:innenrating beurteilten die Teilnehmenden auf einer 6‑stufigen Ratingskala von „trifft gar nicht zu“ bis „trifft voll zu“ die inhaltliche Repräsentation der jeweiligen Konstrukte (SWE und LE) und deren Subskalen (allgemeine und domänenspezifische SWE; Fach- und Unterrichtsenthusiasmus). Hierbei wurde den Teilnehmenden die entwickelten Kurzskalen sowie die Langskalen der Konstrukte SWE und LE vorgelegt und jede Subskala (und deren Items) der Kurzversion in Kontrastierung zur Langversion eingeschätzt (vgl. Tab. 5). Bei jeder Subskala wurde eingangs eine kurze Konstruktdefinition gegeben. Zusätzlich konnten bei jeder Skala in einem offenen Antwortformat fehlende oder sonstige inhaltliche Aspekte benannt werden.

Tab. 5 Deskriptive Ergebnisse des Expert:innenratings. Dargestellt sind die Mittelwerte und die Standardabweichungen der Expert:inneneinschätzungen anhand der Instruktion „Inwiefern bilden die folgenden Items der Kurzskala das Konstrukt allgemeine Selbstwirksamkeitserwartung [allgemeine SWE gilt hier als ein Subskalenbeispiel für die Instruktion] ausreichend und gut ab?“ zu jedem Item der MotOr-Skala. In der jeweiligen Zeile „Vergleich Langskala“ schätzen die Expert:innen anhand folgender Instruktion „Die ausgewählten Items der Kurzskala repräsentieren im Vergleich zur Langskala das Konstrukt allgemeine Selbstwirksamkeitserwartung gut und ausreichend?“ die entwickelte Kurzskala im Vergleich zur Langskala ein. Die Antwortskala reichte von 1 = trifft gar nicht zu bis 6 = trifft voll zu

Auswertung Studie 2

Die Auswertung des Expert:innenratings erfolgte deskriptiv durch einen Mittelwertvergleich der Expert:inneneinschätzung in R (Version 4.0.3). Bei diesem Vergleich werden die Mittelwerte der (a) Einschätzung zur inhaltlichen Repräsentation der Kurzskalen sowie (b) die Einschätzung des kontrastierenden Vergleichs Kurzskala/Langskala analysiert (vgl. Tab. 5). Darüber hinaus wurde die Interrater-Reliabilität mithilfe der Intraklassen-Korrelation (ICC) auf Grundlage der Konsistenz bei nicht zufällig ausgewählten Ratern in einem Zwei-Wege-Modell mit gemischten Effekten überprüft (Koo und Li 2016). Der ICC hat den Vorteil, dass er sowohl den Grad der Korrelationen als auch den Grad der Übereinstimmung zwischen den Messungen widerspiegelt (Koo und Li 2016). Es gibt drei verschiedene Typen des ICC: (1) die Interraterreliabilität, (2) die Test-Retest-Reliabilität und (3) die Intraraterreliabilität (Koo und Li 2016), wobei in dieser Studie auf Typ (1) zurückgegriffen wird.

Ergebnisse der inhaltlichen Validierung durch Expert:innenrating

Neben den vorherigen empirischen Validierungsschritten wurde zusätzlich die inhaltliche Validität (Moosbrugger und Kelava 2020) der MotOr-Skala mithilfe eines Expert:innenratings überprüft. Datengrundlage ist die in Studie 2 genannte Stichprobe von elf Expert:innen. Die deskriptiven Befunde des Expert:innenratings sind in Tab. 5 zusammengefasst. Die Interraterreliabilität ist mit 0,94 nach Koo und Li (2016) sehr gut.

Die inhaltliche Repräsentation der jeweiligen Konstrukte (SWE und LE) durch die Items der Kurzskalen wurde durch die Expert:innen variablenübergreifend unter der Berücksichtigung der stellenweise großen Standardabweichung als gut (M > 4) eingestuft. Im direkten Vergleich zur Langskala beurteilen die Teilnehmenden die Items zur allgemeinen SWE als relativ gut und ausreichend (M = 3,82). Dies gilt auch für die Items zur domänenspezifischen SWE. Die Items zum Fachenthusiasmus werden im Vergleich zur Langskala von den Expert:innen als sehr repräsentativ für das Konstrukt eingeschätzt (M = 4,91). Diese sehr positive Einschätzung zeigt sich auch bei den Items zum Unterrichtsenthusiasmus (M = 4,18). Im Anschluss an die Einschätzung der Items bestand bei jeder Subskala die Möglichkeit, im offenen Antwortformat fehlende Aspekte zu benennen. Von dieser Option wurde jedoch kaum Gebrauch gemacht. Beziehungsweise wurde variablenübergreifend von mehr als fünf Personen jeweils angemerkt, dass kein Aspekt fehlen würde. Ein:e Expert:in hingegen hat konstruktübergreifend hervorgehoben, dass die einzelnen Fachdomänen klarer definiert werden sollten, um besser auf die einzelnen Konstrukte eingehen zu können. Damit ist gemeint, dass die Items in ihrer Formulierung nicht gänzlich domänenspezifisch formuliert sind. Ebenso wurde von einer befragten Person angegeben, dass die stellenweise negativ gepolten Itemformulierungen zu inversem Antwortverhalten führen könnten. Bei der Subskala des Unterrichtsenthusiasmus wurde von zwei Expert:innen kommentiert, dass in der Itemformulierung ein konkreter Klassenbezug zu einer valideren Einschätzung des situationsbedingten Unterrichtsenthusiasmus führen könnte. Die Anmerkungen der Expert:innen werden in der Diskussion vertieft und reflektiert.

Zusammenfassung und Diskussion

Das Ziel der Studien war die Konstruktion eines Kurzfragebogens zur Erfassung der motivationalen Orientierungen bei Lehrkräften der Naturwissenschaften, welcher einer entsprechenden teststatistischen Qualitätsprüfung standhält. Vor diesem Hintergrund wurde die auf bereits veröffentlichten Langskalen basierende MotOr-Kurzskala in einem mehrstufigen Validierungsprozess überprüft.

Hinsichtlich einer faktoriellen Konstruktvalidität zeigt die MotOr-Skala zufriedenstellende Ergebnisse und gute Modell-Fits der modifizierten Messmodelle (Sivo et al. 2006; siehe Tab. 1). Die konstruierten Kurzskalen weisen darüber hinaus gute Werte bei den Paramatern der internen Konsistenz sowie der Itemtrennschärfe auf (Bühner 2011; siehe Tab. 2).

Für die allgemeine SWE, den Fachenthusiasmus und den Unterrichtsenthusiasmus zeigen hohe Korrelationen zwischen Lang- und Kurzskalen (vgl. Tab. 3, r = 0,91–0,97) eine entsprechend hohe Überlappung der durch die Kurz- bzw. Langskala erfassten Konstrukte. Für die domänenspezifische SWE fällt diese jedoch geringer aus (r = 0,65). Dies lässt sich so interpretieren, dass die Kurz- und Langskala etwas unterschiedliche Aspekte des Konstrukts der domänenspezifischen SWE erfassen. Hierfür spricht auch die verglichen mit den Langskalen verringerte Interkorrelation zwischen allgemeiner und domänenspezifischer SWE (Kurzskala: r (aSWE, dSWE) = 0,03; Langskala: r (aSWE, dSWE) = 0,25). Auf die Implikationen dieser Befunde für die Messung domänenspezifischer SWE gehen wir weiter unten noch genauer ein.

Die externe Validität der Kurzskalen wurde mit korrelativen Analysen zur allgemeinen und domänenspezifischen Unterrichtsqualität untersucht. Die Korrelationsanalyse der Kurzskalen weist erwartungskonforme Zusammenhänge zwischen den allgemeinen Dimensionen der Konstrukte (allg. SWE, Unterrichtsenthusiasmus) mit allgemeiner Unterrichtsqualität (z. B. r (aSWE, UL) = 0,39**) auf. Gleiches gilt für die domänenspezifischen Dimensionen (domänenspez. SWE, Fachenthusiasmus) mit der domänenspezifischen Unterrichtsqualität (z. B. r (dSWE, CLO) = 0,26***). Diese Zusammenhänge sind erwartungskonform und bekräftigen eine theoriebasierte Gültigkeit. Auffällig ist jedoch, dass der eher generische Unterrichtsenthusiasmus positiv mit der domänenspezifischen Subskala „Schaffung herausfordernder Lerngelegenheiten“ der Unterrichtsqualität (r = 0,20*) zusammenhängt. Dieser Zusammenhang ist leicht stärker ausgeprägt als der zum Fachenthusiasmus (r = 0,18*). Dieser Umstand könnte für eine geteilte Varianz der beiden Konstrukte sprechen, was die Validität etwas einschränken könnte. Mit Blick auf die Interkorrelationen zeigt sich, dass die Subskalen der SWE in der Kurzversion im Vergleich zur Langversion nicht signifikant zusammenhängen (r = 0,03). Dies spricht für eine geringere, geteilte Varianz und somit für eine bessere Trennbarkeit der beiden Dimensionen mittels der Kurzskalen.

Der Vergleich der Korrelationen zwischen allgemeiner SWE, Unterrichtsenthusiasmus bzw. Fachenthusiasmus mit entsprechenden Facetten der Unterrichtsqualität für Kurz- und Langskalen (vgl. Tab. 4) zeigt, dass beide Skalen ähnliche, erwartungskonforme Korrelationsmuster aufzeigen, wenngleich nicht alle Zusammenhänge statistisch gegen den Zufall abgesichert werden konnten. Dennoch legen die substanziellen Überlappungen der Korrelationsmuster zwischen Kurz- und Langskalen nahe, dass die Kurzskalen die Konstrukte allgemeine SWE und Lehrkräfteenthusiasmus (mit FE und UE) ähnlich zuverlässig messen wie die Langskalen. Auch in dieser Analyse fällt die domänenspezifische SWE auf, deren Korrelationsmuster sich zwischen Kurz- und Langskala unterscheiden, wobei das Korrelationsmuster der Kurzskala eher den theoretischen Erwartungen entspricht als das der Langskala. Diesen Umstand greifen wir unten wieder auf.

Vergleicht man die gefundenen Korrelationen zwischen Kurzskalen und Unterrichtsqualitätsmerkmalen mit denen anderer Studien (vgl. supplementary material, Tab. A1), die dieselben Konstrukte und vergleichbare Instrumente genutzt haben, zeigt sich, dass bei der allgemeinen SWE ähnliche Zusammenhänge zur Subskala lernförderliches Unterrichtsklima bestehen (MotOr: r = 0,39**, Holzberger et al. 2013: r = 0,42*). Ebenso weist ein Teil anderer Studien keine signifikanten Zusammenhänge zwischen allgemeiner SWE und der Subskala Klassenführung auf (MotOr: r = 0,11, Lazarides et al. 2021: r = 0,03–0,08, Thommen et al. 2021: r = 0,00). Hinsichtlich des LE zeigen andere Studien vorrangig signifikante Korrelationen mit der allgemeinen Unterrichtsqualität (z. B. Thommen et al. 2021: r = 0,22*–0,35*), welche bei der MotOr-Skala insbesondere bei der Subskala Unterrichtsenthusiasmus (r = 0,31**–0,61***) in gleichem Umfang vorzufinden sind. Die Übereinstimmung unserer Befunde mit denen anderer Studien deutet auf eine hohe externe Validität der konstruierten Kurzskalen und folglich einer zuverlässigen Messung durch diese hin.

Die inhaltliche Validierung durch das Expertenrating bescheinigt der MotOr-Skala insgesamt eine gute Repräsentation der Konstrukte durch die Items. Die Interraterreliabilität der Expert:innen ist gut (Koo und Li 2016). Kritisch ist an dieser Stelle anzumerken, dass beim Expert:innenrating in der Instruktion die Befragten die inhaltliche Validität anhand der zwei Attributionen „gut“ und „ausreichend“ („Die ausgewählten Items der Kurzskala repräsentieren im Vergleich zur Langskala das Konstrukt allgemeine SWE gut und ausreichend“) auf einer 5‑stufigen Antwortskala einschätzen mussten. Die beiden genannten Attribute zielen semantisch auf unterschiedliche Bedeutungen ab, die durch die Formulierung und die Konstruktion des geschlossenen Antwortsystems in einer Antwort beantwortet werden müssen. Hierdurch kann es im Antwortverhalten zu inhaltlichen Verzerrungen kommen, da eine Antwort gegebenenfalls vorrangig durch eines der beiden Attribute bestimmt ist. Dieser Umstand sollte in Folgebefragungen vermieden und eine getrennte Bewertung der Attribute pro Item vorgenommen werden.

Beim Expertenrating wurde von einer Person angemerkt, dass die einzelnen Fachdomänen der Naturwissenschaften stärker herausgearbeitet werden sollten. Diese Anmerkung hat mit Blick auf die Itemformulierung ihre Berechtigung. Die Iteminhalte der domänenspezifischen Messinstrumente (domänenspezifische SWE und Fachenthusiasmus) sind nicht genuin domänenspezifisch formuliert. Jedoch zielen die Items durch ihren kontextualisierten Einsatz (Befragung von Biologielehrkräften) auf die jeweilige Domäne der naturwissenschaftlichen Lehrkraft ab und berühren damit die Fachlichkeit. Eine empirische Prüfung einer an andere Fächer adaptierten Kurzskala (die aufgrund der Itemformulierung durchaus einfach möglich wären) steht noch aus, eine solche Adaption an weitere Fachdisziplinen könnte jedoch ein weitergehendes Potenzial der Kurzskala darstellen. Ferner wurde im Expert:innenrating angemerkt, dass zwei Items invers formuliert sind und somit zu Verzerrungen im Antwortverhalten führen könnten. Hierbei sei darauf hingewiesen, dass die MotOr-Skala auf bereits validierten und veröffentlichten Langskalen basiert. Die Items der Langskalen zur Konstruktion der MotOr-Skala sind wörtlich entnommen (bzw. übersetzt). Die Item-Formulierungen wurden so belassen, da die Instrumente bereits in anderen Studien validiert wurden. Zuletzt wurde bei der Skala des Unterrichtsenthusiasmus angemerkt, dass diese stärker an einer Klasse ausgerichtet werden sollte. Diesem Argument ist vor dem Hintergrund der theoretischen Konstitution des Konstrukts zuzustimmen. Wie im Theorieteil dargelegt, ist davon auszugehen, dass der Unterrichtsenthusiasmus angesichts der Zusammensetzung und Individualität der Lerngruppe schwanken kann. Daher erhebt das vorliegende Instrument den Unterrichtsenthusiasmus in Bezug zu einer Klasse und weniger den allgemeinen oder grundlegenden Unterrichtsenthusiasmus einer Lehrkraft. Im Mittel haben die Expert:innen der Kurzskala jedoch eine gute Passung attestiert, was als Argument für die inhaltliche Validität aufgefasst werden kann.

Zusammenfassend deuten die Ergebnisse der (Validitäts‑)Prüfung daraufhin, dass mit der MotOr-Kurzskala ein reliables, valides und forschungsökonomisches Messinstrument zur Erfassung der motivationalen Orientierungen vorliegt. Vor diesem Hintergrund bietet die MotOr-Skala im Vergleich zu den Langskalen eine effektive Freisetzung von Testzeit, welche insbesondere zur Erforschung der motivationalen Orientierungen in komplexen Forschungssettings der Lehrkräfteprofessionalisierung genutzt werden kann. Dies gilt insbesondere für die Facetten der allgemeinen SWE und des Unterrichts- und Fachenthusiasmus, die Analysen weisen darauf hin, dass eine hohe Übereinstimmung zwischen Lang- und Kurzskalen anzunehmen ist.

Hinsichtlich der domänenspezifischen SWE fällt jedoch auf, dass mit der Kurzskala zwar eine reliable und valide Messung möglich ist, diese jedoch nicht vollumfänglich mit der Langskala korrespondiert. Wichtig in diesem Zusammenhang ist, dass insbesondere die Langskala der domänenspezifischen SWE keine überzeugenden Fit-Werte aufweist und auch Argumente für die externe Validierung nicht vollumfänglich generiert werden konnten. In Zusammenschau mit dem bereits in Abschn. 2.1.2 formulierten Hinweis, dass es Kritik an der Langskala (STEBI) gibt (vgl. Meinhardt et al. 2018), wird deutlich, dass weiterhin der Bedarf nach einem umfassend validierten Instrument zur Erfassung der domänenspezifischen SWE besteht. Hier können das bereits genannte interdisziplinäre SElf-ST-Instrument von Handtke und Bögeholz (2020) oder auch das biologiespezifische Instrument von Hinterholz und Nitz (2019) bzw. das physikspezifische Instrument von Meinhardt et al. (2018) eine wichtige Ergänzung liefern. Die Unterschiede zwischen Kurz- und Langskala für die domänenspezifische SWE liegen insbesondere darin, dass die Langversion mehr Items (z. B. „Ich finde es schwierig, SuS zu erklären, warum biologische Experimente funktionieren“) enthält, die inhaltlich stärker auf die Fachdomäne (Experimentieren ist eine fachgemäße Arbeitsweise des naturwissenschaftlichen Unterrichts) abzielen und fachliche Anker (z. B. Experimente) enthalten. Forschungsvorhaben im Kontext der Naturwissenschaftsdidaktiken, die vorrangig die domänenspezifische Erfassung motivationaler Orientierungen fokussieren, nutzen unter diesem Gesichtspunkt ggf. besser die Langversion oder vergleichbare domänenspezifische Instrumente wie beispielsweise das Self-ST-Instrument von Handtke und Bögeholz (2020). Im Gegensatz dazu sind gute Einsatzszenarien für die MotOr-Kurzskala vorrangig Studien, die (a) hinsichtlich ihrer Fragebogenkapazität begrenzt sind, (b) neben der Erfassung der motivationalen Orientierungen weitere Variablen erheben und die (c) den Einfluss motivationale Orientierungen als Dritt- oder Störvariablen erfassen möchten sowie (d) Studien mit einem anspruchsvollen Studiendesign (z. B. Längsschnittstudie mit mehreren Befragungszeitpunkten am Tag). Daran anknüpfend erleichtert die MotOr-Kurzskala im Vergleich zur Langskala die statistische Auswertung bei kleineren Stichproben, da die Zahl der zu schätzenden Parameter deutlich geringer ist als bei größeren Modellen der Langskala.

Als potenzielle Einschränkung ist zu erwähnen, dass in der MotOr-Skala motivationale Orientierungen über die Konstrukte SWE und LE modelliert werden. Mit Blick auf theoretische Modelle der Lehrkraftmotivation können jedoch auch weitere Aspekte (z. B. Berufswahlmotive) für die Ausprägung motivationaler Orientierungen von Lehrkräften relevant sein. Aus einer theoretischen Perspektive kann daher kein allgemeingültiger Anspruch zur Erfassung motivationaler Orientierungen mit unserer Kurzskala abgeleitet werden, sofern nicht eine gleiche theoretische Modellierung zugrunde gelegt wird. Unter Hinzunahme der Erkenntnisse von Taxer und Frenzel (2015) zu Emotionen von Lehrkräften ist zu erwähnen, dass bei der theoretischen Modellierung wie auch der empirischen Erfassung von Enthusiasmus zu differenzieren ist, ob dieser genuin erlebt oder aus strategischen Gründen vorgetäuscht oder gegebenenfalls unterdrückt wird. In unserer Studie sind wir von einem genuinen Erleben des Enthusiasmus als motivational-affektive Disposition ausgegangen und haben daher ein strategisch-vorgetäuschtes Verhalten nicht abgefragt.

Nichtsdestotrotz bietet die vorliegende MotOr-Kurzskala ein valides Messinstrument, welches eine zeitökonomische Erhebung motivationaler Orientierungen in der Lehrkräfteprofessionsforschung ermöglicht. Weitere Validierungsstudien z. B. mit Lehramtsstudierenden und Referendar:innen können die Testqualität stärken und das Anwendungsfeld der MotOr-Kurzskala erweitern.