1 Einleitung

Eine hohe Unterrichtsqualität wird sowohl in der wissenschaftlichen als auch in der öffentlichen Diskussion als zentrale Voraussetzung für die Leistung von Lernenden und deren Leistungsfortschritte angesehen (z. B. Helmke 2012). Es stellt sich daher die Frage, wie Unterrichtsqualität beschrieben und erfasst werden kann.

Im Kontext der Studien TEDS-Unterricht und TEDS-Validierung als Folgeuntersuchungen der TEDS-M-Studie (Teacher Education and Development Study in Mathematics) wurde ein Beobachtungsinstrument entwickelt, das neben den drei Basisdimensionen auch die fachspezifische Qualität von Mathematikunterricht erfassen soll (Schlesinger et al. 2018; vgl. auch Charalambous und Praetorius 2018). Im vorliegenden Beitrag wird die Frage untersucht, inwieweit dieser Ansatz empirisch gelungen ist. Die Untersuchung erfolgt über eine Analyse der Konstruktvalidität (über eine Prüfung der Faktorenstruktur des Beobachtungsinstruments) sowie der konvergenten und diskriminanten Validität (über eine Prüfung von Zusammenhängen mit Kompetenzfacetten der beobachteten Mathematiklehrpersonen).

1.1 Drei Basisdimensionen der Unterrichtsqualität

Im Anschluss an Untersuchungen zur empirischen Wirksamkeit von Unterricht im Rahmen der TIMS-Videostudie (Hiebert et al. 2003) unterscheidet die deutschsprachige Bildungsforschung drei Basisdimensionen der Unterrichtsqualität in einem fächerübergreifenden (generischen) Modell: Effiziente Klassenführung, konstruktive Unterstützung und Potential zur kognitiven Aktivierung (Fauth et al. 2014; Klieme et al. 2006; Klieme und Rakoczy 2008; Kunter und Ewald 2016; Praetorius et al. 2018).

Effiziente Klassenführung zielt darauf ab, die zur Verfügung stehende Lernzeit durch eine entsprechende Steuerung des Unterrichts optimal zu nutzen. In Anlehnung an Kounin (1970) werden unter effizienter Klassenführung vor allem Strategien zur unterrichtlichen Störungsprävention und Lernorganisation subsumiert (König 2015; Kunter und Ewald 2016). Konstruktive Unterstützung bezieht sich darauf, inwieweit im Unterricht auf Grundbedürfnisse der Lernenden eingegangen wird (Klieme und Rakoczy 2008; vgl. auch Deci und Ryan 1985). Damit sind Maßnahmen zur Individualisierung und Differenzierung, aber auch adaptive Hilfestellungen und Rückmeldungen durch die Lehrperson angesprochen (u. a. van de Pol et al. 2010). Potential zur kognitiven Aktivierung bietet Unterricht, wenn Lernende zu vertieftem Nachdenken über Unterrichtsinhalte angeregt werden (Kunter und Voss 2011). Damit wird angestrebt, dass Schülerinnen und Schüler durch die Auseinandersetzung mit komplexen Problemstellungen zu einem konzeptuellen Verständnis des Lernstoffs gelangen (Mayer 2004).

In den letzten Jahren ist vor allem aus fachdidaktischer Sicht die Frage aufgeworfen worden, inwiefern das Modell der drei Basisdimensionen die Charakteristika von Mathematikunterricht abbilden kann (u. a. Blum 2006; Brunner 2018; Lipowsky et al. 2018; Leuders und Holzäpfel 2011). Ausgehend von der Erkenntnis, dass schulisches Lernen in einer Domäne stattfindet (Baumert et al. 2010; Weinert 1994), dürfte die Erfassung fachspezifischer Unterrichtsqualität über die Basisdimensionen hinausgehend für den Lernerfolg von Schülerinnen und Schülern bedeutsam sein. Fachspezifische Unterrichtsqualität könnte etwa die Besonderheiten curricularer Sequenzierung von Fachinhalten im Schulunterricht beschreiben sowie Interaktionsmuster und Kommunikationsstrukturen, die für das Unterrichten eines Faches typisch sind (für den Mathematikunterricht vgl. Lindmeier und Heinze 2020).

Beispielsweise dürfte der Umgang mit Fehlern in der Fremdsprachendidaktik aufgrund der Einheit von Inhalt und Medium (Borg 2006) anderen Zielsetzungen folgen als in Übungssituationen des Mathematikunterrichts (Vollrath und Roth 2012). Darüber hinaus können fachspezifische Dimensionen fachlich bedingte Lernprozesse von Schülerinnen und Schülern abbilden, die Lehrkräfte für ihr Fach kennen sollten (z. B. Grundvorstellungen im Mathematikunterricht, kreatives Schreiben im Fremdsprachenunterricht oder Umgang mit divergierenden Wertvorstellungen im Religionsunterricht, Cramer 2012; Eichelmann et al. 2012).

Eine offene Frage ist allerdings, ob die Basisdimensionen bereits ein Gerüst darstellen, das nur fachspezifisch ausdifferenziert werden müsste, oder ob ergänzend zu den Basisdimensionen zusätzliche Merkmale erfasst werden sollten, die additiv fachspezifische Unterrichtsqualität konzeptualisieren (für den Mathematikunterricht vgl. Leuders 2001). Die Basisdimensionen haben den Anspruch und gleichzeitig den Vorteil, dass sie auf unterschiedliche Domänen bezogen werden können (zumindest messtechnisch: Praetorius et al. 2016), also generisch sind (Praetorius et al. 2018). Es stellt sich daher, möglicherweise für jede Domäne getrennt, die Frage nach einer ökologisch validen Interpretation von Fachbezogenheit, die für den Mathematikunterricht beispielsweise verschiedene mathematische Themengebiete berücksichtigt (Bruder et al. 2015).

In diesem Kontext diskutieren Charalambous und Praetorius (2018) neben einer generischen auch die hybride Erfassung von Unterrichtsqualität, bei der sowohl generische als auch fachspezifische Merkmale abgebildet werden. Während die Operationalisierung der drei Basisdimensionen durch hoch-inferente Ratingskalen etabliert ist (u. a. Praetorius et al. 2012, 2014; Rakoczy und Pauli 2006), liegen allerdings erst wenige fachbezogene oder hybride Beobachtungsinstrumente für den Mathematikunterricht vor, für die Nachweise der psychometrischen Güte zudem recht unterschiedlich ausfallen (Schlesinger und Jentsch 2016).

1.2 Fachbezogene Erfassung der Unterrichtsqualität

Die Diskussion um die zusätzliche Erfassung fachspezifischer Qualitätsmerkmale wird vor allem in Bezug auf den Mathematikunterricht geführt. Blum (2006) argumentiert beispielsweise dafür, dass eine fachlich gehaltvolle Unterrichtsgestaltung als Qualitätsmerkmal neben den drei Basisdimensionen zu berücksichtigen sei, um den Kompetenzerwerb im Mathematikunterricht gemäß der KMK-Bildungsstandards (2003) abzubilden. Darunter versteht Blum „vielfältige Gelegenheiten zu kompetenzbezogenen Tätigkeiten“ sowie die Herstellung von Vernetzungen innerhalb und außerhalb der Mathematik (2006, S. 29). Brunner (2018) erweitert dieses Spektrum an Qualitätsmerkmalen, indem sie anmerkt, dass die drei Basisdimensionen die aus fachdidaktisch-normativer Perspektive relevante fachliche Korrektheit der präsentierten Unterrichtsinhalte nicht enthalten, obwohl diese neben einer effizienten Klassenführung als notwendige Bedingung für einen lernwirksamen Mathematikunterricht zu verstehen sei.

Als Fazit einer international angelegten Überblicksstudie schlussfolgern Charalambous und Praetorius (2018), dass Lernerfolg im Mathematikunterricht durch fachspezifische und generische Merkmale der Unterrichtsqualität gemeinsam besser erklärt werden könne als durch generische Merkmale allein. Beispielsweise wurden im Rahmen der MET Study (Measures of Effective Teaching, Kane und Staiger 2012) verschiedene Beobachtungsinstrumente zur Erfassung der Qualität von Mathematikunterricht eingesetzt, von denen einige ausschließlich für Mathematikunterricht entwickelt wurden und andere in verschiedenen Fächern einsetzbar sind. Die durch die unterschiedlichen Beobachtungsinstrumente erfassten Ratings korrelierten mit 0,67 ρ < 0,88 zwar hoch, dennoch lieferte jedes Beobachtungsinstrument auch spezifische Informationen über den beobachteten Mathematikunterricht (Charalambous und Praetorius 2018).

In Deutschland haben Lipowsky et al. (2018) den Zusammenhang zwischen den drei Basisdimensionen und einer empirisch ermittelten Dimension zur fachdidaktischen Qualität unterrichtlicher Theoriephasen bei der Einführung des Satzes von Pythagoras untersucht (Lipowsky et al. 2009). Eine positive Korrelation mittlerer Stärke zeigte sich zwischen der Klassenführung und struktureller Klarheit als Subdimension der fachdidaktischen Qualität. Weitere Zusammenhänge konnten an Hand der Gesamtstichprobe nicht nachgewiesen werden. Eine getrennte Analyse zeigte für Real- und Sekundarschulklassen ein ähnliches Muster wie für die Gesamtstichprobe, während sich bei Gymnasialklassen positive Korrelationen zwischen generischen und fachspezifischen Merkmalen ergaben. Die Autorengruppe schlussfolgerte daher wie Kane und Staiger (2012), dass sich die erfassten Merkmale der Unterrichtsqualität nicht gegenseitig kompensieren können (Lipowsky et al. 2018).

Eine offene Frage ist, inwieweit diese Ergebnisse wegen ihres Bezugs zum Satz des Pythagoras auf andere Themen des Mathematikunterrichts übertragbar sind. Das bezieht sich vor allem auf die Operationalisierung der fachdidaktischen Unterrichtsqualität (Subdimensionen „strukturelle Klarheit“, „Repräsentationsformen“ und „Verstehenselemente“Footnote 1, Drollinger-Vetter 2011). So ist es auch denkbar, dass die Zusammenhänge niedrig ausfielen, weil die fachdidaktische Unterrichtsqualität im Gegensatz zu den drei Basisdimensionen inhaltspezifisch konzeptualisiert und erfasst wurde.

2 Validierung der Erfassung fachspezifischer Unterrichtsqualität

2.1 Argumentatives Verständnis von Validität

Validität stellt das wichtigste, aber auch das am schwierigsten nachzuweisende Gütekriterium empirischer Sozialforschung dar (AERA et al. 1999). Validität beschreibt „the appropriateness, meaningfulness, and usefulness of specific inferences made from test scores“ (AERA et al. 1999, S. 9). Dies bezieht sich in der Unterrichtsqualitätsforschung beispielsweise auf Schlussfolgerungen, die aus Ratings gezogen werden (Bell et al. 2012). Solche Schlussfolgerungen betreffen die inhaltlich und statistisch angemessene Bewertung des beobachteten Verhaltens, die Generalisierbarkeit oder Vorhersagekraft von Ratings sowie bildungspolitische Entscheidungen, die auf der Basis von Ratings getroffen werden (ausführlich Kane 2013; Hartig et al. 2008).

Zur Validierung dieser Schlussfolgerungen empfehlen Bell et al. (2012) sowie Taut und Rakoczy (2016), Nachweise der inhaltlichen und faktoriellen Validität zu erbringen und Generalisierbarkeitsstudien durchzuführen (Cronbach et al. 1972). Für das Beobachtungsinstrument, das in den Studien TEDS-Unterricht und TEDS-Validierung eingesetzt wurde, liegen erste Ergebnisse zur Inhaltsvalidität (Schlesinger et al. 2018) und zur Generalisierbarkeit vor (Jentsch et al. 2019). Es fehlen bislang belastbare empirische Hinweise auf die Faktorenstruktur des Beobachtungsinstruments.

Bell et al. (2012) diskutieren ferner Zusammenhangsanalysen mit geeigneten Kriterien (z. B. Kompetenzfacetten von Lehrpersonen) als Bestandteile einer Validierungsstrategie. Nach Bromme (1995) wird erwartet, dass Lehrpersonen für die unterrichtliche Implementation fachspezifischer Merkmale auf fachliches oder fachdidaktisches Wissen zurückgreifen (Shulman 1986; vgl. auch Praetorius und Charalambous 2018). Dieses Wissen ist dagegen nicht erforderlich, wenn generische Unterrichtsmerkmale in den Blick genommen werden. Diese Annahme erlaubt es, die Interpretation von Unterrichtsqualitätsdimensionen als generisch oder fachspezifisch durch Zusammenhangsanalysen mit Kompetenzfacetten der Lehrpersonen zu validieren (im Sinne konvergenter und diskriminanter Validität, Campbell und Fiske 1959; Hartig et al. 2008). Nachfolgend skizzieren wir die empirische Befundlage solcher Zusammenhangsanalysen für den Mathematikunterricht.

2.2 Zusammenhang zwischen Unterrichtsqualität und professioneller Kompetenz

Hill et al. (2012) führten eine Studie mit 34 Mathematiklehrpersonen durch und stellten hoheFootnote 2 manifeste Korrelationen zwischen der Qualität von Mathematikunterricht und Mathematical Knowledge for Teaching (MKT) fest, welches sowohl fachliche als auch fachdidaktische Aspekte beinhaltet (Hill et al. 2012). Die Unterrichtsqualität wurde mit einem Beobachtungsinstrument erhoben, das ausschließlich für den Mathematikunterricht entwickelt wurde. Mit diesem Beobachtungsinstrument wurden die Dimensionen „Richness of the mathematics“, „Errors and imprecision“, „Working with students and mathematics“ und „Common Core aligned student practices“ erfasst (Learning Mathematics for Teaching Project 2011).

In anderen Studien (Hill und Chin 2018; Kelcey et al. 2019) fielen diese Zusammenhänge deutlich niedriger aus, möglicherweise aufgrund einer komplexeren statistischen Modellierung, in der für zahlreiche Hintergrundeffekte auf Klassen‑, Lehrpersonen‑, Schul- und Distriktebene kontrolliert wurde. Kelcey et al. (2019) fanden in einer Studie mit 302 Mathematiklehrkräften keinen statistisch signifikanten Zusammenhang zwischen Klassenführung und MKT sowie schwache oder mittlere Korrelationen zu den fachspezifischen Merkmalen der Unterrichtsqualität („Ambitious mathematics“ bzw. „Errors and imprecision“). Hill und Chin (2018) fanden lediglich eine schwache Korrelation zwischen der Urteilsgenauigkeit von 284 Mathematiklehrkräften und der Dimension „Working with students and mathematics“.Footnote 3

In einer Studie von Kersting et al. (2012) wurde MKT bei 38 Mathematiklehrpersonen erfasst. Zudem wurde ein Instrument zur Erfassung der fachspezifischen Unterrichtsqualität eingesetzt, das inhaltlich mit der fachdidaktischen Qualität unterrichtlicher Theoriephasen bei Lipowsky et al. (2018) korrespondiert. Es fanden sich erwartungswidrig keine Zusammenhänge zwischen dem fachspezifischen Wissen der Lehrpersonen und der Unterrichtsqualität. Mit einem videobasierten Instrument, das fachliche, fachdidaktische und pädagogische Aspekte der professionellen Kompetenz auf einer integrierten Skala erfasst, wurden jedoch hohe Zusammenhänge zur Unterrichtsqualität und moderate Korrelationen zum fachlichen und fachdidaktischen Wissen der Lehrpersonen mit MKT nachgewiesen (Kersting et al. 2012).

In der COACTIV-Studie (Baumert et al. 2010) wurden Zusammenhänge zwischen dem Professionswissen von Mathematiklehrpersonen und den Basisdimensionen der Unterrichtsqualität untersucht. In einer Mediationsanalyse fand die Autorengruppe einen kleinen Effekt des mathematikdidaktischen Wissens auf die konstruktive Unterstützung und einen moderaten Effekt auf das Potential zur kognitiven Aktivierung. Dabei ist zu berücksichtigen, dass das Potential zur kognitiven Aktivierung fachbezogen durch Aufgabenanalysen erhoben wurde. Eingeschätzt wurden die Subdimensionen „Typ mathematischen Arbeitens“, „mathematisch Argumentieren“ und „innermathematisches Modellieren“. Konstruktive Unterstützung wurde dagegen stärker als generisches Merkmal verstanden.

Zusammenfassend zeigt die Befundlage, dass sich fachspezifische Kompetenzfacetten dazu eignen dürften, die Unterscheidung zwischen fachspezifischen bzw. generischen Unterrichtsqualitätsmerkmalen zu stützen. Deutlich geworden ist aber auch, dass es von den Messinstrumenten abhängig ist, inwieweit Merkmale der Unterrichtsqualität als fachspezifisch zu interpretieren sind (vgl. auch Praetorius und Charalambous 2018). Die Befunde der Studie von Hill et al. (2012) weisen ferner darauf hin, dass zwischen verschiedenen Arten von Kompetenzfacetten – stärker dispositionaler oder situationsbezogener Art (Blömeke et al. 2015; Kaiser et al. 2015) – unterschieden werden sollte.

3 Zur vorliegenden Studie

3.1 Erfassung der Unterrichtsqualität in TEDS-Unterricht und TEDS-Validierung

Der Beitrag entstand im Rahmen der Studien TEDS-Unterricht und TEDS-Validierung, welche untersuchen, inwieweit intra- und interindividuelle Leistungsunterschiede von Lernenden der unteren Sekundarstufe im Fach Mathematik mit der professionellen Kompetenz der unterrichtenden Lehrpersonen zusammenhängen und inwieweit diese Zusammenhänge durch die Qualität des Mathematikunterrichts vermittelt werden. Die Unterrichtsqualität wurde durch ein Beobachtungsinstrument mit hoch-inferenten Ratingskalen erhoben, das sowohl die drei Basisdimensionen als auch stärker fachbezogene Merkmale abbildet (Schlesinger et al. 2018).

Effiziente Klassenführung wurde in Anlehnung an das Beobachtungsinstrument der Pythagoras-Studie (Rakoczy und Pauli 2006) durch Indikatoren des Zeitmanagements, der Störungsprävention und strukturierter Unterrichtsführung operationalisiert (vgl. Tab. 1 in Abschn. 4.3). Die Operationalisierung der konstruktiven Unterstützung erfolgte ebenfalls in Anlehnung an Rakoczy und Pauli (2006) und bezieht sich auf Angebote zur Individualisierung und Differenzierung, unterrichtliches Autonomieerleben und konstruktive Rückmeldungen der Lehrperson. Das Potential zur kognitiven Aktivierung wurde in Anlehnung an Maier et al. (2010), Lotz (2015) und Helmke (2012) fächerübergreifend, insbesondere ohne thematische Eingrenzung, operationalisiert und bezieht sich auf die unterrichtliche Problemorientierung und Wissenssicherung.

Tab. 1 Indikatoren der Ratingskala „Herausfordernde Fragen und Probleme“ zur Erfassung der Basisdimension Potential zur kognitiven Aktivierung (vgl. Rakoczy und Pauli 2006)

In Bezug auf die fachspezifische Unterrichtsqualität wurden nach einer systematischen Literaturrecherche (Schlesinger und Jentsch 2016; Schlesinger et al. 2018) Merkmale operationalisiert, die sich einerseits auf die fachlich kohärente Strukturierung der präsentierten Unterrichtsinhalte beziehen (stoffbezogene, mathematikdidaktische Qualität) und andererseits auf solche, die das fachspezifische Potential zur kognitiven Aktivierung in den Blick nehmen (unterrichtsbezogene, mathematikdidaktische Qualität, vgl. auch Lipowsky et al. 2018).

3.2 Forschungsfragen

In diesem Beitrag werden drei Fragestellungen bearbeitet. Die Beantwortung dieser Forschungsfragen versteht sich als Teil einer umfangreichen Validierungsstudie, die neben den hier dargestellten Aspekten auch die inhaltliche Angemessenheit und Generalisierbarkeit der Ratings untersucht. Die ersten beiden Fragestellungen beziehen sich auf die Struktur des Instruments:

  1. 1.

    Welche Faktorenstruktur liegt dem Beobachtungsinstrument zu Grunde?

  2. 2.

    Wie stark interkorrelieren die empirisch ermittelten Dimensionen der Unterrichtsqualität?

Wir gehen davon aus, dass sich wie in der Literatur drei Basisdimensionen identifizieren lassen. Offen ist aber, ob sich wie bei Lipowsky et al. (2018) eine eigenständige Dimension ermitteln lässt, die die fachspezifischen Unterrichtsmerkmale zusammenfasst, was einem additiven Ansatz entsprechen würde. Unabhängig von dieser Frage erwarten wir, dass die Qualitätsdimensionen ein gemeinsames Konstrukt abbilden, so dass sie im Einklang mit der Forschungslage mindestens schwach positiv korrelieren sollten.

Die vorliegende Studie zielt auf die Erfassung der Qualität alltäglichen Mathematikunterrichts ab, also ohne Einschränkung auf einen bestimmten Unterrichtsinhalt, und unterscheidet sich daher in einem wesentlichen Punkt vom methodischen Vorgehen bei Lipowsky et al. (2018). Es wäre somit auch denkbar, dass stärkere Zusammenhänge zwischen generischen und fachspezifischen Merkmalen der Unterrichtsqualität beobachtet werden, als dies bei Lipowsky et al. (2018) der Fall war.

  1. 3.

    Wie stark korrelieren die empirisch ermittelten Dimensionen der Unterrichtsqualität mit fachspezifischen Kompetenzfacetten der Lehrpersonen?

Mit der dritten Fragestellung wird thematisiert, in welchem Ausmaß die durch das Beobachtungsinstrument erfassten Dimensionen der Unterrichtsqualität als fachspezifisch gelten können. Fachspezifische Unterrichtsmerkmale zeichnen sich nach Bromme (1995) dadurch aus, dass Lehrpersonen für ihre Implementation auf fachspezifische Kompetenzfacetten zurückgreifen (vgl. auch Praetorius und Charalambous 2018). Zur konvergenten und diskriminanten Validierung der Qualitätsdimensionen werden daher Zusammenhänge zum mathematischen und mathematikdidaktischen Wissen sowie zur professionellen Wahrnehmung der Lehrpersonen von Mathematikunterricht untersucht (im Sinne einer stärker situationsspezifischen Kompetenzfacette, vgl. Blömeke et al. 2015; Kaiser et al. 2015).

Wir gehen davon aus, dass Merkmale der Klassenführung nicht mit den fachspezifischen Kompetenzfacetten der Lehrpersonen zusammenhängen (diskriminante Validität). In Anlehnung an den Forschungsstand (Baumert et al. 2010; Hill et al. 2012; Kersting et al. 2012) ist ferner anzunehmen, dass fachspezifische Kompetenzfacetten und fachspezifische Unterrichtsmerkmale moderat interkorrelieren und umso höher ausfallen, je proximaler die Kompetenzfacetten in Bezug auf das Unterrichtshandeln der Lehrpersonen erfasst werden (konvergente Validität). Für konstruktive Unterstützung und das Potential zur kognitiven Aktivierung können wir auf Grund der unterschiedlichen Operationalisierungen in der Literatur dagegen keine Annahme treffen.

4 Methode

4.1 Stichprobe

Die im vorliegenden Beitrag dargestellte Untersuchung verwendet Daten aus den Studien TEDS-Unterricht und TEDS-Validierung, an denen 76 Lehrpersonen der unteren Sekundarstufe aus vier Bundesländern teilgenommen haben. Von den teilnehmenden Lehrpersonen waren 41 (54 %) weiblichen Geschlechts und 47 (62 %) unterrichteten an einem Gymnasium. Das mittlere Alter betrug 42 Jahre (SD = 10,5 Jahre) und die mittlere Berufserfahrung 14 Jahre (SD = 10 Jahre). Die Lehrpersonen hatten ihr erstes Staatsexamen mit der Note 1,8 (SD = 0,6) und das zweite Staatsexamen mit der Note 1,9 (SD = 0,7) bestanden. Die Teilnahme erfolgte auf freiwilliger Basis, es handelt sich daher um eine Gelegenheitsstichprobe.

4.2 Messung der fachspezifischen Kompetenzfacetten

Die fachspezifischen Kompetenzfacetten der Mathematiklehrpersonen wurden aus forschungsökonomischen Gründen online erfasst. Die Testung wurde zeitlich beschränkt, damit zur Aufgabenbearbeitung keine Nachschlagewerke eingesetzt werden konnten. Insgesamt betrug die Testdauer etwa 90 min.

Das mathematische Fachwissen (MCK) und das mathematikdidaktische Wissen (MPCK) wurde mit digitalisierten Papier-und-Bleistift-Tests erfasst. Es handelte sich dabei um verkürzte Versionen der TEDS-M-Tests (Blömeke et al. 2010), die in einer Nachfolgestudie von TEDS‑M entwickelt und bereits mehrfach eingesetzt wurden. Die Testitems haben mit wenigen Ausnahmen ein Multiple-Choice-Antwortformat. Der MCK-Test besteht aus 26 Items aus den Bereichen Arithmetik, Algebra, Geometrie und Stochastik und beinhaltet die kognitiven Anforderungsniveaus Wissen, Anwenden und Begründen (Beispielitem in Anhang Abb. 1). Der MPCK-Test umfasst 29 Items und erfasst vor allem stoffdidaktisches, curriculares und planungsbezogenes Wissen (Beispielitem in Anhang Abb. 2; vgl. auch Buchholtz et al. 2014).

Ferner wurde die Fähigkeit der Lehrpersonen zur professionellen Wahrnehmung von Mathematikunterricht in den drei Subfacetten „Perception“, „Intepretation“ und „Decision-Making“ erhoben (M_PID, Blömeke et al. 2014; Kaiser et al. 2015). Dazu wurden ihnen drei Videovignetten vorgelegt, zu denen insgesamt 31 Items bearbeitet werden sollten. Diese bestanden etwa zur Hälfte aus offenen bzw. Multiple-Choice-Aufgaben. Die drei Videovignetten dauern zwischen 2,5 und 4 min und zeigen Mathematikunterricht in den Jahrgangsstufen 8–10. Die Szenen wurden gestellt, um eine möglichst hohe Dichte an Ereignissen zu erreichen und konnten nur einmal angesehen werden. Beides wurde den Probandinnen und Probanden zu Beginn der Testung mitgeteilt. Die Lehrpersonen erhielten außerdem Informationen zu den mathematischen Inhalten sowie zur Zusammensetzung und zu den Vorkenntnissen der Klasse.

Wir beschreiben beispielhaft eine der Videovignetten. Es werden Szenen aus einer Mathematikstunde in einer leistungsheterogenen 9. Gymnasialklasse gezeigt. Die Schülerinnen und Schüler führen eine Partnerarbeit zu einer Geometrieaufgabe durch. Nach der Partnerarbeit findet ein Plenumsgespräch zum Ergebnisaustausch statt. Die Probandinnen und Probanden sollten nun Items zur Videovignette bearbeiten, die auf ihre Fähigkeit zur Wahrnehmung des Unterrichtsgeschehens (Perception) sowie auf ihr eigenes Handlungsrepertoire abzielen (Decision-Making, vgl. Anhang Abb. 3 für ein Beispielitem). Offene Antworten der Lehrpersonen wurden nach einem umfangreichen Manual kodiert, das Grenzfälle und Ankerbeispiele enthält. Für eine ausführliche Darstellung der Erfassung der Interpretationsfähigkeit (Interpretation) und zur Inhaltsvalidität verweisen wir auf Blömeke et al. (2014).

Die Tests zu den Kompetenzfacetten MCK, MPCK und M_PID ließen sich mit akzeptablen Reliabilitäten nach dem Raschmodell skalieren (0,66 < WLE ≤ 0,80) und interkorrelieren messfehlerbereinigt stark positiv (0,61 < r ≤ 0,79). Die Spannweite korrekt gelöster Items auf Personenebene betrug für alle drei Tests 25–82 %.

4.3 Zum Rating der Unterrichtsqualität

Für das in Abschn. 3.1 beschriebene Beobachtungsinstrument wurde ein Rating-Manual entwickelt, in dem verhaltensnahe Indikatoren für alle Unterrichtsqualitätsmerkmale formuliert sind (vgl. als Beispiel für Indikatoren Tab. 1, für eine Übersicht über alle Qualitätsmerkmale siehe Tab. 2 im Ergebnisteil). Die Einschätzung der Merkmale erfolgte auf vierstufigen, hoch-inferenten Ratingskalen (1 = „sehr niedrig“ bis 4 = „sehr hoch“). Die Erfassung der Unterrichtsqualität erfolgte durch Live-Ratings, welche eine leichtere Zugänglichkeit zum Forschungsfeld bieten und von denen angenommen wird, dass sie einen geringeren Einfluss auf das Unterrichtsgeschehen nehmen.

Tab. 2 Rotierte Ladungsmatrix einer explorativen Faktorenanalyse für das Beobachtungsinstrument (n = 156)

Insgesamt zehn Beobachterinnen und Beobachter wurden für die Ratings eingesetzt. Diese hatten mindestens einen Bachelorabschluss in einem Lehramtsstudium mit Unterrichtsfach Mathematik inne. Die Beobachtenden wurden vor der Datenerhebung umfangreich geschult. Die Schulung umfasste etwa 30 h und bestand zu ähnlichen Anteilen aus Videoanalysen, Live-Ratings und Gruppendiskussionen.

Jeweils zwei Beobachtende führten bei jeder teilnehmenden Lehrperson zwei Unterrichtsbeobachtungen im Mathematikunterricht durch. Der zeitliche Abstand zwischen den beiden Unterrichtsbeobachtungen betrug etwa zwei Wochen. Vornehmlich wurden Doppelstunden beobachtet (90 min), bei zwei Lehrpersonen gingen aus organisatorischen Gründen vier Einzelstunden in die Analysen ein. Da Ratings der Unterrichtsqualität als kognitiv anspruchsvoll und daher fehleranfällig gelten (Praetorius et al. 2012), wurden diese viermal innerhalb einer Doppelstunde bzw. zweimal innerhalb einer Einzelstunde durchgeführt.Footnote 4 Die Ratings wurden anschließend durch Mittelwertbildung auf Stundenebene aggregiert. Ziel der Verwendung von zwei Ratern und zwei Ratings pro Unterrichtsstunde war eine Reduktion der Fehlervarianz (Mashburn et al. 2014; Pietsch und Tosana 2008).

Nach jeder Unterrichtsbeobachtung fand eine Nachbesprechung statt, in der die Beobachterinnen und Beobachter mögliche Fehleinschätzungen reflektierten. Im Rahmen dieser Nachbesprechungen konnten Ratings verändert werden. Auch wenn dies bedeutet, dass die Einschätzungen nicht unabhängig voneinander vorgenommen wurden, erschien dieses Vorgehen als angemessen, um die Inhaltsvalidität der Ratings zu erhöhen (vgl. dazu König 2015).

Das Beobachtungsinstrument wurde im Frühjahr 2015 bei 13 Lehrpersonen aus drei Bundesländern pilotiert und einer Beurteilung durch Expertinnen und Experten unterzogen. Hierbei wurden mehrere Indikatoren umformuliert oder neu entwickelt. Fünf Ratingskalen wurden nach der Pilotierung wegen niedriger Interrater-Reliabilität („Regeln und Routinen“, „Klarheit“ und „Wertschätzung durch die Lehrperson“, ICC < 0,65) oder Trennschärfe ausgeschlossen („Feedback der Klasse an die Lehrperson“ und „Förderung von Metakognition“, rit < 0,15). Die Interrater-Reliabilität war in der vorliegenden Studie insgesamt zufriedenstellend (ICC > 0,80, Wirtz und Caspar 2002).

4.4 Statistische Analysen

Die statistischen Analysen wurden mit n = 156 gemittelten Ratings durchgeführt. Zur Bearbeitung der ersten Fragestellung wurde zunächst die Anzahl der zu extrahierenden Faktoren durch eine Parallelanalyse (Horn 1965) mit dem R‑Paket psych (Revelle 2018) bestimmt. Im Anschluss wurde eine explorative Faktorenanalyse mit schiefwinkligem Rotationsverfahren durchgeführt, da die extrahierten Faktoren als Facetten eines gemeinsamen Konstrukts gedeutet werden. Fehlende Werte wurden modellbasiert mit der in MPlus 7.4 (Muthén und Muthén 2010) implementierten FIML-Methode geschätzt (Full Information Maximum Likelihood). Die Cluster-Struktur der Daten, die sich durch Messwiederholungen ergibt, wurde durch eine Korrektur der Standardfehler berücksichtigt (MLR-Schätzer). Die Güte der Modellpassung wird durch das Verhältnis χ2 / df ≤ 2,50 und die Kennwerte Root Mean Square Error of Approximation (RMSEA) ≤ 0,08 und Standardized Root Mean Residual (SRMR) ≤ 0,05 ausgewiesen (Hu und Bentler 1999).

Zur Bearbeitung der zweiten und dritten Fragestellung wurden Produkt-Moment-Korrelationen zwischen den Dimensionen der Unterrichtsqualität und den Kompetenzfacetten MCK, MPCK und M_PID geschätzt. Dazu wurden Faktor-Werte für die 156 Unterrichtsstunden bestimmt und diese anschließend durch Mittelwertbildung auf der Ebene der Klassen bzw. Lehrpersonen aggregiert. Auf Grund des explorativen Charakters der vorliegenden Studie legen wir das Signifikanzniveau für statistische Tests auf p = 0,10 fest.

5 Ergebnisse

5.1 Faktorenstruktur des Beobachtungsinstruments

Die zuerst durchgeführte Parallelanalyse weist auf eine vierdimensionale Faktorenstruktur des Beobachtungsinstruments hin. Die Ergebnisse der im Anschluss durchgeführten explorativen Faktorenanalyse sind in Tab. 2 dargestellt. Die Gütemaße indizieren eine akzeptable Modellanpassung (χ2 = 322,86, df = 149, p < 0,01, χ2/df = 2,17, RMSEA = 0,08, SRMR = 0,05). In den meisten Fällen ergibt sich durch hohe Faktorladungen auf einem Faktor eine eindeutige Zuordnung der Unterrichtsqualitätsmerkmale. Nur für die Ratingskalen „Kooperatives Arbeiten“ und „Qualität der Methoden“ wurden Mehrfachladungen in vergleichbarer Größenordnung geschätzt, die keine unmittelbare Zuordnung erlauben. In diesen Fällen wurde nach inhaltlicher Diskussion von der Autorengruppe entschieden, „Kooperatives Arbeiten“ dem Faktor 2 und „Qualität der Methoden“ dem Faktor 3 zuzuordnen. Die Ratingskala „Kompetenzorientierung“ wurde ausgeschlossen, da keine Ladung auf einem Faktor feststellbar war.

Der erste Faktor besteht aus drei Ratingskalen, die sich entsprechend unserer Konzeptualisierung der Basisdimension Klassenführung zuordnen lassen. Der Faktor bildet Unterrichtsmerkmale zum Zeitmanagement und zur Disziplin ab, schließt aber unerwartet nicht die Ratingskala zur Strukturierung ein. Faktor 2 besteht aus vier Ratingskalen und lässt sich – wie konzeptualisiert –der Basisdimension konstruktive Unterstützung zuordnen. Er beschreibt Merkmale unterrichtlicher Differenzierung und Individualisierung, schließt aber unerwartet nicht die Ratingskala „Rückmeldungen“ ein. Faktor 3 fasst zwei Ratingskalen zur kognitiven Aktivierung und mehrere Merkmale mathematikdidaktischer Qualität zusammen, unter anderem „intelligentes Üben“ und „fachliche Tiefe“. Dieser Faktor verdichtet also die Unterrichtsmerkmale des generischen und fachbezogenen Potentials zur kognitiven Aktivierung.

Faktor 4 fasst schließlich die übrigen Ratingskalen zur mathematikdidaktischen Qualität und die unerwartet nicht einem der anderen drei Faktoren zugeordneten Unterrichtsqualitätsmerkmale zusammen. Er beschreibt stoffbezogene („fachliche Korrektheit“, „Erklärungen der Lehrperson“ und „Ko-Konstruktion“), strukturierende („Strukturierung“), evaluierende („Wissenssicherung“) und diagnostische Qualitätsmerkmale („Rückmeldungen“ und „Umgang mit Fehlern“). Wir bezeichnen diesen Faktor nachfolgend als fachdidaktische Strukturierung.

Tab. 3 präsentiert deskriptive Kennwerte der eingesetzten Ratingskalen und ihre finale Zuordnung zu den empirisch ermittelten Dimensionen der Unterrichtsqualität. Alle Ratingskalen weisen zufriedenstellende Trennschärfen auf. Klassenführung weist eine hohe Ausprägung und interne Konsistenz auf (drei Items, M = 3,50, SD = 0,44, α = 0,87). Konstruktive Unterstützung zeigt eine niedrige Ausprägung und eine akzeptable interne Konsistenz (vier Items, M = 1,59, SD = 0,41, α = 0,73). Kognitive Aktivierung weist eine Ausprägung nahe des theoretischen Mittelwerts und eine hohe interne Konsistenz auf (sieben Items, M = 2,50, SD = 0,38, α = 0,80). Die fachdidaktische Strukturierung ist etwas höher ausgeprägt, Streuung und Reliabilität fallen ähnlich wie bei Faktor 3 aus (sieben Items, M = 3,06, SD = 0,36, α = 0,81).

Tab. 3 Deskriptive Item-Kennwerte für das Beobachtungsinstrument: Mittelwerte, Standardabweichungen und standardisierte Faktorladungen (n = 156)

5.2 Interkorrelationen der Qualitätsdimensionen und Zusammenhänge zu Lehrerkompetenz

Zur Bearbeitung der zweiten Forschungsfrage wurde eine Korrelationsanalyse durchgeführt (vgl. Tab. 4), die aufzeigt, dass konstruktive Unterstützung mit den übrigen Qualitätsdimensionen eher schwach zusammenhängt, mit der fachdidaktischen Strukturierung sogar nur tendenziell. Dagegen fallen die übrigen Zusammenhänge stärker aus, insbesondere die zur kognitiven Aktivierung. Die höchste Interkorrelation ergibt sich zwischen dem Potential zur kognitiven Aktivierung und der fachdidaktischen Strukturierung.

Tab. 4 Interkorrelationen der Unterrichtsqualitätsdimensionen und Produkt-Moment-Korrelationen zwischen Unterrichtsqualität und fachspezifischen Kompetenzfacetten (n = 76)

Die zur Beantwortung der dritten Forschungsfrage untersuchten Zusammenhänge zwischen den empirisch ermittelten Dimensionen der Unterrichtsqualität und den fachspezifischen Kompetenzfacetten MCK, MPCK und M_PID spiegeln nur teilweise unsere Erwartungen wider. Erwartungsgemäß ist das Ergebnis, dass für effiziente Klassenführung keine Zusammenhänge mit den untersuchten Kompetenzfacetten nachgewiesen werden können. Dieses Ergebnis stützt die diskriminante Validität der Interpretation dieser Dimension als generisches Unterrichtsqualitätsmerkmal.

Konstruktive Unterstützung und fachdidaktische Strukturierung weisen schwach signifikant positive oder tendenziell positive Korrelationen zu den fachspezifischen Kompetenzfacetten auf (0,15 < r ≤ 0,24). Dieses Ergebnis lässt darauf schließen, dass die unterrichtliche Implementation dieser Merkmalsbereiche durch Rückgriff auf fachspezifische Kompetenzfacetten erfolgt, dass dies aber Grenzen hat. Damit stellt sich die Frage, ob diese Qualitätsdimensionen als generisch oder fachspezifisch zu bezeichnen sind.

Widersprüchliche Ergebnisse zeigen sich in Bezug auf das Potential zur kognitiven Aktivierung. Zu dieser als fachspezifisch angenommenen Dimension lassen sich keine bedeutsamen Korrelationen mit MCK oder MPCK nachweisen. Damit fehlen konvergente Validitätsbelege in dieser Hinsicht. Im Gegensatz dazu zeigt sich der stärkste positive Zusammenhang (r = 0,36) zwischen kognitiver Aktivierung und der situationsbezogenen Kompetenz M_PID, was die Interpretation dieser Unterrichtsqualitätsdimension als fachspezifisch stützt.

6 Diskussion

Im Rahmen dieses Beitrags wurde die Erfassung der Qualität alltäglichen Mathematikunterrichts in der unteren Sekundarstufe beschrieben. Auf Grund der skizzierten Überlegungen zur fachbezogenen Erhebung der Unterrichtsqualität und den empirischen Befunden zu deren Wirksamkeit (im Überblick Charalambous und Praetorius 2018) bestand das Ziel der Instrumentenentwicklung darin, sowohl generische als auch fachspezifische Merkmale der Qualität von Mathematikunterricht zu erfassen. Dazu wurden drei Forschungsfragen zur Struktur des Beobachtungsinstruments und zur Fachspezifität der erhobenen Merkmale bearbeitet.

6.1 Zur Faktorenstruktur des Beobachtungsinstruments

Die vorliegenden Ergebnisse einer Parallel- und einer explorativen Faktorenanalyse auf der Datenbasis von 156 Unterrichtsstunden deuten darauf hin, dass dem Beobachtungsinstrument eine vierdimensionale Struktur zugrunde liegt. Erwartungsgemäß waren nahezu alle beobachteten Interkorrelationen der Unterrichtsqualitätsdimensionen signifikant positiv, was die Vermutung zulässt, dass sie zu einem gemeinsamen, übergeordneten Konstrukt beitragen (Unterrichtsqualität). Die Zusammenhänge fallen allerdings eher moderat aus, was darauf hindeutet, dass jeweils eigenständige Teilkonstrukte abgebildet werden.

Eine der vier empirisch ermittelten Dimensionen lässt sich eindeutig als Basisdimension Klassenführung interpretieren. Die Dimension bildet die Merkmale Zeitmanagement und Disziplin, nicht aber die unterrichtliche Strukturierung ab (Klieme und Rakoczy 2008; Rakoczy und Pauli 2006). Die Ergebnisse sind damit in Einklang mit einem Begriffsverständnis von Klassenführung in Anlehnung an Kounin (1970), das auch in der COACTIV-Studie zum Ausdruck kommt (Baumert et al. 2010).

Konzeptionell gesehen kann auch die zweite Dimension als Basisdimension konstruktive Unterstützung interpretiert werden, die Merkmale unterrichtlicher Differenzierung und Individualisierung abbildet. Mit der empirisch ermittelten vierten Dimension (fachdidaktische Strukturierung) wurden dagegen Unterrichtsqualitätsmerkmale zusammengefasst, die sich auf stoffbezogene, diagnostische, evaluierende oder strukturierende Maßnahmen im Mathematikunterricht beziehen.

Mit Blick auf bestehende Operationalisierungen der Basisdimension konstruktive Unterstützung (u. a. Baumert et al. 2010; Rakoczy und Pauli 2006; Praetorius et al. 2018; zusammenfassend Kunter und Ewald 2016) lassen sich die vorliegenden Befunde so deuten, dass die empirisch ermittelten Dimensionen 2 und 4 unterschiedliche motivationale bzw. kognitive Konzeptualisierungen des Merkmals konstruktive Unterstützung abbilden, die nicht notwendig stark miteinander zusammenhängen. Während etwa in der Pythagoras-Studie ein integratives Verständnis konstruktiver Unterstützung zum Tragen kommt, bei dem sich nahezu alle der mit den Dimensionen 2 und 4 erfassten Unterrichtsmerkmale wiederfinden (Rakoczy und Pauli 2006), berücksichtigen Baumert et al. (2010) Maßnahmen zur Differenzierung und Individualisierung nicht.

Unsere Ergebnisse könnte man also derart interpretieren, dass die zuletzt genannten Unterrichtsmerkmale, die in der Dimension konstruktive Unterstützung zusammengefasst sind, stärker auf eine motivationale Unterstützung der Lernenden abzielen, während der Faktor fachdidaktische Strukturierung stärker kognitiv-strukturierende Unterstützungsmaßnahmen thematisiert. Ähnliche Unterscheidungen finden sich bei Praetorius und Charalambous (2018), bei Rakoczy et al. (2007), zur Konzeptualisierung des CLASS-Instruments (Pianta und Hamre 2009) und in einer Studie zur Qualität von Sachunterricht (Kleickmann 2012). Diese Unterscheidung würde auch erklären, warum die Interkorrelationen zwischen konstruktiver Unterstützung und den übrigen Qualitätsdimensionen vergleichsweise niedrig ausfallen. Eine Trennung von motivationalen und kognitiven Zieldimensionen hat sich in der Vergangenheit in vielen Studien gezeigt (z. B. Gruehn, 1995; Blömeke und Olsen, 2019).

Das Potential zur kognitiven Aktivierung im Mathematikunterricht lässt sich in generische (z. B. Maier et al. 2010) und stärker fachbezogene Merkmale unterteilen (z. B. Leuders und Holzäpfel 2011; Rakoczy und Pauli 2006). Dies wurde bei der Instrumentenentwicklung berücksichtigt, war konzeptionell aber zwei verschiedenen Dimensionen von Unterrichtsqualität zugeordnet worden. Die empirischen Befunde zeigen, dass die Ratingskalen zum generischen und fachbezogenen Potential zur kognitiven Aktivierung auf einem gemeinsamen Faktor laden. Eine konzeptionell-analytische Trennung dieser Merkmalsbereiche ist also vor dem Hintergrund der empirischen Ergebnisse zwar weiterhin möglich, im Unterrichtsalltag aber kaum durchzuführen. Dieses Ergebnis steht in Einklang mit frühen Überlegungen zur Konzeptualisierung der drei Basisdimensionen, in denen mehrfach auf die Fachbezogenheit dieser Dimension hingewiesen wurde (Klieme und Rakoczy 2008; Praetorius et al. 2014; Lipowsky et al. 2018).

6.2 Zur Fachspezifität des Beobachtungsinstruments

Die dritte Forschungsfrage befasste sich damit, die Interpretation der erfassten Unterrichtsmerkmale als generisch oder fachspezifisch zu validieren. In Anlehnung an Bromme (1995) haben wir mit dem Ziel der konvergenten und diskriminanten Validierung untersucht, inwieweit die erhobenen Qualitätsdimensionen mit fachlichen und fachdidaktischen Kompetenzfacetten der Mathematiklehrpersonen zusammenhängen.

Für Klassenführung fanden wir keine statistisch signifikanten Zusammenhänge. Damit stützen die Ergebnisse unsere Interpretation dieses Qualitätsmerkmals als Basisdimension im Sinne einer diskriminanten Validierung (Hartig et al. 2008). Dagegen fanden wir eine moderate Korrelation zwischen der professionellen Wahrnehmung von Mathematikunterricht (M_PID) und der kognitiven Aktivierung, eine schwach positive Korrelation zur konstruktiven Unterstützung und – in der Tendenz – einen Zusammenhang zur fachdidaktischen Strukturierung. Zudem fanden wir eine schwache Korrelation zwischen dem fachlichen Wissen (MCK) der Lehrpersonen und der konstruktiven Unterstützung im Mathematikunterricht sowie tendenziell Zusammenhänge zwischen MCK bzw. MPCK und fachdidaktischer Strukturierung. Unerwartet fanden wir keine statistisch signifikanten Korrelationen dieser Kompetenzfacetten mit kognitiver Aktivierung.

Auch wenn die Korrelationen niedriger ausfallen als in ähnlich angelegten Studien (z. B. Learning Mathematics for Teaching Project 2011), interpretieren wir die Befunde dahingehend, dass mit Ausnahme der Klassenführung jede der hier erfassten Dimensionen zumindest anteilig mit fachspezifischen Kompetenzfacetten der Lehrpersonen assoziiert ist (vgl. auch Praetorius und Charalambous 2018). Dies wirft etwa die Frage auf, inwieweit es gerechtfertigt ist, konstruktive Unterstützung und kognitiver Aktivierung als generischen Dimensionen zu verstehen.

Die Ergebnisse fallen jedoch keineswegs eindeutig aus und sollten in zukünftigen Untersuchungen auf ihre Generalisierbarkeit hin überprüft werden. So ist etwa der Befund, dass konstruktive Unterstützung mit MCK, nicht aber mit MPCK zusammenhängt, konzeptuell erwartungswidrig, da konstruktive Unterstützung vor allem im Kontext pädagogisch-psychologischer Theorien diskutiert wird (z. B. Rakoczy und Pauli 2006). Detaillierte Aufgabenanalysen (z. B. Jordan et al. 2008), die in diesem Beitrag aus Platzgründen nicht vorgenommen werden, könnten hierzu möglicherweise eine Erklärung leisten.

Die insgesamt eher schwachen Zusammenhänge zwischen der Unterrichtsqualität und den Kompetenzfacetten der Lehrpersonen könnten auch ein Hinweis darauf sein, dass das Professionswissen nicht handlungsnah genug erfasst wurde (Blömeke et al. 2015; Kaiser et al. 2015). Diese Annahme wird zwar nicht für alle Dimensionen, zumindest aber durch die differentielle Korrelation der kognitiven Aktivierung gestützt: Keine bzw. schwache Zusammenhänge zu wissensbezogenen Maßen, moderate Zusammenhänge zur als situationsspezifisch geltenden Kompetenzfacette M_PID (Blömeke et al. 2014).

Für die vierte Dimension (fachdidaktische Strukturierung) ist es daher bemerkenswert, dass die Zusammenhänge zu allen untersuchten Kompetenzfacetten schwach bzw. tendenziell positiv ausfallen. Dies deutet einerseits darauf hin, dass andere Merkmale der Lehrpersonen ihr unterrichtliches Handeln in dieser Hinsicht erklären könnten. Neben weiteren, wissensbezogenen und situationsspezifischen Kompetenzfacetten (pädagogisches Wissen und Können, z. B. König 2015) sei hier beispielhaft auf die (fachspezifischen) Überzeugungen und das (fachspezifische) Interesse der Mathematiklehrpersonen verwiesen. Andererseits lässt das Zusammenhangsmuster vermuten, dass diese vier fachbezogenen Konstrukte (MCK, MPCK, M_PID und fachdidaktische Strukturierung) anteilig durch einen gemeinsamen Faktor erklärt werden könnten (z. B. mathematikbezogenes Wissen und Können der Lehrpersonen).

Als Weiterführung unserer Überlegungen könnte in zukünftigen Studien bei geeigneter Stichprobengröße ein Modell im Strukturgleichungsansatz geprüft werden, das neben den drei Basisdimensionen der Unterrichtsqualität einen dazu orthogonalen „Fachspezifitätsfaktor“ erfasst (z. B. Geiser 2010). Durch diese Modellierung wäre es möglich, für jede eingesetzte Ratingskala anzugeben, welcher Varianzanteil durch welche fachspezifische Faktoren zu erklären ist. Damit ließe sich dann auch eine Verortung der Ratingskalen auf einem „Fachspezifitätskontinuum“ vornehmen (Charalambous und Praetorius 2018; z. B. Indikatoren für die Klassenführung mit geringem, Indikatoren zur kognitiven Aktivierung mit höherem fachspezifischen Varianzanteil).

6.3 Grenzen der Studie und Schlussfolgerungen

Als Limitation der Studie ist zunächst anzuführen, dass die Stichprobengröße von n = 76 Lehrpersonen eine geringe Teststärke mit sich bringt (Tab. 3; vgl. auch Schönbrodt und Perugini 2013). Daher sollten die Ergebnisse der vorliegenden Studie mit Daten einer größeren Stichprobe repliziert werden. Diese Stichprobe sollte zudem randomisiert gezogen werden, da die Ergebnisse nur geringe interindividuelle Unterschiede in der Unterrichtsqualität (z. B. Klassenführung) und damit eine große Homogenität der Stichprobe nahelegen, die – wie häufig bei freiwilliger Teilnahme – vermutlich eine Positivauswahl an Mathematiklehrpersonen darstellt.

Ein anderes Moment, das bedacht werden sollte, ist die Variation von Unterrichtsmerkmalen über die Zeit (z. B. Praetorius et al. 2014). Obwohl es sich um ein wichtiges psychometrisches Gütemaß der Erfassung von Qualitätsdimensionen handelt, wurde in diesem Beitrag die Stabilität bzw. Instabilität der Rater-Urteile nicht eigens modelliert. Die angesichts der Stichprobengröße stattdessen vorgenommene pragmatische Mittelwertbildung von Rater-Einschätzungen über Messzeitpunkte und Unterrichtsstunden sollte die Unterrichtsqualität im beobachteten Zeitraum aber zumindest angemessen abbilden. Eine ausführliche Bearbeitung dieser Frage ist an anderer Stelle erfolgt (Jentsch et al. 2019).

Abschließend möchten wir auf methodische Herausforderungen unseres Ratingverfahrens eingehen. Dass in dieser Studie die Korrelationen zwischen Kompetenzfacetten der Lehrpersonen und Unterrichtsqualität relativ niedrig ausfallen, könnte damit zusammenhängen, dass als Erhebungsmethode kognitiv anspruchsvolle Live-Ratings zum Einsatz kamen (u. a. König 2015). Zur Bearbeitung dieser Problematik wurde vor der Datenerhebung eine intensive Rater-Schulung vorgenommen, die die Belastung vermindern sollte. Denkbar wäre dennoch, dass eine weitere Komplexitätsreduktion durch Videoanalysen oder kürzere Rating-Intervalle andere Zusammenhangsmuster hervorbringen würde, wie Studien zum CLASS-Instrument vermuten lassen (vgl. Casabianca et al. 2013; Mashburn et al. 2014). Diskussionswürdig dürfte ferner sein, dass die Rater eine Nachbesprechung vorgenommen haben. Diese bot allerdings auch die Chance einer höheren Inhaltsvalidität, da hierdurch Beobachterfehler verringert werden dürften.

Trotz dieser Limitationen scheint die Operationalisierung von Unterrichtsqualität durch hoch-inferente Ratingskalen weiterhin ein gangbarer Weg zu sein, um die Komplexität unterrichtlicher Lehr-Lernprozesse angemessen abzubilden. Unsere Ergebnisse deuten an, dass die Ratingskalen psychometrisch günstige Eigenschaften aufweisen und sich zu vier Faktoren zusammenfassen lassen. In Bezug auf das Ziel unserer Studie deuten wir die vorliegenden Ergebnisse derart, dass durch das Beobachtungsinstrument sowohl generische als auch fachspezifische Qualitätsmerkmale von Mathematikunterricht abgebildet werden, wenngleich die Bündelung dieser Merkmale zu Dimensionen empirisch gesehen anders ausfiel als erwartet (weder nur fachspezifische Ausdifferenzierung der Basisdimensionen, noch additiv fachspezifische Unterrichtsqualität, vgl. Abschn. 1.1).