1 Unterrichtsevaluation durch Schulleitungen und ihre Bedeutung für Unterrichtsentwicklung

Zahlreiche Studien belegen, dass Unterrichtsevaluationen für die Entwicklung des Unterrichts grundsätzlich einen hohen Stellenwert haben. In den letzten Jahren wurden im deutschsprachigen Raum dabei vor allem die Nutzung von Schülerleistungsdaten oder Schülerbefragungen implementiert (Gärtner 2010; Gärtner und Wurster 2019; Göllner et al. 2016). Anders als in angelsächsischen Ländern (Darling-Hammond et al. 1983) spielt die Evaluation des Unterrichts durch Schulleitungen in der deutschen Schulentwicklungsdiskussion bislang nur eine untergeordnete Rolle. Zwar schreiben alle Beamtengesetze dienstliche Beurteilungen und damit eine regelmäßige oder anlassbezogene Evaluation des Unterrichts durch Schulleitungen vor (Meetz 2007), in der Praxis scheinen dienstliche Beurteilungen unter Lehrpersonen allerdings wenig akzeptiert und kaum mit einem entwicklungsbezogenen Unterrichtsfeedback verbunden zu sein (Rauscher 2000). Obwohl empirische Befunde die Wirksamkeit von Führungsstilen wie Instructional Leadership oder Leadership for Learning bestätigen (Hallinger 2011; Pietsch et al. 2019), kann von einer systematischen Implementation eines Unterrichtsfeedbacks durch Schulleitungen allenfalls in Ansätzen gesprochen werden.

Grundsätzlich erscheinen Unterrichtsbeobachtungen als besonders aussichtsreicher Ansatz der Unterrichtsentwicklung. Für Unterrichtsbeobachtungen sprechen vor allem das Eröffnen einer neutralen Außenperspektive (Praetorius 2013), die hohe Augenschein-Validität und dadurch hohe Akzeptanz durch Lehrpersonen (Cohen und Goldhaber 2016) sowie die prädiktive Validität bezüglich des Lernerfolgs von Schüler/-innen (Fauth et al. 2014). Trotz gewisser methodischer Schwierigkeiten (Praetorius 2013), haben Unterrichtsbeobachtungen ein großes Potenzial für Unterrichtsentwicklung (Kraft et al. 2018; Steinberg und Sartain 2015; Taylor und Tyler 2012). Sollen Unterrichtsbeobachtungen durch Schulleitungen systematisch implementiert werden, müssen geeignete Instrumente vorliegen, die eine valide Beurteilung des Unterrichts erlauben und einen Rahmen für ein entwicklungsbezogenes Feedbackgespräch abstecken, in dem konkrete Hinweise auf die Optimierung von Unterricht thematisiert werden können (Kellermann et al. under review; Heneman und Milanowski 2003). Da Schulleitungen nur in wenigen Fächern über fachliche Expertise verfügen, muss sich ein entsprechendes Instrument auf generische, fächerübergreifende Merkmale des Unterrichts beziehen. Aus diesen Gründen sollte eine Beschränkung auf zentrale lernwirksame Merkmale des Unterrichts und eine Zuordnung dieser Merkmale zu theoretisch trennscharfen übergeordneten Dimensionen erfolgen.

Der in diesem Beitrag vorgestellte Beobachtungsbogen zur Erfassung von Unterrichtsqualität soll vorrangig im Rahmen von Unterrichtsevaluationen durch Schulleitungen eingesetzt werden, deren Ziel ein entwicklungsbezogenes Feedback an Lehrpersonen ist. Im Zentrum steht dabei das Handeln der Lehrperson; im Unterschied zu anderen Instrumenten der Unterrichtsevaluation, die die Interaktion zwischen Lehrkräften und Schüler/-innen in den Mittelpunkt stellen (Praetorius et al. 2018). Die Entwicklung des Beobachtungsbogens schließt an das Konzept der drei Basisdimensionen des Unterrichts an (Klieme et al. 2001). Es liegen bereits mehrere Beobachtungsbögen vor, die auf diesem Modell von Unterrichtsqualität basieren (Praetorius et al. 2018). Ausgangspunkt des Modells war eine empirische, faktorenanalytische Ermittlung von Unterrichtsdimensionen, welche nachträglich theoretisch unterfüttert wurden. Durch das Zusammenführen mehrerer Unterrichtsmerkmale in wenige, inhaltlich umfassende Dimensionen genügt das Modell forschungsrelevanten Anforderungen wie Sparsamkeit, Vermeidung von Multikollinearität oder hoher Erklärkraft für den Lernerfolg von Schüler/-innen. Die drei Dimensionen wurden allerdings in verschiedenen Studien teilweise unterschiedlich operationalisiert (Praetorius et al. 2018). Zudem sind mehrere empirisch abgesicherte Merkmale wirksamen Unterrichts wie Klarheit, Strukturiertheit und Übung nicht im Modell enthalten (Praetorius et al. 2018).

Für die Entwicklung eines Beobachtungsbogens für Schulleitungen wurde das Modell der drei Basisdimensionen erweitert. Der Beobachtungsbogen sollte einerseits das Unterrichtsgeschehen fachübergreifend möglichst breit abdecken, anderseits sollten die Items aus erhebungsökonomischen Gründen auf zentrale lernwirksame Merkmale des Unterrichts beschränkt werden. Die Operationalisierung mittels des Beobachtungsbogens weicht aus diesem Grund an einigen Stellen von der ursprünglichen Konzeption der drei Basisdimensionen ab: Die Dimension der kognitiven Aktivierung, die als Anregung „zum vertieften Nachdenken und zu einer elaborierten Auseinandersetzung mit dem Unterrichtsgegenstand“ (Lipowsky 2009, S. 93) definiert ist und Aspekte des Verstehens sowie des Transfers fokussiert, wird breiter operationalisiert und um die Aspekte der strukturierten Präsentation von Wissen und das Üben ergänzt. Anstelle der Dimension der konstruktiven Unterstützung wurde eine Dimension „Motivierung“ operationalisiert, die, nicht aus der Selbstbestimmungstheorie der Motivation von Deci und Ryan (1993), sondern aus dem Erwartungs-mal-Wert-Modell der Motivation abgeleitet ist, das den Nutzenaspekt einbezieht. Die Dimension Klassenführung wurde als Klassenmanagement vor dem Hintergrund der Arbeiten von Ophardt und Thiel (2013) sowie Piwowar (2013) operationalisiert. Entsprechend wurden auch der Aspekt der Steuerung des Unterrichtsflusses und das Unterrichtsklima einbezogen. Außerdem wurde ergänzend eine weitere Dimension „Individualisierung“ eingeführt.

Im Folgenden wird zunächst die theoretische Grundlage und damit die Herleitung der dem Beobachtungsbogen zugrunde gelegten Indikatoren beschrieben, bevor anschließend im Rahmen einer explorativen Studie eine erste empirische Überprüfung zentraler psychometrischer Eigenschaften des Beobachtungsbogens erfolgt.

2 Theoretische Grundlage des Beobachtungsbogens

Die theoretische Grundlage des Beobachtungsbogens bildet eine Beschreibung übergeordneter Anforderungsbereiche des Unterrichtens in der Perspektive von lehr-lernpsychologischen Theorien der Informationsverarbeitung, der Motivation und der sozialen Interaktion im Klassenzimmer: a) den Wissenserwerb der Schüler/-innen zu unterstützen, b) Schüler/-innen zu motivieren und c) das Verhalten der Schüler/-innen so zu regulieren, dass möglichst alle Schüler/-innen möglichst viel Lernzeit aktiv nutzen können. Zusätzlich ist eine angemessene Individualisierung des Unterrichts erforderlich, welche hier als querliegende Anforderung verstanden wird. Die linke Seite von Tab. 1 gibt einen Überblick über die Anforderungsbereiche und Unterrichtsmerkmale des Beobachtungsbogens.

Tab. 1 Unterrichtsmerkmale nach Anforderungsbereichen und Beispiel-Items

2.1 Unterstützung des Wissenserwerbs

Die theoretische Grundlage für den Anforderungsbereich Unterstützung des Wissenserwerbs bildet das Lehr-Lern-Prozessmodell von Klauer und Leutner (2012). Das Modell unterscheidet vier Komponenten eines kognitiven Lernprozesses: 1) Informierung, 2) Informationsverarbeitung, 3) Speicherung und Abruf von Informationen sowie 4) Transfer.

Das Unterrichtsmerkmal Erklärung und Präsentation bezieht sich auf die Darbietung von Informationen. Die Herausforderung besteht darin, dass im sensorischen Register viele Reize aufgenommen, aber im Arbeitsgedächtnis nur wenige Reize gleichzeitig weiterverarbeitet werden können. Informationen sollten daher so aufbereitet werden, dass die kognitive Belastung des Arbeitsgedächtnisses möglichst gering ist (Sweller 1988). Eine gute Informationsdarbietung ist durch eine strukturierte Präsentation, verständliche Erklärungen, Veranschaulichungen durch Beispiele und das Aufgreifen des Vorwissens der Schüler/-innen gekennzeichnet.

Im Anschluss erfolgt die Informationsverarbeitung. Lehrpersonen sollten in dieser Phase die Verstehensprozesse der Schüler/-innen unterstützen. Das betrifft die Elaboration von Informationen und ihre anschließende Reduktion (Klauer und Leutner 2012). Elaborieren umfasst Prozesse wie die Klärung von Zusammenhängen, die Kontextualisierung von Informationen oder die Entfaltung unterschiedlicher Detailaspekte. Angeregt werden können sie durch Vergleiche und kognitiv aktivierende Fragen, die auf Voraussetzungen, Bedingungen und Folgen abzielen. Reduktive Prozesse haben die Funktion, Informationen zu komprimieren. Lehrpersonen können diese anregen, indem sie behandelte Inhalte noch einmal zusammenfassen. Neben elaborativen und reduktiven Strategien ist der Einsatz von metakognitiven Strategien hilfreich für Schüler/-innen (Friedrich und Mandl 1992). Lehrpersonen können den Einsatz metakognitiver Strategien dadurch unterstützen, dass sie die Schüler/-innen dazu auffordern, ihre Vorgehensweisen zu planen und ihre Lösungen selbst zu bewerten.

Die langfristige Verfügbarkeit von Wissen ist von einer nachhaltigen Speicherung im Langzeitgedächtnis durch ausreichende Übung abhängig. Durch Übung wird Wissen verinnerlicht und Kompetenzen werden automatisiert, sodass ein problemloser Abruf gelingt. Neben einer ausreichenden Häufigkeit von Übungsphasen ist relevant, wie die Übungen konkret ausgestaltet werden. Wichtig ist, dass besonders schwierige Aspekte intensiv geübt werden und dass die Resultate des Übens überprüft und gegebenenfalls korrigiert werden (Anderson 1982).

Die vierte kognitive Funktion des Lernens ist der Transfer. Hier geht es darum, erworbenes Wissen so zu flexibilisieren, dass es auf neue Probleme übertragen werden kann, bzw. darum, gelernte Prinzipien oder Strategien in anderen Zusammenhängen anzuwenden (Klauer und Leutner 2012). Transfer kann angeregt werden, indem die Schüler/-innen ihr theoretisches Wissen auf praktische Probleme anwenden oder indem die Schüler/-innen zu einem Thema mehrere Aufgaben bearbeiten, die den Kontext variieren.

2.2 Motivierung

Neben den kognitiven Funktionen sind die motivationalen Funktionen für das Lernen zentral. Motivation sorgt dafür, dass Lernaktivitäten begonnen und aufrechterhalten werden. Grundlage für die Identifikation von Indikatoren der Motivierungsqualität ist das in der Motivationspsychologie weit verbreitete Modell von Eccles und Wigfield (2002; siehe auch: Rheinberg 2008), das Erwartungs- und Wertkomponenten der Motivation unterscheidet. Vier Aspekte der Motivierung, die für den Unterricht eine zentrale Bedeutung haben, lassen sich hieraus ableiten: durch 1) das Wecken von Interesse, 2) die Förderung von Lernfreude und 3) die Verdeutlichung des Nutzens können Anreize für Lernaktivitäten geschaffen werden, während 4) die Stärkung der Selbstwirksamkeitserwartung eine günstige Einschätzung der eigenen Erfolgswahrscheinlichkeit beim Lernen fördert.

Das Wecken von Interesse ist ein wichtiger Ansatzpunkt für die Motivierung der Schüler/-innen. Interesse bezieht sich auf die jeweiligen Lerninhalte und stellt damit einen gegenstandsbezogenen Anreiz dar. Es setzt sich aus wertbezogenen Überzeugungen und Gefühlsüberzeugungen zusammen (Schiefele 2009). Lehrpersonen können Interesse wecken, indem sie Schüler/-innen mit neuen Einsichten überraschen oder indem sie im Unterricht mit Enthusiasmus auftreten und so selbst Interesse an den Lerninhalten demonstrieren.

Im Gegensatz zum Interesse als gegenstandsbezogenem Anreiz bezieht sich Lernfreude auf die Art der Lernaktivitäten und wird daher auch als tätigkeitsbezogener Anreiz bezeichnet (Rheinberg 2008). Lehrpersonen sollten demnach darauf achten, dass Schüler/-innen im Unterricht Freude und Spaß erleben. Dazu ermöglichen sie beispielsweise explorierende, gestalterische oder spielerische Aktivitäten.

Ein weiterer Anreiz bezieht sich darauf, welchen Nutzen die Lerninhalte für die Schüler/-innen haben (Hulleman und Harackiewicz 2009). Der Anreiz des Nutzens hat, anders als Interesse und Freude, keinen unmittelbaren Bezug zum Lernprozess selbst, sondern verweist auf günstige Wirkungen im Anschluss an das erfolgreiche Lernen. Für diese Motivierungsstrategie ist es entscheidend, dass die Lehrperson verdeutlicht, warum bestimmte Lerninhalte für die Schüler/-innen relevant sind und dass sie Beispiele gibt, in welchen Lebenssituationen bestimmte Kenntnisse oder Kompetenzen benötigt werden.

Anreize alleine motivieren noch nicht zum Lernen. Die Schüler/-innen müssen auch die Erwartung haben, das Lernziel mit ihren eigenen Kompetenzen erreichen zu können. Aus diesem Grund stellt die Förderung von Selbstwirksamkeitserwartungen (Bandura 1976) einen wichtigen Ansatzpunkt für Motivierung dar. Relevant ist hierbei, dass die Lehrperson den Schüler/-innen zeigt, dass sie ihnen etwas zutraut, dass sie spezifisch und aufgabenbezogen lobt und Aufgaben stellt, die zwar Herausforderungen darstellen, deren Lösung aber möglich ist. Bei Schwierigkeiten sollte die Lehrperson die Schüler/-innen ermutigen, aber die Lösung nicht vorwegnehmen, so dass die Schüler/-innen Erfolgserfahrungen machen können.

2.3 Klassenmanagement

Schulklassen sind dynamische Interaktionssysteme, in denen Lernen nur dann gelingt, wenn ein gewisses Maß an sozialer Ordnung sichergestellt ist (Doyle 2006). Diese sozialen Faktoren des Lernens werden im Konstrukt des Klassenmanagements konzeptualisiert. Im Vordergrund steht die Maximierung der aktiven Lernzeit für alle Schüler/-innen. Ausgehend von den Arbeiten von Ophardt und Thiel (2013) sowie Piwowar (2013) können fünf Funktionen im Hinblick auf das Klassenmanagement unterschieden werden, die Überschneidungen mit dem Linzer Bogen zur Klassenführung aufweisen (Lenske und Mayr 2015): 1) Unterrichtsklima, 2) Monitoring, 3) Steuerung des Unterrichtsflusses, 4) Gruppenaktivierung und 5) Umgang mit Störungen.

Für ein lernförderliches Unterrichtsklima muss zunächst eine Interaktionsordnung durch die Einführung von Regeln etabliert werden. Die Beachtung von Regeln durch die Schüler/-innen in der Form von gegenseitigem Respekt, Rücksichtnahme und die Bereitschaft zur Unterstützung findet ebenso Ausdruck im Unterrichtsklima wie entsprechende Verhaltensweisen der Lehrperson (Ophardt und Thiel 2013).

Ein effektives Klassenmanagement setzt voraus, dass die Lehrperson das Geschehen in der ganzen Klasse wahrnimmt (Kounin 2006). Monitoring ist ein Teilaspekt der professionellen Wahrnehmung. Damit ist gemeint, dass die Lehrperson die Aktivitäten aller Schüler/-innen im Blick behält und bemerkt, wenn sich einzelne Schüler/-innen mit unterrichtsfremden Dingen beschäftigen. Dadurch bemerkt die Lehrperson sofort, wenn sich einzelne Schüler/-innen mit unterrichtsfremden Dingen beschäftigen.

Für die Maximierung aktiver Lernzeit ist weiterhin eine effektive Steuerung des Unterrichtsflusses wichtig, einerseits, weil bei unnötigen Pausen Lernzeit verloren geht, andererseits, weil das Handlungsprogramm durch Leerläufe oder Nachfragen unterbrochen wird und dann mühevoll wiederaufgebaut werden muss (Ophardt und Thiel 2013). Für die Aufrechterhaltung des Unterrichtsflusses sind nahtlose Übergänge zwischen Unterrichtsphasen, gut vorbereitete Unterrichtsmaterialien und die Vermeidung von inhaltlichen Abschweifungen relevant.

Auf die Bedeutung der Gruppenaktivierung hat bereits Kounin (2006) mit seiner Videostudie aufmerksam gemacht. Vorrangig geht es darum, alle Schüler/-innen aktiv in den Unterricht einzubinden. Lehrpersonen müssen gezielt verhindern, dass sich einzelne Schüler/-innen aus dem Unterrichtsgeschehen zurückziehen oder in Leerlaufphasen verweilen. Hierfür müssen Lehrpersonen einen Gruppenfokus auf die gesamte Klasse und einen Individualfokus auf einzelne Schüler/-innen verbinden.

Störungen des Unterrichts entstehen, weil Schüler/-innen die Aufmerksamkeit nicht über eine ganze Stunde aufrechterhalten können, weil sie von ihren Mitschüler/-innen abgelenkt werden, diese beindrucken wollen oder weil sie sich ungerecht behandelt fühlen (Thiel 2016). Ein angemessener Umgang mit Störungen berücksichtigt die Schwere des Störverhaltens. Bei kleineren Störungen sind beiläufige nonverbale Signale häufig ausreichend. Bei schwereren Störungen können dagegen verbale Ermahnungen und gegebenenfalls auch die Ankündigung von Sanktionen notwendig sein (Ophardt und Thiel 2013).

2.4 Individualisierung

Da sich Schüler/-innen hinsichtlich ihrer Lernvoraussetzungen unterscheiden, stehen Lehrpersonen schließlich vor der Herausforderung der Individualisierung des Unterrichts (Klieme und Warwas 2011). Individualisierung wird hier als querliegende Anforderung verstanden. Individualisierende Maßnahmen sind primär in den Bereichen Unterstützung des Wissenserwerbs und Motivierung erforderlich, da die Schüler/-innen sowohl unterschiedliche kognitive Lernvoraussetzungen (z. B. Vorwissen) als auch unterschiedliche motivationale Bedingungen (z. B. Interessen) aufweisen. Dementsprechend werden die zwei Aspekte individualisierter Wissenserwerb und individualisierte Motivierung unterschieden.

Die Überschneidungen des hier vorgestellten Ansatzes zum Modell der drei Basisdimensionen sind offensichtlich. Unterschiede ergeben sich vor allem durch eine stärkere Berücksichtigung von Prozessen der strukturierten Darbietung von Information und der Übung bei der Informationsverarbeitung sowie, bezogen auf den Anforderungsbereich der Motivierung, durch eine Unterscheidung von gegenstandbezogener, prozessbezogener und utilitaristischer Motivation. Beim Klassenmanagement erfolgte ergänzend zur Operationalisierung dieser Dimension in den Instrumenten, die die drei Basisdimensionen erfassen, die Berücksichtigung von Aspekten der Steuerung des Unterrichtsflusses, der Gruppenaktivierung und des Unterrichtsklimas (vgl. Praetorius et al. 2018).

Für die Entwicklung eines Beobachtungsbogens für die Unterrichtsevaluation durch Schulleitungen hat das Vorgehen mehrere Vorteile. Erstens ermöglicht die theoretische Herleitung eine eindeutige Zuordnung der einzelnen Unterrichtsmerkmale zu distinkten Dimensionen. Zweitens legt das Unterrichtsmodell seinen Schwerpunkt auf die Handlungen von Lehrpersonen und auf beeinflussbare Aspekte der Lernaktivitäten von Schüler/-innen (z. B. Lernfreude, Störverhalten), um konkrete Ansatzpunkte für eine Weiterentwicklung des Unterrichts aufzuzeigen. Drittens weist das Modell einen relativ hohen Auflösungsgrad auf, da innerhalb jedes Anforderungsbereichs mehrere inhaltlich eng gefasste Unterrichtsmerkmale benannt werden. Auf der Grundlage der insgesamt 15 Unterrichtsmerkmale kann ein spezifisches und differenziertes Feedback gegeben werden.

2.5 Fragestellungen

Nachdem die theoretische Grundlage und die Herleitung der dem Beobachtungsbogen zugrunde gelegten Indikatoren beschrieben wurden, soll im Folgenden eine erste Überprüfung zentraler psychometrischer Eigenschaften des Beobachtungsbogens erfolgen. Im Rahmen einer explorativen Studie werden Aspekte der Reliabilität und Validität des entwickelten Bogens überprüft. Zunächst wird die faktorielle Validität im Vergleich zu den theoretischen Annahmen getestet. Als Aspekte der Reliabilität werden anschließend die internen Konsistenzen der gebildeten Skalen, deren Interkorrelationen sowie deren Stabilität im Sinne einer Test-Retest-Reliabilität überprüft.

3 Empirische Analysen zum Beobachtungsbogen

Das beschriebene Modell von Unterrichtsqualität wurde in der Form eines Beobachtungsbogens für Schulleitungen operationalisiert. Nachfolgend wird zunächst die Entwicklung des Beobachtungsbogens beschrieben. Anschließend werden die Ergebnisse einer explorativen Studie mit Beobachtungsdaten von Lehramtsstudierenden berichtet.

3.1 Entwicklung des Beobachtungsbogens

Bei der Entwicklung des Beobachtungsbogens wurde zunächst ein Itempool für die insgesamt 15 Konstrukte generiert. Als Vorlage dienten, wo dies unter inhaltlichen Gesichtspunkten sinnvoll erschien, Items aus bestehenden Beobachtungsbögen (z. B. Clausen 2002; Helmke und Schrader 1997; Piwowar 2013). Das Antwortformat ist eine vierstufige Likert-Skala. Basierend auf dem Itempool wurde eine vorläufige Version des Beobachtungsbogens erstellt und in einer Pilotstudie im Sommersemester 2016 primär an Schulen in Berlin überprüft. Basierend auf diesen Analysen wurde der Beobachtungsbogen optimiert. Die überarbeitete Version des Beobachtungsbogens umfasst insgesamt 15 Skalen und 78 Items, mit 4 bis 8 Items pro SkalaFootnote 1 (Beispielitems siehe Tab. 1).

3.2 Beobachtertraining

Die hier analysierten Beobachtungsdaten wurden von geschulten Lehramtsstudierenden erhoben. Das Beobachtertraining erfolgte im Rahmen einer universitären Lehrveranstaltung und dauerte insgesamt 10 h. Neben einer theoretischen Einführung in die theoretischen Grundlagen des Beobachtungsbogens und der Sensibilisierung für Beobachtungsfehler wurde der Einsatz des Beobachtungsbogens in mehreren Durchgängen an Videomaterial geübt. Zunächst wurden Videoausschnitte aus unterschiedlichen Unterrichtsstunden von Studierenden unabhängig voneinander beurteilt. Anschließend wurden Übereinstimmungen und Abweichungen der individuellen Einschätzungen anhand von Profildiagrammen in Gruppen von bis zu vier Studierenden diskutiert. Im Sinne einer Kalibrierung wurden die Items in der Diskussion konkretisiert. Abschließend erfolgte eine Diskussion der Gruppenergebnisse im gesamten Seminar. Die gemeinsam erarbeiteten Anhaltspunkte zur Konkretisierung der Items wurden zusammengefasst. Der Umfang des Beobachtertrainings ist zwar erkennbar niedriger als bei Beobachtertrainings im Rahmen wissenschaftlicher Studien, allerdings waren die Studierenden bereits durch eine Vorlesung mit den entsprechenden Theorieansätzen der Informationsverarbeitung, der Motivierung und des Klassenmanagements vertraut.

3.3 Stichprobe

Die Beobachtungsdaten wurden von den Lehramtsstudierenden im Rahmen eines Schulpraktikums im Sommersemester 2017 erhoben. Es handelt sich um Unterrichtsstunden, in denen die Lehramtsstudierenden hospitiert haben, d. h. die Lehramtsstudierenden beobachteten den Unterricht von regulären Lehrpersonen. Die Stichprobe besteht aus insgesamt N = 620 beobachteten Unterrichtsstunden. In jeder Unterrichtsstunde war ein Beobachter/eine Beobachterin anwesend. Das Beobachtungsverfahren hatte den folgenden Ablauf: Zunächst beobachtete der Beobachter/die Beobachterin den Unterricht und machte sich stichpunktartige Notizen zu relevanten Verhaltensweisen der Lehrperson und der Schüler/-innen. Direkt nach der Unterrichtsstunde füllte der Beobachter/die Beobachterin den Beobachtungsbogen aus. Die Beobachter/-innen (65,7 % weiblich, 34,3 % männlich) wurden instruiert, jeweils vier Unterrichtsstunden derselben Lehrperson (67,9 % weiblich, 32,1 % männlich) einzuschätzen. Der überwiegende Teil der Beobachtungen (91,0 %) erfolgte an Schulen in Berlin. Die Beobachtungen verteilen sich folgendermaßen auf verschiedene Schulformen: 43,1 % Grundschulen, 29,8 % Gymnasien und 27,1 % Schulen mit mehreren Bildungsgängen. Hinsichtlich der beobachteten Unterrichtsfächer ergibt sich folgende Verteilung: 45,0 % MINT-Fächer, 28,7 % sprachliche Fächer, 9,5 % gesellschaftswissenschaftliche Fächer, 7,6 % kreative Fächer und 5,6 % weltanschauliche Fächer.

3.4 Analysen

Für die Überprüfung der Faktorenstruktur wurde eine explorative Faktorenanalyse genutzt. Da einige Items nicht normalverteilt waren, wurde für die explorative Faktorenanalyse ein robuster Maximum-Likelihood-Schätzer verwendet. Weiterhin wurden die Standardfehler bezüglich der hierarchischen Datenstruktur (Beobachtungen geschachtelt in Lehrperson) korrigiert. Für die Rotation der Faktoren wurde eine oblique Geomin-Rotation benutzt, da von bedeutsamen Faktorkorrelationen auszugehen war. Die Überprüfung der Zusammenhänge zwischen den Unterrichtsmerkmalen erfolgte mithilfe von Produkt-Moment-Korrelationen zwischen den Skalen. Als Skalenwert wurde der Mittelwert aller Items der jeweiligen Skala verwendet.

Die interne Konsistenz wurde mithilfe des Reliabilitätskoeffizienten Ω (McDonald 1999) untersucht. Dieses Maß wurde verwendet, weil die vorliegenden Daten die Voraussetzungen des üblicherweise verwendeten Koeffizienten α (ein essenziell tau-äquivalentes Reliabilitätsmodell) nicht erfüllten, während die Berechnung von Ω zulässig war (Dunn et al. 2014). Als Indikator der Test-Retest-Reliabilität verwenden wir die Produkt-Moment-Korrelation zwischen den Skalenwerten des jeweils gleichen Konstrukts bei der ersten und zweiten Unterrichtsbeobachtung. Die Analysen wurden mithilfe von Mplus 8 (Muthen und Muthen 1998–2017) durchgeführt. Fehlende Werte wurden durch die Full-Information-Maximum-Likelihood-Methode behandelt, so dass jeweils alle Fälle eingeschlossen werden konnten. Der Anteil fehlender Werte lag je nach Item zwischen 0,3 und 9,5 %.

3.5 Ergebnisse

3.5.1 Deskriptive Statistiken

Zunächst wurden die Mittelwerte und Standardabweichungen der Items deskriptiv analysiert. Bei einer kleinen Gruppe von Items zeigten sich relativ hohe Mittelwerte, d. h. die Beobachter/-innen bewerteten die Unterrichtsqualität bei diesen Aspekten als sehr gut (siehe Online-Zusatzmaterial 1). Einhergehend mit den hohen Mittelwerten weisen diese Items rechtssteile Verteilungen auf. Davon abgesehen zeigten sich deskriptiv keine weiteren Auffälligkeiten.

3.5.2 Faktorenstruktur

Der erste Schritt der explorativen Faktorenanalyse bestand in der Ermittlung der Anzahl der Faktoren. Die Faktorenanzahl ist relevant für die Modellannahme, dass eine hohe Anzahl von inhaltlich eng gefassten Unterrichtsmerkmalen empirisch abgebildet werden kann. Aus einer theoretischen Perspektive war mit einem 15-Faktoren-Modell zu rechnen. Empirische Ansätze zur Ermittlung der Faktorenanzahl (O’Connor 2000) kamen zu unterschiedlichen Ergebnissen. Das Kaiser-Guttman-Kriterium ergab 14 Faktoren, der MAP-Test ergab 13 Faktoren und die Parallelanalyse ergab 9 Faktoren. Vor diesem Hintergrund wurden explorative Faktorenanalysen mit 9, 13, 14 und 15 Faktoren berechnet. Die Ergebnisse dieser vier Faktorenmodelle wurden wiederum unter theoretischen und empirischen Gesichtspunkten bewertet. In theoretischer Hinsicht erschien das 15-Faktoren-Modell am plausibelsten, da sich alle neu dazu kommenden Faktoren (im Vergleich zu Modellen mit weniger Faktoren) inhaltlich sinnvoll interpretieren ließenFootnote 2. In empirischer Hinsicht wurde die Passung der Modelle anhand des Akaike Information Criterion (AIC) überprüft. Dieser Indikator wird für den Vergleich von nicht geschachtelten Modellen empfohlen (Kline 2011). Das 15-Faktoren-Modell wies den niedrigsten Wert auf (AIC = 94685), somit erschien dieses Modell auch unter empirischen Gesichtspunkten am geeignetsten. Die Modellpassung (CFI = 0,93, RMSEA = 0,04, χ2/df = 1,83) kann als zufriedenstellend angesehen werden (Kline 2011).

Als nächstes wurde überprüft, inwieweit die empirischen Faktorladungen den theoretischen Zuordnungen von Items zu Konstrukten entsprechen. Hierbei ist zu berücksichtigen, dass zwischen Unterrichtsmerkmalen teilweise bedeutsame Zusammenhänge bestehen können. Für die explorative Faktorenanalyse ergibt sich hieraus, dass der Anspruch, nach dem Items keine bedeutsamen Querladungen aufweisen sollten, zu streng erscheint. Stattdessen wird der Anspruch gestellt, dass die Items jeweils die höchste Faktorladung auf dem theoretisch zugehörigen Faktor haben, was bedeutet, dass die Items primär das vorgesehene Konstrukt erfassen. Weiterhin sollten theoriekonforme Faktorladungen inhaltlich bedeutsam (λ > 0,30, Wolff und Bacher 2010) und statistisch signifikant (p < 0,05) sein.

Die Ergebnisse lassen sich folgendermaßen zusammenfassen (siehe Online-Zusatzmaterial 2): Bei 9 der 15 Skalen (Erklärung und Präsentation, Speicherung durch Üben, Anwendung und Transfer, Weckung von Interesse, Verdeutlichung des Nutzens, Förderung von Freude, Monitoring, Steuerung des Unterrichtsflusses und Gruppenaktivierung) entspricht das empirische Ladungsmuster der theoretischen Zuordnung der Items zu den Konstrukten. Bei diesen Skalen haben jeweils alle Items die höchste Faktorladung auf dem theoretisch zugehörigen Faktor. Alle Faktorladungen sind inhaltlich bedeutsam (λ = 0,35 bis λ = 0,84) und statistisch signifikant.

Bei den Skalen Unterstützung des Verstehens und Umgang mit Störungen deckt sich das Ladungsmuster weitestgehend mit der theoretischen Einteilung. Bei diesen beiden Skalen hat jeweils ein Item die höchste Faktorladung auf einem anderen als dem zugehörigen Faktor. Beide Querladungen sind inhaltlich plausibel. Die restlichen Items laden jeweils alle inhaltlich bedeutsam (λ = 0,37 bis λ = 0,65) und statistisch signifikant auf den zugehörigen Faktoren.

Bei der Skala Lerndienliches Unterrichtsklima ergeben sich abweichend von der theoretischen Erwartung zwei Faktoren. Beide Faktoren lassen sich inhaltlich sinnvoll interpretieren. Ein Faktor bezieht sich primär auf das Verhalten der Schüler/-innen, der andere primär auf das Verhalten der Lehrperson. Bei beiden Faktoren sind jeweils alle Faktorladungen inhaltlich bedeutsam (λ = 0,63 bis λ = 0,88) und statistisch signifikant.

Bei den drei verbleibenden Skalen Individualisierter Wissenserwerb, Individualisierte Motivierung und Förderung von Selbstwirksamkeit weicht das Ladungsmuster erkennbar von der theoretischen Einteilung ab. Die Items dieser drei Skalen ergeben zusammen zwei Faktoren. Auf dem ersten Faktor laden inhaltlich bedeutsam (λ = 0,41 bis λ = 0,87) und statistisch signifikant zwei Items des Individualisierten Wissenserwerbs und ein Item der Individualisierten Motivierung. Wir interpretieren, dass es sich um einen bereichsübergreifenden Individualisierungs-Faktor handelt. Auf dem zweiten Faktor laden alle Items der Förderung von Selbstwirksamkeit, drei Items der Individualisierten Motivierung sowie zwei Items des Individualisierten Wissenserwerbs inhaltlich bedeutsam (λ = 0,33 bis λ = 0,68) und statistisch signifikant. Da von der Skala Förderung von Selbstwirksamkeit alle Items relativ hohe Faktorladungen aufweisen (λ = 0,50 bis λ = 0,66), von den zwei Individualisierungs-Skalen dagegen jeweils nur bestimmte Items, schlussfolgern wir, dass dem Faktor primär das Konstrukt Förderung von Selbstwirksamkeit zugrunde liegt.

Aufgrund der Ergebnisse der Faktorenanalyse wurden für die nachfolgenden Analysen zwei Modifikationen vorgenommen. Die Bildung von Skalenwerten (für Korrelationsanalysen) als auch der Reliabilitätskoeffizient Ω setzen jeweils eindimensionale Skalen voraus (Döring und Bortz 2016; Dunn et al. 2014). Eindimensionalität ist bei der Skala zum Lerndienlichen Unterrichtsklima und bei den zwei Individualisierungs-Skalen nicht gegeben. Daher wurden beim Lernförderlichen Unterrichtsklima zwei Skalen gebildet, entsprechend den zwei ermittelten Faktoren (Lernförderliches Unterrichtsklima Schüler/-innen und Lernförderliches Unterrichtsklima Lehrperson). Bezüglich Individualisierung wurde aus den drei Items, die auf einem Faktor laden, eine bereichsübergreifende Individualisierungs-Skala gebildet. Durch diese Modifikationen wird im Weiteren explorativ überprüft, ob sich die alternativen Modellierungen empirisch bewähren.

3.5.3 Zusammenhänge zwischen Unterrichtsmerkmalen

Die Analyse der Korrelationen zwischen den Skalen erlaubt Schlussfolgerungen über die empirische Trennbarkeit der Unterrichtsmerkmale. Hierbei muss wiederum berücksichtigt werden, dass bedeutsame Zusammenhänge zwischen Unterrichtsmerkmalen theoretisch plausibel und aufgrund früherer Studien zu erwarten sind. Problematisch sind nur sehr hohe Korrelationen (r > 0,90), da es in diesem Fall fraglich erscheint, ob die Skalen verschiedene Konstrukte messen (Kline 2011). Tab. 2 zeigt die vollständige Korrelationsmatrix.

Tab. 2 Produkt-Moment-Korrelationen r, Reliabilitätskoeffizient Ω und Test-Retest-Reliabilität rtt

Die Korrelationen variieren zwischen r = 0,01 und r = 0,75. Zwischen mehreren Skalen bestehen substanzielle Korrelationen, allerdings fällt keine Korrelation so hoch aus, dass anzunehmen wäre, dass zwei Skalen das gleiche Konstrukt messen (r > 0,90). Die moderate Korrelation (r = 0,45) zwischen den beiden Unterrichtsklima-Skalen bestätigt, dass es sich um zwei empirisch trennbare Aspekte handelt. Weiterhin zeigt sich, dass sich die bereichsübergreifende Individualisierungs-Skala gut von der Skala zur Förderung von Selbstwirksamkeit abgrenzen lässt (r = 0,39).

3.5.4 Interne Konsistenz

Die Ergebnisse zur internen Konsistenz in der Form des Reliabilitätskoeffizienten Ω finden sich in der oberen diagonalen Zellreihe von Tab. 2. Die interne Konsistenz variiert zwischen Ω = 0,78 und Ω = 0,93 und liegt somit durchgängig über dem zu erreichenden Schwellenwert für Reliabilitätskoeffizienten von 0,70 (Kline 2011). Somit fällt die interne Konsistenz bei allen Skalen zufriedenstellend aus, auch bei den explorativ gebildeten Unterrichtsklima-Skalen (Ω = 0,90 und Ω = 0,89) und der bereichsübergreifenden Individualisierungs-Skala (Ω = 0,84).

3.5.5 Test-Retest-Reliabilität

Die Produkt-Moment-Korrelationen zwischen den Skalenwerten zum ersten und zweiten Messzeitpunkt befinden sich ebenfalls in Tab. 2. Die Korrelationen variieren zwischen rtt = 0,59 und rtt = 0,80. Bei der Interpretation der Test-Retest-Reliabilität ist die zeitliche Stabilität des untersuchten Merkmals zu berücksichtigen. Die Korrelation zwischen den Messungen an zwei Zeitpunkten (rtt) entspricht der Reliabilität, wenn die wahren Werte und das Ausmaß an Messfehlern im betrachteten Zeitraum konstant bleiben. Es ist anzunehmen, dass Lehrpersonen verschiedene Unterrichtsstunden unterschiedlich gestalten, auch wenn die einzelnen Unterrichtsstunden wie in diesem Fall im Abstand von nur wenigen Wochen liegen. Demnach kommt es zu unsystematischen Veränderungen in den wahren Werten der Unterrichtsmerkmale. Daher unterschätzt die Korrelation rtt die tatsächliche Reliabilität. Vor diesem Hintergrund erscheint für die meisten Skalenmittelwerte ein ausreichendes Maß an Stabilität gegeben.

4 Diskussion

Im vorliegenden Beitrag wurde ein Beobachtungsbogen zur Erfassung von Unterrichtsqualität vorgestellt, der bei Unterrichtsevaluationen durch Schulleitungen im Rahmen eines Unterrichtsfeedbacks für Lehrpersonen eingesetzt werden soll. Dazu wurde das bewährte Modell der drei Basisdimensionen der Unterrichtsqualität erweitert. Die Vorteile des Vorgehens liegen in einer theoretischen Herleitung der Unterrichtsmerkmale, dem Fokus auf das Handeln der Lehrperson im Unterricht und einer hohen Auflösung durch 15 inhaltlich eng gefasste Unterrichtsmerkmale. Die Ergebnisse einer explorativen Studie mit Beobachtungsdaten von Lehramtsstudierenden zeigen eine weitgehende Deckung von theoretischer Modellstruktur und empirischer Faktorenstruktur, moderate bis hohe Korrelationen zwischen den Unterrichtsmerkmalen, zufriedenstellende interne Konsistenzen und Stabilitäten. Insgesamt sprechen die Ergebnisse dafür, dass das theoretische Modell empirisch abgebildet werden kann.

Abweichungen zwischen theoretischem Modell und empirischer Faktorenstruktur ergeben sich zunächst bei der Skala zum Unterrichtsklima, welche zwei Faktoren umfasst. Es erscheint theoretisch plausibel, dass respektvolle und freundliche Verhaltensweisen der Schüler/-innen nicht zwangsläufig auch mit entsprechenden Verhaltensweisen der Lehrperson einhergehen und umgekehrt. Die moderate Korrelation zwischen den Skalen zeigt aber, dass sich die beiden Aspekte zumindest begünstigen. Weiterhin bilden die zwei Individualisierungsskalen einen bereichsübergreifenden Individualisierungs-Faktor und weisen Querladungen auf dem Faktor zur Förderung von Selbstwirksamkeit auf. Der bereichsübergreifende Faktor legt nahe, dass Beobachter/-innen nicht unterscheiden können, ob individualisierende Maßnahmen auf kognitive oder motivationale Lernvoraussetzungen der Schüler/-innen ausgerichtet sind.

Aus den empirischen Ergebnissen können zwei Modifikationen des theoretischen Modells abgeleitet werden. Erstens sollte die Unterscheidung zwischen schülerbezogenem und lehrpersonenbezogenem Unterrichtsklima aufgegriffen werden und somit ein Unterrichtsmerkmal ergänzt werden. Zweitens sind die beiden Aspekte von Individualisierung in ein gemeinsames Unterrichtsmerkmal zusammenzuführen. Für die Weiterentwicklung des theoretischen Modells in dieser Form sprechen auch erste Analysen mit einem Schülerfragebogen, die zu ähnlichen Ergebnissen bezüglich der Faktorenstruktur kommen (Gärtner et al. under review). Aufbauend auf dieser Weiterentwicklung des theoretischen Modells kann der Beobachtungsbogen entsprechend überarbeitet werden.

Limitationen des vorliegenden Beitrags sollen im Folgenden thematisiert werden: Die empirische Überprüfung des Beobachtungsbogens erfolgte zwar mit einer vergleichsweise großen Stichprobe, allerdings handelte es sich nicht um Schulleitungen, sondern um trainierte Lehramtsstudierende. Die Rekrutierung einer entsprechenden großen Schulleitungsstichprobe war im Rahmen des Projekts nicht möglich. Auch der Umfang des Trainings war mit zehn Stunden vergleichsweise niedrig. Es spricht allerdings für die Konstrukte, dass trotz dieser Limitation die theoretisch angenommene Faktorenstruktur weitgehend belegt werden konnte. Weitere Kontextfaktoren konnten im Rahmen der Unterrichtsevaluation durch die Studierenden nicht erfasst werden. Auch die Inter-Rater-Reliabilität ließ sich mit den vorliegenden Daten nicht überprüfen. Zwar wurde im Beobachtertraining auf eine Kalibrierung der Beurteilung großer Wert gelegt, allein kann diese eine Überprüfung der Inter-Rater-Reliabilität nicht ersetzen.

Gleichwohl liefert die vorliegende explorative Analyse erste Evidenzen für die Eignung des Beobachtungsbogens für eine Unterrichtsevaluation durch Schulleitungen. Die Ergebnisse weisen darauf hin, dass es im Interesse der theoretischen Trennschärfte sinnvoll ist, die drei Basisdimensionen auf der Grundlage der gewählten Bezugstheorien zu operationalisieren und so die kognitive, die motivationale und die soziale Perspektive auf Unterricht eindeutig zu trennen. Dies erleichtert nicht nur die Konzeption und Durchführung von Beobachtungstrainings für Schulleitungen, sondern stellt auch einen klaren Rahmen für deren Feedback an die beurteilten Lehrkräfte bereit. Die Erfahrungen mit der Nutzung des Bogens im Rahmen eines Schulleitungstrainings bestätigen diese Einschätzung. Auch die eigentliche Zielgruppe des Bogens konnte ihn nach dem Training praktikabel einsetzen. Die Wirkung eines auf dem Beobachtungsbogen basierendem Unterrichtsfeedbacks von Schulleitungen auf die von Schüler/-innen wahrgenommene Unterrichtsqualität wurde im Rahmen einer Interventionsstudie untersucht. Schüler/-innen von Lehrpersonen, die ein Unterrichtsfeedback von ihrer Schulleitung erhielten, schätzten die Unterrichtsqualität nach der Feedbackintervention bei fünf der beschriebenen Unterrichtsmerkmale signifikant besser ein, als Schüler/-innen von Lehrpersonen, die kein Feedback erhielten (Kellermann et al. under review). Die Interventionsstudie liefert somit Belege dafür, dass der Beobachtungsbogen für wirksame Unterrichtsentwicklung verwendet werden kann und unterstreicht dessen Praktikabilität.

Anschlussstudien sollten an den aufgezeigten Limitationen ansetzen. Die in der vorliegenden explorativen Studie durchgeführten Analysen sollten mit einer Schulleitungsstichprobe wiederholt werden. Zusätzlich sollte die Inter-Rater-Reliabilität nach Training, sowohl im Unterricht als auch mittels Videomaterial, überprüft werden. Zudem muss durch Invarianztestungen geprüft werden, ob die gefundene Faktorenstruktur gleichermaßen für alle Schulformen und Jahrgangsstufen Gültigkeit besitzt. Dies würde die Voraussetzungen für einen breiten Einsatz des Beobachtungsbogens zu Feedbackzwecken, nicht nur durch Schulleitungen, schaffen.