1 Einleitung

Die Bedeutung der Qualität des unterrichtlichen Angebots für den Lernerfolg wird sowohl in theoretischen Modellen als auch in empirischen Studien betont (z. B. Lipowsky 2006). Um Aussagen über die Unterrichtsqualität treffen zu können, wird häufig auf Urteile von Externen zurückgegriffen. Gründe dafür sind die hohe Validität, die prädiktive Kraft für die Schülerleistungen, der emotionale Abstand zum Unterrichtsgeschehen sowie ein höheres Ausmaß an Vergleichsmöglichkeiten (Fauth et al. 2014a; Rakoczy 2008). Im Kontext der Raterurteile anhand von Unterrichtsvideos werden zur Sicherstellung der Objektivität Kodiermanuale entwickelt, welche je nach Inferenz des einzuschätzenden Merkmals ausdifferenziert werden, um Abweichungen in Beurteilungen zur selben Unterrichtseinheit zu minimieren (Seidel und Thiel 2017). Für die Sicherstellung der Validität und Reliabilität der Urteile werden Raterinnen und Rater in der Nutzung dieser Manuale geschult und gemeinsame Trainings durchgeführt (Lotz et al. 2013). Dennoch lassen sich Unterschiede in den Beurteilungen desselben Videos nicht vollständig eliminieren. Messergebnisse können durch Beurteilungsfehler verzerrt werden und somit zu einer Einschränkung der Nutzbarkeit und Interpretierbarkeit der Ergebnisse führen (Pietsch und Tosana 2008). Wenn die Raterinnen und Rater den gleichen Einflussfaktoren unterliegen, können Urteile aufgrund gleicher systematischer Verzerrung trotzdem hohe Interraterreliabilitäten aufweisen. Bisher gibt es nur wenige Erkenntnisse darüber, wie solche Verzerrungen von Einschätzungen der Unterrichtsqualität zustande kommen. Ein möglicher Erklärungsfaktor ist die Reihenfolge, in der Videos beurteilt werden, da Informationen aus vorherigen Videos die neutrale Betrachtung eines darauffolgenden beeinträchtigen können (Mashburn et al. 2014). Verzerrungen der Urteile aufgrund der Darbietungsreihenfolge der Videos können zusätzlich durch individuelle Merkmale (z. B. geringe Vorerfahrung mit der Thematik und Müdigkeit) verstärkt werden (Gabriel-Busse et al. 2020; Webster et al. 1996). Unterrichtsbeobachtungen und Bewertungen des Lehrkraftverhaltens sowie der Unterrichtsqualität werden zunehmend in der Qualifikation sowie Weiterbildung von Lehrenden und Forschung eingesetzt (Mashburn et al. 2014). Demzufolge ist es bedeutsam, dass Verzerrungen in diesen Bewertungen so gering wie möglich gehalten werden. Die hier vorliegende Studie erweitert die bisherige Befundlage zu Beurteilungsfehlern und untersucht dabei gezielt Effekte der Darbietungsreihenfolge von Unterrichtsvideos sowie der individuellen Merkmale von Raterinnen und Ratern und mögliche Interaktionen.

2 Theoretischer Hintergrund

2.1 Merkmale qualitätsvollen Unterrichts

Qualitätsvoller Unterricht zeichnet sich unter anderem durch eine kognitiv anregende, störungsarme und unterstützende Lernumgebung aus (z. B. Praetorius et al. 2020). Um lernwirksame kognitive Prozesse zu aktivieren, ist das Anknüpfen an methodische sowie inhaltliche Vorkenntnisse der Lernenden und das Stellen herausfordernder Aufgaben bedeutsam (Lipowsky et al. 2009). Für eine erfolgreiche Auseinandersetzung mit dem Lernstoff ist ebenfalls die explizite Benennung von Lernzielen und das Vermitteln von inhaltlichen und methodischen Lernerwartungen von Relevanz (Meyer 2007).

Eine effiziente Klassenführung gilt als Voraussetzung für ein optimales Lernen in der Klasse. Ziel ist es, den Unterricht so zu strukturieren, dass möglichst viel Unterrichtszeit für den Lernstoff verwendet wird und Störungen möglichst vermieden werden (Brophy 1979; Emmer und Stough 2001). Von besonderer Bedeutung sind hierfür die Klarheit und die Einhaltung von Klassenregeln (Emmer und Stough 2001).

Als spezifische Facette der konstruktiven Unterstützung gilt die Motivierungsqualität, welche darauf abzielt, die Lernmotivation von Lernenden anzuregen und aufrecht zu erhalten (Kunter und Trautwein 2013). Für eine hohe Motivierung ist es wichtig, das Erleben von Selbstbestimmung zu fördern. Dies kann durch die Erfüllung psychologischer Grundbedürfnisse nach Autonomie, Kompetenz und sozialer Eingebundenheit erreicht werden (Ryan und Deci 2020). Konkret bedeutet dies, dass den Lernenden Entscheidungsmöglichkeiten geboten werden und ihnen sowie ihren Äußerungen eine wertschätzende Haltung entgegengebracht werden (Hamre und Pianta 2010; Rakoczy 2008).

Die beschriebenen Merkmale lassen sich der Tiefenstruktur von Unterricht zuordnen, welche als besonders relevant für den Lernerfolg gilt (Pauli und Reusser 2003). Allerdings sind die Merkmale der Tiefenstruktur nur indirekt beobachtbar und können nur über die Wahrnehmung von Teilnehmenden des Unterrichts oder die Beurteilung durch Externe erfasst werden (Decristan et al. 2020). Generell übereinstimmten Einschätzungen über Unterrichtsqualitätsmerkmale von Lernenden, Lehrkräften und Externen nur gering (vgl. Clausen 2002; Fauth et al. 2014b). Eine Erklärung dafür ist, dass Unterrichtsqualitätsmerkmale in Abhängigkeit der einzuschätzenden Inhalte (Verhalten der Lehrkraft, Verhalten der Lernenden oder eine Mischung aus beidem) unterschiedlich von den Bewertungsperspektiven (Externe, Lehrkräfte und Lernenden) eingeschätzt werden. Für Unterrichtsqualitätsmerkmale mit geringer Beobachtbarkeit, zum Beispiel Skalen zur konstruktiven Unterstützung der Lehrkräfte, korrelieren die Urteile der Externen nicht stark mit denen der Lernenden- und Lehrkrafteinschätzungen (Fauth et al. 2020). Höhere Zusammenhänge wurden zwischen den drei Perspektiven im Bereich der Klassenführung festgestellt (z. B. Fauth et al. 2014b). Letztlich sind Externe, Lehrkräfte und Lernende nicht in gleicher Weise kompetent das gesamte Spektrum von Unterrichtmerkmalen einzuschätzen (Clausen 2002).

2.2 Unterrichtsbeurteilungen von externen Raterinnen und Ratern

Bei Unterrichtsbeurteilungen von Externen sind die Beobachtungen, die direkt im Klassenraum und die anhand von videografierten Unterrichtssequenzen erfolgen, zu unterscheiden. Beurteilungen auf Basis von Unterrichtsvideos ermöglichen, dass diese differenziert beurteilt und wiederholt angesehen werden und die Bewertungen auch zeitversetzt stattfinden können (Herrle et al. 2016; Mashburn et al. 2014). Urteile der Tiefenstruktur werden über hoch inferente Ratings abgegeben und setzen einen Inferenzschluss seitens der Raterinnen und Rater voraus, wobei von direkt beobachtbaren Merkmalen auf überdauernde Merkmale des Unterrichts geschlossen werden muss (Begrich et al. 2017). Obwohl in Studien zur videogestützten Unterrichtsanalyse Kodiermanuale und Ratertrainings eingesetzt werden, zeigten Untersuchungen, dass teilweise hohe Varianzanteile von bis zu 41,0 % auf Beurteilungsfehler und nicht auf das einzuschätzende Merkmal zurückzuführen sind (Hoyt und Kerns 1999; Pietsch und Tosana 2008; Praetorius 2014). Es bleibt ein Bedarf an theoretischen Begründungen und empirischen Prüfungen für diese Beurteilungsfehler und für den Einfluss von Merkmalen der Studie oder der Beurteilenden auf die Urteile.

2.3 Unterschiede in Unterrichtsbeurteilungen aufgrund des Reihenfolgeeffekts

Ein klassischer Beurteilungsfehler ist der Reihenfolgeeffekt, der bei Gedächtnisprozessen auftritt und auf die Arbeitsweise des Kurzzeitgedächtnisses zurückzuführen ist (Ebbinghaus 1885; Kooken et al. 2017). Demnach hat die Darbietungsreihenfolge, in der Informationen präsentiert werden, einen Einfluss auf die Speicherung und auf die Beurteilung von Informationen (Cushman und Mele 2008). Zum Beispiel können sich Urteile über Information A systematisch danach unterscheiden, ob die Informationen in der Reihenfolge A‑B oder B‑A vorgelegt werden. Dieser Effekt kann damit erklärt werden, dass die kognitive Beschäftigung mit dem vorigen Bewertungsgegenstand auf die Verfügbarkeit bestimmter Gedächtnisinhalte wirkt (Sudman et al. 1996). Urteile über die Information A können positiver ausfallen, wenn eine negativ bewertete Information B vorausgeht oder negativer ausfallen, wenn eine positiv bewertete Information B vorausgeht (Miller und Campbell 1959). Folglich kann es zur Auf- oder Abwertung der Qualität eines Unterrichtsvideos kommen, je nachdem in welcher Darbietungsreihenfolge Unterrichtsvideos mit unterschiedlichen Qualitätsniveaus präsentiert werden. Empirisch konnte dies bestätigt werden, indem Ho und Kane (2013) feststellten, dass sich Raterinnen und Rater bei der Bewertung der Unterrichtsqualität eines Videos an dem vorigen Video orientierten und wiesen einen Zusammenhang zwischen einem zweiten Urteil und einem ersten Urteil auf. In einer Studie von Mashburn et al. (2014) konnte gezeigt werden, dass die Varianz, die auf die Urteilsverzerrung der Beurteilenden zurückgeführt werden konnte, minimiert wurde, wenn die Raterinnen und Rater die Reihenfolge von Videos in einer zufälligen Reihenfolge präsentiert bekamen.

Neben der Darbietungsreihenfolge können individuelle Faktoren einerseits die Urteile selbst und andererseits das Auftreten des Reihenfolgeeffekts beeinflussen (Bless et al. 2004).

2.3.1 Effekte der Vorerfahrung

Effekte der Vorerfahrung auf Urteile

Unterschiede in Urteilen können aufgrund der Interaktion von Vorerfahrungen mit der Wahrnehmung und Interpretation eines Reizes auftreten (Bless et al. 2004; Myford und Wolfe 2003). Neue Reize werden über eine Bedeutungszuschreibung mittels der im Gedächtnis gespeicherten Kategorien, Schemata und Skripte encodiert und interpretiert (Bless et al. 2004). Demnach unterscheiden sich Urteile in Abhängigkeit der Größe des Speichers an Informationen über und Erfahrungen für das einzuschätzende Thema. Für den Bereich der Unterrichtsforschung fanden Gabriel-Busse et al. (2020) heraus, dass sich Urteilsfindungen über die kognitive Aktivierung und Klassenführung von Unterrichtsvideos sowie Urteilsbegründungen von Lehramtsstudierenden nach einem Zuwachs an Erfahrung vermittelt durch ein Seminar veränderten. Aufgrund einer höheren Erfahrung orientierten sich Studierende bei der Beurteilung stärker an den theoretischen Konstrukten und gewichteten diese unterschiedlich in der Urteilsbegründung. Wolff et al. (2017) zeigten, dass divergierende Erfahrungszeit in der Schule von Lehrkräften zu unterschiedlicher Fokussierung von Unterrichtsqualitätsmerkmalen und zu unterschiedlicher Tiefe der Schlussfolgerungen bei der Beurteilung von Unterrichtsvideos führte. Beispielsweise zogen Lehrkräfte mit weniger Erfahrungszeit in der Schule eher oberflächliche Unterrichtsereignisse für die Urteilsfindung im Vergleich zu Erfahrenen heran.

Effekte der Vorerfahrung auf das Auftreten von Beurteilungsfehlern

Überdies kann Erfahrung einen Einfluss auf Verzerrungen in Urteilen haben und geringe Erfahrung kann das Auftreten von Beurteilungsfehlern verstärken (Praetorius 2013). Steht ein größerer Speicher an Informationen für die Verarbeitung zur Verfügung, so können akkuratere Beurteilungen über das Beobachtete getroffen und somit Beurteilungsfehler verringert werden (Bless et al. 2004; Lau und Plessner 2016). Liegt ein Mangel an relevanten Informationen zur Urteilsfindung vor, werden eher irrelevante Informationen berücksichtigt, welche zu systematisch verzerrten Bewertungen führen können (Messner und Schmid 2007). Empirisch konnten Feltz und Cokely (2011) zeigen, dass Erfahrung mit der Thematik prädiktiv für das Auftreten des Reihenfolgeeffekts ist und eine höhere Erfahrung das Auftreten eines solchen minimieren kann.

2.3.2 Effekte des mentalen Zustands

Effekte des mentalen Zustands auf Urteile

Neben Vorerfahrungen kann auch der mentale Zustand einen Einfluss auf die Urteilsfindung haben. Um Urteile zu fällen, werden Situationen zunächst wahrgenommen (Bless et al. 2004). Die Wahrnehmung von Reizen kann von aktuellen Zuständen beeinflusst werden, welche zur Selektion von Informationen führen und demzufolge auch Auswirkungen auf das nachfolgende Urteil haben können (Martin und Wawrinowski 2014). Insbesondere die Müdigkeit kann im Wahrnehmungsprozess dazu führen, dass aufgrund von fehlender Konzentration nicht alle relevanten Informationen beachtet werden können (Bless und Keller 2006). Studien dazu haben gezeigt, dass eine niedrige Konzentrationsfähigkeit oder Müdigkeit zur Selektion der wahrgenommenen Information und anschließend zu einer selektiven Beurteilung führte (Schmidt-Atzert et al. 2004). Eine andere Weise, wie der mentale Zustand auf Urteile wirken kann, ist, dass sich Personen Affektheuristiken (z. B. „Wie fühle ich mich dabei“-Heuristik) bedienen, um von ihrem momentanen Zustand auf ihre Urteile zu schließen (Bless et al. 1990). So können Urteile positiver oder negativer ausfallen, da der eigene mentale Zustand als Informationsquelle dient (Stroebe 2014). In Bezug auf das Beurteilen von Unterrichtsqualität konnte festgestellt werden, dass Raterinnen und Rater mit zunehmender Müdigkeit strengere Urteile vergaben (Mashburn et al. 2014).

Effekte der Müdigkeit auf das Auftreten von Beurteilungsfehlern

Die Einschränkung der Informationsverarbeitung durch Müdigkeit kann auch ein höheres Auftreten von Beurteilungsfehlern durch eine mit der Müdigkeit einhergehender Tendenz schnellere Urteile zu fällen und häufigere Nutzung von fehleranfälligen Urteilsheuristiken bewirken (Engle-Friedman et al. 2018; Webster et al. 1996), mitunter etwa ein Auftreten des Reihenfolgeeffekts (Kruglanski und Webster 1996). Epley und Gilovich (2006) konnten zeigen, dass Beurteilungsfehler weniger häufig auftraten, wenn die Probandinnen und Probanden in einem konzentrierten mentalen Zustand waren. Auch in der Unterrichtsbeobachtung kann Müdigkeit Wahrnehmungsverzerrungen verstärken, indem für die Urteilsfindung relevante Unterrichtsereignisse nicht wahrgenommen werden, da offensichtlichere Ereignisse eine höhere Aufmerksamkeit auf sich ziehen (Schwindt 2008).

3 Forschungsfragen und Hypothesen

Ein substanzieller Anteil von Unterschieden in Urteilen kann auf Beurteilungsfehler zurückgeführt werden. Mögliche Erklärungen können Faktoren, wie die Darbietungsreihenfolge sowie individuelle Faktoren (z. B. Vorerfahrung oder mentaler Zustand) der Urteilenden sein. Zudem kann ein Reihenfolgeeffekt durch individuelle Faktoren verringert oder begünstigt werden.

F1

Treten Verzerrungen in den Urteilen der Unterrichtsqualitätsmerkmale kognitive Aktivierung, Klassenführung und Motivierung bei einem Unterrichtsvideo mittleren Qualitätsniveaus aufgrund der sequenziellen Darbietungsreihenfolge auf?

Je nachdem in welcher Reihenfolge Unterrichtsvideos unterschiedlicher Qualitätsniveaus präsentiert werden, können Urteile unterschiedlich ausfallen. Es wird angenommen, dass ein Unterrichtsvideo mittleren Qualitätsniveaus nach einem vorigen Urteil eines Videos niedrigen Qualitätsniveaus positiver bewertet wird, als wenn vorher kein anderes Video bewertet wurde (H1.1). Ebenfalls wird erwartet, dass ein Unterrichtsvideo mittleren Qualitätsniveaus nach einem vorigen Urteil eines Videos eines hohen Qualitätsniveaus negativer bewertet wird, als wenn vorher kein anderes Video bewertet wurde (H1.2).

F2

Stehen die individuellen Faktoren (a) Vorerfahrung (Erfahrungszeit in der Schule) oder (b) mentaler Zustand (Müdigkeit) und die Urteile der Unterrichtsqualitätsmerkmale kognitive Aktivierung, Klassenführung und Motivierung bei einem Unterrichtsvideo mittleren Qualitätsniveaus sowie Unterschiede im Auftreten des Reihenfolgeeffekts in systematischem Zusammenhang?

Aufgrund von unterschiedlich vorgespeicherten Informationen über das einzuschätzende Thema kommt es zu divergierenden Wahrnehmungen und schließlich auch Urteilen (Bless et al. 2004). Dementsprechend wird davon ausgegangen, dass die Urteile der Unterrichtsqualitätsmerkmale kognitive Aktivierung, Klassenführung und Motivierung bei einem Unterrichtsvideo mittleren Qualitätsniveaus durch die Vorerfahrung (Erfahrungszeit in der Schule) der Raterinnen und Rater mitbedingt werden (H2.1). Beurteilungsfehler können durch einen größeren Speicher an Informationen verringert werden (Lau und Plessner 2016). Demnach wird erwartet, dass eine höhere Erfahrungszeit in der Schule das Auftreten des Reihenfolgeeffekts verringert (H2.2). Hinzu wirkt der mentale Zustand (Müdigkeit) auf die Wahrnehmung von Reizen, was wiederum zur Selektion von Informationen führen und Auswirkungen auf das nachfolgende Urteil haben kann (Martin und Wawrinowski 2014). Folglich wird davon ausgegangen, dass die Urteile der Unterrichtsqualitätsmerkmale kognitive Aktivierung, Klassenführung und Motivierung bei einem Unterrichtsvideo mittleren Qualitätsniveaus durch den mentalen Zustand (Müdigkeit) der Raterinnen und Rater mitbedingt werden (H2.3). Aufgrund von Müdigkeit werden häufig schnellere Urteile unter anderem mittels Urteilsheuristiken gefällt, was wiederum zu einem häufigeren Auftreten von Beurteilungsfehlern führen kann (Engle-Friedman et al. 2018). Es wird erwartet, dass eine höhere Müdigkeit das Auftreten des Reihenfolgeeffekts verstärkt (H2.4).

4 Methodisches Vorgehen

4.1 Stichprobe

Die Daten wurden im Frühjahr 2017 im Rahmen eines experimentellen Settings erhoben. Insgesamt nahmen N = 69 Studierende an der Studie teil. Die Probandinnen und Probanden wurden zufällig auf drei experimentelle Bedingungen verteilt, die sich in der Darbietungsreihenfolge der Unterrichtsvideos mit unterschiedlichen Qualitätsniveaus unterschieden: Gruppe A (niedrig/mittel), B (mittel/hoch) und C (hoch/mittel) (vgl. Tab. 1). Eine vorige Poweranalyse ergab, dass bei einer Power von 0,80 und einem Effekt von f = 0,40 N = 64 Personen benötigt werden. Demographische Angaben der Probandinnen und Probanden sowie die Erfahrungszeit in der Schule wurden im Voraus in einem Online-Fragebogen erhoben, damit Studierende des gleichen Studienfachs gleichmäßig auf die Gruppen aufgeteilt werden konnten. Die Probandinnen und Probanden der drei Gruppen unterschieden sich nicht hinsichtlich des Anteils des Geschlechts (χ2 (2) = 0,16; p > 0,05), ihres Alters (F [2, 65] = 1,64; p > 0,05), ihrer Semesterzahl (F [2, 65] = 1,58; p > 0,05) oder des Anteils des Lehramtsstudiums (χ2 (2) = 0,46; p > 0,05).

Tab. 1 Deskriptiva der Gesamt- und Teilstichproben

4.2 Instrumente und Durchführung

Unterrichtsvideos

Die Videosequenzen stammten aus dem DFG geförderten Kooperationsprojekt Entwicklung und Überprüfung von Kompetenzmodellen zur integrativen Verarbeitung von Texten und Bildern (BiTe) (vgl. McElvany et al. 2012) und zeigten einen circa zehnminütigen Unterrichtseinstieg in vierten Klassen zur vorgegebenen Thematik „Südamerika“. Die Auswahl der Videosequenzen mit unterschiedlich hohen Qualitätsniveaus für die vorliegende Studie erfolgte in zwei Schritten. Zunächst wurden drei Videos aufgrund ihrer Qualität (niedrig [1] – hoch [4]; niedrig M = 2,14, SD = 0,45, mittel M = 2,24, SD = 0,46 und hoch M = 2,63, SD = 0,36) und des Auftretens der zu untersuchenden Facetten in den ersten 10 min aus einem Pool von schon gerateten Videos des DFG-Projekts BiTe ausgesucht. Um die Auswahl der Videos zu bestätigen, wurden zusätzlich N = 8 Expertinnen und Experten aus der Unterrichtsforschung bezüglich der Unterrichtsqualität in den drei ausgewählten Videos sowie zum Untersuchungsdesign befragt. Die Zuordnung zu den Kategorien niedrig, mittel und hoch konnte durch die Expertisen unterstützt werden.

Ratingmanual und Ratingbogen

Das Ratingmanual wurde in Anlehnung an Ohle und McElvany (2016) und Praetorius (2014) entwickelt und gliederte sich in einen strukturellen Teil (Informationen zu dem Beurteilungsprozess der Unterrichtssequenzen) sowie einen inhaltlichen Teil (Beschreibung der drei zu beurteilenden Unterrichtsqualitätsmerkmale). Zu den einzelnen Merkmalen kognitive Aktivierung, Klassenführung und Motivierung wurden zunächst im Ratingmanual eine Definition sowie zwei Facetten mit positiven und negativen Beispielindikatoren gegeben.

Für die Erfassung der Unterrichtsqualität wurden im Ratingbogen drei Items eingesetzt, bei denen jeweils der Gesamteindruck der Qualität der kognitiven Aktivierung, Klassenführung oder Motivierung im gerade gesehenen Video auf einer vierstufigen Antwortskala (niedrig [1] – hoch [4]) eingeschätzt werden sollte (Item „Wir möchten Sie bitten, einen Gesamteindruck der Unterrichtsqualität einzuschätzen. Bitte tragen Sie unten ein, wie hoch Sie die Qualität der Merkmale im gerade gesehenen Video einschätzen.“).

Erfassung individueller Merkmale

Zur Erfassung der Vorerfahrungen gaben die Studierenden an, wie viele Wochen Unterrichtserfahrung sie in der Schule gesammelt haben (M = 16,70, SD = 31,32; Min = 0,00, Max = 200,00). Die Erfahrungszeit in der Schule wurde mitunter im Rahmen eines Praktikums (n = 36), einer Vertretungsstelle (n = 7) oder eines Praxissemesters (n = 6) gesammelt. N = 25 Probandinnen und Probanden gaben an, keine Erfahrung in der Schule erworben zu haben. Für die Operationalisierung der Müdigkeit wurde die „Aktuelle Stimmungsskala“ eingesetzt (Dalbert 1992). Dabei sollte aus einer Liste mit Items, die verschiedene mentale Zustände beschreiben, für jedes Item die Zahl angekreuzt werden, welche den aktuellen Gefühlszustand am besten beschreibt (Vier Items: abgeschlafft, müde, erschöpft und entkräftet; Ratingskala überhaupt nicht [1] – sehr stark [7]; M = 3,12, SD = 1,25; Min = 1,00, Max = 6,75; α = 0,90). Bis auf die Variable Erfahrungszeit in der Schule (2,9 % fehlend) gab es keine fehlenden Werte.

Durchführung der Untersuchung

Vorab wurde den Probandinnen und Probanden die Information gegeben, dass sie an einer Studie zur akkuraten Einschätzung von Unterrichtsqualität anhand von Videosequenzen und der Relevanz des Studienfachhintergrundes teilnahmen. Um die Vergleichbarkeit der Beurteilungen sicherzustellen, wurden alle Probandinnen und Probanden im Bereich Ratings von Unterrichtsqualität drei Stunden standardisiert geschult (vgl. Tab. 2). Hierzu erfolgte zuerst eine theoretische Einführung in die Unterrichtsqualität und in die manualbasierte Videoanalyse. Im Anschluss wurden der Inhalt und die Struktur des Ratingmanuals sowie des Ratingbogens erklärt und eine gemeinsame Übung für das Beurteilen einer Unterrichtssequenz anhand eines Videos hohen Qualitätsniveaus angeleitet. Danach folgten zwei Einzelübungen, in denen die Studierenden eigenständig je ein Video niedrigen und mittleren Qualitätsniveaus mit Hilfe des Ratingmanuals und des Ratingbogens (siehe 4.2) einschätzten. Die Urteile wurden jeweils nach jedem Video gemeinsam besprochen, um die Urteilsübereinstimmung zu optimieren. Nach den zwei Trainingsvideos erreichten die Interraterreliabilitäten, Reliabilitäten des Mittelwertes aller Raterinnen und Rater, zufriedenstellende Werte von ICC2kognitive Aktivierung = 0,82, ICC2Klassenführung = 0,86 und ICC2Motivierung = 0,63 (Wirtz und Caspar 2002). Anschließend bearbeiteten die Probandinnen und Probanden Fragen zur aktuellen Stimmung, in denen unter anderem die Müdigkeit erfasst wurde.

Tab. 2 Durchführung der Studie

Zuletzt schätzten die Probandinnen und Probanden je nach experimenteller Bedingung die Unterrichtsqualität von zwei Videos mit einem niedrigen bzw. hohen und mittleren Qualitätsniveau ein (vgl. Tab. 3). Die Urteile erfolgten auch hier direkt nach jedem der zwei gesehenen Videos, wobei ein erneutes Ansehen des jeweiligen Videos für die Beurteilung der einzelnen Unterrichtsqualitätsmerkmale nicht erlaubt war. Die Gruppe B, die das Referenzvideo mittleren Qualitätsniveaus zuerst sah und daher keiner möglichen Beeinflussung durch ein vorheriges Video unterlag, stellte die Referenzgruppe dar. Für eine vergleichbar lange Durchführung des Experiments erhielten auch die Probandinnen und Probanden der Gruppe B ein zweites Video zum Einschätzen. Den gemeinsamen Abschluss der Sitzung bildete die Aufklärung der Teilnehmenden über den genauen Studienzweck.

Tab. 3 Mittelwerte und Standardabweichungen der Unterrichtsvideos

4.3 Auswertungsstrategie

Die Analysen zur Skalenreliabilität, Deskriptiva und t-Tests wurden mit Hilfe des Programms SPSS 24 durchgeführt. Für die Untersuchung des Reihenfolgeeffekts (F1) wurden t-Tests für unabhängige Stichproben gerechnet. Hierbei wurden im ersten Schritt die Unterschiede zwischen den Gruppen A (niedrig/mittel) und B (mittel/hoch) und im zweiten Schritt zwischen den Gruppen B (mittel/hoch) und C (hoch/mittel) jeweils für die Unterrichtsqualitätsmerkmale kognitive Aktivierung, Klassenführung und Motivierung überprüft. Es wurde eine Korrektur nach Bonferroni-Holm vorgenommen, um die Alpha-Fehler-Kumulierung zu berücksichtigen (Holm 1979). Für die Berechnungen des Unterschieds zwischen den Gruppen B (mittel/hoch) und C (hoch/mittel) im Bereich kognitive Aktivierung wurde der Mann-Whitney-U-Test gerechnet, da mit ungleichen Varianzen die Voraussetzung für die Berechnung von t-Tests nicht gegeben war. Für eine bessere Interpretierbarkeit der Ergebnisse wurde das Urteil des Videos mittleren Qualitätsniveaus der Gruppe B auf null gesetzt und für die anderen beiden Gruppen die Abweichungen der Urteile zum Mittelwert der Gruppe B bestimmt.

Die Fragestellung 2 zu den Effekten der Vorerfahrung und Müdigkeit wurde mit Hilfe von Regressions- sowie Moderationsanalysen mittels des Mplus-Softwarepakets (Muthén und Muthén 1998–2017) überprüft. In diesen Analysen stellten die Variablen zur Einschätzung der Unterrichtsqualität bei dem Video mittlerer Qualität die abhängigen Variablen dar. Es wurden vorab zwei Dummy-Variablen (Dummy 1: A = 1, B = 0, C = 0 und Dummy 2: A = 0, B = 0, C = 1) für die Gruppenzugehörigkeit der experimentellen Bedingung A und C gebildet. Insgesamt wurden drei Modelle je Unterrichtsqualitätsmerkmal gerechnet. Zur Überprüfung der Hypothese 2.1 und 2.3 wurden in dem Modell I zur Kontrolle des Reihenfolgeeffekts die Dummy-Variablen der Bedingung A und C sowie die Erfahrungszeit oder die Müdigkeit als unabhängige Variable aufgenommen. Für die Überprüfung der Hypothesen 2.2 und 2.4 wurden Moderationsanalysen gerechnet, bei denen Interaktionsterme zwischen den zwei Dummy-Variablen und der Erfahrungszeit oder Müdigkeit definiert wurden. Die unabhängigen Variablen in dem Modell II stellten zur Kontrolle des Reihenfolgeeffekts die Dummy-Variablen der Bedingung A und C sowie die Interaktionsterme da. Ein möglicher Einfluss der individuellen Faktoren auf Unterschiede im Auftreten des Reihenfolgeeffekts würde sich in einer signifikanten Interaktion zwischen den Gruppen A oder C und dem jeweiligen individuellen Faktor zeigen. In dem Modell III wurden schließlich als unabhängige Variablen zur Kontrolle des Reihenfolgeeffekts die Dummy-Variablen der Bedingung A und C, die Erfahrungszeit oder die Müdigkeit und die Interaktionsterme aufgenommen. In allen Modellen wurden die Variablen manifest modelliert und die Variablen Erfahrungszeit und Müdigkeit standardisiert. Da es sich um saturierte Modelle handelt, wurden keine globalen Fitindices angegeben (Geiser 2011). Außerdem wurden Korrelationen zwischen den unabhängigen Variablen zugelassen. Zusätzlich wurde in allen Modellen die in Mplus implementierten Optionen maximum-likelihood-estimator (ML) und full information maximum likelihood (FIML) verwendet.

5 Ergebnisse

5.1 Unterschiede in den Urteilen aufgrund der Darbietungsordnung

Bezüglich der Fragestellung 1, ob sich Unterschiede in der durchschnittlichen Beurteilung eines Videos mittleren Qualitätsniveaus aufgrund der Darbietungsordnung zeigen, wiesen die Ergebnisse der t-Tests auf Unterschiede in den Beurteilungen der Gruppen B und C hinsichtlich den Unterrichtsqualitätsmerkmalen kognitive Aktivierung und Motivierung hin (Abb. 1).Footnote 1

Abb. 1
figure 1

Durchschnittliche Abweichungen der Urteile des Videos mit mittlerem Qualitätsniveau der experimentellen Bedingungen A (niedrig/mittel) und C (hoch/mittel) und signifikanten Pfaden unterteilt nach den Unterrichtsqualitätsmerkmalen. Anmerkung. Zusätzlich zu den hypothesenprüfenden Analysen ließen sich Unterschiede in den Urteilen zwischen den Gruppen A (niedrig/mittel) und C (hoch/mittel) bezüglich der kognitiven Aktivierung (t (44) = 3,50, p = 0,009, Cohens d = 1,03) und der Klassenführung (t (44) = 2,99, p = 0,035, Cohens d = 0,88) finden; jedoch nicht im Bereich Motivierung (t (44) = 2,65, p = 0,055, Cohens d = 0,78)

Gruppe A (niedrig/mittel) vs. Gruppe B (mittel/hoch)

Zwischen den Urteilen der Gruppen A (niedrig/mittel) und B (mittel/hoch) ließen sich keine Unterschiede bezüglich der kognitiven Aktivierung (t (44) = 0,58, p = 0,844, Cohens d = 0,17), Klassenführung (t (44) = 1,25, p = 0,654, Cohens d = 0,37) und Motivierung (t (44) = −0,81, p = 0,844, Cohens d = −0,24) finden. Raterinnen und Rater, die vor der Beurteilung des Referenzvideos ein Video niedrigen Qualitätsniveaus sahen, beurteilten die Qualität der kognitiven Aktivierung, Klassenführung und Motivierung des Referenzvideos nicht signifikant abweichend. Dementsprechend konnte die Hypothese 1.1 zur Aufwertung der Urteile durch die Reihenfolge nicht bestätigt werden.

Gruppe B (mittel/hoch) vs. Gruppe C (hoch/mittel)

Es zeigten sich signifikante Differenzen zwischen den Urteilen der Gruppen B (mittel/hoch) und C (hoch/mittel) hinsichtlich der kognitiven Aktivierung (U = 161,50, Z = −2,64, p = 0,048, Cohens d = 0,84) sowie der Motivierung (t (44) = 3,54, p = 0,009, Cohens d = 1,04). Demzufolge schätzten die Raterinnen und Rater, die vor dem Referenzvideo ein Video hohen Qualitätsniveaus beurteilten, die Qualität der kognitiven Aktivierung und Motivierung des Referenzvideos mit mittlerer Qualität niedriger ein als die Referenzgruppe. Es wurden keine statistisch signifikanten Differenzen zwischen den Urteilen der Gruppen B und C (t (44) = 1,54, p = 0,524, Cohens d = −0,14) bezüglich der Klassenführung festgestellt. Raterinnen und Rater, die vor der Bewertung des Referenzvideos ein Video mit einem niedrigeren oder höheren Qualitätsniveau sahen, schätzten die Qualität der Klassenführung des Referenzvideos nicht signifikant abweichend ein als die Referenzgruppe. Die vorangegangenen Analysen verweisen darauf, dass die Unterschiede in den Bereichen kognitive Aktivierung und Motivierung auf einen Reihenfolgeeffekt der kritischeren Einschätzung im Sinne einer Abwertung zurückzuführen sind. Die Hypothese 1.2 zur Abwertung kann allerdings nur teilweise empirisch unterstützt werden, da sich nicht für alle Unterrichtsqualitätsmerkmale signifikante Unterschiede finden ließen.

Insgesamt zeigten sich somit eher Abwertungs- als Aufwertungsprozesse durch einen Reihenfolgeeffekt mit mittlerer Ausgangsqualität.

5.2 Prädiktoren für die Urteile und das Auftreten des Reihenfolgeeffekts

Die Ergebnisse zur Beantwortung der Fragestellung 2, ob die individuellen Faktoren Erfahrungszeit oder Müdigkeit prädiktiv für die Urteile der Unterrichtsqualitätsmerkmale kognitive Aktivierung, Klassenführung und Motivierung bei dem Unterrichtsvideo mittlerer Qualität als auch für Unterschiede im Auftreten des Reihenfolgeeffekts sind, sind in den Tab. 4 und 5 dargestellt.

Tab. 4 Prädiktoren (Experimentelle Bedingung A und C, Erfahrungszeit und Interaktionsterme Bedingung A oder C × Erfahrungszeit) für die Urteile der Unterrichtsqualitätsmerkmale
Tab. 5 Prädiktoren (Experimentelle Bedingung A und C, Müdigkeit und Interaktionstherme Bedingung A oder C × Müdigkeit) für die Urteile der Unterrichtsqualitätsmerkmale

Vorerfahrung (Erfahrungszeit in der Schule)

Es zeigte sich in allen Modellen, dass die Erfahrungszeit in der Schule nicht prädiktiv für die Urteile der kognitiven Aktivierung und Klassenführung bei dem Unterrichtsvideo mittlerer Qualität war. Hinsichtlich der Urteile der Motivierung bei dem Unterrichtsvideo mittlerer Qualität wies die Erfahrungszeit eine prädiktive Kraft auf; auch unter Berücksichtigung der Interaktionsterme. Raterinnen und Rater, die eine größere Erfahrungszeit in der Schule angaben, schätzten die Qualität der Motivierung des Referenzvideos unabhängig von der Zugehörigkeit der Bedingung niedriger ein als unerfahrene Raterinnen und Rater. Da die Prädiktion nur im Bereich Motivierung zu finden war, konnte die Hypothese 2.1 nur teilweise empirisch unterstützt werden. Die nach der Hypothese 2.2 erwarteten Prädiktionen der Interaktionen zwischen den Gruppen und der Erfahrungszeit auf die Beurteilungen der kognitiven Aktivierung, Klassenführung und Motivierung konnten nicht festgestellt werden. Somit konnte keine Verstärkung oder Verminderung des Reihenfolgeeffekts aufgrund unterschiedlicher Erfahrungszeit in der Schule nachgewiesen werden und die Hypothese 2.2 konnte demnach nicht empirisch gestützt werden.

Mentaler Zustand (Müdigkeit)

In Bezug auf die Urteile der kognitiven Aktivierung und Klassenführung bei dem Unterrichtsvideo mittlerer Qualität wies die Müdigkeit in allen Modellen keinen gerichteten Zusammenhang auf. Bezüglich der Motivierung war die Müdigkeit prädiktiv für die Urteile bei dem Unterrichtsvideo mittlerer Qualität. Raterinnen und Rater, die ihre Müdigkeit hoch beurteilten, schätzten unabhängig von der Zugehörigkeit der Bedingung die Qualität der Motivierung des Videos mit mittlerer Qualität höher ein als wachere Raterinnen und Rater. Dieses Ergebnis zeigte sich allerdings nicht unter Berücksichtigung der Interaktionsterme in Modell III. Da sich die Prädiktion nur für den Bereich Motivierung und auch nur in dem Modell I zeigte, konnte die Hypothese 2.3 nur teilweise empirisch unterstützt werden. In Hinblick auf die Urteile in den Bereichen kognitive Aktivierung und Klassenführung ließen sich keine Interaktionseffekte zwischen der experimentellen Bedingung und der Müdigkeit nachweisen, jedoch bezüglich der Urteile im Bereich Motivierung. Raterinnen und Rater, die ihre Müdigkeit hoch beurteilten und der Bedingung A (niedrig/mittel) zugewiesen wurden, schätzten die Qualität der Motivierung des Videos mittlerer Qualität höher ein als wachere Raterinnen und Rater der Bedingung A. Dies bedeutet, dass der Reihenfolgeeffekt durch eine hohe Müdigkeit, also eher müderen Raterinnen und Rater, verstärkt wurde. Dies war allerdings nur für ein positiveres Urteil nach einem Video mit geringerer Unterrichtsqualität zu beobachten und auch nur, wenn die Müdigkeit als Variable nicht einbezogen wurde. Somit konnte die Hypothese 2.4 teilweise empirisch unterstützt werden.

6 Diskussion

Die vorliegende Untersuchung ging der Frage nach, ob Urteile von Unterrichtsvideos von der dargebotenen Reihenfolge (F1) sowie von individuellen Merkmalen abhängig sind und welche individuellen Merkmale den Reihenfolgeeffekt verringern oder begünstigen (F2). Die Resultate bezüglich aller drei Unterrichtsqualitätsmerkmale zeigten, dass zwischen den Urteilen der Gruppe A (niedrig/mittel) und B (mittel/hoch) keine bedeutsamen Unterschiede vorlagen. Die Qualität eines Videos mittleren Qualitätsniveaus wurde nicht höher nach einem vorangestellten Urteil eines Videos niedrigen Qualitätsniveaus eingeschätzt, als wenn vorher kein anderes Video beurteilt wurde (H1.1). Die Analysen wiesen keine statistisch bedeutsamen Effekte der experimentellen Bedingung auf, allerdings ließen sich Effekte zwischen den Urteilen der Gruppe A und B von Cohens d = 0,17–0,37 finden.

Für die Urteile der kognitiven Aktivierung und Motivierung zeigten sich signifikante Unterschiede zwischen den Gruppen B (mittel/hoch) und C (hoch/mittel). Die kognitive Aktivierung und Motivierung wurden durchschnittlich negativer nach einer vorigen Beurteilung eines Videos hohen Qualitätsniveaus beurteilt, als wenn vorher kein anderes Video bewertet wurde (H1.2). Somit deuteten die Resultate bezüglich der kognitiven Aktivierung und Motivierung eher auf Abwertungs- als auf Aufwertungsprozesse durch einen Reihenfolgeeffekt mit mittlerer Ausgangsqualität hin.

Trotz einer hohen Interraterreliabilität im Bereich der kognitiven Aktivierung, welche für ein gelungenes Training stehen kann, weisen die Ergebnisse auf die Bedeutung der Darbietungsreihenfolge der Videos für das Urteil der kognitiven Aktivierung hin. Somit können Urteile trotz hoher Übereinstimmungen Beurteilungsfehlern unterliegen.

Für die Klassenführung ließen sich keine erwarteten Unterschiede (Gruppe A vs. B und Gruppe B vs. C) aufgrund der sequenziellen Darbietung nachweisen. Die Perspektive der Externen gilt als direktester Weg zur Erfassung der Klassenführung (Clare et al. 2001). Die Klassenführung beinhaltet im Vergleich zu den anderen Merkmalen eindeutig beobachtbare Facetten und setzt somit weniger Interpretationsaufwand voraus (Clausen 2002). Dies kann dazu führen, dass in der vorliegenden Studie keine signifikanten Unterschiede festgestellt wurden und der Grad des Interpretationsaufwandes und das Auftreten eines Reihenfolgeeffekts zusammenhängen.

In Bezug auf Urteile der Motivierung sind die negativen Abweichungen der Urteile im Bereich Motivierung der Gruppe A auffällig. Erwartet wurden positive Abweichungen zu den Urteilen der Referenzgruppe, die sich auch für die kognitive Aktivierung und Klassenführung gezeigt haben. Eine mögliche Erklärung dafür könnte sein, dass die Motivierung als eher schwierig zu beobachtendes Konstrukt gilt und für Urteile das komplexe Zusammenwirken struktureller und inhaltlicher Unterrichtsqualitätsmerkmale sowie auch soziale und persönliche Komponenten der Lehrkräfte und Lernenden berücksichtigt werden muss (Clausen et al. 2003; Rakoczy 2008). Die Komplexität für eine Bewertung dieses Merkmals kann auch zu einer Notwendigkeit von subjektiveren Interpretationen bei hoch inferenten Ratings führen, welche wiederum häufiger von Beurteilungsfehlern betroffen sind als sichtbarere Unterrichtsqualitätsmerkmale (Praetorius 2014). Neben der Komplexität ist auch der kurze Einblick der Externen in das Unterrichtsgeschehen ein weiterer Faktor, welcher die Urteile verzerren kann. Dieser Stichprobeneffekt, eingeschränkte kurze Beobachtungsstichprobe, wird von der Beobachtbarkeit des Unterrichtsqualitätsmerkmals moderiert und so können Unterrichtsqualitätsmerkmale mit niedriger Beobachtbarkeit den Effekt verstärken (Clausen 2002). Dementsprechend konnten sich bei der Einschätzung der Motivierung eventuell zwei Faktoren gegenseitig bedingen: Komplexität des Unterrichtsqualitätsmerkmals und kurze Beobachtungsstichprobe.

Bezüglich der Fragestellung 2 zeigte sich ein Zusammenhang zwischen der Erfahrungszeit in der Schule und der Urteile des Referenzvideos. Die Studierenden mit einer höheren Erfahrungszeit in der Schule beurteilten die Motivierung des Referenzvideos negativer als Studierende mit weniger Erfahrungszeit. Eine Erklärung können implizite Theorien der erfahrenen Studierenden sein, die auf Grundlage von Erfahrung in der Schule, zum Beispiel im Rahmen von Praktika, entwickelt wurden und auch nicht durch ein Training geändert werden können (Praetorius et al. 2012). Ferner legen erfahrene Raterinnen und Rater häufig ein breiteres Spektrum für die Beurteilung an als Unerfahrene und greifen auch auf Faktoren zurück, die nicht für das Rating vorgegeben waren (Leckie und Baird 2011). Darüber hinaus zeigte sich ein gerichteter Zusammenhang zwischen der Müdigkeit und den Urteilen über die Motivierung bei dem Unterrichtsvideo mittlerer Qualität. Studierende, die ihre Müdigkeit hoch beurteilten, schätzten die Qualität der Motivierung des Videos mit mittlerer Qualität höher ein als wachere Raterinnen und Rater. Dieses Ergebnis ist gegensätzlich zu den Befunden von Mashburn et al. (2014), dass die Probandinnen und Probanden mit zunehmender Müdigkeit strengere Urteile vergaben. Die Wahrnehmung und das Urteilsvermögen werden unter anderem durch kognitive Merkmale wie die Müdigkeit bestimmt (z. B. Feltz und Cokely 2011). So kann es zum Beispiel aufgrund von Müdigkeit zu einer selektiven Informationsaufnahme kommen und demzufolge werden Urteile auf Basis mangelnder Informationen getroffen (Schmidt-Atzert et al. 2004). Dies kann ein Grund sein, warum sich Studierende mit divergierender Ausprägung der Müdigkeit im Urteil über die Motivierungsqualität unterschieden. Die Affektheuristik, dass Urteile auf Basis des eigenen Befindens getroffen werden (Fiske und Taylor 2017), kann an dieser Stelle keine Erklärung für die vorliegenden Resultate sein. Demnach hätten die Studierenden, die aufgrund von Müdigkeit ein schlechteres Befinden hatten, negativer die Motivierungsqualität beurteilt als wachere Studierende mit einem positiveren Befinden.

Ein Interaktionseffekt wurde zwischen der Müdigkeit und der experimentellen Bedingung A (niedrig/mittel) gefunden. Im Einklang mit bisherigen Befunden kann anhand der Ergebnisse vermutet werden, dass die Müdigkeit den Reihenfolgeeffekt verstärkt. Raterinnen und Rater, die ihren Zustand als eher müde einschätzten und zuvor ein Video niedrigen Qualitätsniveaus bewerteten, orientierten sich stärker an diesem und überschätzten die Motivierung des Videos mittlerer Qualität stärker als Personen, die ihre Müdigkeit geringer einschätzten. Auch für die verstärkte Verzerrung bei hoher Müdigkeit kann eine Begründung der Zusammenhang einer zunehmenden Müdigkeit mit sinkender Wahrnehmung der relevanten Lehrkrafthandlungen sein (Schmidt-Atzert und Amelang 2012). So haben eventuell müdere Raterinnen und Rater für die Beurteilung der Qualität bedeutsame Kriterien aufgrund von niedriger Aufmerksamkeit nicht wahrgenommen. Dass sich die Resultate der Prädiktion der Müdigkeit sowie der Interaktionseffekt nur zeigten, wenn jeweils die andere Variable nicht berücksichtig wurde, konnte durch die Korrelation von r = 0,58 (p = 0,000) zwischen der der Müdigkeit und des Interaktionsterms der Bedingung A × Erfahrungszeit verursacht werden. Alle signifikanten gerichteten Zusammenhänge betrafen den Bereich Motivierung. Diese Resultate bestätigen, dass das Unterrichtsqualitätsmerkmal Motivierung schwierig für Externe einzuschätzen ist und externe Urteile über die Motivierung häufiger durch individuelle Merkmale beeinflusst werden.

6.1 Einschränkungen

Bei der Interpretation der Ergebnisse bleibt zu beachten, dass das Training der Raterinnen und Rater mit drei Stunden vergleichsweise zu anderen Studien kurz war (z. B. Clausen et al. 2003) und besonders die gefundenen Zusammenhänge der Vorerfahrung eventuell geringer ausfallen würden, wenn zum Beispiel eine größere Spannbreite an Videos mit niedriger, mittlerer und hoher Qualität vorab gesichtet worden wäre. Hinzu sollte bei der Einordnung der Resultate berücksichtigt werden, dass in der vorliegenden Studie nur ein Item pro Merkmal eingeschätzt wurde. Dies könnte trotz ausführlicher Beschreibung der Unterrichtsqualitätsmerkmale im Manual und Beispielfacetten zu breiten Interpretationen bei den Raterinnen und Ratern führen.

Für die Vergleiche der Urteile der Qualität des Videos mittleren Qualitätsniveaus wurde als Referenz das Urteil der Gruppe B (mittel/hoch) herangezogen, in der die Studierenden das Referenzvideo zuerst sahen und daher nicht durch ein anderes Video in ihrer Beurteilung beeinflusst wurden. Dieses Vorgehen hat einerseits den Vorteil der Möglichkeit einer Abschätzung der absoluten Größe einer möglichen Urteilsverzerrung aufgrund der wahrscheinlich eher unbeeinflussten Bewertung in Gruppe B. Andererseits können im Vergleich zu den Gruppe A (niedrig/mittel) und C (hoch/mittel), die das Referenzvideo als zweites sahen, zwischen dem zuerst einzuschätzenden Video und dem zweiten Video kognitive Prozesse auftreten (zum Beispiel kognitive Ermüdung), die wiederum zu Beurteilungsfehlern führen können.

Aufgrund des vorigen Urteils eines Videos mit einer entweder negativeren oder positiveren Unterrichtsqualität könnten die Ergebnisse nicht nur auf einen Reihenfolgeeffekt, sondern auch auf einen Kontrasteffekt hinweisen. Hierbei werden Informationen aufgrund der im Kontrast stehenden Vergleichsinformation intensiver wahrgenommen und Urteile in die entgegensetzte Richtung verzerrt (Lenske 2016). Des Weiteren könnte auch der Ankereffekt zutragen gekommen sein, wobei vorige Informationen als Anker für zukünftige Urteile dienen (Tversky und Kahneman 1974). Es ist aber zu beachten, dass die Beurteilungsfehler nicht eindeutig trennbar sind und in einer engen Beziehung stehen (Hermann 2016). Zusätzlich führen sie alle zu dem gleichen unerwünschten Effekt – verzerrte Beurteilungen der Unterrichtsqualität.

6.2 Implikationen für Praxis und Forschung

Die vorliegende Untersuchung kann aufgrund des experimentellen Designs wichtige Hinweise für die Messung der Unterrichtsqualität anhand von Videos liefern. Für weitere Studien zur Unterrichtsqualität, die auf Videoratings zurückgreifen, sollte die Reihenfolge der gezeigten Videos mit unterschiedlichen Qualitätsniveaus beachtet werden. Hierbei kann eine Randomisierung der Videos ein mögliches Auftreten eines Reihenfolgeeffekts verhindern. Mögliche Unterschiede in den Urteilen aufgrund der Vorerfahrung könnten eventuell mit einer umfänglicheren Schulung als in der vorliegenden Studie ausgeglichen werden.

Da der mentale Zustand, wie die Müdigkeit, Beurteilungsfehler verstärken und eine höhere Müdigkeit größere Verzerrungen in den Urteilen hervorrufen kann, ist es bedeutsam dies in zukünftigen Studien zu kontrollieren, zum Beispiel durch eine vorige Erfassung des mentalen Zustandes. Um Fehlattributionen aufgrund des aktuellen mentalen Zustandes zu vermeiden, ist es ebenfalls wichtig, Raterinnen und Rater zu sensibilisieren bei ihren Urteilen nicht ihren aktuellen mentalen Zustand zu berücksichtigen (Stroebe 2014).

Bislang gibt es nur wenige Studien, die mögliche Einschränkungen von Urteilen Externer in der Unterrichtsforschung untersuchten. Folge sind die nicht valide Erfassung von Unterrichtsqualitätsmerkmalen und möglicherweise Fehlinterpretationen von Zusammenhängen zwischen Unterricht und beispielsweise Lernleistung. Insbesondere in dem Bereich der Motivierung sollte neben der Perspektive der Externen auch die Sicht der Lehrkräfte und Lernenden herangezogen werden. Die Komplexität dieses Unterrichtsqualitätsmerkmals, welches sich unter anderem durch die Berücksichtigung der Beziehungen der beteiligten Personen auszeichnet, ist nur eingeschränkt durch die Perspektive von Externen zu erfassen.

Schließlich weist die vorliegende Studie auf mögliche Einschränkungen von Urteilen externer Raterinnen und Rater hin, indem vorige Unterrichtsszenen als mögliche Referenz für das aktuelle Urteil verwendet werden und dies insbesondere zu einer Unterschätzung der Unterrichtsqualität führen kann.