1 Einleitung

Die Anforderungen, die eine Lehrkraft im Schulalltag bewältigen muss, sind vielfältig. Insbesondere in Unterrichtsprozessen, die von Interaktionen geprägt sind, müssen Lehrkräfte, oftmals unter großem Handlungsdruck, lernrelevante Merkmale von Schülerinnen und Schülern wahrnehmen und interpretieren, um anschließend den Lehr-Lernprozess adäquat gestalten zu können. Diese Fähigkeiten können unter dem Begriff diagnostische Fähigkeiten gefasst werden (Leuders et al. 2018). Es wird angenommen, dass solche handlungsrelevanten Fähigkeiten erst durch umfangreiche Praxiserfahrungen entwickelt werden (Berliner 1986; Gruber 2001). Vor dem Hintergrund, dass das erworbene Wissen von Lehramtsstudierenden oftmals nur unzureichend in praktischen Phasen umgesetzt wird (Wahl 2002), sind praxisnahe Möglichkeiten zur Förderung dieser Fähigkeiten sehr bedeutsam. Diese sind in der Realität der universitären Lehrerbildung sowohl bei didaktischen Großveranstaltungen als auch bei inhaltsspezifischen Seminaren jedoch nur bedingt gegeben. Aus diesem Grund kommt der Analyse von videografierten Unterrichtsprozessen als Ergänzung zum theoretischen Input eine große Bedeutung zu. Videos haben den Vorteil, authentische Unterrichtsprozesse abzubilden und dennoch die Komplexität des Unterrichtsalltags zu reduzieren, wodurch handlungssteuernde Prozesse bewusst erarbeitet werden können (Wahl 2002). In bisherigen Studien wurden Videos insbesondere im Rahmen von Seminaren (etwa Sunder et al. 2016) eingesetzt. Um Videos mit den beschriebenen Potenzialen auch in Großveranstaltungen zu nutzen, haben wir die videobasierte Lernumgebung ViviAn „Videovignetten zur Analyse von Unterrichtsprozessen“ (vgl. https://vivian.uni-landau.de) entwickelt. Hier sind neben einem kurzen Videoausschnitt weitere Hintergrundinformationen implementiert, die die Studierenden vor, während und nach der Betrachtung des Videos im Rahmen der eigenständigen Auseinandersetzung mit den Unterrichtsprozessen nutzen können (vgl. Abschn. 4.1). Ziel des vorliegenden Forschungsvorhabens ist es, zu untersuchen, ob diagnostische Fähigkeiten von Studierenden mithilfe der videobasierten Lernumgebung ViviAn gefördert werden können.

2 Theoretische Grundlagen

2.1 Diagnostische Fähigkeiten

Für eine gezielte, individuelle Förderung von Schülerinnen und Schülern erscheinen adäquate Diagnosen seitens der Lehrenden nicht nur notwendig, sondern vielmehr essenziell (Horstkemper 2006; Leuders et al. 2018). In diesem Abschnitt werden zunächst die dazu erforderlichen diagnostischen Fähigkeiten als zentrale Komponente diagnostischer Kompetenz dargestellt und im Kontinuum-Modell nach Blömeke et al. (2015) verortet. Da Lehramtsstudierende kaum Möglichkeiten haben diese bedeutenden Fähigkeiten in der Unterrichtspraxis zu entwickeln, werden in der Hochschule vermehrt Videos eingesetzt. Deren vielfältiges Potenzial ist ebenfalls in diesem Abschnitt dargestellt. Um dieses Potenzial zu nutzen, ist eine strukturierte Analyse der Videos vonnöten. Diese kann durch fokussierende Aufgaben, die sich auf unterrichtsrelevante Aspekte beziehen, realisiert werden. Die Aufgaben wurden in Anlehnung an ein Modell für einen Diagnoseprozess von Beretz et al. (2017) entwickelt, das abschließend vorgestellt wird.

2.1.1 Begriffsklärung

Die anfallenden Diagnoseaufgaben einer Lehrkraft sind vielfältig. Sowohl bei der Erstellung von Zeugnisnoten oder Schullaufbahnempfehlungen als auch bei der Planung und Durchführung des Unterrichts müssen Lehrkräfte diagnostische Leistungen erbringen (Schrader 2011). Die Gesamtheit der Fähigkeiten, die für die Bewältigung der Diagnoseaufgaben notwendig sind, bezeichnet Schrader (2011) als Diagnostische Kompetenz. Die Untersuchung dieses Konstrukts wurde in Deutschland in den vergangenen Jahrzehnten, insbesondere infolge des schlechten Abschneidens Deutschlands in internationalen Vergleichsstudien, deutlich intensiviert. Vor diesem Hintergrund gibt es eine Reihe von Ansätzen zur Konzeptualisierung des Konstrukts der diagnostischen Kompetenz.

Einer dieser Ansätze führt über den allgemeinen Kompetenzbegriff und kann durch das Kompetenzmodell von Blömeke et al. (2015) beschrieben werden. Bei der Modellierung werden zwei in der Forschung existierende kontroverse Perspektiven auf den Kompetenzbegriff berücksichtigt. Die erste Perspektive betont die Bedeutsamkeit des erfolgreichen Handelns in spezifischen Situationen. Die zweite Perspektive stammt aus der Bildungsforschung und legt ihren Schwerpunkt auf die kognitiven, motivationalen und affektiven Voraussetzungen, die einem Verhalten zugrunde liegen (Blömeke et al. 2015). Eine Möglichkeit zur Überwindung dieser Dichotomien besteht in der Berücksichtigung beider Perspektiven. Das Kompetenzmodell ist demnach als eine Art Kontinuum zu verstehen, wobei die kognitiven und affektiv-motivationalen Dispositionen und die Performanz durch situationsspezifische Fähigkeiten mediiert werden (Blömeke et al. 2015).

Dieses Kompetenzmodell wurde von Leuders et al. (2018) auf die diagnostische Kompetenz übertragen (vgl. Abb. 1) und gliedert sich in die Kompetenzfacetten diagnostische Dispositionen, diagnostische Fähigkeiten und diagnostische Performanz. Die diagnostischen Dispositionen umfassen die personenbezogenen Voraussetzungen, die es einer Lehrkraft ermöglichen, in diagnostischen Situationen adäquat zu handeln. Diagnostische Fähigkeiten können als kognitive Prozesse beschrieben werden, die sich in dem Modell von Leuders et al. (2018) bzw. von Blömeke et al. (2015) aus dem Wahrnehmen, Interpretieren und Entscheiden zusammensetzen. Die diagnostischen Fähigkeiten basieren auf der einen Seite auf den diagnostischen Dispositionen und münden auf der anderen Seite in die diagnostische Performanz, welche das beobachtbare Verhalten in diagnostischen Situationen darstellt.

Abb. 1
figure 1

Diagnostische Kompetenz als Kontinuum (Leuders et al. 2018)

Bei der Betrachtung diagnostischer Kompetenz schreiben viele Autorinnen und Autoren den diagnostischen Fähigkeiten eine hohe Relevanz zu. „Werden einzelne oder mehrere […] Teilschritte nicht adäquat vollzogen, ist von mehr oder weniger starken Verzerrungen im Urteil auszugehen“ (Behrmann und Glogger-Frey 2017, S. 137). Welche kognitiven Prozesse dabei genau durchlaufen werden, hängt in hohem Maß von der diagnostischen Situation ab, in der sich eine Lehrkraft befindet, und lässt keine allgemeingültige Konzeptualisierung zu (Herppich et al. 2017; Hetmanek und van Gog 2017; Karst et al. 2017; Loibl et al. 2020). So wird eine Lehrkraft den diagnostischen Prozess bei einer Übergangsempfehlung, aufgrund der verbindlichen und weitreichenden Konsequenzen ihrer Empfehlung, sehr strukturiert durchlaufen und dabei auf viele Informationen zurückgreifen, um dann letztendlich eine Übergangsempfehlung auszusprechen. Hingegen werden Lehrkräfte in alltäglichen Unterrichtssituationen, aufgrund des großen Handlungsdrucks, den kognitiven Prozess weniger strukturiert und vermutlich eher heuristisch durchlaufen, um etwa den Unterricht kurzfristig an den Lernstand der Schülerinnen und Schüler anzupassenFootnote 1.

Studien zeigen, dass Lehrkräfte zwischen mehreren Informationen abwägen und tendenziell eine hohe Anstrengungsbereitschaft bei der Verarbeitung von Informationen zeigen, wenn mit dem Urteil eine hohe Konsequenz einhergeht, wie beispielsweise eine Schullaufbahnempfehlung (Böhmer et al. 2017). Die Autoren schlussfolgern daraus, dass Lehrkräfte, abhängig von der jeweiligen diagnostischen Situation, zwischen heuristischer und strukturierter Informationsverarbeitung wechseln. Bisherige Forschungsergebnisse führen zur Annahme, dass sich erfahrene und unerfahrene Lehrkräfte hinsichtlich der Wahrnehmung und Verarbeitung von Informationen unterscheiden (Berliner 2001). So zeigt eine Studie von Star und Strickland (2008), dass Mathematiklehramtsstudierende bei der Analyse von Unterrichtsvideos lediglich unspezifische Aussagen zu der videografierten Unterrichtssituation machen konnten und hinsichtlich des mathematischen Themas nur wenige Fragen richtig beantworteten. Die Ergebnisse können von weiteren Autoren gestützt werden. So zeigen die Ergebnisse einer Studie von Seidel und Prenzel (2007), dass Lehrkräfte mit Berufserfahrung besser in der Lage sind, Unterrichtsaspekte zu bewerten und zu interpretieren, als Lehramtsstudierende. Sabers et al. (1991) kommen zu ähnlichen Schlussfolgerungen. So nehmen unerfahrene Lehrkräfte häufiger Wertungen vor und sind weniger in der Lage, Ursachen für das Verhalten der Schülerinnen und Schüler zu identifizieren, als erfahrene Lehrkräfte. Die Ergebnisse werden häufig damit begründet, dass Lehramtsstudierende noch nicht in der Lage sind, auf ihr fachliches und fachdidaktisches Wissen zurückzugreifen und dieses in praxisnahen Unterrichtssituationen anzuwenden. Die Ergebnisse stützen die Annahme, dass Studierende bereits im Lehramtsstudium die Möglichkeit erhalten sollten, ihr erworbenes Wissen anzuwenden, um so der Theorie-Praxis-Kluft im Studium entgegenzuwirken. So beschreiben Sabers et al. (1991): „Because the performance of the advanced beginners was not equal to the experts in a number of domains, perhaps policymakers need to rethink the content and structure of typical teacher education programs. Perhaps we need to structure experiences for preservice and practicing teachers that will facilitate the development of expertise.“ (S. 85).

2.1.2 Analyse von Unterrichtsvideos

Eine Möglichkeit zur Überwindung der beschriebenen Theorie-Praxis-Kluft bietet die Analyse von Unterrichtsvideos. So können die im Lehramtsstudium vermittelten theoretischen Grundlagen illustriert werden. Videos bilden durch visuelle, auditive und nonverbale Informationen authentische Unterrichtssituationen ab (Krammer und Reusser 2005). Sie können jedoch aufgrund der Parallelität der Handlungen und Aussagen Studierende kognitiv stark beanspruchen, was durch bisherige Studien belegt werden konnte (z. B. Syring et al. 2015). Um Studierende kognitiv zu entlasten, bietet sich der Einsatz von Videovignetten an, die kurze Unterrichtsszenen darstellen (Rehm und Bölsterli 2014). Dadurch beschränkt sich die Analyse auf kurze Unterrichtssequenzen, wodurch der Fokus auf inhaltlich relevante Aspekte gelegt werden kann. Zudem bieten Videos den Vorteil, dass sie ohne Handlungsdruck mehrmals analysiert werden können, wodurch die Komplexität, die in realen Unterrichtssituationen auftritt, reduziert wird (Heitzmann et al. 2019). Um das Potenzial von Videoanalysen für das Lehramtsstudium ausschöpfen zu können, bedarf es der Gestaltung geeigneter Lernumgebungen (Krammer und Reusser 2005), die mehrere Aspekte berücksichtigt sollten. Der wohl wichtigste Aspekt ist die Festlegung des Lernziels, das mit der Videoanalyse erreicht werden soll (Blomberg et al. 2013). Vor dem Hintergrund der Zielperspektive werden dann entsprechende Videos erstellt und Aufgaben zur Analyse entwickelt (von Aufschnaiter et al. 2017). Soll beispielsweise das Handeln von Lehrkräften und die resultierenden Auswirkungen auf den Lernprozess der Schülerinnen und Schüler analysiert werden, eignen sich Videovignetten, in denen Interaktionen von Lehrkräften und Lernenden zu beobachten sind. Steht hingegen die Analyse von Lernprozessen von Schülerinnen und Schüler im Vordergrund, eignen sich Videovignetten, die Lernende bei Aufgabenbearbeitungen zeigen (von Aufschnaiter et al. 2017). Zur Reflexion der eigenen Wahrnehmung und des eigenen Handelns bietet sich in der Weiterbildung von Lehrkräften die Analyse von Videos des eigenen Unterrichts an. Da Studierende jedoch nur selten die Möglichkeit haben, eigenständigen Unterricht durchzuführen, der videografiert werden kann, werden im Lehramtsstudium häufig fremde Videos analysiert. Durch die Analyse von solchen kann eine kritische Distanzhaltung eingenommen werden, da die videografierten Schülerinnen und Schüler und gegebenenfalls die videografierte Lehrkraft den Studierenden unbekannt sind. Jedoch fehlen den Studierenden dadurch auch entsprechende Kontextinformationen, wodurch die Analyse erschwert wird (Blomberg et al. 2013). Um dieser Problematik entgegenzuwirken, sollten den Studierenden neben der Videovignette weitere Informationen bereitgestellt werden, über die auch die betreuende Lehrperson in der Regel verfügt (Blomberg et al. 2013).

Bisherige Studien weisen darauf hin, dass die Analyse von Videovignetten für die Wahrnehmung und Verarbeitung relevanter Unterrichtsaspekte ertragreich sein kann (z. B. Krammer et al. 2016; Sunder et al. 2016). Die Ergebnisse einer Studie im Pre-Post-Design von Sunder et al. (2016) lassen jedoch darauf schließen, dass eine Förderung durch Videoanalysen nicht nur fachabhängig, sondern auch themenabhängig ist. Die Studierenden in der Studie konnten sich nämlich nur bei der Analyse von solchen Videovignetten verbessern, die das Thema der Videovignetten in der Intervention abbildeten. Dies lässt darauf schließen, dass diagnostische Leistungen in hohem Maß vom Diagnosegegenstand abhängen. Im Rahmen dieser Studie wurde das Erarbeiten von Längen, Flächen- und Rauminhalten durch Schülerinnen und Schülern als Diagnosegegenstand gewählt (vgl. Abschn. 2.2).

Um die Studierenden im Zuge der Analyse der Unterrichtsvideos bei der Fokussierung auf den gewählten Diagnosegegenstand zu unterstützen, muss dieser sich in den konzipierten Aufgaben wiederfinden. Zudem müssen die Aufgaben zu einer aktiven Auseinandersetzung mit den in den Videovignetten dargestellten relevanten Unterrichtsaspekten anregen und somit Facetten abbilden, die einen Diagnoseprozess anregen. Um Studierende beim Aufbau diagnostischer Fähigkeiten zu unterstützen, haben Beretz et al. (2017) und von Aufschnaiter et al. (2018) ein Modell für einen Diagnoseprozess entwickelt, der folgende Schritte beinhaltet: (1) Daten erheben/sichten, (2) Beobachtungen beschreiben, (3) Beobachtungen deuten, (4) Ursachen ergründen und (5) Konsequenzen ableiten. Im ersten Schritt wird auf geeignete Daten zurückgegriffen, die vor dem Hintergrund einer diagnostischen Fragestellung selbst erhoben oder aus vorhandenen Quellen extrahiert wurden. Welche Daten erfasst werden sollen, hängt vom intendierten Ziel der Diagnostik ab. Im zweiten Schritt werden die anhand der Daten getätigten relevanten Beobachtungen beschrieben. Dieser Schritt dient primär der Zusammenstellung relevanter Informationen, die aus den Beobachtungen gewonnen werden können. Anhand dieser Beschreibungen können dann lernrelevante Beobachtungen differenziert gedeutet werden. Das kann z. B. die Analyse von Fähigkeiten, Fertigkeiten sowie Schwierigkeiten der Schülerinnen und Schüler beinhalten. In der Regel wird dazu fachdidaktisches Wissen genutzt, indem etwa auf das Wissen über typische Fehlvorstellungen von Schülerinnen und Schüler zurückgegriffen wird. Für die getätigten Deutungen wird im nächsten Schritt nach Erklärungen und Ursachen gesucht. Beretz et al. (2017) schreiben diesem Schritt eine hohe Relevanz zu, da er „[…] zu einer intensiveren Auseinandersetzung mit dem Denken und Handeln der Schülerinnen und Schüler und einer positiven Einstellung gegenüber den Lernenden führen […]“ kann (S. 151). Die möglichen Ursachen geben auch wertvolle Anhaltspunkte für die anschließende Ableitung von Konsequenzen, da eine Interventionsmaßnahme maßgeblich davon abhängt, welche Ursache den Aussagen und Handlungen der Lernenden zugrunde liegt. Die resultierenden Konsequenzen beinhalten Hinweise, wie die Lernenden im weiteren Lernprozess unterstützt werden können und bilden den Ausgangspunkt für die Gestaltung adäquater Fördermaßnahmen. Von Aufschnaiter et al. (2018) fassen die Gestaltung der Fördermaßnahme, wie andere Autorinnen und Autoren (vgl. Abschn. 2.1.1) jedoch nicht mehr unter die Diagnostik. Wie bereits dargestellt, bedarf die Analyse von Unterrichtsvideos einem eindeutigen Diagnosegegenstand, welcher im Folgenden erläutert wird.

2.2 Bestimmung von Längen, Flächen- und Rauminhalten

Das Bestimmen von Längen, Flächen- und Rauminhalten ist ein wichtiges Themengebiet in der Mathematik und wird im Sinne des Spiralprinzips über die Jahrgangsstufen hinweg mehrfach aufgegriffen und erweitert sowie vertieft. Durch den direkten Alltagsbezug, beispielsweise das Messen von Körpergrößen, besitzen bereits Schulanfänger Kenntnisse über Größenbereiche und Maßeinheiten (z. B. Lafrentz und Eichler 2004; Ruwisch 2003). In der Primarstufe machen Schülerinnen und Schüler erste Erfahrungen mit dem Vergleichen und Messen von Längen, Flächen- und Rauminhalten (Ministerium für Bildung, Wissenschaft, Jugend und Kultur Rheinland-Pfalz 2015). In der Sekundarstufe I werden dann entsprechende Formeln hergeleitet, um Längen sowie Flächen- und Rauminhalte von geometrischen Figuren zu berechnen. In diesem Zusammenhang wird erstmals das Umrechnen von Maßeinheiten behandelt (Ministerium für Bildung, Wissenschaft, Jugend und Kultur Rheinland-Pfalz 2007; Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland 2004). In der Sekundarstufe II werden die Vorerfahrungen schließlich aufgegriffen, um die Integralrechnung durch die Approximation der Ober- und Untersumme einzuführen (Ministerium für Bildung, Wissenschaft, Jugend und Kultur Rheinland-Pfalz 2015; Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland 2012).

Für die Erarbeitung von Größen bzw. Größenbereichen im Unterricht wird häufig auf didaktische Stufenmodelle verwiesen, in denen das Rechnen mit Größen in mehreren Schritten erarbeitet wird (z. B. Radatz und Schipper 2007). Über die Vorerfahrungen der Schülerinnen und Schüler werden Repräsentanten erst direkt und anschließend indirekt über selbstgewählte und standardisierte Maßeinheiten verglichen (vgl. Abb. 2). Darauf folgt das Umwandeln der Maßeinheiten des entsprechenden Größenbereichs, bis schließlich die Größen miteinander verrechnet werden.

Abb. 2
figure 2

Stufenmodell zum Bestimmen von Längen, Flächen- und Rauminhalten (Enenkiel 2022)

Solche Stufenmodelle stehen häufig in der Kritik, da eine sukzessive Abfolge nicht immer sinnvoll und oftmals auch nur bedingt möglich ist (Krauthausen 2018). So erscheint etwa das indirekte Vergleichen mit selbstgewählten Maßeinheiten oft künstlich, da Schülerinnen und Schüler bereits Vorerfahrungen zu standardisierten Maßeinheiten besitzen (Peter-Koop 2001). Darüber hinaus kann es in einigen Situationen durchaus sinnvoll sein, Vergleiche von Repräsentanten durchzuführen, auch wenn Lernende bereits mit standardisierten Maßeinheiten messen können. Jede Vorgehensweise führt zu einem eigenen Erkenntnisgewinn und trägt zu einem umfassenden Verständnis des jeweiligen Größenbereiches bei (Schmidt 2014). Es erscheint daher weitaus zielführender, dass Lernende selbst erkennen, in welchem Kontext welche Vorgehensweise sinnvoll anzuwenden ist und welche Maßeinheiten genutzt werden sollten.

Vor diesem Hintergrund wurden die Vorgehensweisen beim Bestimmen von Längen, Flächen- und Rauminhalten im Sinne von Strategien kategorisiert und diese Strategien beschrieben (Enenkiel und Roth 2018). Neben dem Vergleichen und Messen wird in der Kategorisierung auch das Berechnen von Größen aufgeführt, so dass Vorgehensweisen zur Bestimmung von Längen, Flächen- und Rauminhalten in ihrer ganzen Breite abgedeckt werden. Diese Vorgehensweisen erfordern zum Teil arithmetische Fähigkeiten sowie Kenntnisse über geometrische Figuren, weshalb das Themengebiet auch in der Schnittmenge der Arithmetik und der Geometrie eingeordnet werden kann (Peter-Koop und Nührenbörger 2016). Beim Umgang mit Größen werden Zahlen zu Maßzahlen (Peter-Koop und Nührenbörger 2016). Neben der Maßzahl muss jedoch auch zwingend die Maßeinheit berücksichtigt werden. Schülerinnen und Schüler orientieren sich beim Ordnen von Größen oftmals nur an der Maßzahl (Hiebert 1981), was zu falschen Ergebnissen führt, wenn die Maßeinheiten nicht identisch sind. So können Größen mit der gleichen Maßeinheit, wie Zahlen, einfach addiert und subtrahiert werden. Größen mit verschiedenen Maßeinheiten aus dem gleichen Größenbereich müssen zunächst umgewandelt werden. Die Addition und Subtraktion von Größen verschiedener Größenbereiche ist hingegen nicht möglich. Bei der Multiplikation und Division von Größen verändert sich der Größenbereich und ist darüber hinaus nur bei „verträglichen“ Maßeinheiten gültig (Frenzel und Grund 1991a). Entsprechend können Größen nur miteinander multipliziert oder dividiert werden, wenn das resultierende Ergebnis einen realen Größenbereich repräsentiert wie beispielsweise die Berechnung des Flächeninhalts eines Rechtecks durch die Multiplikation der Kantenlängen. Für die Umrechnung von Maßeinheiten benötigen Schülerinnen und Schüler Kenntnisse über die entsprechenden Umwandlungszahlen sowie die Fähigkeit, mit Dezimalbrüchen rechnen zu können. Neben den arithmetischen Fähigkeiten benötigen Lernende aber auch Kenntnisse über geometrische Figuren und die entsprechenden Größenbereiche. Fehlt das Verständnis von geometrischen Figuren (z. B. Rechteck) oder von Maßbegriffen (z. B. Flächeninhalt) haben Lernende Schwierigkeiten, entsprechende Aufgaben adäquat zu lösen (Lafrentz und Eichler 2004). Auf der anderen Seite fördern aktive und umfangreiche Handlungen, wie umfassende Messerfahrungen an realen Objekten auch die Entwicklung eines Begriffsverständnisses zu Maß- und Figurenbegriffen sowie die Ausbildung von entsprechenden Größenvorstellungen (Kuntze 2018; Weigand 2018; Peter-Koop und Nührenbörger 2016).

Die beschriebenen Aspekte verdeutlichen, dass das Bestimmen von Längen, Flächen- und Rauminhalten ein zentrales Thema im Mathematikunterricht ist. Bisherige Studien weisen jedoch auf erhebliche Defizite von Schülerinnen und Schüler beim Umgang mit Größen hin (z. B. Frenzel und Grund 1991b; Lafrentz und Eichler 2004; Neubert und Thies 2012). So haben sie oftmals Schwierigkeiten beim Operieren mit Maßeinheiten, machen Fehler beim Umrechnen, haben Probleme beim Aufstellen von Formeln und können darüber hinaus Ergebnisse nicht interpretieren oder reflektieren, da ihnen entsprechende Größenvorstellungen fehlen. Vor dem Hintergrund, dass Schülerinnen und Schüler beim Bestimmen von Längen, Flächen- und Rauminhalten erhebliche Schwierigkeiten haben (können) und die Thematik nicht nur für den Mathematikunterricht in allen Klassenstufen, sondern auch für den Alltag von Bedeutung ist, erscheint es wichtig, dass Lehrkräfte ihre Schülerinnen und Schüler bestmöglich dabei unterstützen (können).

3 Forschungsfrage

Einer adäquaten Unterstützung gehen diagnostische Prozesse seitens der Lehrkraft voraus. Wie bereits in Abschn. 2.1.1 beschrieben, weisen aktuelle Studien darauf hin, dass Lehramtsstudierende oftmals Schwierigkeiten haben, lernrelevante Merkmale wahrzunehmen und ihre Beobachtungen zu interpretieren und zu erklären. Aus diesem Grund stellt sich die Frage, wie Studierende bereits im Studium für die Diagnose von Schülerarbeitsprozessen sensibilisiert und beim Aufbau dazu benötigter Fähigkeiten unterstützt werden können. Bisherige Studien zeigen, dass Videos ein geeignetes Medium darstellen, um handlungsrelevante Fähigkeiten zu fördern (Krammer et al. 2016; van Es und Sherin 2010). Die Analyse von Videos findet in den meisten Fällen in Rahmen von Seminaren statt, in denen Studierende und Dozierende in einen direkten Austausch treten. In Veranstaltungen die von mehr als 200 Studierenden besucht werden, wie der Vorlesung Fachdidaktische Grundlagen für Studierende aller Lehrämter mit Mathematik als Unterrichtsfach, in der die vorliegende Studie verortet ist, ist eine gemeinsame Diskussion, in der alle Studierenden aktiviert werden, nicht möglich. Vor diesem Hintergrund setzen wir eine videobasierte Lernumgebung ein, die begleitend zu Großveranstaltungen genutzt werden kann.

Wie zuvor dargestellt, ist die Bedeutung des mathematischen Inhalts Längen, Flächen- und Rauminhalte nicht von der Hand zu weisen. Durch die wiederkehrende Thematisierung über die Schullaufbahn hinweg, stellt es sowohl für die Lehramtsstudierenden der Primarstufe als auch für die Lehramtsstudierenden der Sekundarstufe I und II ein relevantes Themenfeld dar. Da angenommen wird, dass die Diagnose unter anderem von dem Diagnosegegenstand abhängt, wird die Lernumgebung inhaltlich auf das Thema „Bestimmung von Längen, Flächen- und Rauminhalten“ abgestimmt. Unter Berücksichtigung des von Leuders et al. (2018) adaptierten Kompetenzmodells wird angenommen, dass mit Videos eine Entwicklung der diagnostischen Fähigkeiten angeregt werden kann.

Vor diesem Hintergrund, lässt sich die folgende Forschungsfrage ableiten: Lassen sich diagnostische Fähigkeiten von Studierenden hinsichtlich der Bestimmung von Längen, Flächen- und Rauminhalten durch Schülerinnen und Schüler mithilfe der videobasierten Lernumgebung ViviAn fördern?

Um diese Forschungsfrage zu beantworten und damit die Wirksamkeit der Lernumgebung zu überprüfen, müssen die diagnostischen Fähigkeiten der Studierenden erfasst werden. In Anlehnung an Herppich et al. (2017) treffen wir die Annahme, dass die diagnostische Performanz in repräsentativen Situationen Rückschlüsse auf die Ausprägung diagnostischer Fähigkeiten erlaubt. Um eine mögliche Entwicklung der diagnostischen Fähigkeiten in dem beschriebenen Inhaltsbereich abbilden zu können, wurden zwei Testvignetten entwickelt, die im Vor- und Nachtest eingesetzt wurden. Die dabei genutzten elementaren Schritte der Operationalisierung und Quantifizierung der vorliegenden (diagnostischen) Fähigkeiten werden im Rahmen der Darstellung der Diagnoseaufträge vorgestellt.

4 Methode

4.1 Die videobasierte Lernumgebung ViviAn

Aufgrund der hohen Komplexität des Konstrukts Diagnostische Fähigkeiten, die nicht zuletzt auf den Einfluss situativer Faktoren zurückzuführen ist, stellt die Entwicklung eines validen Förder- und Testinstrumentes eine große Herausforderung dar. Die Analyse von Unterrichtsvideos, in denen Lernprozesse von Schülerinnen und Schülern bewertet werden, ist eine Möglichkeit, die sich im Rahmen von Großveranstaltungen nutzen lässt und zeitökonomisch ist. Damit Videos zum Lernerfolg von Studierenden beitragen, müssen sie in eine geeignete Lernumgebung eingebettet sein (Seago 2004; Blomberg et al. 2013). Zudem bringt eine Lernumgebung den Vorteil mit sich, dass Studierende Videos ohne explizite Anweisung von Dozierenden analysieren können. In der von uns entwickelten Lernumgebung ViviAn stehen den Studierenden neben einer Videosequenz weitere Informationen zur Verfügung. Diese stammen aus dem Mathematik-Labor „Mathe ist mehr“, einem Schülerlabor der Universität Koblenz-Landau am Campus Landau.

4.1.1 Videosequenzen aus dem Mathematik-Labor „Mathe ist mehr“ als Basis von ViviAn

Das Mathematik-Labor bietet verschiedene Lernumgebungen für Schülerinnen und Schüler an, in denen jeweils ein mathematischer Inhalt, wie das Bestimmen von Längen, Flächen- und Rauminhalten, mithilfe von gegenständlichen Materialien und Simulationen erarbeitet wird. Das Mathematik-Labor wird in der Regel von ganzen Schulklassen besucht, wobei jeweils vier Schülerinnen und Schüler sich die Inhalte als Gruppe gemeinsam erarbeiten. Durch die Gruppenarbeit sollen Diskussionen angeregt und kooperatives Lernen geschult werden. Für Forschungszwecke wird eine Gruppe von Lernenden in einem separaten Raum aus der Vogelperspektive gefilmt. Dies ermöglicht es, sowohl die gesamte Lerngruppe als auch einzelne Lernende zu fokussieren (Bartel und Roth 2017). Zudem bietet ein Laptop die Möglichkeit die Arbeit am Bildschirm, wie beispielsweise die Verwendung von Simulationen aufzunehmen. Mit dem gewählten Fokus auf den Schülerinnen und Schülern selbst, bieten die Videos den Studierenden die Möglichkeit, Lernprozesse von Schülerinnen und Schülern zu diagnostizieren, indem lernrelevante Merkmale wahrgenommen und verarbeitet werden.

Da eine Analyse von mehrstündigen Videos, aufgrund der Fülle an Informationen die Studierenden kognitiv stark beanspruchen würde, müssen die Videos vorab modifiziert werden (vgl. von Aufschnaiter et al. 2017). Durch die Modifikation können lernrelevante Aspekte durch Kürzungen oder Ergänzungen hervorgehoben werden, wodurch die Komplexität der Videos stark reduziert wird. Entsprechend wurden im ersten Schritt bereits vorhandene Videoaufnahmen gesichtet. Relevante Szenen, in denen die Schülerinnen und Schüler beim Bestimmen von Größen Strategien anwandten oder Schwierigkeiten erkennen ließen, wurden geschnitten. Aus 15 Kurzvideos wurden anschließend acht Sequenzen ausgewählt, in denen eine große Bandbreite von Strategien sichtbar sowie Fähigkeiten und Schwierigkeiten der Schülerinnen und Schülern zu identifizieren waren. Darüber hinaus wurde darauf geachtet, dass die Wahrnehmung der Handlungen sowie Diskussionen der Schülerinnen und Schülern nicht durch eingeschränkte Ton- und Bildqualität beeinträchtigt werden.

Da die Studierenden die videografierten Schülerinnen und Schüler nicht kennen, ist die Zuordnung der Verbalisierungen erschwert. Daher wurden die videografierten Schülerinnen und Schüler mit gelben Markern versehen (vgl. Abb. 3). Über die jeweilige Sprechdauer erscheint in den Videosequenzen über den entsprechenden Lernenden ein Rechteck mit „S1“, „S2“, „S3“ oder „S4“Footnote 2. Für eine einheitliche Gestaltung werden die Benennungen auch an verschiedenen Stellen der Lernumgebung wieder aufgegriffen. So beinhalten beispielsweise auch die Diagnoseaufträge für die Studierenden diese Benennungen der Schülerinnen und Schüler. Die Videovignette stellt das Zentrum der Oberfläche von ViviAn dar. Durch Betätigen entsprechender Buttons, die um die im Zentrum stehende Videovignette angeordnet sind (vgl. Abb. 3), können die Studierenden weitere Informationen nach Bedarf abrufenFootnote 3. So informiert der Button oberhalb des Videos über das Thema und die Lernziele der Mathematik-Labor-Station. Die weiteren Buttons sind in die beiden Perspektiven Schüler- und Metaebene untergliedert. Mit den Buttons der Schülerebene können Materialien der Station abgerufen werden, mit denen die Lernenden während des Lernprozesses arbeiteten oder welche sie produziert haben. So können mit dem Button Schülerprodukte die schriftlichen Arbeitsergebnisse aller Lernenden der Videosequenz abgerufen werden. Die Buttons der Metaebene bieten weitere Informationen, über die eine Lehrkraft im Klassenraum verfügt. Neben Hintergrundinformationen zu den abgebildeten Schülerinnen und Schülern, wie etwa Klassenstufe und Schulart, können sich Studierende über die zeitliche Einordnung der Sequenz im Lernprozess informieren. Dies ermöglicht es ihnen unter anderem, zu sehen, welche Lernziele durch die in der Videovignette bearbeitete Aufgabe erreicht werden soll. Auf diese Weise soll eine möglichst unterrichtsnahe Lernumgebung für die Studierenden geschaffen werden (vgl. Roth 2020).

Abb. 3
figure 3

Oberfläche von ViviAn

4.1.2 Erstellung der Diagnoseaufträge

Damit Videos lernförderlich sein können, müssen Studierende sich aktiv mit diesen auseinandersetzen (Seago 2004). Eine Möglichkeit zur Anregung dieser aktiven Auseinandersetzung stellt das Arbeiten mit auf die Videosequenzen abgestimmten Aufgaben dar. Durch das Betätigen des Buttons Diagnoseauftrag öffnet sich in der Lernumgebung ViviAn ein Fenster, in dem die Aufgaben dargestellt sind und die Antworten direkt eingegeben werden können (vgl. Abb. 3). Die Antworten der Studierenden auf die Diagnoseaufträge werden gespeichert und können jederzeit zu Forschungszwecken abgerufen werden.

Die Diagnoseaufträge, die für die Videovignetten erstellt wurden, basieren auf den Komponenten des Diagnoseprozesses von Beretz et al. (2017) und von Aufschnaiter et al. (2018) (vgl. Abschn. 2.1.2). Durch die detaillierte Darstellung der einzelnen Diagnoseschritte, eignen sich diese für die Strukturierung diagnostischer Tätigkeiten, was besonders für eine Förderung diagnostischer Fähigkeiten ertragreich sein kann. Der Diagnoseprozess ist jedoch iterativ. Das Ableiten von Konsequenzen bzw. das Bilden von Fördermaßnahmen stellt in der Regel den Ausgangspunkt für eine erneute Diagnostik dar. Da die Videovignetten in dieser Studie jedoch inhaltlich abgeschlossen sind, endet in diesem Setting der Diagnoseprozess mit dem Ableiten von Konsequenzen. Darüber hinaus wird in Anlehnung an Beretz et al. (2017) angenommen, dass das Bilden von adäquaten Fördermaßnahmen zwar eng mit einer (informellen) Diagnostik verknüpft ist, aber wegen des dafür zusätzlich benötigten Handlungswissens eine davon abzugrenzende Kompetenz darstellt (vgl. Abschn. 2.1). Um die diagnostischen Fähigkeiten hinsichtlich der Bestimmung von Längen, Flächen- und Rauminhalten adäquat zu erfassen und zu fördern, scheint eine Trennung der Kompetenzen zwingend notwendig. Der erste Schritt Datenerhebung/Datensichtung entfällt in diesem Setting ebenfalls, da die Videovignetten bereits auf relevante Lernprozesse hinsichtlich der Bestimmung von Längen, Flächen- und Rauminhalten modifiziert wurden. Der Diagnoseprozess beschränkt sich in dieser Studie somit auf die in Abb. 4 dargestellten Komponenten.

Abb. 4
figure 4

Relevante Komponenten des Diagnoseprozesses nach Beretz et al. (2017) und von Aufschnaiter et al. (2018)

Diese eignen sich auch für die Konstruktion der Diagnoseaufträge, sofern geeignete Operatoren verwendet werden (vgl. Beretz et al. 2017). Durch die Operatoren sollen die Studierenden strukturiert durch das Diagnostizieren geleitet werden. Studierende können zwar durch freie Textfelder ihre Antwort offen formulieren; ihre Aufmerksamkeit wird jedoch durch entsprechende Aufgabenformulierungen auf spezifische Aspekte der Videosequenz gerichtet. Die Diagnoseaufträge für die Komponenten werden im Folgenden dargestellt.

Förderrelevante Beobachtungen beschreiben

In einem ersten Schritt sollen Studierende ihre Beobachtungen beschreiben. Das offene Antwortformat ermöglicht, dass die Studierenden ihre Wahrnehmung eigenständig zusammenfassen können. Der Diagnoseauftrag „Beschreiben Sie aus mathematikdidaktischer Perspektive die Situation, die in der Videovignette zu sehen ist.“ soll die Wahrnehmung der Studierenden auf Aspekte der Videosequenz lenken, die aus mathematikdidaktischer Perspektive relevant sind. Die Beschreibung der relevanten Beobachtungen stellt eine Zusammenstellung der entsprechenden Wahrnehmungen dar und dient somit als Ausgangspunkt zur Beantwortung der weiteren Diagnoseaufträge. Aus diesem Grund ist dieser Diagnoseauftrag der erste Arbeitsauftrag in jeder Videovignette. Als besonders relevant erscheint dabei die deutungsfreie bzw. neutrale Beschreibung der Situation, in der lediglich relevante Informationen aus der Videovignette gesammelt werden.

Beobachtungen differenziert deuten

Im nächsten Schritt sollen die Informationen, die aus den Beobachtungen gezogen wurden, differenziert verarbeitet werden. Die Diagnoseaufträge beziehen sich entweder auf einzelne Schülerinnen und Schüler oder auf die gesamte Gruppe und fokussieren die Fähigkeiten oder Schwierigkeiten, die die Schülerinnen und Schüler in der Videosequenz zeigen. Da die Deutungen daher von der jeweiligen Videosequenz abhängig sind, variieren die Diagnoseaufträge mit der jeweiligen Vignette. Exemplarische Diagnoseaufträge lauten: „Welche Vergleichs‑, Mess- und Berechnungsstrategien wendet S1 an, um Aufgabe 1.2 zu lösen? Begründen Sie Ihre Aussage.“ oder „Welche Schwierigkeiten treten bei der Bearbeitung der Aufgabe auf? Begründen Sie Ihre Aussage.“ Die Diagnoseaufträge haben geschlossene oder offene Antwortformate. Die Studierenden werden bei geschlossenen Aufgaben (Multiple-Choice- oder Single-Choice-Aufgaben) jedoch immer aufgefordert ihre Auswahl anhand ihrer Beobachtungen aus der Videosequenz in einem Freitextfeld zu begründen (vgl. Abb. 3).

Mögliche Ursachen ergründen

Für die entsprechenden Deutungen gilt es im nächsten Schritt mögliche Ursachen zu finden. Unter Einbezug des fachlichen und fachdidaktischen Vorwissens sollen die Studierenden beispielsweise Ursachen für einen Schülerfehler, der in der Videovignette beobachtet werden konnte, angeben: „Die Schülerinnen und Schüler haben offenbar Schwierigkeiten die Aufgabe adäquat zu lösen. Welche Ursachen könnten diesen Schülerschwierigkeiten zugrunde liegen?“ Die möglichen Ursachen ergeben sich oftmals aus den Aussagen und Handlungen der Schülerinnen und Schüler, die in der jeweiligen Videovignette abgebildet sind. So kann den Schülerinnen und Schülern die Erkenntnis fehlen, dass sich die Rauminhaltsformel aus dem gedanklichen Aufeinanderstapeln der Schichten aus Einheitswürfeln ergibt \((V=h\cdot A)\), was schließlich in der Videosequenz dazu führt, dass die Rauminhaltsformel für ein Quadermodell fehlerhaft erstellt wird. Alternativ kann den Schülerinnen und Schülern jedoch auch das Begriffsverständnis für Rauminhalt oder Quader fehlen. Durch Einbezug der Zusatzinformationen können auch mögliche Ursachen ausgeschlossen werden, wenn beispielsweise in dem Stationsteil vorher die Eigenschaften eines Quadermodells bereits erarbeitet wurden. Das Aufgabenformat in dieser Komponente ist offen und muss mit einem Freitext beantwortet werden.

Konsequenzen für die Förderung ableiten

Aus den Beobachtungen, Deutungen und Ergründungen möglicher Ursachen sollen die Studierenden im letzten Schritt entsprechende Konsequenzen für eine Förderung ableiten. Dabei sollen die Studierenden mittels Multiple-Choice-Aufgabe zum einen entscheiden, ob sie als betreuende Lehrperson während der Situation eingegriffen hätten und zum anderen, ob sie nach der Situation intervenieren würden. Die Studierenden werden bei ihrer Auswahl aufgefordert ihre Antwort zu begründen. Falls die Studierenden sich für eine Intervention entscheiden, öffnet sich ein weiterer Diagnoseauftrag, in dem die Studierenden beschreiben können, wie sie ihre Intervention gestalten würden. Die Aufforderung der Beschreibung einer möglichen Intervention soll eine möglichst authentische Unterrichtssituation darstellen und eine künstliche Trennung von Diagnose und Handlung unterbinden. Die formulierten Fördermaßnahmen der Studierenden wurden im Rahmen der Studie nicht ausgewertet, da angenommen wird, dass das aktive Intervenieren eine andere Kompetenz darstellt. Die Begründung zu dieser Annahme wird in Abschn. 2.1.1 beschrieben.

4.1.3 Erstellung der Musterlösung

Bei Großveranstaltungen, die von mehr als 200 Studierenden besucht werden, kann den Studierenden aus organisatorischen Gründen keine persönliche und individuelle Rückmeldung zu ihren Bearbeitungen gegeben werden. Um Studierende jedoch bei ihren Videoanalysen zu unterstützen, scheint eine Form von Rückmeldung zielführend (von Aufschnaiter et al. 2017). Da bisherige Studien zeigen, dass auch die Darbietung einer richtigen Lösung zu einem Lerneffekt beitragen kann (z. B. Bangert-Drowns et al. 1991), wurde für jede Videovignette eine Musterlösung erstellt. Die Musterlösungen basieren auf einem Expertenrating, das vorab mit wissenschaftlichen Mitarbeiterinnen und Mitarbeitern, Professorinnen und Professoren aus der Mathematikdidaktik sowie Mathematiklehrkräften durchgeführt wurden. Die Experten waren bereits Raterinnen und Rater von Videos in anderen Projekten und verfügen daher über weitereichende Erfahrungen mit Videoanalysen. Vor dem Expertenrating wurde sichergestellt, dass entsprechende diagnostische und fachliche Voraussetzungen gegeben waren. So wurde einerseits die Komponenten des Diagnoseprozesses von Beretz et al. (2017) und von Aufschnaiter et al. (2018) erläutert sowie die Strategien zum Bestimmen von Längen, Flächen- und Rauminhalten und die damit verbundenen möglichen Schülerschwierigkeiten diskutiert. Das Expertenrating erfolgte in mehreren Schritten (vgl. Abb. 5):

  1. 1.

    Die Diagnoseaufträge für jede Videovignette wurden von zwei Expertinnen bzw. Experten beantwortet. Eine Expertin bzw. ein Experte beantwortete dabei die Diagnoseaufträge für je zwei Videovignetten.

  2. 2.

    Die Antworten der Expertinnen und Experten wurden anschließend gesammelt, zusammengefasst und inhaltlich miteinander verglichen. Antworten von Expertinnen und Experten, die sich inhaltlich unterschieden, wurden farblich kenntlich gemacht.

  3. 3.

    Aus den Expertenantworten wurde nachfolgend für jede Videovignette eine Musterlösung erstellt. Die Antworten der Experten auf Single-Choice- oder Multiple-Choice-Aufgaben wurden mit einem Kreuz kenntlich gemacht. Die Freitextantworten wurden strukturiert zusammengestellt, indem beispielsweise unterschiedliche inhaltliche Aspekte durch Stichpunkte getrennt dargestellt wurden. Um die Verarbeitung und Reflexion der Musterlösung zu ermöglichen, wurde auf einfache und prägnante Formulierungen geachtet.

  4. 4.

    In einem gemeinsamen Workshop wurden anschließend die Musterlösungen von denselben Expertinnen und Experten begutachtet. Dabei bewerteten die Expertinnen und Experten die Musterlösungen von zwei anderen Vignetten. So sollte gewährleistet werden, dass die Vignetten von einer großen Bandbreite von Expertinnen und Experten begutachtet wurden. In einem anschließenden Plenum wurden Meinungsverschiedenheiten und unterschiedliche Antworten gemeinsam diskutiert. Konnte kein Konsens gefunden werden, wurden beide Lösungen in die Musterlösung mit aufgenommen und jeweils begründet.

Abb. 5
figure 5

Expertenrating zur Erstellung von Musterlösungen

Die Musterlösungen auf Basis des Expertenratings wurden im nächsten Schritt in die videobasierte Lernumgebung ViviAn eingebettet, so dass diese den Studierenden nach der Bearbeitung der Diagnoseaufträge angezeigt wurde. Aus einer Metaanalyse von Bangert-Drowns et al. (1991) geht hervor, dass Feedback lernwirksamer ist, wenn es vor der Bearbeitung eines Arbeitsauftrages nicht eingesehen werden kann. Wenn Lernende das Feedback einsehen können, bevor sie sich mit der Aufgabe aktiv auseinandergesetzt haben, wird es demnach nur wenig zur Reflexion der eigenen Antwort beitragen können (Bangert-Drowns et al. 1991). Um diesen Effekt, von Kulhavy (1977) als presearch availability bezeichnet, zu verhindern, wurden das Online-Umfrage-Tool in ViviAn so programmiert, dass Studierende erst auf die Musterlösung zugreifen konnten, nachdem sie die entsprechenden Diagnoseaufträge beantwortet hatten. Um eine Reflexion der eigenen Antworten mit den Musterlösungen zu ermöglichen, bekamen die Studierenden zusätzlich zur Musterlösung den entsprechenden Diagnoseauftrag und ihre eigene Antwort angezeigt (vgl. Abb. 6).

Abb. 6
figure 6

Musterlösungen in ViviAn

4.2 Rahmeninformationen

4.2.1 Stichprobe

Um zu prüfen, ob die Arbeit mit ViviAn Mathematiklehramtsstudierende unterstützen kann, ihre diagnostischen Fähigkeiten im Bereich Bestimmung von Längen, Flächen- und Rauminhalten zu entwickeln, wurde im Wintersemester 2017/2018 eine Interventionsstudie mit einem Vor- und Nachtest durchgeführt. Da das Bestimmen von Längen, Flächen- und Rauminhalten sowohl in der Primarstufe als auch im Sinne des Spiralprinzips in weiterführenden Schulen erarbeitet und vertieft wird, fand die Interventionsstudie im Rahmen der Großveranstaltung Fachdidaktische Grundlagen statt, einer Bachelorveranstaltung, die von Mathematiklehramtsstudierenden aller Schularten besucht wird. In allen Schularten spielen entsprechende Vergleichs‑, Mess- und Berechnungsstrategien eine durchgängige Rolle. Aufgrund der hohen Relevanz des Themengebiets für Lehramtsstudierende der Grund- und Förderschule sowie auch für Lehramtsstudierende für Realschule plus und Gymnasium (vgl. Abschn. 2.2) ergibt sich für diese didaktische Großveranstaltung eine gute inhaltliche Passung für die Arbeit mit ViviAn hinsichtlich des gewählten Diagnosegegenstands.

Die Vorlesung Fachdidaktische Grundlagen ist eine Einführungsveranstaltung in die Didaktik der Mathematik und wird daher in der Regel von Mathematiklehramtsstudierenden des ersten und zweiten Fachsemesters besucht. Die Inhalte der Veranstaltung beziehen sich auf querschnittliche Fragen zur Mathematikdidaktik (Roth 2020), wobei allgemeine Aspekte des Mathematikunterrichts sowie auch fachdidaktische und fachmethodische Grundprinzipien thematisiert werden. Weiter hatten Studierende aus der Veranstaltung Didaktik der Geometrie die Möglichkeit mit ViviAn zu arbeiten. Die Vorlesung Didaktik der Geometrie ist eine Veranstaltung für Mathematiklehramtsstudierende der Sekundarstufe I, in der Themen der Geometrie fachdidaktisch behandelt werden, wie beispielsweise Möglichkeiten zur Aufbereitung entsprechender Themen für den Geometrieunterricht. Da die Videovignetten zu spezifischen Themen des Geometrieunterrichts passen, wurde die Bearbeitung der Videovignetten zur Theorie-Praxis-Verknüpfung auch in dieser Veranstaltung etabliert.

Die Experimentalgruppe bestand aus 103 StudierendenFootnote 4, 83 Studierende aus der Veranstaltung Fachdidaktische Grundlagen und 20 Studierende aus der Veranstaltung Didaktik der Geometrie. Die 103 Studierenden setzten sich aus 76 Studierenden der Grund- und Förderschule sowie 27 Studierenden des Lehramts für Realschule plus und Gymnasium zusammen. Da der Nachtest identisch zum Vortest war, erschien es wichtig, mögliche Testeffekte zu kontrollieren. Dazu wurde im darauffolgenden Semester eine Kontrollgruppe erhoben. Da die Didaktik der Geometrie nur jedes zweite Semester gehalten wird, stammte die Kontrollgruppe ausschließlich aus der Veranstaltung Fachdidaktische Grundlagen. Sie bestand aus 81 Mathematiklehramtsstudierenden (73 Grund- und Förderschullehramt, acht Realschule plus bzw. Gymnasiallehramt).

4.2.2 Studiendesign

Die Interventionsstudie dauerte insgesamt zehn Wochen. Um einen Theorie-Praxis-Bezug zu gewährleisten, wurde der Beginn der Arbeit mit ViviAn thematisch passend auf die entsprechenden Veranstaltungen abgestimmt. Ein theoretischer Input im Rahmen einer Vorlesung sollte die Studierenden vorab für die Analyse der Videovignetten in ViviAn sensibilisieren. Der theoretische Input umfasste unter anderem fachdidaktische Aspekte bei der Bestimmung von Längen, Flächen- und Rauminhalten, in denen auch typische Schülerschwierigkeiten thematisiert wurden. Darüber hinaus wurde auch der Prozess des Diagnostizierens von Beretz et al. (2017) und von Aufschnaiter et al. (2018) (vgl. Abschn. 2.1.2) behandelt, der den Studierenden hinsichtlich der Anforderungen der Komponenten erläutert wurde. Am Ende der Vorlesung wurde den Studierenden die videobasierte Lernumgebung ViviAn vorgestellt, in der auf Grundlage einer Beispielsvignette die Funktionen von ViviAn sowie die Komponenten des Diagnoseprozesses erläutert wurden. Für die Studierenden, die an der Vorlesung nicht teilnehmen konnten und dennoch mit ViviAn arbeiten wollten, wurde ein Einführungsvideo erstellt und online zur Verfügung gestellt. Darüber hinaus wurde dort auch ein Dokument für die Studierenden hinterlegt, das die fachdidaktischen Aspekte für die Bestimmung von Längen, Flächen- und Rauminhalten beinhaltete und ein Vorlesungsvideo zum entsprechenden Teil der Vorlesung zur Verfügung gestellt. Nach dem theoretischen Input bearbeiteten die Studierenden einen Vortest, der aus zwei Testvignetten bestand (vgl. Abschn. 4.3). Um eine authentische Unterrichtssituation abzubilden, konnten die Videosequenzen der Testvignetten nur einmal angeschaut, nicht pausiert und nicht vor- oder zurückgespult werden. Da die beiden Testvignetten auch als Nachtest fungierten, erhielten die Studierenden nach der Bearbeitung keine Musterlösung. Anschließend bearbeiteten die Studierenden jede Woche eine von insgesamt fünf TrainingsvignettenFootnote 5. Um den Studierenden die Möglichkeit zu geben, ihre Antworten auf Basis eines Abgleichs mit der Musterlösung zu reflektieren, konnten die Videosequenzen der Trainingsvignetten im Gegensatz zu den Testvignetten mehrmals angeschaut, pausiert sowie vor- und zurückgespult werden. Nach der Bearbeitung von fünf Trainingsvignetten nahmen die Studierenden am Nachtest teil.

4.3 Testinstrument

Das Testinstrument, das im Vor- und Nachtest eingesetzt wurde, bestand aus zwei Videovignetten. Bei beiden Videovignetten wurde darauf geachtet, dass die Diagnosen möglichst eindeutig waren und möglichst wenige Störfaktoren die Qualität des Videos beeinflussen. Die Videosequenz der ersten Testvignette zeigt eine Gruppenarbeit von vier Schülerinnen und Schülern der sechsten Klassenstufe bei der Erarbeitung der Formel für den Oberflächeninhalt eines Quadermodells. Als Materialien standen den Schülerinnen und Schülern ein durchsichtiges Quadermodell, Einheitsquadrate, Lineal sowie ein Folienstift zur Verfügung, mit dem die Schülerinnen und Schüler gegebenenfalls auf dem Quadermodell zeichnen konnten. Die Schülerinnen und Schüler wenden in der Videosequenz verschiedene Strategien an, wodurch eine intensive Diskussion zwischen den Gruppenmitgliedern entsteht. Die Videosequenz der zweiten Testvignette zeigt vier Schülerinnen und Schüler der Klassenstufen 3 und 4 bei einem Flächeninhaltsvergleich von selbst konstruierten ebenen Figuren. Da Flächeninhalte der ebenen Figuren auf verschiedene Art und Weisen verglichen werden können (beispielsweise durch einen direkten Vergleich der ebenen Figuren oder durch das Messen der Flächeninhalte mit einer Maßeinheit, vgl. Abschn. 2.2) ist diese Videosequenz von verschiedenen Lösungsstrategien geprägt. Darüber hinaus thematisieren die Schülerinnen und Schüler auch das Umwandeln von Maßeinheiten.

Die Diagnoseaufträge für die Videovignetten wurden nach den Komponenten des in Abschn. 2.1.2 dargestellten Modells des Diagnoseprozesses erstellt. Da die Videosequenzen der Testvignetten nur einmal angeschaut, nicht pausiert und auch nicht vor- und zurückgespult werden konnten, wurde den Studierenden in ViviAn die Möglichkeit gegeben, die Diagnoseaufträge vorab durchzulesen. Dies sollte die Studierenden unterstützen, die Wahrnehmung auf relevante Aspekte der Videosequenz zu legen.

4.4 Testvalidierung

Das Testinstrument zur Erfassung der diagnostischen Fähigkeiten im Vor- und Nachtest wurde im ersten Schritt validiert. Dazu wurden die Antworten der Studierenden der Experimental- und Kontrollgruppe aus dem Nachtest auf Basis einer qualitativen Inhaltsanalyse kodiert und anschließend mithilfe eines Rasch-Partial-Credit-Modells auf interne Validität geprüft.

4.4.1 Qualitative Inhaltsanalyse

Um die offenen Antworten der Studierenden zu quantifizieren, wurde auf die strukturierende Inhaltsanalyse nach Skalenpunkten nach Mayring (2015) zurückgegriffen. Diese Form der Inhaltsanalyse ermöglicht es, die schriftlichen Antworten der teilnehmenden Studierenden systematisch, regel- sowie theoriegeleitet zu analysieren, sodass Rückschlüsse auf deren Antworten gezogen werden können (Mayring 2015). Auf Basis des Expertenratings wurde deduktiv ein Kategoriensystem erstellt, das zur Bewertung der Studierendenantworten herangezogen wurde (Enenkiel 2022). Das Kategoriensystem wurde anschließend auf die ersten 30 Studierendenantworten angewendet sowie mit Beschreibungen, Kodierregeln, Ankerbespielen und teilweise mit Gegenbeispielen ergänzt. Erlaubte das Kategoriensystem keine eindeutige Zuordnung, wurden Kategorien zusammengeführt oder induktiv ergänztFootnote 6 (Enenkiel 2022).

Ein Beispiel hierfür kann Tab. 1 entnommen werden. Das darin dargestellte Kategoriensystem enthält die Kategorien zur Kodierung der Studierendenantworten für den Diagnoseauftrag „Die Schüler in der gezeigten Videosequenz geben als Ergebnis den Flächeninhalt von nur einer Fläche an. Welche Ursachen könnten diesem Fehler zugrunde liegen?“ und kann der Komponente „Mögliche Ursachen ergründen“ zugeordnet werden. Der Diagnoseauftrag stammt aus Testvignette 1 und beinhaltet mögliche Ursachen dafür, dass die Lernenden in der Videosequenz als Ergebnis nur den Flächeninhalt einer Teilfläche des Quadermodells angeben und nicht, wie in der Aufgabenstellung gefordert, den Oberflächeninhalt des Quadermodells bestimmen. Eine Mehrfachkodierung war möglich, wenn Studierende mehrere Ursachen dafür nannten, dass die Schülerinnen und Schüler in der Videosequenz den Flächeninhalt von nur einer Teilfläche des Quadermodells bestimmen.

Tab. 1 Exemplarisches Kategoriensystem für den Diagnoseauftrag der Komponente „Mögliche Ursachen ergründen“

Mit dem Kategoriensystem wurden die offenen Antworten der Studierenden von zwei unabhängigen Raterinnen kodiert. Zur Überprüfung der Übereinstimmung wurde das Cohens Kappa berechnet. Die mittlere Interraterreliabilität von \(M_{\kappa }=0,72(SD_{\kappa }=0,19)\) weist auf eine insgesamt gute Übereinstimmung der Raterinnen hin (Kuckartz 2016). Anschließend wurde ein gemeinsames Konsensgespräch durchgeführt, in dem Passagen, die von den Raterinnen zunächst unterschiedlich kodiert wurden, auf Basis von Diskussionen und Vergleichen mit weiteren Studierendenantworten eindeutig einer Kodierung zugeordnet wurden. Die Daten der Konsenskodierung dienten als Basis für sich anschließende quantitative Analysen. Eine anschließende inhaltliche Analyse der Kategorien führte dazu, dass Kategorien entfernt oder zu Subkategorien zusammengefasst wurden, insofern dies inhaltlich sinnvoll erschien (Enenkiel 2022).Footnote 7 Diese überarbeiteten Kategorien, im Folgenden als „Items“ bezeichnet, wurden anschließend zunächst mithilfe der Item-Response-Theorie (IRT) auf ihre Passung überprüft.

4.4.2 Mehrdimensionales Rasch-Partial-Credit-Modell

Die Prüfung der Konstruktvalidität mittels IRT wird von vielen Autoren empfohlen (z. B. Blömeke et al. 2015; Wu et al. 2016). Diese hat bei der Auswertung von Testdaten gegenüber der Klassischen Testtheorie einige konzeptuelle und praktische Vorteile, die beispielsweise bei Hartig und Goldhammer (2010) kurz zusammengefasst sind. Die Faktoren- und Itemanalyse basierte auf den Daten des Nachtests, da hier im Vergleich zum Vortest weniger Items aufgrund von Bodeneffekten ausgeschlossen werden mussten. Im ersten Schritt wurde eine deskriptive Analyse der 68 Items durchgeführt, die aufgrund von Bodeneffekten \((M_{i}< 0,05)\) und geringen Varianzen \((\mathrm{Var}_{i}< 0,05)\) zum Ausschluss von elf Items führte. Da noch keine empirischen Evidenzen für die Dimensionalität der in Abschn. 2.1 beschriebenen diagnostischen Fähigkeiten vorliegen, wurden verschiedene Modelle gegeneinander getestet. Dabei wurden die Items per Einfachstrukturen (Between-Item-Mehrdimensionalität, Hartig und Höhler 2010) den jeweiligen Faktoren zugeordnet. Auf eine Modellierung mit einer komplexen Ladungsstruktur (Within-Item-Mehrdimensionalität, Hartig und Höhler 2010) wurde verzichtet, da keine theoretisch fundierten Vorannahmen über die Gewichtung möglicher Teilfähigkeiten und deren Interaktionen zugrunde lagen (vgl. Hartig und Höhler 2010). Anschließend wurden relative Modellvergleiche auf Basis der korrigierten Informationskriterien AICc (Akaike information criteria) und SABIC (Bayesian information criteria) durchgeführtFootnote 8 (Burnham und Anderson 2004; Sclove 1987). Die Modellvergleiche (vgl. Tab. 3 im Anhang) sowie die Korrelationen zwischen den Faktoren (vgl. Tab. 4 im Anhang) suggerieren die Extraktion eines dreidimensionalen Modells, das zwischen den Komponenten Beschreiben, Deuten und Ursachenfinden/Konsequenzen ableiten unterscheidet.

Im Anschluss wurden die Items hinsichtlich ihrer Schwierigkeiten, TrennschärfenFootnote 9, lokal stochastischen Abhängigkeiten sowie ihren Item-Fit-Werten analysiert. Items, die eine hohe lokale stochastische Abhängigkeit aufzeigten, wurden zu einem Partial-Credit-Item zusammengeführt, wenn dies auch inhaltlich sinnvoll erschien (Enenkiel 2022). Für die Überprüfung der geordneten Antwortwortkategorien der Partial-Credit-Items wurden die mittleren Fähigkeitswerte und die relativen Häufigkeiten der einzelnen Kategorien herangezogen (Adams et al. 2012; Wu et al. 2016). Die Itemanalyse führte aufgrund mangelhafter Item-Kennwerte und inhaltlichen Gründen zum Ausschluss von 13 Items. Für das Rasch-Partial-Credit-Modell ergab sich nach der Selektion eine mittlere Itemtrennschärfe (Bühner 2011) von \(M_{TS}=0,40(SD_{{r_{\left(pb\right)}}}=0,14)\) bei einer durchschnittlichen Itemschwierigkeit von \(M_{\sigma }=1,37(SD=0,88)\). Die Infit- und Outfit-Werte lagen im Mittel bei \(M_{\text{Infit}}=1,00\) \((SD_{\text{Infit}}=0,10)\) und \(M_{\text{Outfit}}=0,97(SD_{\text{Outfit}}=0,21)\), was auf eine gute Passung der theoretischen und empirisch ermittelten Werte hindeutet (Adams und Khoo 1996). Die mittlere Residualkorrelation von \(M_{Q3}=-0,019(SD_{Q3}=0,112)\) deutet insgesamt auf eine lokale stochastische Unabhängigkeit der Items hin (vgl. Christensen et al. 2017). Die ähnlich zu Cronbachs Alpha zu interpretierenden EAP-Reliabilitäten der drei Dimensionen sind vor dem Hintergrund der schwierigen Operationalisierung des Konstrukts im moderaten Bereich (Beschreiben: \(\mathrm{EAP}_{B}=0,80\), Deuten: \(\mathrm{EAP}_{D}=0,83\), Ursachenfinden/Konsequenzen ableiten: \(\mathrm{EAP}_{U/K}=0,68\), vgl. Bortz und Döring 2006). Die ansteigenden Trennschärfen und mittlere Fähigkeiten der Partial-Credit-Items deuten auf geordnete Antwortkategorien hin (Enenkiel 2022). Der Standardized-Root-Mean-Residual von \(SRMR=0,079\) weist auf einen guten Modellfit hin (vgl. Bühner 2011). Um die Ergebnisse der Validierung des Nachtests zu überprüfen, wurde das Partial-Credit-Modell anhand der Vortestdaten überprüft. Auch hier deuteten die Informationskriterien AICc und SABIC auf die Extraktion des dreidimensionalen Modells hin, dass zwischen den Komponenten Beschreiben, Deuten und Ursachenfinden/Konsequenzen ableiten unterscheidet. Die mittleren Infit- und Outfit-Werte der Items von \(M_{\text{Infit}}=1,00\) \((SD_{\text{Infit}}=0,11)\) und \(M_{\text{Outfit}}=0,92\) \((SD_{\text{Outfit}}=0,24)\) weisen auf eine Passung der theoretischen und empirischen Werte hin. Die durchschnittliche Itemtrennschärfe von \(M_{TS}=0,35\) \((SD_{TS}=0,13)\) im Vortest bei einer mittleren Itemschwierigkeit von \(M_{\sigma }=1,84(SD=0,90)\) liegt im moderaten Bereich. Die Residualkorrelation betrug im Vortest im Mittel \(M_{Q3}=-0,014(SD_{Q3}=0,112\)) und deutet auf eine lokal stochastische Unabhängigkeit hin. Der Modellfit von \(SRMR=0,085\) weist insgesamt auf eine gute Passung des Modells hin (Bühner 2011). Die EAP-Reliabilitäten (\(\mathrm{EAP}_{B}=0,637\) in der Dimension Beschreiben, \(\mathrm{EAP}_{D}=0,746\) in der Dimension Deuten und \(\mathrm{EAP}_{U/K}=0,504\) in der Dimension Ursachenfinden/Konsequenzen ableiten) sind geringer als die des Nachtests.

5 Ergebnisse

Für die Analyse der Lerneffekte bietet es sich an, basierend auf den Analysen der IRT, mit dem Summenscore zu rechnen, da es sich bei einem Partial-Credit-Modell um eine suffiziente Statistik handelt (Rost 2004). Das bedeutet, dass jeder Person lediglich ein Summenscore zugewiesen wird, der die Eigenschaftsausprägung der Person ausreichend gut beschreibt. Tab. 2 stellt die Mittelwerte und Standardabweichungen im Vor- und Nachtest der Experimentalgruppe (EG) und der Kontrollgruppe (KG) dar. Der maximal zu erreichende Summenscore beträgt für die Komponente Beschreiben 12 Punkte, für die Komponente Deuten 17 Punkte und für die Komponente Ursachenfinden/Konsequenzen ableiten 14 Punkte.

Tab. 2 Mittelwerte und Standardabweichungen der Studierenden im Vor- und Nachtest

Da die Erhebung der Kontrollgruppe in einem anderen Semester stattfand, die Veranstaltung Fachdidaktische Grundlagen sowie auch der theoretische Input von einem anderen Dozierenden gehalten wurde und die Experimental- und Kontrollgruppe folglich nicht randomisiert werden konnten, wurde auf eine gemeinsame Auswertung der beiden Gruppen, etwa in Form einer gemischten ANOVA, verzichtet. Zudem erfordern die nicht normalverteilten Daten der Kontrollgruppe eine separate Auswertung der Daten. Aus diesen Gründen wurde zur Überprüfung, ob die Arbeit mit der Lernumgebung ViviAn in der Experimentalgruppe zu einer Entwicklung in den diagnostischen Fähigkeiten beiträgt, ein verbundener T‑Test herangezogen. Die Normalverteilung der Differenzwerte des Vor- und Nachtests als Voraussetzung für den verbundenen T‑Tests wurde sowohl mit dem Shapiro-Wilk-Test als auch grafisch mit Q‑Q-Plots überprüft (Holling und Gediga 2015). Die Normalverteilung ist für die Differenzen in der Komponente Beschreiben mit \(W_{\Updelta B}=0,98\) und \(p=0,182\) sowie in der Komponente Deuten mit \(W_{\Updelta D}=0,99\) und \(p=0,425\) gegeben. Die Teststatistik des Shapiro-Wilk-Tests für die Komponente Ursachenfinden/Konsequenzen ableiten deutet jedoch mit \(W_{\Updelta U/K}=0,96\) und \(p=0,004\) auf eine Abweichung von einer Normalverteilung hin. Eine zusätzliche grafische Überprüfung durch einen Q‑Q-Plot suggeriert jedoch eine Normalverteilung in den Differenzwerten. Da der T‑Test bei einer Stichprobe von \(N> 30\) als robust gilt und der Q‑Q-Plot auf Normalverteilung hindeutet, kann die Abweichung bei \(N_{EG}=103\) als unproblematisch aufgefasst werden.

Die Ergebnisse des T‑Tests für verbundene Stichproben zeigen, dass die Experimentalgruppe ihre diagnostischen Fähigkeiten in allen drei Komponenten signifikant mit großen Effekten steigern konnte (vgl. Abb. 7): \(t_{B}\left(102\right)=-8,81\), \(p< 0,001\), \(d=0,87\); \(t_{D}(102)=-9,06\), \(p< 0,001\), \(d=0,892\); \(t_{U/K}\left(102\right)=-7,91\), \(p< 0,001\), \(d=0,72\).

Abb. 7
figure 7

Entwicklung der diagnostischen Fähigkeiten der Studierenden in der Experimentalgruppe und der Kontrollgruppe dargestellt durch den Summenscore in der jeweiligen Dimension

In der Kontrollgruppe war die Voraussetzung der Normalverteilung in den Komponenten Beschreiben und Ursachenfinden/Konsequenzen ableiten nicht gegeben. Sowohl der Shapiro-Wilk-Test mit \(W_{\Updelta B}=0,87\), \(p< 0,001\) und \(W_{\Updelta U/K}=0,96\), \(p=0,019\) als auch die Q‑Q-Plots lassen eine Abweichung von einer Normalverteilung vermuten. In der Komponente Deuten hingegen konnte mit \(W_{\Updelta D}=0,98\), \(p=0,137\) von einer Normalverteilung ausgegangen werden. Trotz einer Stichprobengröße von \(N_{KG}=81\) wurde, aufgrund der grafischen Analyse, die auf eine Verletzung der Normalverteilung hindeutet, in den Komponenten Beschreiben und Ursachenfinden/Konsequenzen ableiten, der nicht parametrische Wilcoxon-Test angewendet.

Obwohl sich die Studierenden vom Vor- zum Nachtest in der Dimension Beschreiben und Ursachenfinden/Konsequenzen ableiten etwas verschlechterten sowie in der Dimension Deuten verbesserten, zeigen die Ergebnisse, dass diese Unterschiede nicht signifikant sind: \(V_{B}=562,00,p=0,987\); \(t_{D}\left(80\right)=-1,23\), \(p=0,223\) und \(V_{U/K}=738,50\), \(p=0,184\). Dies lässt vermuten, dass die reine Bearbeitung des Vor- und Nachtests keinen Einfluss auf die diagnostischen Fähigkeiten der Studierenden hat.

6 Diskussion

In der vorliegenden Studie wurde untersucht, ob die videobasierte Lernumgebung ViviAn dazu beitragen kann, Studierende beim Diagnostizieren von Fähigkeiten und Schwierigkeiten hinsichtlich der Bestimmung von Längen, Flächen- und Rauminhalten zu unterstützen. Dafür wurden Videovignetten erstellt, die Schülerinnen und Schüler bei der Bearbeitung von Aufgaben zur Bestimmung von Flächen- und Rauminhalten zeigen. Entsprechende Diagnoseaufträge sollten die Studierenden durch die Analyse leiten und für den Diagnoseprozess sensibilisieren. Um die Wirksamkeit der Lernumgebung zu überprüfen, wurde eine Interventionsstudie mit einem Vor- und einem Nachtest durchgeführt. Studierende arbeiteten über mehrere Wochen hinweg mit der videobasierten Lernumgebung und analysierten mehrere Videovignetten. Um die Studierenden bei der Analyse zu unterstützen, erhielten sie nach den Videoanalysen Musterlösungen auf Basis eines Expertenratings. Eine Kontrollgruppe, die in der Interventionsphase nicht mit ViviAn arbeitete, sollte mögliche Testeffekte aufgrund der Übereinstimmung von Vor- und Nachtest kontrollieren. Das Testinstrument, das jeweils eingesetzt wurde, wurde mithilfe eines mehrdimensionalen Rasch-Partial-Credit-Modells auf Basis der Daten des Nachtests validiert. Die Dimensionsanalyse suggeriert die Extraktion eines dreidimensionalen Modells, das zwischen den Komponenten Beschreiben, Deuten und Ursachenfinden/Konsequenzen ableiten differenziert. Dass das Finden von Ursachen und das Ableiten möglicher Konsequenzen einen Faktor abbilden, lässt sich dadurch begründen, dass besonders die möglichen Ursachen wertvolle Anhaltspunkte für eine mögliche Förderung geben (vgl. von Aufschnaiter et al. 2018). Die Itemkennwerte deuten insgesamt auf eine gute Passung des Modells hin. Um das extrahierte Modell zusätzlich zu stützen, wurde dieses auch mithilfe der Daten des Vortests überprüft. Die EAP-Reliabilitäten fielen geringer aus als mit den Daten des Nachtests. Dies kann unter anderem darauf zurückgeführt werden, dass die Studierenden im Vortest insgesamt weniger Punkte erzielten, was sich wiederum negativ auf die Reliabilität des Testes auswirken kann. Nichtsdestotrotz weisen die statistischen Kennwerte auch beim Vortest auf die Passung des beschriebenen dreidimensionalen Modells hin. Die Ergebnisse der Lerneffektanalyse zeigen, dass sich die Mathematiklehramtsstudierenden, die mit der videobasierten Lernumgebung ViviAn gearbeitet haben, in allen Dimensionen signifikant mit einem großen Effekt verbessern. In der Kontrollgruppe konnte hingegen kein Lerneffekt verzeichnet werden.

Auffallend ist jedoch, dass die Studierenden – auch im zweiten Messzeitpunkt – über niedrige Summenscores in allen drei Teilfähigkeitsbereichen verfügen (vgl. Abb. 7). Die Studierenden erreichten im Durchschnitt weniger als die Hälfte der zu erreichenden Punkte. Für die vorliegende Studie können mehrere Begründungen herangezogen werden. Zum einen kann der niedrige Summenscore auf die offenen Diagnoseaufträge zurückgeführt werden. So erfordert die Formulierung von freien Antworten neben diagnostischen Fähigkeiten, sowohl eine gewisse Motivation, als auch die Fähigkeit, Antworten nachvollziehbar formulieren zu können. Dies stellen Fähigkeiten dar, die im Rahmen dieser Studie nicht kontrolliert werden konnten. Zum anderen ist der maximale Summenscore auch hoch, da dieser auf zusammengetragenen Antworten von Mathematikdidaktikerinnen und Mathematikdidaktikern basiert (vgl. Abb. 5). Diese wiederum verfügen teilweise über langjährige Erfahrung im zugrundeliegenden Bereich und hatten zudem – im Gegensatz zu den Probandinnen und Probanden der vorliegenden Studie – die Möglichkeit, sich die Videos mehrmals anzuschauen. Darüber hinaus wurde das Kategoriensystem, das sich durch das Expertenrating ergab, induktiv ergänzt. Dies erschien notwendig, da die Antworten der Studierenden teilweise nicht zu den deduktiv entwickelten Kategorien zugeordnet werden konnten, jedoch trotzdem sinnvolle Beantwortungen der Diagnoseaufträge waren. Unter Berücksichtigung aller potenziellen sinnvollen Antworten ergibt sich insgesamt ein hoher maximaler Summenscore in den drei Dimensionen, welcher isoliert betrachtet nur begrenzt aussagekräftig ist. Dies erscheint mit Blick auf das Ziel der vorliegenden Studie unproblematisch und vielmehr sinnvoll, da die Förderung der diagnostischen Fähigkeiten von Mathematiklehramtsstudierenden klar im Vordergrund steht. Durch die vielen Aspekte, die in den Testvignetten erkannt werden konnten, konnte der Zuwachs der diagnostischen Fähigkeiten abgebildet werden. Hätte eine möglichst genaue Bewertung der diagnostischen Fähigkeiten Studierenden im Vordergrund gestanden, hätte eine andere Vorgehensweise herangezogen werden müssen.

Die Diagnoseaufträge wurden in Diskussionsrunden von Expertinnen und Experten, die hinsichtlich diagnostischer Fähigkeiten forschen, analysiert, wodurch die Inhaltsvalidität gegeben sein sollte. Jedoch müsste in weiteren Studien die Konstruktvalidität des hier eingesetzten Testinstrumentes mittels Kriteriumsvalidität überprüft werden (Döring und Bortz 2016), indem beispielsweise das Fachwissen, das fachdidaktische Wissen oder weitere Prädiktoren als Kriterium in Regressionsanalysen miteinbezogen werden, um mögliche Zusammenhänge darzustellen. So wird angenommen, dass das fachliche und fachdidaktische Wissen zur Vorhersage diagnostischer Fähigkeiten beitragen kann (vgl. Blömeke et al. 2014). Da angenommen wird, dass die diagnostische Fähigkeit von der diagnostischen Situation abhängt, müssten die Kriteriumsvariablen auf die diagnostische Situation abgestimmt werden.

Ein weiterer zu diskutierender Aspekt betrifft die Formulierung des ersten Diagnoseauftrags jeder Videovignette, welcher eine Beschreibung der dargestellten Situation aus mathematikdidaktischer Perspektive fordert. Einige Antworten aus dem Vortest (z. B.: „S4 spielt mit der Schere“) legen offen, dass die Studierenden Aspekte beschreiben, die keinen fachdidaktischen Bezug aufweisen und somit keine diagnoserelevanten Beobachtungen darstellen. Im Nachtest bildeten solche Antworten hingegen nur noch die Ausnahme. Dies kann darauf zurückgeführt werden, dass bei den Musterlösungen der Trainingsvignetten darauf geachtet wurde, ausschließlich mathematikdidaktisch relevante Aspekte aufzunehmen. Es ist an dieser Stelle zu überlegen, ob der Diagnoseauftrag noch stärker fokussiert werden sollte, indem der Diagnosegegenstand explizit benannt wird. Dies hätte den Vorteil, dass den Studierenden von Anfang an der Fokus transparent wäre. Gegen eine solche Fokussierung spricht, dass der Blick der Studierenden dann bereits stark eingeschränkt wäre und sie den Schritt der Fokussierung auf diagnoserelevante Aspekte nicht selbstständig gehen könnten.

Hinsichtlich des Einbezugs der anschließenden didaktischen Interventionen in das Konstrukt der diagnostischen Fähigkeiten besteht bisher große Uneinigkeit. Es liegt nahe, dass in Situationen im Unterrichtsalltag, die tendenziell nicht planbar sind, wie etwa Interaktionen zwischen Lernenden und Lehrkraft, die diagnostische Performanz lediglich über das beobachtbare Verhalten erfahrbar gemacht werden kann. Um eine realistische Unterrichtssituation abzubilden, beinhalteten die Arbeitsaufträge in den Videoanalysen auch die Nennung möglicher Fördermaßnahmen. Wir nehmen jedoch an, dass die anschließenden Interventionen von vielerlei, insbesondere nicht kognitiven, Dispositionen der Urteilenden abhängen, sodass eine Aussage über deren Angemessenheit nur schwer möglich erscheint. Zudem erscheint eine solche Aussage schwierig, da mögliche Interventionen nicht isoliert von den vorangegangenen Diagnosen betrachtet werden können und sie somit auch eine Aussage über die Passung von Diagnose und Intervention beinhalten müsste. Aufgrund der genannten Aspekte wurden die von den Studierenden beschriebenen pädagogischen Handlungen im Rahmen der Studie nicht ausgewertet.Footnote 10

Die Ergebnisse der Studie müssen vor dem Hintergrund der Zusammensetzung der beiden Gruppen betrachtet werden. Die Experimentalgruppe setzte sich neben der überwiegenden Anzahl der Studierenden aus der Vorlesung Fachdidaktische Grundlagen auch aus Studierenden der Vorlesung Didaktik der Geometrie zusammen. Die Studierenden der Kontrollgruppe stammten aus organisatorischen Gründen hingegen ausschließlich aus der Vorlesung Fachdidaktische Grundlagen. Dieser unterschiedlichen Zusammensetzung wurde mit einer separaten statistischen Auswertung der beiden Gruppen mittels eines verbundenen T‑Tests Rechnung getragen. Der Einfluss der Subgruppe der Teilnehmenden aus der Vorlesung Didaktik der Geometrie lässt sich jedoch aufgrund ihrer geringen Größe von 20 Studierenden nicht eruieren.

Die Ergebnisse zum Lernzuwachs stimmen mit den Ergebnissen bisheriger Studien überein, die zeigen konnten, dass Videoanalysen die Wahrnehmung und Interpretation relevanter Unterrichtsaspekte von Studierenden positiv beeinflussen können (Krammer et al. 2016; Sunder et al. 2016). Aus den Ergebnissen lässt sich somit ableiten, dass die Arbeit mit ViviAn einen positiven Einfluss auf die Fähigkeiten der Studierenden hat. Worauf der große Lerneffekt zurückzuführen ist, kann aus den Ergebnissen nicht entnommen werden. So stellt sich die Frage, ob die Unterstützungsmaßnahmen in Form der Musterlösungen den Lerneffekt erklären können. Bei der Erstellung der Musterlösungen wurde bewusst auf einfache Formulierungen, prägnante Sätze und eine strukturierte Darstellung geachtet, weshalb es durchaus plausibel erscheint, dass die Musterlösungen für die Erklärung des Lerneffekts maßgeblich sein könnten. Dennoch hätte für eine statistische Absicherung dieser Annahme eine weitere Kontrollgruppe herangezogen werden müssen, deren Probanden im Anschluss an die Bearbeitung der Videovignetten keine Musterlösungen erhalten hätten. Da ViviAn auch in der Modulabschlussprüfung der Veranstaltung „Fachdidaktische Grundlagen“ integriert ist, die am Campus Landau als E‑Klausur stattfindet, schien dies aus ethischen Gründen jedoch nicht vertretbar.Footnote 11

Inwiefern die Arbeit mit der videobasierten Lernumgebung dazu beitragen kann, Studierende auf die Anforderungen im Unterrichtsalltag im Schuldienst vorzubereiten, konnte bisher noch nicht geklärt werden. Um eine solche Aussage zu treffen, könnte etwa im Rahmen einer experimentellen Studie die Performanz der Studierenden in realen, aber vergleichbaren Unterrichtssituationen erfasst werden. Dazu müssten die Studierenden dieselben Schülerinnen und Schüler zum selben Entwicklungsstand unterrichten, was jedoch in der Realität nicht umsetzbar ist.

Die videobasierte Lernumgebung ViviAn wird am Campus Landau bisher im Rahmen von Großveranstaltungen eingesetzt, in denen die Studierenden online, parallel zur Veranstaltung, Videovignetten bearbeiten. Aufgrund der großen Studierendenzahl ist es bisher nicht möglich, den Studierenden persönliche Rückmeldungen zu ihren Videoanalysen zu geben. Die Studierenden erhalten zwar ausführliche Musterlösungen, jedoch sind diese, aufgrund organisatorischer und technischer Gegebenheiten, nicht individuell auf die jeweiligen Antworten angepasst. Dies wirft die Frage auf, ob die curriculare Struktur des Lehramtsstudiums, wie es momentan angeboten wird, nicht grundlegend verändert werden sollte. So können beispielsweise fach- und themenspezifische Seminare die Möglichkeit bieten, gemeinsam Videos zu analysieren und über adäquate Diagnosen zu diskutieren.

Ziel der vorliegenden Studie war es, die diagnostischen Fähigkeiten von Mathematiklehramtsstudierenden zu entwickeln bzw. zu fördern. Wie oben bereits diskutiert, konnte ein Lernzuwachs auf Basis der vorliegenden Daten nachgewiesen werden. Einschränkend muss an dieser Stelle erwähnt werden, dass keine Aussage über die Nachhaltigkeit der Arbeit mit ViviAn getätigt werden kann, da kein Follow-Up-Test durchgeführt wurde. Da die Arbeit mit ViviAn mit den Inhalten der entsprechenden Veranstaltungen verknüpft ist, kann jedoch angenommen werden, dass die Videoanalysen eine enge Theorie-Praxis-Verknüpfung ermöglichen.