1 Einleitung

Die Schwierigkeit von Mathematikaufgaben wird für Lernende neben spezifischen fachlichen Aufgabenmerkmalen (z. B. bei der Addition von Brüchen: gleichnamige vs. ungleichnamige Brüche; Padberg und Wartha 2017) unter anderem auch von instruktionalen Merkmalen des Aufgabendesigns beeinflusst (z. B. gemäß der Cognitive Load Theorie: split-attention vs. integriertes Aufgabendesign; Sweller et al. 2011). Solche Aufgabenmerkmale sollten von Lehrkräften beim Diagnostizieren von Aufgabenschwierigkeiten identifiziert und hinsichtlich der Schwierigkeit für Schülerinnen und Schüler adäquat evaluiert werden können. Der aktuelle Forschungsstand zu Informationsverarbeitungsprozessen beim Diagnostizieren (wie etwa dem Identifizieren und Evaluieren schwierigkeitsgenerierender Aufgabenmerkmale; Loibl et al. 2020) wird jedoch als unbefriedigend angesehen (z. B. Herppich et al. 2018; Leuders et al. 2018). Studien zeigen, dass das Wissen von Lehrkräften über schwierigkeitsgenerierende Aufgabenmerkmale eine bedeutende Rolle für die Genauigkeit diagnostischer Urteile spielt (z. B. McElvany et al. 2009; Ostermann et al. 2017). Da die meisten dieser Studien auf das Ergebnis der diagnostischen Beurteilung fokussieren, bleibt jedoch unklar, wie die Lehrkräfte zu ihrem Ergebnis gelangen und welche Rolle das Wissen für den Urteilsprozess spielt (Loibl et al. 2020).

Der vorliegende Beitrag zielt darauf ab, den Einfluss von spezifischem Wissen über schwierigkeitsgenerierende Aufgabenmerkmale auf die angenommenen Informationsverarbeitungsprozesse beim Diagnostizieren von Aufgabenschwierigkeiten auf Basis des Modells von Loibl et al. (2020; s. Abb. 1) experimentell zu prüfen. Als Diagnosegegenstände werden Mathematikaufgaben aus zwei Inhaltsbereichen gewählt: der Bruchrechnung und der Winkelberechnung. Beide Inhaltsbereiche erlauben eine systematische Variation von schwierigkeitsgenerierenden fachlichen und instruktionalen Aufgabenmerkmalen (vgl. 4.2.1). Darüber hinaus kann auf einer fundierten empirischen Basis zu typischen Schwierigkeiten von Lernenden aufgebaut werden (vgl. 2.1). Um Indikatoren für interne Informationsverarbeitungsprozesse zu erhalten, werden die Blickbewegungen beim Diagnostizieren mittels Eye-Tracking aufgezeichnet (vgl. 2.4.1). Weiterhin werden Eye-Tracking Stimulated Recall Interviews (ET SRI, vgl. 2.4.2) durchgeführt – ein methodischer Ansatz, der sich als sehr effektiv erwiesen hat, um eine tiefere Reflexionsebene anzuregen und Einblicke in kognitive Prozesse zu ermöglichen, die nicht direkt beobachtet werden können (vgl. 2.4.2).

Abb. 1
figure 1

Einordnung der studienbezogenen theoretischen Annahmen in das DiaCoM-Rahmenmodell nach Loibl et al. (2020)

2 Theoretischer Hintergrund

Der überwiegende Teil der Forschung zu diagnostischen Urteilen von Lehrkräften konzentrierte sich auf die Genauigkeit der Urteile sowie potenziellen Einflussfaktoren auf die Urteilsgenauigkeit (vgl. Südkamp et al. 2012). In jüngster Zeit hat sich ein neues Interessengebiet herausgebildet, das die kognitiven Prozesse beim Diagnostizieren fokussiert. An dieser Stelle setzt das Rahmenmodell DiaCoM (Explaining Teachers’ Diagnostic Judgements by Cognitive Modeling; Loibl et al. 2020) an. Im Unterschied zu anderen Modellen, die ebenfalls die Untersuchung diagnostischer Urteile adressieren (z. B. NeDiKo-Modell, Herppich et al. 2018; Cosima-Modell, Heitzmann et al. 2019), werden im DiaCoM-Modell die Aktivitäten von Lehrkräften, die über die unmittelbar zuvor präsentierte diagnostische Situation hinausgehen (z. B. Einholen weiterer Informationen, Treffen von pädagogischen Entscheidungen zur Unterrichtsgestaltung) nicht einbezogen. Stattdessen wird der Fokus explizit auf die kognitiven Prozesse der Informationsverarbeitung bei der Entstehung diagnostischer Urteile gelegt (Loibl et al. 2020). Das Rahmenmodell (vgl. Abb. 1) besteht aus vier Komponenten: Situationscharakteristika (d. h. Merkmale der Diagnosesituation, vgl. 2.1), Personencharakteristika (d. h. Merkmale der Lehrkraft, vgl. 2.2), Diagnoseverhalten (d. h. beobachtbare Prozess- und Ergebnisindikatoren für diagnostisches Verhalten, vgl. 2.3 und 2.4), und dem diagnostischen Denken als farblich hervorgehobenes Kernstück des Modells (d. h. interne Informationsverarbeitungsprozesse, vgl. 2.4). Diese vier Komponenten werden im Folgenden für die vorliegende Studie spezifiziert und bilden ihren theoretischen Rahmen.

2.1 Situationscharakteristika

Situationscharakteristika umfassen die Hinweisreize und Kontextinformationen der Diagnosesituation (Loibl et al. 2020). In der vorliegenden Studie werden zwischen den zu beurteilenden Aufgaben schwierigkeitsgenerierende Aufgabenmerkmale – fachliche (vgl. 2.1.1) und instruktionale (vgl. 2.1.2) – systematisch variiert. Diese können von einer Lehrkraft beim Diagnostizieren als Hinweisreize (Loibl et al. 2020) identifiziert und auf ihre Schwierigkeit hin evaluiert werden. Die Nutzung dieser Hinweisreize könnte von gegebenen Kontextinformationen (der Rahmung, Loibl et al. 2020) beeinflusst sein. In dieser Studie soll die Schwierigkeit von Mathematikaufgaben aus den Inhaltsbereichen der Bruchrechnung und Winkelberechnung für Schülerinnen und Schüler am Beginn des Lernprozesses eingeschätzt werden. Werden neue Inhalte unterrichtet, ist es wichtig, dass Lehrkräfte neben fachlichen auch instruktionale Aufgabenschwierigkeiten im Blick haben, was im Abschn. 2.1.2 detaillierter erläutert wird.

2.1.1 Spezifische fachliche Aufgabenmerkmale mit Einfluss auf die Aufgabenschwierigkeit

Spezifische fachliche Aufgabenmerkmale, die jeweils abhängig vom mathematischen Inhaltsbereich der Aufgabe sind, können unter anderem beeinflussen, wie groß und technisch kompliziert der Rechenaufwand bei der Bearbeitung einer Aufgabe ist (vgl. Leuders und Prediger 2016). Sowohl die Bruchrechnung als auch die Winkelberechnung stellen zentrale und für Schülerinnen und Schüler häufig herausfordernde Inhaltsbereiche der Sekundarstufe I dar.

Im Zentrum zahlreicher Studien zur Addition von Brüchen (vgl. Eichelmann et al. 2012; Padberg und Wartha 2017) stehen typische Fehler von Lernenden und die Untersuchung ihrer Ursachen. Empirische Lösungsraten aus der Studie von Padberg (1986) weisen auf eine Abfolge im Schwierigkeitsgrad für die Addition von Brüchen hin: Während der größte Teil der teilnehmenden Schülerinnen und Schüler Aufgaben zur Addition gleichnamiger Brüche korrekt bearbeitet (85 %), sinken die Lösungsraten bei der Addition ungleichnamiger Brüche (70 %) und der Addition einer natürlichen Zahl und eines Bruchs (55 %). Aktuellere nationale (z. B. Wartha 2007) und internationale Studien (z. B. Brown und Quinn 2006) berichten vergleichbare oder noch niedrigere Lösungsraten. Ein typischer Fehler stellt die getrennte Addition der Zähler und Nenner \(\left(\frac{a}{b}+\frac{c}{d}=\frac{a+c}{b+d}\right)\) dar, was bei der Addition ungleichnamiger Brüche öfter auftritt als bei der Addition gleichnamiger Brüche (Brown und Quinn 2006; Herden und Pallack 2000). Die Eye-Tracking Studie von Obersteiner und Staudinger (2018) zeigt, dass eine Ursache für diesen typischen Fehler darin besteht, dass Zähler und Nenner als zwei voneinander unabhängige natürliche Zahlen gesehen und entsprechend getrennt addiert werden. Die Beispielaufgabe in Abb. 2a verlangt die Addition einer natürlichen Zahl mit ungleichnamigen Brüchen, wodurch häufig Schwierigkeiten entstehen. Fehler passieren oftmals, indem die natürliche Zahl zum Zähler addiert wird \(\left(n+\frac{a}{b}=\frac{n+a}{b}\right)\) (z. B. Lörcher 1982), oder indem durch die Umwandlung der natürlichen Zahl in einen Bruch ein umständlicher und fehleranfälliger Rechenweg gewählt wird (Eichelmann et al. 2012). Neben der Kombination von natürlichen Zahlen und Brüchen stellt auch die Darstellung der Brüche als gemischte Zahlen ein schwierigkeitsgenerierendes Merkmal dar (Padberg und Wartha 2017). Untersuchungen zeigen, dass fehlerhafte Lösungen häufig darauf zurückzuführen sind, dass die ganzen Zahlen zu den Zählern und die Nenner separat addiert werden \(\left(a\frac{b}{c}+d\frac{e}{f}=\frac{\mathrm{a}+\mathrm{b}+\mathrm{d}+\mathrm{e}}{\mathrm{c}+\mathrm{f}}\right)\) (z. B. Nwana und Coxhead 1989).

Abb. 2
figure 2

Beispiele für Mathematikaufgaben der Inhaltsbereiche a Brüche und b Winkel mit spezifischen schwierigkeitsgenerierenden fachlichen (vgl. 2.1.1) und instruktionalen Aufgabenmerkmalen (vgl. 2.1.2)

Beim Umgang mit Winkeln können Schwierigkeiten dadurch entstehen, dass Vorstellungen zu Winkelgrößen fehlen und Defizite im Faktenwissen über Winkeleigenschaften (z. B. Scheitelwinkel, Nebenwinkel) vorhanden sind (z. B. Dohrmann und Kuzle 2015; Heinze 2004). Die Untersuchung von Reiss (2002) mit knapp 700 Schülerinnen und Schülern der Klassenstufe 8 zeigt, dass fehlerhafte Lösungen beim Umgang mit Winkeln häufig jedoch nicht nur auf mangelndes Faktenwissen zurückzuführen sind, sondern vielmehr auf Schwierigkeiten, dieses Wissen beim Lösen von komplexen Aufgaben anzuwenden. Faktoren, die Schwierigkeiten bei der Anwendung im rechnerischen Kontext verursachen, könnten durch die Winkelwerte (einfache Werte mit Zehnerzahlen vs. schwierigere Werte mit Einer- oder Kommazahlen; Padberg und Benz 2011; Rathgeb-Schnierer und Green 2017), sowie die Anzahl der Rechen- bzw. Argumentationsschritte, die für die Lösung der Aufgabe erforderlich sind, beeinflusst sein (vgl. Blum und Neubrand 1998; Reiss 2002). Bei den Winkelwerten der Beispielaufgabe in Abb. 2b handelt es sich ausschließlich um Zehnerzahlen, was Lernenden die Anwendung von Wissen über Winkeleigenschaften im rechnerischen Kontext erleichtert. Schwierigkeiten könnten hingegen insbesondere für Schülerinnen und Schüler am Beginn des Lernprozesses dadurch entstehen, dass die Anwendung von Wissen über drei verschiedene Winkelgesetze (Scheitel- und Nebenwinkel sowie die Summe der Innenwinkel im Dreieck) erforderlich ist und somit mindestens drei Argumentationsschritte nötig sind, um die Aufgabe vollständig zu lösen.

2.1.2 Spezifische instruktionale Aufgabenmerkmale mit Einfluss auf die Aufgabenschwierigkeit

Die Cognitive Load Theorie (CLT, z. B. Sweller et al. 2011) unterscheidet zwischen zwei Arten von kognitiver Belastung: intrinsic cognitive load (ICL) und extraneous cognitive load (ECL). Germane Cognitive Load wird nach neueren Forschungsergebnissen nicht mehr als eine zusätzliche Art der kognitiven Belastung verstanden (Sweller et al. 2011). Aufgrund der begrenzten Kapazität des Arbeitsgedächtnisses, kann ein hoher ICL und/oder ein hoher ECL eine Überlastung verursachen und ein erfolgreiches Lernen verhindern (z. B. Ayres 2006). Anders als ICL, was sich auf die inhärente Komplexität des Lernmaterials (z. B. gleichnamige vs. ungleichnamige Brüche) bezieht, kann ECL durch eine gezielte Modifikation im Instruktionsdesign reduziert werden (z. B. Klepsch et al. 2017). Dies ist besonders relevant, wenn Lernende neue Inhalte lernen, was stets mit einer hohen kognitiven Auslastung verbunden ist (Sweller et al. 2011). Im Folgenden werden zwei CLT-basierte Gestaltungsempfehlungen beschrieben, die sich als sehr effektiv erwiesen haben, um ECL zu reduzieren (z. B. Plass et al. 2010).

Der Split-Attention-Effekt (Sweller et al. 2011) beschreibt eine lernbeeinträchtigende Bedingung, die zustande kommt, wenn Lernende ihre Aufmerksamkeit zwischen mindestens zwei aufeinander bezogenen Informationsquellen teilen müssen, die räumlich getrennt präsentiert werden. In der Beispielaufgabe in Abb. 2a sind verschiedene Informationsquellen (Abbildung der Wanderroute, Zeitangaben) getrennt dargeboten. Beim Lösen der Aufgabe müssen Lernende mit ihrer Aufmerksamkeit zwischen den Informationsquellen hin- und herspringen und die Informationen mental integrieren. Es wird daher ein integriertes Aufgabendesign empfohlen, bei dem relevante Informationen nah beieinander präsentiert werden (z. B. Kester et al. 2005; Mayer und Moreno 2003). Der Redundanzeffekt (Sweller et al. 2011) tritt auf, wenn zusätzliche und für die Lösung irrelevante Informationen enthalten sind (Redundanz 1, vgl. Abb. 2a, Strecke Waldspielplatz – Jugendherberge) oder dieselbe Information durch verschiedene Informationsquellen präsentiert wird (Redundanz 2). In der Beispielaufgabe in Abb. 2b entstehen unnötige Verarbeitungsprozesse, da dieselben Informationen (gegebene und gesuchte Winkel, Hinweis) durch zwei unterschiedliche Informationsquellen (Text und Abbildung) präsentiert werden. Studien zeigen, dass die Eliminierung redundanter Informationen eine effektive Maßnahme ist, um den ECL zu reduzieren (z. B. Mayer und Moreno 2003).

Beide Gestaltungsempfehlungen sind besonders wirksam bei Lernenden mit keinem oder geringem Vorwissen (Kalyuga et al. 2003). Bei Lehrkräften oder erfahreneren Lernenden kann sich der positive Effekt der Gestaltungsempfehlungen verringern oder gar umkehren, was als Expertise-Umkehr-Effekt bezeichnet wird (Kalyuga et al. 2003). Bei der Schwierigkeitseinschätzung von instruktionalen Aufgabenmerkmalen können Lehrkräfte folglich nicht auf die wahrgenommene eigene Schwierigkeit zurückgreifen und müssen spezifisches Wissen darüber nutzen, was Lernenden typischerweise leicht oder schwer fällt (vgl. 2.2).

2.2 Personencharakteristika

Personencharakteristika (Loibl et al. 2020) umfassen die Merkmale einer Lehrkraft, die einen Einfluss auf diagnostische Urteile haben können. Zahlreiche Forschungsarbeiten heben die Relevanz bestimmter Wissensfacetten für diagnostische Tätigkeiten von Lehrkräften hervor (z. B. Krauss et al. 2020; Kunter et al. 2011). Bei der Beurteilung von Aufgabenschwierigkeiten konnte spezifisches Wissen über Aufgabenmerkmale, die bei Schülerinnen und Schülern typischerweise Schwierigkeiten generieren, als ein relevanter Einflussfaktor auf die Urteilsgenauigkeit herausgestellt werden (z. B. McElvany et al. 2009; Ostermann et al. 2017; Rieu et al. 2020). In der Interventionsstudie von Ostermann et al. (2017) wurden N = 107 Lehramtsstudierenden drei Bedingungen zugewiesen: Die erste Bedingung (Wissensbedingung) bekam Wissen über schwierigkeitsgenerierende fachliche Aufgabenmerkmale im Bereich des funktionalen Denkens vermittelt; die zweite Bedingung (Sensibilisierungsbedingung) wurde lediglich über die allgemeine Tendenz von Lehrkräften zur Unterschätzung von Aufgabenschwierigkeiten informiert und die dritte Bedingung (Kontrollbedingung) erhielt kein Treatment. Die Urteilsgenauigkeit wurde definiert als Korrelation zwischen der Einschätzung der Lehrkraft mit der tatsächlichen empirischen Lösungshäufigkeit (Niveaukomponente; Helmke und Schrader 1987) und der tatsächlichen empirischen Rangfolge (Rangordnungskomponente; Helmke und Schrader 1987). Die Ergebnisse zeigten, dass sich die Urteilsgenauigkeit in der Wissensbedingung sowohl hinsichtlich der Niveau- als auch hinsichtlich der Rangordnungskomponente verbesserte, während sich die Sensibilisierungsbedingung nur hinsichtlich der Niveaukomponente verbesserte.

Über den Einfluss von Wissen auf Informationsverarbeitungsprozesse, die dem diagnostischen Urteil zugrunde liegen, ist bislang wenig bekannt (Loibl et al. 2020; Philipp 2018). In der Studie von Rieu et al. (2020) zeigte sich, dass die Vermittlung von spezifischem Wissen dazu führt, dass beim Schwierigkeitsvergleich von jeweils zwei einander gegenüberstellten Aufgaben mehr schwierigkeitsgenerierende Aufgabenmerkmale identifiziert werden und hinsichtlich ihrer Relevanz für die Aufgabenschwierigkeit akkurater evaluiert werden. In einer Eye-Tracking Studie (Schreiter et al. im Druck) konnte zudem gezeigt werden, dass angehende Lehrkräfte, die über diagnoserelevante Merkmalskategorien informiert werden (hier: spezifische Kategorien schwierigkeitsgenerierender Aufgabenmerkmale), ihre visuelle Aufmerksamkeit vermehrt auf diese Merkmale richten und dabei mehr schwierigkeitsgenerierende Aufgabenmerkmale identifizieren. Evaluationsprozesse blieben hiervon jedoch unbeeinflusst. Ähnliche Befunde zeigten sich in der Studie von Prediger und Zindel (2017), die herausstellen konnten, dass mittels eines Prompts, in dem explizit nach bestimmten Merkmalskategorien gefragt wird, angehende Lehrkräfte dazu befähigt werden, ihre Aufmerksamkeit auf diese Merkmale zu richten, sodass die entsprechenden Merkmale häufiger – teilweise adäquat und teilweise inadäquat – im diagnostischen Urteil adressiert werden. Es wird vermutet, dass insbesondere spezifisches Wissen über schwierigkeitsgenerierende Aufgabenmerkmale notwendig ist, um identifizierte Aufgabenmerkmale adäquat hinsichtlich ihrer Schwierigkeit für Schülerinnen und Schüler zu evaluieren (Schreiter et al. im Druck).

2.3 Diagnoseverhalten

Die Komponente des diagnostischen Verhaltens (Loibl et al. 2020) bezieht sich auf alle Arten von beobachtbarem Verhalten von Lehrkräften. Das Diagnoseverhalten kann sowohl hinsichtlich des Diagnoseprozesses als auch hinsichtlich des Diagnoseergebnisses beobachtet werden. Bei der Schwierigkeitseinschätzung von Mathematikaufgaben bestand das Forschungsinteresse zahlreicher Studien in der Untersuchung der Genauigkeit des Diagnoseergebnisses, indem über Korrelationen der Grad der Übereinstimmung zwischen den von den Lehrkräften geschätzten Lösungsraten mit den tatsächlichen empirischen Ergebnissen der Schülerinnen und Schüler ermittelt wurde (z. B. Anders et al. 2010; Ostermann et al. 2017). Die Ergebnisse dieser Studien zeigen zwei übergreifende Trends: Erstens unterscheiden sich die Einschätzungen der Lehrkräfte erheblich in der Genauigkeit, und zweitens neigen die Lehrkräfte dazu, Aufgabenschwierigkeiten zu unterschätzen. In der Studie von Hellmann und Nückles (2013) schätzten Lehrkräfte die Lösungsraten für Aufgaben ein, die im Instruktionsdesign nach spezifischen CLT-Gestaltungsempfehlungen (vgl. 2.1.2) variiert wurden. Beim Vergleich der Einschätzungen der Lehrkräfte mit den empirischen Lösungsraten zeigte sich, dass die Lehrkräfte die durch das Aufgabendesign bedingte Schwierigkeit nicht ausreichend berücksichtigten (Hellmann und Nückles 2013). In den meisten Studien, die sich auf das Ergebnis der diagnostischen Beurteilungen konzentrieren, bleibt jedoch unklar, wie die Lehrkräfte zu ihrem Ergebnis gelangen und von welchen Faktoren der zugrunde liegende Urteilsprozess beeinflusst wird.

2.4 Diagnostisches Denken als Prozess der Informationsverarbeitung

In Anlehnung an Loibl et al. (2020) wird in dieser Studie das diagnostische Denken als ein Prozess der Informationsverarbeitung modelliert (vgl. Abb. 1): Aufgabenmerkmale, die einen Einfluss auf die Schwierigkeit haben, können beim Diagnostizieren wahrgenommen und verarbeitet oder auch nicht wahrgenommen werden. Nur wenn den Merkmalen ausreichend Aufmerksamkeit gewidmet wird, können sie als Hinweisreize identifiziert werden (Bless und Greifender 2017). Bereits identifizierte Aufgabenmerkmale können hinsichtlich der Schwierigkeit für Schülerinnen und Schüler als leicht oder schwer evaluiert werden.

2.4.1 Eye-Tracking zur Untersuchung von Informationsverarbeitungsprozessen beim Diagnostizieren

In der Mathematikdidaktik hat sich die Eye-Tracking Technologie als effektives Werkzeug erwiesen, um Informationsverarbeitungsprozesse zu untersuchen (vgl. Strohmaier et al. 2020). Die Analyse von Eye-Tracking Daten wird meist auf Basis der Eye-Mind-Hypothese (Just und Carpenter 1976) durchgeführt. Diese postuliert, dass das Sehen und die kognitive Verarbeitung des Gesehenen eng miteinander verknüpft sind. Vor diesem Hintergrund stellen bestimmte Eye-Tracking Maße Indikatoren für die visuelle Aufmerksamkeit dar, aus denen Hinweise für die kognitive Verarbeitung von Informationen abgeleitet werden können. Die Anzahl der Fixationen und die durchschnittliche Fixationsdauer (Holmqvist und Andersson 2017) innerhalb eines bestimmten Bereiches (Area of Interest, AOI) geben an, wie häufig und mit welcher durchschnittlichen Dauer das Auge relativ stabil innerhalb dieses Bereiches ruht, zum Beispiel um Informationen aufzunehmen und zu verarbeiten. Die Anzahl an Transitionen zwischen zwei AOIs gibt an, wie oft zwischen diesen Bereichen hin- und hergeschaut wurde, etwa um die Informationen zweier Informationsquellen zu integrieren (Stolk und Brok 1999).

Zahlreiche Studien im Bereich der Expertiseforschung konnten Unterschiede in der visuellen Aufmerksamkeit zwischen Experten und Novizen (z. B. berufserfahrene vs. berufsunerfahrene Lehrkräfte) feststellen (vgl. Gegenfurtner et al. 2011; Grub et al. 2020). Einerseits zeigten Studien, dass Experten im Vergleich zu Novizen häufig eine geringere Anzahl an Fixationen in einer Aufgabe aus ihrem Expertisebereich aufweisen (z. B. Krupinski et al. 2006; Reingold und Charness 2005). Andererseits wurden vielfach auch größere Anzahlen an Fixationen bei Experten festgestellt, allerdings mit geringeren durchschnittlichen Fixationsdauern (Huang 2021; van den Bogert et al. 2014). Die dargestellten Unterschiede in den Ergebnismustern von Eye-Tracking Studien können von verschiedenen Faktoren beeinflusst sein (z. B. Charakteristika der Aufgabe, Expertisebereich; vgl. Gegenfurtner et al. 2011), müssen jedoch hinsichtlich ihrer Interpretation nicht widersprüchlich sein (Holmqvist und Andersson 2017). Experten scheinen einerseits besser in der Lage zu sein, ihre Aufmerksamkeit selektiv auf die relevanten Bereiche zu lenken, und andererseits auch darin, die Informationen aus diesen Bereichen effizienter aufzunehmen (vgl. Holmqvist und Andersson 2017). Kürzere durchschnittliche Fixationsdauern werden hierbei häufig als Indikator für schnellere Informationsverarbeitungsprozesse interpretiert (vgl. Grub et al. 2020). Weiterhin zeigte sich, dass Experten im Vergleich zu Novizen weniger Zeit für die Bearbeitung der Aufgabe benötigen (z. B. Mann et al. 2007), was ebenfalls auf schnellere Informationsverarbeitungsprozesse und ein effizienteres Vorgehen bei Experten zurückgeführt wird (vgl. Gegenfurtner et al. 2011). Unklar bleibt, wie spezifische Wissenskomponenten – unabhängig von Berufserfahrung – auf die visuelle Aufmerksamkeit und die Verarbeitung von Informationen bei diagnostischen Aktivitäten wirken.

2.4.2 Triangulation von Eye-Tracking und Stimulated Recall Interviews

Es ist wichtig zu berücksichtigen, dass Eye-Tracking Daten häufig nicht eindeutig interpretierbar sind (z. B. Schindler und Lilienthal 2019; Strohmaier et al. 2020). Daher wird eine Triangulation von Eye-Tracking mit anderen Forschungsmethoden, beispielsweise einem ET SRI, empfohlen (z. B. Wyss et al. 2021). Bei einem ET SRI werden die Testpersonen aufgefordert, anhand einer Videosequenz ihrer Blickbewegungen die eigenen Gedanken retrospektiv zu beschreiben (Lyle 2003). Das Sichtbarmachen der eigenen Blickbewegungen dient einerseits als Erinnerungshilfe während eines nachfolgenden Interviews und hat sich darüber hinaus als effektive Methode erwiesen, um eine tiefere Reflexionsebene der eigenen internen Informationsverarbeitungsprozesse anzuregen (Hyrskykari et al. 2008; Stickler und Shi 2017). Nachteile, die bei Methoden wie dem Lauten Denken entstehen können, etwa eine Beeinflussung oder Störung des Gedankenflusses durch das Verbalisieren der eigenen Gedanken, können durch ET SRI weitgehend vermieden werden (z. B. Schindler und Lilienthal 2019).

3 Fragestellung und Hypothesen

Das Hauptanliegen dieser Studie war es, die Modellannahmen über den Einfluss von spezifischem Wissen auf die Identifikation und Evaluation von schwierigkeitsgenerierenden Aufgabenmerkmalen als zentrale Informationsverarbeitungsprozesse bei der Genese diagnostischer Urteile über Aufgabenschwierigkeiten (Loibl et al. 2020; Abb. 1) experimentell zu prüfen. Angelehnt an das methodische Design der Studie von Ostermann et al. (2017) wurden N = 46 Lehramtsstudierenden drei Bedingungen zugewiesen. In der ersten Bedingung (Wissensbedingung) erwarben die Teilnehmenden Wissen über typische Schwierigkeiten von Lernenden und spezifische schwierigkeitsgenerierende fachliche und instruktionale Aufgabenmerkmale. Beim Diagnostizieren von Aufgabenschwierigkeiten sollte dieses Wissen angehende Lehrkräfte dazu befähigen, schwierigkeitsgenerierende Aufgabenmerkmale vermehrt zu identifizieren und adäquat hinsichtlich der Schwierigkeit für Schülerinnen und Schüler zu evaluieren. Diese Annahmen basieren auf den Ergebnissen bestehender Studien zum Einfluss von spezifischem Wissen über schwierigkeitsgenerierende Aufgabenmerkmale auf die Urteilsgenauigkeit (z. B. McElvany et al. 2009; Ostermann et al. 2017; vgl. 2.2), sowie ersten Erkenntnissen zum Einfluss von spezifischem Wissen auf Informationsverarbeitungsprozesse beim Diagnostizieren (vgl. Rieu et al. 2020; vgl. 2.2). Es ist anzunehmen, dass bei einer Intervention über schwierigkeitsgenerierende Aufgabenmerkmale angehende Lehrkräfte sensibilisiert werden, worauf beim Diagnostizieren zu achten ist (Ostermann et al. 2017). Um zu kontrollieren, dass die angenommenen Unterschiede beim Diagnostizieren in der Wissensbedingung nicht nur auf einer solchen Sensibilisierung, sondern auf spezifischem Wissen über schwierigkeitsgenerierende Aufgabenmerkmale basieren, wurde eine zweite Bedingung (Sensibilisierungsbedingung) eingesetzt. Entsprechend wurden die angehenden Lehrkräfte in dieser Bedingung lediglich über einen kurzen Prompt dafür sensibilisiert, dass beim Diagnostizieren sowohl auf fachliche als auch auf instruktionale schwierigkeitsgenerierende Aufgabenmerkmale zu achten ist. Basierend auf den Studienergebnissen von Schreiter et al. (im Druck) und Prediger und Zindel (2017) (vgl. 2.2) wird angenommen, dass eine Sensibilisierung hinsichtlich der Merkmalskategorien, auf die beim Diagnostizieren zu achten ist, angehende Lehrkräfte dazu befähigt, ihre Aufmerksamkeit auf diese Merkmale zu richten, infolgedessen schwierigkeitsgenerierende Aufgabenmerkmale häufiger identifiziert, jedoch nicht häufiger adäquat evaluiert werden. Um die angenommenen Effekte zu prüfen, wurden die Wissensbedingung und die Sensibilisierungsbedingung mit einer dritten Bedingung (Kontrollbedingung) verglichen, die kein Treatment erhielt. Als Diagnosegegenstand wurden Mathematikaufgaben aus zwei Inhaltsbereichen (Brüche und Winkel) eingesetzt, zwischen denen schwierigkeitsgenerierende fachliche und instruktionale Aufgabenmerkmale systematisch variiert sind (vgl. 4.2.1). Anhand von Eye-Tracking Technologie und Stimulated Recall Interviews wurden Indikatoren für die angenommenen Informationsverarbeitungsprozesse beim Diagnostizieren erhoben und zwischen den Bedingungen verglichen. Auf Basis der dargestellten theoretischen Überlegungen wurden für beide Inhaltsbereiche (Brüche und Winkel) und beide Merkmalskategorien (fachlich und instruktional) die folgenden Hypothesen abgeleitet:

Spezifisches Wissen befähigt angehende Lehrkräfte dazu, schwierigkeitsgenerierende Aufgabenmerkmale im Vergleich zur Kontrollbedingung häufiger zu identifizieren (Hypothese 1a) und hinsichtlich ihrer Schwierigkeit für Schülerinnen und Schüler korrekt zu evaluieren (Hypothese 1b).

Eine reine Sensibilisierung für diagnoserelevante Merkmalskategorien befähigt angehende Lehrkräfte dazu, schwierigkeitsgenerierende Aufgabenmerkmale im Vergleich zur Kontrollbedingung häufiger zu identifizieren (Hypothese 2a), jedoch nicht, sie häufiger korrekt zu evaluieren (Hypothese 2b).

Bestehende Forschungsergebnisse konnten bei der Analyse von Eye-Tracking Daten Indikatoren für eine effizientere Informationsaufnahme und für schnellere Informationsverarbeitungsprozesse bei Experten feststellen (z. B. Grub et al. 2020; vgl. 2.4.1). Hierbei wurden Experten von Novizen meist über die Anzahl der Jahre an Berufserfahrung unterschieden und spezifische Wissenskomponenten blieben unberücksichtigt. In der vorliegenden Studie wurde daher bei Lehramtsstudierenden ohne Berufserfahrung explorativ untersucht, wie spezifisches Wissen auf die visuelle Aufmerksamkeit wirkt. Von besonderem Interesse war hierbei die Frage, ob sich in den Blickbewegungen Hinweise für eine effizientere Informationsaufnahme, d. h. eine im Schnitt geringere Anzahl an Fixationen und Transitionen (vgl. 2.4.1), sowie für schnellere Informationsverarbeitungsprozesse, d. h. kürzere durchschnittliche Fixationsdauern und kürzere durchschnittliche Bearbeitungsdauern (vgl. 2.4.1), aufgrund von spezifischem Wissen zeigen.

4 Methode

4.1 Forschungsdesign und Stichprobe

Den hier berichteten Ergebnissen liegen Daten von N = 46 Lehramtsstudierenden des Faches Mathematik zugrunde. Für die Eye-Tracking Erhebungen wurden Einzeltermine mit den Testpersonen vereinbart. Die Zeitspanne zwischen der Intervention und der Diagnoseaufgabe am Eye-Tracker betrug je nach Testperson ein bis fünf Tage. Die Teilnehmenden wurden, in Anlehnung an das methodische Design der Studie von Ostermann et al. (2017), drei Bedingungen zugewiesen (vgl. Tab. 1).

Tab. 1 Ablauf der Studie

Die Teilnehmenden der Wissensbedingung nahmen vor der Diagnoseaufgabe am Eye-Tracker an einer ca. 90-minütigen Intervention zum Thema schwierigkeitsgenerierende fachliche und instruktionale Aufgabenmerkmale teil. In der Intervention wurden die aus zahlreichen Studien bekannten typischen Schwierigkeiten von Lernenden bei der Addition von Brüchen und der Winkelberechnung im Drei- und Viereck thematisiert (vgl. 2.1.1). Weiterhin wurden theoretische Grundlagen der CLT sowie damit verbundene instruktionale Gestaltungprinzipien adressiert (vgl. 2.1.2). Die vermittelten Inhalte wurden anschließend konkretisiert, indem einige Aufgaben aus den Inhaltsbereichen der Bruch- und Winkelberechnung beispielhaft hinsichtlich ihrer Schwierigkeit beurteilt wurden. Hierbei wurden andere Aufgaben verwendet als bei der Datenerhebung der Studie. Die Teilnehmenden der Sensibilisierungsbedingung wurden unmittelbar vor der Diagnoseaufgabe am Eye-Tracker lediglich über einen kurzen schriftlichen Prompt dafür sensibilisiert, dass beim Diagnostizieren sowohl auf fachliche als auch auf instruktionale schwierigkeitsgenerierende Aufgabenmerkmale zu achten ist. Die Teilnehmenden der dritten Bedingung (Kontrollbedingung) erhielten kein Treatment.

Um die Vergleichbarkeit der Gruppen zu gewährleisten, wurde zum einen das Vorwissen über spezifische schwierigkeitsgenerierende fachliche und instruktionale Aufgabenmerkmale (vgl. 4.2.2) ermittelt. Zum anderen wurden einige soziodemografische Daten erhoben, die im Zusammenhang mit diagnostischen Urteilsprozessen stehen könnten (vgl. Tab. 2). Potenzielle Gruppenunterschiede wurden durch eine multivariate Varianzanalyse adressiert, die keinen statistisch signifikanten Unterschied für die kombinierten abhängigen Variablen zeigte (F (10, 60) = 1,98, p > 0,05, partielles η2 = 0,24, Wilk’s Λ = 0,565). Aufgrund der relativ kleinen Stichprobengröße wurden zusätzlich nichtparametrische Tests (Kruskal-Wallis-Test) berechnet, die analoge Ergebnisse ergaben (alle p ≥ 0,05). Da der Vorwissenstest gleichzeitig eine potenzielle Lerngelegenheit darstellen könnte, bearbeiteten die Teilnehmenden der Kontroll- und Sensibilisierungsbedingung den Test erst unmittelbar nach der Diagnoseaufgabe am Eye-Tracker (vgl. Tab. 1). Da sie während der Diagnoseaufgabe keinen spezifischen Wissens-Input erhielten, ist davon auszugehen, dass der Vorwissenstest den Wissensstand widerspiegelt, den die Teilnehmenden vor der Diagnoseaufgabe hatten. Der Einsatz eines Vorwissenstests nach der eigentlichen Erhebung hat sich auch in anderen Eye-Tracking-Studien bewährt (z. B. Malone et al. 2020), um zu vermeiden, dass der Vorwissenstest die visuelle Aufmerksamkeit der Teilnehmenden beeinflusst. Die Teilnehmenden der Wissensbedingung bearbeiteten den Vorwissenstest unmittelbar vor der Intervention (vgl. Tab. 1). Die Studiengruppen unterschieden sich hinsichtlich ihres spezifischen Vorwissens zu schwierigkeitsgenerierenden fachlichen und instruktionalen Aufgabenmerkmalen nicht signifikant voneinander (vgl. Tab. 2). Auffällig ist, dass die Teilnehmenden aller Studiengruppen, bezogen auf das Vorwissen über schwierigkeitsgenerierende fachliche Aufgabenmerkmale, durchschnittlich schlechter bei den Items zu den Winkelaufgaben im Vergleich zu den Bruchaufgaben abschnitten (vgl. Tab. 2). Um die Effektivität der Intervention zu prüfen, bearbeiteten die Teilnehmenden der Wissensbedingung unmittelbar nach der Intervention eine Parallelversion des Vorwissenstests (vgl. 4.2.2). Der Vergleich zwischen Pre- und Post-Test belegt einen signifikanten Wissenszuwachs bzgl. schwierigkeitsgenerierender fachlicher (Brüche: t (12) = 2,13, p ≤ 0,05, d = 0,74; Winkel: t (12) = 2,52, p ≤ 0,05, d = 0,84) und instruktionaler Aufgabenmerkmale (t (12) = 3,10, p ≤ 0,01, d = 1,28). Dies zeigt, dass die Wissensbedingung eine wirkungsvolle Intervention erhielt.

Tab. 2 Vergleich der Studiengruppen: Soziodemographische Daten und bereichsspezifisches Vorwissen

Bezüglich der erhobenen soziodemografischen Daten konnten keine signifikanten Unterschiede zwischen den Gruppen festgestellt werden (vgl. Tab. 2). Es ist allerdings darauf hinzuweisen, dass die Daten teilweise, insbesondere hinsichtlich der Variablen Praxiserfahrung und Nachhilfeerfahrung, große Varianzen aufweisen, sodass in diesen Bereichen von zum Teil großen interindividuellen Unterschieden zwischen den Teilnehmenden auszugehen ist.

4.2 Material

4.2.1 Diagnoseaufgabe am Eye-Tracker

Für die Diagnoseaufgabe am Eye-Tracker wurden vier Bruchrechenaufgaben und vier Winkelberechnungsaufgaben in Anlehnung an typische Schulbuchaufgaben der Klassenstufen 6 und 7 erstellt (vgl. Abb. 2). Zwischen den Aufgaben wurden schwierigkeitsgenerierende Merkmale systematisch variiert: im fachlichen Bereich durch Adaption des Schwierigkeitsgrades der Bruchrechnung bzw. der Winkelberechnung (vgl. 2.1.1) und im instruktionalen Bereich gemäß den ausgewählten CLT-Gestaltungsempfehlungen (vgl. 2.1.2). Die fachliche Schwierigkeit der Bruchrechenaufgaben wurde durch Modifikation der Nenner (gleichnamig vs. ungleichnamig), durch die Mischung von natürlichen Zahlen und Brüchen und durch die Verwendung von gemischten Brüchen variiert (vgl. 2.1.1). Die fachliche Schwierigkeit der Winkelaufgaben wurde durch die Anzahl der Argumentationsschritte, die zur Lösung der Aufgabe nötig sind und durch die verwendeten Winkelwerte (Zehnerzahlen vs. Einerzahlen) variiert (vgl. 2.1.1). Im instruktionalen Bereich wurde die Schwierigkeit der Aufgaben (Brüche und Winkel) auf Basis des Split-Attention Effekts und des Redundanzeffektes (vgl. 2.1.2) variiert. Die theoretisch abgeleiteten schwierigkeitsgenerierenden Aufgabenmerkmale (fachliche und instruktionale) wurden für den Inhaltsbereich der Bruchrechnung in einer Studie mit N = 108 Schülerinnen und Schülern der Klassenstufe 6 empirisch validiert (vgl. Anhang A).

4.2.2 Bereichsspezifischer Vorwissenstest

Um das Vorwissen zu spezifischen schwierigkeitsgenerierenden fachlichen und instruktionalen Aufgabenmerkmalen zu erheben, wurde ein Vorwissenstest entwickelt, der zwei Bereiche umfasste. Im ersten Bereich wurden je zwei Aufgaben (Inhaltsbereich Brüche oder Winkel), die sich nur in der fachlichen Schwierigkeit unterscheiden, gegenübergestellt präsentiert. Dieser Testteil umfasste fünf Itempaare (Brüche: 3, Winkel: 2). Hierbei wurden zwischen den Aufgaben die gleichen schwierigkeitsgenerierenden fachlichen Aufgabenmerkmale variiert, wie zwischen den Aufgaben der Haupterhebung (vgl. 4.2.1). Dieses Vorgehen sollte sicherstellen, dass im Vorwissenstest spezifisches und für die Diagnoseaufgabe relevantes Wissen erhoben wird. Der zweite Bereich umfasste weitere fünf Itempaare, bei denen sich die gegenübergestellten Aufgaben jeweils nur in der instruktionalen Schwierigkeit voneinander unterschieden. Auch hier wurden die gleichen schwierigkeitsgenerierenden instruktionalen Aufgabenmerkmale genutzt wie bei den Aufgaben der Haupterhebung (vgl. 4.2.1). Die Teilnehmenden wurden aufgefordert, die Aufgabe anzukreuzen, die sie für Lernende als schwieriger einschätzen. Mit einer möglichen Ankreuzoption in der Mitte wurde ausgedrückt, dass beide Aufgaben als gleich schwer eingeschätzt werden. Zu diesem Vorwissenstest wurde eine zusätzliche Parallelversion erstellt. Die Tests unterschieden sich ausschließlich hinsichtlich der kontextuellen Einbettung der Aufgaben. Die Skalen zur Erfassung des Vorwissens über spezifische fachliche (r = 0,74) und instruktionale Aufgabenmerkmale (r = 0,79) weisen akzeptable Paralleltest-Reliabilitäten auf.

4.3 Ablauf: Eye-Tracking und ET SRI

Die Diagnoseaufgabe bestand darin, acht Mathematikaufgaben (jeweils vier aus den Inhaltsbereichen Brüche und Winkel) hinsichtlich der Frage „Was macht die Aufgabe leicht/schwer für Schülerinnen und Schüler?“ zu beurteilen. Die Aufgaben wurden einzeln und in randomisierter Reihenfolge präsentiert. Der Studienablauf wiederholte sich für jede Aufgabe und bestand aus drei aufeinanderfolgenden Teilen (Eye-Tracking – schriftliche Notizen – ET SRI), die im Folgenden detailliert erläutert werden. Allen Teilnehmenden wurde der Studienablauf sowie die Aufgabenstellung anhand eines Aufgabenbeispiels vorab erläutert. Zur Erhebung der Eye-Tracking Daten wurde mit einem monitorbasierten Eye-Tracker (Tobii Pro Fusion) gearbeitet, der binokulare Blickbewegungen mit einer Abtastrate von bis zu 120 Hz und einer durchschnittlichen Genauigkeit von 0,59° (SD = 0,12°) erfasste. Die Teilnehmenden wurden mit einem mittleren Abstand von ca. 60 cm zum Bildschirm (Fujitsu B24T‑7 LED, Größe: 24 Zoll, Auflösung: 1920 × 1080 Pixel) positioniert. Vor jeder Aufgabe wurde eine 9‑Punkt-Kalibrierung durchgeführt, um eine optimale Aufzeichnung der Eye-Tracking Daten zu erzielen (Holmqvist und Andersson 2017). Nach der Aufgabe am Eye-Tracker schrieben die Teilnehmenden stichpunktartig auf, welche Aufgabenmerkmale ihnen als leicht oder schwer aufgefallen sind. Die Notizen dienten den Teilnehmenden während der anschließenden ET SRI als zusätzliche Erinnerungshilfe und ermöglichten eine Prüfung, ob ihnen beim Reflektieren der eigenen Blickbewegungen weitere, zuvor nicht notierte Aufgabenmerkmale auffielen. Die Zeitspanne zwischen der Diagnoseaufgabe am Eye-Tracker und dazugehörigem ET SRI wurde jeweils kurz gehalten (ca. 1–3 min), um einen Erinnerungsverlust zu vermeiden. Während des Interviews beschrieben die Testpersonen anhand ihrer gezeigten Blickverläufe, was sie beim Diagnostizieren getan und gedacht haben. Für die Aufnahme der ET SRI wurde mit der Software OBS gearbeitet, die Bildschirminhalte inklusive Ton aufzeichnete, sodass für die Auswertung die Videos der Blickverläufe mit den dazugehörigen Kommentaren der Testpersonen zur Verfügung standen.

4.4 Analyse der Daten

Zur Auswertung der Eye-Tracking Daten wurde die Software Tobii Pro Lab genutzt. Die Eye-Tracking Daten wurden in dieser Studie als Indikatoren für die visuelle Aufmerksamkeit beim Diagnostizieren von Aufgabenschwierigkeiten herangezogen, aus denen, in Verbindung mit den ET SRI, Hinweise über die Informationsverarbeitung beim Diagnostizieren abgeleitet wurden (vgl. 2.4). Hierfür wurden in jeder Aufgabe spezifische AOIs definiert, die die jeweils variierten schwierigkeitsgenerierenden fachlichen und instruktionalen Aufgabenmerkmale umfassen (für eine exemplarische Darstellung der AOIs, s. Anhang B). Im Bereich der fachlichen Aufgabenmerkmale wurden AOIs um die in den Aufgaben enthaltenen Bruchangaben bzw. Winkelangaben festgelegt und die Anzahl an Fixationen sowie die durchschnittliche Fixationsdauer in diesen Bereichen analysiert. Im Bereich der instruktionalen Aufgabenmerkmale wurden, abhängig von der gewählten CLT-Gestaltungsempfehlung, unterschiedliche Maße betrachtet: Bei Aufgaben, die für die Lösung irrelevante Informationen enthalten (Redundanz 1, vgl. 2.1.2), wurde um die irrelevante Information eine AOI definiert. In diesem Bereich wurde die Anzahl an Fixationen sowie die durchschnittliche Fixationsdauer analysiert. Wurden in einer Aufgabe die relevanten Informationen voneinander entfernt präsentiert (Split-Attention, vgl. 2.1.2) oder ein und dieselbe Information durch verschiedene Informationsquellen präsentiert (Redundanz 2, vgl. 2.1.2), wurden die voneinander entfernten bzw. doppelten Informationen durch jeweils eine AOI umfasst. Anschließend wurde ermittelt, wie viele Transitionen zwischen diesen AOIs stattfanden. Die Anzahl an Fixationen und Transitionen wie auch die durchschnittliche Fixationsdauer geben Hinweise darauf, wie häufig und wie lange die Aufgabenbereiche der schwierigkeitsgenerierenden Aufgabenmerkmale im Schnitt mit visueller Aufmerksamkeit belegt sind (vgl. 2.4.1). Eine geringere Anzahl an Fixationen/Transitionen sowie kürzere durchschnittliche Fixationsdauern stellen mögliche Indikatoren für ein effizienteres Vorgehen dar (d. h. die Informationsaufnahme und -verarbeitung erfolgen effektiver und schneller), was häufiger bei Experten im Vergleich zu Novizen festzustellen ist (vgl. 2.4.1). Zusätzlich wurde die durchschnittliche Bearbeitungsdauer pro Aufgabe ermittelt, die angibt, wie lange die gesamte Aufgabe (AOI übergreifend) von den Testpersonen analysiert wurde, um zu einem Urteil zu gelangen. Die Anzahl an Fixationen, die durchschnittliche Fixationsdauer, sowie die Bearbeitungsdauer wurden mit dem Tobii I-VT Fixation Filter ermittelt (Velocity-Threshold Identification, z. B. Salvucci und Goldberg 2000; minimale Fixationsdauer (ms): 60; maximale Zeitspanne zwischen Fixationen (ms): 75). Zur Bestimmung der Anzahl an Transitionen wurden die Videos der Blickbewegungen visuell inspiziert. Hierbei werteten zwei Rater (Interrater-Reliabilität: Cohens Kappa = 0,79) die Blickverläufe manuell aus und beurteilten, wie häufig Transitionen zwischen zwei AOIs vorkamen.

Für die Auswertung der ET SRI Daten wurde ein Mixed-Methods-Ansatz genutzt: Die ET SRI wurden zunächst transkribiert und mittels qualitativer Inhaltsanalyse nach Mayring (2015) deduktiv kodiert. Hierbei wurde das folgende KategoriensystemFootnote 1 festgelegt und binär kodiert (in Klammern): Schwierigkeitsgenerierende Aufgabenmerkmale (fachlich oder instruktional) können beim Diagnostizieren einer Aufgabe identifiziert (1), oder nicht identifiziert (0) werden. Es zeigte sich, dass manche Aufgabenmerkmale erst beim Reflektieren der eigenen Blickbewegungen während des SRI identifiziert wurden. Hieraus ergab sich eine weitere Kategorie retrospektiv identifiziert (0), die als Subkategorie von nicht identifiziert ausgewertet wurde, da die entsprechenden Merkmale bei der Diagnoseaufgabe am Eye-Tracker noch nicht identifiziert wurden. Identifizierte Aufgabenmerkmale können hinsichtlich der Schwierigkeit für Schülerinnen und Schüler korrekt evaluiert (1), inkorrekt evaluiert (0) oder nicht evaluiert (0) werden. Aufgabenmerkmale, die erst während des SRI evaluiert wurden, wurden der Kategorie retrospektiv evaluiert (0) zugeordnet, die als Subkategorie von nicht evaluiert ausgewertet wurde. Die Transkripte wurden von zwei Ratern mit hoher Interrater-Reliabilität (Cohens Kappa = 0,88) kodiert. Die vergebenen Codes wurden anschließend in einen quantitativen Datensatz integriert, um Unterschiede bei der Identifikation und Evaluation von schwierigkeitsgenerierenden Aufgabenmerkmalen varianzanalytisch zwischen den Studiengruppen zu untersuchen. Aufgrund des 2 × 2 × 3-faktoriellen Studiendesigns (Aufgabenmerkmal: fachlich/instruktional, Inhaltsbereich: Brüche/Winkel, Bedingung: Kontrollbedingung/Sensibilisierungsbedingung/Wissensbedingung), wurden Varianzanalysen mit Messwiederholung durchgeführt. Angesichts der relativ geringen Strichprobengröße wurden zusätzlich nichtparametrische Kruskal-Wallis-Tests berechnet.

5 Ergebnisse

Um die aufgestellten Hypothesen zum Einfluss von Wissen auf Identifikations- und Evaluationsprozesse zu prüfen, wurde jeweils eine ANOVA mit Messwiederholung berechnet für a) Identifikation von schwierigkeitsgenerierenden Aufgabenmerkmalen und b) Evaluation der identifizierten Aufgabenmerkmale. Hierbei wurden die Innersubjektfaktoren Aufgabenmerkmal (fachlich/instruktional) und Inhaltsbereich (Brüche/Winkel) sowie der Zwischensubjektfaktor Bedingung (Kontrollbedingung/Sensibilisierungsbedingung/Wissensbedingung) definiert.

5.1 Einfluss von Wissen auf die Identifikation von schwierigkeitsgenerierenden Aufgabenmerkmalen

Die Ergebnisse zeigten bezüglich der Anzahl der durchschnittlich identifizierten Aufgabenmerkmale einen signifikanten Unterschied mit hoher Effektstärke zwischen den Studiengruppen (F (2,43) = 18,86, p < 0,001, η2 = 0,47)Footnote 2. Um Unterschiede zwischen den Studiengruppen differenzierter zu untersuchen, wurden Tukey post-hoc Tests berechnet (vgl. Abb. 3).

Abb. 3
figure 3

Mittelwerte und Standardfehler in Prozent für die identifizierten Aufgabenmerkmale (fachlich und instruktional) bei Aufgaben der Inhaltsbereiche a Brüche und b Winkel, jeweils getrennt für die Studiengruppen: Kontrollbedingung (KB), Sensibilisierungsbedingung (SB) und Wissensbedingung (WB). *p ≤ 0,05, **p ≤ 0,01, ***p ≤ 0,001

Bei Aufgaben aus den Inhaltsbereichen Brüche (fachliche und instruktionale Aufgabenmerkmale) und Winkel (instruktionale Aufgabenmerkmale) konnte festgestellt werden, dass die Teilnehmenden der Wissensbedingung wie auch der Sensibilisierungsbedingung im Vergleich zur Kontrollbedingung signifikant mehr schwierigkeitsgenerierende Aufgabenmerkmale identifizierten (vgl. Abb. 3). Unterschiede zwischen der Sensibilisierungsbedingung und der Wissensbedingung konnten nicht festgestellt werden. Somit führte erwartungskonform sowohl spezifisches Wissen über schwierigkeitsgenerierende Aufgabenmerkmale (Hypothese 1a) als auch eine Sensibilisierung hinsichtlich diagnoserelevanter Merkmalskategorien (Hypothese 2a) dazu, dass mehr schwierigkeitsgenerierende Aufgabenmerkmale identifiziert wurden. Entgegen der Annahme wurden jedoch die fachlichen Aufgabenmerkmale der Winkelaufgaben nur von den Teilnehmenden der Wissensbedingung signifikant häufiger identifiziert – sowohl im Vergleich zur Kontroll- als auch zur Sensibilisierungsbedingung (vgl. Abb. 3). Für den Inhaltsbereich Winkel kann die Hypothese 2a daher für die fachlichen Aufgabenmerkmale nicht bestätigt werden.

5.2 Einfluss von Wissen auf die Evaluation der identifizierten Aufgabenmerkmale

Identifizierte Aufgabenmerkmale können hinsichtlich der Schwierigkeit für Schülerinnen und Schüler korrekt evaluiert, inkorrekt evaluiert oder nicht weiter evaluiert werden. Die Ergebnisse zeigten bezüglich der Anzahl der durchschnittlich identifizierten und korrekt evaluierten Aufgabenmerkale einen signifikanten Unterschied mit hoher Effektstärke zwischen den Studiengruppen (F (2,43) = 22,72, p < 0,001, η2 = 0,51)Footnote 3. Um Unterschiede zwischen den Studiengruppen differenzierter zu untersuchen, wurden Tukey post-hoc Tests berechnet (vgl. Abb. 4).

Abb. 4
figure 4

Mittelwerte und Standardfehler in Prozent für die identifizierten und korrekt evaluierten Aufgabenmerkmale (fachlich und instruktional) bei Aufgaben der Inhaltsbereiche a Brüche und b Winkel, jeweils getrennt für die Studiengruppen: Kontrollbedingung (KB), Sensibilisierungsbedingung (SB) und Wissensbedingung (WB). *p ≤ 0,05, **p ≤ 0,01, ***p ≤ 0,001

Erwartungskonform zeigte sich beim Inhaltsbereich Brüche, dass die angehenden Lehrkräfte der Wissensbedingung im Vergleich zur Kontrollbedingung signifikant mehr schwierigkeitsgenerierende Aufgabenmerkmale (fachliche und instruktionale) identifizierten und korrekt evaluierten (Hypothese 1b). Zwischen der Sensibilisierungsbedingung und der Kontrollbedingung konnten bei den fachlichen Aufgabenmerkmalen keine signifikanten Unterschiede festgestellt werden (Hypothese 2b). Instruktionale Aufgabenmerkmale wurden von den angehenden Lehrkräften der Sensibilisierungsbedingung zwar entgegen der Erwartung signifikant häufiger im Vergleich zur Kontrollbedingung, gleichzeitig aber signifikant geringer im Vergleich zur Wissensbedingung identifiziert und korrekt evaluiert (vgl. Abb. 4). Beim Inhaltsbereich Winkel zeigte sich, dass sowohl fachliche wie auch instruktionale Aufgabenmerkmale von den angehenden Lehrkräften der Wissensbedingung im Vergleich zur Kontrollbedingung signifikant häufiger identifiziert und korrekt evaluiert wurden (Hypothese 2a). Erwartungskonform konnten keine Unterschiede zwischen der Sensibilisierungsbedingung und der Kontrollbedingung hinsichtlich der Anzahl identifizierter und korrekt evaluierter Aufgabenmerkmale festgestellt werden (Hypothese 2b).

5.3 Analyse der Blickbewegungen

Die erhobenen Eye-Tracking Maße (vgl. Tab. 3) wurden als Indikatoren für die visuelle Aufmerksamkeit beim Diagnostizieren herangezogen. Um mögliche Gruppenunterschiede zu adressieren, wurde eine multivariate Varianzanalyse (MANOVA)Footnote 4 berechnet. Hierbei zeigte sich ein statistisch signifikanter Unterschied zwischen den Studiengruppen für die kombinierten abhängigen Variablen (F (24, 64) = 1,99, p = 0,015, partielles η2 = 0,43, Wilk’s Λ = 0,328). Differenziertere Unterschiede zwischen den Gruppen wurden über Tukey post-hoc Analysen ermittelt.

Tab. 3 Übersicht der Eye-Tracking Maße

Über alle Daten hinweg zeigte sich, dass die Sensibilisierungsbedingung im Vergleich zur Kontroll- und Wissensbedingung häufig eine höhere Anzahl an Fixationen wie auch Transitionen und höhere durchschnittliche Fixationsdauern innerhalb bzw. zwischen vorab definierten fachlichen und instruktionalen AOIs aufweist (vgl. Tab. 3). Im Gegensatz dazu wurden bei den Teilnehmenden der Wissensbedingung im Vergleich zur Sensibilisierungs- und Kontrollbedingung häufig geringere Anzahlen an Fixationen wie auch Transitionen und geringere durchschnittliche Fixationsdauern festgestellt (vgl. Tab. 3). Die dargestellten Unterschiede zwischen den Studiengruppen weisen stets hohe Effektstärken auf. Im instruktionalen Bereich ließen sich bei einigen der erhobenen Eye-Tracking Maße (Inhaltsbereich Winkel: Anzahl Fixationen/durchschnittliche Fixationsdauer, Inhaltsbereich Brüche: Durchschnittliche Fixationsdauer/Anzahl Transitionen) keine signifikanten Gruppenunterschiede feststellen (vgl. Tab. 3). Bei der durchschnittlichen Bearbeitungsdauer pro Aufgabe zeigte sich bei beiden Inhaltsbereichen, dass die Teilnehmenden der Wissensbedingung im Vergleich zur Kontroll- und Sensibilisierungsbedingung stets signifikant weniger Zeit benötigten, um die Aufgabenschwierigkeiten zu beurteilen. Diese Unterschiede zwischen den Studiengruppen sind sowohl bei den Bruch- als auch den Winkelaufgaben hochsignifikant mit hohen Effektstärken (vgl. Tab. 3).

6 Diskussion

6.1 Interpretation der Ergebnisse

Das Hauptanliegen der vorliegenden Studie war, die Modellannahmen zum Einfluss von spezifischem Wissen auf die Identifikation und Evaluation von fachlichen und instruktionalen Aufgabenmerkmalen, als zentrale Informationsverarbeitungsprozesse bei der Genese diagnostischer Urteile über Aufgabenschwierigkeiten (Loibl et al. 2020; vgl. Abb. 1), empirisch zu untermauern. Hierfür wurde das Wissen von angehenden Lehrkräften in drei Bedingungen experimentell variiert. Als Diagnosegegenstand wurden Mathematikaufgaben aus zwei Inhaltsbereichen (Brüche und Winkel) eingesetzt, zwischen denen schwierigkeitsgenerierende fachliche und instruktionale Aufgabenmerkmale systematisch variiert sind. Anhand von Eye-Tracking Technologie und Stimulated Recall Interviews wurden Indikatoren für die visuelle Aufmerksamkeit wie auch für die Identifikations- und Evaluationsprozesse beim Diagnostizieren erhoben und zwischen den Bedingungen verglichen.

Die Ergebnisse zeigten erwartungskonform, dass die Vermittlung von spezifischem Wissen angehende Lehrkräfte dazu befähigt, schwierigkeitsgenerierende Aufgabenmerkmale im Schnitt häufiger zu identifizieren (Hypothese 1a) und adäquat hinsichtlich der Schwierigkeit für Schülerinnen und Schüler zu evaluieren (Hypothese 1b). Dieser Effekt wurde für beide Kategorien von schwierigkeitsgenerierenden Aufgabenmerkmalen (fachlich und instruktional) und für beide Inhaltsbereiche (Brüche und Winkel) festgestellt. Die Ergebnisse dieser Studie stehen im Einklang mit bereits bestehender Forschung, die die Bedeutung von spezifischem Wissen über Aufgabenmerkmale für die Genauigkeit diagnostischer Urteile hervorhebt (z. B. McElvany et al. 2009; Ostermann et al. 2017; vgl. 2.2). Zusätzlich liefert die vorliegende Studie Hinweise über den positiven Einfluss von spezifischem Wissen auf Informationsverarbeitungsprozesse (Identifikations- wie auch Evaluationsprozesse), die dem diagnostischen Urteil zugrunde liegen. Auch die Studie von Rieu et al. (2020) zeigte für Textaufgaben im Bereich der Bruchrechnung, dass die Vermittlung von spezifischem Wissen einen positiven Einfluss auf Informationsverarbeitungsprozesse beim Diagnostizieren hat (vgl. 2.2). Die Ergebnisse der vorliegenden Studie bestätigen diese Befunde und zeigen darüber hinaus, dass der positive Einfluss von spezifischem Wissen auch auf andere Kategorien von schwierigkeitsgenerierenden Aufgabenmerkmalen (instruktionale Aufgabenmerkmale) und auf andere mathematische Inhaltsbereiche (Winkelberechnung) übertragen werden kann.

Da anzunehmen ist, dass bei einer Intervention über schwierigkeitsgenerierende Aufgabenmerkmale angehende Lehrkräfte dafür sensibilisiert werden, worauf beim Diagnostizieren zu achten ist (Ostermann et al. 2017), wurde in dieser Studie neben einer Kontrollbedingung eine weitere Bedingung (Sensibilisierungsbedingung) einbezogen. Erwartungskonform hat eine reine Sensibilisierung hinsichtlich diagnoserelevanter Merkmalskategorien die angehenden Lehrkräfte überwiegend nur dazu befähigt, schwierigkeitsgenerierende Aufgabenmerkmale häufiger zu identifizieren (Hypothese 2a), jedoch nicht häufiger adäquat zu evaluieren (Hypothese 2b). Dieses Ergebnis steht im Einklang mit bestehender Forschung (z. B. Prediger und Zindel 2017; Schreiter et al. im Druck) und untermauert die Relevanz von spezifischem Wissen, insbesondere für Evaluationsprozesse.

Entgegen der Annahme (Hypothese 2a) zeigte sich bei der Identifikation von fachlichen Aufgabenmerkmalen für den Inhaltsbereich Winkel kein signifikanter Effekt der Sensibilisierung. Hier hat nur die Vermittlung von spezifischem Wissen zu einem positiven Effekt geführt. Ein Erklärungsansatz für diesen Befund könnten Unterschiede im Vorwissen darstellen. Die Ergebnisse des Vorwissenstests zeigten, dass die Teilnehmenden aller Studiengruppen, bezogen auf fachliche schwierigkeitsgenerierende Aufgabenmerkmale, über mehr Vorwissen im Bereich der Bruchrechnung im Vergleich zur Winkelberechnung verfügten (vgl. Tab. 2). Entsprechend wurden über alle Studiengruppen hinweg stets mehr fachliche Aufgabenmerkmale beim Inhaltsbereich Brüche im Vergleich zum Inhaltsbereich Winkel identifiziert (vgl. Abb. 3). Dieser Befund könnte darauf hinweisen, dass eine Sensibilisierung möglicherweise besonders dann einen positiven Einfluss auf die Identifikation von schwierigkeitsgenerierenden Aufgabenmerkmalen hat, wenn die Teilnehmenden bereits auf ein ausgeprägtes bereichsspezifisches Vorwissen zurückgreifen können.

Neben Unterschieden im Vorwissen könnte möglicherweise auch die Konzeptualisierung der Aufgabenmerkmale dazu beigetragen haben, dass alle Studiengruppen mehr schwierigkeitsgenerierende fachliche Aufgabenmerkmale beim Inhaltsbereich Brüche im Vergleich zum Inhaltsbereich Winkel identifizierten. Während die variierten fachlichen Aufgabenmerkmale bei den Bruchrechenaufgaben stets bereichsspezifisch sind, beziehen sich die variierten Aufgabenmerkmale bei den Winkelaufgaben teilweise auch auf allgemeine Schwierigkeiten arithmetischer Natur beim Addieren und Subtrahieren (z. B. Einer vs. Zehnerzahlen; vgl. 4.2.1) und wurden daher möglicherweise weniger häufig als schwierigkeitsgenerierende Merkmale in Winkelaufgaben identifiziert.

Da der Einfluss von spezifischem Wissen auf die visuelle Aufmerksamkeit beim Diagnostizieren bislang kaum erforscht ist, erfolgte die Analyse der Eye-Tracking Daten in dieser Studie explorativ. In Verbindung mit den Ergebnissen der ET SRI konnten Hinweise über die Informationsaufnahme und -verarbeitung beim Diagnostizieren abgeleitet werden. Zum einen zeigte sich, dass die Sensibilisierungs- im Vergleich zur Kontrollbedingung häufig eine höhere Anzahl an Fixationen wie auch Transitionen und höhere durchschnittliche Fixationsdauern in bzw. zwischen vorab definierten fachlichen und instruktionalen AOIs aufweist. Dieser Befund deutet darauf hin, dass die Sensibilisierung dazu führte, dass die visuelle Aufmerksamkeit der angehenden Lehrkräfte beim Diagnostizieren vermehrt auf die Bereiche der schwierigkeitsgenerierenden Aufgabenmerkmale gerichtet wurde (vgl. Schreiter et al. im Druck). Die fokussierte Aufmerksamkeit auf diagnoserelevante Bereiche könnte die Teilnehmenden der Sensibilisierungsbedingung im Vergleich zur Kontrollbedingung dazu befähigt haben, schwierigkeitsgenerierende Aufgabenmerkmale häufiger zu identifizieren, jedoch nicht, sie häufiger adäquat zu evaluieren (vgl. 5.1 und 5.2).

Bei den angehenden Lehrkräften der Wissensbedingung wurde hingegen meist eine geringere Anzahl an Transitionen wie auch Fixationen mit geringeren durchschnittlichen Fixationsdauern im Vergleich zur Kontroll- und Sensibilisierungsbedingung festgestellt (vgl. Tab. 3). Ebenso zeigten sich bei Aufgaben aus beiden Inhaltsbereichen (Brüche und Winkel) signifikant kürzere Bearbeitungszeiten bei der Wissensbedingung. In Verbindung mit den Ergebnissen aus den ET SRI (vgl. 5.1 und 5.2) können die dargestellten Eye-Tracking Maße als Hinweise für ein effizienteres Vorgehen beim Diagnostizieren mit spezifischem Wissen interpretiert werden: Angehende Lehrkräfte mit spezifischem Wissen fixierten schwierigkeitsgenerierende Aufgabenmerkmale im Schnitt weniger häufig und mit kürzerer durchschnittlicher Dauer und haben dabei jedoch signifikant mehr Aufgabenmerkmale identifiziert und korrekt evaluiert. Die im Schnitt geringeren Anzahlen an Transitionen und Fixationen innerhalb bzw. zwischen fachlichen und instruktionalen AOIs weisen darauf hin, dass spezifisches Wissen angehende Lehrkräfte dazu befähigte, die Informationen aus diesen Bereichen effizienter aufzunehmen (Holmqvist und Andersson 2017). Kürzere durchschnittliche Fixationsdauern wie auch kürzere Bearbeitungszeiten können darüber hinaus als Indikatoren für schnellere Informationsverarbeitungsprozesse beim Diagnostizieren mit spezifischem Wissen interpretiert werden (Gegenfurtner et al. 2011). Zusammenfassend zeigten sich in den Studiendaten Hinweise, dass spezifisches Wissen ein effizienteres Vorgehen beim Diagnostizieren (d. h. die Informationsaufnahme und -verarbeitung erfolgen effektiver und schneller) ermöglicht. Zahlreiche Eye-Tracking Studien im Bereich der professionellen Unterrichtswahrnehmung konnten bislang für Experten im Vergleich zu Novizen (hier: berufserfahrene vs. berufsunerfahrene Lehrkräfte) Hinweise auf eine effizientere Informationsaufnahme und schnellere Informationsverarbeitungsprozesse finden (Grub et al. 2020). Aus den Ergebnissen dieser Studie lässt sich die Hypothese ableiten, dass solche Unterschiede in der Informationsaufnahme und -verarbeitung auch zwischen Lehramtsstudierenden bestehen, die sich nicht in der Berufserfahrung, jedoch im bereichsspezifischen Wissen voneinander unterscheiden. Diese Hypothese gilt es in zukünftigen Studien zu prüfen.

6.2 Limitationen und Implikationen für zukünftige Forschung

In Bezug auf die Studie ist einschränkend zu bemerken, dass die Ergebnisse aufgrund der kleinen Stichprobe lediglich Indizien hinsichtlich des Einflusses von Wissen auf Identifikations- und Evaluationsprozesse beim Diagnostizieren darstellen und es einer Replikation mit einer größeren Stichprobe bedarf. Darüber hinaus fokussiert die Studie ausschließlich auf zwei spezifische Kategorien schwierigkeitsgenerierender Aufgabenmerkmale. Die Schwierigkeit von Mathematikaufgaben ist von weiteren Aufgabenmerkmalen beeinflusst, etwa der sprachlichen Komplexität oder dem Grad der Formalisierung der Aufgabenstellung (vgl. Leuders und Prediger 2016). Ebenfalls weisen wir explizit darauf hin, dass die Aufgaben dieser Studie, wie auch die Intervention, für ihren Einsatz in einem experimentellen Setup entwickelt und für das Lernen zentrale Aufgabenkriterien (z. B. Offenheit, Differenzierungsvermögen, Authentizität; vgl. Büchter und Leuders 2016) nicht ausreichend berücksichtigt wurden. Instruktionen in der Lehrkräfteausbildung sollten ein breites Spektrum schwierigkeitsgenerierender Aufgabenmerkmale berücksichtigen sowie zentrale und für das Lernen relevante Aufgabenkriterien adressieren.

Weiterhin konnten in unserer Studie nur kurzfristige Auswirkungen einer Intervention über spezifische schwierigkeitsgenerierende Aufgabenmerkmale auf diagnostische Urteilsprozesse untersucht werden. Zukünftige Forschung sollte darüber hinaus auch langfristige Auswirkungen prüfen sowie potenzielle Interaktionseffekte zwischen den variierten Zwischensubjekt- und Innersubjektfaktoren näher beleuchten.

Darüber hinaus ist darauf hinzuweisen, dass bei dem Vorwissenstest dieser Studie neben den berichteten Reliabilitätskoeffizienten keine weiteren testtheoretischen Gütekriterien vorlagen. Aufgrund des spezifischen inhaltlichen Fokus (vgl. 4.2.2) konnte nicht auf bestehende Instrumente mit belegter Reliabilität und Validität zurückgegriffen werden. In zukünftigen Studien sollten daher weitere Gütekriterien untersucht werden. Darüber hinaus ist darauf hinzuweisen, dass aufgrund der relativ geringen Anzahl an Items (vgl. 4.2.2) nur erste Hinweise hinsichtlich des bereichsspezifischen Vorwissens gewonnen werden konnten, die mit Vorsicht zu interpretieren sind.

Durch die experimentelle Variation von spezifischem Wissen über schwierigkeitsgenerierende Aufgabenmerkmale wurde ein Faktor im Bereich der Personencharakteristika (vgl. Abb. 1) ermittelt, der diagnostische Urteile zu Aufgabenschwierigkeiten positiv beeinflusst. Schließlich stellt sich, insbesondere für den schulischen Kontext, die Frage, welche Rolle weitere Charakteristika der Lehrkraft (z. B. Berufserfahrung, Einstellungen, Motivation) beim Diagnostizieren von Aufgabenschwierigkeiten spielen. Diese Komponenten werden als weitere potenziell relevante Aspekte für das diagnostische Urteilen angesehen (vgl. Loibl et al. 2020; Südkamp et al. 2012) und sollten in zukünftigen Studien untersucht werden.

6.3 Fazit

Die Studie bestätigt die zentralen Modellannahmen zum Einfluss von Wissen auf Informationsverarbeitungsprozesse beim Diagnostizieren: Es konnte gezeigt werden, dass spezifisches Wissen angehende Lehrkräfte dazu befähigt, schwierigkeitsgenerierende Aufgabenmerkmale häufiger zu identifizieren und hinsichtlich ihrer Schwierigkeit für Schülerinnen und Schüler korrekt zu evaluieren. Dies konnte bei beiden Inhaltsbereichen (Brüche und Winkel) und Merkmalskategorien (fachlich/instruktional) festgestellt werden. Die Analyse der Eye-Tracking Daten legt darüber hinaus nahe, dass spezifisches Wissen schnellere Informationsverarbeitungsprozesse und ein effizienteres Vorgehen beim Diagnostizieren von Aufgabenschwierigkeiten ermöglicht. Diese Ergebnisse weisen auf einen Bedarf an Lerngelegenheiten zum Aufbau von spezifischem Wissen in der Lehrkräfteausbildung hin. Solche Instruktionen sollten ein breites Spektrum an schwierigkeitsgenerierenden Aufgabenmerkmalen (vgl. Leuders und Prediger 2016) adressieren.

Neben der aufgezeigten Praxisrelevanz soll auch der forschungsstrategische Ansatz dieser Studie hervorgehoben werden: In der vorliegenden Studie wurden die angenommenen Informationsverarbeitungsprozesse beim Diagnostizieren sowie potenzielle Einflussfaktoren theoretisch modelliert (hier: im DiaCoM-Rahmenmodell, vgl. Abb. 1). Anschließend wurden theoretische Voraussagen darüber getroffen, welche Personencharakteristika (hier: spezifisches Wissen) und welche Situationscharakteristika (hier: schwierigkeitsgenerierende Aufgabenmerkmale, Inhaltsbereich der Aufgabe, Prompt zur Sensibilisierung hinsichtlich diagnoserelevanter Merkmalskategorien) zu welchem diagnostischen Verhalten führen (vgl. Abschn. 3). Diese vermuteten Zusammenhänge wurden dann durch eine systematische Variation der Situationscharakteristika sowie der Personencharakteristika experimentell geprüft. Eine solche Forschungsstrategie ermöglicht es, Erklärungswissen über die Informationsverarbeitungsprozesse bei der Entstehung diagnostischer Urteile zu generieren, wie es vielfach gefordert wird (z. B. Herppich et al. 2018; Leuders et al. 2018).