1 Einleitung

Die erlernbare, professionelle Unterrichtsplanung (König et al. 2015) gilt als essenzielle Voraussetzung für einen lernwirksamen Unterricht (Yinger und Hendricks-Lee 1995). Denn seit den didaktischen Planungsansätzen der 1950er-Jahre (Scholl 2018) wird angenommen, dass die vorab getroffenen Planungsentscheidungen zur Qualitätsentwicklung der folgenden Unterrichtsdurchführung beitragen können (Wengert 1989). Ein solcher Beitrag wird diesen Entscheidungen unter anderem dann unterstellt, wenn sie die „zentrale generische Anforderung“ (König et al. 2015, S. 378) der Interdependenz erfüllen (Küth et al. 2021). Im Sinne dieser Anforderung, die inzwischen zu einem der bedeutendsten Metakriterien der Unterrichtsplanung geworden ist (Vogelsang und Riese 2017), soll in der Unterrichtsplanung eine „widerspruchsfreie Wechselwirkung der Planungsmomente“ (Schulz 1972, S. 45) durch die wechselseitige Abstimmung von Ziel‑, Inhalts‑, Methoden und Medienentscheidungen und deren jeweiligen Verschränkungen mit den situativen und individuellen Unterrichtsvoraussetzungen (z. B. mit dem Vorwissen oder den Kompetenzvorgaben des Kerncurriculums) hergestellt werden.

Ausdrücklich zum Gegenstand der empirischen Beschreibung von Planungsoperationen wurde das interdependente Entscheiden im Decision-Making-Paradigma der 1970er und 80er-Jahre (z. B. Bromme 1981; Shavelson und Stern 1981; Yinger 1980). Auch gegenwärtig wird die Anforderung der Interdependenz (bzw. Adaptivität als Teilaspekt) in die fachübergreifenden (s. zur Übersicht Rothland 2021) und fachbezogenen (z. B. Sachunterricht: Kirsch 2020; Physik: Schröder et al. 2020) Kompetenzmodelle zur Unterrichtsplanung aufgenommen.

Trotz der weiten Verbreitung dieser Planungsanforderung wurde das interdependente Planungsentscheiden bisher noch nicht näher in einem Rahmenmodell zu kennzeichnen und über einen spezifischen Test zu operationalisieren versucht, um es einer gründlicheren empirischen Untersuchung zugänglich zu machen. Eine solche Untersuchung wäre aber wichtig, um bekannte Probleme der Planungspraxis von (angehenden) Lehrkräften genauer aufzuklären, von der die „empirische Forschung zeigt […], dass u. a. die Interdependenz didaktischer Entscheidungen oft nur unzureichend berücksichtigt wird“ (Schrader und Schöb 2016, S. 331; Koeppen 1998; Mutton et al. 2011). Außerdem könnte eine theoretische und empirische Ausschärfung der Interdependenzanforderung helfen, dem Desiderat der empirisch zu wenig gestützten Berechtigung dieser Anforderung zu begegnen. Deshalb wird in diesem Beitrag ein Rahmenmodell interdependenten Entscheidens theoretisch hergeleitet und die Pilotierung und Validierung eines darauf basierenden Vignettentests berichtet. Ein Schwerpunkt liegt dabei auf der Prüfung der faktoriellen Validität als Teilaspekt von Konstruktvalidität (Jenßen et al. 2015) über die dimensionale Struktur eines multidimensionalen within-item Raschmodells.

2 Theoretischer Hintergrund

2.1 Interdependentes Planungsentscheiden in aktuellen Planungskompetenzmodellen

In den vorliegenden Planungskompetenzmodellen wird die Unterrichtsplanung zu den „kontextspezifische[n] kognitive[n] Leistungsdispositionen“ gezählt, „die sich funktional auf Situationen und Anforderungen in bestimmten Domänen beziehen“ (Klieme und Leutner 2006, S. 879). So modellieren z. B. König et al. (2017) die Planungskompetenz in Anlehnung an Blömeke et al. (2015) als wissensbasierte situationsspezifische Fähigkeit des Wahrnehmens von Planungsoptionen, deren Interpretation und Entscheidung. Die in diesem Modell fokussierten adaptiven Planungsentscheidungen, die sich auf „verschiedene Momente der Planung“ (König et al. 2015, S. 377) wie die Ziele, Inhalte, Methoden oder Medien beziehen können, werden als „ein fachunspezifischer Aspekt der Planungskompetenz“ (König et al. 2015, S. 377) und als Spezialfall interdependenten Entscheidens aufgefasst (König et al. 2017).

Stellvertretend lässt sich an diesem Modell verdeutlichen, dass das Planungsentscheiden einerseits auf einem bestimmten inhaltlichen Konzeptions- und Planungswissen als kognitiver Leistungsdisposition beruht (Baumert und Kunter 2006) und dementsprechend eine inhaltliche Dimension hat. In seinen fachübergreifenden, konzeptuellen Anteilen beinhaltet dieses Wissen beispielsweise allgemein- und fachdidaktische Planungsansätze (Schüle et al. 2017). Für die konkrete Anwendung dieser Ansätze umfasst dieses Wissen außerdem situative Anteile, z. B. die Kenntnis des lernbereichsspezifischen Vorwissens von Schüler*innen zu einem bestimmten Thema (De Jong und Ferguson-Hessler 1996). Anderseits wird an diesem Modell deutlich, dass dieses Wissen erst durch die wechselseitige Verknüpfung der jeweiligen Wissensanteile funktional für die situationsbezogene Unterrichtsplanung genutzt werden kann und das Planungsentscheiden folglich eine formale Dimension aufweist. Diese Dimension bezieht sich explizit auf die Fähigkeit zur interdependenten Inbeziehungsetzung einzelner Planungselemente. So wären beispielsweise für die Planung einer bestimmten Unterrichtsstunde die Methodenentscheidungen auf die Lernvoraussetzungen der Schüler*innen abzustimmen.

In bisherigen fachübergreifenden (z. B. Beck et al. 2008; König et al. 2020; Rey et al. 2018) und fachbezogenen (z. B. Kirsch 2020; Schröder et al. 2020) Planungsmodellen und -tests werden allerdings erst ausgewählte inhaltliche Entscheidungsaspekte (insbesondere Ziele bezogen auf Lernvoraussetzungen) oder das grundsätzliche Wissen über die Interdependenz (z. B. Schüle et al. 2017) berücksichtigt. Formal sind die Besonderheiten interdependenten Entscheidens in diesen Arbeiten kaum weiter differenziert. Methodisch wurden die Modelle und Tests zudem überwiegend nicht mit Stichproben praktizierender Lehrkräfte entwickelt, sondern mit Studierenden (Rothland 2021). Jene Stichproben wären aber ebenfalls bedeutsam, weil didaktische Planungsansätze in der Planungspraxis von einigen Lehrkräften nicht (Haas 1998) oder abhängig von deren berufsbiografischer Sozialisation (John 1991) aufgegriffen werden und die Planungskompetenz samt Planungsroutinen vermutlich lebenslang weiterentwickelt wird (Munthe und Conway 2017).

Aus diesen Gründen werden die inhaltliche und formale Dimension interdependenten Planungsentscheidens im Folgenden näher bestimmt, bevor ein Vignettentest mit entsprechenden Indikatoren vorgestellt und dessen Pilotierung an einer Stichprobe berichtet wird, die auch praktizierende Lehrkräfte umfasst.

2.2 Zur formalen Dimension des interdependenten Entscheidens

In einem weiten Sinne lässt sich Planen als konstruktiver Prozess des antizipierenden Reflektierens komplexer Interdependenzen von Entscheidungsoptionen unter Berücksichtigung jeweils relevanter Rahmenbedingungen zum Entwerfen von künftigen Handlungsmöglichkeiten definieren (Funke und Fritz 1995; Grunwald 2000; Mumford et al. 2001). Auf dieser Begriffsgrundlage kann die Unterrichtsplanung im engeren Sinne als Prozess der „anticipatory reflection“ (Conway 2001, S. 89) verstanden werden, in dem eine Lehrkraft „visualizes the future, inventories means and ends, and constructs a framework to guide his or her future action“ (Clark und Peterson 1986, S. 260).

Entsprechend kognitionspsychologischer Erkenntnisse des Decision-Making-Paradigmas umfasst das Planen als „instructional decisions made prior to the execution of plans during teaching“ (Sardo-Brown 1996, S. 519) zwei Stufen (Yinger 1980): Auf eine problemorientierte initiale Planungsidee und die Identifikation von Planungsoptionen hin (Stufe 1: problem-finding stage) folgt deren sukzessive Elaboration, gedankliche Testung sowie Modifikation zu einem Gesamtplan als zirkuläre und gestaffelte Abfolge von wechselwirkenden Planungsentscheidungen (Stufe 2: problem formulation und solution stage). Interdependentes Entscheiden findet folglich auf dieser zweiten Stufe statt.

Formal lässt sich die Operation des interdependenten Entscheidens als die Integration wenigstens zweier Entscheidungsoptionen (zum Beispiel zu Zielen und Methoden) definieren, die jeweils aus Entscheidungsalternativen gewählt und unter Berücksichtigung der Unterrichtssituation, der Lernvoraussetzungen der Schüler*innen sowie der angenommenen Effekte dieser Optionen wechselseitig aufeinander bezogen wurden (Fox et al. 2013; Shavelson und Stern 1981). Diese Operation kann in drei formale Fähigkeitsdimensionen (FD) differenziert werden, die den Zukunfts- (FD 1.1) und Wechselbezug (FD 1.2 und 1.3) des Entscheidens betreffen:

  • konditional interdependentes Entscheiden (Fähigkeitsdimension 1.1): Interdependenz heißt hier, die Folgen mindestens zweier verknüpfter Planungsentscheidungen in der Form vereinfachter Konditionalschlüsse (wenn a, dann b; von Wright 1974) antizipieren zu können.

  • begrenzt interdependentes Entscheiden (FD 1.2): Interdependenz im Sinne einer dynamischen (Westerman 1991) und relationalen Denkstruktur (Wing-mui So 1997) bedeutet in dieser Dimension, eine begrenzte Menge von Planungsoptionen im Planungsentscheiden untereinander und mit den identifizierten situativen Unterrichts- und individuellen Lernbedingungen gedanklich zu einem kohärenten Teilplan verbinden zu können.

  • (potenziell) unbegrenzt interdependentes Entscheiden (FD 1.3): Interdependenz in dieser Dimension als „complex interrelated decisions based on a series of reasons“ (Tang und Watkins 1994, S. 41) entspricht der generischen Interdependenzanforderung vollständig (Vogelsang und Riese 2017). Eine potenziell unbegrenzte Menge von Planungsoptionen kann im Planungsentscheiden durch Verknüpfungen untereinander und mit den identifizierten Unterrichts- und Lernbedingungen gedanklich zu einem Gesamtplan verbunden werden, „so that the whole has a coherent structure and meaning“ (Tang und Watkins 1994, S. 41).

2.3 Zur inhaltlichen Dimension des interdependenten Entscheidens

Übereinstimmend mit Shulmans (1987) Annahme werden Planungsentscheidungen auf der Grundlage eines spezifischen, allerdings teilweise impliziten (Stender 2014) Planungswissens mit fachlichen (z. B. Lui und Bonner 2016), fachdidaktischen und fachübergreifenden Bestandteilen (z. B. König et al. 2020) getroffen. Dieses Wissen gibt der formalen Dimension interdependenten Entscheidens gleichermaßen seine inhaltliche Richtung, wie es das Planen als „bounded rationality“ (Shavelson und Stern 1981, S. 456) einschränkt. Als solche fachübergreifenden und fachdidaktischen Bestandteile gelten national und international in beinahe allen didaktischen Planungsansätzen die Unterrichtsziele, -inhalte, -aktivitäten bzw. -methoden, -materialien bzw. -medien sowie die Unterrichts- und Lernbedingungen (Friesen 2010; Shavelson und Stern 1981; Zierer und Seel 2012). Obwohl Entscheidungen in der Planungspraxis oft nur unzureichend auf Details einzelner Planungsansätze bezogen werden (Bromme 1981; Zahorik 1975), lässt sich auch dort eine Systematik weniger und wechselwirkender Planungsbereiche empirisch identifizieren (z. B. Tillema 1984 oder jüngst König et al. 2021), die den angedeuteten übergreifenden Bereichen der Planungsansätze entspricht und als kategoriales Ordnungswissen für das Planungsentscheiden dient.

Unter Berücksichtigung der Schnittmengen in den Planungsmodellen und der empirischen Befunde zu praxisbedeutsamen Planungsbereichen können vier inhaltliche Fähigkeitsdimensionen des interdependenten Planungsentscheidens in einem fachübergreifenden und fachdidaktisch anschlussfähigen Rahmenmodell unterschieden werden. Interdependenz bedeutet hier, Entscheidungen zu Lehr-Lernaktivitäten im Wechselverhältnis der unterschiedenen Planungsbereiche zu treffen und diese Entscheidungen an die Unterrichts- und Lernvoraussetzungen zu adaptieren:

  • intentionales Entscheiden (FD 2.1): Unterrichtliche Lehr-Lernaktivitäten können an unterschiedlich abstrakten Lehr- und Lernzielen (Wittwer et al. 2020) für verschieden lange Planungszeiträume (Yinger 1980) ausgerichtet und als Teil eines (normativen) curricularen Handlungsrahmens institutionalisierten Unterrichts (Neumann 2020; Mutton et al. 2011) ausgewiesen werden.

  • thematisches Entscheiden (FD 2.2): Themen der Lehr-Lernaktivitäten können durch die „themenkonstituierende Funktion von Fragestellungen“ (Klafki 1996, S. 260) begründet ausgewählt, in ihren Elementen konkretisiert und in ihrem Ertrag als exemplarisch für einen übergeordneten thematischen Zusammenhang bestimmt werden (Rawson et al. 2015).

  • methodisches Entscheiden (FD 2.3): Lehr-Lernaktivitäten können in Form von Handlungsskripten (Borko und Livingston 1989; Stender et al. 2017) in eine sinnvolle ziel- und lernvoraussetzungsbezogene zeitliche Abfolge gebracht werden (König et al. 2021).

  • mediales Entscheiden (FD 2.4): Lehr-Lernaktivitäten können zielführend kommunikativ durch ausgewählte bzw. selbstgestaltete Medien vermittelt werden (Dijkstra 2004), die an die kognitiven Voraussetzungen der Informationsverarbeitung angepasst sind (Mayer 2014).

3 Forschungsfragen

Auf der Grundlage dieses skizzierten Rahmenmodells zielt die berichtete Studie darauf, einen Test zur Erfassung des theoretisch spezifizierten interdependenten Unterrichtsplanungsentscheidens zu entwickeln. Um dabei Hinweise auf Konstruktvalidität zu finden, soll die angenommene innere Struktur des Konstrukts geprüft werden (Jenßen et al. 2015). Zusätzlich sollen erste Aspekte der inhaltlichen und diskriminanten Validität betrachtet werden. So sollen auch Expert*innenurteile die Operationalisierung tragen und die Testergebnisse z. B. nicht mit den kognitiven Grundfähigkeiten der Teilnehmer*innen zusammenhängen, weil die professionelle Unterrichtsplanung als spezifisches Ergebnis eines berufsbezogenen Lernprozesses erachtet wird (König et al. 2015). Die leitenden Forschungsfragen lauten:

  1. 1.

    Kann das angenommene zweidimensionale (formale und inhaltliche) Rahmenmodell interdependenten Entscheidens faktoriell valide (als Teilaspekt von Konstruktvalidität) in einem standardisierten, raschhomogenen Test abgebildet werden?

  2. 2.

    Lassen sich während der Entwicklung und Pilotierung des Tests Hinweise auf dessen inhaltliche und die diskriminante Validität finden?

4 Methode

4.1 Testkonstruktion

Unter Rückgriff auf die Stärken von vignettengestützten Testverfahren (Friesen und Feige 2020) und bei Beachtung planungstestkritischer Aspekte (Rothland 2021) wurde entschieden, das Rahmenmodell interdependenten Planungsentscheidens mittels eines Vignettentests zu operationalisieren. Obwohl offene Vignetten (s. zur Übersicht Weingarten 2019) für die Unterrichtsplanung die Chance bieten, die Komplexität dieses konstruktiven Problemlöse- und Entscheidungsprozesses samt aktiver Identifikation von Entscheidungsoptionen umfassender zu erfassen, wurde ein geschlossenes Testverfahren (Rutsch et al. 2018) gewählt: Der Test sollte ökonomisch einsetzbar sein und dabei analytisch scharf nur auf das interdependente Entscheiden als Teilprozess der Unterrichtsplanung zielen. Zur Stimulation dieses Teilprozesses sollten bereits identifizierte und auszuwählende Planungsoptionen unter gedanklicher Vorwegnahme ihrer möglichen Folgen auf ihre Stimmigkeit (Kohärenz) hin geprüft werden. Durch die alleinige Abbildung dieses Teilprozesses sollten außerdem die weitergehenden kognitiven Herausforderungen und zusätzlichen Planungsprobleme insbesondere von Noviz*innen bei der komplexen Planungsaufgabe möglichst geringgehalten werden (Gassmann 2013).

Für die Entwicklung dieses Tests wurde einer rationalen Testkonstruktionsstrategie gefolgt (Moosbrugger und Brandt 2020). Hierbei wurden zunächst die Anforderungen an die Struktur doppeltgeladener Items (formale und inhaltliche Dimension) theoretisch aus dem zweidimensionalen Rahmenmodell abgeleitet. Anschließend wurden entsprechende Items in zwei Schritten entwickelt.

4.2 Schritt 1 – Itemformulierung

Gemeinsam mit einer erfahrenen Grundschullehrkraft (30 Jahre Berufspraxis) wurden realitätsnahe Unterrichtsplanungssituationen und Planungsentscheidungsoptionen als Vignetten formuliert. Diese Vignetten wurden jeweils einer der drei formalen und einer der vier inhaltlichen Fähigkeitsdimensionen zugeordnet (s. Tab. 1). Zur Vermeidung fachlicher Einseitigkeiten sollten die Unterrichtsplanungssituationen ein (fremd-)sprachliches, naturwissenschaftliches, mathematisches und sachunterrichtliches Planungsspektrum abbilden.

Tab. 1 Zuteilung der Vignetten zu den angenommenen Fähigkeitsdimensionen und Einführung der Vignettenkürzel

4.3 Schritt 2 – Leitfadengestütztes Expert*innenrating der Items zur Prüfung der Inhaltsvalidität und Itemüberarbeitung

Um Hinweise auf die Inhaltsvalidität der entwickelten Vignetten zu erhalten, wurden die Vignetten von drei Fachdidaktiker*innen für Englisch, Mathematik und Sachunterricht als Expert*innen beurteilt. Definiert und gewählt wurden diese Expert*innen (Bauder 2013) anhand von drei Kriterien: Für die inhaltliche und methodische Einschätzung des theoretischen Hintergrunds der Studie und der Operationalisierung durch die Vignetten sollten die Expert*innen erstens über eine wissenschaftliche und in Publikationen ausgewiesene fachdidaktische Expertise verfügen. Zur Einschätzung der Unterrichtsplanung als Aspekt der professionellen Entwicklung von (angehenden) Lehrkräften sollten die Expert*innen zweitens seit mehreren Jahren in der Lehramtsausbildung tätig sein. Um bei dieser Einschätzung außerdem die Besonderheiten (der Planung) des alltäglichen Unterrichts berücksichtigen zu können, die sich nicht aus der Literatur erschließen lassen und die das Entscheidungsverhalten im Test beeinflussen könnten, sollten die Expert*innen drittens mehrere Jahre lang Erfahrungen mit der Praxis der Unterrichtsplanung als Lehrkräfte in einer Schule gesammelt haben.

Die ausgewählten Expert*innen wurden gebeten, die ihnen fachlich zugeordneten Planungssituationen und Vignetten entlang einer Systematik von fünf Leitfragen schriftlich zu beurteilen. Auf eine Standardisierung dieser Fragen wurde zugunsten einer differenzierten inhaltlich-argumentativen Auseinandersetzung mit den Situationen und Vignetten verzichtet (Döring und Bortz 2016). Die Leitfragen bezogen sich auf 1. die Nähe der Vignetten zum realen Fachunterricht, 2. die fachliche und fachdidaktische Korrektheit der Vignetten, 3. die fachdidaktische Stimmigkeit der Begründungen für die im Vergleich zu den Distraktoren kohärenteste Planungsentscheidung und Unabhängigkeit von eventuell leitenden schulpraktischen oder fachdidaktischen Planungserwägungen, 4. die Disjunktheit der Vignetten und 5. die Angemessenheit der Vignetten als Indikatoren für das Rahmenmodell interdependenten Entscheidens.

Die verschriftlichten Beurteilungen wurden mit den Expert*innen diskutiert, bevor die Änderungsvorschläge in die Vignetten eingearbeitet wurden (z. B. Verzicht auf das Wort „Mathematikbuch“ als möglichem Hinweisreiz auf eine „sozial unerwünschte Antwort“, weil eine alleinig lehrbuchgestützte Unterrichtplanung unter Mathematiklehrkräften als problematisch gelten könnte). Die Überarbeitung wurde den Expert*innen schließlich erneut zur Prüfung vorgelegt.

4.4 Instrument

Insgesamt wurden zu vier Themenbereichen jeweils drei, zusammengenommen also zwölf disjunkte Vignetten entwickelt, in denen interdependente Planungsentscheidungen auf eine Unterrichtssituation zu beziehen sind (s. Tab. 1; Abb. 1). Nach vier Testdurchläufen mit Studierenden wurden 30 min als wahrscheinliche Testbearbeitungsdauer angegeben.

Abb. 1
figure 1

Beispielvignetten zur Verkehrserziehung im Sachunterricht der Jahrgangsstufe 2 an einer Grundschule jeweils mit der richtigen Antwort (A) und einem von drei Distraktoren (B) als Beispiel

Jede der zwölf Vignetten weist die gleiche Struktur auf (vgl. Abb. 1):

  1. a)

    Zunächst wird eine gemeinsame Unterrichtssituation für jeweils drei Vignetten anhand situativer Unterrichtsbedingungen und individueller Lernvoraussetzungen der Schüler*innen beschrieben, für die interdependente Planungsentscheiden zu treffen sind.

  2. b)

    Anschließend folgt die Instruktion, in jeder Vignette die Planungsentscheidung auszuwählen, „die die Planungssituation am stimmigsten berücksichtigt“. Dabei wird angenommen, dass diese Entscheidung nur als Ergebnis vorausgehender eigener interdependenter Planungsüberlegungen zu den vorgegebenen Planungsoptionen auf Planungsstufe 2 gewählt werden kann.

  3. c)

    Zur Operationalisierung der drei formalen Fähigkeitsdimensionen werden für jede der vier Planungssituationen drei disjunkte Vignetten à vier Planungsentscheidungen als Antwortmöglichkeiten präsentiert: VE 1 – zwei verknüpfte Planungsoptionen und deren Folge in Varianten von Konditionalaussagen als Indikator für konditionales Entscheiden (FD 1.1); VE 2 – Planungsentscheidungen mit zwei verknüpften Planungsoptionen als Indikator für begrenzt interdependentes Entscheiden (FD 1.2); VE 3 – Entscheidungen mit vier verknüpften Planungsoptionen als Indikator für (potenziell) unbegrenzt interdependentes Entscheiden (FD 1.3). In jeder Vignette ist genau eine – die kohärenteste – Entscheidung zu wählen, bei der die Planungsoptionen im Unterschied zu den Distraktoren stimmig untereinander und mit den situativen Unterrichts- und individuellen Lernbedingungen verknüpft sind.

Die inhaltliche Fähigkeitsdimension wird dadurch operationalisiert, dass jede Vignette schwerpunktmäßig für intentionales (FD 2.1), thematisches (FD 2.2), methodisches (FD 2.3) oder mediales (FD 2.4) Entscheiden steht. Zur Vermeidung von Überschneidungen beziehen sich die jeweiligen Planungsoptionen in den Entscheidungen auf unterschiedliche situative und individuelle Bedingungen der Planungssituation. Um den Einfluss weiterführenden fachlichen und fachdidaktischen Wissens oder eventueller Stärken bzw. Schwächen in einer der inhaltlichen Entscheidungsdimensionen auf das interdependente Planungsentscheiden auszuschließen, sind jeweils nur zwei der drei Vignetten zu einer Situation derselben inhaltlichen Dimension zugeordnet.

4.5 Design der weiteren Validitätsprüfung

Zur Feststellung faktorieller Validität als Teilaspekt der Konstruktvalidität (Jenßen et al. 2015) wurde die innere Struktur des Konstrukts geprüft, das über das vorgestellte Instrument operationalisiert wurde. Dazu wurden die dimensionale Struktur und die Raschhomogenität der Vignetten untersucht. Die notwendigen Daten wurden in einer querschnittlichen Onlineuntersuchung gewonnen, bei der die Teilnehmer*innen alle zwölf Vignetten zu den vier Planungssituationen bearbeiteten. Die Reihenfolge der vier Planungssituationen, der jeweiligen drei Vignetten pro Planungssituation und der jeweils vier Antwortmöglichkeiten pro Vignette wurde randomisiert. Um außerdem erste Hinweise auf die diskriminante Validität zu erhalten, wurde der Zusammenhang der erhobenen Abiturnote der Teilnehmer*innen als Schätzer der kognitiven Grundfähigkeiten (in einem ähnlichen Zusammenhang, s. z. B. König et al. 2015) mit dem Testscore geprüft.

4.6 Pilotierungsstichprobe

Die Stichprobe sollte mindestens je 100 praktizierende Lehrkräfte (Rothland 2021) und Lehramtsstudierende umfassen, um eine Raschmodellierung mit höherer Schätzgenauigkeit und Modellgüte zu ermöglichen (Rost 2004) und ein breites Spektrum der Itemschwierigkeiten und Personenfähigkeitsparameter abzubilden. Die praktizierenden Lehrkräfte wurden über soziale Medien rekrutiert, die Studierenden über Seminare an verschiedenen Universitätsstandorten und über (digitale) Aushänge an der Universität Vechta. Als Incentive wurden 20 Gutscheine verlost.

Insgesamt haben 941 Personen mindestens eine Testvignette bearbeitet, von denen 369 Personen (39,2 %) den Test komplett abgeschlossen haben (126 Lehramtsstudierende, 172 praktizierende Lehrkräfte, 15 Referendar*innen und 56 Personen mit anderen Tätigkeiten (Nicht-Lehramtsstudierende, Dozierende, Fortbildende)). Bei 178 Personen mit fehlenden Werten, die aber mindestens drei Vignetten vollständig bearbeitet haben, wurden die fehlenden Testwerte bei der Schätzung der Item- und Modellparameter berücksichtigt. Damit bestand die Analysestichprobe aus insgesamt N = 547 Personen.

Die 369 teilnehmenden Personen ohne fehlende Werte im Test sind durchschnittlich 35 Jahre alt (M = 35,06, SD = 12,81; Lehramtsstudierende M = 23,48, SD = 3,58; Lehrkräfte M = 42,37, SD = 10,58) und kommen aus Niedersachsen (52,6 %), Nordrhein-Westfalen (19,0 %) sowie den anderen Bundesländern mit Ausnahme des Saarlands. 290 (78,6 %) der Teilnehmenden sind weiblich, 71 (19,2 %) männlich und drei (0,8 %) divers. Fünf (1,4 %) haben keine Angabe gemacht. Die 313 Lehramtsstudierenden, Lehrkräfte und Referendar*innen studieren bzw. unterrichten im Durchschnitt zwei Fächer (M = 2,25, SD = 0,82): 207 mindestens eine Sprache, 149 Mathematik/Naturwissenschaften, 71 Sachunterricht, 152 Gesellschaftswissenschaften, 35 Musik/Kunst und 26 Sport. Mit 127 ordnen sich die meisten der 313 Lehrkräfte, Lehramtsstudierenden und Referendar*innen der Grundschule zu, 82 dem Gymnasium, 32 der Realschule, 20 der Oberschule, je 16 der Gesamt- und der Berufsschule und 20 anderen Schulen.

4.7 Statistische Auswertung

Für die Untersuchung der dimensionalen Struktur des Tests (Konstruktvalidität) wurde zunächst ein eindimensionales Raschmodell in Acer ConQuest 4.0 (Adams et al. 2015) spezifiziert (Modell 1). Anschließend wurden diesem Modell zwei multidimensionale between-item Raschmodelle (Adams et al. 1997) mit den drei formalen (Modell 2) und den vier inhaltlichen (Modell 3) Dimensionen der Planungsfähigkeit gegenübergestellt. Zum Schluss wurden diese beiden Modelle in ein multidimensionales within-item Raschmodell (Modell 4; ebd.) überführt (s. Abb. 2 für alle vier Modelle), dessen Güte mittels Deviance-Test (Rost 2004) mit den vorherigen drei Modellspezifikationen verglichen wurde. Außerdem wurden die Zusammenhänge zwischen der Abiturnote als Schätzer der kognitiven Grundfähigkeiten und dem Testscore betrachtet (diskriminante Validität).

Abb. 2
figure 2

Schematische Darstellung der vier Vergleichsmodelle

Zur Prüfung der Raschhomogenität der einzelnen Items wurde der Infit der Items auf Basis der weighted MNSQ-Werte betrachtet. Mithilfe der von ConQuest ausgegebenen T-Test-Statistik und der Daumenregel von Adams und Khoo (1996) wurde festgestellt, inwieweit die jeweiligen Infit-Werte vom erwarteten Wert 1 abweichen. Im Sinne dieser Daumenregel weichen Items im Intervall 0,75 ≤ wMNSQ ≤ 1,3 nicht bedeutsam von dem wMNSQ von 1 ab, der unter den Bedingungen des Raschmodells zu erwarten ist. Neben diesen probabilistischen Testkennwerten wurde die Güte des Tests auch anhand von Maßen der klassischen Testtheorie beurteilt. Auf Itemebene wurden die in ConQuest ausgegebene Schwierigkeit und Trennschärfe in Form der Item-Discrimination-Parameter sowie die für die einzelnen Dimensionen in ConQuest ermittelten EAP-Reliabilitäten in den Blick genommen.

5 Ergebnisse

5.1 Prüfung der dimensionalen Struktur

Die Ergebnisse der Deviance-Tests für die Gegenüberstellung der Modelle sind Tab. 2 zu entnehmen. Das eindimensionale Modell (Modell 1) bildet die Fähigkeitsstruktur signifikant besser ab als das dreidimensionale (Modell 2) und das vierdimensionale (Modell 3) between-item Modell. Diese drei Modelle unterscheiden sich allerdings signifikant von dem multidimensionalen within-item-Modell (Modell 4), das den geringsten Abweichungskoeffizienten aufzeigt und damit die Fähigkeitsstruktur am besten abbildet. Die postulierten formalen und inhaltlichen Fähigkeitsdimensionen können also empirisch abgebildet werden.

Tab. 2 Ergebnisse der Deviance-Tests

5.2 Itemanalyse

Tab. 3 zeigt die Ergebnisse der probabilistischen und klassischen Itemanalyse für Modell 4 im Überblick. Die Infit-bezogenen wMNSQ variieren im Bereich von 0,91 ≤ wMNSQ ≤ 1,1 und liegen trotz der im T-Wert ersichtlichen Abweichung von Item VE 2 (1.2, 2.3) vom raschbezogenen Erwartungswert des Infits von 1 im Daumenbereich von Adams und Khoo (1996). Insofern ist von einer hinreichenden Homogenität der Items gemäß den Bedingungen des Raschmodells auszugehen. Die Itemschwierigkeiten liegen dabei im Intervall −0,04 ≤ pi ≤ 1,23 und die einzelnen Schwierigkeitsparameter der Items überwiegend im mittleren Bereich. Auf der Ebene individueller Items zeigt sich deskriptiv keine eindeutige Abstufung in Abhängigkeit von der formalen Dimension. Zwar ist beispielsweise das (mit Abstand) schwerste Item (ER 3) der formalen Fähigkeitsdimension 1.3 zuzuordnen, das zweitschwerste (ER 1) aber der Dimension 1.1 und das leichteste (VE 2) der Dimension 1.2. Die Discriminationparameter im Bereich von 0,29 ≤ rit ≤ 0,60 zeigen eine akzeptable bis hinreichend gute Trennschärfe der einzelnen Items.

Tab. 3 Itemschwierigkeitsparameter des within-Item-Modells (Modell 4) sowie Angaben zum Weighted Item Fit (Mean Square, Konfidenzintervall, T‑Wert) und zur Itemdiscrimination

Die Reliabilitäten der sieben Fähigkeitsdimensionen einschließlich ihrer Varianz und interkorrelativen Zusammenhänge sind in Tab. 4 abgetragen. Die EAP-Reliabilitäten liegen im Bereich von 0,57 ≤ EAP ≤ 0,67 und sind mit Ausnahme der Fähigkeitsdimension 2.4 als hinreichend akzeptabel zu bewerten. Die jeweiligen Interkorrelationen zwischen den Dimensionen variieren ferner im Intervall −0,17 ≤ r ≤ 0,81. Insbesondere die Fähigkeitsdimension 2.4 zeigt sehr kleine und zum Teil negative Korrelationen mit den formalen Fähigkeitsdimensionen, ebenso Fähigkeitsdimension 2.3 mit Fähigkeitsdimension 1.3.

Tab. 4 Reliabilität und Varianzen der Fähigkeitsdimensionen und messfehlerbereinigte Zusammenhänge

5.3 Zusammenhänge zwischen dem Testscore für die drei formalen Fähigkeitsdimensionen und den kognitiven Grundfähigkeiten

Als Schätzer für die kognitiven Grundfähigkeiten wurden die Abiturnoten der Teilnehmer*innen herangezogen. Für die Gesamtstichprobe zeigt sich ein zwar statistisch signifikanter, aber nicht inhaltlich bedeutsamer Zusammenhang zwischen diesen Noten und der Fähigkeitsdimension 1.1 (konditionales Entscheiden), r (360) = −0,12, p = 0,018: Eine bessere (niedrigere) Abiturnote geht also mit einem höheren Score (und damit mehr gelösten Items) einher.

Um etwaige Effekte des Lernstandes unterrichtsplanerischer Fähigkeiten genauer zu prüfen, wurden die zwei Gruppen der Lehramtsstudierenden und der Lehrkräfte getrennt voneinander untersucht. Für die Lehramtsstudierenden findet sich dieselbe statistisch signifikante, jedoch praktisch nicht bedeutsame Korrelation zwischen der Abiturnote und Fähigkeitsdimension 1.1, r (126) = −0,18, p = 0,045. Für die Lehrkräfte können dagegen keine signifikanten Korrelationen zwischen deren Abiturnoten und den drei formalen Fähigkeitsdimensionen festgestellt werden.

6 Diskussion

In einer Linie mit didaktischen Ansätzen und Studien des Decision-Making-Paradigmas wird in aktuellen Unterrichtsplanungskompetenzmodellen zwar die Bedeutung interdependenten Planungsentscheidens betont, allerdings noch nicht in den empirischen Forschungsfokus gerückt. Deshalb wurde in diesem Beitrag ein zweidimensionales Rahmenmodell mit einer formalen (konditionales, begrenzt und potenziell unbegrenzt interdependentes Entscheiden) und einer inhaltlichen Fähigkeitsdimension (intentionales, thematisches, methodisches und mediales Entscheiden) zusammen mit einem vignettenbasierten Test vorgestellt.

Hinsichtlich der ersten Forschungsfrage nach der Konstruktvalidität ist positiv an der Pilotierung des Tests zu werten, dass die postulierten Fähigkeitsdimensionen empirisch in einem mehrdimensionalen Raschmodell abbildbar sind. Die erfolgreiche Prüfung der faktoriellen Validität des Tests liefert also einen Hinweis auf die Konstruktvalidität. Damit liegt erstmals ein komplexer, aber ökonomisch einsetzbarer Fähigkeitstest zur Erweiterung vorhandener Instrumente vor, mit dem unterschiedliche Fähigkeitsdimensionen interdependenten Unterscheidens untersuchbar werden. Dabei kann die empiriegestützte Spezifikation des Planungsentscheidens als Chance für die Verknüpfung der zum Teil sehr verschiedenen Ansätze verstanden werden (Rothland 2021), die die Interdependenzannahme teilen.

Auch eine zurückhaltend bejahende Antwort der zweiten Forschungsfrage nach der inhaltlichen und diskriminanten Validität wird von den Ergebnissen getragen. So wurden mithilfe von Expert*innenurteilen Anzeichen für die Inhaltsvalidität des Tests gefunden; und die Betrachtung des Zusammenhangs zwischen dem interdependenten Planungsentscheiden und der Abiturnote als Schätzer für kognitive Grundfähigkeiten in den beiden Teilstichproben der Lehramtsstudierenden und der Lehrkräfte zeigt, dass (angehende) Lehrkräfte kaum von ausgeprägteren Grundfähigkeiten zu profitieren scheinen. Dieser Befund spricht für eine gewisse Unabhängigkeit der Testbearbeitung von diesen Fähigkeiten und damit für die diskriminante Validität als weiterem stützenden Aspekt der Konstruktvalidität. Möglicherweise wird mit dem Test also ein Teil einer professionellen Kompetenz erfasst, die es in einem spezifischen berufsbiografischen Entwicklungsprozess zu lernen gilt. Ein Nebenertrag der Einbeziehung von Lehrkräften in diese Validitätsprüfung ist außerdem, dass die Befunde auf die Gültigkeit von Annahmen zur Unterrichtsplanungskompetenz auch in der beruflichen Praxis hindeuten. Eventuell sind diese Annahmen deshalb kein alleiniges „Phänomen der Lehrer*innenbildung“ (o. S.), wie es Rothland (2021) bezogen auf bisherige Testentwicklungen nur mit Studierenden fragend anmerkt.

Diese Ergebnisse, die auf einer nicht repräsentativen Stichprobe basieren, unterliegen allerdings einigen Limitationen. So erhärten zwar die Hinweise auf faktorielle und diskriminante Validität die Annahme von Konstruktvalidität. Dennoch sollten künftig zusätzlich die konvergente Validität z. B. im Abgleich mit Ergebnissen zu offenen und domänenspezifischen Testvignetten (z. B. Kirsch 2020) oder die prognostische Validität z. B. im Vergleich mit späteren Unterrichtsentwürfen (König et al. 2015) überprüft werden. Zudem wurden die Hinweise auf Inhaltsvalidität zwar mithilfe kriteriengeleitet gewählter Expert*innen systematisch gewonnen. Gemäß jüngeren Empfehlungen sollten diese Hinweise aber mit einer standardisierten Befragung einer größeren Expert*innengruppe abgesichert werden (Jenßen et al. 2015).

Auch weitere messtheoretische und inhaltliche Limitationen schränken die Aussagekraft der Ergebnisse ein. Die Lösungswahrscheinlichkeiten und Itemschwierigkeiten zeigen deskriptiv keine Tendenz zu einer Abstufung der formalen Fähigkeitsdimensionen, die jedoch bei der zunehmenden Komplexität der Dimensionen (zumindest hinsichtlich FD 1.2 und 1.3) angenommen werden könnte. Möglicherweise stehen das Rahmenmodell und der Test deshalb lediglich für die dimensionale Struktur interdependenten Entscheidens, nicht aber für eine potenzielle Stufung. Die Reliabilitäten sind nur akzeptabel, was der Vorgabe von Planungsentscheidungen für einen eigentlich offenen und kreativen Problemlöseprozess (Vogelsang und Riese 2017) und der Tatsache geschuldet sein könnte, dass der Test nicht an der initialen Planungsidee ansetzt. Diese Planungsidee samt der aktiven Identifikation und Elaboration von Entscheidungsoptionen könnte aber für die wechselseitige Verknüpfung der Planungsentscheidungen im weiteren Planungsverlauf wichtig sein. Selbst bei der Fokussierung des Teilprozesses interdependenten Entscheidens, dessen vignettenbasierte Abbildung die analytische Stärke des Tests ausmachen soll, wird die Komplexität der wahrzunehmenden und zu interpretierenden Planungsoptionen der Unterrichtssituation nur reduziert und für ausgewählte Schulfächer dargestellt. Deshalb sind lediglich Grob-, aber noch keine Detailplanungsentscheidungen möglich, die darüber hinaus unbeeinflusst von schulischen, fachlichen oder fachdidaktischen Faktoren getroffen werden können. Bei derartigen Entscheidungen können die Teilnehmenden allerdings kein differenzierteres fachliches oder fachdidaktisches Planungswissen bzw. keine elaborierten fachbezogenen Planungsroutinen abrufen. In der Mathematikvignette zeigt sich diese Einschränkung z. B. daran, dass keine Lernaufgaben als zentralem Bezugspunkt mathematikdidaktischer Modelle (z. B. Heckmann und Padberg 2014) geplant werden können.

Trotz dieser Limitationen können das Rahmenmodell und der entwickelte Test zur Suche nach Antworten auf eine der empirisch überraschend offenen Grundsatzfragen zur Unterrichtsplanung beitragen. Denn bisher ist ungeklärt, „wie fachübergreifend eine ‚gute‘ Unterrichtsplanung“ und „wie eine qualitätsvolle Planungsperformanz empirisch zu identifizieren und bestimmen ist“ (Rothland 2021, o. S.). Die berichteten Erträge machen nun eine empirische Untersuchung der Wirkungen der Unterrichtsplanung (und damit eine Evidenzbasierung von Prinzipien für eine ‚gute‘ Unterrichtsplanung) denkbar: Hängt das (allgemein-)didaktische Wissen über Interdependenz (Schüle et al. 2017) mit der situationsspezifischen Fähigkeit interdependenten Entscheidens (der vorgestellte Test) zusammen und lässt sich darüber vermittelt auch die Kohärenz eines schriftlichen Unterrichtsentwurfs (König et al. 2015) und in der Folge eine veränderte Performanzqualität des Unterrichts erklären?