1 Einleitung

Die empirische Forschung zur Messung und Modellierung der Kompetenzen angehender wie berufstätiger Lehrkräfte hat in den vergangenen Jahren erheblich zugenommen (Baumert 2016). Zahlreiche Ansätze bringen die testdiagnostische Erfassung von professionellem Wissen voran (z. B. pädagogisches Wissen: Voss et al. 2015; fachdidaktisches Wissen: Krauss et al. 2017). Außerdem erfolgen aktuell modellhafte Erweiterungen, die stärker situationsspezifische Fähigkeiten als weitere Kompetenzfacetten in den Blick nehmen (Blömeke et al. 2015), zum Beispiel im Bereich der kognitiven Anforderung einer professionellen Unterrichtswahrnehmung (u. a. Van Es und Sherin 2002). Als situationsspezifisch können auch kognitive Anforderungen der Unterrichtsplanung, die von Lehrkräften bewältigt werden sollen, angesehen werden – so ist z. B. die Planungssituation stark bestimmt von der jeweils zu unterrichtenden Lerngruppe (John 2006; Mutton et al. 2011). Entsprechend wurde vorgeschlagen, im Bereich der Unterrichtsplanung insbesondere auf situationsspezifische Fähigkeiten zu fokussieren, diese zu messen und zu operationalisieren (König et al. 24,26,a, b, 2021).

Der Beitrag greift diese Überlegungen auf und bezieht sie auf ein standardisiertes Testinstrument: Vorgestellt wird ein neu entwickelter Test zur Erfassung von situationsspezifischen Fähigkeiten der Unterrichtsplanung im Fach Deutsch bei angehenden und berufstätigen Sekundarstufenlehrkräften. Er besteht aus drei komplexen Textvignetten, die typische Planungssituationen illustrieren. Die anschließenden Testfragen beziehen sich auf die Vignetten und messen die Bewältigung von kognitiven Anforderungen der Unterrichtsplanung. Diese Anforderungen wurden zuvor im Rahmen des Projekts „Die Bedeutung des professionellen Wissens angehender Deutschlehrkräfte für ihre Planung von Unterricht – Planungskompetenz von Lehrerinnen und Lehrern mit Fach Deutsch“ (PlanvoLL‑D; König et al. 24,26,a, b) auf der Basis schriftlicher Unterrichtsplanungen empirisch ermittelt und modelliert (König et al. 2021). Zur Testentwicklung wurden zunächst Pilotstudien durchgeführt. Die Daten der vorliegenden Studie wurden anschließend unter Einsatz des finalisierten Tests erhoben. Zielgruppe sind angehende bzw. berufstätige Lehrkräfte mit Fach Deutsch für die Sekundarstufe I bzw. Sekundarstufe I und II. Die Untersuchungsstichproben I und II bestehen aus 81 Bachelor- und 75 Masterstudierenden einer Volluniversität, die sich zum Zeitpunkt der Testung (Sommersemester 2020) jeweils im vierten Semester ihres Lehramtsstudiengangs befanden. Untersuchungsstichproben III und IV bestehen aus Referendar*innen sowie berufstätigen Junglehrkräften. Neben dem Textvignetten-Test bearbeiteten alle Proband*innen auch einen Test zu ihrem deutschdidaktischen Wissen (König und Bremerich-Vos 2020).

Im Beitrag werden folgende Fragen zur Reliabilität und Validität bearbeitet: Erlaubt der Test eine reliable Messung? Lassen sich kognitive Anforderungen der Unterrichtsplanung über Subskalen des Tests strukturell abbilden? Zeigt sich ein besseres Abschneiden in Abhängigkeit von der vorliegenden Unterrichtserfahrung (Bachelorstudierende, Masterstudierende mit Praxissemester-Erfahrung, Referendar*innen, berufstätige Junglehrkräfte)? Lässt sich die über den Textvignetten-Test ermittelte situationsspezifische Fähigkeit zur Unterrichtsplanung durch das deutschdidaktische Wissen regressionsanalytisch erklären?

2 Stand der Forschung

2.1 Unterrichtsplanung als Kompetenz von (angehenden) Lehrkräften

Die Planung von Unterricht ist Teil der alltäglichen Arbeit von Lehrer*innen. Unterrichtsplanung stellt dabei kognitive Anforderungen an Lehrer*innen, die bewältigt werden müssen, bevor der tatsächliche Unterricht als Interaktion zwischen Lehrperson und Schüler*innen stattfinden kann. Aus diesem Grund haben viele Lehrer*innenbildungsprogramme weltweit zum Ziel, angehende Lehrkräfte im Bereich der Unterrichtsplanung auszubilden. In Deutschland wie auch in vielen anderen Ländern gehören die Anfertigung von schriftlichen Planungen und das Halten von Lehrproben zum Kern der Ausbildung und sie spielen im Zuge der Beurteilung und Zertifizierung von Lehrer*innen eine bedeutsame Rolle (Strietholt und Terhart 2009; König 2020).

Obgleich den Fähigkeiten, die im Zuge der Unterrichtsplanung bei der Ausübung des Lehrberufs benötigt und daher bereits in der Lehrer*innenbildung berücksichtigt werden sollen, eine hohe Bedeutung beigemessen wird, dominieren in diesem Bereich der Lehrer*innenbildung seit Jahrzehnten Ratgeberliteratur bzw. präskriptive Planungskonzepte. So konnte zum Beispiel Scholl (2018) für die allgemeindidaktische Unterrichtsplanung mehr als 100 Ansätze identifizieren, die im deutschsprachigen Raum in der zweiten Hälfte des 20. Jahrhunderts veröffentlicht worden waren, jedoch weder zueinander systematisch in Beziehung stehen, noch jemals empirisch untersucht worden waren. Ähnliches berichtet John (2006) für die Situation in Großbritannien.

Im Gegensatz dazu hat die empirische Forschung zu Kognitionen, zur Expertise und zu Kompetenzen von Lehrer*innen spezifische Anforderungen der Unterrichtsplanung auf empirische Forschungsansätze bezogen. Bereits in den 1970er-Jahren nutzte die Forschung zur Entscheidungsfindung bei Lehrkräften (teacher decision-making) die Unterrichtsplanung als wichtiges Feld empirischer Lehr-Lernforschung (z. B. Shavelson et al. 1977; Shavelson und Stern 1981; Shavelson 1983). Frühe Forschung zur Lehrer*innenexpertise verwendete die Unterrichtsplanung als Gegenstand ihrer empirischen Analyse (Bromme 1981; Clark und Peterson 1986; Sabers et al. 1991), und auch aktuelle Überblicksdarstellungen zur Lehrer*innenexpertise nehmen auf die Planung von Unterricht deutlich Bezug (Stigler und Miller 2018). Mit dem starken Aufkommen testdiagnostischer Verfahren zur Messung von kognitiven Facetten professioneller Lehrkompetenzen werden in jüngster Zeit auch zunehmend spezifische Anforderungen der Unterrichtsplanung von der Forschung zu Lehrer*innenkompetenzen adressiert (vgl. Wernke und Zierer 2017; im Überblick).

Im deutschsprachigen Raum liegen mehrere Verfahren vor, die mithilfe von Selbsteinschätzungen die allgemeindidaktische Planungskompetenz bei angehenden Lehrkräften messen (Rothland 2021; im Überblick). Als testdiagnostisch im engeren Sinne hingegen gelten Vignettentests, die eine oder mehrere Planungssituationen kontextualisieren und daraufhin von den Proband*innen die Bearbeitung von Planungstestaufgaben verlangen. So haben beispielsweise Schröder et al. (2020) für das Fach Physik einen Vignettentest entwickelt, der für die Planung benötigte, handlungsnahe Fähigkeiten angehender Lehrkräfte im Schulpraktikum in einer simulierten Handlungssituation unter standardisierten Rahmenbedingungen messen soll. Ebenfalls für das Fach Physik haben Stender et al. (2017) einen drei Vignetten umfassenden Test entwickelt und bei berufstätigen Lehrkräften eingesetzt. Backfisch et al. (2020) haben für Mathematiklehrkräfte einen Szenario-basierten Ansatz entwickelt, bei dem eine Planungssituation geschildert wird und die (angehenden) Mathematiklehrkräfte zur Planung einer Stunde aufgefordert werden. Auch im Bereich des Sachunterrichts der Primarstufe wurde ein fünf Vignetten umfassender Planungskompetenztest entwickelt (Kirsch 2020). Weitere Ansätze, die in diese Richtung zielen, beziehen sich auf mathematisch-naturwissenschaftliche Fächer (Jacobs et al. 2008; Morris und Hiebert 2017) oder sind fächerübergreifend konzipiert (Baer et al. 2011). Für sprachliche Fächer mangelt es hingegen bislang an entsprechenden Vignettentests zur standardisierten Erfassung von Unterrichtsplanungskompetenzen.

Zwar nehmen Verfahren zur standardisierten Messung des deutschdidaktischen Wissens Einzelaspekte von Planungswissen auf, wenn beispielsweise Wissen über fachbezogene Lehrmethoden und Erklärungsansätze, Auswahl und Konstruktion von Lern- und Übungsaufgaben oder auch Wissen über Lernstände und -prozesse der Schüler*innen anteilig die Testinhalte bestimmen (König und Bremerich-Vos 2020; Pissarek und Schilcher 2017). Die meist auf deklaratives oder konzeptuelles Wissen zielenden Verfahren stoßen jedoch an ihre Grenze, wenn es darum geht, bei der Testung solche kognitiven Prozesse zu berücksichtigen, die als typische Anforderungen in Situationen der Planung von Unterricht auftreten und bewältigt werden müssen. Verschiedene Autor*innen ziehen daher diese Einschränkung als eine Begründung für die Entwicklung vignettenbasierter Erhebungsverfahren heran (z. B. Jacobs et al. 2008; Stender et al. 2017).

2.2 Erfassung von Unterrichtsplanungskompetenz im Fach Deutsch

Unterrichtsplanungskompetenz angehender Sprachlehrkräfte wurde bislang vor allem auf Basis der Analyse schriftlicher Unterrichtsplanungen empirisch erfasst. Weit verbreitet in den USA ist die Bewertung schriftlicher Planungen im Zuge der Lizenzierung von Lehrkräften: Mit dem Verfahren des edTPA, früher bekannt als „Performance Assessment for California Teachers“ (PACT; Pecheone und Chung 2006), werden die schriftlichen Planungen der Lehramtskandidat*innen anhand von fünf Rating-Fragen evaluiert. Diese werden zu einem Score zusammengefasst, Analysen weisen zum Beispiel prognostische Validität für Lernfortschritte der von diesen Lehrkräften unterrichteten Schüler*innen im sprachlichen Bereich aus (Darling-Hammond et al. 2013).

Für das Fach Deutsch der Sekundarstufe, also sprachliche Bildung im deutschsprachigen Raum bzw. in Deutschland, liegt aus dem Projekt PlanvoLL‑D ein vergleichsweise weit ausgearbeiteter Ansatz vor (zuletzt König et al. 2021). Auch hier bilden schriftliche Unterrichtsplanungen für Lehrproben im Referendariat die Datengrundlage. Dabei werden der Messung (theoretisch) relevante Kriterien zugrunde gelegt, über die sich Unterrichtsplanungskompetenz als reliable Fähigkeitsvariable bzw. Kompetenzfacette modellieren lässt. Anhand der Kriterien werden die schriftlichen Planungen inhaltsanalytisch ausgewertet, die so gebildeten Items fließen in Skalierungsanalysen ein.

Konzeptionell geht der im Projekt PlanvoLL‑D entwickelte Ansatz von kognitiven Anforderungen aus, die im Zuge der Unterrichtsplanung von (angehenden) Lehrkräften bewältigt werden müssen. Die in der Inhaltsanalyse schriftlicher Planungen verwendeten Kriterien stellen Indikatoren dar, um die Fähigkeiten differenziert zu beschreiben, welche zur Bewältigung der kognitiven Anforderungen benötigt werden. Im sogenannten CODE-PLAN Modell (cognitive demands of lesson planning), das im Rahmen des Projekts PlanvoLL‑D entwickelt wurde (König et al. 2021), werden sechs solcher kognitiven Anforderungen beschrieben, die ihre Operationalisierung in mehreren Indikatoren finden (insgesamt 21 Indikatoren, davon mehrere in einem mehrstufigen Format): Transformation von Inhalten, Aufgabenstellung, Adaptivität an die Voraussetzungen der Lernenden, Zielklarheit, Kontextualisierung, d. h. Platzierung in der Unterrichtseinheit, Phasierung der Unterrichtsstunde. Da diese Anforderungen die Grundlage für den nachfolgend vorzustellenden Vignettentest darstellen, seien sie kurz zusammenfassend referiert (vgl. detailliert König et al. 2021).

Von den sechs Anforderungen betrifft die der „Transformation von Inhalten“ (content transformation, Shulman 1987) bzw. didaktischen Reduktion (vgl. Arnold und Koch-Priewe 2011) die Auswahl und Aufbereitung von Unterrichtsinhalten. Dies umfasst die Analyse des zu lernenden Inhalts sowie auf einer weiterführenden Ebene die Ableitung eines adäquaten Themas für die Unterrichtsreihe (fachliche Deduktion); ferner den Abgleich des Unterrichtsthemas mit dem Curriculum und die Transformation eines aktuellen Inhalts in einen Lerninhalt unter Begründung und Anwendung von Kriterien einer „didaktischen Analyse“ (Klafki 1995). Schließlich stellt eine begründete didaktische Reduktion (z. B. eine Strategie zur Reduktion des Schwierigkeitsgrades oder der Komplexität, um das Lehren und Lernen zu erleichtern) eine weitere charakteristische Form der inhaltlichen Transformation in der Unterrichtsplanung dar.

Mit der Anforderung der „Aufgabenstellung“ (task creation) wird ein Kerngebiet der Unterrichtsplanung angesprochen, da Aufgaben eine Integrationsfunktion bei der Unterrichtsplanung übernehmen. Einen besonderen Schwerpunkt bildet auch hier die Aufbereitung der Inhalte, einschließlich der Gestaltung einer Differenzierung der Lernaufgaben, um das potenzielle Aufgabenspektrum mit unterschiedlichen Schwierigkeitsgraden in verschiedenen Dimensionen umzusetzen.

Planung von Unterricht ist an die jeweilige Situation gebunden, die maßgeblich durch die Lerngruppe bzw. die einzelnen Lernenden bestimmt wird. Mit „Adaptivität an die Lernvoraussetzungen der Schüler*innen“ (Adaptation to student learning dispositions) ist die Forderung nach Anpassung an die Lerndispositionen der Schüler*innen im Sinne einer Reflexion des sozialen Kontextes gemeint, z. B. bei der Planung eine Passung zwischen der Aufgabenstellung und dem Vorwissen der Schüler*innen herzustellen.

Unterricht als intentionales Geschehen ist an Lernziele gebunden. Mit der Anforderung einer „Zielklarheit“ (clarity of learning objectives) wird somit nicht nur die konkrete Formulierung von Lernzielen angesprochen, sondern auch ihre Funktion, den Lernenden das konkrete Verhalten zu vermitteln, das erreicht werden soll, die Bedingungen, unter denen das Verhalten gezeigt werden muss, und das Leistungsniveau, auf dem das Verhalten ausgeführt werden soll. Sie werden von der Lehrkraft festgelegt und helfen ihr, Klarheit über den zu lernenden Inhalt zu gewinnen.

Da eine Unterrichtsstunde üblicherweise in einen größeren Kontext des Unterrichtens eingebettet ist, stellt sich die kognitive Anforderung der „Kontextualisierung in die Unterrichtseinheit“ (unit contextualization). Dabei sollte geklärt werden, welches Thema für die Reihe gewählt wurde und wie dieses Thema in Unterthemen aufgeteilt wird. Darüber hinaus ist es wichtig zu klären, inwieweit der Inhalt der zu planenden Unterrichtsstunde mit dem Gesamtinhalt der Reihe zusammenhängt, d. h. welchen Mehrwert die einzelne Stunde hat und wie sie zum Gelingen der Reihe beiträgt, und ob der spezifische Inhalt der Unterrichtsstunde an die vorhergehenden und/oder nachfolgenden Unterrichtsstunden anknüpft und so die Verbindung eines kumulativen Lernprozesses seitens der Schüler*innen ermöglicht. Sowohl die Unterrichtsreihe als auch die Unterrichtsstunde sollten eine klare, inhaltlich kohärente Struktur haben, die das Lernen der Schüler*innen erleichtert.

Die Anforderung der „Phasierung der Unterrichtsstunde“ (phasing) bezieht sich schließlich auf die Notwendigkeit, eine klare, erkennbare Gliederung des Unterrichts in einzelne Phasen und Abschnitte zu planen, in denen die Lehrkraft durch die richtige Sequenzierung einen kohärenten Unterrichtsverlauf mit minimalen Unterbrechungen gewährleistet. Ein Instrument zur Planung und Verwaltung von Unterrichtszeit stellen dabei Phasenschemata dar.

Auf Basis der Daten von über 300 Lehrprobenplanungen konnten im Rahmen des Projekts PlanvoLL‑D verschiedene Ergebnisse zur Reliabilität und Validität der Fähigkeitsmaße zur Bewältigung dieser kognitiven Anforderungen erzielt werden (König et al. 2021). So konnte die Annahme einer mehrdimensionalen Struktur von Unterrichtsplanungskompetenz entlang dieser sechs beschriebenen Anforderungen empirisch geprüft und belegt werden. Die sechs Anforderungen lassen sich über Teilskalen der Unterrichtsplanungskompetenz reliabel messen (α = 0,55–0,83). Basierend auf einem längsschnittlichen Teildatensatz kann ein Zuwachs der so erfassten Unterrichtsplanungskompetenz von der ersten zur letzten Lehrprobe aufgezeigt werden (d = 0,97–1,98 für die sechs Teilskalen). Hinweise auf prognostische Validität konnten in zwei Teilanalysen erbracht werden: (1) Die über die letzte Lehrprobe (Staatsprüfung) gemessene Unterrichtsplanungskompetenz korreliert signifikant und praktisch bedeutsam mit der Note für die schriftlichen Planungen (−0,53). (2) An einer kleinen Teilstichprobe von n = 27 Referendar*innen und den von ihnen unterrichteten n = 564 Schüler*innen konnten signifikanten Zusammenhänge einzelner Fähigkeitsscores und der von den Schüler*innen eingeschätzten Qualität der auf Basis der Planung gehaltenen Unterrichtsstunde herausgestellt werden. So korreliert beispielsweise die Fähigkeit der Referendar*innen zur Bewältigung der kognitiven Anforderung „Transformation von Inhalten“ mit aus Sicht der Schüler*innen wahrgenommenen Zielklarheit (0,42) und konstruktiven Unterstützung (0,26).

Die im CODE-PLAN Modell beschriebenen kognitiven Anforderungen können möglicherweise auf andere Fächer übertragen werden (vgl. bereits König et al. 2015, 2020b). Die Operationalisierung der kognitiven Anforderungen in mehreren Indikatoren durch König et al. (2021) erfolgte jedoch ausschließlich für das Fach Deutsch der Sekundarstufe, wobei generische (allgemeindidaktische) und fachspezifische (deutschdidaktische) Kodierungskategorien verwendet wurden. In einem Vergleich dieser generischen und fachspezifischen Kategorien zur Kodierung schriftlicher Planungen konnte am Beispiel der beiden kognitiven Anforderungen Aufgabenstellung und Adaptivität an die Voraussetzungen der Lernenden in einer Rasch-Skalierung festgestellt werden, dass die Erfüllung fachspezifischer Kriterien der Unterrichtsplanung sich in signifikant höheren Item-Schwierigkeitsparametern zeigte als die Erfüllung vergleichbarer generischer Kriterien (vgl. detailliert König et al. 24,25,a, c). Zudem erfüllten Lehrprobenplanungen am Ende des Referendariats in höherem Maße die fachspezifischen Kriterien als die Lehrprobenplanungen zu Beginn des Referendariats. Dies werten König et al. (24,25,a, c) als Hinweis, dass mit höherer Unterrichtsplanungskompetenz die Fachlichkeit an Bedeutung gewinnt und dass Fachlichkeit in der Unterrichtsplanung während der zweiten Ausbildungsphase der Lehrer*innenbildung eine bedeutsame Rolle zugeschrieben werden kann.

3 Theoretische Rahmung und Fragestellung

3.1 Unterrichtsplanungskompetenz als situationsspezifische Fähigkeit

Die vorliegende Studie zielt auf die Entwicklung eines vignettenbasierten Tests zur standardisierten Erfassung unterrichtlicher Planungskompetenz für angehende und berufstätige Deutschlehrer*innen der Sekundarstufe. Da unseres Wissens ein solcher Test für den sprachlichen Bereich noch nicht existiert, lässt sich die Testentwicklung zunächst damit begründen, bisherigen Entwicklungen für die mathematisch-naturwissenschaftlichen Fächer (Abschn. 2.1) zu folgen. Aufgrund der vergleichsweise weit ausgearbeiteten Modellierung und Messung von Unterrichtsplanungskompetenz im Fach Deutsch im Rahmen des Projekts PlanvoLL‑D (Abschn. 2.2) erscheint es ferner sinnvoll, an die bereits entwickelte und in Teilen empirisch geprüfte Konzeption kognitiver Anforderungen der Unterrichtsplanung anzuschließen (vgl. detailliert die Darstellung der Testentwicklung im Methodenteil). Gegenüber dem Verfahren der Analyse schriftlicher Planungen für Lehrproben von Referendar*innen hat ein Vignettentest aber nicht nur den Vorteil, eine höhere Standardisierung zu ermöglichen (vgl. Schröder et al. 2020). Es können damit auch Lehramtsstudierende sowie berufstätige Lehrkräfte als weitere Zielgruppen in die Analysen einbezogen werden.

Darüber hinaus nehmen wir Bezug auf das von Blömeke et al. (2015) vorgestellte Modell „Kompetenz als Kontinuum“: einerseits um den „situationsspezifischen“ Charakter der zu messende Planungsfähigkeit hervorzuheben, andererseits um diese Planungsfähigkeit von professionellem Wissen abzugrenzen, das – als mentale propositionale Struktur vorliegend – als „kognitive Disposition“ bezeichnet werden kann (vgl. Blömeke et al. 2015). Wir folgen damit auch Überlegungen, wie sie bereits im Projekt PlanvoLL‑D entwickelt wurden, um zum Beispiel den Zusammenhang zwischen pädagogischem Wissen und (über die Analyse schriftlicher Planungen gemessener) Unterrichtsplanungsfähigkeit zu analysieren (König et al. 2020b). In der vorliegenden Untersuchung bildet diese Differenzierung den theoretischen Bezugsrahmen für eine Analyse des Zusammenhangs zwischen deutschdidaktischem Wissen und der über den neu entwickelten Vignettentest erfassten Unterrichtsplanungskompetenz als „situationsspezifische Fähigkeit“.

3.2 Unterrichtsplanungskompetenz, Unterrichtserfahrung und professionelles Wissen

Mit der Anwendung eines standardisierten Planungskompetenztests auf Zielgruppen angehender bzw. berufstätiger Lehrkräfte mit unterschiedlich starker Unterrichtserfahrung verbindet sich die grundsätzliche Annahme, dass es zu Unterschieden in der Testleistung in Abhängigkeit von der Gruppenzugehörigkeit kommt (vgl. Rothland 2021). Die Planung von Unterricht ist ein ausgewiesenes Ziel der Ausbildung von Lehrer*innen (vgl. Wernke und Zierer 2017). Bereits in Langzeitpraktika wie zum Beispiel dem Praxissemester an Universitäten in Nordrhein-Westfalen sollen Lehramtsstudierende meist gemeinsam mit einer betreuenden Ausbildungslehrperson Unterricht planen, durchführen und reflektieren (Expertenkommission 2007; König und Rothland 2018). Im Vorbereitungsdienst bzw. Referendariat sind Lehrproben zentraler Teil der Ausbildung, prüfungsrelevant und karriereentscheidend – und zwar in allen Bundesländern (Anderson-Park und Abs 2020; König et al. 2021; Strietholt und Terhart 2009). Berufstätige Lehrer*innen wiederum stehen allgemein beim Berufseinstieg vor der Herausforderung, Routinen der Unterrichtsplanung zu entwickeln, um in zunehmendem Maße zeiteffizient ihre beruflichen Anforderungen zu bewältigen (vgl. z. B. Darling-Hammond et al. 2013; Thompson et al. 2013; Stender et al. 2017). Mit dem unterschiedlichen Umfang an Unterrichtserfahrung dieser Gruppen, die prinzipiell mit einer strukturierten Reflexion der Erfahrung einhergehen kann (Schön 1983), sollten die Leistungen in einem Planungskompetenztest korrespondieren. Ein Mehr an Erfahrung sollte mit besseren Testleistungen einhergehen.

Bisherige Befunde empirischer Studien lassen sich zumindest teilweise als Bestätigung dieser Annahme lesen. So liegen erste Ergebnisse aus Studien zum tatsächlichen Einfluss von schulpraktischen Lerngelegenheiten auf die über Vignetten gemessene Planungskompetenz bei Lehramtsstudierenden vor (z. B. Schröder et al. 2020). Referendar*innen zeigen eine sehr viel höhere Planungskompetenz in ihrer letzten Lehrprobe verglichen mit der ersten Lehrprobe (König et al. 2021). Zur Bedeutung von beruflicher Erfahrung für die Planungskompetenz liegen zudem wichtige Befunde aus der Expertiseforschung vor (z. B. Bromme 1981; Sabers et al. 1991; Stigler und Miller 2018).

Unterrichtserfahrung ist nicht der alleinige Faktor zur Erklärung von Kompetenzausprägungen im Bereich der Unterrichtsplanung. Verschiedentlich wird auf die Bedeutung des dem Planungshandeln zugrundeliegenden professionellen Wissens verwiesen (vgl. z. B. Rothland 2021; Wernke und Zierer 2017). In der Tat liegen erste empirische Befunde zum Zusammenhang von fachdidaktischem Wissen und Unterrichtsplanungskompetenz vor (Backfisch et al. 2020; Schröder et al. 2020; Stender et al. 2017).

3.3 Fragestellungen und Hypothesen

Folgende Fragestellungen und Hypothesen stehen im Mittelpunkt der vorliegenden Untersuchung:

1.

Erlaubt der Test eine reliable Messung?

Ausgehend vom referierten Stand der Forschung zu Vignettentests wie auch zu Erkenntnissen der Planungskompetenz aus dem Projekt PlanvoLL‑D vermuten wir, dass der neu entwickelte, auf drei Vignetten basierende Test eine reliable Messung ermöglicht, und zwar auch bei Teilgruppen mit unterschiedlich starker Unterrichtserfahrung.

2.

Lassen sich kognitive Anforderungen der Unterrichtsplanung über Subskalen des Tests strukturell abbilden?

Wir nehmen an, dass eine mehrdimensionale Skalierung, in der verschiedene, teils sehr unterschiedliche kognitive Anforderungen der Unterrichtsplanung spezifiziert werden, einer eindimensionalen Skalierung, die einen Gesamtscore abbildet und von der konkreten, auf Unterrichtsplanung bezogenen Anforderungsstruktur abstrahiert, in Bezug auf Modell-Fit und weitere psychometrische Indizes überlegen ist. Ferner nehmen wir an, dass die kognitiven Anforderungen eine reliable Messung als Subskalen des Tests ermöglichen.

3.

Zeigt sich ein besseres Abschneiden in Abhängigkeit von der Unterrichtserfahrung (Bachelorstudierende, Masterstudierende mit Praxissemester-Erfahrung, Referendar*innen, berufstätige Junglehrkräfte)?

Angesichts der unter Abschn. 3.2 dargestellten Überlegungen und empirischer Befunde aus bisherigen Studien erwarten wir mit zunehmender Unterrichtserfahrung der vier untersuchten Gruppen ein sukzessiv besseres Testergebnis.

4.

Lässt sich die über den Textvignetten-Test ermittelte situationsspezifische Fähigkeit zur Unterrichtsplanung durch das deutschdidaktische Wissen regressionsanalytisch erklären?

Der Annahme folgend, dass Unterrichtsplanung wissensbasiert erfolgt, erwarten wir auch für das Fach Deutsch der Sekundarstufe einen signifikanten und praktisch bedeutsamen Zusammenhang zwischen deutschdidaktischem Wissen und Planungskompetenz. Da die vorliegende Untersuchung vier Gruppen mit unterschiedlich starker Unterrichtserfahrung wie auch unterschiedlichen Ausbildungs- und Karrierestadien einbezieht, erfolgt die Analyse als Mediationsmodell, in dem die Gruppenzugehörigkeit als (dummy-kodierter) Prädiktor sowohl für das deutschdidaktische Wissen als auch für die Planungskompetenz vorgesehen ist. Erwartet wird, dass deutschdidaktisches Wissen auch bei Kontrolle der Gruppen die Planungskompetenz signifikant erklären kann. Dies ist bedeutsam, da mit einem Fortschreiten in der Ausbildung bzw. Karriere höhere Leistungen nicht nur in der Planungskompetenz, sondern auch im fachdidaktischen Wissen erwartet werden können (z. B. Kleickmann et al. 2013; für Mathematik der Sekundarstufe). Dem Modell „Kompetenz als Kontinuum“ (Abschn. 3.1) folgend erwarten wir ferner, dass der Einfluss der Gruppenzugehörigkeit auf die Planungskompetenz über das deutschdidaktische Wissen mediiert wird (Baron und Kenny 1986). Sollten sich indirekte Effekte in einer Pfadmodellierung von der Gruppenzugehörigkeit über das deutschdidaktische Wissen auf die Planungskompetenz belegen lassen, so könnte dies ebenfalls als Hinweis für eine auf professionellem Wissen basierende, situationsspezifische Unterrichtsplanungskompetenz interpretiert werden (vgl. König et al. 2020c).

4 Methode

Die Bearbeitung der genannten Fragestellungen erfolgt auf Basis eines Teildatensatzes, der im Rahmen eines hochschulweiten Monitorings der Lehrer*innenbildung an der Universität zu Köln ab April 2020 generiert wurde – geleitet vom Handlungsfeld „Qualitätssicherung“ des durch die „Qualitätsoffensive Lehrerbildung“ geförderten Projekts „Zukunftsstrategie Lehrer*innenbildung Köln – Heterogenität und Inklusion gestalten“.Footnote 1 Wesentliches Ziel des Monitorings ist es, Einblick in Kompetenzerwerbsprozesse während der Lehramtsausbildung an der Universität zu Köln, dem Vorbereitungsdienst und den ersten Berufsjahren zu gewinnen. In Form eines Mehr-Kohorten-Längsschnitt-Designs werden daher seit dem Sommersemester 2016 jährlich Bachelor- und Masterstudierende befragt und getestet (König et al. 2018). Im Jahr 2018 wurde die Zielgruppe um Referendar*innen und im Jahr 2020 zusätzlich um berufstätige Lehrer*innen erweitert.

4.1 Stichprobe und Datenerhebung

Zielgruppe der vorliegenden Untersuchung sind angehende bzw. berufstätige Lehrkräfte für das Fach Deutsch der Sekundarstufe. Dies schließt folgende, nach der KMK (2009) definierte Lehramtstypen ein: Typ 3 (Lehrämter für alle oder einzelne Schularten der Sekundarstufe I), Typ 4 (Lehrämter für die Sekundarstufe II [allgemeinbildende Fächer] oder für das Gymnasium), Typ 5 (Lehrämter für die Sekundarstufe II [berufliche Fächer] oder für die beruflichen Schulen) und Typ 6 (Sonderpädagogische Lehrämter).

Insgesamt konnten bei der Durchführung der vorliegenden Studie n = 219 Personen erreicht bzw. zur Teilnahme bewegt werden (vgl. Online-Anhang 1 für weitere Details zum Vorgehen bei der Datenerhebung). Den größten Anteil bilden Bachelorstudierende (n = 81; n % = 37,0 %; Rücklauf: 20,9 %) und Masterstudierende (n = 75; n % = 34,3 %; Rücklauf: 27,7 %), gefolgt von den ähnlich stark vertretenen Junglehrkräften (n = 32; n % = 14,2 %; Rücklauf: 54,3 %) und Referendar*innen (n = 31; n % = 14,6 %; AusschöpfungsquoteFootnote 2 der Berliner Referendar*innen: 7,1 %). Über alle Gruppen hinweg lag der Anteil weiblicher Untersuchungsteilnehmer*innen (85,4 %) über dem Anteil männlicher (14,2 %) bzw. diverser (0,5 %) Personen (vgl. Online-Anhang 2). Im Durchschnitt waren die Proband*innen M = 26,10 Jahre alt (SD = 4,78; R = 28,00), wobei sich erwartungskonform ein niedrigeres gemitteltes Alter der Bachelor- (M = 22,67; SD = 3,35; R = 24,00) und Masterstudierenden (M = 26,02; SD = 3,05; R = 18,00) manifestierte, während Referendar*innen (M = 30,79; SD = 5,41; R = 23,00) und Junglehrkräfte (M = 30,22; SD = 3,05; R = 12,00) einen ähnlichen Mittelwert aufwiesen.

Der Zielkohorte des Monitorings der Lehrer*innenbildung entsprechend befanden sich die befragten und getesteten Studierenden im vierten Semester ihres an der Universität zu Köln absolvierten Bachelor- oder Masterstudiums. Die Referendar*innen hatten ihren Vorbereitungsdienst durchschnittlich vor M = 1,08 Jahren (SD = 2,09; R = 12,00) begonnen, befanden sich also im Durchschnitt zwischen zweitem und letztem Halbjahr ihrer zweiten Ausbildungsphase, wobei die meisten Untersuchungsteilnehmer*innen ihr Referendariat in Berlin absolvierten (87,1 %), während nur jeweils zwei Lehramtsanwärter*innen andere Bundesländer (jeweils 6,5 %) als ihren aktuellen Ausbildungsstandort nannten. Sämtliche Lehrer*innen hatten ihr Referendariat innerhalb der letzten fünf Jahre (M = 1,34; SD = 1,13; R = 5,00) abgeschlossen. Zumeist unterrichteten sie an Gymnasien (34,4 %) oder Gesamtschulen (25,0 %), wobei die durchschnittliche Berufserfahrung zum Erhebungszeitpunkt M = 2,18 Jahre betrug (SD = 1,49; R = 7,25). Ein genauer Überblick über die Verteilung nach Lehramt ist Online-Anhang 3 zu entnehmen.

4.2 Instrumente

4.2.1 Vignettentest zur Erfassung von Planungskompetenz im Fach Deutsch

Zur Messung der situationsspezifischen Fähigkeit der Unterrichtsplanung von (angehenden) Sekundarstufen-Deutschlehrkräften wurde in der vorliegenden Studie ein standardisiertes Testinstrument entwickelt, wobei auf Vorarbeiten aus dem Projekt PlanvoLL‑D zurückgegriffen wurde. Auf Grundlage von schriftlichen Planungen für Lehrproben, die im Rahmen der Kodierung im Projekt PlanvoLL‑D eine Vielzahl zentraler (Güte‑)Kriterien erfüllten, wurden – unter Einbeziehung von Expert*innen aus den Bereichen Bildungswissenschaften und Deutschdidaktik – realistische Planungssituationen konzipiert. Letztere beschreiben typische Situationen bei der Planung einer Unterrichtsstunde im Fach Deutsch und bilden wesentliche, hier geforderte Fähig- und Fertigkeiten von Deutschlehrkräften exemplarisch ab. Die auf die Planungssituationen bezogenen Testfragen messen die Bewältigung von kognitiven Anforderungen der Unterrichtsplanung, welche zuvor – primär im Rahmen des Projekts PlanvoLL-D – über eine empirische Anforderungsanalyse ermittelt und modelliert werden konnten (König et al. 2021; vgl. Abschn. 2.2).

Um eine realistische Testlänge zu erreichen, waren Bündelungen bzw. Fokussierungen nötig: Die in Abschn. 2.2 dargestellten kognitiven Anforderungen „Aufgabenstellung“ und „Adaptivität an die Voraussetzungen der Lernenden“ wurden im Design des Vignettentests zur Dimension „Didaktische Adaptivität“ zusammengefasst (vgl. bereits König et al. 2015). Ebenfalls wurden die in Abschn. 2.2 berichteten kognitiven Anforderungen „Kontextualisierung in die Unterrichtseinheit“ und „Phasierung der Unterrichtsstunde“ zur Dimension „Strukturierung“ im Vignettentest gebündelt (vgl. Krepf und König 2022). „Zielklarheit“ blieb als Dimension bestehen und „Transformation von Inhalten“ erhielt einen stärker auf Fachinhalte gerichteten Fokus, sodass die Bezeichnung „Fachwissenschaftliche Aufbereitung“ gewählt wurde.

Nach einer Begutachtung durch Expert*innen durchlief der Test im März/April 2019 eine Präpilotierung (nStudierende = 20) sowie zwei umfangreiche Pilotierungen im Sommer 2019 (nStudierende = 102; nReferendar*innen = 21) und im Januar/Februar 2020 (nStudierende = 95). Auf Basis der (Prä‑)Pilotierungsergebnisse erfolgte eine Überarbeitung der theoriegeleitetet entwickelten Testitems. Dieser Arbeitsschritt umfasste sowohl eine Überprüfung der Verständlichkeit als auch umfangreiche Item-Response-Theory (IRT) Analysen und führte zu einer mehrfachen Optimierung und Reduzierung der Testaufgaben. Das finale Testinstrument besteht aus 37 Testaufgaben zu drei Planungssituationen (20 Items mit geschlossenem Antwortformat und 17 Items mit offenem Antwortformat). Von diesen wurde ein Item mit geschlossenem Antwortformat aufgrund suboptimaler psychometrischer Eigenschaften nachträglich ausgeschlossen. Die im weiteren Verlauf präsentierten Ergebnisse basieren somit auf zehn Items zur Dimension „Fachwissenschaftliche Aufbereitung“, sieben Items zur Dimension „Zielklarheit“, elf Items zur Dimension „Strukturierung“ und acht Items zur Dimension „Didaktische Adaptivität“ (Beispielitems siehe Online-Anhang 4).

Die Kodierung der Testaufgaben erfolgte mithilfe eines Kodiermanuals, das unter Einbeziehung von Expert*innen deduktiv entwickelt, auf Basis der Ergebnisse aus den Pilotierungen mehrfach induktiv optimiert und anschließend wieder deduktiv ausdifferenziert und erneut induktiv überprüft wurde. Durch diese Herangehensweise konnte sichergestellt werden, dass die identifizierten Kriterien theoretisch begründbar sind und gleichzeitig die in den Originalantworten enthaltenen Informationen möglichst vollständig abdecken. Die Kodierung der Testitems mit offenem Antwortformat wurde durch vier geschulte Lehramtsstudierende vorgenommen. Die ersten 100 Fälle (45,7 % der Gesamtfälle) wurden von allen vier Studierenden unabhängig voneinander paarweise kodiert. Der als Maß für die Interrater-Reliabilität berechnete Fleiss’-Kappa-Wert (Fleiss 1971) indiziert mit κ = 0,681 eine substanzielle Übereinstimmung der Ratings (Landis und Koch 1977). Um im weiteren Verlauf ein möglichst einheitliches Vorgehen der Kodierer*innen zu gewährleisten, wurde über strittige Fälle diskutiert und ein einziger finaler Code festgelegt.

4.2.2 Test zur Erfassung von deutschdidaktischem Wissen

Neben dem Test zur Messung der Unterrichtsplanungskompetenz bearbeiteten alle Untersuchungsteilnehmer*innen einen Test zu ihrem deutschdidaktischen Wissen (pedagogical content knowledge, PCK; König und Bremerich-Vos 2020). Hierzu wurde eine zehn Items umfassende Kurzversion des im Projekt PlanvoLL‑D umfangreich validierten, 29 Items umfassenden PCK-Deutschtests entwickelt und eingesetzt (fünf Items mit geschlossenem und fünf mit offenem Antwortformat). Die Kurzversion umfasst jeweils zwei Items zu den – sich aus den Bildungsstandards und Kerncurricula für das Fach Deutsch ergebenden – Dimensionen „Sprechen und Zuhören“, „Schreiben“, „Rechtschreiben“, „Lesen“ und „Sprache/Sprachgebrauch“ (Beispielitems siehe Online-Anhang 4). Die Kodierung der Testaufgaben erfolgte mithilfe eines Kodiermanuals, welches im Rahmen des Projekts PlanvoLL‑D in einem iterativen Prozess mit einem mehrfachen Wechsel zwischen deduktiven und induktiven Phasen entwickelt worden war. Die Items mit offenem Antwortformat wurden von einer ehemaligen Mitarbeiterin des Projekts PlanvoLL‑D kodiert, welche über umfangreiche Erfahrung in der Kodierung der entsprechenden Items verfügte und im Vorfeld mehrere Doppelkodierungsprozesse durchlaufen hatte.

Die Skalierung der Kurzform des Tests erfolgte in einem ersten Schritt auf Basis der Stichprobendaten der vorliegenden Studie im eindimensionalen Raschmodell unter Verwendung der Software ConQuest (Adams et al. 2015). Als Kurztest mit nur knapp einem Drittel der Items des ursprünglichen Langtests (10 von 29 Items) zeigte er dennoch eine akzeptable Reliabilität (EAP-Reliabilität, vergleichbar mit Cronbachs Alpha: 0,58; Varianz der latenten Variable Theta: 0,76). In einem zweiten Schritt wurde der Test zusammen mit den umfangreichen Daten des Projekts PlanvoLL‑D skaliert, um Testwerte (Tab. 4) berichten zu können, die mit der Metrik der Testwerte des Langtests direkt vergleichbar sind (König et al. 2020c; König und Bremerich-Vos 2020).

5 Ergebnisse

5.1 Skalierung und Reliabilität des Vignettentests

Der Test wurde mit 36 dichotomen Items zunächst im eindimensionalen Raschmodell IRT-skaliert. Mit der Software ConQuest (Adams et al. 2015) wird jedem Item aufgrund seiner Lösungsquote ein Schwierigkeitsparameter und jeder befragten Person entsprechend der gezeigten Leistung auf den bearbeiteten Items ein Fähigkeitsparameter zugewiesen. Ferner werden zur Beurteilung der Skalierung Skalenkennwerte (u. a. EAP-Reliabilität, vergleichbar mit Cronbachs Alpha, und die Varianz der latenten Variable Theta) sowie Item-Statistiken ausgegeben (Tab. 1).

Tab. 1 Statistische Kennwerte aus den Skalierungsanalysen des Vignettentests

Die Item-Kennwerte für die Skalierung des Tests an der Gesamtstichprobe können als gut bezeichnet werden, da die gewichteten Abweichungsquadrate innerhalb des empfohlenen Bereichs liegen (0,80–1,20; vgl. Adams 2002; Bond und Fox 2015) und die durchschnittliche Item-Diskrimination deutlich über 0,30 liegt. Die Reliabilität von 0,86 ist als gut zu interpretieren. Getrennte IRT-Skalierungen für die beiden Teilgruppen der Studierenden (Bachelor- und Masterstudierende) sowie der Referendar*innen und Junglehrkräfte zeigen ebenfalls gute bzw. akzeptable Werte. Auch Cronbachs Alpha liegt mit 0,80 in einem guten Bereich, sowohl für die Gesamtstichprobe als auch für die Teilstichproben (Letzteres angesichts der relativ kleinen Teilgruppen lediglich berechnet mithilfe von SPSS). Die Analyse der grafisch dargestellten Verteilung von Item- und Fähigkeitsparametern (vgl. Online-Anhang 6) zeigt ergänzend, dass die Items aufgrund unterschiedlicher Schwierigkeiten das Spektrum der Personenfähigkeiten abdecken. Dies trägt zu einer präzisen Schätzung der Personenfähigkeitswerte bei. Zugleich streuen die Personenfähigkeitswerte über rund sechs Logits, was für eine gute Variationsbreite des Tests spricht (Bond und Fox 2015).

5.2 Mehrdimensionale Skalierung nach inhaltlichen Anforderungen der Unterrichtsplanung

Um die Binnendifferenzierung des Tests zu prüfen, wurde das eindimensionale Skalierungsmodell einem vierdimensionalen gegenübergestellt, das die vier im Testdesign konzipierten kognitiven Anforderungen – Fachwissenschaftliche Aufbereitung, Zielklarheit, Strukturierung und Didaktische Adaptivität – in je einer Dimension abbildet. Mithilfe der Software ConQuest wurde ein solches Modell spezifiziert und mit den Ergebnissen des eindimensionalen Modells verglichen (Tab. 2). Die Differenz der beiden Abweichungsindizes zeigt allerdings zunächst, dass die Antworten der (angehenden) Lehrkräfte im vierdimensionalen Modell nicht signifikant (p = 0,704) besser als im eindimensionalen Modell widergespiegelt werden (vgl. zum methodischen Vorgehen z. B. Rost 2004).

Tab. 2 Statistik der Vergleiche eines ein- und eines vierdimensionalen Skalierungsmodells

Einblick in die interne Konsistenz der einzelnen Testdimensionen gibt die Expected A Posteriori Estimation (EAP), die eine unverzerrte Beschreibung der Population ermöglicht und die mehrdimensionale Modellstruktur berücksichtigt (vgl. Wu und Adams 2006). Hier zeigt sich (vgl. Tab. 3), dass die vier inhaltlichen Skalen jeweils eine akzeptable bis gute Reliabilität aufweisen (0,74–0,82), zugleich fallen die messfehlerbereinigten Interkorrelationen relativ hoch aus (0,80–0,89). Die Reliabilitäten und Korrelationen der vier Testdimensionen auf manifester Ebene sind erwartungsgemäß niedriger (0,50–0,61), liegen jedoch noch im akzeptablen Bereich.

Tab. 3 Item-Anzahl, Reliabilitäten und Interkorrelationen der inhaltlichen Testdimensionen

Um die spezifizierten Modelle (ein- vs. vierdimensional) weiterführend zu vergleichen, wurde ergänzend ein Modellvergleich im Strukturgleichungsansatz für kategoriale Variablen (Estimator = WLSMV) mithilfe der Software Mplus (Muthén und Muthén 2017) vorgenommen, da damit weitere Indizes zur Bewertung der multidimensionalen Binnenstruktur des Tests zur Verfügung stehen. Hier kommt das vierdimensionale Modell zu einer leicht besseren Anpassung an die Daten (χ2 / df = 1,26; CFI = 0,911; TLI = 0,905; RMSEA = 0,034; WRMR = 1,068) als das eindimensionale Modell (χ2 / df = 1,31; CFI = 0,891; TLI = 0,885; RMSEA = 0,038; WRMR = 1,120). Aufgrund dieser Befunde wie auch der insgesamt (noch) reliablen Messung der vier inhaltlichen Anforderungen (Tab. 3) sollen nachfolgend somit – neben Analysen basierend auf dem Gesamtscore des Tests – auch Analysen auf Basis der Subskalen des Tests vorgenommen werden, um differenzierte Einblicke in die Planungskompetenz der (angehenden) Lehrkräfte zu erhalten.

5.3 Mittelwertunterschiede nach Gruppe

Um die Lesbarkeit der Testergebnisse zu erleichtern, wurden sowohl der Gesamtscore als auch die vier inhaltlichen Teilscores des Planungskompetenztests getrennt voneinander so linear transformiert, dass die Gruppe der Referendar*innen jeweils einen Mittelwert von 500 und eine Standardabweichung von 100 aufweist. Wie den Mittelwerten und 95%igen Konfidenzintervallen in Abb. 1 bzw. den Kennwerten in Tab. 4 entnommen werden kann, schneiden Referendar*innen und Lehrer*innen – also die beiden Gruppen mit der meisten professionellen Unterrichtserfahrung – im Test deutlich besser ab als Studierende (Referendar*innen vs. Masterstudierende: t (104) = 4,68; p (2-seitig) < 0,001; d = 1,0; Junglehrkräfte vs. Masterstudierende: t (105) = 4,40; p (2-seitig) < 0,001; d = 0,94). Im Falle des Gesamtscores ist der Unterschied von großer praktischer Relevanz. Weder zwischen den Bachelor- und Masterstudierenden noch zwischen den Referendar*innen und den Junglehrkräften lassen sich statistisch signifikante Unterschiede im durchschnittlichen Abschneiden feststellen. Dieses Muster setzt sich fort für die Teildimensionen: Fachwissenschaftliche Aufbereitung (Referendar*innen vs. Masterstudierende: t (104) = 3,14; p (2-seitig) < 0,01; d = 0,67; Junglehrkräfte vs. Masterstudierende: t (105) = 3,60; p (2-seitig) < 0,001; d = 0,76), Zielklarheit (Referendar*innen vs. Masterstudierende: t (104) = 3,23; p (2-seitig) < 0,01; d = 0,69; Junglehrkräfte vs. Masterstudierende: t (105) = 2,06; p (2-seitig) < 0,05; d = 0,44), Strukturierung (Referendar*innen vs. Masterstudierende: t (104) = 3,81; p (2-seitig) < 0,001; d = 0,81; Junglehrkräfte vs. Masterstudierende: t (105) = 3,23; p (2-seitig) < 0,01; d = 0,68) und Didaktische Adaptivität (Referendar*innen vs. Masterstudierende: t (104) = 4,27; p (2-seitig) < 0,001; d = 0,91; Junglehrkräfte vs. Masterstudierende: t (105) = 4,83; p (2-seitig) < 0,001; d = 1,02). Auch hier lassen sich keine statistisch signifikanten Mittelwertunterschiede zwischen Bachelor- und Masterstudierenden einerseits sowie Referendar*innen und Junglehrkräften andererseits feststellen. Lediglich in der Teildimension Strukturierung zeigt sich bei Bachelor- vs. Masterstudierenden eine Tendenz zugunsten letzterer (t (154) = 1,81; p (2-seitig) = 0,072; d = 0,29).

Abb. 1
figure 1

Mittelwerte und 95 %-ige Konfidenzintervalle (G Gesamtscore; Teilscores: F Fachwissenschaftliche Aufbereitung, Z Zielklarheit, S Strukturierung, A Didaktische Adaptivität; PCK‑D Testscore Deutschdidaktisches Wissen)

Tab. 4 Nach Gruppen differenzierte Testergebnisse

Für das deutschdidaktische Wissen zeigt sich für die angehenden Lehrkräfte ein besseres Abschneiden im Test, je weiter fortgeschritten die Gruppe in ihrer Ausbildung ist (Abb. 1 und Tab. 4): Hier schneiden nun auch die Masterstudierende signifikant besser ab als Bachelorstudierende (t (154) = 2,60; p (2-seitig) < 0,01; d = 0,42), und Referendar*innen zeigen auch hier bessere Leistungen als Masterstudierende (t (104) = 2,44; p (2-seitig) < 0,05; d = 0,52). Hingegen liegen keine statistisch signifikanten Mittelwertunterschiede zwischen Referendar*innen und Junglehrkräften vor (t (61) = 1,54; p (2-seitig) = 0,13; d = 0,39).

5.4 Mediationsanalyse zur Erklärung der Unterrichtsplanungskompetenz durch Gruppen mit unterschiedlich viel Unterrichtserfahrung und deutschdidaktisches Wissen

Die deskriptiven Befunde (Abb. 1 und Tab. 4) zeigen deutliche Unterschiede in der Unterrichtsplanungskompetenz nach Gruppen mit unterschiedlich viel Planungs- und Unterrichtserfahrung auf. Zur Prüfung, ob solche Erfahrung nicht allein, sondern auch das deutschdidaktische Wissen die Unterrichtsplanungskompetenz regressionsanalytisch erklären kann, wurde ein Modell spezifiziert, in dem die der Planungskompetenz zugrundeliegende Unterrichtserfahrung über das deutschdidaktische Wissen mediiert wird. Angesichts der Ergebnisse aus Mittelwertvergleichen im vorherigen Abschnitt wurde die Unterrichtserfahrung der Gruppen über eine Dummy-Kodierung mit zwei Prädiktoren abgebildet: Masterstudierende (kodiert als 1, andere kodiert als 0) und Referendar*innen und Junglehrkräfte (kodiert als 1, andere kodiert als 0). Die Referenzkategorie bilden somit die Bachelorstudierenden. Die Zusammenfassung der Referendar*innen und Junglehrkräfte zu einer Gruppe erscheint angesichts ihres sehr ähnlichen Abschneidens sowohl im Planungskompetenztest als auch im Rahmen der Testung des deutschdidaktischen Wissens sinnvoll. Hingegen erscheint es angebracht, Bachelor- und Masterstudierende zu unterscheiden, da letztere aufgrund des bereits absolvierten Praxissemesters über umfangreichere Planungs- und Unterrichtserfahrung verfügen sollten.

Der direkte Effekt der mithilfe des zweiten Prädiktors erfassten Unterschiede (Referendar*innen und Junglehrkräfte vs. Studierende) in der Unterrichtserfahrung auf die Planungskompetenz ist substanziell, wie Modell A in Abb. 2 verdeutlicht (β = 0,47; p < 0,001). Masterstudierende hingegen unterscheiden sich nicht signifikant von Bachelorstudierenden (β = 0,08). Dies entspricht den Befunden, welche bereits in Tab. 4 bzw. Abb. 1 dargestellt wurden.

Abb. 2
figure 2

Ergebnisse aus einer Mediationsanalyse zur Erklärung der Planungskompetenz (Gesamtscore)

In Modell B mediiert das deutschdidaktische Wissen die mit beiden Prädiktoren erfassten Unterschiede in der Unterrichtserfahrung und die Planungskompetenz, da beide Pfade signifikant sind. Im Falle des Prädiktors zur Unterscheidung zwischen Referendar*innen/Junglehrkräfte vs. Studierende zeigt sich ein signifikanter Pfad auf das deutschdidaktische Wissen (β = 0,47; p < 0,001) sowie vom deutschdidaktischen Wissen auf die Planungskompetenz (β = 0,53; p < 0,001). Der indirekte Effekt von der Unterrichtserfahrung über das deutschdidaktische Wissen auf die Unterrichtsplanungskompetenz (Gesamtscore) beträgt in diesem Fall 0,47 * 0,53 = 0,25 und ist damit substanziell, während sich der direkte Effekt von der Unterrichtserfahrung auf die Planungskompetenz von 0,47 in Modell A auf 0,22 in Modell B deutlich verringert. Im Falle des Prädiktors zur Unterscheidung von Bachelor- und Masterstudierenden hingegen zeigt sich lediglich ein statistisch signifikanter Unterschied im deutschdidaktischen Wissen (β = 0,18; p < 0,001) sowie ebenfalls der Pfad vom deutschdidaktischen Wissen auf die Planungskompetenz (β = 0,53; p < 0,001). Hier ist der indirekte Effekt kleiner (0,18 * 0,53 = 0,10), und wie schon in Modell A ist der direkte Pfad auf die Planungskompetenz nicht signifikant (β = −0,01).

Die Mediation des Effekts der Unterrichtserfahrung auf die Planungskompetenz durch das deutschdidaktische Wissen lässt sich auch für die Betrachtung der vier inhaltlichen Teilscores des Tests zur Planungskompetenz belegen (Tab. 5). Im Falle des Prädiktors zur Unterscheidung zwischen Referendar*innen/Junglehrkräften und Studierenden ist dabei der indirekte Effekt für die fachwissenschaftliche Aufbereitung am höchsten (0,25), bedingt durch den relativ straffen Zusammenhang zwischen deutschdidaktischem Wissen und dieser kognitiven Anforderung der Unterrichtsplanung (0,53). Aber auch für die anderen inhaltlichen Teilscores des Tests hat das deutschdidaktische Wissen eine Bedeutung, wie die signifikanten Prädiktoren (0,36/0,43/0,39) sowie die Mediationseffekte (indirekte Effekte: 0,17/0,20/0,18) verdeutlichen. Im Falle des Prädiktors zur Unterscheidung von Bachelor- und Masterstudierenden hingegen zeigen sich allenfalls kleine indirekte Effekte (0,10/0,07/0,08/0,07). Allen Mediationsmodellen zufolge erklärt nicht Unterrichtserfahrung allein, sondern auch das deutschdidaktische Wissen die Planungskompetenz substanziell.

Tab. 5 Ergebnisse aus Mediationsanalysen zur Erklärung inhaltlicher Teilscores der Planungskompetenz

6 Diskussion

6.1 Zusammenfassung und Diskussion

Der vorliegende Beitrag verortet sich in der aktuell prosperierenden Forschung zur Unterrichtsplanungskompetenz und stellt einen neu entwickelten Test zur Erfassung von situationsspezifischen Fähigkeiten der Unterrichtsplanung im Fach Deutsch bei angehenden und berufstätigen Sekundarstufenlehrkräften vor. Der Test umfasst drei komplexe Textvignetten zur Kontextualisierung von typischen Planungssituationen, die Testfragen beziehen sich auf spezifische, kognitive Anforderungen der Unterrichtsplanung. Anhand von vier Untersuchungsstichproben angehender bzw. berufstätiger Junglehrkräfte in unterschiedlichen Ausbildungs- bzw. Karrierestadien wurden Fragestellungen zur Reliabilität und Validität bearbeitet.

Die Ergebnisse zeigen, dass das Testinstrument eine reliable eindimensionale Messung sowohl an der Gesamtstichprobe wie auch an Teilstichproben ermöglicht. Ferner wurde eine mehrdimensionale Skalierung des Tests durchgeführt, bei der die vier definierten kognitiven Anforderungen (Fachwissenschaftliche Aufbereitung, Zielklarheit, Strukturierung, Didaktische Adaptivität) als Faktoren bzw. latente Variablen spezifiziert wurden. Die zur Beurteilung der mehrdimensionalen Skalierung verwendeten Kennwerte fielen nur geringfügig besser aus als die zur eindimensionalen Skalierung. Allerdings erwiesen sich die für die kognitiven Anforderungen gebildeten Subskalen auch als reliabel, sodass weiterführende Auswertungen sowohl für den Gesamtscore als auch für die Subskalen vorgenommen werden konnten. Ferner schnitten Gruppen mit mehr unterrichtlicher Erfahrung besser ab, die Gruppenmittelwerte waren jedoch nur zwischen Referendar*innen und Junglehrkräften einerseits und Bachelor- sowie Masterstudierenden andererseits signifikant. Zwischen diesen beiden Doppelgruppen unterschieden sich die erreichten Testleistungen mit praktischer Bedeutsamkeit, sowohl im Gesamtscore (große praktische Bedeutsamkeit) als auch in den vier untersuchten kognitiven Anforderungen der Unterrichtsplanung (mittlere bis große praktische Bedeutsamkeit). Lediglich in der kognitiven Anforderung der Strukturierung zeigte sich bei Bachelor- vs. Masterstudierenden eine Tendenz zugunsten letzterer (10 %-Signifikanzniveau, kleine praktische Bedeutsamkeit). Schließlich wurde mithilfe eines Mediationsmodells der Zusammenhang zwischen deutschdidaktischem Wissen und der Planungskompetenz analysiert. Es zeigte sich, dass das deutschdidaktische Wissen auch über die Unterrichtserfahrung hinausgehend einen statistischen Einfluss auf die Planungskompetenz ausübt. Die über den Textvignetten-Test ermittelte situationsspezifische Fähigkeit zur Unterrichtsplanung lässt sich somit durch das deutschdidaktische Wissen regressionsanalytisch erklären, und zwar sowohl im Hinblick auf den Gesamtscore als auch auf die Subskalen kognitiver Anforderungen.

Die hier durchgeführten Analysen und erzielten empirischen Ergebnisse können als wichtiger Beitrag zur aktuell sich entwickelnden Forschung zur Unterrichtsplanungskompetenz gewertet werden. Die hohen Interkorrelationen zwischen den Subskalen wie auch die nur geringe Überlegenheit der mehrdimensionalen Skalierung gegenüber einer sparsameren eindimensionalen Skalierung können als Hinweis verstanden werden, dass der Test ein vergleichsweise homogenes Konstrukt misst. Es fällt auf, dass auch in anderen Studien mit Vignettenverfahren über relativ hohe Interkorrelationen der empirisch getrennten Teilskalen berichtet wird (Kirsch 2020; Stender et al. 2017). Inwieweit dies gegenstandsangemessen ist oder aber Erweiterungen in zukünftigen Forschungsbemühungen nötig macht, bleibt offen.

Der Vergleich von Gruppenmittelwerten gibt Anlass zur Annahme, dass Planungskompetenz maßgeblich im Referendariat erworben wird. Tatsächlich konnten längsschnittlich, d. h. basierend auf Analysen schriftlicher Planungen der ersten und letzten Lehrprobe im Referendariat, auch in den Projekten „Planungskompetenz von Lehrerinnen und Lehrern“ (PlanvoLL; König et al. 2015) und PlanvoLL‑D (König et al. 2020c) für relevante kognitive Anforderungen der Unterrichtsplanung statistisch signifikante Zuwächse mit großer praktischer Bedeutsamkeit belegt werden (Abschn. 2.2). Dies plausibilisiert die vorliegenden Ergebnisse aus Gruppenvergleichen, die im Wesentlichen aus einer großen Differenz zwischen Masterstudierenden im letzten Semester (gemessen an der vorgesehenen Regelstudienzeit) und Referendar*innen zu Beginn ihres letzten Ausbildungshalbjahres bestehen. Angesichts einer Praxissemestererfahrung der Masterstudierenden wäre aber möglicherweise auch ein signifikant besseres Testergebnis im Vergleich zu Bachelorstudierenden, die sich im vierten Semester befanden, zu erwarten gewesen (vgl. etwa die Zuwächse für das Fach Physik bei Lehramtsstudierenden im Praxissemester, Schröder et al. 2020). Andererseits wäre denkbar, dass die Lerngelegenheit praktischen Unterrichtens durchgängig und in hohem Maße angeboten werden muss, damit ein stetiger zirkulärer Abgleich von Planung, Durchführung und Reflexion stattfinden kann. Dieser ist im Praxissemester nur eingeschränkt möglich, ja sogar nicht zwingend intendiert (vgl. Expertenkommission 2007), wenngleich er als Vorbereitung für das Referendariat auch in dieser Hinsicht eine Funktion übernehmen könnte. Ausführliche schriftliche Unterrichtsplanungen, wie sie typisch für Lehrproben im Vorbereitungsdienst sind, werden jedenfalls nicht von Lehramtsstudierenden im Praxissemester verlangt. Da jedoch Masterstudierende statistisch signifikant bessere Testleistungen im deutschdidaktischen Wissen aufweisen als die Bachelorstudierenden und in der planungsbezogenen Anforderung der Strukturierung zumindest eine Tendenz zugunsten der Masterstudierenden erkennbar wurde, spiegeln die vorliegenden Befunde dennoch mögliche Wirkungen schulpraktischer Lerngelegenheiten im Lehramtsstudium wider.

Dass die Junglehrkräfte erwartungswidrig nicht signifikant bessere Leistungen erbrachten als die Referendar*innen, könnte erstens damit zu tun haben, dass sich erstere zum Zeitpunkt der Testung durchschnittlich lediglich etwa zwei Jahre im Beruf befanden und dass damit auch ihre Ausbildung noch nicht lange genug zurücklag, um über Reflexionsanlässe im Beruf weiterführend Unterrichtsexpertise aufzubauen. Die ähnlich hohen Leistungen von Junglehrkräften und Referendar*innen könnten zweitens Anlass zur Vermutung geben, dass die gemessene Planungskompetenz auch nach etwa zwei Jahren Berufsausübung weiterhin abrufbar und die einschlägigen Fähigkeiten nach Beendigung der Lehramtsausbildung nicht in Vergessenheit geraten sind. Eine dritte Interpretation könnte darauf abheben, dass Referendar*innen anders als berufstätig Lehrkräfte in ihrer praktischen Ausbildung zur intensiven Einübung, expliziten Erklärung und Reflexion ihres Handelns unter Prüfungsbedingungen aufgefordert sind (Anderson-Park und Abs 2020; Strietholt und Terhart 2009). Derartige Verbalisierungsleistungen gelten jedoch nicht zwingend als Indikator für tatsächliche Handlungen (Renkl 1996). Junglehrkräfte mit mehr Erfahrung könnten ihre Planungskompetenzen möglicherweise bereits stärker internalisiert und in Form automatisiert ablaufender Handlungsschemata auf impliziter Ebene zunehmend konsolidiert haben (vgl. Stender et al. 2017). In einer Testsituation zur Ermittlung von Unterrichtsplanungskompetenz sind diese Schemata womöglich nicht leicht abrufbar. Interessant wäre somit zukünftig eine Längsschnittanalyse zu der sich während des Übergangs vom Referendariat in den Berufseinstieg entwickelnden Planungskompetenz, die über Stabilität und Veränderung informiert.

Da zum Erwerb professionellen Wissens während der Lehrer*innenausbildung mittlerweile eine Reihe von Studien vorliegen, erscheint darauf aufbauend die Frage relevant, ob dieses Wissen auch für die erfolgreiche Bewältigung von kognitiven Anforderungen der Unterrichtsplanung benötigt wird. Hier ergänzen die vorliegenden Befunde zum Zusammenhang von deutschdidaktischem Wissen und Planungskompetenz den bisherigen Forschungsstand (Schröder et al. 2020; Stender et al. 2017) und schließen an diesen sehr gut an, da erstmals ein entsprechender Nachweis im Bereich sprachlicher Bildung erfolgt. Dass das im akademischen Kontext der ersten Phase erworbene Wissen eine Bedeutung für handlungspraktische Tätigkeiten des Lehrer*innenberufs besitzt, ist ein wichtiger Beleg für die Relevanz einer wissenschaftlichen Lehramtsausbildung in der Fachdidaktik.

6.2 Limitierungen

Als zentrale Limitierung der vorliegenden Studie muss auf die eingeschränkte Qualität der Stichproben der Referendar*innen und Junglehrkräfte verwiesen werden. Trotz umfänglicher Bemühungen war die Erreichbarkeit beider Zielgruppen, teilweise pandemiebedingt, deutlich schwieriger als jene der beiden Studierendengruppen (vgl. Online-Anhang 1). So liegt die Annahme nahe, dass es sich letztlich um eine positive Auslese von Teilnehmer*innen handelt. Während für die hier fokussierten, hypothesenprüfenden Strukturanalysen die heterogenen Stichprobenzusammensetzungen noch akzeptabel erscheinen, sind detaillierte Deskriptionen auf dieser Datenbasis nur unter Vorbehalt möglich. Dies betrifft auch mögliche signifikante Leistungsunterschiede nach Lehramtstyp, die in den vorliegenden Daten zwar gesucht, aber nicht aufgefunden wurden; bei größeren Stichproben wäre es möglich, auch kleine identifizierte Mittelwertunterschiede inferenzstatistisch abzusichern. Außerdem konnten aufgrund der begrenzten Testzeit, mit der (angehende) Lehrkräfte zur Teilnahme bewogen wurden, nicht weitere Instrumente bei der Datenerhebung einbezogen werden, sodass eine Reihe relevanter Fragen (z. B. zur weiterführenden Validierung) außer Betracht bleiben musste.

6.3 Ausblick auf zukünftige Forschung

Aufgrund der angesprochenen Limitierungen wäre ein scaling-up, also eine Replikation der Analysen auf Basis größerer Stichproben, insbesondere berufserfahrener Lehrkräfte, sinnvoll, ebenso für Validierungszwecke der Einsatz weiterer Maße ihrer professionellen Kompetenz. Zum Beispiel wäre sowohl die Frage von Bedeutung, welche Rolle das fachliche Wissen in Bezug auf die gemessene Planungskompetenz spielt, als auch die Prüfung prognostischer Validität für Unterrichtsqualität und Lernfortschritte von Schüler*innen. Der vorliegende Beitrag hat deutlich gemacht, dass nun ein Instrument existiert, das solche Forschung grundsätzlich ermöglicht. Somit können in naher Zukunft weiterführende Erkenntnisse erwartet werden, die sowohl für die empirische Bildungsforschung als auch die Deutschdidaktik von besonderem Interesse sein dürften.