Unterrichtsplanungskompetenz von (angehenden) Deutschlehrkräften der Sekundarstufe: Testkonstruktion und Validierung

König, Johannes; Cammann, Franca; Bremerich-Vos, Albert; Buchholtz, Christiane

doi:10.1007/s11618-022-01113-z

Unterrichtsplanungskompetenz von (angehenden) Deutschlehrkräften der Sekundarstufe: Testkonstruktion und Validierung

Lesson planning competence of (preservice) secondary school language teachers: test construction and validation

Schwerpunkt
Open access
Published: 15 August 2022

Volume 25, pages 869–894, (2022)
Cite this article

Download PDF

You have full access to this open access article

Zeitschrift für Erziehungswissenschaft Aims and scope Submit manuscript

Unterrichtsplanungskompetenz von (angehenden) Deutschlehrkräften der Sekundarstufe: Testkonstruktion und Validierung

Download PDF

2782 Accesses
3 Citations
Explore all metrics

Zusammenfassung

Vorgestellt wird ein neu entwickelter Test zur Erfassung von situationsspezifischen Fähigkeiten der Unterrichtsplanung im Fach Deutsch bei (angehenden) Lehrkräften der Sekundarstufe. Drei komplexe Textvignetten zur Kontextualisierung von typischen Planungssituationen sowie anschließende Testfragen beziehen sich auf kognitive Anforderungen der Unterrichtsplanung: Fachwissenschaftliche Aufbereitung, Zielklarheit, Strukturierung, Didaktische Adaptivität. Anhand von vier Untersuchungsstichproben (Bachelor- und Masterstudierende, Referendar*innen, Junglehrkräfte) werden Fragestellungen zur Reliabilität und Validität bearbeitet. Die Ergebnisse verdeutlichen eine reliable eindimensionale Messung, auch die vier unterschiedenen kognitiven Anforderungen können über Subskalen reliabel gemessen werden. Mit zunehmender Unterrichtserfahrung schneiden die vier Untersuchungsstichproben im Test besser ab, die Gruppenmittelwerte sind jedoch nur zwischen Referendar*innen und Junglehrkräften einerseits und Bachelor- sowie Masterstudierenden andererseits signifikant. Das (über einen zusätzlichen Test erfasste) deutschdidaktische Wissen hat auch über die vorhandene Unterrichtserfahrung hinausgehend einen statistischen Einfluss auf die Planungskompetenz. Implikationen der erzielten Befunde werden mit Blick auf zukünftige Forschung diskutiert.

Abstract

This paper presents a new test instrument to measure situation-specific skills for planning language lessons of German (preservice) teachers for secondary schools. Three complex text vignettes providing the context of typical planning situations and succeeding test items relate to cognitive demands of lesson planning: content transformation, clarity of learning objectives, structuring the lesson, and pedagogical adaptivity. Using four samples (bachelor students, master students, teacher candidates, early career teachers), research questions on reliability and validity are focused. Findings provide evidence for a reliable one-dimensional measurement, and even the four cognitive demands can be measured through reliable subscales. With increasing teaching experience the four samples show better test performance, but only group means statistically differ between teacher candidates and early career teachers on the one hand and bachelor and master students on the other hand. Pedagogical content knowledge as measured via another test statistically influences planning competence, controlled for teaching experience. Implications of findings are discussed towards future research.

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

1 Einleitung

Die empirische Forschung zur Messung und Modellierung der Kompetenzen angehender wie berufstätiger Lehrkräfte hat in den vergangenen Jahren erheblich zugenommen (Baumert 2016). Zahlreiche Ansätze bringen die testdiagnostische Erfassung von professionellem Wissen voran (z. B. pädagogisches Wissen: Voss et al. 2015; fachdidaktisches Wissen: Krauss et al. 2017). Außerdem erfolgen aktuell modellhafte Erweiterungen, die stärker situationsspezifische Fähigkeiten als weitere Kompetenzfacetten in den Blick nehmen (Blömeke et al. 2015), zum Beispiel im Bereich der kognitiven Anforderung einer professionellen Unterrichtswahrnehmung (u. a. Van Es und Sherin 2002). Als situationsspezifisch können auch kognitive Anforderungen der Unterrichtsplanung, die von Lehrkräften bewältigt werden sollen, angesehen werden – so ist z. B. die Planungssituation stark bestimmt von der jeweils zu unterrichtenden Lerngruppe (John 2006; Mutton et al. 2011). Entsprechend wurde vorgeschlagen, im Bereich der Unterrichtsplanung insbesondere auf situationsspezifische Fähigkeiten zu fokussieren, diese zu messen und zu operationalisieren (König et al. 24,26,a, b, 2021).

Der Beitrag greift diese Überlegungen auf und bezieht sie auf ein standardisiertes Testinstrument: Vorgestellt wird ein neu entwickelter Test zur Erfassung von situationsspezifischen Fähigkeiten der Unterrichtsplanung im Fach Deutsch bei angehenden und berufstätigen Sekundarstufenlehrkräften. Er besteht aus drei komplexen Textvignetten, die typische Planungssituationen illustrieren. Die anschließenden Testfragen beziehen sich auf die Vignetten und messen die Bewältigung von kognitiven Anforderungen der Unterrichtsplanung. Diese Anforderungen wurden zuvor im Rahmen des Projekts „Die Bedeutung des professionellen Wissens angehender Deutschlehrkräfte für ihre Planung von Unterricht – Planungskompetenz von Lehrerinnen und Lehrern mit Fach Deutsch“ (PlanvoLL‑D; König et al. 24,26,a, b) auf der Basis schriftlicher Unterrichtsplanungen empirisch ermittelt und modelliert (König et al. 2021). Zur Testentwicklung wurden zunächst Pilotstudien durchgeführt. Die Daten der vorliegenden Studie wurden anschließend unter Einsatz des finalisierten Tests erhoben. Zielgruppe sind angehende bzw. berufstätige Lehrkräfte mit Fach Deutsch für die Sekundarstufe I bzw. Sekundarstufe I und II. Die Untersuchungsstichproben I und II bestehen aus 81 Bachelor- und 75 Masterstudierenden einer Volluniversität, die sich zum Zeitpunkt der Testung (Sommersemester 2020) jeweils im vierten Semester ihres Lehramtsstudiengangs befanden. Untersuchungsstichproben III und IV bestehen aus Referendar*innen sowie berufstätigen Junglehrkräften. Neben dem Textvignetten-Test bearbeiteten alle Proband*innen auch einen Test zu ihrem deutschdidaktischen Wissen (König und Bremerich-Vos 2020).

Im Beitrag werden folgende Fragen zur Reliabilität und Validität bearbeitet: Erlaubt der Test eine reliable Messung? Lassen sich kognitive Anforderungen der Unterrichtsplanung über Subskalen des Tests strukturell abbilden? Zeigt sich ein besseres Abschneiden in Abhängigkeit von der vorliegenden Unterrichtserfahrung (Bachelorstudierende, Masterstudierende mit Praxissemester-Erfahrung, Referendar*innen, berufstätige Junglehrkräfte)? Lässt sich die über den Textvignetten-Test ermittelte situationsspezifische Fähigkeit zur Unterrichtsplanung durch das deutschdidaktische Wissen regressionsanalytisch erklären?

2 Stand der Forschung

2.1 Unterrichtsplanung als Kompetenz von (angehenden) Lehrkräften

Die Planung von Unterricht ist Teil der alltäglichen Arbeit von Lehrer*innen. Unterrichtsplanung stellt dabei kognitive Anforderungen an Lehrer*innen, die bewältigt werden müssen, bevor der tatsächliche Unterricht als Interaktion zwischen Lehrperson und Schüler*innen stattfinden kann. Aus diesem Grund haben viele Lehrer*innenbildungsprogramme weltweit zum Ziel, angehende Lehrkräfte im Bereich der Unterrichtsplanung auszubilden. In Deutschland wie auch in vielen anderen Ländern gehören die Anfertigung von schriftlichen Planungen und das Halten von Lehrproben zum Kern der Ausbildung und sie spielen im Zuge der Beurteilung und Zertifizierung von Lehrer*innen eine bedeutsame Rolle (Strietholt und Terhart 2009; König 2020).

Obgleich den Fähigkeiten, die im Zuge der Unterrichtsplanung bei der Ausübung des Lehrberufs benötigt und daher bereits in der Lehrer*innenbildung berücksichtigt werden sollen, eine hohe Bedeutung beigemessen wird, dominieren in diesem Bereich der Lehrer*innenbildung seit Jahrzehnten Ratgeberliteratur bzw. präskriptive Planungskonzepte. So konnte zum Beispiel Scholl (2018) für die allgemeindidaktische Unterrichtsplanung mehr als 100 Ansätze identifizieren, die im deutschsprachigen Raum in der zweiten Hälfte des 20. Jahrhunderts veröffentlicht worden waren, jedoch weder zueinander systematisch in Beziehung stehen, noch jemals empirisch untersucht worden waren. Ähnliches berichtet John (2006) für die Situation in Großbritannien.

Im Gegensatz dazu hat die empirische Forschung zu Kognitionen, zur Expertise und zu Kompetenzen von Lehrer*innen spezifische Anforderungen der Unterrichtsplanung auf empirische Forschungsansätze bezogen. Bereits in den 1970er-Jahren nutzte die Forschung zur Entscheidungsfindung bei Lehrkräften (teacher decision-making) die Unterrichtsplanung als wichtiges Feld empirischer Lehr-Lernforschung (z. B. Shavelson et al. 1977; Shavelson und Stern 1981; Shavelson 1983). Frühe Forschung zur Lehrer*innenexpertise verwendete die Unterrichtsplanung als Gegenstand ihrer empirischen Analyse (Bromme 1981; Clark und Peterson 1986; Sabers et al. 1991), und auch aktuelle Überblicksdarstellungen zur Lehrer*innenexpertise nehmen auf die Planung von Unterricht deutlich Bezug (Stigler und Miller 2018). Mit dem starken Aufkommen testdiagnostischer Verfahren zur Messung von kognitiven Facetten professioneller Lehrkompetenzen werden in jüngster Zeit auch zunehmend spezifische Anforderungen der Unterrichtsplanung von der Forschung zu Lehrer*innenkompetenzen adressiert (vgl. Wernke und Zierer 2017; im Überblick).

Im deutschsprachigen Raum liegen mehrere Verfahren vor, die mithilfe von Selbsteinschätzungen die allgemeindidaktische Planungskompetenz bei angehenden Lehrkräften messen (Rothland 2021; im Überblick). Als testdiagnostisch im engeren Sinne hingegen gelten Vignettentests, die eine oder mehrere Planungssituationen kontextualisieren und daraufhin von den Proband*innen die Bearbeitung von Planungstestaufgaben verlangen. So haben beispielsweise Schröder et al. (2020) für das Fach Physik einen Vignettentest entwickelt, der für die Planung benötigte, handlungsnahe Fähigkeiten angehender Lehrkräfte im Schulpraktikum in einer simulierten Handlungssituation unter standardisierten Rahmenbedingungen messen soll. Ebenfalls für das Fach Physik haben Stender et al. (2017) einen drei Vignetten umfassenden Test entwickelt und bei berufstätigen Lehrkräften eingesetzt. Backfisch et al. (2020) haben für Mathematiklehrkräfte einen Szenario-basierten Ansatz entwickelt, bei dem eine Planungssituation geschildert wird und die (angehenden) Mathematiklehrkräfte zur Planung einer Stunde aufgefordert werden. Auch im Bereich des Sachunterrichts der Primarstufe wurde ein fünf Vignetten umfassender Planungskompetenztest entwickelt (Kirsch 2020). Weitere Ansätze, die in diese Richtung zielen, beziehen sich auf mathematisch-naturwissenschaftliche Fächer (Jacobs et al. 2008; Morris und Hiebert 2017) oder sind fächerübergreifend konzipiert (Baer et al. 2011). Für sprachliche Fächer mangelt es hingegen bislang an entsprechenden Vignettentests zur standardisierten Erfassung von Unterrichtsplanungskompetenzen.

Zwar nehmen Verfahren zur standardisierten Messung des deutschdidaktischen Wissens Einzelaspekte von Planungswissen auf, wenn beispielsweise Wissen über fachbezogene Lehrmethoden und Erklärungsansätze, Auswahl und Konstruktion von Lern- und Übungsaufgaben oder auch Wissen über Lernstände und -prozesse der Schüler*innen anteilig die Testinhalte bestimmen (König und Bremerich-Vos 2020; Pissarek und Schilcher 2017). Die meist auf deklaratives oder konzeptuelles Wissen zielenden Verfahren stoßen jedoch an ihre Grenze, wenn es darum geht, bei der Testung solche kognitiven Prozesse zu berücksichtigen, die als typische Anforderungen in Situationen der Planung von Unterricht auftreten und bewältigt werden müssen. Verschiedene Autor*innen ziehen daher diese Einschränkung als eine Begründung für die Entwicklung vignettenbasierter Erhebungsverfahren heran (z. B. Jacobs et al. 2008; Stender et al. 2017).

2.2 Erfassung von Unterrichtsplanungskompetenz im Fach Deutsch

Unterrichtsplanungskompetenz angehender Sprachlehrkräfte wurde bislang vor allem auf Basis der Analyse schriftlicher Unterrichtsplanungen empirisch erfasst. Weit verbreitet in den USA ist die Bewertung schriftlicher Planungen im Zuge der Lizenzierung von Lehrkräften: Mit dem Verfahren des edTPA, früher bekannt als „Performance Assessment for California Teachers“ (PACT; Pecheone und Chung 2006), werden die schriftlichen Planungen der Lehramtskandidat*innen anhand von fünf Rating-Fragen evaluiert. Diese werden zu einem Score zusammengefasst, Analysen weisen zum Beispiel prognostische Validität für Lernfortschritte der von diesen Lehrkräften unterrichteten Schüler*innen im sprachlichen Bereich aus (Darling-Hammond et al. 2013).

Für das Fach Deutsch der Sekundarstufe, also sprachliche Bildung im deutschsprachigen Raum bzw. in Deutschland, liegt aus dem Projekt PlanvoLL‑D ein vergleichsweise weit ausgearbeiteter Ansatz vor (zuletzt König et al. 2021). Auch hier bilden schriftliche Unterrichtsplanungen für Lehrproben im Referendariat die Datengrundlage. Dabei werden der Messung (theoretisch) relevante Kriterien zugrunde gelegt, über die sich Unterrichtsplanungskompetenz als reliable Fähigkeitsvariable bzw. Kompetenzfacette modellieren lässt. Anhand der Kriterien werden die schriftlichen Planungen inhaltsanalytisch ausgewertet, die so gebildeten Items fließen in Skalierungsanalysen ein.

Konzeptionell geht der im Projekt PlanvoLL‑D entwickelte Ansatz von kognitiven Anforderungen aus, die im Zuge der Unterrichtsplanung von (angehenden) Lehrkräften bewältigt werden müssen. Die in der Inhaltsanalyse schriftlicher Planungen verwendeten Kriterien stellen Indikatoren dar, um die Fähigkeiten differenziert zu beschreiben, welche zur Bewältigung der kognitiven Anforderungen benötigt werden. Im sogenannten CODE-PLAN Modell (cognitive demands of lesson planning), das im Rahmen des Projekts PlanvoLL‑D entwickelt wurde (König et al. 2021), werden sechs solcher kognitiven Anforderungen beschrieben, die ihre Operationalisierung in mehreren Indikatoren finden (insgesamt 21 Indikatoren, davon mehrere in einem mehrstufigen Format): Transformation von Inhalten, Aufgabenstellung, Adaptivität an die Voraussetzungen der Lernenden, Zielklarheit, Kontextualisierung, d. h. Platzierung in der Unterrichtseinheit, Phasierung der Unterrichtsstunde. Da diese Anforderungen die Grundlage für den nachfolgend vorzustellenden Vignettentest darstellen, seien sie kurz zusammenfassend referiert (vgl. detailliert König et al. 2021).

Von den sechs Anforderungen betrifft die der „Transformation von Inhalten“ (content transformation, Shulman 1987) bzw. didaktischen Reduktion (vgl. Arnold und Koch-Priewe 2011) die Auswahl und Aufbereitung von Unterrichtsinhalten. Dies umfasst die Analyse des zu lernenden Inhalts sowie auf einer weiterführenden Ebene die Ableitung eines adäquaten Themas für die Unterrichtsreihe (fachliche Deduktion); ferner den Abgleich des Unterrichtsthemas mit dem Curriculum und die Transformation eines aktuellen Inhalts in einen Lerninhalt unter Begründung und Anwendung von Kriterien einer „didaktischen Analyse“ (Klafki 1995). Schließlich stellt eine begründete didaktische Reduktion (z. B. eine Strategie zur Reduktion des Schwierigkeitsgrades oder der Komplexität, um das Lehren und Lernen zu erleichtern) eine weitere charakteristische Form der inhaltlichen Transformation in der Unterrichtsplanung dar.

Mit der Anforderung der „Aufgabenstellung“ (task creation) wird ein Kerngebiet der Unterrichtsplanung angesprochen, da Aufgaben eine Integrationsfunktion bei der Unterrichtsplanung übernehmen. Einen besonderen Schwerpunkt bildet auch hier die Aufbereitung der Inhalte, einschließlich der Gestaltung einer Differenzierung der Lernaufgaben, um das potenzielle Aufgabenspektrum mit unterschiedlichen Schwierigkeitsgraden in verschiedenen Dimensionen umzusetzen.

Planung von Unterricht ist an die jeweilige Situation gebunden, die maßgeblich durch die Lerngruppe bzw. die einzelnen Lernenden bestimmt wird. Mit „Adaptivität an die Lernvoraussetzungen der Schüler*innen“ (Adaptation to student learning dispositions) ist die Forderung nach Anpassung an die Lerndispositionen der Schüler*innen im Sinne einer Reflexion des sozialen Kontextes gemeint, z. B. bei der Planung eine Passung zwischen der Aufgabenstellung und dem Vorwissen der Schüler*innen herzustellen.

Unterricht als intentionales Geschehen ist an Lernziele gebunden. Mit der Anforderung einer „Zielklarheit“ (clarity of learning objectives) wird somit nicht nur die konkrete Formulierung von Lernzielen angesprochen, sondern auch ihre Funktion, den Lernenden das konkrete Verhalten zu vermitteln, das erreicht werden soll, die Bedingungen, unter denen das Verhalten gezeigt werden muss, und das Leistungsniveau, auf dem das Verhalten ausgeführt werden soll. Sie werden von der Lehrkraft festgelegt und helfen ihr, Klarheit über den zu lernenden Inhalt zu gewinnen.

Da eine Unterrichtsstunde üblicherweise in einen größeren Kontext des Unterrichtens eingebettet ist, stellt sich die kognitive Anforderung der „Kontextualisierung in die Unterrichtseinheit“ (unit contextualization). Dabei sollte geklärt werden, welches Thema für die Reihe gewählt wurde und wie dieses Thema in Unterthemen aufgeteilt wird. Darüber hinaus ist es wichtig zu klären, inwieweit der Inhalt der zu planenden Unterrichtsstunde mit dem Gesamtinhalt der Reihe zusammenhängt, d. h. welchen Mehrwert die einzelne Stunde hat und wie sie zum Gelingen der Reihe beiträgt, und ob der spezifische Inhalt der Unterrichtsstunde an die vorhergehenden und/oder nachfolgenden Unterrichtsstunden anknüpft und so die Verbindung eines kumulativen Lernprozesses seitens der Schüler*innen ermöglicht. Sowohl die Unterrichtsreihe als auch die Unterrichtsstunde sollten eine klare, inhaltlich kohärente Struktur haben, die das Lernen der Schüler*innen erleichtert.

Die Anforderung der „Phasierung der Unterrichtsstunde“ (phasing) bezieht sich schließlich auf die Notwendigkeit, eine klare, erkennbare Gliederung des Unterrichts in einzelne Phasen und Abschnitte zu planen, in denen die Lehrkraft durch die richtige Sequenzierung einen kohärenten Unterrichtsverlauf mit minimalen Unterbrechungen gewährleistet. Ein Instrument zur Planung und Verwaltung von Unterrichtszeit stellen dabei Phasenschemata dar.

Auf Basis der Daten von über 300 Lehrprobenplanungen konnten im Rahmen des Projekts PlanvoLL‑D verschiedene Ergebnisse zur Reliabilität und Validität der Fähigkeitsmaße zur Bewältigung dieser kognitiven Anforderungen erzielt werden (König et al. 2021). So konnte die Annahme einer mehrdimensionalen Struktur von Unterrichtsplanungskompetenz entlang dieser sechs beschriebenen Anforderungen empirisch geprüft und belegt werden. Die sechs Anforderungen lassen sich über Teilskalen der Unterrichtsplanungskompetenz reliabel messen (α = 0,55–0,83). Basierend auf einem längsschnittlichen Teildatensatz kann ein Zuwachs der so erfassten Unterrichtsplanungskompetenz von der ersten zur letzten Lehrprobe aufgezeigt werden (d = 0,97–1,98 für die sechs Teilskalen). Hinweise auf prognostische Validität konnten in zwei Teilanalysen erbracht werden: (1) Die über die letzte Lehrprobe (Staatsprüfung) gemessene Unterrichtsplanungskompetenz korreliert signifikant und praktisch bedeutsam mit der Note für die schriftlichen Planungen (−0,53). (2) An einer kleinen Teilstichprobe von n = 27 Referendar*innen und den von ihnen unterrichteten n = 564 Schüler*innen konnten signifikanten Zusammenhänge einzelner Fähigkeitsscores und der von den Schüler*innen eingeschätzten Qualität der auf Basis der Planung gehaltenen Unterrichtsstunde herausgestellt werden. So korreliert beispielsweise die Fähigkeit der Referendar*innen zur Bewältigung der kognitiven Anforderung „Transformation von Inhalten“ mit aus Sicht der Schüler*innen wahrgenommenen Zielklarheit (0,42) und konstruktiven Unterstützung (0,26).

Die im CODE-PLAN Modell beschriebenen kognitiven Anforderungen können möglicherweise auf andere Fächer übertragen werden (vgl. bereits König et al. 2015, 2020b). Die Operationalisierung der kognitiven Anforderungen in mehreren Indikatoren durch König et al. (2021) erfolgte jedoch ausschließlich für das Fach Deutsch der Sekundarstufe, wobei generische (allgemeindidaktische) und fachspezifische (deutschdidaktische) Kodierungskategorien verwendet wurden. In einem Vergleich dieser generischen und fachspezifischen Kategorien zur Kodierung schriftlicher Planungen konnte am Beispiel der beiden kognitiven Anforderungen Aufgabenstellung und Adaptivität an die Voraussetzungen der Lernenden in einer Rasch-Skalierung festgestellt werden, dass die Erfüllung fachspezifischer Kriterien der Unterrichtsplanung sich in signifikant höheren Item-Schwierigkeitsparametern zeigte als die Erfüllung vergleichbarer generischer Kriterien (vgl. detailliert König et al. 24,25,a, c). Zudem erfüllten Lehrprobenplanungen am Ende des Referendariats in höherem Maße die fachspezifischen Kriterien als die Lehrprobenplanungen zu Beginn des Referendariats. Dies werten König et al. (24,25,a, c) als Hinweis, dass mit höherer Unterrichtsplanungskompetenz die Fachlichkeit an Bedeutung gewinnt und dass Fachlichkeit in der Unterrichtsplanung während der zweiten Ausbildungsphase der Lehrer*innenbildung eine bedeutsame Rolle zugeschrieben werden kann.

3 Theoretische Rahmung und Fragestellung

3.1 Unterrichtsplanungskompetenz als situationsspezifische Fähigkeit

Die vorliegende Studie zielt auf die Entwicklung eines vignettenbasierten Tests zur standardisierten Erfassung unterrichtlicher Planungskompetenz für angehende und berufstätige Deutschlehrer*innen der Sekundarstufe. Da unseres Wissens ein solcher Test für den sprachlichen Bereich noch nicht existiert, lässt sich die Testentwicklung zunächst damit begründen, bisherigen Entwicklungen für die mathematisch-naturwissenschaftlichen Fächer (Abschn. 2.1) zu folgen. Aufgrund der vergleichsweise weit ausgearbeiteten Modellierung und Messung von Unterrichtsplanungskompetenz im Fach Deutsch im Rahmen des Projekts PlanvoLL‑D (Abschn. 2.2) erscheint es ferner sinnvoll, an die bereits entwickelte und in Teilen empirisch geprüfte Konzeption kognitiver Anforderungen der Unterrichtsplanung anzuschließen (vgl. detailliert die Darstellung der Testentwicklung im Methodenteil). Gegenüber dem Verfahren der Analyse schriftlicher Planungen für Lehrproben von Referendar*innen hat ein Vignettentest aber nicht nur den Vorteil, eine höhere Standardisierung zu ermöglichen (vgl. Schröder et al. 2020). Es können damit auch Lehramtsstudierende sowie berufstätige Lehrkräfte als weitere Zielgruppen in die Analysen einbezogen werden.

Darüber hinaus nehmen wir Bezug auf das von Blömeke et al. (2015) vorgestellte Modell „Kompetenz als Kontinuum“: einerseits um den „situationsspezifischen“ Charakter der zu messende Planungsfähigkeit hervorzuheben, andererseits um diese Planungsfähigkeit von professionellem Wissen abzugrenzen, das – als mentale propositionale Struktur vorliegend – als „kognitive Disposition“ bezeichnet werden kann (vgl. Blömeke et al. 2015). Wir folgen damit auch Überlegungen, wie sie bereits im Projekt PlanvoLL‑D entwickelt wurden, um zum Beispiel den Zusammenhang zwischen pädagogischem Wissen und (über die Analyse schriftlicher Planungen gemessener) Unterrichtsplanungsfähigkeit zu analysieren (König et al. 2020b). In der vorliegenden Untersuchung bildet diese Differenzierung den theoretischen Bezugsrahmen für eine Analyse des Zusammenhangs zwischen deutschdidaktischem Wissen und der über den neu entwickelten Vignettentest erfassten Unterrichtsplanungskompetenz als „situationsspezifische Fähigkeit“.

3.2 Unterrichtsplanungskompetenz, Unterrichtserfahrung und professionelles Wissen

Mit der Anwendung eines standardisierten Planungskompetenztests auf Zielgruppen angehender bzw. berufstätiger Lehrkräfte mit unterschiedlich starker Unterrichtserfahrung verbindet sich die grundsätzliche Annahme, dass es zu Unterschieden in der Testleistung in Abhängigkeit von der Gruppenzugehörigkeit kommt (vgl. Rothland 2021). Die Planung von Unterricht ist ein ausgewiesenes Ziel der Ausbildung von Lehrer*innen (vgl. Wernke und Zierer 2017). Bereits in Langzeitpraktika wie zum Beispiel dem Praxissemester an Universitäten in Nordrhein-Westfalen sollen Lehramtsstudierende meist gemeinsam mit einer betreuenden Ausbildungslehrperson Unterricht planen, durchführen und reflektieren (Expertenkommission 2007; König und Rothland 2018). Im Vorbereitungsdienst bzw. Referendariat sind Lehrproben zentraler Teil der Ausbildung, prüfungsrelevant und karriereentscheidend – und zwar in allen Bundesländern (Anderson-Park und Abs 2020; König et al. 2021; Strietholt und Terhart 2009). Berufstätige Lehrer*innen wiederum stehen allgemein beim Berufseinstieg vor der Herausforderung, Routinen der Unterrichtsplanung zu entwickeln, um in zunehmendem Maße zeiteffizient ihre beruflichen Anforderungen zu bewältigen (vgl. z. B. Darling-Hammond et al. 2013; Thompson et al. 2013; Stender et al. 2017). Mit dem unterschiedlichen Umfang an Unterrichtserfahrung dieser Gruppen, die prinzipiell mit einer strukturierten Reflexion der Erfahrung einhergehen kann (Schön 1983), sollten die Leistungen in einem Planungskompetenztest korrespondieren. Ein Mehr an Erfahrung sollte mit besseren Testleistungen einhergehen.

Bisherige Befunde empirischer Studien lassen sich zumindest teilweise als Bestätigung dieser Annahme lesen. So liegen erste Ergebnisse aus Studien zum tatsächlichen Einfluss von schulpraktischen Lerngelegenheiten auf die über Vignetten gemessene Planungskompetenz bei Lehramtsstudierenden vor (z. B. Schröder et al. 2020). Referendar*innen zeigen eine sehr viel höhere Planungskompetenz in ihrer letzten Lehrprobe verglichen mit der ersten Lehrprobe (König et al. 2021). Zur Bedeutung von beruflicher Erfahrung für die Planungskompetenz liegen zudem wichtige Befunde aus der Expertiseforschung vor (z. B. Bromme 1981; Sabers et al. 1991; Stigler und Miller 2018).

Unterrichtserfahrung ist nicht der alleinige Faktor zur Erklärung von Kompetenzausprägungen im Bereich der Unterrichtsplanung. Verschiedentlich wird auf die Bedeutung des dem Planungshandeln zugrundeliegenden professionellen Wissens verwiesen (vgl. z. B. Rothland 2021; Wernke und Zierer 2017). In der Tat liegen erste empirische Befunde zum Zusammenhang von fachdidaktischem Wissen und Unterrichtsplanungskompetenz vor (Backfisch et al. 2020; Schröder et al. 2020; Stender et al. 2017).

3.3 Fragestellungen und Hypothesen

Folgende Fragestellungen und Hypothesen stehen im Mittelpunkt der vorliegenden Untersuchung:

1.

Erlaubt der Test eine reliable Messung?

Ausgehend vom referierten Stand der Forschung zu Vignettentests wie auch zu Erkenntnissen der Planungskompetenz aus dem Projekt PlanvoLL‑D vermuten wir, dass der neu entwickelte, auf drei Vignetten basierende Test eine reliable Messung ermöglicht, und zwar auch bei Teilgruppen mit unterschiedlich starker Unterrichtserfahrung.

2.

Lassen sich kognitive Anforderungen der Unterrichtsplanung über Subskalen des Tests strukturell abbilden?

Wir nehmen an, dass eine mehrdimensionale Skalierung, in der verschiedene, teils sehr unterschiedliche kognitive Anforderungen der Unterrichtsplanung spezifiziert werden, einer eindimensionalen Skalierung, die einen Gesamtscore abbildet und von der konkreten, auf Unterrichtsplanung bezogenen Anforderungsstruktur abstrahiert, in Bezug auf Modell-Fit und weitere psychometrische Indizes überlegen ist. Ferner nehmen wir an, dass die kognitiven Anforderungen eine reliable Messung als Subskalen des Tests ermöglichen.

3.

Zeigt sich ein besseres Abschneiden in Abhängigkeit von der Unterrichtserfahrung (Bachelorstudierende, Masterstudierende mit Praxissemester-Erfahrung, Referendar*innen, berufstätige Junglehrkräfte)?

Angesichts der unter Abschn. 3.2 dargestellten Überlegungen und empirischer Befunde aus bisherigen Studien erwarten wir mit zunehmender Unterrichtserfahrung der vier untersuchten Gruppen ein sukzessiv besseres Testergebnis.

4.

Lässt sich die über den Textvignetten-Test ermittelte situationsspezifische Fähigkeit zur Unterrichtsplanung durch das deutschdidaktische Wissen regressionsanalytisch erklären?

Der Annahme folgend, dass Unterrichtsplanung wissensbasiert erfolgt, erwarten wir auch für das Fach Deutsch der Sekundarstufe einen signifikanten und praktisch bedeutsamen Zusammenhang zwischen deutschdidaktischem Wissen und Planungskompetenz. Da die vorliegende Untersuchung vier Gruppen mit unterschiedlich starker Unterrichtserfahrung wie auch unterschiedlichen Ausbildungs- und Karrierestadien einbezieht, erfolgt die Analyse als Mediationsmodell, in dem die Gruppenzugehörigkeit als (dummy-kodierter) Prädiktor sowohl für das deutschdidaktische Wissen als auch für die Planungskompetenz vorgesehen ist. Erwartet wird, dass deutschdidaktisches Wissen auch bei Kontrolle der Gruppen die Planungskompetenz signifikant erklären kann. Dies ist bedeutsam, da mit einem Fortschreiten in der Ausbildung bzw. Karriere höhere Leistungen nicht nur in der Planungskompetenz, sondern auch im fachdidaktischen Wissen erwartet werden können (z. B. Kleickmann et al. 2013; für Mathematik der Sekundarstufe). Dem Modell „Kompetenz als Kontinuum“ (Abschn. 3.1) folgend erwarten wir ferner, dass der Einfluss der Gruppenzugehörigkeit auf die Planungskompetenz über das deutschdidaktische Wissen mediiert wird (Baron und Kenny 1986). Sollten sich indirekte Effekte in einer Pfadmodellierung von der Gruppenzugehörigkeit über das deutschdidaktische Wissen auf die Planungskompetenz belegen lassen, so könnte dies ebenfalls als Hinweis für eine auf professionellem Wissen basierende, situationsspezifische Unterrichtsplanungskompetenz interpretiert werden (vgl. König et al. 2020c).

4 Methode

Die Bearbeitung der genannten Fragestellungen erfolgt auf Basis eines Teildatensatzes, der im Rahmen eines hochschulweiten Monitorings der Lehrer*innenbildung an der Universität zu Köln ab April 2020 generiert wurde – geleitet vom Handlungsfeld „Qualitätssicherung“ des durch die „Qualitätsoffensive Lehrerbildung“ geförderten Projekts „Zukunftsstrategie Lehrer*innenbildung Köln – Heterogenität und Inklusion gestalten“.^{Footnote 1} Wesentliches Ziel des Monitorings ist es, Einblick in Kompetenzerwerbsprozesse während der Lehramtsausbildung an der Universität zu Köln, dem Vorbereitungsdienst und den ersten Berufsjahren zu gewinnen. In Form eines Mehr-Kohorten-Längsschnitt-Designs werden daher seit dem Sommersemester 2016 jährlich Bachelor- und Masterstudierende befragt und getestet (König et al. 2018). Im Jahr 2018 wurde die Zielgruppe um Referendar*innen und im Jahr 2020 zusätzlich um berufstätige Lehrer*innen erweitert.

4.1 Stichprobe und Datenerhebung

Zielgruppe der vorliegenden Untersuchung sind angehende bzw. berufstätige Lehrkräfte für das Fach Deutsch der Sekundarstufe. Dies schließt folgende, nach der KMK (2009) definierte Lehramtstypen ein: Typ 3 (Lehrämter für alle oder einzelne Schularten der Sekundarstufe I), Typ 4 (Lehrämter für die Sekundarstufe II [allgemeinbildende Fächer] oder für das Gymnasium), Typ 5 (Lehrämter für die Sekundarstufe II [berufliche Fächer] oder für die beruflichen Schulen) und Typ 6 (Sonderpädagogische Lehrämter).

Insgesamt konnten bei der Durchführung der vorliegenden Studie n = 219 Personen erreicht bzw. zur Teilnahme bewegt werden (vgl. Online-Anhang 1 für weitere Details zum Vorgehen bei der Datenerhebung). Den größten Anteil bilden Bachelorstudierende (n = 81; n % = 37,0 %; Rücklauf: 20,9 %) und Masterstudierende (n = 75; n % = 34,3 %; Rücklauf: 27,7 %), gefolgt von den ähnlich stark vertretenen Junglehrkräften (n = 32; n % = 14,2 %; Rücklauf: 54,3 %) und Referendar*innen (n = 31; n % = 14,6 %; Ausschöpfungsquote^{Footnote 2} der Berliner Referendar*innen: 7,1 %). Über alle Gruppen hinweg lag der Anteil weiblicher Untersuchungsteilnehmer*innen (85,4 %) über dem Anteil männlicher (14,2 %) bzw. diverser (0,5 %) Personen (vgl. Online-Anhang 2). Im Durchschnitt waren die Proband*innen M = 26,10 Jahre alt (SD = 4,78; R = 28,00), wobei sich erwartungskonform ein niedrigeres gemitteltes Alter der Bachelor- (M = 22,67; SD = 3,35; R = 24,00) und Masterstudierenden (M = 26,02; SD = 3,05; R = 18,00) manifestierte, während Referendar*innen (M = 30,79; SD = 5,41; R = 23,00) und Junglehrkräfte (M = 30,22; SD = 3,05; R = 12,00) einen ähnlichen Mittelwert aufwiesen.

Der Zielkohorte des Monitorings der Lehrer*innenbildung entsprechend befanden sich die befragten und getesteten Studierenden im vierten Semester ihres an der Universität zu Köln absolvierten Bachelor- oder Masterstudiums. Die Referendar*innen hatten ihren Vorbereitungsdienst durchschnittlich vor M = 1,08 Jahren (SD = 2,09; R = 12,00) begonnen, befanden sich also im Durchschnitt zwischen zweitem und letztem Halbjahr ihrer zweiten Ausbildungsphase, wobei die meisten Untersuchungsteilnehmer*innen ihr Referendariat in Berlin absolvierten (87,1 %), während nur jeweils zwei Lehramtsanwärter*innen andere Bundesländer (jeweils 6,5 %) als ihren aktuellen Ausbildungsstandort nannten. Sämtliche Lehrer*innen hatten ihr Referendariat innerhalb der letzten fünf Jahre (M = 1,34; SD = 1,13; R = 5,00) abgeschlossen. Zumeist unterrichteten sie an Gymnasien (34,4 %) oder Gesamtschulen (25,0 %), wobei die durchschnittliche Berufserfahrung zum Erhebungszeitpunkt M = 2,18 Jahre betrug (SD = 1,49; R = 7,25). Ein genauer Überblick über die Verteilung nach Lehramt ist Online-Anhang 3 zu entnehmen.

4.2 Instrumente

4.2.1 Vignettentest zur Erfassung von Planungskompetenz im Fach Deutsch

Zur Messung der situationsspezifischen Fähigkeit der Unterrichtsplanung von (angehenden) Sekundarstufen-Deutschlehrkräften wurde in der vorliegenden Studie ein standardisiertes Testinstrument entwickelt, wobei auf Vorarbeiten aus dem Projekt PlanvoLL‑D zurückgegriffen wurde. Auf Grundlage von schriftlichen Planungen für Lehrproben, die im Rahmen der Kodierung im Projekt PlanvoLL‑D eine Vielzahl zentraler (Güte‑)Kriterien erfüllten, wurden – unter Einbeziehung von Expert*innen aus den Bereichen Bildungswissenschaften und Deutschdidaktik – realistische Planungssituationen konzipiert. Letztere beschreiben typische Situationen bei der Planung einer Unterrichtsstunde im Fach Deutsch und bilden wesentliche, hier geforderte Fähig- und Fertigkeiten von Deutschlehrkräften exemplarisch ab. Die auf die Planungssituationen bezogenen Testfragen messen die Bewältigung von kognitiven Anforderungen der Unterrichtsplanung, welche zuvor – primär im Rahmen des Projekts PlanvoLL-D – über eine empirische Anforderungsanalyse ermittelt und modelliert werden konnten (König et al. 2021; vgl. Abschn. 2.2).

Um eine realistische Testlänge zu erreichen, waren Bündelungen bzw. Fokussierungen nötig: Die in Abschn. 2.2 dargestellten kognitiven Anforderungen „Aufgabenstellung“ und „Adaptivität an die Voraussetzungen der Lernenden“ wurden im Design des Vignettentests zur Dimension „Didaktische Adaptivität“ zusammengefasst (vgl. bereits König et al. 2015). Ebenfalls wurden die in Abschn. 2.2 berichteten kognitiven Anforderungen „Kontextualisierung in die Unterrichtseinheit“ und „Phasierung der Unterrichtsstunde“ zur Dimension „Strukturierung“ im Vignettentest gebündelt (vgl. Krepf und König 2022). „Zielklarheit“ blieb als Dimension bestehen und „Transformation von Inhalten“ erhielt einen stärker auf Fachinhalte gerichteten Fokus, sodass die Bezeichnung „Fachwissenschaftliche Aufbereitung“ gewählt wurde.

Nach einer Begutachtung durch Expert*innen durchlief der Test im März/April 2019 eine Präpilotierung (n_Studierende = 20) sowie zwei umfangreiche Pilotierungen im Sommer 2019 (n_Studierende = 102; n_{Referendar*innen} = 21) und im Januar/Februar 2020 (n_Studierende = 95). Auf Basis der (Prä‑)Pilotierungsergebnisse erfolgte eine Überarbeitung der theoriegeleitetet entwickelten Testitems. Dieser Arbeitsschritt umfasste sowohl eine Überprüfung der Verständlichkeit als auch umfangreiche Item-Response-Theory (IRT) Analysen und führte zu einer mehrfachen Optimierung und Reduzierung der Testaufgaben. Das finale Testinstrument besteht aus 37 Testaufgaben zu drei Planungssituationen (20 Items mit geschlossenem Antwortformat und 17 Items mit offenem Antwortformat). Von diesen wurde ein Item mit geschlossenem Antwortformat aufgrund suboptimaler psychometrischer Eigenschaften nachträglich ausgeschlossen. Die im weiteren Verlauf präsentierten Ergebnisse basieren somit auf zehn Items zur Dimension „Fachwissenschaftliche Aufbereitung“, sieben Items zur Dimension „Zielklarheit“, elf Items zur Dimension „Strukturierung“ und acht Items zur Dimension „Didaktische Adaptivität“ (Beispielitems siehe Online-Anhang 4).

Die Kodierung der Testaufgaben erfolgte mithilfe eines Kodiermanuals, das unter Einbeziehung von Expert*innen deduktiv entwickelt, auf Basis der Ergebnisse aus den Pilotierungen mehrfach induktiv optimiert und anschließend wieder deduktiv ausdifferenziert und erneut induktiv überprüft wurde. Durch diese Herangehensweise konnte sichergestellt werden, dass die identifizierten Kriterien theoretisch begründbar sind und gleichzeitig die in den Originalantworten enthaltenen Informationen möglichst vollständig abdecken. Die Kodierung der Testitems mit offenem Antwortformat wurde durch vier geschulte Lehramtsstudierende vorgenommen. Die ersten 100 Fälle (45,7 % der Gesamtfälle) wurden von allen vier Studierenden unabhängig voneinander paarweise kodiert. Der als Maß für die Interrater-Reliabilität berechnete Fleiss’-Kappa-Wert (Fleiss 1971) indiziert mit κ = 0,681 eine substanzielle Übereinstimmung der Ratings (Landis und Koch 1977). Um im weiteren Verlauf ein möglichst einheitliches Vorgehen der Kodierer*innen zu gewährleisten, wurde über strittige Fälle diskutiert und ein einziger finaler Code festgelegt.

4.2.2 Test zur Erfassung von deutschdidaktischem Wissen

Neben dem Test zur Messung der Unterrichtsplanungskompetenz bearbeiteten alle Untersuchungsteilnehmer*innen einen Test zu ihrem deutschdidaktischen Wissen (pedagogical content knowledge, PCK; König und Bremerich-Vos 2020). Hierzu wurde eine zehn Items umfassende Kurzversion des im Projekt PlanvoLL‑D umfangreich validierten, 29 Items umfassenden PCK-Deutschtests entwickelt und eingesetzt (fünf Items mit geschlossenem und fünf mit offenem Antwortformat). Die Kurzversion umfasst jeweils zwei Items zu den – sich aus den Bildungsstandards und Kerncurricula für das Fach Deutsch ergebenden – Dimensionen „Sprechen und Zuhören“, „Schreiben“, „Rechtschreiben“, „Lesen“ und „Sprache/Sprachgebrauch“ (Beispielitems siehe Online-Anhang 4). Die Kodierung der Testaufgaben erfolgte mithilfe eines Kodiermanuals, welches im Rahmen des Projekts PlanvoLL‑D in einem iterativen Prozess mit einem mehrfachen Wechsel zwischen deduktiven und induktiven Phasen entwickelt worden war. Die Items mit offenem Antwortformat wurden von einer ehemaligen Mitarbeiterin des Projekts PlanvoLL‑D kodiert, welche über umfangreiche Erfahrung in der Kodierung der entsprechenden Items verfügte und im Vorfeld mehrere Doppelkodierungsprozesse durchlaufen hatte.

Die Skalierung der Kurzform des Tests erfolgte in einem ersten Schritt auf Basis der Stichprobendaten der vorliegenden Studie im eindimensionalen Raschmodell unter Verwendung der Software ConQuest (Adams et al. 2015). Als Kurztest mit nur knapp einem Drittel der Items des ursprünglichen Langtests (10 von 29 Items) zeigte er dennoch eine akzeptable Reliabilität (EAP-Reliabilität, vergleichbar mit Cronbachs Alpha: 0,58; Varianz der latenten Variable Theta: 0,76). In einem zweiten Schritt wurde der Test zusammen mit den umfangreichen Daten des Projekts PlanvoLL‑D skaliert, um Testwerte (Tab. 4) berichten zu können, die mit der Metrik der Testwerte des Langtests direkt vergleichbar sind (König et al. 2020c; König und Bremerich-Vos 2020).

5 Ergebnisse

5.1 Skalierung und Reliabilität des Vignettentests

Der Test wurde mit 36 dichotomen Items zunächst im eindimensionalen Raschmodell IRT-skaliert. Mit der Software ConQuest (Adams et al. 2015) wird jedem Item aufgrund seiner Lösungsquote ein Schwierigkeitsparameter und jeder befragten Person entsprechend der gezeigten Leistung auf den bearbeiteten Items ein Fähigkeitsparameter zugewiesen. Ferner werden zur Beurteilung der Skalierung Skalenkennwerte (u. a. EAP-Reliabilität, vergleichbar mit Cronbachs Alpha, und die Varianz der latenten Variable Theta) sowie Item-Statistiken ausgegeben (Tab. 1).

Tab. 1 Statistische Kennwerte aus den Skalierungsanalysen des Vignettentests

Full size table

Die Item-Kennwerte für die Skalierung des Tests an der Gesamtstichprobe können als gut bezeichnet werden, da die gewichteten Abweichungsquadrate innerhalb des empfohlenen Bereichs liegen (0,80–1,20; vgl. Adams 2002; Bond und Fox 2015) und die durchschnittliche Item-Diskrimination deutlich über 0,30 liegt. Die Reliabilität von 0,86 ist als gut zu interpretieren. Getrennte IRT-Skalierungen für die beiden Teilgruppen der Studierenden (Bachelor- und Masterstudierende) sowie der Referendar*innen und Junglehrkräfte zeigen ebenfalls gute bzw. akzeptable Werte. Auch Cronbachs Alpha liegt mit 0,80 in einem guten Bereich, sowohl für die Gesamtstichprobe als auch für die Teilstichproben (Letzteres angesichts der relativ kleinen Teilgruppen lediglich berechnet mithilfe von SPSS). Die Analyse der grafisch dargestellten Verteilung von Item- und Fähigkeitsparametern (vgl. Online-Anhang 6) zeigt ergänzend, dass die Items aufgrund unterschiedlicher Schwierigkeiten das Spektrum der Personenfähigkeiten abdecken. Dies trägt zu einer präzisen Schätzung der Personenfähigkeitswerte bei. Zugleich streuen die Personenfähigkeitswerte über rund sechs Logits, was für eine gute Variationsbreite des Tests spricht (Bond und Fox 2015).

5.2 Mehrdimensionale Skalierung nach inhaltlichen Anforderungen der Unterrichtsplanung

Um die Binnendifferenzierung des Tests zu prüfen, wurde das eindimensionale Skalierungsmodell einem vierdimensionalen gegenübergestellt, das die vier im Testdesign konzipierten kognitiven Anforderungen – Fachwissenschaftliche Aufbereitung, Zielklarheit, Strukturierung und Didaktische Adaptivität – in je einer Dimension abbildet. Mithilfe der Software ConQuest wurde ein solches Modell spezifiziert und mit den Ergebnissen des eindimensionalen Modells verglichen (Tab. 2). Die Differenz der beiden Abweichungsindizes zeigt allerdings zunächst, dass die Antworten der (angehenden) Lehrkräfte im vierdimensionalen Modell nicht signifikant (p = 0,704) besser als im eindimensionalen Modell widergespiegelt werden (vgl. zum methodischen Vorgehen z. B. Rost 2004).

Tab. 2 Statistik der Vergleiche eines ein- und eines vierdimensionalen Skalierungsmodells

Full size table

Einblick in die interne Konsistenz der einzelnen Testdimensionen gibt die Expected A Posteriori Estimation (EAP), die eine unverzerrte Beschreibung der Population ermöglicht und die mehrdimensionale Modellstruktur berücksichtigt (vgl. Wu und Adams 2006). Hier zeigt sich (vgl. Tab. 3), dass die vier inhaltlichen Skalen jeweils eine akzeptable bis gute Reliabilität aufweisen (0,74–0,82), zugleich fallen die messfehlerbereinigten Interkorrelationen relativ hoch aus (0,80–0,89). Die Reliabilitäten und Korrelationen der vier Testdimensionen auf manifester Ebene sind erwartungsgemäß niedriger (0,50–0,61), liegen jedoch noch im akzeptablen Bereich.

Tab. 3 Item-Anzahl, Reliabilitäten und Interkorrelationen der inhaltlichen Testdimensionen

Full size table

Um die spezifizierten Modelle (ein- vs. vierdimensional) weiterführend zu vergleichen, wurde ergänzend ein Modellvergleich im Strukturgleichungsansatz für kategoriale Variablen (Estimator = WLSMV) mithilfe der Software Mplus (Muthén und Muthén 2017) vorgenommen, da damit weitere Indizes zur Bewertung der multidimensionalen Binnenstruktur des Tests zur Verfügung stehen. Hier kommt das vierdimensionale Modell zu einer leicht besseren Anpassung an die Daten (χ² / df = 1,26; CFI = 0,911; TLI = 0,905; RMSEA = 0,034; WRMR = 1,068) als das eindimensionale Modell (χ² / df = 1,31; CFI = 0,891; TLI = 0,885; RMSEA = 0,038; WRMR = 1,120). Aufgrund dieser Befunde wie auch der insgesamt (noch) reliablen Messung der vier inhaltlichen Anforderungen (Tab. 3) sollen nachfolgend somit – neben Analysen basierend auf dem Gesamtscore des Tests – auch Analysen auf Basis der Subskalen des Tests vorgenommen werden, um differenzierte Einblicke in die Planungskompetenz der (angehenden) Lehrkräfte zu erhalten.

5.3 Mittelwertunterschiede nach Gruppe

Um die Lesbarkeit der Testergebnisse zu erleichtern, wurden sowohl der Gesamtscore als auch die vier inhaltlichen Teilscores des Planungskompetenztests getrennt voneinander so linear transformiert, dass die Gruppe der Referendar*innen jeweils einen Mittelwert von 500 und eine Standardabweichung von 100 aufweist. Wie den Mittelwerten und 95%igen Konfidenzintervallen in Abb. 1 bzw. den Kennwerten in Tab. 4 entnommen werden kann, schneiden Referendar*innen und Lehrer*innen – also die beiden Gruppen mit der meisten professionellen Unterrichtserfahrung – im Test deutlich besser ab als Studierende (Referendar*innen vs. Masterstudierende: t (104) = 4,68; p (2-seitig) < 0,001; d = 1,0; Junglehrkräfte vs. Masterstudierende: t (105) = 4,40; p (2-seitig) < 0,001; d = 0,94). Im Falle des Gesamtscores ist der Unterschied von großer praktischer Relevanz. Weder zwischen den Bachelor- und Masterstudierenden noch zwischen den Referendar*innen und den Junglehrkräften lassen sich statistisch signifikante Unterschiede im durchschnittlichen Abschneiden feststellen. Dieses Muster setzt sich fort für die Teildimensionen: Fachwissenschaftliche Aufbereitung (Referendar*innen vs. Masterstudierende: t (104) = 3,14; p (2-seitig) < 0,01; d = 0,67; Junglehrkräfte vs. Masterstudierende: t (105) = 3,60; p (2-seitig) < 0,001; d = 0,76), Zielklarheit (Referendar*innen vs. Masterstudierende: t (104) = 3,23; p (2-seitig) < 0,01; d = 0,69; Junglehrkräfte vs. Masterstudierende: t (105) = 2,06; p (2-seitig) < 0,05; d = 0,44), Strukturierung (Referendar*innen vs. Masterstudierende: t (104) = 3,81; p (2-seitig) < 0,001; d = 0,81; Junglehrkräfte vs. Masterstudierende: t (105) = 3,23; p (2-seitig) < 0,01; d = 0,68) und Didaktische Adaptivität (Referendar*innen vs. Masterstudierende: t (104) = 4,27; p (2-seitig) < 0,001; d = 0,91; Junglehrkräfte vs. Masterstudierende: t (105) = 4,83; p (2-seitig) < 0,001; d = 1,02). Auch hier lassen sich keine statistisch signifikanten Mittelwertunterschiede zwischen Bachelor- und Masterstudierenden einerseits sowie Referendar*innen und Junglehrkräften andererseits feststellen. Lediglich in der Teildimension Strukturierung zeigt sich bei Bachelor- vs. Masterstudierenden eine Tendenz zugunsten letzterer (t (154) = 1,81; p (2-seitig) = 0,072; d = 0,29).

Tab. 4 Nach Gruppen differenzierte Testergebnisse

Full size table

Für das deutschdidaktische Wissen zeigt sich für die angehenden Lehrkräfte ein besseres Abschneiden im Test, je weiter fortgeschritten die Gruppe in ihrer Ausbildung ist (Abb. 1 und Tab. 4): Hier schneiden nun auch die Masterstudierende signifikant besser ab als Bachelorstudierende (t (154) = 2,60; p (2-seitig) < 0,01; d = 0,42), und Referendar*innen zeigen auch hier bessere Leistungen als Masterstudierende (t (104) = 2,44; p (2-seitig) < 0,05; d = 0,52). Hingegen liegen keine statistisch signifikanten Mittelwertunterschiede zwischen Referendar*innen und Junglehrkräften vor (t (61) = 1,54; p (2-seitig) = 0,13; d = 0,39).

5.4 Mediationsanalyse zur Erklärung der Unterrichtsplanungskompetenz durch Gruppen mit unterschiedlich viel Unterrichtserfahrung und deutschdidaktisches Wissen

Die deskriptiven Befunde (Abb. 1 und Tab. 4) zeigen deutliche Unterschiede in der Unterrichtsplanungskompetenz nach Gruppen mit unterschiedlich viel Planungs- und Unterrichtserfahrung auf. Zur Prüfung, ob solche Erfahrung nicht allein, sondern auch das deutschdidaktische Wissen die Unterrichtsplanungskompetenz regressionsanalytisch erklären kann, wurde ein Modell spezifiziert, in dem die der Planungskompetenz zugrundeliegende Unterrichtserfahrung über das deutschdidaktische Wissen mediiert wird. Angesichts der Ergebnisse aus Mittelwertvergleichen im vorherigen Abschnitt wurde die Unterrichtserfahrung der Gruppen über eine Dummy-Kodierung mit zwei Prädiktoren abgebildet: Masterstudierende (kodiert als 1, andere kodiert als 0) und Referendar*innen und Junglehrkräfte (kodiert als 1, andere kodiert als 0). Die Referenzkategorie bilden somit die Bachelorstudierenden. Die Zusammenfassung der Referendar*innen und Junglehrkräfte zu einer Gruppe erscheint angesichts ihres sehr ähnlichen Abschneidens sowohl im Planungskompetenztest als auch im Rahmen der Testung des deutschdidaktischen Wissens sinnvoll. Hingegen erscheint es angebracht, Bachelor- und Masterstudierende zu unterscheiden, da letztere aufgrund des bereits absolvierten Praxissemesters über umfangreichere Planungs- und Unterrichtserfahrung verfügen sollten.

Der direkte Effekt der mithilfe des zweiten Prädiktors erfassten Unterschiede (Referendar*innen und Junglehrkräfte vs. Studierende) in der Unterrichtserfahrung auf die Planungskompetenz ist substanziell, wie Modell A in Abb. 2 verdeutlicht (β = 0,47; p < 0,001). Masterstudierende hingegen unterscheiden sich nicht signifikant von Bachelorstudierenden (β = 0,08). Dies entspricht den Befunden, welche bereits in Tab. 4 bzw. Abb. 1 dargestellt wurden.

In Modell B mediiert das deutschdidaktische Wissen die mit beiden Prädiktoren erfassten Unterschiede in der Unterrichtserfahrung und die Planungskompetenz, da beide Pfade signifikant sind. Im Falle des Prädiktors zur Unterscheidung zwischen Referendar*innen/Junglehrkräfte vs. Studierende zeigt sich ein signifikanter Pfad auf das deutschdidaktische Wissen (β = 0,47; p < 0,001) sowie vom deutschdidaktischen Wissen auf die Planungskompetenz (β = 0,53; p < 0,001). Der indirekte Effekt von der Unterrichtserfahrung über das deutschdidaktische Wissen auf die Unterrichtsplanungskompetenz (Gesamtscore) beträgt in diesem Fall 0,47 * 0,53 = 0,25 und ist damit substanziell, während sich der direkte Effekt von der Unterrichtserfahrung auf die Planungskompetenz von 0,47 in Modell A auf 0,22 in Modell B deutlich verringert. Im Falle des Prädiktors zur Unterscheidung von Bachelor- und Masterstudierenden hingegen zeigt sich lediglich ein statistisch signifikanter Unterschied im deutschdidaktischen Wissen (β = 0,18; p < 0,001) sowie ebenfalls der Pfad vom deutschdidaktischen Wissen auf die Planungskompetenz (β = 0,53; p < 0,001). Hier ist der indirekte Effekt kleiner (0,18 * 0,53 = 0,10), und wie schon in Modell A ist der direkte Pfad auf die Planungskompetenz nicht signifikant (β = −0,01).

Die Mediation des Effekts der Unterrichtserfahrung auf die Planungskompetenz durch das deutschdidaktische Wissen lässt sich auch für die Betrachtung der vier inhaltlichen Teilscores des Tests zur Planungskompetenz belegen (Tab. 5). Im Falle des Prädiktors zur Unterscheidung zwischen Referendar*innen/Junglehrkräften und Studierenden ist dabei der indirekte Effekt für die fachwissenschaftliche Aufbereitung am höchsten (0,25), bedingt durch den relativ straffen Zusammenhang zwischen deutschdidaktischem Wissen und dieser kognitiven Anforderung der Unterrichtsplanung (0,53). Aber auch für die anderen inhaltlichen Teilscores des Tests hat das deutschdidaktische Wissen eine Bedeutung, wie die signifikanten Prädiktoren (0,36/0,43/0,39) sowie die Mediationseffekte (indirekte Effekte: 0,17/0,20/0,18) verdeutlichen. Im Falle des Prädiktors zur Unterscheidung von Bachelor- und Masterstudierenden hingegen zeigen sich allenfalls kleine indirekte Effekte (0,10/0,07/0,08/0,07). Allen Mediationsmodellen zufolge erklärt nicht Unterrichtserfahrung allein, sondern auch das deutschdidaktische Wissen die Planungskompetenz substanziell.

Tab. 5 Ergebnisse aus Mediationsanalysen zur Erklärung inhaltlicher Teilscores der Planungskompetenz

Full size table

6 Diskussion

6.1 Zusammenfassung und Diskussion

Der vorliegende Beitrag verortet sich in der aktuell prosperierenden Forschung zur Unterrichtsplanungskompetenz und stellt einen neu entwickelten Test zur Erfassung von situationsspezifischen Fähigkeiten der Unterrichtsplanung im Fach Deutsch bei angehenden und berufstätigen Sekundarstufenlehrkräften vor. Der Test umfasst drei komplexe Textvignetten zur Kontextualisierung von typischen Planungssituationen, die Testfragen beziehen sich auf spezifische, kognitive Anforderungen der Unterrichtsplanung. Anhand von vier Untersuchungsstichproben angehender bzw. berufstätiger Junglehrkräfte in unterschiedlichen Ausbildungs- bzw. Karrierestadien wurden Fragestellungen zur Reliabilität und Validität bearbeitet.

Die Ergebnisse zeigen, dass das Testinstrument eine reliable eindimensionale Messung sowohl an der Gesamtstichprobe wie auch an Teilstichproben ermöglicht. Ferner wurde eine mehrdimensionale Skalierung des Tests durchgeführt, bei der die vier definierten kognitiven Anforderungen (Fachwissenschaftliche Aufbereitung, Zielklarheit, Strukturierung, Didaktische Adaptivität) als Faktoren bzw. latente Variablen spezifiziert wurden. Die zur Beurteilung der mehrdimensionalen Skalierung verwendeten Kennwerte fielen nur geringfügig besser aus als die zur eindimensionalen Skalierung. Allerdings erwiesen sich die für die kognitiven Anforderungen gebildeten Subskalen auch als reliabel, sodass weiterführende Auswertungen sowohl für den Gesamtscore als auch für die Subskalen vorgenommen werden konnten. Ferner schnitten Gruppen mit mehr unterrichtlicher Erfahrung besser ab, die Gruppenmittelwerte waren jedoch nur zwischen Referendar*innen und Junglehrkräften einerseits und Bachelor- sowie Masterstudierenden andererseits signifikant. Zwischen diesen beiden Doppelgruppen unterschieden sich die erreichten Testleistungen mit praktischer Bedeutsamkeit, sowohl im Gesamtscore (große praktische Bedeutsamkeit) als auch in den vier untersuchten kognitiven Anforderungen der Unterrichtsplanung (mittlere bis große praktische Bedeutsamkeit). Lediglich in der kognitiven Anforderung der Strukturierung zeigte sich bei Bachelor- vs. Masterstudierenden eine Tendenz zugunsten letzterer (10 %-Signifikanzniveau, kleine praktische Bedeutsamkeit). Schließlich wurde mithilfe eines Mediationsmodells der Zusammenhang zwischen deutschdidaktischem Wissen und der Planungskompetenz analysiert. Es zeigte sich, dass das deutschdidaktische Wissen auch über die Unterrichtserfahrung hinausgehend einen statistischen Einfluss auf die Planungskompetenz ausübt. Die über den Textvignetten-Test ermittelte situationsspezifische Fähigkeit zur Unterrichtsplanung lässt sich somit durch das deutschdidaktische Wissen regressionsanalytisch erklären, und zwar sowohl im Hinblick auf den Gesamtscore als auch auf die Subskalen kognitiver Anforderungen.

Die hier durchgeführten Analysen und erzielten empirischen Ergebnisse können als wichtiger Beitrag zur aktuell sich entwickelnden Forschung zur Unterrichtsplanungskompetenz gewertet werden. Die hohen Interkorrelationen zwischen den Subskalen wie auch die nur geringe Überlegenheit der mehrdimensionalen Skalierung gegenüber einer sparsameren eindimensionalen Skalierung können als Hinweis verstanden werden, dass der Test ein vergleichsweise homogenes Konstrukt misst. Es fällt auf, dass auch in anderen Studien mit Vignettenverfahren über relativ hohe Interkorrelationen der empirisch getrennten Teilskalen berichtet wird (Kirsch 2020; Stender et al. 2017). Inwieweit dies gegenstandsangemessen ist oder aber Erweiterungen in zukünftigen Forschungsbemühungen nötig macht, bleibt offen.

Der Vergleich von Gruppenmittelwerten gibt Anlass zur Annahme, dass Planungskompetenz maßgeblich im Referendariat erworben wird. Tatsächlich konnten längsschnittlich, d. h. basierend auf Analysen schriftlicher Planungen der ersten und letzten Lehrprobe im Referendariat, auch in den Projekten „Planungskompetenz von Lehrerinnen und Lehrern“ (PlanvoLL; König et al. 2015) und PlanvoLL‑D (König et al. 2020c) für relevante kognitive Anforderungen der Unterrichtsplanung statistisch signifikante Zuwächse mit großer praktischer Bedeutsamkeit belegt werden (Abschn. 2.2). Dies plausibilisiert die vorliegenden Ergebnisse aus Gruppenvergleichen, die im Wesentlichen aus einer großen Differenz zwischen Masterstudierenden im letzten Semester (gemessen an der vorgesehenen Regelstudienzeit) und Referendar*innen zu Beginn ihres letzten Ausbildungshalbjahres bestehen. Angesichts einer Praxissemestererfahrung der Masterstudierenden wäre aber möglicherweise auch ein signifikant besseres Testergebnis im Vergleich zu Bachelorstudierenden, die sich im vierten Semester befanden, zu erwarten gewesen (vgl. etwa die Zuwächse für das Fach Physik bei Lehramtsstudierenden im Praxissemester, Schröder et al. 2020). Andererseits wäre denkbar, dass die Lerngelegenheit praktischen Unterrichtens durchgängig und in hohem Maße angeboten werden muss, damit ein stetiger zirkulärer Abgleich von Planung, Durchführung und Reflexion stattfinden kann. Dieser ist im Praxissemester nur eingeschränkt möglich, ja sogar nicht zwingend intendiert (vgl. Expertenkommission 2007), wenngleich er als Vorbereitung für das Referendariat auch in dieser Hinsicht eine Funktion übernehmen könnte. Ausführliche schriftliche Unterrichtsplanungen, wie sie typisch für Lehrproben im Vorbereitungsdienst sind, werden jedenfalls nicht von Lehramtsstudierenden im Praxissemester verlangt. Da jedoch Masterstudierende statistisch signifikant bessere Testleistungen im deutschdidaktischen Wissen aufweisen als die Bachelorstudierenden und in der planungsbezogenen Anforderung der Strukturierung zumindest eine Tendenz zugunsten der Masterstudierenden erkennbar wurde, spiegeln die vorliegenden Befunde dennoch mögliche Wirkungen schulpraktischer Lerngelegenheiten im Lehramtsstudium wider.

Dass die Junglehrkräfte erwartungswidrig nicht signifikant bessere Leistungen erbrachten als die Referendar*innen, könnte erstens damit zu tun haben, dass sich erstere zum Zeitpunkt der Testung durchschnittlich lediglich etwa zwei Jahre im Beruf befanden und dass damit auch ihre Ausbildung noch nicht lange genug zurücklag, um über Reflexionsanlässe im Beruf weiterführend Unterrichtsexpertise aufzubauen. Die ähnlich hohen Leistungen von Junglehrkräften und Referendar*innen könnten zweitens Anlass zur Vermutung geben, dass die gemessene Planungskompetenz auch nach etwa zwei Jahren Berufsausübung weiterhin abrufbar und die einschlägigen Fähigkeiten nach Beendigung der Lehramtsausbildung nicht in Vergessenheit geraten sind. Eine dritte Interpretation könnte darauf abheben, dass Referendar*innen anders als berufstätig Lehrkräfte in ihrer praktischen Ausbildung zur intensiven Einübung, expliziten Erklärung und Reflexion ihres Handelns unter Prüfungsbedingungen aufgefordert sind (Anderson-Park und Abs 2020; Strietholt und Terhart 2009). Derartige Verbalisierungsleistungen gelten jedoch nicht zwingend als Indikator für tatsächliche Handlungen (Renkl 1996). Junglehrkräfte mit mehr Erfahrung könnten ihre Planungskompetenzen möglicherweise bereits stärker internalisiert und in Form automatisiert ablaufender Handlungsschemata auf impliziter Ebene zunehmend konsolidiert haben (vgl. Stender et al. 2017). In einer Testsituation zur Ermittlung von Unterrichtsplanungskompetenz sind diese Schemata womöglich nicht leicht abrufbar. Interessant wäre somit zukünftig eine Längsschnittanalyse zu der sich während des Übergangs vom Referendariat in den Berufseinstieg entwickelnden Planungskompetenz, die über Stabilität und Veränderung informiert.

Da zum Erwerb professionellen Wissens während der Lehrer*innenausbildung mittlerweile eine Reihe von Studien vorliegen, erscheint darauf aufbauend die Frage relevant, ob dieses Wissen auch für die erfolgreiche Bewältigung von kognitiven Anforderungen der Unterrichtsplanung benötigt wird. Hier ergänzen die vorliegenden Befunde zum Zusammenhang von deutschdidaktischem Wissen und Planungskompetenz den bisherigen Forschungsstand (Schröder et al. 2020; Stender et al. 2017) und schließen an diesen sehr gut an, da erstmals ein entsprechender Nachweis im Bereich sprachlicher Bildung erfolgt. Dass das im akademischen Kontext der ersten Phase erworbene Wissen eine Bedeutung für handlungspraktische Tätigkeiten des Lehrer*innenberufs besitzt, ist ein wichtiger Beleg für die Relevanz einer wissenschaftlichen Lehramtsausbildung in der Fachdidaktik.

6.2 Limitierungen

Als zentrale Limitierung der vorliegenden Studie muss auf die eingeschränkte Qualität der Stichproben der Referendar*innen und Junglehrkräfte verwiesen werden. Trotz umfänglicher Bemühungen war die Erreichbarkeit beider Zielgruppen, teilweise pandemiebedingt, deutlich schwieriger als jene der beiden Studierendengruppen (vgl. Online-Anhang 1). So liegt die Annahme nahe, dass es sich letztlich um eine positive Auslese von Teilnehmer*innen handelt. Während für die hier fokussierten, hypothesenprüfenden Strukturanalysen die heterogenen Stichprobenzusammensetzungen noch akzeptabel erscheinen, sind detaillierte Deskriptionen auf dieser Datenbasis nur unter Vorbehalt möglich. Dies betrifft auch mögliche signifikante Leistungsunterschiede nach Lehramtstyp, die in den vorliegenden Daten zwar gesucht, aber nicht aufgefunden wurden; bei größeren Stichproben wäre es möglich, auch kleine identifizierte Mittelwertunterschiede inferenzstatistisch abzusichern. Außerdem konnten aufgrund der begrenzten Testzeit, mit der (angehende) Lehrkräfte zur Teilnahme bewogen wurden, nicht weitere Instrumente bei der Datenerhebung einbezogen werden, sodass eine Reihe relevanter Fragen (z. B. zur weiterführenden Validierung) außer Betracht bleiben musste.

6.3 Ausblick auf zukünftige Forschung

Aufgrund der angesprochenen Limitierungen wäre ein scaling-up, also eine Replikation der Analysen auf Basis größerer Stichproben, insbesondere berufserfahrener Lehrkräfte, sinnvoll, ebenso für Validierungszwecke der Einsatz weiterer Maße ihrer professionellen Kompetenz. Zum Beispiel wäre sowohl die Frage von Bedeutung, welche Rolle das fachliche Wissen in Bezug auf die gemessene Planungskompetenz spielt, als auch die Prüfung prognostischer Validität für Unterrichtsqualität und Lernfortschritte von Schüler*innen. Der vorliegende Beitrag hat deutlich gemacht, dass nun ein Instrument existiert, das solche Forschung grundsätzlich ermöglicht. Somit können in naher Zukunft weiterführende Erkenntnisse erwartet werden, die sowohl für die empirische Bildungsforschung als auch die Deutschdidaktik von besonderem Interesse sein dürften.

Notes

Förderhinweis: Das Projekt „Zukunftsstrategie Lehrer*innenbildung Köln – Heterogenität und Inklusion gestalten“ (ZuS) der Universität zu Köln wird im Rahmen der gemeinsamen „Qualitätsoffensive Lehrerbildung“ von Bund und Ländern aus Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) gefördert (Förderkennzeichen: 01JA1815).
Eine Rücklaufquote lässt sich nicht berechnen, da aus datenschutzrechtlichen Gründen nicht nachverfolgbar ist, an wie viele der von ihnen betreuten Referendar*innen welche Fachseminarleiter*innen die Umfrageeinladungen weitergeleitet haben (vgl. auch Online-Anhang 1).

Literatur

Verwendete Literatur

Adams, R. (2002). Scaling PISA cognitive data. In R. Adams & M. Wu (Hrsg.), PISA 2000 technical report (S. 99–108). Paris: OECD.
Google Scholar
Adams, R. J., Wu, M. L., & Wilson, M. R. (2015). ACER ConQuest. Generalised item response modelling software (Version 4). Camberwell: Australian Council for Educational Research.
Google Scholar
Anderson-Park, E., & Abs, H. J. (2020). Lehrerinnen- und Lehrerbildung im Vorbereitungsdienst. In C. Cramer, J. König, M. Rothland & S. Blömeke (Hrsg.), Handbuch Lehrerinnen- und Lehrerbildung (S. 332–338). Bad Heilbrunn: Klinkhardt.
Google Scholar
Arnold, K. H., & Koch-Priewe, B. (2011). The merging and the future of the classical German traditions in general didactics. A comprehensive framework for lesson planning. In B. Hudson & M. A. Meyer (Hrsg.), Beyond fragmentation: didactics, learning and teaching in Europe (S. 252–264). Opladen: Barbara Budrich. https://doi.org/10.2307/j.ctvhktksh.18.
Chapter Google Scholar
Backfisch, I., Lachner, A., Hische, C., Loose, F., & Scheiter, K. (2020). Professional knowledge or motivation? Investigating the role of teachers’ expertise on the quality of technology-enhanced lesson plans. Learning and Instruction, 66, 1–13. https://doi.org/10.1016/j.learninstruc.2019.101300.
Article Google Scholar
Baer, M., Kocher, M., Wyss, C., Guldimann, T., Larcher, S., & Dörr, G. (2011). Lehrerbildung und Praxiserfahrung im ersten Berufsjahr und ihre Wirkung auf die Unterrichtskompetenzen von Studierenden und jungen Lehrpersonen im Berufseinstieg. Zeitschrift für Erziehungswissenschaft, 14(1), 85–117. https://doi.org/10.1007/s11618-011-0168-5.
Article Google Scholar
Baron, R. M., & Kenny, D. A. (1986). The moderator–mediator variable distinction in social psychological research: conceptual, strategic, and statistical considerations. Journal of Personality and Social Psychology, 51(6), 1173–1182. https://doi.org/10.1037/0022-3514.51.6.1173.
Article Google Scholar
Baumert, J. (2016). Leistungen, Leistungsfähigkeit und Leistungsgrenzen der empirischen Bildungsforschung. Das Beispiel von Large-Scale-Assessment-Studien zwischen Wissenschaft und Politik. Zeitschrift für Erziehungswissenschaft, 19(1), 215–253. https://doi.org/10.1007/s11618-016-0704-4.
Article Google Scholar
Blömeke, S., Gustafsson, J. E., & Shavelson, R. J. (2015). Beyond dichotomies. Zeitschrift für Psychologie, 223(1), 3–13. https://doi.org/10.1027/2151-2604/a000194.
Article Google Scholar
Bond, T. G., & Fox, C. M. (2015). Applying the Rasch model. Fundamental measurement in the human sciences (3. Aufl.). New York: Routledge.
Book Google Scholar
Bromme, R. (1981). Das Denken von Lehrern bei der Unterrichtsvorbereitung. Weinheim: Beltz.
Google Scholar
Clark, C. M., & Peterson, P. L. (1986). Teachers’ thought processes. In M. C. Wittrock (Hrsg.), Handbook of research on teaching. A project of the American Educational Research Association (3. Aufl., S. 255–296). New York: Macmillan. https://edwp.educ.msu.edu/research/wp-content/uploads/sites/10/2020/11/op072.pdf.
Google Scholar
Darling-Hammond, L., Newton, S. P., & Wei, R. C. (2013). Developing and assessing beginning teacher effectiveness. The potential of performance assessments. Educational Assessment, Evaluation and Accountability, 25(3), 179–204. https://doi.org/10.1007/s11092-013-9163-0.
Article Google Scholar
Expertenkommission (2007). Ausbildung von Lehrerinnen und Lehrern in Nordrhein-Westfalen. Empfehlungen der Expertenkommission zur Ersten Phase. Düsseldorf: Ministerium für Innovation, Wissenschaft, Forschung und Technologie des Landes Nordrhein-Westfalen.
Google Scholar
Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76, 378–382. https://doi.org/10.1037/h0031619.
Article Google Scholar
Jacobs, C. L., Martin, S. N., & Otieno, T. C. (2008). A science lesson plan analysis instrument for formative and summative program evaluation of a teacher education program. Science Education, 92(6), 1096–1126. https://doi.org/10.1002/sce.20277.
Article Google Scholar
John, P. D. (2006). Lesson planning and the student teacher. Re-thinking the dominant model. Journal of Curriculum Studies, 38(4), 483–498. https://doi.org/10.1080/00220270500363620.
Article Google Scholar
Kirsch, A. (2020). Entwicklung und psychometrische Qualität eines Instrumentes zur Messung von Planungskompetenzen angehender Lehrkräfte im Fach Sachunterricht. Zeitschrift für pädagogische Psychologie, 1, 1–13. https://doi.org/10.1024/1010-0652/a000277.
Article Google Scholar
Klafki, W. (1995). Didactic analysis as the core of preparation of instruction. Journal of Curriculum Studies, 27(1), 13–30. https://doi.org/10.1080/0022027950270103.
Article Google Scholar
Kleickmann, T., Richter, D., Kunter, M., Elsner, J., Besser, M., Krauss, S., & Baumert, J. (2013). Teachers’ content knowledge and pedagogical content knowledge: The role of structural differences in teacher education. Journal of teacher education, 64(1), 90–106.
Article Google Scholar
König, J. (2020). Beurteilung und Zertifizierung von (angehenden) Lehrerinnen und Lehrern. In C. Cramer, J. König, M. Rothland & S. Blömeke (Hrsg.), Handbuch Lehrerinnen- und Lehrerbildung (S. 376–384). Bad Heilbrunn: Klinkhardt.
Google Scholar
König, J., & Bremerich-Vos, A. (2020). Deutschdidaktisches Wissen angehender Sekundarstufenlehrkräfte. Testkonstruktion und Validierung. Diagnostica, 66(2), 93–109. https://doi.org/10.1026/0012-1924/a000251.
Article Google Scholar
König, J., & Rothland, M. (2018). Das Praxissemester in der Lehrerbildung: Stand der Forschung und zentrale Ergebnisse des Projekts Learning to Practice. In J. König, M. Rothland & N. Schaper (Hrsg.), Learning to Practice, Learning to Reflect? Ergebnisse aus der Längsschnittstudie LtP zur Nutzung und Wirkung des Praxissemesters in der Lehrerbildung (S. 1–62). Wiesbaden: Springer VS.
Chapter Google Scholar
König, J., Buchholtz, C., & Dohmen, D. (2015). Analyse von schriftlichen Unterrichtsplanungen. Empirische Befunde zur didaktischen Adaptivität als Aspekt der Planungskompetenz angehender Lehrkräfte. Zeitschrift für Erziehungswissenschaft, 18(2), 375–404. https://doi.org/10.1007/s11618-015-0625-7.
Article Google Scholar
König, J., Doll, J., Buchholtz, N., Förster, S., Kaspar, K., Rühl, A.-M., Strauß, S., Bremerich-Vos, A., Fladung, I., & Kaiser, G. (2018). Pädagogisches Wissen versus fachdidaktisches Wissen? Struktur des professionellen Wissens bei angehenden Deutsch‑, Englisch- und Mathematiklehrkräften im Studium. Zeitschrift für Erziehungswissenschaft, 21(1), 1–38. https://doi.org/10.1007/s11618-017-0765-z.
Article Google Scholar
König, J., Bremerich-Vos, A., Buchholtz, C., Fladung, I., & Glutsch, N. (2020a). Pre-service teachers’ generic and subject-specific lesson-planning skills. On learning adaptive teaching during initial teacher education. European Journal of Teacher Education, 43(2), 131–150. https://doi.org/10.1080/02619768.2019.1679115.
Article Google Scholar
König, J., Bremerich-Vos, A., Buchholtz, C., & Glutsch, N. (2020b). General pedagogical knowledge, pedagogical adaptivity in written lesson plans, and instructional practice among preservice teachers. Journal of Curriculum Studies, 52(6), 800–822. https://doi.org/10.1080/00220272.2020.1752804.
Article Google Scholar
König, J., Bremerich-Vos, A., Buchholtz, C., Fladung, I., & Glutsch, N. (2020c). Planning competence of pre-service German language teachers (PlanvoLL-D): conceptualization, measurement, and validation. In O. Zlatkin-Troitschanskaia, H. A. Pant, M. Toepper & C. Lautenbach (Hrsg.), Student learning in German higher education. Innovative measurement approaches and research results (S. 53–74). Wiesbaden: Springer.
Chapter Google Scholar
König, J., Krepf, M., Bremerich-Vos, A., & Buchholtz, C. (2021). Meeting cognitive demands of lesson planning. Introducing the CODE-PLAN model to describe and analyze teachers’ planning competence. The Teacher Educator, 56(4), 466–487. https://doi.org/10.1080/08878730.2021.1938324.
Article Google Scholar
Krauss, S., Lindl, A., Schilcher, A., Fricke, M., Göhring, A., & Hofmann, B. (Hrsg.). (2017). Falko: Fachspezifische Lehrerkompetenzen. Konzeption von Professionswissenstests in den Fächern Deutsch, Englisch, Latein, Physik, Musik, Evangelische Religion und Pädagogik. Münster: Waxmann.
Google Scholar
Krepf, M., & König, J. (2022). Structuring the lesson: an empirical investigation of pre-service teacher decision-making during the planning of a demonstration lesson. Journal of Education for Teaching, im Druck.
Kultusministerkonferenz (2009). Information des Sekretariats über die Regelungen des KMK-Beschlusses vom 22.10.1999. Gegenseitige Anerkennung von Lehramtsprüfungen und Lehramtsbefähigungen (Stand: 05.02.2009). Bonn: Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland.
Google Scholar
Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174. https://doi.org/10.2307/2529310.
Article Google Scholar
Morris, A. K., & Hiebert, J. (2017). Effects of teacher preparation courses. Do graduates use what they learned to plan mathematics lessons? American Educational Research Journal, 54(3), 524–567. https://doi.org/10.3102/0002831217695217.
Article Google Scholar
Muthén, L. K., & Muthén, B. O. (2017). Mplus user’s guide (8. Aufl.). Los Angeles: Muthén & Muthén.
Google Scholar
Mutton, T., Hagger, H., & Burn, K. (2011). Learning to plan, planning to learn. The developing expertise of beginning teachers. Teachers and Teaching, 17(4), 399–416.
Article Google Scholar
Pecheone, R. L., & Chung, R. R. (2006). Evidence in teacher education. The performance assessment for California teachers (PACT). Journal of Teacher Education, 57(1), 22–36. https://doi.org/10.1177/0022487105284045.
Article Google Scholar
Pissarek, M., & Schilcher, A. (2017). FALKO-D: Die Untersuchung des Professionswissens von Deutschlehrenden. In S. Krauss, A. Lindl, A. Schilcher, M. Fricke, A. Göhring, B. Hofmann, P. Kirchhoff & R. H. Mulder (Hrsg.), FALKO: Fachspezifische Lehrerkompetenzen (S. 67–111). Münster: Waxmann.
Google Scholar
Renkl, A. (1996). Träges Wissen: Wenn Erlerntes nicht genutzt wird. Psychologische Rundschau, 47, 78–92.
Google Scholar
Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion (2. Aufl.). Bern: Huber. https://doi.org/10.1177/0022487105284045.
Book Google Scholar
Rothland, M. (2021). Anmerkungen zur Modellierung und Operationalisierung (allgemeindidaktischer) Unterrichtsplanungskompetenz. Unterrichtswissenschaft. https://doi.org/10.1007/s42010-021-00111-0.
Article Google Scholar
Sabers, D. S., Cushing, K. S., & Berliner, D. C. (1991). Differences among teachers in a task characterized by simultaneity, multidimensional, and immediacy. American Educational Research Journal, 28(1), 63–88. https://doi.org/10.3102/00028312028001063.
Article Google Scholar
Scholl, D. (2018). Metatheorie der Allgemeinen Didaktik. Ein systemtheoretisch begründeter Vorschlag. Bad Heilbrunn: Klinkhardt.
Google Scholar
Schön, D. (1983). The reflective practitioner. New York: Basic Books.
Google Scholar
Schröder, J., Riese, J., Vogelsang, C., Borowski, A., Buschhüter, D., Enkrott, P., Kempin, M., Kulgemeyer, C., Reinhold, P., & Schecker, H. (2020). Die Messung der Fähigkeit zur Unterrichtsplanung im Fach Physik mit Hilfe eines standardisierten Performanztests. Zeitschrift für Didaktik der Naturwissenschaften, 26, 103–122. https://doi.org/10.1007/s40573-020-00115-w.
Article Google Scholar
Shavelson, R. J. (1983). Review of research on teachers’ pedagogical judgments, plans, and decisions. The Elementary School Journal, 83(4), 392–413. https://doi.org/10.1086/461323.
Article Google Scholar
Shavelson, R. J., & Stern, P. (1981). Research on teachers’ pedagogical thoughts, judgments, decisions, and behavior. Review of Educational Research, 51(4), 455–498. https://doi.org/10.2307/1170362.
Article Google Scholar
Shavelson, R. J., Cadwell, J., & Izu, T. (1977). Teachers’ sensivity to the reliability of information in making pedagogical decisions. American Educational Research Journal, 14(2), 83–97. https://doi.org/10.2307/1162702.
Article Google Scholar
Shulman, L. S. (1987). Knowledge and teaching. Foundations of the new reform. Harvard Educational Research, 57(1), 1–22. https://doi.org/10.17763/haer.57.1.j463w79r56455411.
Article Google Scholar
Stender, A., Brückmann, M., & Neumann, K. (2017). Transformation of topic-specific professional knowledge into personal pedagogical content knowledge through lesson planning. International Journal of Science Education, 39(12), 1690–1714. https://doi.org/10.1080/09500693.2017.1351645.
Article Google Scholar
Stigler, J. W., & Miller, K. F. (2018). Expertise and expert performance in teaching. In A. Ericsson, R. R. Hoffman, A. Kozbelt & A. M. Williams (Hrsg.), The Cambridge handbook of expertise and expert performance (2. Aufl., S. 431–452). Cambridge: Cambridge University Press.
Chapter Google Scholar
Strietholt, R., & Terhart, E. (2009). Referendare beurteilen. Eine explorative Analyse von Beurteilungsinstrumenten in der zweiten Phase der Lehrerbildung. Zeitschrift für Pädagogik, 55(4), 622–645.
Google Scholar
Thompson, J., Windschitl, M., & Braaten, M. (2013). Developing a theory of ambitious early-career teacher practice. American Educational Research Journal, 50(3), 574–615. https://doi.org/10.3102/0002831213476334.
Article Google Scholar
Van Es, E. A., & Sherin, M. G. (2002). Learning to notice. Scaffolding new teachers’ interpretations of classroom interactions. Journal of Technology and Teacher Education, 10(4), 571–596.
Google Scholar
Voss, T., Kunina-Habenicht, O., Hoehne, V., & Kunter, M. (2015). Stichwort Pädagogisches Wissen von Lehrkräften. Empirische Zugänge und Befunde. Zeitschrift für Erziehungswissenschaft, 18(2), 187–223. https://doi.org/10.1007/s11618-015-0626-6.
Article Google Scholar
Wernke, S., & Zierer, K. (Hrsg.). (2017). Die Unterrichtsplanung: Ein in Vergessenheit geratener Kompetenzbereich?! Status Quo und Perspektiven aus Sicht der empirischen Forschung. Bad Heilbrunn: Klinkhardt.
Google Scholar
Wu, M., & Adams, R. (2006). Modelling mathematics problem solving item responses using a multidimensional IRT model. Mathematics Education Research Journal, 18(2), 93–113. https://doi.org/10.1007/BF03217438.
Article Google Scholar

Weiterführende Literatur

Bremerich-Vos, A., König, J., & Fladung, I. (2018). Fachliches und fachdidaktisches Wissen von angehenden Deutschlehrkräften im Referendariat: Konzeption und Ergebnisse einer Testung in Berlin und NRW. Zeitschrift für empirische Hochschulforschung, 3(2), 155–172.
Google Scholar

Download references

Förderung

Die vorliegende Arbeit entstand im Rahmen des Projekts „Zukunftsstrategie Lehrer*innenbildung Köln – Heterogenität und Inklusion gestalten“ (ZuS) der Universität zu Köln. Dieses Projekt wird im Rahmen der gemeinsamen „Qualitätsoffensive Lehrerbildung“ von Bund und Ländern aus Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) gefördert (Förderkennzeichen: 01JA1815). Open Access funding enabled and organized by Projekt DEAL.

Funding

Open Access funding enabled and organized by Projekt DEAL.

Author information

Authors and Affiliations

Humanwissenschaftliche Fakultät, Department für Erziehungs- und Sozialwissenschaften, Universität zu Köln, Gronewaldstr. 2a, 50931, Köln, Deutschland
Johannes König
Humanwissenschaftliche Fakultät, Department für Erziehungs- und Sozialwissenschaften, Universität zu Köln, Gronewaldstr. 2a, 50931, Köln, Deutschland
Franca Cammann
Germanistik, Universität Duisburg-Essen, Universitätsstraße 12, 45141, Essen, Deutschland
Albert Bremerich-Vos
School of Education, Technische Universität Berlin, Berlin, Deutschland
Christiane Buchholtz

Authors

Johannes König
View author publications
You can also search for this author in PubMed Google Scholar
Franca Cammann
View author publications
You can also search for this author in PubMed Google Scholar
Albert Bremerich-Vos
View author publications
You can also search for this author in PubMed Google Scholar
Christiane Buchholtz
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Johannes König.

Ethics declarations

Interessenkonflikt

J. König, F. Cammann, A. Bremerich-Vos und C. Buchholtz geben an, dass kein Interessenkonflikt besteht.

Supplementary Information

Anhang

Rights and permissions

Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.

Reprints and permissions

About this article

Cite this article

König, J., Cammann, F., Bremerich-Vos, A. et al. Unterrichtsplanungskompetenz von (angehenden) Deutschlehrkräften der Sekundarstufe: Testkonstruktion und Validierung. Z Erziehungswiss 25, 869–894 (2022). https://doi.org/10.1007/s11618-022-01113-z

Download citation

Received: 15 September 2021
Revised: 07 March 2022
Accepted: 31 May 2022
Published: 15 August 2022
Issue Date: August 2022
DOI: https://doi.org/10.1007/s11618-022-01113-z

Schlüsselwörter

Keywords

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

Unterrichtsplanungskompetenz von (angehenden) Deutschlehrkräften der Sekundarstufe: Testkonstruktion und Validierung

Zusammenfassung

Abstract

1 Einleitung

2 Stand der Forschung

2.1 Unterrichtsplanung als Kompetenz von (angehenden) Lehrkräften

2.2 Erfassung von Unterrichtsplanungskompetenz im Fach Deutsch

3 Theoretische Rahmung und Fragestellung

3.1 Unterrichtsplanungskompetenz als situationsspezifische Fähigkeit

3.2 Unterrichtsplanungskompetenz, Unterrichtserfahrung und professionelles Wissen

3.3 Fragestellungen und Hypothesen

1.

2.

3.

4.

4 Methode

4.1 Stichprobe und Datenerhebung

4.2 Instrumente

4.2.1 Vignettentest zur Erfassung von Planungskompetenz im Fach Deutsch

4.2.2 Test zur Erfassung von deutschdidaktischem Wissen

5 Ergebnisse

5.1 Skalierung und Reliabilität des Vignettentests

5.2 Mehrdimensionale Skalierung nach inhaltlichen Anforderungen der Unterrichtsplanung

5.3 Mittelwertunterschiede nach Gruppe

5.4 Mediationsanalyse zur Erklärung der Unterrichtsplanungskompetenz durch Gruppen mit unterschiedlich viel Unterrichtserfahrung und deutschdidaktisches Wissen

6 Diskussion

6.1 Zusammenfassung und Diskussion

6.2 Limitierungen

6.3 Ausblick auf zukünftige Forschung

Notes

Literatur

Verwendete Literatur

Weiterführende Literatur

Förderung

Funding

Author information

Authors and Affiliations

Corresponding author

Ethics declarations

Interessenkonflikt

Supplementary Information

Anhang

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Search

Navigation