1 Einleitung

Erfolgreicher Unterricht bedingt die Schaffung eines adaptiven Lernangebotes durch die Lehrkraft (Helmke 2012). Ein solches Angebot wiederum bedarf einer ausführlichen Antizipation möglicher Handlungsszenarien und deren Folgen, um so einen ziel- und nutzerorientierten Prozessverlauf des Unterrichts zu entwickeln (Kiper und Mischke 2009). Erfolgt dieser kognitive Prozess systematisch, wird er als Unterrichtsplanung bezeichnet und stellt eine der wesentlichen Aufgaben von Lehrkräften dar (z. B. Baumert und Kunter 2006). Entsprechend der Relevanz dieser Aufgabe im Hinblick auf die Qualität des anschließenden Unterrichts gehört die Ausbildung von fachbezogenen Planungskompetenzen zu den Kernanliegen in der Lehrerinnen- und Lehrerbildung (Lauterbach und Tänzer 2020; Ständige Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland [KMK] 2019). Der Relevanz gegenüber stehen theoretische wie empirische Defizite: Für das Fach Sachunterricht liegen so zwar Prozessmodelle der Unterrichtsplanung vor (z. B. Lauterbach und Tänzer 2020), das Konstrukt sachunterrichtlicher Planungskompetenz ist bisher jedoch nicht weitergehend konzeptualisiert (Gläser und Sothmann 2013). Entsprechend mangelt es auch an Instrumenten, mit denen sachunterrichtliche Planungskompetenz valide und standardisiert erfasst werden kann, um zum Beispiel der defizitären Befundlage zur Wirksamkeit spezifischer Lerngelegenheiten der Lehrerinnen- und Lehrerbildung wie den in letzter Zeit bundesweit eingeführten Langzeitpraktika begegnen zu können (Rothland und Boecker 2015; Schüssler und Weyland 2014; Vogelsang et al. 2017). So ist der Erwerb (sach-)unterrichtlicher Planungskompetenz zwar auch im seit 2015 durchgeführten Praxissemester in Nordrhein-Westfalen explizit curricular intendiert (Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen [MfSW NRW] 2010), konsistente Ergebnisse zur diesbezüglichen Wirksamkeit liegen bisher jedoch nicht vor. Aus der Tatsache, dass das Praxissemester zugleich aber als einer „der größten curricularen und studienstrukturellen Eingriffe in die universitäre Lehrerbildung“ (König und Rothland 2018, S. 2) anzusehen und entsprechend mit einem enormen Ressourcenbedarf verbunden ist, lässt sich der Bedarf verlässlicher und möglichst differenzierter, das heißt zum Beispiel auf einzelne Teilkompetenzen gerichteter, Wirksamkeitsanalysen ableiten (Rothland und Boecker 2015).

2 Messung von sachunterrichtlicher Planungskompetenz

Im Rahmen der Vorarbeit für empirische Wirksamkeitsanalysen gilt es zunächst, ein valides und standardisiertes Messinstrument zu entwickeln (Klieme et al. 2007). Für die Umsetzung ist es erforderlich, den jeweiligen Kontext der angestrebten Messung darzulegen. Im Sinne des aufgezeigten Defizits soll ein Messinstrument entwickelt werden, mit dessen Hilfe sachunterrichtliche Planungskompetenz bei angehenden Sachunterrichtslehrkräften – und dabei sowohl Grundschullehramtsstudierenden als auch Studierenden mit sonderpädagogischem Schwerpunkt – diagnostiziert werden kann. Es soll dabei der Evaluation des Professionalisierungsprozesses dienen und eingesetzt werden, um ausgewählte Lerngelegenheiten in der Lehrerinnen- und Lehrerbildung wie das oben genannte Beispiel des nordrhein-westfälischen Praxissemesters auf ihre Wirksamkeit hin prüfen zu können. Methodologisch geben Assessmentmodelle (z. B. Pellegrino et al. 2001; Wilson 2005) dabei einen möglichen Entwicklungsrahmen vor. Nach Wilson (2005) lässt sich der Prozess anhand von vier sogenannten Building Blocks durchlaufen: Konzeptualisierung des interessierenden Konstruktes, Entwicklung von Aufgaben und Items, Aufstellen von Regeln zur Bewertung und Auswahl eines geeigneten Messmodells.

Im spezifischen Fall kompetenzdiagnostischer Instrumente bedarf es zur Konzeptualisierung im ersten Building Block eines Kompetenzmodells, das das interessierende Konstrukt strukturell ausdifferenziert (Fleischer et al. 2013). Für eine ausreichende theoretische Fundierung ist dazu zunächst das jeweils zugrunde gelegte Kompetenzverständnis zu explizieren.

2.1 Definition von sachunterrichtlicher Planungskompetenz

Generell lassen sich Kompetenzen als Dispositionen verstehen, die zur erfolgreichen Bewältigung von beruflichen Anforderungssituationen befähigen (u. a. Baumert und Kunter 2006; Hartinger et al. 2008; Rychen 2008). Eine solche Definition ist allerdings als kleinster gemeinsamer Nenner im höchst heterogenen Diskurs um Lehrerinnen- und Lehrerprofessionalität in der empirischen Bildungsforschung zu verstehen, in der kein einheitliches Kompetenzverständnis vorliegt (Frey 2014; Klieme und Hartig 2007; Zlatkin-Troitschanskaia und Seidel 2011). Während eine Vielzahl von Arbeiten Kompetenz im Anschluss an Weinert (2001) in mehrere Dispositionen ausdifferenziert, rekurrierend auf Baumert und Kunter (2006) dabei vor allem auf das professionelle Wissen von Lehrkräften fokussiert, und das Konstrukt entsprechend als kognitive Leistungsdisposition definiert (Klieme und Leutner 2006), existieren mittlerweile auch Ansätze, die die Validität daran anschließender Messungen anzweifeln und den definitorisch gegebenen Situationsbezug von Kompetenz mehr in den Vordergrund stellen. So lassen sich Kompetenzen zum Beispiel als Kontinuum verstehen und zwischen Dispositionen wie Wissen und der unterrichtlichen Performanz spezifische mediierende Fähigkeiten annehmen (Blömeke et al. 2015). Mit Blick auf sachunterrichtliche Planungskompetenz ließe sich, den beiden genannten Ansätzen folgend, entweder das erforderliche Planungswissen ausdifferenzieren, oder es ließen sich – performanznäher – die erforderlichen mediierenden Fähigkeiten deklinieren. Beides scheint im Hinblick auf eine valide Erfassung dieser Kompetenz nicht zielführend, was nachfolgend begründet wird.

Die Planung von Unterricht enthält analytische sowie schöpferisch-kreative Momente, innerhalb derer vor allem die kognitiven Fähigkeiten des Analysierens, Entwerfens und Entscheidens gefordert sind (Kiper und Mischke 2009). Zudem liegt eine zumindest implizite Begründungspflicht für die getroffenen Entscheidungen vor (Helsper 2001; Kahlert 2010; Peterßen 2000). Für diese einzelnen kognitiven Prozeduren ist anzunehmen, dass sie sich mit zunehmender Expertise im Handlungsvollzug kaum separieren lassen, sondern eine Art mentale Einheit bilden (Kirsch 2021; Dreyfus und Dreyfus 1986). Unterrichtsplanung ist daher als eine Designaufgabe zu beschreiben (Aprea 2014), d. h. eine durch bestehende Vorgaben (Lehrpläne, Curricucla etc.) begrenzte, aber relativ autonom zu gestaltende, zweckmäßige Entwurfstätigkeit (Tänzer 2020), in der analytische, kreative und legitimatorische Prozesse – oftmals implizit und intuitiv – zusammenkommen (Kirsch 2021). Erschwert wird die Bewältigung der Tätigkeit durch die dem Lehrerinnen- und Lehrerhandeln und im Speziellen der Unterrichtsplanung immanente Polytelie (Neweug 2020). Die Zielebene ist mit Ausnahme bestehender Vorgaben nur unscharf umrissen (‚fuzzyness‘) (Neuweg 2020). Zudem lassen sich aufgrund der schöpferisch-kreativen Anteile der Tätigkeit und unter Hervorhebung der Relevanz des Einzelfallbezugs (keine Lerngruppe gleicht der anderen) kaum allgemeine, wenn-dann-förmige Regeln formulieren. Die Unterrichtsplanung zählt somit zu der Art von Tätigkeiten, bei denen „technische Rationalität“ (Schön 1983) an ihre Grenzen stößt (Neuweg 2020). Sie (vollends) auf theoretisches Wissen abbilden zu können, muss deshalb als „mechanistische und auch verzweifelte Vorstellung“ (Kahlert 2010, S. 275) angesehen werden. Es ist daher als Konsens anzusehen, dass Lehrerinnen- und Lehrerkompetenz im Allgemeinen und Unterrichtsplanungskompetenz im Speziellen mehr braucht als nur Wissen (Frey 2014). So erscheint es auch wenig überraschend, wenn Studien zeigen, dass Expertinnen und Experten ihre kompetenten Handlungen nicht durch explizites Wissen erklären können (Bromme 1992) oder ihr theoretisch erworbenes Wissen im Handlungsvollzug nicht anwenden (z. B. Haas 1998; Koch-Priewe 2000; Stender 2014; Zierer et al. 2015), offensichtlich also keine wissensgeleitete Deliberation stattfindet. Der Modus des ‚Wissens‘ hinter kompetenten Handlungen ist zumindest in Bezug auf die schöpferischen Anteile der Planungstätigkeit als ‚implizit‘ zu beschreiben (Neuweg 2015; Polanyi 2016 [1985]): Eine Person handelt so als wüsste sie, wie es geht. Sie kann es. Daraus ist allerdings nicht zwingend zu schließen, dass die Person auch wirklich aufgrund von explizitem Wissen derart kompetent gehandelt hat. Der Erwerb und das Verstehen professionellen Wissens stellen wichtige Grundlagen für das spätere intuitive bzw. implizite Handeln (Können) dar (Dreyfus und Dreyfus 1980). Zudem wird explizites Wissen bei der Unterrichtsplanung über die schöpferischen Anteile hinaus zum Beispiel benötigt, um die getroffenen Entscheidungen auch begründen zu können (Neuweg 2005). Es ist aber offensichtlich nicht hinreichend, um kompetent Planen zu können. Ausgehend von dieser Prämisse sowie der Prämisse, dass der Planungsprozess nicht in einzelne kognitive Teilhandlungen zerlegt werden kann, scheinen die beiden zuvor genannten Konzeptualisierungsansätze kein sinnvoller Referenzrahmen für Kompetenzzuschreibungen zu sein, und daran anschließende separierte (und dekontextualisierte) Erfassungen einzelner Kompetenzfaktoren im Hinblick auf eine valide Diagnose von Planungskompetenzen wenig zielführend. Alternativ lässt sich ein Kompetenzverständnis heranziehen, das Kompetenz nicht präskriptiv in einzelne Dispositionen ausdifferenziert, sondern als holistisch und dynamisch ansieht, in dem Sinne, dass ein Geflecht verschiedenster funktional zusammenhängender Dispositionen situationsabhängig als System zusammenwirkt und kompetentes Handeln ermöglicht (Hartinger et al. 2008; Neuweg 2005; Rychen 2008). Kompetenz zeigt sich nach diesem Verständnis nicht durch das Vorhandensein expliziten Wissens oder einzelner kognitiver Fähigkeiten, sondern ausschließlich in der Bewältigung beruflicher Anforderungen selbst und wird daher als Können bezeichnet (Dewe und Radtke 1993; Neuweg 2011a). Es lässt sich durch Beobachtung und in Relation zu in der Profession geteilten Qualitätsmaßstäben zuschreiben (Dewe und Radtke 1993; Neuweg 2014; Ryle 2015 [1969]) und stellt dabei eine zusammenfassende Abstraktion des Verhaltens im Sinne einer deskriptiven Disposition dar (Marcus 2011; Rauthmann 2017; Ryle 2015 [1969]). In kategorialer Verschiedenheit zu z. B. Wissen ist Können somit nicht als mentale Entität zu verstehen, die kausal auf Handeln wirkt, sondern stellt ein hypothetisches Konstrukt dar, dessen „einzige objektive Existenzform … das Handeln selbst [ist]“ (Neuweg 2002, S. 14). Entscheidend im Hinblick auf die Entwicklung eines kompetenzdiagnostischen Verfahrens ist dabei, dass dieses Konstrukt sich eignet, um Personen zu unterscheiden und eine Prognose für zukünftiges Verhalten aufzustellen (Asendorpf 2015; Rauthmann 2017). Ein solches Können konstituiert sich zwar letztlich situationsspezifisch aus sämtlichen personalen Ressourcen (Arnold et al. 2011; Neuweg 61,62,a, b; Rychen 2008), es ist allerdings z. B. durch passgenaue Lerngelegenheiten in der Lehrerinnen- und Lehrerbildung stufenweise (Dreyfus und Dreyfus 1980), entlang der vier Emergenzbedingungen Wissen, Erfahrung, Reflexion und Persönlichkeit (Neuweg 2005) und durch eine fruchtbare Relationierung der zugehörigen Bezugssysteme Theorie, Praxis und Person (Weyland 2010) zumindest größtenteils einer formellen Ausbildung zugänglich.

Nach diesem Verständnis wird sachunterrichtliche Planungskompetenz als holistisches Können definiert, das zur erfolgreichen („situationsangemessenen“) Planung von Sachunterricht befähigt.

2.2 Konzeptualisierung von sachunterrichtlicher Planungskompetenz

Mit der für empirische Zwecke notwendigen Strukturierung eines so verstandenen Planungskönnens wird Neuland betreten (Neuweg 2015). Die generellen Anforderungen an die Kompetenzmodellierung bleiben gleichwohl bestehen: Kompetenzen sind auf Grundlage einer systematischen Anforderungsanalyse im Zusammenspiel theoretisch-normativer sowie praxisorientierter Zugänge zu strukturieren (Schaper 2009). Methodisch lassen sich deduktiv-normative Ansätze, bei denen vorhandene psychologische und fachdidaktische Rahmenmodelle sowie präskriptive Rahmen (z. B. Curricula) analysiert und weiter ausdifferenziert werden, von empirisch orientierten Verfahren unterscheiden, die den realen Ist-Zustand in der Praxis abzubilden versuchen (Schaper 2009). Im Optimalfall wird ein integratives Vorgehen gewählt, bei dem beide Ansätze als gegenseitige Korrektive wirken und damit beide Seiten der Profession – Theorie und Praxis – in die Modellierung einbeziehen (Schaper 2009). In Folge der Definition von sachunterrichtlicher Planungskompetenz als Können konnte keines der bestehenden Rahmenmodelle für die Struktur von Lehrerinnen- und Lehrerkompetenz(aspekten) als auszudifferenzierende Grundlage gewählt werden. Stattdessen wurde sachunterrichtliche Planungskompetenz durch ein der Arbeits- und Organisationspsychologie entlehntes dreischrittiges Vorgehen aus Beschreibung der interessierenden beruflichen (Teil‑)Aufgabe, arbeitsanalytischer Ausdifferenzierung und Herleitung relevanter Kompetenzaspekte zur qualitätsvollen Bewältigung der so bestimmten Aufgaben (Marcus 2011) neu konzeptualisiert (im Detail siehe Kirsch 2020b, 2021). Die ersten beiden Schritte zusammenfassend lässt sich die Sachunterrichtsplanung als monologische Entwurfstätigkeit (Hacker 2009) an einem mentalen Objekt (Morine-Dershimer 1979) beschreiben und in die sechs Teiltätigkeiten (1) Bildungsinhalte bestimmen, (2) Ziele festlegen, (3) Unterrichtsthemen festlegen und strukturieren, (4) Methodisch-mediale Zugänge bestimmen, (5) Lehr-Lern-Situationen entwerfen (Detailplanung) sowie (6) Evaluations- und Kontrollmaßnahmen festlegen unterteilen (Tänzer 2010), innerhalb derer die bereits oben beschriebenen kognitiven Aufgaben zu bewältigen sind. Ausgehend von diesem Tätigkeitsprofil lassen sich die benötigten Kompetenzen bestimmen. Entsprechend der Definition als Können ist Kompetenz nicht als eine reale mentale Entität aufzufassen, sondern als ein soziales Konstrukt, das von außen zugeschrieben wird. Der Grundgedanke dieses Ansatzes besteht darin, Personen auf der Basis von Verhaltensbeobachtungen in der Praxis Können zu attestieren. Dazu werden einzelne Beobachtungen anhand von bestimmen Qualitätsmaßstäben eingeschätzt und unter einer zusammenfassenden Beschreibung (z. B.: „Jemand plant adaptiv“) subsumiert. In der zusammenfassenden Beschreibung besteht die angesprochene Abstrahierung, ein Hinausblicken über die einzelnen Handlungen (Ryle 2015 [1969]). Die dazu zu nutzenden Beschreibungskategorien eignen sich zugleich für eine mögliche Binnenstrukturierung der interessierenden Kompetenz. Zur Konzeptualisierung von sachunterrichtlicher Planungskompetenz ist demnach zu klären, welche spezifischen Qualitätsmaßstäbe an Planungsentscheidungen gestellt werden und wie sie zusammenfassend beschrieben werden können.

Auch wenn sich die Qualität von Unterrichtsplanungen letztlich erst im ‚Endprodukt‘, dem Lernerfolg der Kinder, zeigt (z. B. Kahlert 2010; Kiper und Mischke 2009), ist davon auszugehen, dass in Analogie zu Kriterien guten Unterrichts (z. B. Helmke 2012) auch Qualitätskriterien zur direkten Bestimmung der Qualität von Unterrichtsplanungen existieren. Auf Grundlage einer systematischen Literaturrecherche mit einhergehender Analyse konnten insgesamt fünf derartige übergeordnete Qualitätskriterien für die Planung von Sachunterricht hergeleitet werden. Adaptivität, Kohärenz, Potenzial für kognitive Aktivierung (im Folgenden nur ‚kognitive Aktivierung‘), Strukturierung und Korrektheit (vgl. Abb. 1). Die Bedeutung der Adaptivität von Planungsentscheidungen, d. h. der Beachtung vorliegender situativer Bedingungen (insbesondere der kindlichen Lernvoraussetzungen) ist über alle Fächer hinweg Konsens (vgl. z. B. König et al. 2015) und wird durch Elemente wie Bedingungsanalysen entsprechend häufig in (fach-)didaktischen Planungsmodellen berücksichtigt (vgl. Lauterbach und Tänzer 2020). Sie ist explizit auch im Fach Sachunterricht, in dem es gilt, an die Lebenswelt der Kinder anzuschließen und ihre Präkonzepte zum Ausgangspunkt des Lernens zu machen (vgl. z. B. Gesellschaft für Didaktik des Sachunterrichts [GDSU] 2013), von zentraler Bedeutung. Die Strukturierung des Unterrichts als eine Basisdimension der Unterrichtsqualität wird im Wesentlichen bereits durch eine entsprechende Planung beeinflusst. Sie lässt sich in eine inhaltliche und eine äußere Strukturierung unterteilen und verfolgt das Ziel, dass „der gedankliche Fortgang auch vom Schüler überschaubar, folgerichtig, ohne Sprünge, Lücken und Brüche empfunden [wird], so dass jeder Teilschritt den nächsten ‚motiviert‘ d. h. sinnvoll und notwendig macht und erst dadurch verständnisvolle und aktive Mitarbeit ermöglicht“ (Glöckel et al. 1992, S. 46). Strukturierung wiederum bedarf kohärenter, widerspruchsfreier Planungsentscheidungen (Peterßen 2000; Stender 2014). Von übergeordneter Bedeutung im Fach Sachunterricht, dem ein (moderat) konstruktivistisches Lehr-Lern-Verständnis zugrunde liegt, ist zudem die Aufgabe, Kinder im Unterricht kognitiv zu aktivieren und entsprechende Elemente (z. B. herausfordernde Fragen, spezielle Aufgaben, Handlungsorientierung etc.) in der Planung zu beachten (Kleickmann 2012). Das Kriterium fachlich-sachlicher Korrektheit (MfSW NRW 2010) ist Grundlage eines lernwirksamen Unterrichts und wesentlich durch eine in die Planung integrierte fundierte Sachanalyse sicherzustellen.

Abb. 1
figure 1

Fünffaktorielles Strukturmodell sachunterrichtlicher Planungskompetenz und konkurrierendes Generalfaktormodell

Während die genannten übergeordneten Kriterien hier zwar sachunterrichtsspezifisch zu denken sind, sich grundsätzlich aber auch auf die Planung in anderen Fächern übertragen ließen, entfaltet sich die Fachspezifität insbesondere auf der Ebene konkreter Indikatoren. Um das Konstrukt sachunterrichtlicher Planungskompetenz zu konkretisieren, fachdidaktisch auszuschärfen und es einer empirischen Messung zugänglich zu machen, sind die einzelnen Dimensionen daher an manifeste Indikatoren zu binden. Zu diesem Zweck wurde eine Matrix aus den genannten Teiltätigkeiten der Sachunterrichtsplanung und den quer dazu liegenden übergeordneten Qualitätskriterien gebildet (vgl. Abb. 2), die als deduktives Kategoriensystem für eine inhaltsanalytische Auswertung von (fach-)didaktischer Literatur zur Unterrichtsplanung (n = 40) diente.

Abb. 2
figure 2

Zuordnung von Kompetenzindikatoren in eine Matrix aus Teiltätigkeiten der Sachunterrichtsplanung und Dimensionen sachunterrichtlichem Planungskönnens am Beispiel der Dimension ‚Kohärenz‘. (Leerstellen in einzelnen Zellen der Matrix sind theoretisch (keine Relevanz der jeweiligen Dimension in Bezug auf eine Teiltätigkeit) oder psychometrisch begründet)

Die durch schrittweise Verdichtung generierten Indikatoren und einhergehenden Definitionen (für eine vollständige Übersicht siehe Kirsch 2020b) wurden im Anschluss durch ein Expertinnen- und Expertenrating von Fachleitungen des Landes NRW (n = 24) validiert (Kirsch 2020b). Durch zwei Pilotierungen konnten 43 dieser Indikatoren auch empirisch abgesichert werden (Kirsch 2021, 2020a). Für die Dimension ‚Kohärenz‘, die auf die Stimmigkeit der Planungsentscheidungen fokussiert, liegen beispielsweise sechs Indikatoren vor, die sich auf vier Teiltätigkeiten der Sachunterrichtsplanung verteilen (vgl. Abb. 2). Diese Könnensdimension hat keine Entsprechung in Bezug auf die Aufgabe ‚Bildungsinhalte festlegen‘, da der Planungsprozess durch die Festlegung von Inhalten initiiert wird (z. B. Haas 1998). Ein theoretisch zwar relevanter Indikator dieser Dimension in Bezug auf die Aufgabe ‚Unterrichtsthemen festlegen und strukturieren‘ musste nach der Pilotierung aus psychometrischen Gründen ausgeschlossen werden (Kirsch 2020a). Die auch als Qualitätsstandards zu bezeichnenden Indikatoren (Kirsch 2020b) stellen den zentralen Bestandteil eines simulationsorientierten und standardisierten Instrumentes zur Diagnose sachunterrichtlicher Planungskompetenzen dar, das nachfolgend vorgestellt wird.

2.3 Operationalisierung von sachunterrichtlicher Planungskompetenz

An die Entwicklung kompetenzdiagnostischer Messinstrumente ist der Nachweis ihrer psychometrischen Güte gebunden. Neben generellen Aspekten der Testqualität (z. B. Moosbrugger und Kelava 2012) gilt es bei kompetenzdiagnostischen Verfahren insbesondere die oftmals kritisch zu sehende Validität sicherzustellen (Vogelsang 2014). Performanznahe Kompetenzauffassungen wie hier erfordern Messungen in situ oder zumindest simulationsorientierte, praxisnahe Erhebungen (Mehay und Burns 2009, zit. n. Mehay 2012; Miller 1990). Letztgenannte erscheinen forschungsmethodisch ökonomischer und aufgrund dessen im Rahmen von Wirksamkeitsanalysen praktikabler. Sie werden im hier beschriebenen Instrument in Form von Vignetten umgesetzt. Durch diese werden die Probandinnen und Probanden in Korrespondenz zu den Teiltätigkeiten der Sachunterrichtsplanung mit insgesamt fünf (die Teiltätigkeiten ‚Bildungsinhalte bestimmen‘ sowie ‚Ziele festlegen‘ wurden in einer Vignette zusammengefasst) textlich repräsentierten berufstypischen Planungssituationen als Stimulus konfrontiert und anschließend durch eine entsprechende Instruktion zu einer potenziellen Handlungsfortführung bzw. Problemlösung aufgefordert (siehe auch Kirsch 2020a; vgl. Abb. 3). Die Repräsentativität der geschilderten Situationen wurde zuvor durch Expertinnen- und Expertenratings mit erfahrenen Sachunterrichtslehrkräften (n = 12) abgesichert (Kirsch 2020a).

Abb. 3
figure 3

Beispielvignette für die Teiltätigkeit ‚Unterrichtsthemen festlegen und strukturieren‘. (Durch Anklicken der unterstrichenen Wörter lassen sich zusätzliche Informationen auf- und zuklappen)

Die Bearbeitungen der Probandinnen und Probanden werden anschließend anhand der genannten Indikatoren und mithilfe eines Kodiermanuals auf ihre Angemessenheit hin analysiert und bewertet (vgl. Tab. 1). Das Kodiermanual beschreibt über eine Definition des Indikators hinaus auch Anker- bzw. Gegenbeispiele, die überwiegend induktiv gewonnen wurden und an denen sich die jeweiligen Kodierenden bei der Auswertung orientieren können. Die Intercoderreliabilität wurde für den hier genutzten Itemsatz (n = 43) durch Doppelkodierung von 27 % des Datenmaterials geprüft. Der Median der Cohens-Kappa-Werte aller Items beträgt 0,54 und ist damit noch im annehmbaren Bereich (Cicchetti und Sparrow 1981; Landis und Koch 1977).

Tab. 1 Beispielhafter Auszug aus dem Kodiermanual für den Könnensbereich ‚Kohärenz‘ (gekürzt) (siehe auch Kirsch 2020b)

Für jeden eingehaltenen Indikator wird ein Punkt vergeben. Sie dienen somit als dichotome Items (eingehalten/nicht eingehalten). Da von ihrer Einhaltung auf die dahinter stehende(n) latente(n) Variable(n) geschlossen werden soll, bieten sich als mögliche Messmodelle das dichotome Rasch-Modell (1-PL) bzw. dessen Erweiterung, das Multidimensional Random Coefficients Multinomial Logit Model (MRCMLM) (Adams et al. 1997), an. Beide Modelle gehören zu Modellen der Item Response Theory, die für die Skalierung im Rahmen kompetenzdiagnostischer Verfahren mittlerweile als state of the art anzusehen sind; unter anderem, da sie gegenüber alternativen Verfahren wie konfirmatorischen Faktorenanalysen den Vorteil kriteriumsorientierter Testwertinterpretationen haben (Hartig und Jude 2007) und eine umfassendere Prüfung der psychometrischen Güte des Tests erlauben (Moosbrugger und Schermelleh-Engel 2007). Auf Grundlage der oben beschriebenen Konzeptualisierung sind theoretisch zwei verschiedene Auswertungsszenarien denkbar: Eines, bei dem von allen Indikatoren auf eine übergreifende Fähigkeit zur angemessenen Planung von Sachunterricht, einen Generalfaktor sachunterrichtlicher Planungskompetenz, geschlossen werden kann, und eines, bei dem mithilfe der Items die fünf modellierten Kompetenzdimensionen differenziert untersucht werden. Dabei wird jedes der Items entsprechend der beschriebenen Konzeptualisierung genau einer Dimension zugeordnet, sodass im zweiten Szenario between-item-multidimensionality vorliegt (Wu et al. 2007). Für das aufgrund der Modellierung favorisierte zweite Szenario kann mithilfe des MRCMLM eine gemeinsame Skalierung der Teildimensionen realisiert werden, was gegenüber separierten Skalierungen der einzelnen Dimensionen u. a. den Vorteil hat, dass der zugehörige Messfehler nicht aufaddiert wird (Adams et al. 1997).

Die Entscheidung für eines der beiden genannten Messmodelle ist auf Grundlage der generierten Testdaten und der Beurteilung verschiedener empirischer Kriterien zu treffen. So kann die Anpassungsgüte des jeweiligen Modells an die Daten für einen Vergleich beider Modelle herangezogen werden. Von übergeordneter Bedeutung ist im Sinne der Konstruktvalidität allerdings, dass auch die absolute Passung des jeweiligen Modells für den vorliegenden Datensatz nachgewiesen werden kann. Für Modelle der Rasch-Familie ist dazu die Geltung der Modelleigenschaften von Personen- und Itemhomogenität zu zeigen (Rost 2004). Gilt Itemhomogenität, so messen alle Items eines Tests (bzw. einer Skala im mehrdimensionalen Modell) dieselbe latente Variable. Gilt die Annahme von Personenhomogenität, so wird durch den Test bzw. eine Skala bei allen Probandinnen und Probanden bzw. beliebigen Subgruppen eine homogene Eigenschaft gemessen, d. h., die Zuschreibung der Kompetenzausprägung erfolgt bei allen Probandinnen und Probanden aufgrund desselben latenten Merkmals (Rost 2004). Daraus folgt, dass die geschätzten Itemschwierigkeiten für alle Personen(gruppen) gleich sein müssen. Zum Nachweis von Personenhomogenität lässt sich die Schwierigkeit eines Tests bzw. einer Skala in Subgruppen von Untersuchungsteilnehmenden vergleichen. Da sich Personenhomogenität auf alle Untersuchungsteilnehmenden bezieht, ist es unerheblich, welche Merkmale dabei zur Bildung von Subgruppen herangezogen werden. Allerdings können inhaltlich begründete Hypothesen über mögliche Schwierigkeitsunterschiede zwischen bestimmten Subgruppen getestet werden und dazu beitragen, die Argumentation zu stärken (z. B. Bühner 2011; Rost 2004). Ist begründet anzunehmen, dass der Test bzw. die Skala für zwei Gruppen von Untersuchungsteilnehmenden unterschiedlich schwer ist, kann durch den empirischen Nachweis statistisch gleicher Itemschwierigkeiten zwischen diesen beiden Gruppen ein starkes Argument für Personenhomogenität erbracht werden. Das hier beschriebene Instrument zielt auf die valide Erfassung von Planungskompetenzen bei allen Sachunterrichtsstudierenden, unabhängig davon, ob sie den Studiengang Grundschullehramt oder den Studiengang Lehramt für sonderpädagogische Förderung studieren. Aufgrund von inhaltlichen Unterschieden im Studium wäre es jedoch denkbar, dass es beim Einsatz des Tests zu diagnostischen Verzerrungen kommt. Zum Beispiel könnte die höhere Gewichtung von inklusionssensiblen Themen bei der Gruppe der Studierenden mit sonderpädagogischem Schwerpunkt dazu führen, dass für diese die Items der Skala ‚Adaptivität‘ leichter sind, wodurch Item-Bias vorliegen und der geforderten Modelleigenschaft von Personenhomogenität widersprochen werden würde.

3 Forschungsstand und -desiderata

Vor dem Hintergrund des einleitend aufgezeigten Evidenzdefizits im Hinblick auf die intendierte Entwicklung sachunterrichtlicher Planungskompetenzen im Praxissemester stellt sich die Frage, welche sonstigen Befunde zur Wirksamkeit des Praxissemesters bzw. schulpraktischer Studien im Allgemeinen bereits vorliegen. Insgesamt zeigen bisherige Studien dabei kein konsistentes Bild über die tatsächliche Wirksamkeit dieses Studienelements (für eine Zusammenfassung siehe Kirsch 2021). Während Schröder et al. (2020) unter Vorbehalt möglicher Testwiederholungseffekte z. B. eine moderate Entwicklung von Planungskompetenzen im Fach Physik während des Praxissemesters und König und Rothland (2018) im Rahmen des Projektes „Learning to Practice“ zumindest bezüglich einzelner Kompetenzaspekte (z. B. „Handlungsoptionen kreieren“) Effekte nachweisen konnten, deuten andere Ergebnisse auf die potenziell problematische unreflektierte Adaption der erlebten Praxis hin (Kocher et al. 2010; König und Rothland 2018). Zudem zeigen Studien, dass die curricular vorgesehene und für Kompetenzentwicklungen professionstheoretisch relevante Verzahnung theoretischer und praktischer Ausbildungsinhalte in der praktischen Umsetzung von Praxisphasen nicht stattfindet (z. B. Bach 2015). Insgesamt lässt sich konstatieren, dass die bisherigen Erkenntnisse als nicht ausreichend belastbar zu beschreiben sind (Hascher und de Zordo 2015; Weyland und Wittmann 2017). Neben einer fehlenden Vergleichbarkeit von Studienergebnissen (König und Rothland 2018) stellen dabei insbesondere forschungsmethodische Defizite ein Problem dar. So stellen König und Rothland (2018) beispielsweise fest, dass Instrumente ohne Gütenachweis eingesetzt werden. Zudem werden nur in Ausnahmefällen standardisierte objektive Verfahren genutzt (z. B. Kocher et al. 2010), während Vogelsang et al. (2017) zufolge zumeist auf Kompetenzselbsteinschätzungen zurückgegriffen wird. Gröschner (2015) betont darüber hinaus den Mangel an evidenzversprechenden (quasi-)experimentellen Untersuchungsdesigns.

Mit der oben beschriebenen Entwicklung eines Instrumentes zur Erfassung sachunterrichtlicher Planungskompetenz und dessen Einsatz im Rahmen einer ersten globalen Wirkungsstudie zur Effektivität des Praxissemesters an der Universität Paderborn (Kirsch 2021) wurde bereits teilweise auf die genannten Defizite reagiert. Genannte Studie diente dabei einer ersten Bestandsaufname. Entsprechend wurde sachunterrichtliche Planungskompetenz nur generalisiert erfasst und daher mithilfe des eindimensionalen dichotomen Rasch-Modells skaliert. Dazu konnte die Passung des Modells auf die Daten nachgewiesen werden; zudem erwies sich der Test als hinreichend reliabel: EAP/PV = 0,793 (Kirsch 2021). In einer quasi-experimentellen Studie mit 26 Untersuchungsteilnehmenden konnte gezeigt werden, dass das Praxissemester keinen großen Effekt auf die Entwicklung von (generalisierter) sachunterrichtlicher Planungskompetenz hat (Kirsch 2021). Für weiterführende analytische Zwecke, zum Beispiel um Defizite in einzelnen Kompetenzdimensionen und damit mögliche Probleme in der fachdidaktischen Ausbildung oder Anknüpfungspunkte für Gelingensbedingungen aufdecken zu können, bedarf es allerdings detaillierterer Rückmeldungen über die Ausprägung und Entwicklung sachunterrichtlicher Planungskompetenz im Praxissemester. Dazu ist im Anschluss an die oben dargestellte fünfdimensionale Modellierung sachunterrichtlicher Planungskompetenz zu zeigen, dass auch die Skalierung mit dem mehrdimensionalen Rasch-Modell, dem MRCMLM möglich ist. Im Hinblick auf die psychometrische Güte (konkret die Personenhomogenität) des Instrumentes gilt es nachzuweisen, dass das Merkmal ‚Studiengang‘ mit den Ausprägungen ‚Sachunterrichtsstudierende auf Grundschullehramt‘ sowie ‚Sachunterrichtsstudierende auf Lehramt für sonderpädagogische Förderung‘ keinen Einfluss auf die Testbearbeitung hat.

4 Empirische Studie: Mehrdimensionale Messung von sachunterrichtlicher Planungskompetenz im Praxissemester

Auf die genannten Desiderata wurde im Rahmen eines an der Universität Paderborn durchgeführten Forschungsprojektes reagiert, indem aufbauend auf den beschriebenen Vorarbeiten weitergehende Analysen durchgeführt wurden.

4.1 Ziel, Fragestellungen und Hypothesen

Übergeordnetes Ziel der hier berichteten Studie war es, ausdifferenzierte Daten zur Entwicklung von sachunterrichtlicher Planungskompetenz im Praxissemester zu generieren. Dazu wurden folgende drei Forschungsfragen mit einhergehenden Hypothesen bearbeitet:

  1. 1.

    Ist das theoretisch hergeleitete fünfdimensionale Modell auch empirisch zu vertreten? Es wird erwartet, dass sachunterrichtliche Planungskompetenz adäquat durch das fünfdimensionale Modell repräsentiert werden kann.

  2. 2.

    Werden die Testergebnisse durch die Zugehörigkeit zu einer der beiden Studierendengruppen, an die der Test adressiert ist, Sachunterrichtsstudierende auf Grundschullehramt sowie Sachunterrichtsstudierende auf Lehramt für sonderpädagogische Förderung, beeinflusst? Es wird für alle fünf Skalen angenommen, dass das Merkmal ‚Studiengang‘ keinen Einfluss auf das Testergebnis hat, sodass sich die Itemschwierigkeiten in beiden Subgruppen nicht signifikant voneinander unterscheiden.

  3. 3.

    Wie verändert sich sachunterrichtliche Planungskompetenz in den einzelnen Teilkompetenzen bei Sachunterrichtsstudierenden im Praxissemester? Gemäß der curricularen Intention wird angenommen, dass sich in den einzelnen untersuchten Teilkompetenzen positive Veränderungen zeigen lassen.

4.2 Forschungsdesign

Die Datenerhebung wurde mithilfe des oben beschriebenen Testinstrumentes im Rahmen einer Online-Erhebung realisiert. Dabei wurde im Hinblick auf eine größtmögliche (ökologische) Validität bewusst auf Restriktionen in Bezug auf die verfügbare Zeit oder den Einsatz von Hilfsmitteln verzichtet. Die auf Basis des Kodiermanuals generierten Rohdaten wurden im Anschluss mithilfe des dichotomen Rasch-Modells bzw. des MRCMLM unter Zuhilfenahme des Programms ConQuest 4 (Adams et al. 2015) ausgewertet. Entsprechend des jeweiligen Interesses wurden für die Skalierung entweder die Item- oder die Personenparameter normiert, sodass – im ersten Fall – eine kriteriumsorientierte Testwertinterpretation (z. B. auch der Mittelwerte) und – im zweiten Fall – eine freie Schätzung aller Itemparameter (z. B. im Rahmen der Modellgeltungsprüfung) erfolgen konnte (Linacre 1994; Rost 2004). Für die Prüfung der Passung des entwickelten fünfdimensionalen Modells sachunterrichtlicher Planungskompetenz im Rahmen von Fragestellung 1 wurde zunächst die Anpassungsgüte beider Modelle an die vorliegenden Daten deskriptivstatistisch durch die Informationstheoretischen Maße AIC, BIC und CAIC sowie den von ConQuest ausgegebenen Deviance-Wert verglichen und der Unterschied mithilfe eines χ2-Differenztests auf Signifikanz geprüft. Darüber hinaus wurden die latenten Korrelationen zwischen den einzelnen Dimensionen im fünfdimensionalen Modell sowie die Reliabilitäten der Skalen analysiert. Durch multiple Regressionsanalysen wurde die unabhängige Vorhersagekraft der erreichten Kompetenzwerte in den einzelnen Dimensionen für den durch das Generalfaktormodell generierten Gesamtwert sachunterrichtlicher Planungskompetenz untersucht. Auf Itemebene wurden der Itemfit (wMNSQ) der einzelnen Items sowie deren Trennschärfen analysiert.

Für die Beantwortung von Forschungsfrage 2 wurden IRT-spezifische Differential-Item-Functioning-Analysen (DIF) durchgeführt, mit denen sich für alle Items einzeln feststellen lässt, ob sich die geschätzten Itemschwierigkeiten verändern, wenn das jeweilige Modell die verschiedenen Gruppenzugehörigkeiten der Probandinnen und Probanden berücksichtigt (Baumert et al. 2000; Wetzel und Böhnke 2020). DIF liegt vor, wenn ein Item bei Probandinnen und Probanden beider Gruppen trotz gleicher Kompetenzausprägung unterschiedliche Itemschwierigkeiten aufweist. Im ConQuest-Output werden dazu zwischen den Gruppen gemittelte Itemschwierigkeitsparameter sowie gruppen- und itemspezifische Interaktionsparameter ausgegeben, anhand derer signifikante Unterschiede nachgewiesen werden können. Zur Beurteilung von DIF lässt sich eine gegenüber der zumeist verwendeten DIF-Kategorisierung des Educational Testing Service [ETS] (Zwick et al. 1999) vereinfachte und speziell an die Rasch-Modellierung angepasste Kategorisierung wie folgt zusammenfassen: DIF der Kategorie A liegt vor, wenn |DIF| ≤ 0,426 oder DIF sich auf dem 0,05-Niveau nicht signifikant von Null unterscheidet. DIF der Kategorie B liegt vor, wenn 0,426 ≤ |DIF| 0,638 und DIF sich auf dem 0,05-Niveau signifikant von Null unterscheidet. DIF der Kategorie C liegt vor, wenn |DIF| ≥ 0,638 und DIF sich auf dem 0,05-Niveau signifikant von Null unterscheidet (Paek und Wilson 2011). DIF ist vor allem in Kategorie C als problematisch einzuschätzen, sofern dadurch eine strukturelle Benachteiligung einzelner Gruppen erfolgt (Bond und Fox 2001; Zieky 2003). Da Personenhomogenität Voraussetzung für die Rasch-Skalierbarkeit der Daten ist, DIF dieser Annahme allerdings widerspricht, ist der Einsatz von Items mit DIF im Rahmen von Rasch-Analysen ohnehin begrenzt.

Für die Beantwortung von Forschungsfrage 3 wurde ein quasi-experimentelles Untersuchungsdesign konzipiert, bei dem Sachunterrichtsstudierende, die das Praxissemester im Fach Sachunterricht absolvierten, als Experimentalgruppe und Sachunterrichtsstudierende, die das Praxissemester nicht im Fach Sachunterricht absolvierten, als Kontrollgruppe dienten, und jeweils vor und nach dem Praxissemester getestet wurden. Dieser Untersuchungsplan konnte realisiert werden, da Grundschullehramtsstudierende an der Universität Paderborn nur zwei ihrer drei studierten Fächer für das Praxissemester auswählen können. So kommt es vor, dass sie zwar Sachunterricht studieren, im Praxissemester jedoch wenige bis keine praktischen Erfahrungen sammeln, d. h. Hospitationen und unterstützenden sowie selbstständigen Unterricht durchführen konnten. Als Grenzwert für die Zuweisung zur Experimental- bzw. Kontrollgruppe wurde normativ das Sammeln von praktischen Erfahrungen im Fach Sachunterricht im Umfang von 42 h festgelegt, was etwa einem Drittel der im Curriculum vorgesehenen Stunden entspricht (MfSW NRW 2010). Die Daten aus der Rasch-Analyse wurden im Anschluss mit dem Programm SPSS© deskriptivstatistisch ausgewertet und mittels ANOVA mit Messwiederholung varianzanalytisch auf Signifikanz geprüft. Von Interesse war dabei der Interaktionsfaktor, der entsprechend der Annahme für die Teilkompetenzen einen signifikanten (positiven) Effekt des Praxissemesters indizieren sollte.

4.3 Stichproben

Zur Prüfung der ersten beiden Forschungsfragen wurden die Datensätze von 121 Sachunterrichtsstudierenden aus einer Pilotierungsstudie verwendet, die zwischen Sommersemester 2018 und Wintersemester 2019/2020 an der Universität Paderborn durchgeführt wurde (vgl. Tab. 2).

Tab. 2 Verteilung der Pilotierungsstichprobe (n = 121) (Kirsch 2021)

Für die Beantwortung der dritten Forschungsfrage wurden die Testdaten von 33 Sachunterrichtsstudierenden unmittelbar vor und nach dem Praxissemester ausgewertet. Die Post-Daten der Probandinnen und Probanden wurden dabei als virtuelle Fälle behandelt, was dem gängigen Vorgehen bei Umsetzung von Veränderungsmessungen mit dem Rasch-Modell entspricht (Hartig und Kühnbach 2006; Rost 2004). Virtuelle Fälle gehen, obwohl die Testdaten von denselben Personen stammen, als einzelne unabhängige Fälle in die Skalierung ein und werden nach der Analyse wieder mit den Prä-Daten (den „echten“ Fällen) zusammengeführt, um Differenzwerte bilden zu können. Da für die Kontrollgruppe Schwierigkeiten in der Gewinnung von Untersuchungsteilnehmenden bestanden, konnten für eine ausbalancierte Stichprobe nur die Testwerte von 13 Probandinnen und Probanden pro Gruppe (26 pro Messzeitpunkt) weitergehend analysiert werden (vgl. Tab. 3). Der optimale Stichprobenumfang von 16 Probandinnen und Probanden pro Messzeitpunkt für den Nachweis eines großen Effektes (Ω^2 = 0,14) wurde damit erreicht. Zum Ausschluss möglicher Störvariablen wurden beide Gruppen hinsichtlich ausgewählter Merkmale auf ihre Vergleichbarkeit untersucht. Mit Ausnahme des Merkmals ‚Erfahrung‘, hinsichtlich dessen sich beide Gruppen im Sinne des Forschungsdesigns signifikant voneinander unterscheiden (t (14,64) = 6,91, p < 0,001), liegen keine signifikanten Unterschiede vor (Kirsch 2021).

Tab. 3 Vergleichbarkeit von Experimental- und Kontrollgruppe (Kirsch 2021)

5 Ergebnisse

5.1 Prüfung der Kompetenzstruktur

Für die Prüfung der fünfdimensionalen Kompetenzstruktur wurden zunächst Informationstheoretische Maße der Modellpassung beider konkurrierender Modelle verglichen. Für alle Maße gilt: Je niedriger der Wert, desto besser die Passung auf die Daten. Tab. 4 zeigt, dass nur der Deviance-Wert Vorteile zugunsten des Fünffaktorenmodells aufweist.

Tab. 4 Modellvergleich zur Erklärung der Testdaten (Kirsch 2021)

In allen vier dargestellten Kategorien sind die Unterschiede in den Kennzahlen zwischen beiden Modellen allerdings sehr gering. Ein χ2-Differenztest zeigt, dass zwischen beiden Modellen kein signifikanter Unterschied in Bezug auf deren Passung auf die Daten besteht: χ2 (14) = 9,92, p = 0,768. In derartigen Fällen empirischer Ausgeglichenheit wird aufgrund des Parsimonitätsprinzips im Normalfall das einfachere Modell gewählt, sofern es eine vergleichbare Brauchbarkeit und denselben Geltungsbereich besitzt (Rost 2004). Entsprechend können die beiden letztgenannten Kriterien genutzt werden, um bei Bedarf differenzierter diagnostischer Informationen (der hier als Prämisse angenommen wird) auch die Wahl des fünfdimensionalen Modells zu rechtfertigen.

Zur weitergehenden Analyse wurden die latenten Korrelationen der Subdimensionen im fünfdimensionalen Modell betrachtet.

Wie Tab. 5 zu entnehmen ist, besteht ein substanzieller Zusammenhang zwischen den einzelnen Dimensionen (0,58 ≤ r ≤ 0,89), allerdings fallen die latenten Korrelationen üblicherweise hoch aus, da sie im Gegensatz zu Korrelationen zwischen Individualmesswerten keiner Beeinträchtigung durch Messfehler unterliegen (Gehlen 2016; Köller et al. 2001; Voss et al. 2005). In den großen Schulleistungsstudien werden daher gemeinhin auch sehr hohe Korrelationen (z. T. r > 0,90) einzelner Dimensionen akzeptiert und führen nicht dazu, mehrdimensionale Strukturierungen zu verwerfen. Vielmehr wird der diagnostische Mehrwert gesondert berichteter Skalenwerte in den Vordergrund gestellt (Blömeke et al. 2008; Blum et al. 2004; Prenzel et al. 2001; Voss et al. 2005). In Bezug auf Analysen mit dem MRCMLM sind hoch korrelierte Subdimensionen sogar einkalkuliert (Adams et al. 1997). Die hier berichteten latenten Korrelationen zwischen den fünf Subdimensionen sachunterrichtlicher Planungskompetenz sind demnach nicht als Gegenargument für eine mehrdimensionale Analyse der Testdaten aufzufassen.

Tab. 5 Latente Korrelationen der Subdimensionen im fünfdimensionalen Modell

Die Reliabilitäten der einzelnen Subskalen werden durch das Programm ConQuest in Form der zu Cronbachs Alpha vergleichbaren EAP/PV-Reliabilität ausgegeben (vgl. Tab. 6).

Tab. 6 Kennwerte der Subskalen

Sie liegt mit Ausnahme der Skala ‚Korrektheit‘ in allen Skalen über der Schwelle von 0,7, ab der in Bezug auf Cronbachs Alpha von einer konsistenten Skala auszugehen ist (Schmitt 1996). Vor dem Hintergrund, dass die Item-Reliabilität bei der Analyse von Daten mit dem Rasch-Modell eher unterschätzt wird (Linacre 2019), hier keine Individualdiagnostik angestrebt wird, und die Skala mit vier Items sehr klein ist, kann auch die verhältnismäßig niedrige Reliabilität der Skala ‚Korrektheit‘ noch als akzeptabel beurteilt werden (Kulgemeyer und Schecker 2012; Schermelleh-Engel und Werner 2012).

Die von ConQuest ausgegebenen wMNSQ-Werte liegen für alle Items innerhalb des Intervalls von 0,75 bis 1,30 (wMNSQmin = 0,91; wMNSQmax = 1,20), woraus die Passung zum Rasch-Modell geschlussfolgert werden kann (Adams und Khoo 1996). Die Itemschwierigkeiten streuen in allen Skalen entlang der Teilkompetenzen der Probandinnen und Probanden. Einzig Item SUPK33 aus der Skala ‚Kognitive Aktivierung‘ liegt mit einer geschätzten Itemschwierigkeit σ = 3,633 deutlich außerhalb des Kompetenzspektrums (θKog [−3,654, 2,630]) in dieser Dimension und erscheint damit zu schwer.

Abschließend wurden die von den Probandinnen und Probanden erreichten Kompetenzwerte in den Subdimensionen mittels multipler Regressionsanalyse auf ihre unabhängige Vorhersagekraft für den durch das Generalfaktormodell generierten Gesamtwert sachunterrichtlicher Planungskompetenz untersucht. Tab. 7 zeigt, dass die fünf Subdimensionen unabhängige Prädiktoren für die im Generalfaktormodell geschätzte generalisierte sachunterrichtliche Planungskompetenz sind und 99,1 % von deren Varianz aufklären. Die signifikanten Regressionskoeffizienten B belegen, dass alle fünf Subdimensionen einen Beitrag zur Vorhersage der generalisierten Kompetenz leisten (0,103 ≤ B ≤ 0,324), wobei die Teilkompetenz ‚Adaptivität‘ die größte Vorhersagekraft besitzt (B = 0,324).

Tab. 7 Vorhersagekraft der Subdimensionen auf generalisierte sachunterrichtliche Planungskompetenz

5.2 Prüfung auf Differential Item Functioning

Zur Prüfung auf DIF wurde in ConQuest für jede der Subdimensionen von sachunterrichtlicher Planungskompetenz ein Modell geschätzt, das die Interaktion zwischen Itemschwierigkeit und der Moderatorvariable ‚Studiengang‘ mit den Ausprägungen ‚Sachunterrichtsstudierende auf Grundschullehramt‘ und ‚Sachunterrichtsstudierende auf Lehramt für sonderpädagogische Förderung‘ berücksichtigt. Das Item SUPK33 aus der Skala ‚Kognitive Aktivierung‘ konnte aufgrund von ungünstigem Lösungsverhalten (nur ‚falsch‘ in einer der Gruppen) nicht in die Skalierung eingehen. Insgesamt zeigen drei Items aus den Skalen ‚Adaptivität‘, ‚Kognitive Aktivierung‘ und ‚Strukturierung‘ problematisches DIF der Kategorie C auf (vgl. Tab. 8). Zwei dieser Items (SUPK48, SUPK29) indizieren DIF ‚zulasten‘ Sachunterrichtsstudierender mit sonderpädagogischem Schwerpunkt, sodass die Itemschwierigkeiten für Studierende dieser Gruppe bei gleicher Kompetenzausprägung höher sind als für die Sachunterrichtsstudierenden auf Grundschulehramt. Ein Item (SUPK41) indiziert DIF zulasten der Gruppe Grundschullehramtsstudierender. Die von ConQuest ausgegebene Prüfgröße für Parametergleichheit zwischen den beiden Gruppen über die gesamte jeweilige Skala hinweg zeigt allerdings auch, dass für die Skalen ‚Adaptivität‘ und ‚Strukturierung‘ insgesamt keine signifikanten Unterschiede zwischen den beiden Studierendengruppen und damit kein systematischer Einfluss des Merkmals ‚Studiengang‘ festzustellen sind: χ2Adap (13) = 18,99, p = 0,123; χ2Str (4) = 1,79, p = 0,775. Demgegenüber existiert ein signifikanter Einfluss des Merkmals ‚Studiengang‘ auf das Testergebnis in der Skala ‚Kognitive Aktivierung‘, die für Studierende mit sonderpädagogischem Schwerpunkt signifikant schwieriger ist: χ2Kog (12) = 21,34, p = 0,046. Damit ist hinsichtlich dieser Skala auch die Annahme von Personenhomogenität verletzt, weswegen das verursachende Item SUPK29 für die Analyse der Daten mit dem mehrdimensionalen Rasch-Modell aus dem Itemsatz zu entfernen ist. Nach Ausschluss kann auch in der betreffenden Skala Gleichheit der Itemschwierigkeiten angenommen werden: χ2Kog (11) = 15,71, p = 0,152.

Tab. 8 Ergebnisse der IRT-spezifischen DIF-Analyse mit dem Teilungskriterium ‚Studiengang‘

5.3 Veränderung von sachunterrichtlicher Planungskompetenz im Praxissemester

Veränderungen der fünf Teilkompetenzen sachunterrichtlicher Planungskompetenz im Praxissemester wurden mithilfe des beschriebenen Instrumentes an einer Stichprobe von 26 Studierenden der Universität Paderborn analysiert. Dazu wurde für die Prä- und Postdaten eine gemeinsame fünfdimensionale Rasch-Analyse mit dem um das Item SUPK29 reduzierten Itemsatz und insgesamt 66 Fällen (33 „echte“ Fälle zu Messzeitpunkt 1 und 33 „virtuelle“ Fälle zu Messzeitpunkt 2) durchgeführt. Trotz dieser kleinen Stichprobe waren keine Probleme bei der Schätzung der Modellparameter festzustellen: Die Item-Separation-Reliability von 1 zeigt, dass die Itemparameter durch die Personenstichprobe präzise geschätzt wurden. Die ausgegebenen Itemfit-Werte (0,87 ≤ wMNSQ ≤ 1,16) belegen die grundsätzliche Passung des Modells auch auf die hier analysierten Daten. Die Voraussetzung von Varianzgleichheit war gegeben, die von Normalverteilung wurde in einzelnen Subgruppen verletzt, wobei die ANOVA gemeinhin als robust gegenüber dieser Verletzung gilt (Rasch et al. 2014). In Abb. 4 sind die Mittelwerte der beiden Gruppen in den einzelnen Kompetenzdimensionen und zu den beiden Messzeitpunkten veranschaulicht.

Abb. 4
figure 4

Deskriptivstatistische Auswertung der Kompetenzentwicklung im Praxissemester (n = 26). (Prä- und Posttest-Mittelwerte in Logits (Standardabweichung))

In beiden Gruppen zeigen sich in den Teilkompetenzen ‚Kognitive Aktivierung‘, ‚Strukturierung‘ und ‚Korrektheit‘ positive Veränderungen zwischen den Messzeitpunkten und in der Teilkompetenz ‚Adaptivität‘ eine negative. Hinsichtlich der Teilkompetenz ‚Kohärenz‘ entwickeln sich die Studierenden der Experimentalgruppe weiter, während bei Studierenden der Kontrollgruppe eine negative Veränderung zu erkennen ist. Allerdings liegen für alle Teilkompetenzen keine signifikanten Interaktionseffekte vor: FAdap (1,24) = 0,254, p = 0,619; FKoh (1,24) = 1,180, p = 0,288; FKog (1,24) = 0,130, p = 721; FStr (1,24) = 0,001, p = 0,977; FKor (1,24) = 0,429, p = 0,519. Für alle untersuchten Teilkompetenzen ist damit entgegen der bildungspolitischen Intention die Nullhypothese anzunehmen, nach der das Praxissemester keinen großen Effekt (\(\Omega ^{2}=\) 0,14) auf die Entwicklung der jeweiligen Kompetenz hat.

6 Diskussion

Das bisher innerfachlich kaum konzeptualisierte Konstrukt sachunterrichtlicher Planungskompetenz wurde durch ein fünfdimensionales Kompetenzmodell strukturiert und anschließend operationalisiert, um so seine valide und standardisierte Erfassung zu ermöglichen. Zentrales Anliegen des vorliegenden Beitrags war es, zu klären, inwieweit sich die fünfdimensionale Struktur zur Messung der fokussierten Kompetenz eignet. Dazu wurden 121 Datensätze von Studierenden an der Universität Paderborn sowohl mit einem fünfdimensionalen (MRCMLM) als auch mit einem eindimensionalen (1-PL) Rasch-Modell analysiert. Die hier dargestellten Ergebnisse zeigen, dass das fünfdimensionale Rasch-Modell zwar keine signifikant bessere Passung an die Daten aufweist, sich darüber hinaus aber empirisch durchaus bewährt, sodass im Falle eines dezidierten Bedarfs ausdifferenzierter Kompetenzdiagnosen die mehrdimensionale Auswertung von Testdaten legitimiert werden kann: Wie angenommen weisen die Subskalen zufriedenstellende Reliabilitäten und die einzelnen Items einen guten Modellfit (wMNSQ) auf. Die latenten Korrelationen sind wie erwartet hoch, lassen aber gemäß dem üblichen Vorgehen in großen Schulleistungsstudien Spielraum für die Annahme unabhängiger Faktoren. Regressionsanalysen belegen die Vorhersagekraft der einzelnen Dimensionen im Hinblick auf die durch das Generalfaktormodell abgebildete generalisierte sachunterrichtliche Planungskompetenz. Die theoretisch angenommene fünfdimensionale Struktur sachunterrichtlicher Planungskompetenz kann somit insgesamt bestätigt werden. Entsprechend kann die fokale Kompetenz anhand von fünf Teilkompetenzwerten berichtet werden, die jeweils einem Könnensaspekt entsprechen.

DIF-Analysen belegen (nach Ausschluss des Items SUPK29) in allen Skalen Personenhomogenität hinsichtlich des Merkmals ‚Studiengang‘ und zeigen, dass die Wahl des Studiengangs von Sachunterrichtsstudierenden die Testergebnisse nicht verzerrt. Über den Einfluss auf die Modellpassung hinaus werden Items, die DIF aufweisen insbesondere dann zum Problem, wenn Testinstrumente für individualdiagnostische Zwecke (z. B. innerhalb von beruflichen Auswahlentscheidungen) eingesetzt werden. In einem solchen Fall wäre bei einer mehrdimensionalen Analyse gegebenenfalls auch ein Ausschluss der beiden weiteren auffälligen Items SUPK48 und SUPK41 vorzunehmen.

Der Einsatz des Instrumentes wurde beispielhaft anhand der Evaluation des nordrhein-westfälischen Praxissemesters beschrieben. Die Daten der mehrdimensionalen Auswertung der Testergebnisse zeigen, dass in der Experimentalgruppe hinsichtlich vier von fünf Teilkompetenzen sachunterrichtlicher Planungskompetenz positive Veränderungen stattfanden, die sich aber nicht signifikant von denen in der Kontrollgruppe unterscheiden. Ebenso unterscheiden sich die (negativen) Veränderungen in Bezug auf die Teilkompetenz ‚Adaptivität‘ nicht signifikant voneinander. Dass das Praxissemester einen großen Effekt auf die genannten Teilkompetenzen hat, kann daher sowohl in positive (professionalisierende) als auch negative (deprofessionalisierende) Richtung vorerst ausgeschlossen werden. Dabei ist einschränkend zu betonen, dass hier aufgrund der relativ kleinen Stichprobe nur ein großer Effekt geprüft werden konnte. Die berichteten Ergebnisse aus anderen Studien zeigten z. T. kleine positive Effekte des Praxissemesters auf einige der untersuchten Kompetenzbereiche (König und Rothland 2018; Schröder et al. 2020). Diese sind im Hinblick auf die Veränderung von sachunterrichtlicher Planungskompetenz anhand der hier durchgeführten Studie ebenfalls nicht auszuschließen und sind anknüpfend an die bisherigen Studien durch größere Stichproben zu untersuchen. Gleichwohl ist die Frage anzuschließen, ob kleine Effekte der bildungspolitischen Intention des Studienelementes entsprechen und den hohen Ressourcenaufwand rechtfertigen. Bei der Suche nach möglichen Gründen für das Ausbleiben großer Effekte, gilt es die professionstheoretisch als wichtig anzusehende, aber in der Praxis nicht stattfindende ‚fruchtbare‘ Verzahnung theoretischer und praktischer Ausbildungsinhalte während des Praxissemesters genauer in den Blick zu nehmen. Als sinnvoller Anknüpfungspunkt an die bisherigen Studien liegt es nahe, diesbezüglich sowie generell nach strukturell-organisatorischen wie auch personalen Gelingensbedingungen zu suchen, die im Rahmen dieser Studie nicht miterfasst wurden. Hierzu ließen sich zum Beispiel die vom Paderborn zentral und von allen Studierenden erhobenen soziodemografischen Daten und Beurteilungen des Praxissemesters (z. B. Qualität des Mentorings und der Begleitveranstaltungen) nutzen, um mittels Regressionsanalysen Zusammenhänge zur Entwicklung von sachunterrichtlicher Planungskompetenz aufzudecken. Die Ergebnisse der hier berichteten Studie liefern bereits Hinweise darauf, dass hinsichtlich einzelner Teilkompetenzen (‚Kohärenz‘ und ‚Kognitive Aktivierung‘) im Vergleich zu den anderen Bereichen Förderungsbedarfe bestehen, denen zum Beispiel durch eine höhere Gewichtung in fachdidaktischen Planungsseminaren begegnet werden kann.

Weitere zukünftige Anliegen beziehen sich auf die Frage, wie die gemessenen Kompetenzwerte generell einzuschätzen sind. Dazu gilt es, Kompetenzniveau- und Kompetenzentwicklungsmodelle zu entwickeln, die offenlegen, zu welchem Zeitpunkt der Ausbildung welche Niveaus zu erreichen sind.

Bezüglich der psychometrischen Qualität des vorgestellten Instrumentes bedarf es zudem weiterer Validierungsstudien, allen voran in Bezug auf den Nachweis der prognostischen Validität. Ein sinnvolles externes Kriterium zu dessen Beurteilung könnte die Bewertung von Sachunterrichtsplanungen im Vorbereitungsdienst sein.