Einleitung

Die Qualität von Unterricht und damit auch das Lernen auf Seiten der Schülerinnen und Schüler werden entscheidend von der Lehrkraft beeinflusst (Hattie 2009). Zur Beschreibung der Fähigkeiten und Fertigkeiten von Lehrkräften, die für qualitätsvollen Unterricht notwendig sind, hat sich im deutschsprachigen Raum das Modell der professionellen Handlungskompetenz durchgesetzt (Baumert und Kunter 2006). Das darin definierte Professionswissen beinhaltet die Wissensbereiche pädagogisches Wissen (PW), Fachwissen (FW), fachdidaktisches Wissen (FDW) und Organisations- und Beratungswissen. Dem FDW wird dabei die zentrale Rolle für die erfolgreiche Unterrichtsgestaltung zugeschrieben (Riese 2009). Unterstützt wird diese Annahme durch verschiedene Untersuchungen, die zeigen, dass das FDW der Lehrkraft sowohl für kognitiv aktivierenden Unterricht (Ball et al. 2001; Keller et al. 2017) als auch das Lernen der Schülerinnen und Schüler bedeutsam ist (Baumert et al. 2010; Keller et al. 2017). Um vor dem Hintergrund dieser Ergebnisse der Forderung nach einer stetigen Evaluation und Optimierung der Lehramtsausbildung nachzukommen (Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (KMK) 2005), sind differenzierte Kenntnisse über die Wissensstrukturen von Lehramtsstudierenden erforderlich. Bestehende Instrumente zur Messung des FDW erlauben jedoch „nur globale Aussagen zum FDW auf der Ebene von Gesamtscores“ (Riese et al. 2017, S. 100) und damit „keine kriterienorientierte Beurteilung der jeweils vorliegenden Wissensstruktur“ (Woitkowski und Riese 2017, S. 40).

Eine Lösung bieten sogenannte Niveaumodelle, welche das Wissen kumulativ beschreiben (Klieme et al. 2007) und eine inhaltliche Klassifizierung von Personen hinsichtlich ihrer Wissensausprägung ermöglichen (Woitkowski und Riese 2017). Woitkowski und Riese (2017) haben bereits ein solches Niveaumodell für das physikalische FW von Lehramtsstudierenden im Bereich Mechanik entwickelt, bei dem sie auf Grundlage schwierigkeitserzeugender Aufgabenmerkmale aufeinander aufbauende Niveaus formulierten. Vergleichbare Niveaumodelle für das FDW existieren bisher jedoch nicht.

Diese Arbeit beschäftigt sich mit der Bestimmung qualitativer Fähigkeitsniveaus im FDW angehender Physiklehrkräfte. Hierfür wurden 200 angehende Physiklehrkräfte aus zwölf verschiedenen deutschen Universitäten mit Hilfe des im Projekt Messung professioneller Kompetenzen in mathematischen und naturwissenschaftlichen Lehramtsstudiengängen (Akronym: KiL) entwickelten Testinstrumentes zu ihrem FDW befragt (siehe auch Sorge et al. 2019). Die Ergebnisse der Untersuchung werden zur Charakterisierung qualitativer Fähigkeitsniveaus im FDW genutzt.

Theoretischer Hintergrund

Die professionelle Kompetenz einer Lehrkraft ist Grundlage für ihr effektives und erfolgreiches unterrichtliches Handeln (Baumert und Kunter 2006; Lipowsky 2006). Im Zentrum professioneller Handlungskompetenz steht das Professionswissen der Lehrkräfte (Neumann et al. 2019). Auf Grundlage der Modellierung von Baumert und Kunter (2006) „herrscht weitgehend Konsens im Hinblick auf die […] Grobstruktur des Professionswissens von (angehenden) Lehrkräften“ (Riese et al. 2015, S. 58), das in Fachwissen (FW), allgemeines pädagogisches Wissen (PW) und fachdidaktisches Wissen (FDW) unterteilt wird (Baumert und Kunter 2006). Das PW umfasst beispielsweise das Wissen über Klassenführung und Entwicklung der Lernenden (Baumert und Kunter 2006), das FW unter anderem das Wissen über systematische Lösungswege fachspezifischer Probleme sowie fachspezifische Arbeitsweisen (Shulman 1986).

Für das FDW sind die Beschreibungen und Konzeptualisierungen hingegen weniger einheitlich (Kirschner 2013; Riese 2009). Die Konzeptionen und die Entwicklungen der Modelle des FDW beziehen sich größtenteils auf Shulmans (1986) Definition des pedagogical content knowledge (Riese et al. 2015). So kann FDW als das Wissen beschrieben werden, mit dessen Hilfe Lehrende Fachinhalte aufbereiten können, um sie den Lernenden verständlich zu machen (Shulman 1987).

Facetten des FDW

Das FDW besteht wie auch das PW oder FW aus verschiedenen Teilaspekten, sogenannten Facetten. Abhängig vom Rahmenmodell des Professionswissens und der Konzeptualisierung des FDW zählen verschiedene Autoren verschiedene Facetten zum FDW. Für Shulman (1987) umfasst das FDW die Facetten Wissen über Lernschwierigkeiten der Schülerinnen und Schüler sowie Wissen über Instruktionsstrategien und Repräsentationen. Darauf aufbauend erweitert Grossman (1990) die innere Struktur des FDW um das Wissen über Curriculum und die Orientierungen gegenüber naturwissenschaftlichem Unterricht. Begründet wird dies damit, dass Lehrkräfte das Curriculum benötigen und nutzen, um ihren Unterricht zu strukturieren (Grossman 1990). Auf Basis der Überlegung von Tamir (1988) ergänzen Magnusson et al. (1999) die Facetten des FDW um das Wissen über Assessment (Diagnostik und Leistungsmessung). Als Argument dafür wird angeführt, dass Lehrkräfte Wissen über Assessment benötigen, um Leistungen der Schülerinnen und Schüler und damit ihren Unterricht angemessen zu evaluieren. Für Kirschner (2013) umfasst das FDW von Physiklehrkräften hingegen die Facetten Wissen über (fachliche) Konzepte, über Experimente und über Vorstellungen der Schülerinnen und Schüler. Riese et al. (2017) beziehen in ihrer Untersuchung zum FDW die Facetten Instruktionsstrategien, Vorstellungen der Schülerinnen und Schüler, fachdidaktische Konzepte sowie die Facette Experimente und Vermittlung eines angemessenen Wissenschaftsverständnisses ein und folgen mit dieser Modellierung des FDW dem Modell von Gramzow (2015). Die Konferenz der Kultusminister formuliert in ihren inhaltlichen Anforderungen für die Fachdidaktik Physik in der Lehrerbildung sieben Facetten, darunter der Umgang mit Heterogenität im Physikunterricht, Motivation und Interesse sowie die Diagnose von Lernschwierigkeiten (Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (KMK) 2018).

Sowohl die Facetten fachdidaktische Konzepte sowie Experimente und Vermittlung eines angemessenen Wissenschaftsverständnisses bei Riese et al. (2017), als auch die Facetten (fachliche) Konzepte und Experimente bei Kirschner (2013) können der übergeordneten Facette Instruktionsstrategien von Magnusson et al. (1999) zugeordnet werden (Kirschner 2013). Auf gleiche Weise lassen sich die von der Konferenz der Kultusminister formulierten sieben Facetten (KMK 2018) in dem Modell von Magnusson et al. (1999) wiederfinden. So wird der Umgang mit Heterogenität im Physikunterricht in den Instruktionsstrategien, Motivation und Interesse in Vorstellungen der Schülerinnen und Schüler und die Diagnose von Lernschwierigkeiten im Wissen über Assessment adressiert. Diesbezüglich heben auch Kind (2009) sowie Park und Oliver (2008) hervor, dass das Modell von Magnusson et al. (1999) als Konsens bei der Modellierung des FDW verstanden werden kann („Magnusson et al. (1999) propose a model that seems to encompass what is needed.“; Kind 2009, S. 198).

Die im Modell von Magnusson et al. (1999) genannten Orientierungen gegenüber dem naturwissenschaftlichen Unterricht als eigene Facette innerhalb des FDW zu sehen, ist nicht unproblematisch. So sind nach Abell (2007) die Orientierungen eher als Interaktion von Wissen, Beliefs und Werten zu verstehen. Auch im Modell professioneller Handlungskompetenz nach Baumert und Kunter (2006) stellen Orientierungen, Überzeugungen und Werthaltungen eigene Aspekte professioneller Kompetenz dar. Deshalb wird im weiteren Verlauf davon abgesehen, Orientierungen gegenüber dem naturwissenschaftlichen Unterricht als Facette des FDW zu berücksichtigen. Als Facetten des FDW werden in dieser Studie daher das Wissen über Curriculum, Vorstellungen der Schülerinnen und Schüler, Assessment und Instruktionsstrategien (Magnusson et al. 1999) berücksichtigt.

Entwicklung des FDW

Für die Entwicklung des FDW bieten sich im Laufe der eigenen Schulzeit, des Studiums und der Arbeit als Lehrkraft verschiedene Lerngelegenheiten (Kunter et al. 2011). Diese lassen sich in formale (beispielsweise in Form von Vorlesungen oder Seminaren) und informelle Lerngelegenheiten (beispielsweise selbst erteilte Nachhilfe) gruppieren (Sorge et al. 2019). Lortie (1975) räumt insbesondere den Erinnerungen an die eigene Schulzeit als informelle Lerngelegenheit eine besondere Stellung ein. Im Vergleich zu Novizen aus anderen Disziplinen wie Jura oder Medizin haben angehende Lehrkräfte bereits Unterrichtsstunden von erfahrenen Lehrkräften beobachtet (Borg 2004). Eben diese Erfahrungen können die professionelle Kompetenz angehender Lehrkräfte maßgeblich formen („apprenticeship of observation“, Lortie 1975). Grossman (1990) bewertet diesen Umstand in der Entwicklung des FDW als durchaus problematisch. So ist das auf diese Weise erlernte FDW verbunden mit eigenen Unterrichtserinnerungen, was zu einem Konservatismus in der Lehre führen kann (Grossman 1990). Darüber hinaus besteht die Gefahr, dass Lehrkräfte ihre eigenen Erfahrungen aus der Schulzeit für repräsentativ halten. Als Konsequenz daraus könnte sich beispielsweise das Wissen über die Präkonzepte der Schülerinnen und Schüler alleine aus den eigenen (vergangenen) Präkonzepten speisen (Grossman 1990). Angehende Lehrkräfte lernen somit unbewusst in informellen Lerngelegenheiten und sind nicht notwendigerweise in der Lage, dieses Wissen zu explizieren (Lortie 1975; Grossman 1990). Man könnte in diesem Zusammenhang also von einem intuitiven FDW (iFDW) sprechen, das eine angehende Lehrkraft bereits zu Beginn ihrer universitären Ausbildung besitzt.

Bezüglich der Wirksamkeit verschiedener Lerngelegenheiten zeigen diverse Studien (z. B. Riese 2009; Kleickmann et al. 2013), dass formale Lerngelegenheiten erwartungsgemäß einen positiven Einfluss auf die Entwicklung des FDW haben. Im Allgemeinen kann deshalb gesagt werden, dass Studierende in der zweiten Hälfte ihres Studiums über ein signifikant höheres FDW verfügen sollten als Studierende zu Beginn ihres Studiums (z. B. Kleickmann und Anders 2011; Riese et al. 2017; Sorge et al. 2019). Erste Ansätze, diese Entwicklung im FDW angehender Lehrkräfte qualitativ zu beschreiben, bietet Berliner (1988), der die Expertise von Lehrkräften in fünf Stufen unterteilt: novice, advanced beginner, competent, proficient und expert. Darauf aufbauend modellieren Schneider und Plasman (2011) die Entwicklung des FDW von Studierenden bis hin zu erfahrenen Lehrkräften. Zur inhaltlichen Ausdifferenzierung der Entwicklung für einzelne Facetten nach Magnusson et al. (1999) ziehen sie insgesamt 91 Forschungsartikel aus den Jahren 1986 bis 2010 zum FDW von Lehrkräften mit unterschiedlicher Berufserfahrung (preservice, new, some experience, much experience, leader) heran. Beispielhaft sei im Folgenden die Entwicklung für die Facette Instruktionsstrategien dargestellt:

Progression. Inquiry strategies are activities that are hands on or that lead to „discovery“, are difficult to enact, and may be inappropriate for students → Inquiry strategies are primarily opportunities to collect data through observations or experimentation and can be teacher centered → Inquiry strategies are opportunities for student to pose questions or collect and work with their own data, and traditional lessons can be converted to inquiry lessons → Inquiry strategies include students posing questions, designing investigations, collecting evidence, and making claims (with instruction). (Schneider und Plasman 2011, S. 550–551)

Über die verschiedenen Facetten hinweg charakterisieren Schneider und Plasman (2011) die Entwicklung des FDW wie folgt: „Overall teacher thinking appears to progress first to thinking about learners, then to thinking about teaching, and finally to building a repertoire“ (Schneider und Plasman 2011, S. 555). Somit konnten Schneider und Plasman (2011) die Entwicklung des FDW generisch beschreiben und für einzelne Facetten nach Magnusson et al. (1999) ausdifferenzieren. Sie stellen aber auch fest, dass es große Unterschiede in der Anzahl und Qualität der ausgewerteten Forschungsartikel gab. Beispielsweise waren vergleichsweise viele Artikel zum Wissen über Präkonzepte der Schülerinnen und Schüler verfügbar. Die ohnehin wenigen Artikel über das Wissen zu Assessment hingegen beschäftigten sich unterdessen eher mit dem was Lehrkräfte tun, anstatt mit dem was sie wissen (Schneider und Plasman 2011). Zudem beschreiben Schneider und Plasman (2011) die Entwicklung über die ganze berufliche Laufbahn von Lehrkräften. Insofern stellt die Arbeit von Schneider und Plasman (2011) zwar einen geeigneten Rahmen für die Modellierung der Entwicklung des FDW dar, erfordert aber eine weitere Auswertung im Hinblick auf die Charakterisierung der Entwicklung des FDW über das Studium hinweg.

Fragestellungen

Das FDW einer Lehrkraft hat einen bedeutenden Einfluss für das Lernen der Schülerinnen und Schüler, die kognitive Aktivierung sowie die Unterstützung von Lernprozessen (z. B. Keller et al. 2017). Die gezielte Förderung des FDW erfordert ein Modell, dass es erlaubt, das aktuelle FDW der Lehramtsstudierenden einzuschätzen und Vorgaben macht, welche Aspekte des FDW im nächsten Schritt zu behandeln sind; das heißt, eine systematische Förderung erfordert ein Niveaumodell des FDW. Die Vorarbeiten von Schneider und Plasman (2011) stellen eine gute Basis dafür dar, sind jedoch mit Blick auf das Lehramtsstudium nicht hinreichend ausdifferenziert. Um dieses Forschungsdefizit aufzulösen, lautet die erste Fragestellung dieser Arbeit:

FS 1

Welche Fähigkeitsniveaus lassen sich im fachdidaktischen Wissen (FDW) angehender Physiklehrkräfte beschreiben?

In Hinblick auf eine optimale Unterstützung beim Übergang von der Schule an die Universität sind insbesondere Studienanfänger von Interesse. Den Überlegungen von Lortie (1975) und Grossman (1990) folgend liegt es nahe, dass Studienanfänger bereits über ein spezielles FDW verfügen. Auch die Ergebnisse von Riese et al. (2017) lassen vermuten, dass Studierende des ersten Studienjahres über ein FDW verfügen, wenngleich sie keine universitären fachdidaktische Veranstaltungen besucht haben. Dieses postulierte iFDW könnte also eine Basis für zukünftige Lehrveranstaltungen sein. Somit ergibt sich die zweite Fragestellung:

FS 2

In welchem Umfang zeigen Studienanfänger intuitives fachdidaktisches Wissen (iFDW)?

Methoden

Entwicklung des Testinstruments

Das Projekt Messung professioneller Kompetenzen in mathematischen und naturwissenschaftlichen Lehramtsstudiengängen (Akronym: KiL) hatte sich zum Ziel gesetzt, ein Instrument zu konstruieren, welches eine Messung des universitär erworbenen Professionswissens bei Lehramtsstudierenden für mathematisch-naturwissenschaftliche Fächer ermöglicht (Kleickmann et al. 2014). Im Test werden die Wissensdomänen PW, FW und FDW erfasst, wobei sich FW und FDW in den Fächern Biologie, Chemie, Physik und Mathematik fachspezifisch unterscheiden. Da der Test die Wissensstrukturen im Studium abbilden soll, wird ein breites Spektrum an Wissensfacetten und -niveaus adressiert. Darum umfasst der Test zum FDW angehender Physiklehrkräfte die Facetten Vorstellungen der Schülerinnen und Schüler, Instruktionsstrategien, Curriculum und Assessment (Magnusson et al. 1999) in verschiedenen Inhaltsbereichen wie Mechanik, Elektrizitätslehre, Atom- und Kernphysik und weiteren Inhaltsbereichen (für Details siehe Sorge et al. 2019).

Das Wissen über Vorstellungen der Schülerinnen und Schüler umfasst im Testinstrument unter anderem typische Fehl-, beziehungsweise Präkonzepte von Schülerinnen und Schülern zu physikalischen Phänomenen und physikspezifische Denkweisen sowie Besonderheiten im Lernen physikalischer Inhalte (z. B. die Theorie des Conceptual Change). Der Bereich Instruktionsstrategien beinhaltet Strategien zur Unterrichtsgestaltung vor dem Hintergrund spezieller Lerngruppen oder spezieller physikalischer Inhalte. Außerdem wird adressiert, welche Methoden, Medien und Arbeitsweisen im Unterricht eingesetzt werden. Das Wissen über das Curriculum schließt unter anderem die Kenntnis der Bildungsstandards Physik ein, beispielsweise das Wissen von Kompetenzen, die Schülerinnen und Schüler im Physikunterricht erwerben sollen. Im Bereich Assessment umfasst das Testinstrument verschiedene Formen der Bewertung und Beurteilung von Schülerinnen und Schüler sowie Kriterien für Aufgaben zur Leistungsmessung und Diagnostik.

Alle Aufgaben zum FDW wurden auf Grundlage verschiedener Standards zur Lehramtsausbildung von einem Team ausgewiesener Fachdidaktikerinnen und Fachdidaktiker neu entwickelt. Nach ersten Machbarkeitsstudien im Jahr 2011, der Pilotierung im Jahr 2012 und Expertenratings wurden schließlich 39 Aufgaben für die Hauptstudie ausgewählt (davon 12 Aufgaben zum Wissen über Vorstellungen der Schülerinnen und Schüler, 11 zum Wissen über Instruktionsstrategien und jeweils 8 zum Wissen über Curriculums und Assessment), von denen 18 offene Aufgaben, 15 Aufgaben im Multiple-Choice-Format, 2 Wahr-Falsch-Aufgaben, 3 Zuordnungsaufgaben sowie eine Aufgabe im short-answer-Format vorliegen.

Die Hauptstudie fand am Ende des Sommersemesters 2013 an 12 deutschen Hochschulen statt. Die Testung dauerte vier Stunden mit zwei 15-minütigen Pausen und wurde von Mitarbeiterinnen und Mitarbeitern des Projektes durchgeführt.

Stichprobe

Die Stichprobe der Hauptstudie umfasst N = 200 Lehramtsstudierende (41 % weiblich) des Faches Physik aus verschiedenen Semestern. Das durchschnittliche Alter der Stichprobe beträgt 23,7 Jahre (SD = 3,0 Jahre), die durchschnittliche Studienzeit entspricht 2,85 Jahren (SD = 1,31 Jahre). 142 Probanden studieren mit dem Ziel des Gymnasiallehramts. Für die genauere Stichprobenverteilung siehe Abb. 1. Die Gruppe der Studierenden im ersten Studienjahr umfasst N = 30 Probanden (47 % weiblich). Das durchschnittliche Alter dieser Subgruppe beträgt 22,5 Jahre (SD = 2,7 Jahre). Der Test zum FDW zeigt für die Stichprobe insgesamt eine gute WLE-Reliabilität von 0,73.

Abb. 1
figure 1

Verteilung der Studierenden über die Studienjahre. Mit ≥5 sind alle Studierenden bezeichnet, die zum Zeitpunkt der Befragung im fünften oder einem höheren Studienjahr sind

Konstruktion der Fähigkeitsniveaus

Testverfahren, die das Wissen von Probanden lediglich in Form von Gesamtpunktzahlen kommunizieren, besitzen eine limitierte Aussagekraft. Dieses Problem lässt sich durch die Formulierung sogenannter Niveaus auflösen. Dabei versteht man unter einem Niveau eine kriteriumsorientierte Beschreibung der fachbezogenen Fähigkeiten auf Grundlage der Punktzahlen bzw. numerischen Ergebnisse eines Tests (Hartig 2007). Einige Autoren wie zum Beispiel Woitkowski und Riese (2017) oder Hartig (2007) sprechen in diesem Zusammenhang auch von sogenannten Kompetenzniveaus. Da durch das hier verwendete Testinstrument aber eher (kognitive) Fähigkeiten erfasst werden, werden im Verlauf Fähigkeitsniveaus im fachdidaktischen Wissen angehender Physiklehrkräfte diskutiert.

Die grundlegende Schwierigkeit in der Formulierung solcher Niveaus liegt in der Festsetzung der eigentlichen Niveaugrenzen, wobei diverse Verfahren in der Literatur diskutiert werden: Bookmark-Verfahren, regressionsanalytischer Ansatz, Scale-Anchoring Verfahren (für eine Übersicht siehe z. B. Woitkowski und Riese 2017). Im Bookmark-Verfahren (Mitzel et al. 2001) werden von einer Kommission aus Expertinnen und Experten Aufgaben nach ihrer Schwierigkeit beurteilt (z. B. Stanat et al. 2012). Das Gremium setzt entlang der Aufgaben Markierungen (sog. bookmarks), an denen für eine Kompetenzstufe gerade noch kompetente Personen diese Aufgaben richtig lösen würde (Stanat et al. 2012). Schecker et al. (2016) führen zum Bookmark-Verfahren aus, dass die Setzung der Stufen einen hohen Inferenzgrad besitzt und eine Objektivität nur begrenzt möglich ist. Um die Problematik der subjektiven Einschätzungen durch eine Expertenkommission zu vermeiden, verwenden Woitkowski und Riese (2017) für die Konstruktion eines Niveaumodells einen sogenannten regressionsanalytischen Ansatz. Bei diesem Verfahren werden Items gemäß ihrer zum Lösen nötigen Kognition (z. B. gemäß ihrer Komplexitätsstufe) durch Regressionsanalysen gruppiert (Woitkowski und Riese 2017). Dieses Verfahren bedarf jedoch eines theoretisch fundierten Modells zu schwierigkeitserzeugenden Merkmalen, da die Aufgaben a priori kategorisiert werden. Für Aufgaben zum FDW existiert bislang in der Literatur jedoch kein etabliertes Modell für schwierigkeitserzeugende Merkmale.

Das hier verwendete Scale-Anchoring-Verfahren, welches beispielsweise in TIMSS und PIRLS 2011 (Mullis 2012) aber auch in ähnlicher Form bei PISA 2009 (OECD 2012) angewandt wurde, umgeht beide Problematiken. Ziel des Scale-Anchoring-Verfahrens ist es, numerische Niveaugrenzen entlang der Personenfähigkeiten, bzw. Aufgabenschwierigkeiten zu entwickeln (gemäß des Rasch-Modells befinden sich Personenfähigkeiten und Aufgabenschwierigkeiten auf einer gemeinsamen Skala, siehe zum Beispiel Bond und Fox 2007). Dazu werden Personengruppen gebildet, gruppenweise die Lösungswahrscheinlichkeiten für einzelne Aufgaben berechnet und Aufgaben anhand ihrer Lösungswahrscheinlichkeiten in den einzelnen Gruppen zusammengefasst (Mullis 2012). Aus diesen Aufgabengruppen ergeben sich die numerischen Niveaugrenzen. Stehen diese numerischen Grenzen der Fähigkeitsniveaus fest, können typische Aufgaben an diesen Grenzen analysiert werden, um diese (rein numerischen) Grenzen nun auch inhaltlich zu charakterisieren. So ergeben sich qualitative Fähigkeitsniveaus. Die Entwicklung von Niveaugrenzen in dieser Arbeit geschieht in fünf Schritten und orientiert sich an dem Verfahren von Mullis (2012).

Im ersten Schritt werden die aus einer Rasch-Analyse (Rasch 1960) der Testergebnisse ermittelten Personenfähigkeiten auf eine praktikablere Skala von 300 bis 700 Fähigkeitspunkten transformiert (vgl. Mullis 2012). Die mittlere Personenfähigkeit beträgt nach Transformation 517,7 Fähigkeitspunkte (SD = 80,6 Fähigkeitspunkte).

Im zweiten Schritt werden entlang der Fähigkeitsskala drei Abschnitte markiert (hier 400–450 Punkte, 500–550 Punkte und 600–650 Punkte). Probanden, die entsprechend ihrer Fähigkeit in einen dieser Abschnitte zugeordnet werden können, werden identifiziert und in korrespondierenden Personengruppen (1, 2 und 3) zusammengefasst. Die Anzahl der definierten Abschnitte richtet sich nach der Anzahl der intendierten Niveaugrenzen. Die Breite der Abschnitte hängt stark von der gesamten Stichprobe und der Standardabweichung ihrer Fähigkeiten ab. Einerseits ist zu beachten, dass über die Abschnitte (und damit die korrespondieren Personengruppen) hinweg ein möglichst heterogenes Fähigkeitsspektrum abgebildet wird. So können im Folgenden möglichst unterschiedliche Personen zur Analyse von Aufgaben genutzt werden. Andererseits sollten die Abschnitte so gewählt werden, dass ein möglichst homogenes Fähigkeitsspektrum der Probanden innerhalb eines Abschnitts (und damit innerhalb der korrespondieren Personengruppe) vorliegt und die einzelnen Abschnitte (und damit die korrespondieren Personengruppen) dennoch genügend Personen umfassen (Beaton und Allen 1992).

Auf Grund der relativ geringen Stichprobengröße wird für diese Arbeit festgelegt, dass jeder Abschnitt (und damit jede korrespondierende Personengruppe) mindestens 20 Probanden (10 % der Gesamtstichprobe) umfassen soll. Tab. 1 zeigt für die drei markierten Abschnitte die korrespondieren Personengruppen mit Probandenanzahl N, mittlerer Fähigkeit M und Standardabweichung SD sowie das Ergebnis eines t‑Testes zwischen den Gruppen. Die Standardabweichungen der drei Personengruppen zeigen, dass es sich innerhalb der Personengruppen um ein relativ homogenes Fähigkeitsspektrum handelt. Mit dem t‑Test kann überprüft werden, ob der Abstand zwischen den Personengruppen groß genug ist, um von verschiedenen Fähigkeitsspektren auszugehen. Alle drei Personengruppen zeigen einen signifikanten Unterschied zueinander und besitzen somit einen ausreichend großen Abstand.

Tab. 1 Zusammenfassung der drei Personengruppen im Rahmen des Scale-Anchoring-Verfahrens

Im dritten Schritt wird nun für jede Aufgabe der prozentuale Anteil an Probanden pro Personengruppe berechnet, die die Aufgabe korrekt gelöst haben. So zeigt sich beispielsweise, dass die Aufgabe 1 von rund 38 % der Probanden aus Personengruppe 1, 67 % der Probanden aus Personengruppe 2 und 87 % der Probanden aus Personengruppe 3 richtig gelöst wurde. Bei polytomen Aufgaben muss jedoch genauer differenziert werden. Hat eine Aufgabe beispielsweise vier richtige Antworten, so wird der prozentuale Anteil an Probanden berechnet, die mindestens eine, mindestens zwei, mindestens drei und genau vier richtige Antworten gegeben haben (vgl. Mullis 2012). Es handelt sich demgemäß um kumulierte Wahrscheinlichkeiten. Dies ist zum einen sinnvoll, da Probanden mit zwei richtigen Antworten eben auch eine richtige Antwort gegeben haben und zum anderen, da es so bei besonders leichten Aufgaben nicht dazu kommen kann, dass eine korrekte Antwort unwahrscheinlicher ist als vier korrekte Antworten. Polytome Aufgaben mit n möglichen Punkten werden also als n verschiedene Aufgaben interpretiert. Aus diesem Grund ist im Verlauf häufig von 56 (statt 39) Aufgaben die Rede.

Im vierten Schritt werden mit Hilfe der prozentualen Anteile an Probanden mit korrekter Lösung die Aufgaben in Aufgabengruppen nach folgenden Kriterien zusammengefasst (Mullis 2012):

  • Eine Aufgabe wird zur Aufgabengruppe I zugeordnet, falls ≥55 % der Personen aus Personengruppe 1 die Aufgabe richtig gelöst haben.

  • Eine Aufgabe wird zur Aufgabengruppe II bzw. III zugeordnet, falls ≥55 % der Personen aus Personengruppe 2 bzw. 3 und ≤50 % der Personen aus Gruppe 1 bzw. 2 die Aufgabe richtig gelöst haben.

  • Eine Aufgabe wird zur Aufgabengruppe >III zugeordnet, falls <50 % der Personen aus Personengruppe 3 die Aufgabe richtig gelöst haben.

Beispielsweise wird Aufgabe 1 somit zur Aufgabengruppe II zugeordnet.

Mit der Bezeichnung der Aufgabengruppe >III (nicht etwa Aufgabengruppe IV) soll verdeutlicht werden, dass es auf Grundlage der drei Personengruppen nicht möglich ist, diese Aufgabengruppe weiter auszudifferenzieren. Es ist somit unklar, ob es sich im Falle der Gesamtpopulation beispielsweise um zwei Aufgabengruppen (etwa IV und V) handelt. Folglich kann nur bestimmt werden, dass diese Aufgaben über der Aufgabengruppe III anzusiedeln sind. Nichtsdestotrotz können mit der Aufgabengruppe >III Aussagen über die Wissensstruktur getroffen werden (siehe Abschnitt Inhaltliche Beschreibung der Fähigkeitsniveaus).

Im fünften Schritt wird abschließend die durchschnittliche Aufgabenschwierigkeit jeder Aufgabengruppe berechnet. Durch diese vier durchschnittliche Aufgabenschwierigkeiten werden dann die unteren Grenzen der vier Fähigkeitsniveaus I, II, III und >III definiert (Hartig 2007; Woitkowski und Riese 2017). Dieser Schritt ist im Scale-Anchoring-Verfahren von Mullis (2012) nicht vorhanden, da hier mit der Festsetzung der Personengruppen (zweiter Schritt) auch die Grenzen der Fähigkeitsniveaus festgesetzt werden. Woitkowski und Riese (2017) führen hierzu aus, dass die so identifizierten Fähigkeitsniveaus hinsichtlich ihrer Qualität und Interpretierbarkeit „stark von den (u. U. zufällig) an den Niveaugrenzen liegenden Items abhängt“ (Woitkowski und Riese 2017, S. 42). Um dieser Schwäche zu begegnen, werden die Grenzen der Fähigkeitsniveaus nicht direkt durch die Personengruppen definiert, sondern durch die durchschnittliche Aufgabenschwierigkeit innerhalb der jeweiligen Fähigkeitsniveaus.

Durch eine inhaltliche Analyse von Aufgaben können abschließend die (rein) numerischen Grenzen der Fähigkeitsniveaus inhaltlich interpretiert werden. Diese Interpretation der Niveaus geschieht anhand der Aufgaben, welche sich an der jeweiligen Niveaugrenze befinden (Beaton und Allen 1992; Hartig 2007). Mit Hilfe dieser Aufgaben kann dann das Wissen von Studierenden „beschrieben werden, deren Leistung innerhalb des Niveaus liegt“ (Hartig 2007, S. 87). Zur Festlegung, welche Aufgaben sich an einer Niveaugrenze befinden, existieren in der Literatur keine etablierten Richtwerte. Hier werden als Begrenzung der Umgebung die jeweiligen halben Standardabweichungen der Aufgabenschwierigkeiten in einem Niveau genutzt. Zum einen kann so sichergestellt werden, dass Aufgaben zwischen zwei Niveaugrenzen nicht zur Beschreibung eines Niveaus herangezogen werden. Denn so wäre keine ausreichend scharfe Trennung zwischen benachbarten Niveaus mehr möglich (Hartig 2007). Zum anderen deckt das Intervall Niveaugrenze plus bzw. minus ihrer halben Standardabweichungen eine ausreichend hohe Anzahl an Items zur inhaltlichen Charakterisierung der Niveaus ab.

Im Anschluss an die Konstruktion der Fähigkeitsniveaus ist es unverzichtbar, ihre Qualität festzustellen. Woitkowski und Riese (2017) stellen hierzu drei Qualitätskriterien zusammen. So ist zunächst sicherzustellen, dass der Abstand der Niveaus (bzw. Niveaugrenzen) untereinander groß genug ist, sodass „eine Versuchsperson am unteren Rand eines Niveaus die zur Charakterisierung des nächst höheren Niveaus herangezogenen Anforderungsmerkmale tatsächlich nicht hinreichend sicher beherrscht“ (Woitkowski und Riese 2017, S. 43). Dieses Abstandskriterium kann hierbei mit Hilfe der Lösungswahrscheinlichkeiten überprüft werden. Demnach muss zum Beispiel eine Person mit einer Niveau-I-Fähigkeit eine ausreichend niedrige Lösungswahrscheinlichkeit für eine typische Aufgabe des Niveaus II besitzen. Die üblich tolerierten Werte reichen von einer Wahrscheinlichkeit von 20 % (Klieme et al. 2000) bis 30 % (Beaton und Allen 1992). Darüber hinaus muss überprüft werden, ob sich die Merkmale benachbarter Niveaus nicht überlappen, bzw. sich genügend stark voneinander unterscheiden. Das Signifikanzkriterium kann kontrolliert werden, indem zum einen die Merkmale benachbarter Niveaus inhaltlich verglichen werden und zum anderen überprüft wird, ob sich die empirischen Aufgabenschwierigkeiten zweier benachbarter Niveaus in einem t‑Test signifikant voneinander unterscheiden. Das Idealitätskriterium fordert schließlich, dass die inhaltlichen Anforderungen eines Fähigkeitsniveaus genauso für die darüber liegenden Niveaus gelten. So beherrscht beispielsweise ein Proband auf dem Fähigkeitsniveau II auch die Anforderungen des Fähigkeitsniveaus I. Die konstruierten Niveaus mit ihren Anforderungsmerkmalen sind also nicht disjunkt, sondern enthalten sich vielmehr. Dieses Kriterium lässt sich anhand einer inhaltlichen Analyse der definierten Niveaus überprüfen.

Ergebnisse

Auswertung der Niveaugrenzen

Zur Konstruktion der Niveaugrenzen im FDW wurden mit Hilfe der prozentualen Anteile richtiger Antworten gemäß dem oben beschriebenen Verfahren 51 der 56 Aufgaben in vier Aufgabengruppen (I, II, III, >III) einsortiert. Für jede Aufgabengruppe wurde im nächsten Schritt die durchschnittliche Aufgabenschwierigkeit bestimmt. Auf diese Weise können vier Niveaugrenzen identifiziert werden. Anschließend wurde mit einer Wright-Map die Einteilung der Aufgaben und Personen in die Fähigkeitsniveaus visualisiert (siehe Abb. 2). Wie erwartet streuen die Aufgaben um die jeweilige Niveaugrenze (also dem Mittelwert der Aufgabenschwierigkeiten), wobei es dennoch möglich ist, dass die Schwierigkeit einer Aufgabe im Rasch-Modell vergleichsweise hoch (bzw. niedrig) ist, während die Aufgabe einem niedrigen (bzw. hohen) Fähigkeitsniveau zugeordnet wurde. Möglich wird dies beispielsweise, wenn Personen mit niedrigerer Fähigkeit diese Aufgabe wahrscheinlicher korrekt lösen als Personen mittlerer Fähigkeit (Aufgabe 27) oder wenn die Lösungswahrscheinlichkeit der fähigsten Personen gerade knapp oberhalb der definierten 55 % liegt (Aufgabe 35). Die Personenverteilung entlang der Fähigkeitsniveaus (siehe Tab. 2) zeigt, dass sich die Mehrzahl der Studierenden (52 %) innerhalb des Niveaus II befindet. Außerdem ist zu erkennen, dass das durchschnittliche Studienjahr mit den Fähigkeitsniveaus steigt. Höhere Niveaus wurden also tendenziell von Studierenden höherer Studienjahre erreicht.

Abb. 2
figure 2

Wright-Map für das FDW der Stichprobe mit eingezeichneten Fähigkeitsniveaus. Die Farben Grün (Kreuz), Gelb (Viereck), Rot (Dreieck) und Grau (Stern) symbolisieren die Zugehörigkeit zu den Niveaus I, II, III und >III. Die Probandengruppe, welche schwarz eingefärbt ist, liegt unterhalb des Niveaus I

Tab. 2 Verteilung der Probanden über die Fähigkeitsniveaus

Mit dem Abstandskriterium wird überprüft, ob eine für das Fähigkeitsniveau typische Person tatsächlich eine durchschnittliche Aufgabe des nächsthöheren Niveaus unsicher genug löst. Dabei entspricht die typische Person, bzw. durchschnittliche Aufgabe eines Fähigkeitsniveaus genau der mittleren Aufgabenschwierigkeit des Niveaus und damit der numerischen Niveaugrenze. Tab. 3 zeigt die Lösungswahrscheinlichkeit zum jeweils nächsthöheren Fähigkeitsniveau. Zu erkennen ist, dass die Lösungswahrscheinlichkeiten zwischen Niveau I und II und zwischen Niveau III und >III unter 30 % liegen. Demnach liegen die Fähigkeitsniveaus hinsichtlich der Personen- und Aufgabenparameter hinreichend weit auseinander. Zwischen dem Niveau II und III liegt eine Lösungswahrscheinlichkeit von 30,8 %, was somit noch toleriert werden kann.

Neben dem Abstandkriterium wurde darüber hinaus geprüft, ob sich die dem Fähigkeitsniveau zugeordneten Aufgaben bezüglich ihrer Schwierigkeit signifikant unterscheiden. Die in der Tab. 3 aufgeführten t‑Werte zeigen, dass sich die Aufgabenschwierigkeiten zwischen den jeweiligen Niveaus signifikant unterscheiden. Somit enthalten die jeweiligen Niveaus tatsächlich signifikant unterschiedliche Aufgabenschwierigkeiten.

Tab. 3 Zusammenfassung der Fähigkeitsniveaus zur Überprüfung der Qualitätskriterien

Inhaltliche Beschreibung der Fähigkeitsniveaus

Die konstruierten (numerischen) Niveaugrenzen werden anschließend genutzt, um inhaltliche Aussagen über die vorhandenen Wissensstrukturen zu tätigen. Hierfür wurden jene Aufgaben ausgewählt, die an, bzw. in der Nähe einer Niveaugrenze liegen (Hartig 2007). Anschließend wird für diese Aufgaben analysiert, welches FDW prototypisch vorhanden sein muss, um sie korrekt zu lösen. Der Inhalt dieser Aufgaben sowie die Anforderungen an das FDW, diese Aufgaben richtig zu lösen, liefert dann die inhaltliche Beschreibung des Fähigkeitsniveaus. Die Nähe an einer Niveaugrenze lässt sich durch die entstandenen Intervalle (für das Fähigkeitsniveau I [−1,66; −1,13], für das Fähigkeitsniveau II [−0,53; −0,40], für das Fähigkeitsniveau III [0,25; 0,57], für das Fähigkeitsniveau >III [1,10; 1,96]) charakterisieren (siehe auch Abb. 2). Die Anzahl der identifizierten Aufgaben pro Facette und Niveau sind in Tab. 4 abgebildet, die daraus resultierende inhaltliche Beschreibung liefern die in Tab. 5 (im Anhang) formulierten Fähigkeitsniveaus. Im Anhang finden sich exemplarisch niveaucharakterisierende Aufgaben.

Tab. 4 Anzahl von Aufgaben pro Facette und Fähigkeitsniveau, die zur inhaltlichen Beschreibung genutzt werden

Für die Prüfung des Idealitätskriteriums ist es sinnvoll, die Fähigkeitsniveaus facettenweise zu diskutieren. Betrachtet man also die Facette zum Wissen über Vorstellungen der Schülerinnen und Schüler, zeigt sich auf dem ersten Niveau, dass Studierende eher mit allgemeinphysikalischen Vorstellungen vertraut sind. So sind Probanden beispielsweise in der Lage, die wissenschaftliche (und damit adäquate) Eigenschaft eines physikalischen Modells gegen die prominente Vorstellung der Schülerinnen und Schülern, dass der „Wahrheitsgehalt“ das wichtigste Merkmal eines physikalischen Modells ist, abzugrenzen. Außerdem sind Studierende mit typischen Fehlvorstellungen der Mechanik vertraut (siehe Anhang, Aufgabe 12). Auf dem zweiten Niveau sind Studierende mit weiteren themenspezifischen Vorstellungen (wie zum Beispiel der Elektrizitätslehre) von Schülerinnen und Schülern vertraut und in der Lage, durch Experimente die Vorstellungen der Schülerinnen und Schüler bzgl. naturwissenschaftlicher Arbeitsweisen zu fördern (etwa: „Für das Lernen über naturwissenschaftliche Arbeitsweisen muss das Nachvollziehen des experimentellen Aufbaus, die Durchführung und Auswertung eines Experimentes fokussiert werden“). Studierende des dritten Fähigkeitsniveaus können potentielle Fehlvorstellungen in Repräsentationen (bspw. aus Graphen und Abbildungen aus Schulbüchern) erkennen. Zwischen dem Niveau I und II zeigt sich ein sukzessiver Wissensaufbau, da Studierende auf dem zweiten Niveau ihre allgemeinphysikalischen Vorstellungen (Fähigkeitsniveau I) nun auf konkrete Fachinhalte beziehen können. Auch im Vergleich zwischen Niveau II und Niveau III zeigt sich der aufbauende Charakter. Studierenden des zweiten Niveaus ist es vorerst nur möglich, typische Fehlvorstellung zu benennen; sie reproduzieren gewissermaßen die Lerninhalte, die sie in den Fachdidaktikveranstaltungen präsentiert bekommen haben. Auf dem dritten Fähigkeitsniveau jedoch ist es ihnen nun möglich, potentielle Fehlvorstellungen zu erkennen. Dies geht über eine reine Wiederholung der Lerninhalte hinaus, da die Studierenden Abbildungen selbstständig mit Hilfe der gelernten Inhalte analysieren und bewerten müssen. Für diese Facette ist das Idealitätskriterium somit erfüllt.

Auf der Ebene der Instruktionsstrategien zeigt sich ein Zuwachs des Wissens ebenfalls deutlich. Ist den Studierenden auf dem ersten Niveau lediglich der entdeckende Unterricht bekannt, so wächst ihr Wissen über den sachstrukturorientierten bis hin zum kontextorientierten Unterricht von Fähigkeitsniveau zu Fähigkeitsniveau an. Die Studierenden auf dem dritten Niveau kennen demnach einen Grundstock an Instruktionsstrategien. Für diese Annahme spricht auch, dass Probanden des dritten Niveaus in der Lage sind, die in Schulbüchern verwendeten Instruktionsstrategien zu erläutern sowie verschiedene Instruktionsstrategien gegeneinander abzuwägen (hier, um eine holistische Vorstellung bei optischen Abbildungen zu überwinden). Auf dem Fähigkeitsniveau >III ist es Studierenden anschließend möglich, ihr Repertoire an Instruktionsstrategien zu nutzen, um sich für eine Unterrichtsstrategie (hier im Sinne eines Konzeptwechsels) zu entscheiden (siehe Anhang, Aufgabe 17). Studierende dieses Niveaus besitzen also nicht nur ein Wissen von verschiedenen Instruktionsstrategien, sondern auch ein reflektiertes Wissen über deren (geeignete) Verwendung. Das Idealitätskriterium ist also auch hier erfüllt.

Auf dem Fähigkeitsniveau I zum Wissen über das Curriculum besitzen Studierende ein partielles Wissen über die Bedeutung sozialer und kultureller Einflüsse der Wissenschaftsgeschichte und können diese verschiedenen Aspekte hinsichtlich ihrer Bedeutung für den Unterricht einordnen (z. B., dass auch die Thematisierung von Wissenschaftsgeschichte nötig ist, um die gesellschaftliche Bedeutung von Naturwissenschaften zu diskutieren). Zudem ist es den Studierenden möglich, Aufgaben, zum Beispiel zum elektrischen Widerstand, gemäß den Bildungsstandards in die dafür vorgesehenen Anforderungsbereiche 1 und 2 einzuordnen, während schließlich das Niveau II eine Einordnung von Aufgaben innerhalb aller drei Anforderungsbereiche umfasst. Außerdem sind Studierende des Niveaus II in der Lage, physikalische Inhalte gemäß des Spiralcurriculums anzuordnen (siehe Anhang, Aufgabe 25). Erwähnenswert ist, dass Studierende im Bereich des Curriculums erst auf dem Niveau >III in der Lage sind, eigene Unterrichtsentscheidungen auf Grundlage des Curriculums zu reflektieren. So können Studierende motivationale und inhaltliche Ziele eines außerschulischen Lernorts erst hier darlegen. Somit unterliegt die Einteilung gemäß der Fähigkeitsniveaus dem Idealitätskriterium.

Die Facette des Assessments ist in den Niveaus I und II nicht vorhanden. Studierende des dritten Niveaus können Aufgaben den Kompetenzbereichen der Bildungsstandards zuordnen (siehe Anhang, Aufgabe 38), Probanden des Fähigkeitsniveaus >III sind in der Lage, Aspekte naturwissenschaftlicher Kompetenz (z. B. die Variablenkontrollstrategie oder das Planen von Experimenten) zu erkennen, die durch bestimmte Aufgaben erfasst werden können. Während Studierende auf dem Niveau III also passende Aufgaben im Sinne der Kompetenzbereiche auswählen, sind Studierende des Niveaus >III in der Lage, im Sinne naturwissenschaftlicher Kompetenz (hier die Variablenkontrollstrategie) adäquate Aufgaben zur Leistungsmessung auszuwählen. Die Fähigkeit, Aufgaben auf Grundlage naturwissenschaftlicher Merkmale zu evaluieren, scheint demnach eher Studierenden der höheren Niveaus zu gelingen. Die formulierten Fähigkeitsniveaus im Assessment verhalten sich also erwartungsgemäß und unterliegen dem Idealitätskriterium.

Um zusätzlich zu überprüfen, ob die so charakterisierten Fähigkeitsniveaus nicht nur Aufgabenformate abbilden, sondern tatsächlich die vorhandene Wissensstruktur der Studierenden, wird eine lineare Regression von Aufgabenformat (offen vs. geschlossen) auf das zugeordnete Niveau (I, II, III, >III) berechnet. Die Regression zeigt dabei keinen signifikanten Einfluss des Aufgabenformates (b = 0,89; p = 0,09) auf das Fähigkeitsniveau. Somit ist davon auszugehen, dass die Fähigkeitsniveaus kein Artefakt der Aufgabenformate darstellen.

Das FDW von Studierenden des ersten Studienjahres (iFDW)

Zur Untersuchung des postulierten iFDW ist es nötig, jene Probanden aus der Stichprobe zu wählen, die in ihrem bisherigen Studium (nahezu) keine universitären fachdidaktischen Veranstaltungen besucht haben. Zu erwähnen ist, dass die Erhebung des FDW im Laufe des Sommersemesters stattfand, somit ist nicht auszuschließen, dass Studierende des ersten Jahres bereits an ersten fachdidaktischen Lehrveranstaltungen teilgenommen haben. Aus der Wright-Map mit 90-prozentiger Lösungswahrscheinlichkeit kann nun abgelesen werden, welche jeweiligen Personenfähigkeiten nötig waren, um entsprechende Aufgaben mit einer 90-prozentigen Wahrscheinlichkeit korrekt zu lösen. Durch die durchschnittliche Fähigkeit der Teilstichprobe konnte dann festgestellt werden, welche Aufgaben von einem typischen (d. h. durchschnittlichen) Studierenden des ersten Studienjahres mit hoher Wahrscheinlichkeit (nämlich ≥90 %) richtig gelöst werden.

Abb. 3 im Anhang zeigt die berechnete Wright-Map. Die durchschnittliche Personenfähigkeit der Teilstichprobe beträgt 0,03 Logits (SD = 0,52). Die mittlere der drei horizontalen Linien repräsentiert die durchschnittliche Fähigkeit eines Probanden aus der Teilstichprobe, die Linien darunter bzw. darüber zeigen die Standardabweichung der mittleren Personenfähigkeit. Zu den dichotomen Aufgaben sind darüber hinaus die Standardabweichungen in Form von Fehlerbalken eingezeichnetFootnote 1. Der Abb. 3 ist zu entnehmen, dass 12 Aufgaben innerhalb bzw. unterhalb der Standardabweichung eines durchschnittlichen Studierenden des ersten Jahres zu lokalisieren sindFootnote 2. Dementsprechend wurden diese Aufgaben ausreichend sicher von Studierenden gelöst, die bisher keine oder nur begrenzt universitären Lerngelegenheiten für das FDW hatten. Daher kommen diese Aufgaben für ein iFDW in Frage.

Eine genauere Betrachtung der intuitiven Aufgaben zeigte, dass es sich bei zehn der zwölf Aufgaben um polytome Aufgaben handelt, genauer um Zuordnungsaufgaben. Das ist insofern relevant, als dass durch die Aufgabe alleine nicht deutlich wird, welche Elemente (innerhalb einer Aufgabe) tatsächlich intuitiv richtig zugeordnet wurden. Da dies für eine Beschreibung des iFDW jedoch durchaus relevant ist, wurden in einem nächsten Schritt die Zuordnungen der Teilstichprobe analysiert und insbesondere überprüft, welche richtigen Antwortmöglichkeiten vermehrt ausgewählt wurden. Es zeigte sich, dass in vier der fünf polytomen Items die intuitiven Zuordnungen eindeutig erkennbar waren. Beispielsweise konnten in der (Zuordnungs‑)Aufgabe 29 folgende Arbeitsaufträge zum elektrischen Widerstand von 28 bzw. 25 Studierenden dem richtigen Anforderungsbereich zugeordnet werden:

Geben Sie an, wie sich der elektrische Widerstand eines ohmschen Bauteils aus Strom und Spannung berechnen lässt. (Anforderungsbereich: Wiedergabe, 28 der 30 Studierenden)

Erklären Sie mit Hilfe der angestellten Betrachtung die Funktionsweise des elektrischen Heizelementes in einem Wasserkocher. (Anforderungsbereich: Transfer, 25 der 30 Studierenden)

Die restlichen vier Zuordnungen der Aufgabe 29 wurden von 3, 13, 21, bzw. 14 Probanden richtig beantwortet, kommen also als Intuition weniger in Frage. Darüber hinaus zeigte das Zuordnungsmuster der polytomen Aufgabe 10 keine eindeutig präferierte Zuordnung; keine der vier richtigen Zuordnungen wurde von mehr als der Hälfte der Probanden gewählt. Es werden im Folgenden also nur die vier polytomen und übrigen zwei dichotomen Aufgaben berücksichtigt.

Die mittlere Aufgabenschwierigkeit der ausgewählten Aufgaben für Studienanfänger beträgt −1,61 Logits (SD = 0,43). Versteht man diese mittlere Aufgabenschwierigkeit als untere Grenze für ein grundlegendes Fähigkeitsniveaus, etwa Niveau 0, so ließe sich dieses unter das bestehenden Fähigkeitsniveau I einsortieren. Im Vergleich zum Niveau I jedoch fällt auf, dass alle 11 Aufgaben des Niveaus 0 im Niveau I vertreten sind. Somit ist das Fähigkeitsniveau 0 eine echte Teilmenge des Niveaus I. Weiter sind immerhin rund 70 % der Aufgaben aus Niveau I dem Fähigkeitsniveau 0 zugeordnet worden. Daraus kann geschlossen werden, dass mit dem Fähigkeitsniveau I Wissenselemente des iFDW erfasst werden; oder anderes formuliert: Das Fähigkeitsniveau I kennzeichnet das iFDW.

Diskussion

Die erfolgreiche Unterrichtsgestaltung und damit Anregung schulischen Lernens erfordert ein angemessenes FDW (Keller et al. 2017). Diese besondere Relevanz des FDW motiviert, eine inhaltliche Charakterisierung der Wissensstrukturen von (angehenden) Lehrkräften vornehmen zu können. Ein Niveaumodell könnte eine kriterienorientierte Interpretation des FDW angehender Lehrkräfte ermöglichen (Klieme et al. 2007). Die Entwicklung eines solchen Modells war Ziel des vorliegenden Artikels. Die aus einer Querschnittserhebung gewonnenen Daten konnten nach einer Rasch-Analyse (Rasch 1960) durch das Scale-Anchoring-Verfahren so interpretiert werden, dass sich vier Fähigkeitsniveaus entlang des FDW angehender Physiklehrkräfte identifizieren ließen. Darüber hinaus konnte eine Gruppe von Aufgaben herausgestellt werden, die bereits von Probanden des ersten Studienjahres mit hoher Wahrscheinlichkeit korrekt beantwortet werden. Dies lässt darauf schließen, dass Studierende bereits zu Studienbeginn über ein nahezu intuitives Verständnis von Fachdidaktik verfügen. Eine genauere Betrachtung dieses iFDW zeigte, dass mit dem ersten Fähigkeitsniveau im FDW Wissenselemente des iFDW erfasst werden.

In Bezug auf die erste Fragestellung, wie sich die Fähigkeitsniveaus hinsichtlich der vier Facetten des FDW beschreiben lassen, lässt sich nach dem durchgeführten Scale-Anchoring-Verfahren zunächst festhalten, dass die Fähigkeitsniveaus die tatsächlich vorhandenen Wissensstrukturen und nicht etwa das Aufgabenformat abbilden. Außerdem ist zu erkennen, dass höhere Niveaus tendenziell von Studierenden höherer Studienjahre erreicht werden. Und obwohl den Fähigkeitsniveaus kein Stufenmodell (im Sinne einer Entwicklung) zugrunde liegt, kann dies als erstes Indiz dafür gewertet werden, dass die konstruierten Niveaus auch eine Entwicklung im FDW Lehramtsstudierender beschreiben. Mit Blick auf die Facetten ist festzustellen, dass das Reproduzieren von Lerninhalten generell den niedrigeren, reflexive Fähigkeiten eher den höheren Niveaus zugeordnet werden können. Diese Beobachtung steht im Einklang mit gängigen Modellen der hierarchischen Komplexität. So schlagen hierfür beispielsweise Neumann et al. (2007) in ihrer Modellierung zur physikalischen Kompetenz eine (hierarchische) Differenzierung zwischen Fakten, Zusammenhängen und übergeordneten Konzepten vor. Bernholt et al. (2009) unterscheiden (in der Chemie) zwischen unreflektiertem Erfahrungswissen, Fakten, Prozessbeschreibungen, Lineare Kausalität und Multivariate Interdependenz (für weitere Kompetenzmodelle im Fachwissen siehe z. B. Bernholt et al. 2009). Zwar unterscheiden sich die beiden genannten Modelle hinsichtlich ihrer Komplexitätsschemata, trotzdem lässt sich erkennen, dass das Begründen von Zusammenhängen stets eine höhere kognitive Anforderung darstellt als das Nennen isolierter Fakten. Die inhaltliche Analyse der hier dargelegten Fähigkeitsniveaus deckt sich demnach mit Modellen, denen (zumindest im FW) eine hierarchische Komplexität zu Grunde liegt. Im Speziellen zeigt sich, dass reflexive Fähigkeiten, um Instruktionsstrategien zu bewerten oder Aktivitäten motivational zu begründen, erst in den höheren Niveaus auftreten. Dies deckt sich mit den Befunden von Schneider und Plasman (2011). Zudem gelingen reflektierte Begründungen in den Facetten Curriculum und Assessment erst auf höheren Niveaus, besonders im Vergleich zu den Facetten Vorstellungen der Schülerinnen und Schüler und Instruktionsstrategien. Grund dafür könnte sein, dass Studierende im Zeitraum ihrer universitären Ausbildung seltener auf Grundlage eines Curriculums reflektieren. Dass Curriculum und Assessment im Allgemeinen also als weniger vertraute Facetten angesehen werden können, steht auch hier im Einklang mit den Resultaten von Schneider und Plasman (2011). Diese geben jedoch zusätzlich den Hinweis, dass Lehrkräfte mit wachsender Berufserfahrung tendenziell fähiger in der Facette Curriculum werden (Schneider und Plasman 2011). Somit ist zu erwarten, dass insbesondere in der zweiten Phase der Lehrkräfteausbildung dieses Wissen weiter ausgeprägt wird. Außerdem kann aus diesen Ergebnissen abgeleitet werden, dass es expliziter Lerngelegenheiten bedarf, um adäquates Wissen im Curriculum und Assessment zu konstruieren und auf unterrichtliche Entscheidungsprozesse zu beziehen. Dies ist gerade wichtig, weil Lehrkräfte insbesondere durch ein adäquates Assessment in der Lage sind, den Wissens- und Lernstand der Schülerinnen und Schüler einzuschätzen und darauf aufbauend ihr Repertoire an Instruktionsstrategien anzupassen (Park und Chen 2012).

Bezüglich der zweiten Forschungsfrage zur Existenz eines iFDW kann festgestellt werden, dass Studierende des ersten Studienjahres tatsächlich über ein nicht triviales FDW verfügen, ohne bzw. nur erste formale fachdidaktische Lerngelegenheiten wahrgenommen zu haben. Dieses Ergebnis deckt sich prinzipiell mit den Beobachtung von Riese et al. (2017). Woraus Studierende dieses iFDW jedoch beziehen, kann hier nicht beantwortet werden. Die Vermutung von Lortie (1975) und Grossman (1990), besonders die eigene Schulzeit als Quelle für iFDW anzusehen, scheint jedoch plausibel. Für zukünftige Forschung im Bereich des iFDW ist es erstrebenswert, ein Testinstrument zu entwerfen, welches in der Lage ist, das iFDW differenziert und detailliert direkt zu Studienbeginn zu erfassen. Auf diese Weise ließe sich das iFDW gegenüber des Fähigkeitsniveaus II schärfer abgrenzen und adäquater beschreiben, um so die Grundlage für einen fließenderen Übergang von der Schule zur Universität zu schaffen.

Bei der Beschreibung der Fähigkeitsniveaus ist zu beachten, dass eine vergleichsweise geringe Anzahl an Aufgaben pro Facette genutzt wurde, um die Niveaus inhaltlich zu interpretieren. Dies liegt darin begründet, dass nur wenige Aufgaben einer Facette an der Niveaugrenze liegen. Es besteht somit die Gefahr, nur einen Ausschnitt der tatsächlichen Fähigkeiten jeden Niveaus und Facette erfasst zu haben. Die hier aufgeführten Beschreibungen der Fähigkeitsniveaus sollten folglich eher als Teil einer (möglicherweise umfassenderen) Niveaubeschreibung verstanden werden. Außerdem muss beachtet werden, dass die Aufgaben im Testinstrument größtenteils einen deutlichen Bezug zu Fachinhalten aufwiesen, die Niveaus jedoch möglichst generalisiert, frei von Fachinhalten, formuliert wurden. Eine weitere Limitation liegt im Scale-Anchoring-Verfahren und der Wahl der ursprünglichen Fähigkeitsabschnitte (zweiter Schritt). Zur Untersuchung, inwieweit die gewählten Abschnitte auf der Fähigkeitsskala arbiträr erfolgten, wurden hierfür die drei Abschnitte, bzw. Personengruppen nach links, bzw. rechts linear transformiert (also 375–425, 475–525, 575–625 Fähigkeitspunkte, bzw. 425–475, 525–575, 625–675 Fähigkeitspunkte) und anschließend die Fähigkeitsniveaus analysiert. Dabei zeigt sich für dichotome Aufgaben, dass die lineare Transformation der drei Personengruppen nach links keinen Einfluss auf den Inhalt der Niveaus hat. Die Transformation in Richtung höherer Fähigkeit würde jedoch die inhaltliche Beschreibung der Niveaus I und III verändern, zeigt gleichermaßen aber eine weniger homogene Abbildung der Stichprobe. Somit liefern die hier dargestellten Fähigkeitsniveaus eine erste Ausgangslage für die weitere Untersuchung der Qualität des FDW (angehender) Lehrkräfte.

Außerdem wäre denkbar, dass die erfassten Aufgaben für das iFDW weniger durch informelle (fachspezifische) Lerngelegenheiten im FDW (z. B. die eigene Schulzeit) lösbar sind, sondern vielmehr mit einem Alltagsverständnis vom Lernen allgemein. Jedoch zeigen beispielsweise die Aufgaben 26 und 29, dass Studierende die Vermittlung einer naturwissenschaftlichen Grundbildung im Physikunterricht zutreffend beschreiben können (z. B., dass Wissenschaftsgeschichte fachliches Lernen unterstützen kann, da Schülerinnen und Schüler anhand historischer Konzepte ihrer eigenen Vorstellungen bewusst werden) und physikalische Aufgaben gemäß Bildungsstandards in Anforderungsbereiche zuordnen. Da es sich hier um curriculare Anforderungen und Kompetenzen handelt, die Schülerinnen und Schüler im Physikunterricht erwerben sollen (also FDW) liegt es nahe, dass dieses Wissen im eigenen Physikunterricht erworben wurde, also über generelles Alltagsverständnis vom Lernen hinausgeht. Dennoch lässt sich nicht mit Sicherheit sagen, ob das hier festgestellte iFDW tatsächlich jenes Wissen erfasst, welches der eigenen Schulzeit entstammt. Dies sollte zukünftig mit einem speziellen dafür konstruierten Testinstrument überprüft werden. Zudem sind die Ergebnisse zum iFDW dahingehend limitiert, dass die Erhebung des FDW eher am Ende des Sommersemesters stattfand. Somit kann nicht völlig ausgeschlossen werden, dass Studierende des ersten Jahres nicht doch formale Lerngelegenheiten im FDW wahrgenommen haben.

Prospektiv kann das hier konstruierte Niveaumodell dafür genutzt werden, die Ausbildung angehender Lehrkräfte an den Universitäten weiter zu verbessern. Einerseits können Curricula und Ausbildungspläne des Lehramtsstudiums künftig an das Niveaumodell angelehnt werden, um eine konsistente fachdidaktische Ausbildung zu sichern. So sollte die fachdidaktische Ausbildung auf der einen Seite alle Facetten simultan fördern, um Kohärenz im FDW zu gewährleisten (Park und Chen 2012). Auf der anderen Seite jedoch legen die hier beschriebenen Ergebnisse nahe, dem Wissen über Curriculum und Assessment vermehrt Aufmerksamkeit in den universitären Lerngelegenheiten zu schenken. Universitäten sollten demnach Lerngelegenheiten anbieten, die ein Erschließen der höheren Niveaus ermöglichen, bzw. unterstützen. Darüber hinaus können die Fähigkeitsniveaus genutzt werden, um Lehrveranstaltungen auf ihre Lernwirksamkeit hin zu überprüfen und gegebenenfalls anzupassen, um die Veranstaltungen im fachdidaktischen Bereich weiter zu optimieren und damit die Qualität der Lehrkräfteausbildung zu verbessern.