Einleitung

Eine Reaktion auf das schlechte Abschneiden der deutschen Schüler*innen bei den ersten Erhebungen des Programme for International Student Assessment (PISA) war unter anderem ein neuer Modus der output-orientierten, bildungspolitischen Steuerung (Slepcevic-Zach und Tafner 2012), wodurch der Kompetenzerfassung eine besondere bildungspolitische Relevanz zukommt; „the assessment of competencies plays a key role in optimizing educational processes and improving the effectiveness of educational systems“ (Leutner et al. 2017, p. 5). Dementsprechend wurden die Konzeption von Kompetenzmodellen, die Entwicklung von Verfahren zur Kompetenzerfassung sowie die Interpretation und Anwendung von Ergebnissen der Kompetenzerfassung als zentrale Aufgaben der empirischen Bildungsforschung identifiziert (Klieme et al. 2008; Leutner et al. 2017).

Ein theoretisch fundiertes und empirisch gut untersuchtes Gebiet der Naturwissenschaftsdidaktik und ein zentrales Ziel des naturwissenschaftlichen Unterrichts ist die Entwicklung prozeduraler und epistemologischer Facetten fachmethodischer Kompetenzen (Kind und Osborne 2017; KMK 2005, 2019). Zu den fachmethodischen Kompetenzen im Bereich Erkenntnisgewinnung (KMK 2005) wird Modellkompetenz gezählt (Chiu und Lin 2019; Gilbert und Justi 2016; Nicolaou und Constantinou 2014; Nielsen und Nielsen 2019; Upmeier zu Belzen und Krüger 2010; Upmeier zu Belzen et al. 2019). Modellkompetenz kann definiert werden als „die Fähigkeiten, mit Modellen zweckbezogen Erkenntnisse gewinnen zu können und über Modelle mit Bezug auf ihren Zweck urteilen zu können, die Fähigkeiten, über den Prozess der Erkenntnisgewinnung durch Modelle und Modellierungen in der Biologie zu reflektieren sowie die Bereitschaft, diese Fähigkeiten in problemhaltigen Situationen anzuwenden“ (Upmeier zu Belzen und Krüger 2010, S. 49).

Um diese Kompetenzen zu erfassen, werden in der Naturwissenschaftsdidaktik unterschiedliche Aufgabenformate eingesetzt (z. B. single best choice, forced choice, offene Aufgaben; Grünkorn et al. 2014; Krell 2013; Terzer et al. 2013). Dabei haben offene Aufgabenformate das Potenzial, ein breiteres Spektrum an komplexen Kognitionen zu erfassen (Martinez 1999; Kuechler und Simkin 2010; Nehm et al. 2012), womit sie sich besser zur Erfassung von Kompetenzen als komplexe, kontextspezifische Dispositionen zur Problemlösung eignen (vgl. Hartig und Klieme 2006). Offene Aufgabenformate sind allerdings vergleichsweise zeitaufwendig in der Auswertung, dadurch kostenintensiv und fehleranfälliger in der Interpretation der Aussagen, insbesondere wenn subjektive Aspekte bei der Kodierung die Reliabilität und Objektivität gefährden (Yang et al. 2002). Dies kann ein Grund sein, weshalb offene Aufgabenformate seltener in Studien mit großen Stichproben und zur Individualdiagnose mit schneller Rückmeldung (z. B. im Unterricht) eingesetzt werden (Nehm und Haertig 2012).

Um größere Datenmengen schnell und zuverlässig auswerten und sie kontinuierlich zu Diagnosezwecken nutzen zu können, gibt es Bestrebungen, die Analyse von Aussagen auf Fragen im offenen Format schrittweise zu automatisieren (Liu et al. 2014; Moharreri et al. 2014; Williamson et al. 2012). Beim sogenannten maschinellen Lernen (ML) werden Algorithmen mit Hilfe von Aussagen, die von Menschen kodiert wurden, trainiert, um dann neue Aussagen durch die trainierten Algorithmen kodieren zu lassen (Mayfield und Rosé 2013; Williamson et al. 2012; Yang et al. 2002).

In einem aktuellen Review zur Forschung zu ML (Zhai et al. 2020) wird mit Blick auf nationale Standards (NGSS Lead States 2013) gefordert: „… future studies should explore using ML results to support other scientific practices such as modelling …“, und damit ML über Themengebiete wie naturwissenschaftliches Erklären (Linn et al. 2014) und Argumentieren (Zhu et al. 2017) auszuweiten. Ein in verschiedenen Studien (z. B. Göhner und Krell 2018; Krell und Krüger 2016) intensiv genutztes Instrument zur Erfassung der kognitiven Facetten von Modellkompetenz besteht aus fünf Fragen im offenen Antwortformat, die es bezogen auf fünf Teilkompetenzen (Upmeier zu Belzen und Krüger 2010) erlauben, Aussagen in drei Niveaus einzuteilen und damit das Elaborationsniveau einer antwortenden Person in Bezug auf das untersuchte Konstrukt valide einzuschätzen. In bisherigen Anwendungen umfasst die Auswertung der mit diesem Instrument gewonnenen Daten in der Regel eine unabhängige Kodierung der Aussagen durch zwei Personen sowie eine anschließende Kodierkonferenz zur Diskussion nicht übereinstimmend kodierter Aussagen (Göhner und Krell 2018; Krell und Krüger 2016). Für den Einsatz des Instruments in größeren Stichproben erscheint ML vor diesem Hintergrund als ein zeitsparendes Verfahren vielversprechend.

Ziel der vorliegenden Studie zu Kompetenzen von angehenden und praktizierenden Lehrkräften ist es, durch ML die Kodierung von Aussagen auf offene Fragen zur Modellkompetenz durch unterschiedliche Algorithmen zu evaluieren. Der Einsatz von ML in dieser Studie geht über Studien mit Schüler*innen (Zhai et al. 2020) hinaus und bezieht sich auf den Hochschulbereich (vgl. Zawacki-Richter et al. 2019). Zusätzlich werden Erfahrungen mit einer frei verfügbaren Software (LightSide; Mayfield und Rosé 2013) bereitgestellt, die für die Analyse englischer Sprache ausgelegt ist und in der naturwissenschaftsdidaktischen Forschung noch nicht mit Datensätzen in deutscher Sprache untersucht wurde. Die Validität der Interpretation von Ergebnissen mit ML wird einerseits durch die Übereinstimmung zwischen menschlicher und computerbasierter Kodierung und andererseits durch Überprüfung mit einer externen Variable evaluiert (Williamson et al. 2012; Yang et al. 2002). Konkret wird die Eignung von unterschiedlichen, trainierten Algorithmen geprüft, es werden bedeutsame Attribute für die Klassifikation in den Aussagen identifiziert und die Nützlichkeit des ML für die fachdidaktische Forschung und praktische Anwendung diskutiert.

Theoretischer Hintergrund

Modellkompetenz

Modellkompetenz ist ein in der Naturwissenschaftsdidaktik theoretisch und empirisch intensiv untersuchtes Konstrukt (Chiu und Lin 2019; Krüger et al. 2018; Nicolaou und Constantinou 2014; Nielsen und Nielsen 2019; Schwarz et al. 2012; Schwarz und White 2005). Modellbildung ist in der Biologie die Grundlage wissenschaftlichen Arbeitens (Bailer-Jones 2003; Giere et al. 2006; Odenbaugh 2005). Naturwissenschaftliche Modelle können sowohl aktuelles Wissen repräsentieren als auch hypothetisch Strukturen und Funktionszusammenhänge konstruieren und einer empirischen Überprüfung zugänglich machen (Gouvea und Passmore 2017; Reinisch und Krüger 2018). Grundsätzlich starten naturwissenschaftliche Arbeitsweisen mit dem Modellieren oder laufen auf Prozesse beim Modellieren hinaus (Lehrer und Schauble 2006; Upmeier zu Belzen et al. 2019). Als authentische Praxis in den Naturwissenschaften ist die vertiefte Reflexion über das Modellieren ein Ziel naturwissenschaftlichen Unterrichts (KMK 2019; NGSS Lead States 2013; Upmeier zu Belzen und Krüger 2019a, 2019b). Nach einem etablierten Strukturmodell können fünf Teilkompetenzen der Modellkompetenz unterschieden werden (Tab. 1), die jeweils in drei Niveaus mit ansteigender Komplexität differenziert sind (Krüger et al. 2018). Die fünf Teilkompetenzen beziehen sich auf kognitive Wissensfacetten, die ein Denken über Modelle und das Modellieren berücksichtigen (Upmeier zu Belzen und Krüger 2010): Dazu gehört ein Nachdenken über die ontologische Frage nach der Ähnlichkeit des Modells zu dem naturwissenschaftlichen Phänomen, das es repräsentieren soll (Eigenschaften von Modellen; EvM) und ein Verständnis dazu, dass und vor allem aus welchen theoretischen Erwägungen heraus es verschiedene Modelle zu einem naturwissenschaftlichen Phänomen geben kann (Alternative Modelle; AM). Elementar und handlungsleitend für die Reflexion über die Nutzung von Modellen ist es, den Nutzen von Modellen über die Repräsentation von Phänomenen hinaus auch als Forschungswerkzeug zu erkennen (Zweck von Modellen; ZvM), entsprechende Maßnahmen zur Überprüfung des Modells umsetzen zu können (Testen von Modellen; TvM) und nötigenfalls das Modell zu überarbeiten (Ändern von Modellen; ÄvM). Diese im Strukturmodell beschriebenen Teilkompetenzen entsprechen in weiten Teilen den auch in anderen naturwissenschaftsdidaktischen Arbeiten berücksichtigten Dimensionen (z. B. Crawford und Cullin 2005; Grosslight et al. 1991; Schwarz und White 2005; vgl. Krell et al. 2015).

Die einzelnen Teilkompetenzen in den verschiedenen Niveauausprägungen sind Tab. 1 zu entnehmen. Während die Niveaus I und II die Nutzung von Modellen im Sinne von Repräsentationen beschreiben, beschreibt das Niveau III die Nutzung dieser im Sinne von Forschungswerkzeugen.

Tab. 1 Kompetenzmodell der Modellkompetenz. (Krell et al. 2016)

Zur Modellkompetenz stehen umfangreiche durch Expert*innen kodierte Datensätze aus aktuellen Forschungsprojekten bereit, welche für die Evaluation von Kodierungen durch ML genutzt werden können (z. B. Göhner und Krell 2018; Günther et al. 2019; Krell und Krüger 2016). Mit den Daten wird die kognitive Facette von Modellkompetenz, also ein Denken über Modelle, und keine Tätigkeiten beim Modellieren erfasst (vgl. Göhner und Krell 2018). Das Denken über Modelle wird als zentrale Dimension von Modellkompetenz und Voraussetzung für erfolgreiche Problemlösungen in realen Situationen beim Modellieren betrachtet (Schwarz und White 2005).

Modellkompetenz im Biologieunterricht erfassen

Zur Erfassung von Modellkompetenz wurden unterschiedliche Instrumente entwickelt (vgl. Mathesius und Krell 2019; Nicolaou und Constantinou 2014). Diese können bezüglich der genutzten Aufgabenformate unterschieden werden. Etablierte Aufgabenformate zur Erfassung von Modellkompetenz im deutschsprachigen Raum sind unter anderem single best choice-Aufgaben (Terzer et al. 2013), forced choice-Aufgaben (Gogolin und Krüger 2018; Krell 2013) sowie Aufgaben im offenen Format (Grünkorn et al. 2014).

Der Vorteil geschlossener Aufgabenformate (z. B. single best choice; forced choice) liegt in der zeiteffizienten Auswertung, während offene Aufgabenformate die Erfassung eines breiteren Spektrums an Kognitionen erlauben, aber in der Regel mit einem erhöhten Aufwand in der Auswertung einhergehen (Martinez 1999; Neuhaus und Braun 2007). Gleichzeitig transportieren geschlossene und offene Aufgabenformate spezifische, oftmals konstrukt-irrelevante Anforderungen (z. B. sprachliche Fähigkeiten, spezifische Auswahlstrategien; Martinez 1999; Prenzel et al. 2002; Thoma und Köller 2018). Vor dem Hintergrund der Definition von Kompetenzen als komplexe, kontextspezifische Dispositionen zur Problemlösung (Hartig und Klieme 2006) liegt das Potenzial offener Aufgaben zum Beispiel in der Fähigkeit, divergentes Denkens zu erfassen (z. B. die Fähigkeit, Hypothesen zu generieren; Martinez 1999). Abb. 1 illustriert das grundsätzliche Potenzial offener Aufgabenformate, ein breites Spektrum auch komplexerer Kognitionen zu erfassen. Da Modellkompetenz bisher in der fachdidaktischen Forschung vorwiegend mit geschlossenen Formaten erfasst wird (Mathesius und Krell 2019; Nicolaou und Constantinou 2014), eröffnen Verfahren des ML die Option, auch Antworten auf Fragen im offenen Format zeiteffizient auszuwerten (Lee et al. 2019; Liu et al. 2014; Moharreri et al. 2014).

Abb. 1
figure 1

Illustration des Potenzials von Aufgaben in verschiedenen Formaten zur Erfassung unterschiedlicher Kognitionen. (Verändert nach Martinez 1999)

Verfahren des maschinellen Lernens

Grundsätzlich lassen sich drei Arten des ML unterscheiden: überwachtes, bestärkendes und unüberwachtes ML (Buxmann und Schmidt 2018; Russel und Novig 2010). Bei dem hier realisierten überwachten Verfahren nehmen die Algorithmen beim ML auf der Grundlage der Häufigkeit und Verteilung von Attributen (d. h. Worten und Buchstaben in den Dokumenten) in Aussagen Gewichtungen für die einzelnen Attribute vor, um damit einer vorgegebenen menschlichen Kodierung möglichst nahe zu kommen (Trainingsprozess). Diese Gewichtungen, das heißt Zahlenwerte, die die Bedeutung des Attributs für die Klassifikation angeben, werden anschließend genutzt, um eine Klassifikation von neuen Aussagen ohne vorgegebene menschliche Kodierung zu ermöglichen. Dies ist einerseits vom unüberwachten Verfahren zu unterscheiden, bei dem Muster in Daten, zum Beispiel Bildern, gesucht werden und in Kategorien ohne menschliche Vorgabe sortiert werden, und andererseits von bestärkenden Verfahren zu differenzieren, die zum Beispiel in Brettspielen wie Go und Schach umgesetzt werden können, bei denen eine zielerreichende Strategie gelernt werden soll und die Umorganisation der Bewertungen autonom ohne menschliches Zutun erfolgt (Buxmann und Schmidt 2018). Ein solcher selbstlernender Optimierungsprozess kann in diesem Projekt nicht realisiert werden, weil die Zielvorgabe (Niveau einer Aussage) nur durch die menschliche Kodierung bereitgestellt werden kann.

Wegen der hier verwendeten nominalen Daten (Wörter- und Buchstabenfolgen) und wegen der Einteilung in drei Niveaus werden Klassifikationstechniken verwendet, die diskrete Ausgänge voraussagen und in Kategorien einstufen. Für (überwachtes) ML wurden in der fachdidaktischen Forschung bereits unterschiedliche Algorithmen erfolgreich zur Kodierung von Aussagen genutzt (Moharreri et al. 2014; Zawacki-Richter et al. 2019; Zhai et al. 2020). Dazu gehören naïve Bayes (NBayes), logistic regression (LogReg; logistische Regression), support vector machines (SVM; Stützvektormethode) und decision trees (DTrees; Entscheidungsbäume; Abikoye et al. 2018; Mayfield und Rosé 2013). Diese Algorithmen unterscheiden sich in der Art des Umgangs mit den zur Verfügung stehenden Attributen, also Wort- oder Buchstabenfolgen und/oder deren Häufigkeiten, die für die Kodierung der Aussagen genutzt werden. Während beim NBayes jedes Attribut Bedeutung hat und keine Abhängigkeit zwischen den Attributen angenommen wird, wird bei LogReg der kleinstmögliche Merkmalsraum genutzt. SVM ist für dichotome ja/nein-Entscheidungen optimiert und DTrees variieren zwischen den Gewichtungen der Attribute (Witten et al. 2011). Weitergehende Erläuterungen zu den vier Algorithmen finden sich im Anhang.

Die Kodierung von Antworten zu Fragen im offenen Format mit Hilfe der genannten Algorithmen ist ein zweischrittiger Prozess: Im Training (Lernen) gewichten die Algorithmen zunächst die für die Kodierung relevanten Attribute auf der Basis einer zur Verfügung gestellten menschlichen Kodierung. In der Klassifikation (Voraussagen) wird anschließend auf der Basis dieser Gewichtungen eine computerbasierte Kodierung an einem neuen Datensatz ohne Berücksichtigung menschlicher Kodierung vorgenommen (Mayfield und Rosé 2013).

Stand der Forschung zu maschinellem Lernen in der Naturwissenschaftsdidaktik

In einem aktuellen Review zu ML in der Naturwissenschaftsdidaktik (Zhai et al. 2020) wird der Stand der Forschung unter Berücksichtigung von 49 Studien mit Schüler*innen analysiert. Das Review von Zawacki-Richter et al. (2019) gibt einen Überblick über den Hochschulbereich. Beide Reviews weisen Studien aus, in denen überwiegend mit überwachtem ML große Datensätze offen formulierter Antworten aus Erhebungen ausgewertet werden oder andererseits ML angewendet wird, um in Vermittlungssituationen Lernenden unmittelbar Rückmeldung zu ihren Antworten zu geben. In beiden Fällen befreit ML (Lehr‑)Personen von zeitaufwendigen oder nicht individuell zu leistenden Aufgaben. Für den Hochschulbereich wird ein breites Spektrum an Anwendungen von ML zur Unterstützung von Student*innen (z. B. Erreichen von Studienzielen), der Lehre (z. B. Erfassung von Kenntnissen) und der Verwaltung (z. B. Auswahl von Studierenden für Studiengänge; Zawacki-Richter et al. 2019) beschrieben. In den berücksichtigten Studien werden unterschiedliche Algorithmen eingesetzt, wobei die Auswahl eines Algorithmus ein iterativer Prozess ist, in dem zunächst die Performanz unterschiedlicher Algorithmen exploriert und dann derjenige, der für den gegebenen Anwendungskontext am besten geeignet ist, ausgewählt wird. Zu den am meisten genutzten Algorithmen gehören diejenigen, die in dieser Studie eingesetzt werden: NBayes, LogReg, SVM und DTrees (Zhai et al. 2020). Desiderate bezüglich des Einsatzes von ML sind die Entwicklung neuer Aufgabenformate auf der Basis der vorliegenden Erfahrungen mit ML und die Ausweitung der Forschung zur Eignung von ML auf weitere relevante Zielkonstrukte naturwissenschaftlicher Bildung (u. a. Modellkompetenz). Dabei ist es anzustreben, (i) auf der Basis gut trainierter Algorithmen Bewertungen vorzunehmen, (ii) unmittelbares Feedback zu ermöglichen sowie (iii) neue Möglichkeiten zu entwickeln, Aufgaben zur Überprüfung von Kompetenz zielführender zu entwickeln (Zhai et al. 2020).

Studien mit ML in der Naturwissenschaftsdidaktik untersuchen den Inhalt (z. B. Nehm et al. 2012) oder die Qualität in Texten (z. B. Bridgeman et al. 2012). Dies geschieht, indem durch ML unmittelbares Feedback zu Texten, die von Lernenden verfasst wurden, in den Themengebieten Photosynthese oder Mitose gegeben wird (Linn et al. 2014). Andere Studien mit ML von Interviewdaten oder schriftlichen Antworten auf offene Fragestellungen befassen sich mit dem naturwissenschaftlichen Erklären (Linn et al. 2014) und Argumentieren (Zhu et al. 2017). Diese Bereiche sind theoretisch gut fundiert und es liegen Sammlungen von Begründungen oder Erklärungen in längeren mündlichen oder schriftlichen Ausführungen vor (Lee et al. 2019); zum Beispiel im Inhaltsbereich Jahreszeiten, hier auch unter dem Blick auf Schülervorstellungen (Dam und Kaufmann 2008). In Liu et al. (2016) werden elf Studien mit ML zitiert. Darunter befinden sich auch die Arbeiten unter Beteiligung von Nehm und Kolleg*innen, bei denen es um Argumentationsstrukturen von Schüler*innen zur Evolution und zur natürlichen Selektion geht (Nehm et al. 2012; Ha et al. 2011; Nehm und Haertig 2012; Moharreri et al. 2014; Beggrow et al. 2014). Aktueller liegen Arbeiten mit unmittelbarem Feedback zum Argumentieren im Bereich Ökologie und Nachhaltigkeit mit verschiedenen Aufgabeninhalten vor (Lee et al. 2019). Hier erweisen sich trotz sehr guter computerbasierter Kodierung insbesondere falsch positive Rückmeldungen als problematisch, weil sie den Lernvorgang behindern. Abhängig davon, wie frei ML eingesetzt wird, unterscheiden Williamson et al. (2012) unterschiedliche Einsatzmöglichkeiten computerbasierter Kodierung, zum Beispiel die computerbasierte Kodierung im Sinne einer Zweitkodierung (automated quality control of human scoring) oder die alleinige computerbasierte Kodierung (automated scoring alone). Je freier die Ergebnisse der computerbasierten Kodierung genutzt werden sollen, desto wichtiger ist es, deren Güte systematisch zu evaluieren.

Überprüfung der Güte des maschinellen Lernens

Verfolgt man langfristig das Ziel, Daten durch ML ohne weitere menschliche Kontrolle analysieren zu lassen, muss Evidenz für die Güte des ML im vorgesehenen Anwendungskontext vorliegen. Ein etabliertes Vorgehen zur Überprüfung der Güte der Kodierung durch ML besteht in der Überprüfung der Übereinstimmung zwischen menschlicher und computerbasierter Kodierung sowohl im Trainingsprozess als auch bei der Klassifikation neuer Daten (Williamson et al. 2012; Yang et al. 2002). Hierfür muss zunächst die Güte der menschlichen Kodierung geprüft werden (Williamson et al. 2012). Anschließend kann die Übereinstimmung zwischen menschlicher und computerbasierter Kodierung mittels prozentualer Übereinstimmung oder Cohens Kappa (K) (um zufällige Übereinstimmung zu berücksichtigen) evaluiert werden, wobei Werte von K > 0,60 (Wirtz und Caspar 2002) oder K > 0,70 (Williamson et al. 2012) als Maß für eine gute Übereinstimmung betrachtet werden. Zusätzlich können die von dem bei ML zur Kodierung jeweils eingesetzten Algorithmus stark gewichteten Attribute mit dem intendierten Konstrukt (z. B. dem Kodierleitfaden) verglichen werden, um auf diese Weise den automatisierten Auswertungsprozess inhaltlich zu prüfen (Williamson et al. 2012; Yang et al. 2002). Über Korrelationsanalysen lässt sich darüber hinaus ermitteln, ob die Kodierung durch die Algorithmen stärker durch die Antwortlänge beeinflusst wird als die menschliche Kodierung, was als Mangel für Validität betrachtet wird (Mao et al. 2018).

Zielsetzung und Fragestellungen

Trotz der hervorgehobenen Relevanz der Entwicklung von Modellkompetenz als Ziel naturwissenschaftlichen Unterrichts und der bereits langen Tradition zum Erfassen von Wissen und Fähigkeiten zu Modellen und dem Modellieren in der fachdidaktischen Forschung (z. B. Grosslight et al. 1991) werden für letzteres auf Kosten der Möglichkeit, ein breiteres Spektrum an Kognitionen zu erfassen, überwiegend geschlossene Antwortformate eingesetzt (Nicolaou und Constantinou 2014). Vor dem beschriebenen Hintergrund ist das Ziel der vorliegenden Studie, die Güte des ML für die Auswertung von Aussagen auf offene Fragen zur Modellkompetenz zu evaluieren (Williamson et al. 2012). Hierzu wird die Übereinstimmung zwischen menschlicher und computerbasierter Kodierung sowie der Prozess der automatisierten Kodierung untersucht (Yang et al. 2002). Gleichzeitig soll geprüft werden, inwiefern die Ergebnisse Rückschlüsse auf die Eignung des ML in der fachdidaktischen Forschung und Praxis zulassen (Williamson et al. 2012). Die ersten beiden Forschungsfragen untersuchen die Qualität des ML in Bezug auf normative Setzungen (Wirtz und Caspar 2002; Williamson et al. 2012) mit den eingesetzten Algorithmen (F1; Zhai et al. 2020) und auf die Datensätze zu den fünf Teilkompetenzen der Modellkompetenz (F2; Krüger et al. 2018).

F1

Inwiefern unterscheidet sich menschliche und computerbasierte Kodierung von Aussagen zur Modellkompetenz in Abhängigkeit von den vier Algorithmen NBayes, LogReg, SVM und DTrees?

F2

Inwiefern unterscheidet sich menschliche und computerbasierte Kodierung von Aussagen zur Modellkompetenz in Abhängigkeit von den fünf Teilkompetenzen der Modellkompetenz (Tab. 1)?


Eine hohe Übereinstimmung der durch die Algorithmen besonders stark gewichteten Attribute mit den Ausführungen im Kodierleitfaden (F3) wird als Evidenz für eine valide Interpretation der durch die Algorithmen vorgenommenen Kodierung betrachtet (Williamson et al. 2012). Ferner liefern Korrelationsanalysen zwischen den durch die Algorithmen kodierten Niveaus mit der externen Variable „Antwortlänge“ (F4) Hinweise darauf, inwieweit die Algorithmen von einem Oberflächenmerkmal beeinflusst werden (Mao et al. 2018).

F3

Inwiefern besteht eine Übereinstimmung zwischen besonders relevanten Attributen für das ML mit Aussagen zur Modellkompetenz und Schlüsselwörtern im zugrundeliegenden Kodierleitfaden (Krell und Krüger 2016; Tab. 1)?

F4

Inwiefern unterscheiden sich die Korrelationen zwischen kodierten Niveaus und Antwortlänge bei menschlicher und computerbasierter Kodierung?


Die abschließende Frage (F5) geht dem Untersuchungsinteresse nach, mit welcher Unsicherheit beziehungsweise welchem Nutzen das ML beim Einsatz in einer Zweitkodierung verbunden ist (Williamson et al. 2012).

F5

Zu welchen Fehlern (und Zeitersparnissen) führt die Nutzung von ML mit Aussagen zur Modellkompetenz beim Einsatz für Zweitkodierungen?

Methoden

Datenerhebung

Es wurde je eine offene Frage zu jeder der fünf Teilkompetenzen der Modellkompetenz eingesetzt (Krell und Krüger 2016). Die Daten stammen teilweise aus bereits durchgeführten Projekten (Göhner und Krell 2018; Günther et al. 2019; Krell und Krüger 2016). Zusätzlich wurden für die vorliegende Studie Bachelor- und Masterstudierende des Lehramts (mit Fach Biologie) sowie Fachdidaktiker*innen mit Expertise im Bereich Modellkompetenz befragt. Letztere wurden als Expert*innen explizit dazu aufgefordert, idealtypische Aussagen für alle drei Niveaus jeder Teilkompetenz zu formulieren.

Stichprobe, Design und Statistik

Für das Training der Algorithmen wurden Aussagen von Biologielehrkräften (n = 148), Biologie-Lehramtsstudierenden (n = 217) und Fachdidaktiker*innen (n = 91) genutzt (N = 456). Für die Klassifikation wurden 260 Biologie-Lehramtsstudierende befragt. Neu hinzugekommene Datensätze wurden von den Autoren dieses Beitrags vollständig und unabhängig voneinander mit Hilfe eines bestehenden Kodierleitfadens (Krell und Krüger 2016) mit guter bis sehr guter Beurteilerübereinstimmung kodiert (Cohens K; Tab. 2); bei Daten aus bereits durchgeführten Projekten wurde die bestehende Kodierung übernommen. Die Gleichverteilung der Antworten über die drei Niveaus zwischen Trainings- und Klassifikationssatz wurde mit dem X2-Test untersucht (Döring und Bortz 2016). Die Klassifikationssätze weichen auf dem 1 %-Signifikanzniveau in der Verteilung auf die drei Kompetenzniveaus nicht von den Verteilungen der Trainingssätze ab (Tab. 2).

Tab. 2 Trainings-(Lernen) und Klassifikations-(Voraussagen) Datensätze: Häufigkeit von Aussagen in den Niveaus I, II, III (menschliche Kodierung; Cohens K berechnet mit 50 % der Klassifikationsdaten)

Maschinelles Lernen mit LightSide

Für ML wurde die Software LightSide eingesetzt (Mayfield und Rosé 2013). Die Aussagen der Proband*innen wurden zur Eingabe in die Software, die für englische Buchstabenerkennung entwickelt wurde, wie folgt überarbeitet: Großbuchstaben wurden in Kleinbuchstaben umgewandelt, Satzzeichen wurden entfernt, ß wurde in ss und Umlaute (ä, ö, ü) in Doppelvokale (ae, oe und ue) umgeschrieben.

Es wurden die vier Algorithmen NBayes, LogReg, SVM und DTrees in LightSide eingesetzt (Mayfield und Rosé 2013; Zhai et al. 2020). Beim Trainingsprozess wurden folgende allgemeine Einstellungen vorgenommen, um die Attribute zu erhalten: Kombinationen aus einem Wort und bis zu drei in Folge auftretende Worte (basic features; uni-, bi-, trigrams) und Buchstabenfolgen aus drei bis vier Buchstaben inklusive einer Lücke zwischen Worten (character n-grams). Eine Reduktion der ausgewählten Attribute, die sich durch Konjugation oder Deklinationen unterscheiden, lässt die für englische Sprache konstruierte Software nicht automatisch zu. Bei den Modellrechnungen mit den Algorithmen wurden alle Prozessdurchläufe manuell eingestellt und in Gruppen von zehn zufällig ausgewählten Aussagen durchgeführt (z. B.: Eigenschaften von Modellen: 52 Trainingsdurchläufe). Zur Optimierung der Prozesse wurden die Standardeinstellungen im Programm genutzt (LogReg: L2 regularization; SVM: normalize und LibLINEAR zur Vermeidung von Overfitting (irrelevante Attribute werden beibehalten) beim Reduktionsprozess der Attribute; DTrees: prune tree und minimal zwei Objekte in den Ästen zum Beschneiden des Baumes und Reduzierung der Komplexität). Tab. 3 gibt die Anzahl der von den Algorithmen genutzten Attribute in beiden Datensätzen an.

Tab. 3 Übereinstimmung (in % und Cohens K) beim Training (Lernen) und Klassifizieren (Voraussagen) in den fünf Teilkompetenzen und mit vier Algorithmen

Evidenz für Validität

Für eine valide Interpretation der durch die Algorithmen vorgenommenen Kodierungen werden verschiedene Evidenzquellen evaluiert (AERA et al. 2014). Als Voraussetzung wird die Reliabilität durch die Übereinstimmung mit der menschlichen Kodierung (prozentuale Übereinstimmung, Cohens K) geprüft. Zur Prüfung von Validität wird die vergleichende Betrachtung der Beziehung zu anderen Variablen (hier: Antwortlänge) sowie der Testinhalt durch den Abgleich gewichteter Attribute mit dem Kodierleitfaden herangezogen. Auch die inhaltliche Analyse von Fehlkodierungen durch die Algorithmen trägt dazu bei, die Kodierung zu verstehen und im folgenden Schritt zu optimieren.

Jeder Algorithmus wurde in Abhängigkeit von der Gesamtzahl N an Aussagen je Teilkompetenz (Tab. 2) mit zufälliger Fallauswahl trainiert (1-1/N) % und jeweils gegenüber den nicht eingesetzten Aussagen getestet (1/N) %. Nach N Durchläufen wurde die prozentuale Übereinstimmung und Cohens K in diesem Trainingsprozess bestimmt. Der Klassifikationsprozess wurde mit einem Datensatz durchgeführt, der nicht im Trainingsprozess genutzt wurde (Tab. 2).

Als Beziehung zu anderen Variablen wurde die inhaltlich irrelevante Länge der Antworten herangezogen. Evidenz für Validität liegt vor, wenn die Korrelationen zwischen kodierten Niveaus und Antwortlänge bei computerbasierter Kodierung nicht höher ausfällt als bei menschlicher Kodierung.

Ergebnisse

Überprüfung der Übereinstimmung zwischen menschlicher und computerbasierter Kodierung

Die folgenden Ergebnisse beziehen sich auf den Einsatz der vier beschriebenen Algorithmen, weitere 39 Algorithmen, die in LightSide zur Verfügung stehen, erzielten in keinem Fall bessere Übereinstimmungswerte. Die Übereinstimmung zwischen menschlicher und computerbasierter Kodierung für die vier Algorithmen ist in Tab. 3 separat für die fünf Teilkompetenzen der Modellkompetenz dargestellt. Das Spektrum der Übereinstimmung beim Training rangiert zwischen 73–93 %, Cohens K zwischen 0,36 ≤ K ≤ 0,87. Es gelingt mit den zur Verfügung stehenden Daten, bei allen Teilkompetenzen einen Algorithmus zu finden, der mit gutem Cohens K (K > 0,60; Wirtz und Caspar 2002) trainiert werden kann. Für jede Teilkompetenz konnte mit SVM am besten trainiert werden und kaum schlechter mit LogReg. NBayes schneidet in allen Teilkompetenzen bis auf Testen von Modellen am wenigsten zuverlässig ab (Tab. 3).

Bei der Klassifikation sinkt Cohens K auf akzeptable bis gute Werte (0,44 ≤ K ≤ 0,72). Dabei ist in drei Fällen (Tab. 3: EvM, ZvM, TvM) der am besten trainierte Algorithmus nicht derjenige, der am besten klassifiziert. Während ÄvM mit guten Werten klassifiziert wird, gelingt bei EvM das Training und die Klassifikation weniger gut. Es besteht ein negativer Zusammenhang zwischen der Anzahl eingesetzter Attribute in den Teilkompetenzen und Cohens K beim Training (Tab. 3): Je mehr Attribute die Antworten einer Teilkompetenz bereitstellen, umso schlechter lässt sich jeder Algorithmus trainieren (−0,89 ≤ r ≤ −0,49; Pearson Korrelation). Die Qualität der computerbasierten Kodierung je Teilkompetenz wird dabei maßgeblich negativ durch lange durchschnittliche Antworten und eine hohe Anzahl verschiedener Wörter beeinflusst (vgl. EvM und AM mit ZvM, TvM und ÄvM; Tab. 2 und 3).

Die Darstellung des jeweils kodierten Niveaus über alle Aussagen lässt sich als „Schwierigkeit“ der Aufgaben bei der Klassifikation durch den Menschen und durch die vier Algorithmen interpretieren (Abb. 2). Schwierigkeit einer Aufgabe bedeutet hier, dass weniger (schwierig) oder mehr (leicht) Kodierungen in höheren Niveaus vorliegen. Im Vergleich zwischen menschlicher und computerbasierter Kodierung unterschätzen die Algorithmen tendenziell das Niveau der Aussagen mit maximal kleinem Effekt (Cohens d < 0,22), kodieren also seltener ein hohes Niveau (Abb. 2). Davon ist besonders oft die Kodierung von SVM und LogReg (Ausnahme: TvM) betroffen, während NBayes tendenziell überschätzt (Ausnahme: EvM).

Abb. 2
figure 2

Vergleich der Kodierungen von Mensch und Algorithmen bei der Klassifikation

Inhaltliche Prüfung des maschinellen Lernens

Tab. 4 zeigt besonders gewichtete Wörter, die beim Trainingsprozess von den Algorithmen zur Zuordnung zu einem Niveau genutzt werden. Die Begriffe decken sich weitgehend mit der theoretischen Grundlage (Tab. 1) und auch mit den Kodierhinweisen und Schlüsselwörtern im Kodierleitfaden. Einzelne Begriffe (Artikel, Personalpronomen, Konjunktionen) zeigen keine solche Übereinstimmung mit den theoretischen Grundlagen (kursiv gesetzte Begriffe; Tab. 4). Die Analyse einer nicht direkt verständlichen positiven Gewichtung eines Wortes oder von Buchstabenfolgen erklärt sich in einigen Fällen durch die Betrachtung der entsprechenden vollständigen Aussagen.

Tab. 4 Bis zu zehn positiv wichtige Wörter (sofern vom Algorithmus angegeben) im besten Algorithmus je Teilkompetenz für eine Zuordnung zu einem Niveau

In den Kreuztabellen aus menschlicher und computerbasierter Kodierung erkennt man beim Training und der Klassifikation Fehlkodierungen (Tab. 5). Die Analyse der Unter- und Überschätzungen in der computerbasierten Kodierung gibt Aufschluss über die Fehleranfälligkeit. In den folgenden Beispielen sind relevante Begriffe für das kodierte Niveau kursiv markiert: Die Niveau I-Aussage „bei der Bildung von Modellen kann es notwendig sein unterschiedliche Materialien zu verwenden, auch wenn die Hypothese identisch bleibt“ wird durch SVM in Niveau III kodiert (Tab. 5a; Kodierung Mensch I/SVM III). Die folgenden Aussagen kodiert SVM in Niveau I statt Niveau III: „ein Modell kann verändert werden, wenn es seinen Zweck nicht erfüllt und vom Modell abgeleitete Vorhersagen falsch sind“ (Tab. 5a; III/I); „ein Modell muss verändert werden, wenn die gemachten Aussagen nicht beobachtbar oder falsch sind, ein Modell muss auch verändert werden, wenn falsche Annahmen gemacht worden sind“ (Tab. 5b, III/I) und „Erklärung, Theorie des Phänomens ist falsch, Experiment widerspricht massiv dem Modell, Modell wird durch ein weiteres Modell erweitert“ (Tab. 5b; III/I).

Tab. 5 Vergleich der Niveauzuordnungen I, II und III von menschlicher und SVM-Kodierung beim Training (a) und der Klassifikation (b) für die Teilkompetenz Ändern von Modellen

Überprüfung mit der externen Variable „Antwortlänge“

Die Korrelation zwischen dem Niveau der Kodierung und der Antwortlänge liegt bei LogReg, SVM und DTrees zwischen 0,05 < r < 0,33 und ist damit niedrig bis mittel (Döring und Bortz 2016; Tab. 6). Demgegenüber korreliert das kodierte Niveau bei NBayes mit einer Ausnahme (Training TvM) signifikant positiv mit der Antwortlänge und fällt signifikant höher aus als bei menschlicher Kodierung (kleine bis große Effekte; Döring und Bortz 2016; Tab. 6).

Tab. 6 Korrelationen zwischen dem Niveau der Kodierung beim Training und der Klassifikation mit der Antwortlänge. Signifikanztest für Vergleich der Korrelationen der Algorithmen vs. Mensch. (Nach Eid et al. 2011, S. 548 f)

Überprüfung der Eignung zur Zweitkodierung

Tab. 7 illustriert die potenzielle Nützlichkeit des ML für eine Zweitkodierung. Für diejenigen Aussagen, in denen sich die computerbasierte von der menschlichen Kodierung unterscheidet (ML ≠ Mensch), wäre eine wiederholte Prüfung nötig, was in annähernd 32 % der Fälle (ML fehlerhaft) keine Veränderung des menschlichen Urteils ergeben hätte. In 5 % dieser Fälle hätte durch ML eine menschliche Fehlkodierung revidiert und optimiert werden können. Für insgesamt circa 63 % der Aussagen (ML = Mensch) hätte eine zweite menschliche Kodierung eingespart werden können, wobei dabei in circa 3 % der Fälle ein menschlicher Fehler unentdeckt geblieben wäre (Tab. 7).

Tab. 7 Vergleich des menschlichen und maschinellen Lernens (ML) für eine Zweitkodierung (Angaben in %)

Diskussion

Das Ziel der vorliegenden Studie bestand in der Evaluation der Güte des ML für die Auswertung von Aussagen auf offene Fragen zur Modellkompetenz (Williamson et al. 2012). Hierzu wurde die Übereinstimmung zwischen menschlicher und computerbasierter Kodierung sowie der Prozess des ML untersucht (Yang et al. 2002). Diese Evaluation liefert Hinweise dazu, inwiefern bestimmte Algorithmen für Teilkompetenzen der Modellkompetenz bereits zur Zweitkodierung oder zum unmittelbaren Feedback in Vermittlungssituationen (Williamson et al. 2012; Zhai et al. 2020) geeignet sind. Damit trägt diese Studie dazu bei, dem von Zhai et al. (2020) identifizierten Desiderat zu begegnen und ein wichtiges Zielkonstrukt naturwissenschaftlicher Bildung, Modellkompetenz, der computerbasierten Kodierung durch ML zugänglich zu machen. Im Folgenden werden zunächst methodische Aspekte und Limitationen angemerkt und anschließend die formulierten Forschungsfragen auf Basis der Ergebnisse diskutiert.

Methodische Aspekte

Grundsätzlich muss angemerkt werden, dass es deutlich mehr als die vier eingesetzten Algorithmen gibt (Mayfield und Rosé 2013). Unter den in LightSide angebotenen 39 weiteren Algorithmen konnte keiner gefunden werden, der erfolgreicher als die hier besprochenen vier trainiert werden konnte.

Im Datensatz wurden Rechtschreibfehler korrigiert (vgl. Ha et al. 2011). Darüber hinaus wurde keine Korrektur vorgenommen, das heißt es wurden keine Wörter (z. B. solche ohne nachvollziehbare Bedeutung) aus dem Datensatz entfernt. Grundsätzlich kann das Streichen bedeutungsloser Wörter den Trainingsprozess optimieren (Mayfield und Rosé 2013). Auf eine solche Prozedur wurde verzichtet, weil für LightSide kein automatisierter und objektiver Prozess in deutscher Sprache vorlag, der zum Beispiel konjugierte Verben und deklinierte Wortarten als ein Attribut berücksichtigen konnte oder Artikel entfernt. Sollten die Trainingsdaten allerdings für den Einsatz im Unterricht oder zur Beantwortung weitergehender Forschungsfragen eingesetzt werden, empfiehlt es sich, solch eine Überarbeitung von Datensätzen vorzunehmen (Ha et al. 2011).

In dieser Studie wurde Cohens K und der von Wirtz und Caspar (2002) beziehungsweise Williamson et al. (2012) vorgeschlagene Grenzwert für eine gute Beurteilerübereinstimmung genutzt. Alternativ dazu wird vorgeschlagen, die Übereinstimmung zwischen menschlicher und computerbasierter Kodierung mit Hilfe des quadrierten gewichteten Kappas zu prüfen (Liu et al. 2016; Mao et al. 2018; Williamson et al. 2012). Davon wurde bei den hier vorliegenden drei ordinalen Niveaus, deren Distanz sich nicht metrisch ausdrücken lässt, abgesehen. Es gibt keinen theoretisch überzeugenden Grund, eine abweichende Kodierung einer Aussage in Niveau I und III stärker zu gewichten als Kodierungsdifferenzen zwischen den Niveaus I und II beziehungsweise II und III.

Die Verteilung aller Datensätze in den Niveaus zur Klassifikation unterschied sich nicht signifikant von den Verteilungen im Training (Tab. 2). Damit sind die Werte für Cohens K nicht durch Über- oder Unterrepräsentation einzelner Niveaus beeinflusst, die der Algorithmus gegebenenfalls schlechter oder besser klassifizieren kann. Dennoch, bei der Klassifikation wurden nur Biologie-Lehramtsstudierende befragt, also eine Teilpopulation der Befragten im Training. Es ist nicht auszuschließen, dass trotz vergleichbar akademisch und didaktisch geprägter Sprache aller beteiligten Personen die Auswertung davon beeinflusst ist.

Schließlich ist der Datensatz zum Training mit 356–632 Aussagen zum Beispiel verglichen mit der Studie von Ha et al. (2011) mit bis zu 1056 Kurzantworten eher klein. Allerdings konnte bei Ha et al. (2011) durch eine Verdoppelung von 500 auf gut 1000 Aussagen nur eine geringe Verbesserung der Güte des ML erzielt werden. Aus unseren Ergebnisse wird deutlich, dass kurze Antworten mit einer kleinen Anzahl verschiedener Wörter (ZvM, TvM, ÄvM; Tab. 2 und 3) bessere Werte für Cohens K beim Training und der Klassifikation erzielen als lange Antworten mit einer großen Anzahl verschiedener Wörter (EvM, AM; Tab. 2 und 3). Offensichtlich ist in der Diversität möglicher Antworten noch keine Sättigung erreicht. Werden zufällig nur vereinzelt in einer Antwort zu einem Niveau auftretende Attribute stark gewichtet, führt die Nutzung dieser Attribute in anderen Niveaus zu Fehlkodierungen. Das wird für die Algorithmen zusätzlich durch die Art der menschlichen Kodierung erschwert, in der nur das höchste Niveau, das in einer Aussage angesprochen wird, kodiert wird (Krell und Krüger 2016). Es ist demnach möglich, dass eine Antwort Aussagen zu allen Niveaus enthält. Es ist zu prüfen, ob die Erhöhung der Antworten zu einer größeren Übereinstimmung zwischen menschlicher und computerbasierter Kodierung führt. Eine bloße Erweiterung des Aussagenpools führt jedenfalls nicht automatisch zu besserem Training oder erfolgreicherer Klassifikation (Williamson et al. 2012; Yang et al. 2002). So verbesserte zum Beispiel das Hinzufügen der Klassifikationsaussagen zu den Trainingsaussagen die Trainingssätze nicht in der gewünschten Weise.

Übereinstimmung zwischen menschlicher und computerbasierter Kodierung (F1, F2)

Beim Training gelingt es immer einen der vier eingesetzten Algorithmen zu finden, dessen Cohens K die mindestens geforderte Übereinstimmung (K = 0,60; Wirtz und Caspar 2002) zwischen menschlicher und computerbasierter Kodierung erreicht. Die gewünschte Qualität von K > 0,70 (Williamson et al. 2012) wurde im Training für vier der fünf Teilkompetenzen erreicht (Tab. 3). Für die Klassifikation ist dieser Wert nur in der Teilkompetenz ÄvM erreicht, für ZvM noch für K > 0,60 (Tab. 3). Dabei ist der beste Trainings-Algorithmus immer SVM. Dennoch produziert SVM nur in den Teilkompetenzen AM und ÄvM die besten Klassifikations-Ergebnisse, sonst gelingt es mit DTrees und LogReg besser zu klassifizieren. Es ist somit kein Automatismus, dass gutes Training in guter Klassifikation mündet (Ha et al. 2011).

Es wird deutlich, dass die Wahl des genutzten Algorithmus für die Güte des ML von Aussagen zur Modellkompetenz eine Rolle spielt, wobei die Anzahl der zur Verfügung gestellten Attribute für die Algorithmen ohne Bedeutung bleibt, wie sich an DTrees und SVM bei vielen als auch wenigen Attributen zeigt (Tab. 3).

Übereinstimmung zwischen relevanten Attributen und dem Kodierleitfaden sowie der Antwortlänge (F3, F4)

Die identifizierten, stark von den Algorithmen gewichteten Wort-Attribute decken sich weitgehend mit dem Kodierleitfaden und sind auch Schlüsselwörter für die menschliche Kodierung (Krell und Krüger 2016). Die Auflistung (Tab. 4) macht deutlich, dass bisher weder Artikel, Personalpronomen noch Konjunktionen oder Deklinationen aus dem Trainings-Datensatz entfernt wurden und noch keine Reduktion auf eine grammatikalische Variante eines Begriffs erfolgen konnte. Hierfür müsste eine lexikonartige Datenbank genutzt werden, die diesen Prozess automatisch übernimmt. LightSide bietet eine solche Datenbank im Englischen an (Mayfield und Rosé 2013), für andere Sprachen fehlt sie. Hierzu werden zurzeit Folgestudien in spanischer und englischer Sprache durchgeführt, die einerseits den Einfluss der Sprachen auf die Auswertung mit LightSide prüfen und im Falle englischer Datensätze die Effekte einer Datenbereinigung mit den vorliegenden Datenbanken untersuchen.

Die Analyse der fehlerhaften Kodierungen gibt Aufschluss über deren Ursache. Sobald in Niveau I-Aussagen stark gewichtete Wörter (Tab. 4) wie „Hypothese“ oder „Theorie“ vorkommen, folgt durch die Algorithmen eine Kodierung in Niveau III. Da bei der menschlichen Kodierung immer das höchste angesprochene Niveau kodiert wird, erkennen die Algorithmen außerdem in Antworten auf Niveau I nicht kurze Antwortteile auf Niveau III, insbesondere dann, wenn zusätzlich hoch gewichtete Attribute niedriger Niveaus (z. B. das Attribut falsch im Niveau I) doppelt benutzt werden. Hier fehlt den Algorithmen, die auf der Basis von Wort- oder Buchstabenfolgen kodieren, das semantische Verständnis insbesondere in längeren Textpassagen (Lintean et al. 2008).

Die zum Teil hohen Korrelationen zwischen dem kodierten Niveau und der Antwortlänge bei NBayes zeigen, dass die externe Variable diese Kodierung beeinflusst. Bei der unabhängigen Betrachtung der Attribute durch NBayes klärt die Antwortlänge bis zu 34 % der Varianz der Kodierung mit NBayes auf (Bestimmtheitsmaß r2 bei r = 0,58; Tab. 6). Offensichtlich gelingt es bei langen Antworten nicht, durch die Auswahl weniger hoch gewichteter Attribute wiederholte Niveau I- oder II-Aussagen von Niveau III-Aussagen zu differenzieren. NBayes erweist sich in allen Datensätzen als nicht geeignet (Mao et al. 2018).

Schließlich ließe sich mit den Attributen, die die Algorithmen für die Niveaus nutzen, ein neuer Typus von Aufgaben entwickeln (Kim et al. 2017). Dieser Aufgabentyp stellt Wörter zur Verfügung, die zu sinnvollen Sätzen kombiniert werden müssen. Die Herausforderung der Aufgabenentwicklung ist, neben einer großen Kombinationsmöglichkeit der Wörter auch Antworten auf verschiedenen Niveaus gleichzeitig zu erlauben. Der Ansatz ist vielversprechend für unmittelbares Feedback in Vermittlungssituationen, weil er die Sättigungsproblematik des aktuellen Datensatzes umgeht. Das setzt voraus, dass mit diesen Aufgaben wie bei Kim et al. (2017) ein hohes Cohens K (K > 0,80) beim Vergleich der menschlichen und computerbasierten Kodierung erreicht wird.

Nützlichkeit des maschinellen Lernens (F5)

Es sollte die Nützlichkeit des ML für einen fachdidaktischen Einsatz geprüft werden (Williamson et al. 2012). Im Prinzip reicht der eingesetzte Datensatz aus, ML auf dem Niveau einer menschlichen Zweitkodierung zu entwickeln. Als Vorteil ergibt sich, dass circa 63 % der Aussagen kein zweites Mal kodiert werden müssten (Tab. 7). Zusätzlich führt die Überprüfung nicht übereinstimmender Kodierungen dazu, menschliche Fehler in durchschnittlich 5 % der Aussagen zu entdecken. Es bleibt allerdings auch das Risiko, dass 3 % menschliche Fehler unentdeckt bleiben, wenn sowohl ML als auch Mensch gleichzeitig fehlerhaft kodieren (Tab. 7); was allerdings auch bei menschlicher Zweitkodierung auftreten kann. In den vorliegenden Datensätzen besitzen die Werte für Cohens K bereits eine ausreichende Qualität, um die computerbasierte Kodierung in Forschungszusammenhängen einzusetzen. Dies ist auch in anderen Studien mit Kurzantworten, zum Beispiel im Bereich von Evolution, gelungen (Ha et al. 2011). Insbesondere für Differenzierungsmaßnahmen im Biologieunterricht ist die computergestützte Auswertung schnell zu erzielen und wäre damit beispielsweise für didaktisch motivierte Gruppeneinteilungen in Unterrichtssituationen zu nutzen. Während in Forschungszusammenhängen jede Fehlkodierung bedeutsam ist, wären im Unterricht Unterschätzungen für eine Benotung und Überschätzungen in einer Intervention besonders kritisch (Lee et al. 2019). Es kann allerdings vermutet werden, dass im Rahmen einer Intervention eine inhaltlich motivierte Differenzierung auf der Basis des hier durchgeführten ML zu einer begründeteren Gruppeneinteilung führt als eine Einteilung durch eine Lehrperson ohne Datenbasis.

Zusammenfassend lässt sich feststellen, dass die Güte des ML von Aussagen zur Modellkompetenz bereits ausreichend erscheint, um für eine Zweitkodierung eingesetzt zu werden. Dies ist vor dem Hintergrund der festgestellten Relevanz von Kompetenzerfassung und der entsprechend notwendigen Entwicklung von Verfahren zur Kompetenzerfassung sowie zur Interpretation von erzielten Ergebnissen (Klieme et al. 2008; Leutner et al. 2017) vielversprechend. Für Modellkompetenz ließen sich dementsprechend in Forschungsvorhaben die Vorteile offener Aufgabenformate (Abb. 1) nutzen und gleichzeitig die zeitaufwendige Zweitkodierung computerbasiert gestalten. Es muss einschränkend berücksichtigt werden, dass die Nutzung computerbasierter Verfahren für die interpretative Auswertung von Aussagen auf Fragen im offenen Format grundsätzlich ein Abtreten von Autonomie und Kontrolle transportiert, insbesondere wenn die Klassifikationsprozesse der genutzten Algorithmen nicht vollständig nachvollzogen werden können. Für die von Williamson et al. (2012) und Zhai et al. (2020) genannten weiteren Einsatzmöglichkeiten des ML zum Beispiel in Vermittlungssituationen muss daher umfassende Evidenz für die Güte des ML im vorgesehenen Anwendungskontext vorliegen. Hierzu gehört zunächst die Prüfung, inwieweit sich Schüleraussagen von den hier gesammelten Daten von (angehenden) Lehrpersonen und Expert*innen unterscheiden. Ferner gilt es, den Prozess der automatisierten Kodierung besser zu verstehen (Yang et al. 2002), wozu eine tiefere (d. h. qualitative) Betrachtung der nicht übereinstimmenden Kodierungen unter Berücksichtigung der durch die Algorithmen besonders stark gewichteten Attribute beitragen kann.