1 Einleitung

Der prognostizierte Lehrkräftemangel (KMK 2022) ist mit Blick auf die Gewährleistung der Unterrichtsversorgung von hoher Brisanz und stellt eine zentrale Herausforderung für Schulen (Robert Bosch Stiftung 2023) und das Bildungssystem insgesamt dar (Autor*innengruppe Bildungsberichterstattung 2022). Neben verschiedenen Maßnahmen zur Lehrkräftegewinnung (Brinkmann und Müller 2020; KMK 2023) richtet sich der Fokus auch auf die „Verbesserung von Studienerfolgsquoten“ (Ständige Wissenschaftliche Kommission der Kultusministerkonferenz 2023, S. 7; Süßenbach et al. 2023).

Erkenntnisse zu Studienabbrüchen beruhen in der Regel entweder auf hochschulübergreifenden Kohortenvergleichen, die für die Bestimmung von Abbruchquoten mit Schätzungen operieren (Heublein et al. 2022; kritisch: Güldener et al. 2020; Ratzlaff 2019; Süßenbach et al. 2023), oder auf freiwilligen Selbstauskünften von Abbrecher*innen, wobei letztgenannte Studien mit methodischen Problemen wie Selbstselektion bei der Befragungsteilnahme (bzw. mangelnder Erreichbarkeit), möglichen Ex-post-Rationalisierungen der Befragten und retrospektiven Verzerrungen behaftet sind (Glaesser et al. 2021; Neugebauer et al. 2019). Einen alternativen Zugang bieten Studienverlaufsanalysen auf Basis von Hochschuldaten (Seyfried und Pohlenz 2014), die einen non-reaktiven Forschungszugang darstellen – also keiner aktiven Mitwirkung der Studierenden bedürfen – und eine vergleichsweise präzise Erfassung von Schwund im Studium ermöglichen (Radisch et al. 2018, S. 214).

Die mit der voranschreitenden Digitalisierung verbundene „Datafication of Higher Education“ (Selwyn und Gašević 2020) eröffnet aufgrund der gestiegenen Datenverfügbarkeit neue Möglichkeiten für studienbezogene Analysen. Die Nutzung von Daten aus Campus-Management-Systemen, Lernplattformen oder E‑Assessments (Scheidig 2021; Scheidig und Schweinberger 2022) wird seit einigen Jahren unter „Learning Analytics“ gefasst (Siemens 2013). „Learning analytics focuses on the application of data analytic techniques and tools for purposes of understanding and enhancing learning and teaching“ (Nguyen et al. 2020, S. 61). Neben verschiedenen Wegen der Personalisierung des Lernens (Chatti et al. 2014) ist die Identifizierung von abbruchgefährdeten Studierenden ein eng mit Learning Analytics assoziiertes Ziel (Russell et al. 2020). Vorhersagen sollen die Hochschule, die Lehrenden und die Studierenden in unterschiedlicher Weise unterstützen (Ifenthaler 2015).

Der Vorteil eines solchen Datenzugangs kann darin gesehen werden, dass auf bereits vorliegende Daten in großer Fallzahl zurückgegriffen werden kann, wobei es sich bei Studienverlaufsanalysen auf Basis von Hochschuldaten um Vollerhebungen handelt (Ratzlaff 2019). Darüber hinaus sind wiederholte Analysen bis hin zu einer dauerhaften Implementierung eines hochschulinternen Monitorings möglich (Radisch et al. 2018).

Hieran anknüpfend zentriert sich die vorliegende Studie auf die Nutzung von in Campus-Management-Systemen gespeicherten Studierendendaten (z. B. Vorbildung, Geschlecht) und Studienverlaufsdaten (z. B. Semesterzahl, Prüfungsleistungen). Das Erkenntnisinteresse gilt der Frage, inwieweit mit diesen Daten und den gewählten Analysemethoden die Vorhersage von Studienabbrüchen in Lehramtsstudiengängen möglich ist. Dabei sind folgende Fragestellungen leitend:

  1. 1.

    Mit welcher Genauigkeit lassen sich Studienabbrüche anhand von im Campus-Management-System vorliegenden Studierenden- und Studienverlaufsdaten prognostizieren?

  2. 2.

    Welche Prädiktoren erweisen sich als relevant für die Prognose von Studienabbrüchen?

2 Forschungsstand

Studienabbrüche sind sowohl in individueller Hinsicht (z. B. Deutung als Scheitern, biografische und ökonomische Dimension) als auch gesellschaftlich (z. B. Ressourceneinsatz, Fachkräftemangel) implikationenreich (Neugebauer et al. 2019). Die Reduktion der Zahl der Studienabbrecher*innen gilt als generelles Anliegen im Hochschulsystem (Wissenschaftsrat 2015), dies findet seinen Niederschlag u. a. in einer an Abschlussquoten geknüpften Mittelzuweisung (Ratzlaff 2019). Daten des Deutschen Zentrums für Hochschul- und Wissenschaftsforschung (DZHW) weisen für Lehramtsstudiengänge je nach Studienanfangsjahr und Abschlussart (Staatsexamen, Bachelor, Master) Abbruchquoten von 9 bis 21 % aus, sie rangieren damit deutlich unter dem Durchschnitt aller Universitätsstudiengänge, der bei über 30 % liegt (Heublein et al. 2022). Gemäß dem DZHW sind Studienabbrecher*innen Personen, die „das deutsche Hochschulsystem ohne (ersten) Abschluss verlassen“ (ebd., S. 2). Diese Definition verweist auf ein methodisches Problem: Ein finales Ausscheiden aus dem Hochschulsystem ist etwa mit Blick auf Studienunterbrechungen und eine spätere Wiederaufnahme eines Studiums kaum zuverlässig feststellbar; zudem werden Studiengang- und Hochschulwechsel nicht abgebildet (Bergmann 2020; van Buer 2011). In anderen Studien liegt ein Verständnis von Studienabbruch als vorzeitiges Ausscheiden aus dem jeweils aktuellen Studiengang zugrunde (Herfter et al. 2011; Bernholt et al. 2023; Güldener et al. 2020). Je nach gewählter Definition und Methodik gelangen unterschiedliche Erhebungen zu teils sehr verschiedenen Abbruchquoten (Neugebauer et al. 2019). Hinzukommen lehramtsspezifische Erhebungsprobleme, etwa durch polyvalente Studiengänge mit Lehramtsoption, die Zweiphasigkeit der Lehrkräftebildung in Deutschland oder die Interpretation eines Wechsels der Schulform oder eins Faches innerhalb des Lehramtsspektrums.

Die Erforschung von Studienabbrüchen besitzt eine lange Tradition (Spady 1970). Tintos (1975) Modell, das den Studienabbruch als eine Frage der sozialen und akademischen Integration der Studierenden konzeptualisiert, erfuhr eine breite Rezeption und wurde inzwischen in mehreren Studien empirisch untermauert (z. B. Klein 2019). In jüngeren Arbeiten werden verstärkt individuelle Faktoren der Studierenden als Erklärungsansätze für Studienerfolg und -abbruch diskutiert (Demetriou und Schmitz-Sciborski 2011). Mit Blick auf Lehramtsstudiengänge werden etwa kognitive Voraussetzungen, die studien- und berufsbezogene Motivation und Persönlichkeitseigenschaften als Einflussfaktoren betrachtet (Meyer et al. 2023; Biermann et al. 2017; Oepke et al. 2019). Faktoren, die Studienerfolg oder -abbruch begünstigen, können in eher stabile (z. B. kognitive Voraussetzungen) und in zeitlich eher variable Faktoren (z. B. finanzielle und gesundheitliche Situation, studienbezogene Vorstellungen) unterschieden werden. Auf Basis der bisherigen Forschung lässt sich Studienabbruch als multifaktorielles Phänomen fassen, wenngleich kein breit akzeptiertes Studienabbruchmodell vorliegt (Heublein et al. 2017). Allgemeine kognitive Fähigkeiten sowie bisherige Leistungen – vor allem die Note der Hochschulzugangsberechtigung (HZB) – gelten fachübergreifend als gute Prädiktoren für Studien- und auch späteren beruflichen Erfolg (Bernholt et al. 2023; Blömeke 2009; Meyer et al. 2023). Einige Studien legen nahe, Wirkfaktoren von Studienabbrüchen fachspezifisch zu erforschen, da sich die relevanten Gründe und Prädiktoren für Studienabbruch je nach Fach(-gruppe) unterscheiden können (z. B. Fellenberg und Hannover 2006; Fischer et al. 2020). Die Erkenntnisgewinnung zu Abbrüchen im Lehramtsstudium, für die Forschungslücken identifiziert werden (Bernholt et al. 2023; Meyer et al. 2023), stellt dies insofern vor Herausforderungen, als Lehramtsstudiengänge aufgrund des Spektrums der Schulfächer transfakultär disponiert sind.

Studien zeigen, dass Abbruchquoten im Lehramtsstudium je nach Schulform und Unterrichtsfach variieren (Herfter et al. 2011; Radisch et al. 2018) und dabei teils beträchtlich von den berichteten DZHW-Zahlen abweichen. Güldener et al. (2020) kommen auf Basis von Studienverlaufsdaten der beiden lehrkräftebildenden Universitäten aus Mecklenburg-Vorpommern zu Abbruchquoten von ca. 60 % für das Lehramt an Gymnasien und über 70 % für das Lehramt an Regionalen Schulen, während diese für das Lehramt an Grundschulen (ca. 40 %) und der Sonderpädagogik (ca. 20 %) deutlich darunter rangieren. Je nach Schulform sind nur 41 bis 58 % des Schwunds auf ein Verlassen der Hochschule zurückzuführen, der Rest entfällt u. a. auf Studiengangwechsel – teilweise innerhalb des Lehramts (Güldener et al. 2020; siehe auch Radisch et al. 2018; Süßenbach et al. 2023). Zu ähnlichen Befunden gelangen auch Bernholt et al. (2023) auf Basis der Daten von 13 deutschen Hochschulen aus dem Panel zum Lehramtsstudium (PaLea): ca. 75 % der Personen, die das Lehramtsstudium abbrechen, wechseln den Studiengang. Vice versa führen Studiengangwechsel auch zu Zuströmen in Lehramtsstudiengänge (Keck Frei et al. 2012). Süßenbach et al. (2023) errechnen für Lehramtsstudiengänge in Deutschland unter Berücksichtigung von Zuströmen und Abflüssen durch Studiengangwechsel eine Abbruchquote von durchschnittlich 42 %. Studienabbrüche im Lehramt treten häufig zu einem frühen Zeitpunkt im Studienverlauf ein: In den Analysen von Bernholt et al. (2023) und Herfter et al. (2011) erfolgen mehr als die Hälfte der Abbrüche in den ersten beiden Semestern (vgl. auch Gesk 1999).

Werden Gründe für den Studienabbruch im Lehramt erfragt, so zeigt sich, dass der Abbruch im Gros der Fälle eine selbst gewählte Entscheidung aufgrund überwiegend interner Faktoren ist – etwa aufgrund falscher Erwartungen und Desinteresse am Lehrberuf (Bernholt et al. 2023) – und demgegenüber nur in wenigen Fällen aufgrund endgültig nicht bestandener Prüfungen erfolgt (Herfter et al. 2011; Radisch et al. 2018). Die individuelle Abbruchintention erweist sich als ein Prädiktor für tatsächlich eintretende Studienabbrüche (Bohndick 2020). Glaesser et al. (2021) zeigen anhand einer Längsschnittbefragung, in deren Rahmen u. a. Studierende des Lehramts Mathematik im Verlauf eines Semesters dreimal wöchentlich befragt wurden, dass die Abbruchintention im zeitlichen Verlauf des Studiums Schwankungen unterliegt und sich insofern als veränderbar erweist. Übereinstimmend mit studiengangübergreifenden Abbruchanalysen ist die HZB-Note auch in Lehramtsstudiengängen ein geeigneter Prädiktor für Studienabbrüche (Bernholt et al. 2023; Blömeke 2009). Die längsschnittlichen Analysen zum Studienabbruch im Lehramt von Bernholt et al. (2023) und Lücke (2020) zeigen zudem, dass sich spätere Studienabbrecher*innen bereits zu Studienbeginn in individuellen und studienbezogenen Merkmalen von Absolvent*innen unterscheiden, etwa hinsichtlich motivationaler Eingangsvoraussetzungen und der Berufswahlsicherheit. ZusammenfassendFootnote 1 deutet die Befundlage darauf hin, dass Studienabbrüche im Lehramt prognostizierbar sind und sich mögliche Maßnahmen zur Reduktion der Anzahl der Studienabbrüche – aufgrund des frühen Zeitpunkts vieler Studienabbrüche und einer bereits zum Studienstart interindividuell variierenden Abbruchwahrscheinlichkeit – auf die ersten Semester und die vorgelagerte Phase der Studierendengewinnung und -auswahl konzentrieren sollten.

3 Methode

3.1 Datensatz und Stichprobe

Für die hier vorgestellte Studie wurde auf die Daten von 6647 Studierenden zurückgegriffen, die in den Jahren 2013 bis 2018 für ein Lehramtsstudium an der Pädagogischen Hochschule FHNW immatrikuliert waren. Von diesen 6647 Studierenden hatten zum Zeitpunkt der Datenanalyse 62,01 % ihr Studium bereits erfolgreich abgeschlossen und 7,21 % abgebrochen, die übrigen 30,78 % befanden sich noch im Studium. Die für die Prognose des Studienabbruchs verwendeten Daten wurden dem hochschulinternen Campus-Management-System entnommen, wobei im Sinne der Mustererkennung, die den Analytics-Ansatz charakterisiert (Norris und Baer 2013, S. 27 f.), alle vorliegenden Daten ohne inhaltliche Vorauswahl einbezogen wurden. Dieses Vorgehen grenzt sich von Arbeiten ab, die gestützt auf ein begründetes Modell von Studienabbruch (z. B. Tinto 1975) gezielt Daten erheben, da nicht theoretische Annahmen, sondern die verfügbaren Studierenden- und Studienverlaufsdaten die Analyse leiten (siehe auch Schneider et al. 2019; Schüller et al. 2019, S. 21; für Implikationen und den Konnex von Bildungstheorie und Learning Analytics vgl. Wong et al. 2019).

Der Datensatz enthält studienbezogene Angaben (Leistungen in Hochschulprüfungen, Anzahl Prüfungen, Anteil bestandener Prüfungen, Studiengang, Studiensemester) sowie Angaben zur Person (Geschlecht, Vorbildung, Alter zu Studienbeginn, Geburtsland, Wohnsitz). Die Variablen Geburtsland und Wohnort wurden dichotomisiert (deutschsprachiges vs. nicht-deutschsprachiges Geburtsland; Wohnort in einem die Hochschule beheimatenden Kanton vs. Wohnort außerhalb der vier Trägerkantone). Die Variable Vorbildung enthielt den zum Studium berechtigenden Bildungsabschluss, aber keine Abschlussnote. Die Unterrichtsfächer wurden nicht als Variablen aufgenommen, da das Gros der einbezogenen Studierenden vier (Sekundarstufe I) bis sechs Unterrichtsfächer (Primarstufe) studiert und die fachspezifischen Studienanteile entsprechend gering ausfallen.

Die Analyse verlangte eine Abwägung: Einerseits ist eine höhere Genauigkeit der Prognose von Studienabbrüchen anzunehmen, je mehr Studienverlaufsdaten einbezogen werden, was eine Verwendung der Daten auch aus höheren oder gar allen Fachsemestern impliziert. Andererseits sind Prognosen dann ein hilfreiches Instrument, wenn sie möglichst zu einem frühen Zeitpunkt eine Vorhersage erlauben, vor allem auch vor dem Hintergrund der berichteten Befundlage zur Häufung von Studienabbrüchen in den ersten Fachsemestern. Daher wurden in der vorliegenden Analyse nur Prüfungsleistungen der jeweils ersten drei Fachsemester einbezogen (wenn der Studienabbruch vorher eintrat, wurden die bis dahin vorliegenden Prüfungsleistungen berücksichtigt), um die Genauigkeit einer Prognose in einer frühen Studienphase zu ermitteln, in der – je nach Fall – ein Studienabbruch womöglich noch abgewendet oder Klarheit hinsichtlich der Fortsetzung des Studiums erzielt werden kann.

Bei den Angaben zu den Noten in den ersten drei Semestern und der Anzahl bestandener Prüfungen betrug der Anteil fehlender Werte 19,1 % bzw. 17,8 %. Um die Fallzahl nicht unnötig zu reduzieren, wurden die fehlenden Werte bei den Noten, dem Alter und dem Anteil bestandener Prüfungen über ein lineares Modell mit den Variablen Studiengang, Geschlecht, Summe bestandener und Summe aller Prüfungen als Input-Variablen und der zusätzlichen Addition eines zufälligen Fehlerwertes ersetzt (einfache Imputation). Für die kategorialen Daten Vorbildung, deutschsprachiges Geburtsland und Wohnsitz wurde jeweils die Kategorie „Missing“ eingesetzt, sodass im Sinne der „Informative Missingness“ auch das Fehlen einer Information für die Prognose des Modells herangezogen werden kann (Tan et al. 2023).

Da das Modell zur Prognose von Studienabbrüchen zunächst lernen muss, welche Studierenden mit hoher Wahrscheinlichkeit ihr Studium abbrechen bzw. erfolgreich absolvieren werden, wurden die Analysen nur mit den Daten von jenen Studierenden durchgeführt, die bereits eindeutig einer der beiden Kategorien zugeordnet werden konnten. Studierende, die sich noch im Studium befanden, wurden ausgeschlossen, da die Zielkategorie „Abbruch“ bzw. „Abschluss“ noch nicht definiert werden konnte. Der ursprüngliche Datensatz reduzierte sich somit auf N = 4601 Studierende, von denen 45,6 % das Studium mit einer gymnasialen Maturität begonnen haben, 72,94 % weiblich sind und 90,98 % in einem deutschsprachigen Land geboren wurden. Etwas mehr als die Hälfte der Studierenden wohnt in einem Trägerkanton der Hochschule. Zum Zeitpunkt der Datenbereitstellung aus dem Camus-Management-System hatte die Hälfte der Studierenden drei oder mehr Prüfungen absolviert. Der Notendurchschnitt der Prüfungen in den ersten drei Semestern liegt bei M = 4,88 auf einer Schweizer Notenskala (4 = genügend, 6 = ausgezeichnet), der Anteil bestandener Prüfungen bei 94,37 %. Unter den Studierenden, die sich nicht mehr im Studium befinden, beträgt der Anteil der Abbrecher*innen 10,41 %. Die ebenfalls durchgeführten X2-Tests weisen außer der Variable Wohnort (in einem Trägerkanton ja/nein) allen Variablen einen signifikanten Zusammenhang mit dem Studienabbruch nach.

Um das Modell trainieren und anschließend validieren zu können, wurde der vorab beschriebene Datensatz zufällig in einen Trainings- und in einen Validierungsdatensatz aufgeteilt. Dabei wurde unter Berücksichtigung der Größe des Datensatzes, der Anzahl an Parametern sowie der gängigen Empfehlung folgend eine Aufteilung in 80 % Trainingsdaten und 20 % Validierungsdaten verfolgt (vgl. Joseph 2022). Mit dem Trainingsdatensatz wurde zunächst das Modell gebildet und mit dem Validierungsdatensatz anschließend geprüft, wie genau das Modell die Zuordnung der Studierenden in die Klassen „Abbrecher*innen“ bzw. „Absolvent*innen“ vornimmt.

3.2 Analyseverfahren

Für die Prognose von Studienabbrüchen wurden in der vorliegenden Studie mit der logistischen Regression und Random Forest zwei Verfahren des Maschinellen Lernens verwendet (vgl. u. a. Frochte 2019; Richter 2019). Unter Maschinellem Lernen werden verschiedene Methoden subsumiert, mittels derer versteckte Muster in Datensätzen automatisch erkannt werden können. Mit diesen Mustern ist es möglich, zukünftige Werte zu prognostizieren und das Eintreffen eines Ereignisses vorherzusagen (Murphy 2012). Es werden drei Arten Maschinellen Lernens unterschieden: unüberwachtes (unsupervised), überwachtes (supervised) und bestärkendes (reinforcement) Lernen. Ziel des überwachten Lernens ist es u. a., Beobachtungen in Klassen aufzuteilen, wobei die Klassen – anders als beim unüberwachten Lernen – bereits bekannt sind. Es geht daher nicht um das Identifizieren möglichst homogener Klassen, sondern um die Einordnung von Fällen in bereits bekannte Klassen. Zu einem klassischen Verfahren des Maschinellen Lernens zählt die (logistische) Regression, zu einem neueren Verfahren Entscheidungsbäume und darauf aufbauend Random Forest.

3.2.1 Logistische Regression

Die logistische Regression baut auf der Grundidee der linearen Regression auf, wobei es sich bei der Response-Variable um eine nominale Variable handelt. Im Fokus steht die Schätzung der Wahrscheinlichkeit eines bestimmten Ereignisses. Das Verfahren der linearen Regression erweist sich daher als unpassend, weil hier über eine lineare Funktion ein bestimmter Erwartungswert geschätzt wird. Durch geeignete Transformationen ist das logistische Modell allerdings wieder in ein lineares Modell überführ- und annähernd analog interpretierbar (grundlegend zur logistischen Regression: Wolf und Best 2010, S. 829 ff.).

Modellinterpretation

Mittels der β-Koeffizienten der logistischen Regression kann gesagt werden, dass die Wahrscheinlichkeit für ein Ereignis umso größer ist, je größer der β-Koeffizient ist. Die Koeffizienten lassen sich zudem in der Form von Odds bzw. Odds Ratios interpretieren, mittels derer ausgesagt werden kann, um wie viel höher die Chance eines Ereignisses ist, wenn ein Prädiktor um den Wert 1 steigt. Ein signifikantes Ergebnis zeigt auf, dass die Veränderung der Chance von 0 abweicht.

Modellgüte

Das zentrale Kriterium zur Beurteilung der Modellgüte ist die Devianz. Die Devianz eines Modells bestimmt sich über den Vergleich der Likelihood eines gefitteten Modells im Vergleich zum satuierten Modell, das die Daten vollständig beschreibt. Da das satuierte Modell die gegebenen Daten exakt erklärt, kann dieses Modell als konstanter Vergleichswert für alle gefitteten Modelle herangezogen werden. Die Devianz beurteilt, wie gut sich ein gefittetes Modell dem satuierten Modell annähert, wobei das Modell besonders gut ist, wenn die Devianz klein ist.

Neben weiteren auf der Devianz basierenden Kriterien werden häufig Klassifikationstabellen zur Beurteilung der Güte herangezogen, über die sich u. a. die Richtig- bzw. Falschklassifikationsraten berechnen lassen. Problematisch daran ist, dass je nach Schwellenwert, ab dem man in die eine oder die andere Klasse eingeordnet wird, die Klassifikationsmatrix und damit die Richtig- bzw. Falschklassifikationsrate unterschiedlich ausfallen. Wird der Schwellenwert z. B. von 0,5, wie er bei binären Klassifikationen häufig gewählt wird, auf 0,9 erhöht, werden zwar deutlich weniger Personen falsch-positiv klassifiziert, allerdings deutlich mehr Personen falsch-negativ, weil sie den Schwellenwert nicht überschritten haben.

Zur Beurteilung der Modellgüte wird daher auf die „Area under the curve“ (AUC) zurückgegriffen. Dabei handelt es sich um die Fläche unter der „Receiver Operating Characteristic (ROC)“-Kurve, bei der die Sensitivität und die Spezifität gegeneinander abgetragen werden. Die Sensitivität gibt die Richtig-Positiv-Rate wieder, d. h. in der vorliegenden Analyse den Anteil an prognostizierten Studienabbrecher*innen, die tatsächlich abbrechen. Demgegenüber stellt die Spezifität die Richtig-Negativ-Rate dar, d. h. den Anteil derer, die erfolgreich sind und als erfolgreich eingestuft wurden.

Da die Anteile vom Schwellenwert abhängen, könnte der Schwellenwert so geändert werden, dass bestenfalls alle Studienabbrecher*innen richtig klassifiziert werden. Allerdings würde dies auch bedeuten, dass die Falsch-Positiv-Rate steigt und somit mehr Personen als gefährdet eingestuft werden. Zur Bestimmung eines geeigneten Schwellenwertes wird auf die ROC-Kurve zurückgegriffen. Ein rein zufälliges Ergebnis würde eine Kurve ergeben, die nahe an einer Diagonale liegt. Je weiter sich die Kurve hiervon entfernt, desto besser ist die Genauigkeit des Klassifikators. Mit der Entfernung der Kurve zur Diagonale vergrößert sich auch die Fläche unter der Kurve (AUC). Der AUC-Wert kann Werte zwischen 0 und 1 annehmen, wobei Werte unter AUC = 0,5 angeben, dass die Prognose schlechter ist, als wenn die Studierenden zufällig einer der beiden Klassen zugeordnet werden. Ein Wert von AUC = 1 lässt auf eine perfekte Zuordnung schließen.

3.2.2 Random Forest

Random Forest ist ein Klassifikationsverfahren des Maschinellen Lernens, bei dem es sich um eine Vielzahl an unkorrelierten Entscheidungsbäumen handelt. Klassifikationsbäume im Sinne des Maschinellen Lernens finden die Entscheidungsregeln anhand der zur Verfügung stehenden Daten. Bei hinreichend großen Datenmengen beruht die Klassifikation auf einer Vielzahl an Entscheidungen und Entscheidungsregeln. Ausgehend vom Wurzelknoten wird der Baum mit Hilfe verschiedener Attribute mehr und mehr bis zu den Blättern verästelt, die die Klassen darstellen. Für die Zuordnung einer Klasse wird der Pfad von der Wurzel bis zum Blatt durchschritten. Je nach Blatt wird dann die Zuordnung zu einer Klasse vorgenommen. Diese Zuordnung kann umso besser vorgenommen werden, je reiner die Blätter des Baumes sind. Als Maß für die Reinheit der Gruppen kann die Entropie genannt werden, die der Devianz ähnelt (Venables und Ripley 2002, S. 256). Der Entscheidungsbaum verwendet somit das annähernd gleiche Optimierungskriterium wie die logistische Regression. Aufbauend auf der Entropie gibt der Information Gain an, wie gut es einem Attribut gelingt, die Entropie zu minimieren.

Entscheidungsbäume besitzen den Vorteil, dass sie grundsätzlich leicht zu verstehen sind, allerdings sind sie nicht so genau wie andere Prognoseverfahren und sie reagieren eher sensibel auf minimale Änderungen in den Daten. Sie werden in der Praxis deshalb selten als eigenständiges Verfahren verwendet, sind aber zentraler Baustein für verschiedene Verfahren des Maschinellen Lernens, so auch für den im Folgenden betrachteten Random Forest.

Random Forest ist eine Variante des sogenannten Baggings (Bootstrap Aggregation): Es werden mehrere Bootstrap-Stichproben aus dem Datensatz gezogen, mit denen genauso viele Entscheidungsbäume generiert werden. Jede Beobachtung durchläuft für die Klassifikation die verschiedenen Entscheidungsbäume und wird letztlich der Klasse zugeordnet, mit der sie beim Durchlaufen aller Bäume am häufigsten klassifiziert wurde, oder ihr wird das Mittel aus den sich ergebenden Klassenwahrscheinlichkeiten zugeordnet.

Während beim Bagging immer alle verfügbaren Variablen bei den Splits herangezogen werden, steht bei Random Forest immer nur eine zufällige Auswahl an Variablen zur Verfügung. Dies ist insofern sinnvoll, als beim reinen Bagging vorkommen kann, dass ein Prädiktor so stark ist, dass alle Bäume diesen als ersten Split nehmen, wodurch sich die Bäume sehr ähneln und stark korrelieren. Wird aber nur eine bestimmte Anzahl an Prädiktoren gewählt, kann es sein, dass einige Bäume den stärksten Prädiktor nicht betrachten und diese sich daher stark von den anderen Bäumen unterscheiden. Die Bäume sind dementsprechend weniger stark korreliert.

Wie bei den meisten Modelliertechniken können auch bei Random Forest verschiedene Parameter gewählt werden, so u. a. die Anzahl der Bäume und die Anzahl der Variablen, die beim Split zufällig herangezogen werden. Meist wird als Anzahl dieser Variablen die abgerundete Wurzel aus der Anzahl aller Prädiktoren verwendet. Die Anzahl der Bäume kann frei gewählt werden. Je größer die Anzahl der Bäume ist, umso besser gelingt die Klassifikation.

Modellinterpretation

Random Forest hat den Vorteil, dass der Entscheid nicht nur auf einem Entscheidungsbaum beruht, sondern auf einer Vielzahl an unterschiedlichen Entscheidungsbäumen – wobei kein Baum dem anderen ähnelt. Ein Nachteil zeigt sich beim Vergleich mit der logistischen Regression: Während dort über die Koeffizienten und p-Werte verdeutlicht werden kann, welcher Prädiktor einen Effekt auf die Response-Variable hat, werden bei Random Forest keine Signifikanzwerte ausgegeben. Das Modell und der Algorithmus werden daher oft als Black Box beschrieben, da zunächst unklar ist, welche Prädiktoren in welcher Art und Weise die Prognose beeinflussen.

Mit der Permutation Importance und dem Partial Dependence Plot lassen sich jedoch Interpretationshilfen einsetzen. Um zu ermitteln, welche Prädiktoren die Prognose beeinflussen, kann die Permutation Importance bestimmt und geplottet werden. Die Werte mit der größten Permutation Importance haben den stärksten Einfluss auf die Prognose und bewirken damit die größte durchschnittliche Reduktion des Out-of-Bag-Errors (OOB-Error). Während der Variable Importance Plot nur anzeigt, wie wichtig eine Variable für die Erklärung der Response-Variable ist, lässt sich mit dem Partial Dependence Plot auch der Haupteffekt auf die Response-Variable darstellen, gemittelt über alle möglichen Interaktionseffekte. So lässt sich z. B. erkennen, ob mit dem Anstieg des Prädiktors im Schnitt auch ein Anstieg der Wahrscheinlichkeit eines bestimmten Ereignisses einhergeht. Ob aber diese Beziehungen signifikant sind, kann auch mit diesen Plots nicht ermittelt werden.

Modellgüte

Die Modellgüte kann mit den gleichen Performance-Maßen wie bei der logistischen Regression beurteilt werden. Zusätzlich liefert Random Forest automatisch eine Validierung mit, den OOB-Error. Dieser macht sich zu Nutze, dass beim Bootstrap nicht alle Beobachtungen in die Bootstrap-Stichprobe aufgenommen werden. Die nicht in die Stichprobe aufgenommenen Fälle bilden die OOB-Stichprobe. Auf diese wird das trainierte Modell angewendet, wobei jeder Entscheidungsbaum auf seiner eigenen OOB-Stichprobe basiert. Anhand des Modells werden die Prädiktionswerte ermittelt, mit denen die Falschklassifikationsrate geschätzt wird. Die Anzahl der Falschklassifikationsraten entspricht dabei der Anzahl der OOB-Stichproben. Berechnet man aus diesen Falschklassifikationsraten den Mittelwert, so erhält man den OOB-Error, der damit als durchschnittliche Falschklassifikationsrate definiert werden kann.

3.3 Vorgehen

Für die Modellbildung wurde zunächst anhand des Trainingsdatensatzes und mittels logistischer Regression geprüft, ob die Variablen Studiengang, Vorbildung, Geschlecht, deutschsprachiges Geburtsland und Wohnort einen Effekt auf die Abbruchwahrscheinlichkeit haben und ob sich im Vergleich zum Nullmodell eine signifikante Reduktion der Devianz nachweisen lässt, wenn die Prädiktoren ins Modell aufgenommen werden. Anschließend wurden mit allen Prädiktoren unterschiedliche Modelle spezifiziert, die ebenso die Interaktion der Variablen berücksichtigten. Es wurde geprüft, inwieweit sich ein Modell verbessert, wenn eine bestimmte Variable oder Interaktion aus dem Modell ausgeschlossen wird. Entsprechend wurde das Modell weiter reduziert, um das sparsamste Modell zu identifizieren, in dem lediglich Prädiktoren enthalten sind, die einen Einfluss auf die Abbruchwahrscheinlichkeit haben. Das endgültige Modell wurde abschließend nochmals mit komplexeren Modellen verglichen, in denen alle Prädiktoren und auch Interkationen untereinander enthalten sind, um zu prüfen, dass keine Variable zu Unrecht ausgeschlossen wurde.

Nachdem das Modell mittels logistischer Regression bestimmt wurde, wurde mit dem R‑Paket ranger (Wright und Ziegler 2017) mittels Random Forest erneut ein Modell spezifiziert. Dazu wurde definiert, dass alle Prädiktoren ins Modell aufgenommen werden sollen und als Output die Permutation Importance zur Beurteilung der Relevanz der Prädiktoren ausgegeben wird. Es wurde zudem definiert, dass ein Klassifikationsbaum erstellt werden soll (und kein Regressionsbaum) und dass die Klassenwahrscheinlichkeiten für jeden Fall als Vorhersage verwendet werden. So gibt jeder Baum eine Wahrscheinlichkeitsschätzung zurück, die für die endgültige Wahrscheinlichkeit über alle Bäume gemittelt wird.

Nachdem für beide Verfahren die geeigneten Modelle gefunden wurden, wurden die entsprechenden Prognosen berechnet und darauf aufbauend die Güte der Modelle über die zuvor dargestellten Verfahren geprüft (R-Pakete: MetricsWeighted (Mayer 2020), pROC (Robin et al. 2011)). Für die Interpretation der Modelle wurden für beide Verfahren Partial Dependence Plots mit dem R‑Paket flashlight (Mayer 2019) erstellt. Nach dem Trainieren der Modelle wurden diese auf den Validierungsdatensatz übertragen und Prognosewerte ermittelt. Anschließend wurde wiederum die Güte des Modells ermittelt und entschieden, ob eine erneute Modellanpassung vorgenommen werden muss.

4 Ergebnisse

4.1 Genauigkeit der Prognosen

Für die Modellgüte wurden zunächst die Prognosen und damit die Klassifikation der Fälle vorgenommen. Anschließend wurden die in Tab. 1 dargestellten Kennwerte zur Beurteilung der Klassifikationsgüte bestimmt.

Tab. 1 Klassifikationsgüte – Trainingsdatensatz

Die durchschnittliche Devianz liegt bei beiden Modellen tiefer als die Devianz des Nullmodells (Devianz = 68,64), wobei die durchschnittliche deviance reduction bei der logistischen Regression mit 26,79 leicht höher ist als beim Random Forest mit 22,49. Auch der AUC-Wert ist bei der logistischen Regression etwas besser als beim Random Forest, kann aber bei beiden Modellen mit Werten über 80 als gut beschrieben werden (vgl. Hosmer et al. 2013, S. 177; zu vergleichbaren AUC-Werten für Studienabbruchprognosen siehe z. B. Ram et al. 2015).

Nachdem sich beide Modelle als akzeptabel erwiesen, wurden diese auf den Validierungsdatensatz angewandt, die entsprechenden Prognosen erstellt und erneut die Diagnosekriterien zur Beurteilung der Klassifikationsgüte herangezogen (Tab. 2).

Tab. 2 Klassifikationsgüte – Validierungsdatensatz

Der AUC-Wert liegt bei beiden Modellen über 75, beim Random Forest sogar nahe bei 80. Im Vergleich zum Trainingsdatensatz weist nun der Random Forest den besseren AUC-Wert auf. Dies ist insofern interessant, als dass die deviance reduction beim Random Forest mit 18,87 leicht geringer ist als beim Modell der logistischen Regression mit 19,34. Entsprechend der höheren AUC liegt die ROC-Kurve des Random Forest leicht über jener der logistischen Regression (Abb. 1). Verglichen mit der ROC-Kurve der Trainingsdaten verläuft die Kurve der Validierungsdaten flacher und sie liegt näher an der Diagonalen. Zudem drückt sich die geringere Fallzahl des Validierungsdatensatzes im weniger glatten, sondern eher stufenförmigen Linienverlauf aus. Insgesamt zeigt sich aber auch bei der Beurteilung der Klassifikationsgüte mit den Validierungsdaten, dass beide Modelle akzeptabel sind.

Abb. 1
figure 1

ROC-Kurven und AUC-Werte – Trainingsdatensatz (a) und Validierungsdatensatz (b)

Mit Blick auf die beiden Grafiken lässt sich bei der logistischen Regression ein Overfit erkennen. Bei Anwendung des trainierten Modells der logistischen Regression auf den Validierungsdatensatz zeigt sich ein deutlicher Rückgang der AUC von 82 auf 76,8. Der Overfit lässt sich auf die gewählte Modellierungsstrategie mittels drop1-Test zurückführen. Ein vergleichbar hoher Rückgang der AUC ist beim Random Forest nicht zu erkennen. Dies lässt darauf schließen, dass die OOB-Prognose beim Trainingsdatensatz präziser und der Overfit geringer ist und dass das Modell die Realität besser wiedergibt, da es beim Validierungsdatensatz genauso gute Prognosen ermöglicht wie beim Trainingsdatensatz.

4.2 Prädiktoren

Der Modelloutput der logistischen Regression lässt über die Koeffizienten und Odds Ratios die Beziehung der Prädiktoren zur Response-Variable erkennen: Wohnort und Geburtsland haben keinen Effekt auf die Abbruchwahrscheinlichkeit. Studenten haben eine höhere Chance auf einen Studienabbruch als Studentinnen und ein besserer Notendurchschnitt, ein höherer Anteil an bestandenen Prüfungen und ein geringeres Alter zu Studienbeginn verringern die Chance auf einen Studienabbruch. Zudem sinkt die Wahrscheinlichkeit eines Studienabbruchs, wenn Studierende eine inländische Hochschulzugangsberechtigung mitbringen, wobei Personen mit gymnasialer Maturität die geringste Abbruchwahrscheinlichkeit aufweisen. Studierende, die eine Prüfung abgelegt haben, brechen eher ihr Studium ab als Studierende, die noch zu keiner Prüfung angetreten sind. Anzumerken ist, dass aufgrund der einfachen Imputation die Standardfehler unterschätzt werden, wodurch die Ergebnisse der logistischen Regression nur beschreibenden Charakter haben und nur unter Berücksichtigung der ungenauen Standardfehler interpretiert werden können.

Im Output des Random Forest lässt sich einzig der OOB-Error nachweisen, der in diesem Fall eine mittlere Falschklassifikationsrate von etwas über 7 % angibt. Der Modelloutput ist somit weniger komplex als jener der logistischen Regression und lässt weniger Schlüsse über die Stärke und Richtung der Effekte der Prädiktoren zu. Daher wurde zum besseren Verständnis des Modells und zur Identifikation der relevanten Prädiktoren die Permutation Importance berechnet. Den Variablen Wohnort und Geburtsland, die nicht im Modell der logistischen Regression enthalten sind, wird keine besondere Relevanz zugeschrieben, da sie den OOB-Error nur gering minimieren. Der Anteil der bestandenen Prüfungen und die Noten reduzieren den OOB-Error am stärksten. Somit zeigt sich, dass das Modell der logistischen Regression weitestgehend bestätigt werden kann und die ausgeschlossenen Variablen keine hohe Erklärungskraft haben. Es zeigt sich aber auch, dass die Variable Geschlecht im Modell der logistischen Regression einen signifikanten Effekt auf die Abbruchwahrscheinlichkeit hat, die Permutation Importance diesem Prädiktor allerdings nur eine geringe Relevanz nachweist.

Um nicht nur zu verstehen, welche Variablen im Random-Forest-Modell eine hohe Relevanz besitzen, sondern auch zu erkennen, in welcher Beziehung die Prädiktoren zur Response-Variable stehen, wurden die Partial Dependence Plots herangezogen. Für die Note und den Anteil bestandener Prüfungen sind diese beispielhaft in Abb. 2 dargestellt, da diese einen starken Effekt auf die Abbruchwahrscheinlichkeit haben.

Abb. 2
figure 2

Partial Dependence Plot – a Note in den ersten drei Semestern, b Anteil bestandener Prüfungen

Es zeigt sich für beide Prädiktoren eine eher abfallende Linie, die darlegt, dass die Wahrscheinlichkeit für einen Studienabbruch geringer ist, wenn die Noten besser sind und der Anteil bestandener Prüfungen höher ist.

5 Diskussion

Der Beitrag fokussierte die Frage, mit welcher Genauigkeit sich Studienabbrüche im Lehramtsstudium anhand von im Campus-Management-System vorliegenden Studierenden- und Studienverlaufsdaten prognostizieren lassen sowie welche Prädiktoren sich als relevant für die Prognose des Studienabbruchs erweisen. Mit beiden Verfahren konnten mit ca. 80 %iger Genauigkeit alle Studierenden korrekt der Gruppe erfolgreicher Absolvent*innen oder der Studienabbrecher*innen zugeordnet werden. Bezüglich der Identifikation relevanter Prädiktoren liefern beide Verfahren ein klares Ergebnis: Als bedeutsamster Prädiktor erwiesen sich Prüfungsleistungen in den ersten drei Semestern (Note und Anteil bestandener Prüfungen). Wohnort und Geburtsland spielen in beiden Modellen eine untergeordnete Rolle. Das Geschlecht hat im Modell der logistischen Regression einen signifikanten Effekt auf die Abbruchwahrscheinlichkeit, erwies sich aber im Random Forest mit einer geringen Permutation Importance als wenig relevant. Dies zeigt, dass eine hohe Signifikanz nicht mit einer hohen Reduktion des OOB-Errors einhergeht und sich daher auch unterschiedliche Relevanzen in den beiden Modellen ergeben können.

Die recht hohe Genauigkeit des Modells darf allerdings nicht darüber hinwegtäuschen, dass ein Teil der abbruchgefährdeten Studierenden nicht als potenzielle Abbrecher*innen identifiziert wird (falsch-negative Prognose) und gleichzeitig Studierende, die erfolgreich studieren, als mögliche Abbrecher*innen klassifiziert werden (falsch-positive Prognose). Im Falle einer Implementierung eines Frühwarnsystems mit Folgemaßnahmen (z. B. Beratungsangebot) bliebe die erstgenannte Gruppe mit falsch-negativer Prognose unentdeckt. Studierende mit falsch-positiver Prognose hingegen würden ungerechtfertigt mit einem potenziellen Studienabbruch konfrontiert und könnten hierdurch womöglich veranlasst werden, ihr Studium in Zweifel zu ziehen. Die damit evozierte Frage, welche Rate an Falschklassifikationen noch vertretbar ist, bedarf einer implementationsbegleitenden Aushandlung und ethischen Folgenabschätzung mit Blick auf das konkrete Anwendungsszenario (West et al. 2016).

Die Genauigkeit des Modells und damit die AUC-Werte könnten erhöht werden, indem weitere Variablen, die mit Studienerfolg bzw. -abbruch assoziiert sind (z. B. Daten zur studentischen Motivation, HZB-Note), und deren Interaktionen (auch auf höherem Niveau, z. B. Dreifachinteraktionen) ins Modell aufgenommen werden oder auch die Möglichkeit quadratischer Effekte bedacht wird. Insbesondere bei der logistischen Regression besteht dann allerdings die Gefahr eines Overfits, d. h., dass durch die Modellierung das endgültige Modell zu stark an die Daten angepasst ist und das Modell nicht mehr auf die Realität übertragen werden kann. Diese Problematik ist auch bei Random Forest gegeben, allerdings wird hier durch die große Anzahl an Bäumen und der zufälligen Auswahl der Split-Variablen die Gefahr des Overfits reduziert. Bei Anwendung des Modells der logistischen Regression konnte eine deutliche Differenz der AUC beim Trainingsdatensatz im Vergleich zur AUC im Validierungsdatensatz erkannt werden, was den Overfit des Modells verdeutlicht. Die Reduktion der AUC war bei Random Forest wesentlich geringer und der OOB-Error damit präziser. Die Genauigkeit und die Passung zur Realität sind somit abhängig vom gewählten Verfahren und es müsste in weiteren Studien geprüft werden, ob andernfalls weitere Techniken des Maschinellen Lernens zur Prognose von Studienabbruch geeignet sind. Mindestens so wichtig wie die Wahl des Verfahrens und der Einbezug weiterer Prädiktoren, die die Prognose der Abbruchwahrscheinlichkeit verbessern könnten, ist die Qualität der einbezogenen Daten. Für das Finden von Modellen mit hoher Prognosekraft ist es von besonderer Relevanz, die Daten vor dem Trainieren des Modells auf Genauigkeit, Vollständigkeit und Konsistenz zu prüfen, diese anzupassen und damit die Datenqualität zu erhöhen. Eine Standardisierung der Datenerfassung und -pflege im Campus-Management-System (u. a. einheitliche Stichdaten und Kategorien z. B. zur Erfassung der Vorbildung und Noten), automatische Überprüfungen und Datenkorrekturschleifen können zur Vermeidung unvollständiger, ungenauer und inkonsistenter Daten beitragen (Radisch et al. 2018, S. 214; Scheidig und Holmeier 2021, S. 225).

In der hochschulischen Lehrkräftebildung könnten Prognosen mit hinreichend verlässlicher Genauigkeit genutzt werden, um abbruchgefährdeten Studierenden frühzeitig Unterstützungs- und Beratungsangebote zukommen zu lassen. Auch eine retrospektive Analyse von Studierenden- und Studienverlaufsdaten könnte dazu beitragen, Erkenntnisse zu Wirkfaktoren im Lehramtsstudium zu generieren. Diese Erkenntnisse könnten u. a. in die Gestaltung der Studierendengewinnungs- und Studieneingangsphase einfließen, etwa in die (Weiter‑)Entwicklung von Orientierungsangeboten und eignungsdiagnostischen Verfahren. Daten aus Online-Self-Assessment-Verfahren wie dem CCT (Career Counselling for Teachers, vgl. Mayr et al. 2016) wiederum könnten mit den Campus-Management-Daten verknüpft werden, sodass Studienverlaufsdaten um Daten zu Persönlichkeitsmerkmalen und zur Motivation ergänzt werden, die mit Studienabbruch assoziiert sind. Das Potenzial des Analytics-Zugangs entfaltet sich mit dem Integrieren von Daten, die Variablen mit nachweislich prognostischer Validität bezüglich der Entwicklungsverläufe angehender Lehrkräfte abbilden (Blömeke 2009). Insofern scheint auch ein Einbezug weiterer Datenquellen wie Studierendenbefragungen naheliegend, um beispielsweise Daten zu Abbruchintention, Belastungserleben und Studienzufriedenheit aufzunehmen. Studien zeigen zudem, dass die Abbruchquoten zwischen Lehramtsfächern deutlich variieren (Herfter et al. 2011; Radisch et al. 2018). In Lehramtsstudiengängen mit geringer Fächeranzahl respektive stärkerer fachspezifischer Prägung ist daher bei einem Einbezug der studierten Fächer als Prädiktoren sowohl eine Steigerung der Prognosegenauigkeit als auch des Nutzens der Analyse von Studienabbrüchen zu erwarten. In der vorliegenden Studie wurden die Unterrichtsfächer nicht als Prädiktoren berücksichtigt, da die meisten Studierenden vier (Sekundarstufe I) bis sechs Unterrichtsfächer (Primarstufe) studierten und die fachspezifischen Studienanteile entsprechend gering ausfallen.

Limitationen studienverlaufsbezogener Abbruchanalysen liegen u. a. darin, dass viele Studienabbrüche zu einem Zeitpunkt im Studium vollzogen werden, zu dem noch keine oder nur wenige Studienverlaufsdaten vorliegen. Die Prognose von frühen Studienabbrüchen erfordert somit einen Einbezug weiterer Datenquellen (Schneider et al. 2019; für ein Beispiel vgl. Ram et al. 2015). Ferner existieren Gründe für den Studienabbruch, die nicht im Einflussbereich der Hochschulen liegen, z. B. persönliche Lebensumstände (van Buer 2011; Wissenschaftsrat 2015), daher sind detaillierte Kenntnisse über das Zusammenspiel von Faktoren von Studienabbrüchen vonnöten, deren Gewinnung auch qualitativer Forschungszugänge bedarf. Inwieweit die in Studienverlaufsdaten dokumentierten Prüfungsleistungen auf kognitive Anforderungen des Studiums zurückzuführen sind und welche Rolle motivationale Aspekte (Blömeke 2009), soziale und akademische Integration (Klein 2019), Belastungserleben oder weitere Faktoren spielen, lässt sich nicht anhand der Daten im Campus-Management-System ermitteln. Zu bedenken ist zudem, dass subjektive Zweifel an der Berufswahl oder -eignung einen Studienabbruch begünstigen können (sich zum Beispiel negativ auf Studienleistungen auswirken) und, wenn etwa Zweifel an der persönlichen Eignung begründet sind, den Studienabbruch sowohl aus Studierenden- als auch aus Hochschul- und Professionssicht als nachvollziehbare Entscheidung erscheinen lassen.

Die Nutzung von Studierenden- und Studienverlaufsdaten ist in mehrfacher Hinsicht organisational anspruchsvoll, sie setzt etwa eine hohe Datenqualität voraus, die womöglich erst durch Optimierungen bei der Datenerfassung mittelfristig erzielt werden kann. Für eine dauerhafte Nutzbarmachung von Studierenden- und Studienverlaufsdaten ist eine Implementierung von Datenanalysen mit einem hohen Automatisierungsgrad erforderlich, z. B. als Dashboard mit tagesaktuellem Datenbezug und einer nutzerzentrierten Datenvisualisierung, die keine Statistikkenntnisse voraussetzt (Radisch et al. 2018, S. 215). Von Bedeutung ist zudem die Bereitschaft, die Potenziale vorliegender Daten aktiv zu nutzen, sowie eine hinreichende Akzeptanz in der Hochschulöffentlichkeit, vor allem seitens der Studierenden, die als Datensubjekte direkt berührt sind (Howell et al. 2018; West et al. 2015). Die Beachtung datenschutzrechtlicher Vorgaben ist elementar (Ferguson et al. 2016; Selwyn und Gašević 2020); inzwischen liegen auch spezifisch für den deutschen Hochschulraum juristische Erörterungen zu Learning Analytics (Geminn et al. 2023) und Implementierungshinweise vor (Hansen et al. 2020; Scheidig und Holmeier 2021). Werden Studierenden- und Studienverlaufsdaten nicht – wie in der vorliegenden Studie – aggregiert, sondern personenbezogen ausgewertet, etwa um abbruchgefährdete Studierende zu kontaktieren, gelten hohe datenschutzrechtliche Hürden (für eine DSGVO-konforme Gestaltung eines Frühwarnsystems vgl. Hinkelmann und Jordine 2019). Eine ethisch verantwortungsvolle Datennutzung verlangt Sensibilität für die Implikationen der Verarbeitung besonders schützenswerter Daten und eine Erörterung des Umgangs mit potenziellen negativen Folgen (West et al. 2016), etwa das Eintreten einer Atmosphäre der Überwachung oder nicht-intendierter Effekte wie die Gefahr, dass Prognoseinformationen auf betroffene Studierende eine demotivierende Wirkung entfalten und den Studienabbruch befördern statt abwenden (selbsterfüllende Prophezeiung) (Scheidig 2021).

Durch die Verarbeitung von Hochschuldaten kann Wissen zu Wirkfaktoren und neuralgischen Merkmalskombinationen generiert werden, das in die Gestaltung von Studien‑, Beratungs- und Unterstützungsangeboten einfließen und auf diese Weise zur Optimierung der Lehrkräftebildung beitragen kann. Mit der Nutzung und Verknüpfung von Studienverlaufsdaten erschließt sich Lehrkräftebildner*innen ein bislang kaum genutzter Forschungszugang zur Erkenntnisgewinnung über Professionalisierungsprozesse, auch im Hinblick auf einzelne Studienbereiche bzw. Fächer. Die Auseinandersetzung mit den Möglichkeiten zur Analyse und Verknüpfung vorliegender Hochschuldaten, z. B. zum Zwecke der frühzeitigen Identifizierung von abbruchgefährdeten Studierenden, adressiert Data Literacy auf organisationaler und personaler Ebene (Gray et al. 2018; Schüller et al. 2019). In einer verstärkt von Facetten der Digitalität (Stalder 2016) geprägten Gesellschaft gewinnen auch im Bildungsbereich die realistische Einschätzung von Datenpotentialen, der reflektierte und datenschutzkonforme Umgang mit Daten sowie ein Bewusstsein für Limitationen und ethische Dimensionen der Datenverarbeitung an Bedeutung. Dies gilt auch für angehende Lehrkräfte, deren künftiges Berufsfeld ebenfalls von einer zunehmenden Datenverfügbarkeit durch digital repräsentierte Lernprozesse gekennzeichnet sein wird und einen kompetenten Umgang mit Daten erfordert. Vor diesem Hintergrund sind datenbezogene Praktiken an Hochschulen auch hinsichtlich ihrer Wirkung u. a. auf datenbezogene Haltungen der künftigen Lehrkräfte zu befragen, die im Rahmen des Studiums selbst in einer Lernendenrolle betroffen sind. Im Sinne der Wirkungskette der Lehrkräftebildung (Terhart 2012) ist die personenbezogene Nutzung von Hochschuldaten in Lehramtsstudiengängen damit sowohl bezugnehmend auf direkte Potenziale wie die Analyse und Prognose von Studienabbrüchen als auch bezüglich der Bedeutung für Schule und Unterricht zu diskutieren.