Schritt 1: Itemgenerierung und qualitative Pilotierung
Das Ziel der Skalenerstellung war, kognitive und ressourcenbezogene Strategien bezüglich ihres Gebrauchs in der Hochschulmathematik zu spezifizieren und auszudifferenzieren. Dafür wurden einzelne Items aus dem LIST-Fragebogen übernommen und ggf. angepasst und weitere Items von den Autorinnen und Autoren formuliert. Dabei wurden entsprechend den Überlegungen aus Abschn. 2 Formulierungen gewählt, welche die Arbeit mit Definitionen, Aussagen, Beweisen und Beispielen beschreiben, wobei letztere sowohl inner- als auch außermathematisch sein konnten. Zudem wurden das Verkürzen von Aussagen und Generieren von Merkregeln bedacht. Weil sie inhaltlich schwer abzugrenzen waren, wurden die 28 Items zu Elaborations- oder Organisationsstrategien als ein Itempool gemeinsam analysiert, um Teilskalen auf Basis der empirischen Ergebnisse zu festzulegen. In Erhebung 4 wurden außerdem zwölf Items zu Wiederholungsstrategien eingesetzt, die typische Formen wiederholenden Lernens im Studium wie das Üben von Verfahren abbilden sollten. Zur Anstrengung wurde die entsprechende Skala aus dem LIST um drei Items ergänzt, die nicht hohen Zeiteinsatz, sondern das Durchhalten trotz Frustration abbilden sollten (Carlson 1999). In Erhebung 2 wurden daneben noch sechs Items eingesetzt, die Anstrengung bei Übungsblättern erfassen sollten. Die Skala zum Lernen mit anderen Studierenden wurde inhaltlich aus dem LIST übernommen, es wurden aber für Erhebung 2 fünf neue Items erzeugt, die durch Einbezug von Aufgaben und Lösungen an das Lernen von Mathematik angepasst sind. Hier wurde keine Unterteilung der Skala angestrebt. Die Formulierungen der finalen Items finden sich im Online-Supplement.
Vor der ersten quantitativen Erhebung wurde in drei Fokusgruppen geprüft, inwieweit Studierende die Fragen verstehen und mit den Antwortkategorien zurechtkommen (vgl. Bühner 2011, S. 89–90; Jonkisz et al. 2012, S. 70). Die ersten beiden Gruppen bestanden aus je vier Studierenden aus einer Analysis-2-Vorlesung an der Universität Paderborn, die im zweiten Fachsemester Mathematik, Technomathematik oder Mathematik für das Gymnasiallehramt studierten. Die dritte Gruppe bestand aus fünf Studierenden der Wirtschaftspädagogik mit Unterrichtsfach Mathematik im zweiten bzw. vierten Fachsemester, die aus einer Vorlesung zur Geometrie an der Leuphana Universität Lüneburg gewonnen wurden. Das Alter der Befragten streute zwischen 20 und 27 Jahren, neun der 13 Befragten waren weiblich. Die Studierenden hatten die Aufgabe, jeweils für sich den Fragebogen auszufüllen und dabei unverständliche Fragen zu markieren oder anderweitige Unklarheiten zu notieren. Im Anschluss sollten sie diese Punkte in der Gruppe ansprechen. Die Gespräche wurden digital aufgezeichnet und die Fragebögen mit den Notizen einbehalten und analysiert. Die große Mehrheit der Items war für die Studierenden verständlich, einzelne Items wurden kritisch diskutiert und daraufhin umformuliert.
Schritt 2: Skalenfestlegung
Zu den verschiedenen Lernstrategien ergaben oder bestätigten sich in den vier Erhebungen der ersten Studie insgesamt zehn Skalen, die Strategien stärker ausdifferenzieren oder für die Hochschulmathematik kontextualisieren, siehe Abb. 2.
Ausdifferenzierung des Itempools zu Elaboration und Organisation
Bereits in Erhebung 1 zeigte sich bei der Analyse des Itempools ein klarer Faktor aus sieben Items, die das Analysieren und Nachvollziehen, d. h. die Nutzung von Beweisen beschreiben (z. B. „Ich versuche, die Beweise der Sätze nachzuvollziehen“). Sie luden mit mindestens 0,60 auf diesen Faktor und mit höchstens 0,23 auf andere Faktoren, entsprechend den Empfehlungen für die Interpretation eines Faktors. Auf ein Item wurde im Weiteren verzichtet, weil es sich nicht explizit auf Beweise bezieht. Die Nutzung von Beweisen wurde definiert als die Strategie, Beweise inhaltlich nachzuvollziehen. Das beinhaltet die Analyse sowohl der Argumente, bei der (Schritt für Schritt) die Gültigkeit des Beweises nachgeprüft wird, als auch der Argumentation, bei der die Form der Begründung herausgearbeitet wird. Beweise können beim Lernen ausgelassen werden, insofern spiegelt die Beschäftigung mit ihnen eine strategische Entscheidung für die Erarbeitung von Inhalten entlang ihres fachlichen Zusammenhangs wider.
In den Erhebungen 1 und 2 wurde außerdem in Modellen mit unterschiedlich vielen Faktoren jeweils ein Faktor aus vier Items zur Herstellung von Beziehungen des Lernstoffes zu Anwendungen sichtbar (Praxisbezug herstellen). Alle Ladungen waren größer als 0,40 und bei drei Items war die Ladung stets oberhalb von 0,60. Die größte Nebenladung war kleiner als 0,30. Da die Empfehlungen von Bortz und Schuster (2010) fast erreicht waren und sich dieser Faktor wiederholt gezeigt hatte, wurde er als Skala festgelegt. Die Items enthalten durchweg Begriffe, die explizit auf außermathematisches Wissen verweisen, mit dem neue Inhalte vernetzt werden sollen (z. B. „reale Welt“ oder „Alltagsleben“). Die Strategie Praxisbezug herstellen wurde so definiert, dass Inhalte (z. B. beim Modellieren) mit der außermathematischen Realität verbunden werden, z. B. mit physikalischen oder alltäglichen Begriffen. Dabei geht es nicht darum, ob die Modellierung hilfreich oder aus Anwendersicht überhaupt sinnvoll ist. Zentral ist die Illustration des Stoffes in einem Kontext außerhalb der Fachmathematik, ähnlich wie schon bei einer Skala von Eley und Meyer (2004).
In den Erhebungen 1 und 2 wurde außerdem ein Faktor zum Vernetzen von Inhalten sichtbar, wobei Querladungen mit anderen Faktoren auftraten. Daraufhin wurden Items modifiziert und ergänzt. In Erhebung 3 bestätigte sich der Faktor zum Vernetzen mit sechs Items mit Hauptladungen ab 0,39 und Querladungen unter 0,20, sodass er festgelegt wurde. Zu diesem Faktor bündelten sich Items, die eher abstrakte Beschreibungen von Vernetzung enthalten (z. B. „Ich versuche zu verstehen, wie neue Inhalte mit dem zuvor Gelernten zusammenhängen“). Das Vernetzen beschreibt Lerntätigkeiten, um Zusammenhänge zwischen den neuen Inhalten und anderen Themen und Wissensbereichen herzustellen, also das Herausarbeiten von Verbindungen zu bestehendem Wissen. Es ist am wenigsten spezifisch für Mathematik und entspricht dem, was im LIST-Fragebogen als Elaboration operationalisiert ist. Es ist seiner Natur nach ein breites Konstrukt, weil es viele Wege zur Vernetzung gibt.
In den Erhebungen 1 und 2 zeigte sich dazu eine Gruppierung von Items zur Nutzung von Beispielen. Die Itemzuordnung in den verschiedenen Modellen war nicht für alle Items konsistent und es traten Querladungen auf. Zur inhaltlichen Ausschärfung wurden daher einzelne Items modifiziert. Die sechs Items zur Nutzung von Beispielen hatten dann in Erhebung 3 Trennschärfen von mindestens 0,37. Allerdings zeigten sich teils hohe Nebenladungen oder Vermischungen mit den Items zum Vereinfachen von Inhalten (s. unten). Beide Strategien sind inhaltlich ähnlich, da die Betrachtung eines Beispiels oft auch eine Vereinfachung darstellt. Von einer weiteren explorativen Analyse der Items wurde aufgrund des klaren Konstrukts abgesehen; eine vergleichbare Skala findet sich schon bei Eley und Meyer (2004). Zur weiteren Nutzung wurden zwei neue Items anhand der Skalenbeschreibung ergänzt. Die Strategie der Nutzung von Beispielen besteht darin, zu lernende Inhalte durch Beispiele anzureichern. Ob diese dafür neu erzeugt oder recherchiert werden oder bereits bekannt sind, spielt keine Rolle. In dieser Skala bildet sich die eingangs beschriebene Besonderheit der Hochschulmathematik ab, dass Beispiele ein zentrales Hilfsmittel beim Lernen sind.
Zudem zeigte sich in den Erhebungen 1 und 2 eine Gruppe von Items zum Vereinfachen von Inhalten. Sie spiegeln die Strategie einer Transformation von komplizierten Inhalten auf eine weniger komplizierte Variante wider. Da mathematische Inhalte in der Regel schon so kompakt wie möglich präsentiert werden, müssen bei solchen Vereinfachungen Verfälschungen in Kauf genommen werden. Die Itemzuordnung in den verschiedenen Modellen war nicht für alle Items konsistent und es tauchten Querladungen auf, insbesondere zur Skala der Nutzung von Beispielen. Daraufhin wurden einzelne Items modifiziert. In Erhebung 3 hatte der Faktor aus drei Items Trennschärfen ab 0,38 und immer noch einzelne Querladungen. Von einer weiteren explorativen Analyse der Items wurde abgesehen, da sich inhaltlich wiederholt Hypothesen zur Strategie des Vereinfachens gezeigt hatten. Ergänzend wurden für diese Skala zwei neue Items formuliert. Das Vereinfachen besteht darin, komplexe Inhalte in weniger komplexe, ähnliche Inhalte zu überführen und sie dadurch auf ein überschaubares Niveau zu transformieren. Dabei sind Verfälschungen möglich und werden akzeptiert.
Die Skala zum Vernetzen und die Skalen zur Nutzung von Beispielen sowie zum Herstellen von Praxisbezug als spezifische Formen der Vernetzung werden als Elaborationsformen eingeordnet. Die letzten beiden Skalen verweisen auf die besondere Natur der abstrakten und a‑priori nicht angewandten Hochschulmathematik. Die beiden Faktoren Nutzung von Beweisen und Vereinfachen beziehen sich auf die innere Organisation des Stoffes bzw. auf Transformationen des Stoffes und werden den Organisationsstrategien zugeordnet.
Ausdifferenzierung der Items zum Wiederholen
Die Items zum Wiederholen zerfielen in drei klare Faktoren mit Hauptladungen größer 0,40 und Nebenladungen kleiner 0,30. Der erste Faktor bestand aus drei Items zum Üben von Verfahren und Rechenaufgaben, der zweite aus vier Items zum Wiederholen von Inhalten. Die Trennung dieser Faktoren lässt sich durch die Unterscheidung von prozeduralem und deklarativem Wissen theoretisch klar nachvollziehen. Beim Auswendiglernen wird deklaratives Wissen aufgebaut, indem man versucht, sich Inhalte durch Wiederholen zu merken. Beim Üben wird prozedurales Wissen aufgebaut, indem Inhalte wie Algorithmen und Rechenverfahren wiederholt durchgeführt werden, um sie sich besser merken zu können. Die Abgrenzung zum Auswendiglernen wird z. B. daran deutlich, ob man die Schritte eines Verfahrens wiederholt aufsagt oder ob man das Verfahren wiederholt durchführt. Der dritte Faktor schien inhaltlich dem zweiten Faktor ähnlich und beinhaltete fünf Items, von denen vier den Ausdruck „auswendig“ enthielten. Daher wurde er als Artefakt der Itemformulierungen angesehen und verworfen. Für die ersten beiden Skalen wurden neue Items formuliert, sodass für die weiteren Untersuchungen fünf Items zum Üben und sechs Items zum Auswendiglernen vorlagen.
Ausdifferenzierung der Items zur Anstrengung
In der explorativen Faktoranalyse der Items zur Anstrengung zeigten sich in Erhebung 1 die neuen Items mit Bezug auf das Aushalten von Frustration als eigener Faktor aus drei Items mit Ladungen oberhalb von 0,60 und ohne Querladungen. Auch wenn gemäß den Empfehlungen von Bortz und Schuster (2010) ein viertes Item für die Interpretation notwendig wäre, wurde dieser Faktor extrahiert, weil er inhaltlich klar ist. Diese Strategie der Frustrationsresistenz beschreibt die hartnäckige und wiederholte Auseinandersetzung mit Inhalten, die bisher als frustrierend erlebt wurde. Dagegen zeigt sich in den restlichen Items, die fast alle aus dem LIST-Fragebogen stammten, Anstrengung vor allem über den Einsatz von Zeit. Dieser zweite Faktor wurde nicht weiter betrachtet, da sich die Skala aus dem LIST dafür verwenden lässt.
Die in Erhebung 2 eingesetzten Items zur Anstrengung bei Übungsblättern wurden nicht faktoranalytisch untersucht, weil die Skala theoretisch bestimmt war. Sie beschreibt einen hohen Zeiteinsatz, eine hohe Toleranz von Frustration und die Ausrichtung auf möglichst vollständige Lösungen bei Übungsaufgaben. Die Kennzahlen zur Reliabilität sind zufriedenstellend, die geringste Trennschärfe ist 0,37 und Cronbachs α liegt bei 0,81. Aus ökonomischen Gründen wurde ein Item für die weiteren Erhebungen gelöscht, das inhaltlich redundant schien.
Lernen mit anderen Studierenden
Die Skala zum Lernen mit anderen Studierenden erhebt, inwieweit diese als externe Ressource genutzt werden, beispielsweise für die Diskussion offener Fragen oder das gemeinsame Bearbeiten von Übungsaufgaben. Diese Skala wurde konzeptionell aus dem LIST übernommen und ebenfalls nicht faktoranalytisch untersucht. Die Items haben sehr gute Trennschärfen ab 0,64 und die Skala erweist sich als intern konsistent (Cronbachs α = 0,86).
Schritt 3: Skalenreduktion
Die Skalen aus Studie 1 wurden unverändert in den vier Erhebungen von Studie 2 eingesetzt, um einen größeren Datenbestand für die Analyse und Itemselektion zu haben (vgl. Simms 2008). Vor der Testung der behaupteten Skalenstruktur mittels konfirmatorischer Faktoranalysen wurden die einzelnen Skalen separat analysiert.
Trennschärfe und Item-Korrelationen
Zunächst wurden die Trennschärfen, d. h. die korrigierten Item-Skala-Korrelationen, der Items bei allen acht Erhebungen betrachtet, sofern die jeweilige Skala dort vollständig eingesetzt worden war. Es wurden drei Items gestrichen, deren Trennschärfe unter der von Costello und Osborne (2005) zitierten Mindestanforderung von 0,32 lag. Bezüglich der Eindimensionalität der Skalen wurde geprüft, ob die paarweisen Korrelationen aller Items einer Skala mindestens bei 0,15 liegen (Simms 2008). Gemäß diesem Kriterium wurden je zwei Items zum Auswendiglernen, zur Nutzung von Beispielen und zum Vereinfachen gelöscht. Eine Korrelation zwischen zwei Items zum Vernetzen lag in Erhebung 8 nur bei 0,05; bei allen anderen Untersuchungen aber zwischen 0,25 und 0,61. Da die Teilnehmerzahl in Erhebung 8 relativ gering war, wurde vorläufig kein Item ausgeschlossen. Bei allen weiteren Skalen liegen die Korrelationen mindestens bei 0,15.
Ausschluss querladender Items
Zur Identifikation von querladenden Items wurde erneut eine explorative Faktoranalyse durchgeführt (Weiber und Mühlhaus 2014, Kapitel 7.2.1). Um mögliche Passungsprobleme bei einzelnen Stichproben zu erkennen, wurden die Daten von Erhebung 5, 6 und 7 getrennt analysiert, bei Erhebung 8 war der Stichprobenumfang für eine Analyse zu klein. Es wurden außer der Skala zur Anstrengung auf den Übungsblättern, die in den Erhebungen 5 und 7 nicht eingesetzt worden war, alle neun Skalen verwendet. Die Anzahl der Faktoren gemäß Eigenwertkriterium variierte zwischen acht und neun und wurde auf neun festgesetzt. Die Faktorstruktur ließ sich klar wiederfinden, einzig die beiden Wiederholungsformen waren zu einem Faktor kollabiert; dadurch entstand ein weiterer Faktor ohne klare Interpretation. Die Ergebnisse zeigten Passungsprobleme eines Items zur Nutzung von Beispielen und eines Items zum Vernetzen, die beide gestrichen wurden.
Selektion
Für die Entwicklung von Kurzskalen benennen Bortz und Döring (2016, S. 270) die Strategie, diejenigen Items mit den höchsten Trennschärfen auszuwählen. Allerdings kann die Verkürzung auf hochreliable Items die Validität einschränken, wenn eine zu enge Konstrukterfassung resultiert (Simms 2008). Angestrebt wurden jeweils Skalen mit vier Items. Bei den Skalen zum Beweisen, zum Üben und zum Lernen mit anderen Studierenden wurde angesichts der hohen Reliabilitätskoeffizienten und des klaren Inhalts eine Reduktion auf drei Items vorgenommen, bei den Skalen zum Praxisbezug, Vereinfachen und zur Frustrationsresistenz waren nach dem vorangegangenen Ausschluss nur drei Items übrig.
Bei den Skalen zum Beweisen, Vernetzen, zur Nutzung von Beispielen und zum Üben wurden jeweils die Items mit der höchsten Faktorladung ausgewählt. Bei der Skala zur Anstrengung bei Übungsaufgaben wurde ein Item mit minimal besserer Ladung jedoch gestrichen („Wenn ich die Aufgabenstellung nicht auf Anhieb verstehe, bearbeite ich die Aufgabe nicht“), weil es inhaltlich sehr ähnlich zu einem ausgewählten Item ist (vgl. Item 29, Online-Supplement). Bei der Skala zum Lernen mit anderen Studierenden zeigten sich zwischen den Items einige Korrelationen oberhalb von 0,70, die für eine hohe Redundanz der Items sprechen. Daher wurden zwei von vier Items gestrichen, die den Austausch in Gruppen zur Aufgabenbearbeitung adressieren.
Ausschluss und Selektion betrafen teils Items, die erst für spätere Erhebungen ergänzt worden waren. Dadurch ergab sich, dass einige Skalen in ihrer finalen Version bereits ab der ersten Erhebung verwendet worden waren (vgl. Tab. 4 für Werte der finalen Skalen in den entsprechenden Untersuchungen).
Schritt 4: Vergleichende konfirmatorische Faktoranalyse
Mit den ausgewählten Items wurde eine vergleichende, konfirmatorische Faktoranalyse durchgeführt. Da sich in der Literatur bisher keine bedeutungsvollen empirischen Strukturen oberhalb einzelner Lernstrategien zeigten (Blickle 1996; Baumert 1993; Boerner et al. 2005), wurden im präferierten Modell 1 freie Korrelationen zwischen den latenten Variablen erlaubt (vgl. auch Griese 2017; Pintrich et al. 1993). Die Items wurden als Indikatoren ihrem latenten Konstrukt zugeordnet. Weitere Zuordnungen wurden nicht vorgenommen, siehe Abb. 3.
Eine alternative Struktur geben die Dimensionen des LIST-Fragebogens. Deshalb wurde Modell 2 betrachtet, das abweichend von Modell 1 je einen zentralen Faktor für Elaboration, Organisation, Wiederholung und inneres Ressourcenmanagement enthält und bei dem die neuen Strategien unterhalb dieser Faktoren ausdifferenziert werden, siehe Abb. 4.
Zudem wurde Modell 3 betrachtet, bei dem nur diese Oberfaktoren gegeben sind, die direkt mit den zugehörigen Items verbunden sind, siehe Abb. 5. Diese drei Modelle wurden in je zwei Varianten geprüft. In Modellvariante (a) wurden nur die Daten aus Studie 2 verwendet, bei der die Skalen bereits festgelegt waren. Daten zur Skala zur Anstrengung bei Übungsaufgaben sind hier allerdings für nur knapp 200 Befragte enthalten. Daher wurden in Variante (b) die Daten der Studien 1 und 2 komplett einbezogen. Die Fit-Indizes finden sich in Tab. 3.
Tab. 3 Fit-Indizes der konfirmatorischen Faktoranalysen verschiedener Modelle Die Passung von Modell 1 ist gut. Der eher hohe \(\chi ^{2}/df\)-Wert ist aufgrund der großen Stichprobe gerechtfertigt und die Werte für TLI und CFI sind unter Berücksichtigung des sehr guten RMSEA und der Modellgröße gut. Die Passung von Modell 2 ist akzeptabel, aber schlechter als die Passung von Modell 1. Die Passung von Modell 3 ist nicht akzeptabel. Die Güte der beiden Modellvarianten (a) und (b) ist dabei stets vergleichbar. Der RMSEA der Nullmodelle zu den getesteten Strukturgleichungsmodellen liegt mit Ausnahme von Modell 1 (a) stets unter 0,158; also passen die Nullmodelle bereits recht gut (Kenny 2015). Der Vergleich der drei spezifizierten Modelle zeigt, dass die übergeordnete Struktur nicht viel aufklärt, die neu ausdifferenzierten Strategien dagegen viel. Dadurch ist die Faktorstruktur auch im Vergleich zu anderen plausiblen Strukturen bestätigt.
Schritt 5: Konstruktvalidierung
Zur Validität wird zunächst die Konstruktvalidität betrachtet, die sich in theoretisch begründeten Korrelations- und Faktorstrukturen widerspiegelt (Bühner 2011, Kapitel 2.5). Dazu werden Mittelwertunterschiede und Korrelationsmuster zwischen Studiengruppen betrachtet.
Zusätzlich erhobene Konstrukte
Für Korrelationsmuster wurden zusätzlich Daten zur Organisation und Anstrengung erhoben. Zum Organisieren wurde eine Kurzskala aus drei Items des LIST-Fragebogens gebildet. Zur Anstrengung wurden aus der entsprechenden Skala des LIST vier Items ausgewählt, die den Einsatz von Zeit besonders betonen, und um ein fünftes Item ergänzt („Wenn es sein muss, verzichte ich für das Lernen auch auf meine Freizeitaktivitäten“).
Außerdem werden Zusammenhänge zum Interesse und zum mathematischen Selbstkonzept (MSK) betrachtet. Zum Interesse an Hochschulmathematik wurde der Fragebogen zum Studieninteresse (Schiefele et al. 1993) auf zehn Items reduziert (je drei zur gefühlsbezogenen Valenz und dem intrinsischen Charakter, vier zur wertbezogenen Valenz) und die Itemformulierungen wurden angepasst, indem „mein Studienfach“ und ähnliche Bezeichnungen durch den Ausdruck „Hochschulmathematik“ ersetzt wurden. Das mathematische Selbstkonzept wurde mit einer Skala aus SESSKO (Schöne et al. 2002) in der im LIMA- bzw. KLIMAGS-Projekt für Hochschulmathematik adaptierten Fassung erhoben (Kolter et al. 2018). Die Reliabilität der Organisation war in Erhebung 4 unerwartet gering, ansonsten sind die Werte akzeptabel bis sehr gut, siehe Tab. 4.
Tab. 4 Anzahl der Items und Reliabilitätskoeffizient Cronbachs α für ergänzende Skalen Mittelwertunterschiede zwischen Gruppen
Da sich aus der Literatur keine Hypothesen zu Unterschieden zwischen der Verwendung mathematikbezogener Lernstrategien in verschiedenen Studiengängen ableiten lassen, müssen zunächst zu erwartende Unterschiede argumentativ hergeleitet werden. Wesentliche Unterschiede zwischen Studiengängen finden sich beim Beweisen, das im Lehramts- und Fachstudium prominenter als in den Anwendungsdisziplinen ist. Dagegen haben dort die Kalküle einen höheren Stellenwert. Insofern ist zu erwarten, dass die Nutzung von Beweisen in der Fach- und Lehramtsausbildung stärker ausfällt als in den Serviceveranstaltungen. Umgekehrt sollte die Strategie des Übens, das stark auf Kalküle ausgerichtet ist, bei den Serviceveranstaltungen stärker genutzt werden. Beide Vermutungen lassen sich anhand der vorliegenden Daten bestätigen. Die Mittelwerte in den Serviceveranstaltungen (Erhebungen 1, 3, 5 und 7) liegen bei der Nutzung von Beweisen stets niedriger, beim Üben stets höher als die Mittelwerte der Fach- und Lehramtsstudierenden (Erhebungen 2, 4, 6 und 8), siehe Tab. 5. Die Unterschiede werden durch t‑Tests bei paarweisen Vergleichen stets mit p < 0,001 bestätigt, mit Ausnahme von Erhebung 8 mit sehr kleiner Teilnehmerzahl.
Tab. 5 Mittelwerte M und Standardabweichungen (SD) der Lernstrategien und weiterer Skalen nach Erhebungen Korrelationen
Einige Annahmen über Korrelationsmuster zwischen Lernstrategien lassen sich aus der Literatur ableiten. Zu manchen für die Hochschulmathematik spezifischen Strategien waren uns aber keine Ergebnisse bekannt (z. B. Üben oder Frustrationsresistenz), sodass hierfür Erwartungen theoretisch abgeleitet wurden.
In der Literatur finden sich geringe positive Zusammenhänge zwischen den Strategien der Elaboration, Organisation, Wiederholung, Anstrengung sowie der Strategie des Lernens mit anderen Studierenden. Anstrengung korreliert mit Wiederholung und Organisation sogar mittelhoch und zwischen Wiederholung und Organisation zeigen sich hohe Zusammenhänge (Baumert 1993; Griese 2017; Klostermann et al. 2014; Pintrich et al. 1993; Schiefele und Wild 1994). Außerdem sollten aufgrund ihrer Ähnlichkeit als Wiederholungsstrategien auch zwischen dem Üben und dem Auswendiglernen hohe Korrelationen zu beobachten sein. Des Weiteren sind zwischen den drei Formen von Anstrengung aufgrund ihrer Ähnlichkeit hohe Korrelationen zu erwarten. Daneben kann man Zusammenhänge zwischen der LIST-Skala zum Organisieren und den Skalen zur Nutzung von Beweisen und zum Vereinfachen erwarten, die der Organisation zugeordnet werden. Allerdings ist die Operationalisierung der Organisation im LIST stark auf technische Aspekte der Transformation von Wissen fokussiert, also z. B. auf das Anfertigen von Listen. Die Skalen zur Nutzung von Beweisen und zum Vereinfachen fokussieren stärker inhaltliche Transformationen des Wissens. Daher sind zwar positive, aber eher geringe Zusammenhänge zu erwarten. Zusammengefasst sind im gesamten Bereich der ersten zwölf Konstrukte, zu denen die Korrelationen in Tab. 6 angegeben sind, geringe positive Korrelationen zu erwarten, zwischen den Wiederholungsstrategien (Zeilen 6 und 7) und den Formen der Anstrengung (Spalten 8 und 12) mittelhohe und mit der LIST-Organisationsskala (Spalte 11) hohe Korrelationen, zudem hohe Korrelation innerhalb der beiden Wiederholungsstrategien (Zeile 6, Spalte 7) und zwischen den Formen der Anstrengung (Zeilen 8 und 9 mit Spalten 9 und 12).
Tab. 6 Niedrigster Korrelationskoeffizient, Median und höchster Korrelationskoeffizient eingesetzter Skalen in Erhebung 1–8 Diese Korrelationsmuster bestätigen sich fast durchgängig in den Daten der vorliegenden Erhebungen. Korrelationstabellen für die einzelnen Erhebungen finden sich als Online-Material (ESM_1.pdf). Eine Ausnahme findet sich bei der Skala zum Herstellen von Praxisbezügen, die nicht wie andere Elaborationsstrategien empirisch mit Üben, Auswendiglernen, Anstrengung, Lernen mit anderen Studierenden und Organisation zusammenhängt (Zeile 3). Praxisbezüge werden in hochschulmathematischen Lehrveranstaltungen selten hergestellt und in Prüfungen nicht verwendet. Diese Strategie könnte auf ein untypisches Lernverhalten, z. B. bei Überforderung, hindeuten, wenn aufgrund fehlenden Fachwissens außermathematische Bezüge für die Begriffsbildung an Bedeutung gewinnen. Eine Abweichung des Korrelationsmusters ist daher plausibel. Weitere Ausnahmen betreffen Erhebung 8, in der sich die erwarteten Zusammenhänge zwischen dem Lernen mit anderen Studierenden und Wiederholen sowie Anstrengung bei Übungsaufgaben nicht herstellen, ebenso der Zusammenhang zwischen Üben und der Frustrationsresistenz. Einzelne, unerwartet niedrige Zusammenhänge zeigen sich in Erhebung 8 außerdem zwischen den Elaborationsformen Vernetzen und Nutzung von Beispielen und dem Lernen mit anderen Studierenden. Auch die Zusammenhänge von Organisieren und den beiden Wiederholungsstrategien Üben und Auswendiglernen fallen hier etwas geringer aus als in der Literatur beschrieben. Dies mag einerseits am geringen Stichprobenumfang von Erhebung 8 liegen, bei dem schon einzelne Studierende mit untypischem Verhalten die Ergebnisse stark beeinflussen können. Erhebung 8 war aber auch die einzige in einem höheren Studiensemester. Da alle unerwarteten Ergebnisse hier durch besonders geringe Korrelationen gegeben sind, könnte auch das Lernverhalten in höheren Semestern stärker ausdifferenziert sein, sodass weniger Studierende überall eher hohe oder überall eher niedrige Werte angeben.
Die Literaturlage lässt außerdem erwarten, dass Interesse und Selbstkonzept mit der Nutzung inhaltlich anspruchsvoller Lernstrategien zusammenhängen (Helmke und Schrader 1999; Klostermann et al. 2014; Rach 2014). Dazu zählen insbesondere das Vernetzen und die Nutzung von Beweisen. Dagegen können kaum Zusammenhänge mit oberflächlichem Lernen, hier also Üben und Auswendiglernen, am Studienanfang erwartet werden, wohl aber im zweiten Jahr (Helmke und Schrader 1999). Interesse hängt außerdem positiv mit Anstrengung zusammen (Schiefele et al. 2003). Die Korrelationen unserer Erhebungen bestätigen diese Erwartungen (Spalten 13 und 14) mit einer Ausnahme: In Erhebung 8 fand sich kein positiver Zusammenhang zwischen dem Selbstkonzept und dem Vernetzen sowie dem Üben bzw. Auswendiglernen, obwohl die Studierenden mindestens im zweiten Studienjahr waren. Erneut könnte sowohl eine Verzerrung durch die kleine Stichprobe oder ein spezifisches Lernverhalten in höheren Semestern ursächlich sein.
Schritt 6: Kognitive Validierung
Die fünf Skalen, die aus dem Itempool zu Elaborations- und Organisationsstrategien explorativ gewonnen wurden (Vernetzen, Nutzung von Beispielen, Herstellen von Praxisbezügen, Nutzung von Beweisen, Vereinfachen), wurden zur Absicherung der Inhaltsvalidität kognitiv validiert (Berger und Karabenick 2016; Karabenick et al. 2007). Die Validierung klärt, inwieweit sich die Vorstellungen der Befragten bei der Beantwortung eines Items mit den Beschreibungen des dahinterstehenden Konstruktes decken. Teilgenommen an dieser Studie haben zehn Lehramtsstudierende der Universität Hannover im fünften und siebten Fachsemester. Sechs von ihnen waren weiblich, das Alter lag zwischen 20 und 25 Jahren.
Jeweils drei Items der Skalen wurden entsprechend dem Vorgehen von Berger und Karabenick (2016) analysiert. Den Studierenden wurde in Einzelinterviews jeweils ein Item gezeigt. Sie wurden gebeten, das Item laut vorzulesen und im Anschluss zu erläutern, auf welche Information das Item abzielt (Interpretation). Weiter sollten sie angeben, welche Antwortmöglichkeit sie markieren würden (Antwort) und erläutern, wie sie auf diese Antwort kamen (Erklärung). Die Interviews wurden aufgezeichnet und wörtlich transkribiert. Anschließend codierten zwei Personen unabhängig voneinander dichotom, ob die Interpretation zur Beschreibung der Skala passt, ob die Antwort zur Erklärung passt und ob diese Erklärung sich auf den Inhalt des Items bezieht. Die Urteile stimmten zu 96 % überein. Cohens Kappa als Maß der Intercoderübereinstimmung liegt für die drei codierten Fragen zwischen 0,68 und 0,72 und damit im guten Bereich (Döring und Bortz 2016, S. 346 f.). In Tab. 7 sind die durchschnittlichen Passungswerte für alle Items dargestellt. Sie liegen stets oberhalb des Wertes von 0,66, der für Berger und Karabenick (2016) die Grenze zu problematischen Items markiert. Verhältnismäßig problematisch war, die Passung der Interpretation der Items zu codieren. Den Befragten fiel es generell schwer, verschiedene Strategien zu beschreiben, ohne einfach die Formulierungen der Items zu wiederholen. Insgesamt zeigt sich eine hohe Inhaltsvalidität.
Tab. 7 Anteil passender Einschätzungen der Validitätsfacetten der Items in Erhebung 9 Reliabilitätsprüfung
Zur Reliabilität wird in Tab. 8 der Wert von Cronbachs α als Maß der internen Konsistenz der finalen Skalen angegeben. In der Literatur wird oft eine Untergrenze von 0,70 diskutiert (Cho und Kim 2015; Cortina 1993; Schmitt 1996). Geringere Werte können allerdings akzeptabel sein, wenn wie im vorliegenden Fall keine individuelle Diagnostik erfolgt, sondern die Daten nur auf Gruppenebene ausgewertet werden (Döring und Bortz 2016, S. 443). Zudem muss bedacht werden, dass Skalen mit größerer Zahl an Items bei gleicher mittlerer Korrelation ein höheres α erzielen (Cho und Kim 2015; Cortina 1993; Schmitt 1996). Die Reliabilitätswerte sind insgesamt zufriedenstellend, insbesondere bei Berücksichtigung der Kürze der Skalen.
Tab. 8 Reliabilitätskoeffizient Cronbachs α der Lernstrategie-Skalen aus Modell 3 für Erhebung 1–8