In diesem Kapitel werden die quantitativen Erhebungen beschrieben, die für die Messung der Auswirkungen der Intervention verwendet wurden. Zunächst wird in Abschnitt 7.1 beschrieben, welche Daten erhoben wurden. Abschnitt 7.2 beschreibt die Zusammensetzung der Stichprobe. In Abschnitt 7.3 werden die quantitativ zu beantwortenden Forschungsfragen präzisiert, bevor in Abschnitt 7.4 die Vergleichbarkeit von Kontroll- und Interventionsgruppe anhand der Ergebnisse des Prätests diskutiert wird. Daran schließt die eigentliche Auswertung an. In Abschnitt 7.5 wird der Einfluss der Intervention auf die Klausur beschrieben, Abschnitt 7.6 ermittelt den Einfluss auf die Bearbeitung der Hausaufgaben und in Abschnitt 7.7 wird die Teilnahme an den Übungsgruppen untersucht. Zuletzt werden in Abschnitt 7.8 die Ergebnisse zusammengefasst.

7.1 Erhebung der Daten

Ziel der Intervention war es, die Problemlösekompetenz der Teilnehmenden zu verbessern. Allerdings ist diese nicht ohne Weiteres messbar. Dafür hätte man zumindest eine statistisch relevante Stichprobe aller Probanden mehrere Probleme bearbeiten lassen müssen. Die in Kapitel 5 betrachteten Prozesse haben, wenn sie nicht frühzeitig abgebrochen wurden, mindestens eine halbe Stunde, häufig eher eine Stunde pro Aufgabe in Anspruch genommen. Möchte man mehr als nur eine Aufgabe dieser Art testen, braucht man entsprechend viel Zeit, die im Rahmen der Lehrveranstaltung, vor allem gegen Ende des Semesters, wenn alle mit der Klausurvorbereitung beschäftigt sind, nicht zur Verfügung stand (auch da immer unterschiedliche Dozenten hätten überzeugt werden müssen, hierfür Zeit ihrer Lehrveranstaltung abzutreten). Ein zusätzlicher Termin, an dem ein Großteil der Studierenden teilnimmt, war ohne zusätzliche Anreize ebenfalls nicht denkbar. Die Problemlösekompetenz an sich zu messen, kam also nicht in Frage.

Um mit vertretbarem Aufwand trotzdem eine Aussage zur Wirkung der Maßnahme treffen zu können, wurde an Stelle eines Posttests der Erfolg bei der jeweiligen Klausur am Ende des Semesters gemessen. Zwar ist fraglich, ob und inwiefern die hier gestellten Aufgaben tatsächlich Probleme darstellenFootnote 1, es ist aber auch interessant zu klären, ob die Fokussierung von Strategien und die Reflexion der Prozesse, durch die sicherlich andere Aspekte (z. B. das Aufbauen von Routinen durch Üben) vernachlässigt werden, nicht auch negative Auswirkung auf den Klausurerfolg haben können.

Auch ein klassischer Prätest, der entweder Problemlösekompetenz oder dasselbe wie der Posttest (also die Klausur) misst, war nicht möglich. Hier war ebenfalls die zur Verfügung gestellte Zeit ein Hauptfaktor. In Anbetracht der im Universitätsalltag verfügbaren Zeit war es nötig, Wege zu finden, den Aufwand gering zu halten. Daher war es, auch im Hinblick auf das Vorwissen der Studierenden zu Beginn des Semesters, nicht sinnvoll, klausurähnliche Aufgaben zu stellen. Stattdessen wurde in einer der Vorlesungen der ersten Semesterwoche ein Test mit Aufgaben auf Schulniveau gestelltFootnote 2, um einen Anhaltspunkt dafür zu haben, ob die Studierenden aus Interventions- und Kontrollgruppe sich in Hinsicht auf ihrer mathematische Fähigkeiten wesentlich unterscheiden. Um hierbei die Testzeit bestmöglich auszunutzen, wurden durch die Aufgabenauswahl Schwierigkeiten, die auf Rechenfertigkeiten zurückzuführen sind, weitgehend eliminiert. Der Test hat im Wesentlichen das Vorwissen der Probanden abgefragt. Auch bei den hier gestellten Aufgaben handelt es sich eher um Routine- als Problemaufgaben. Ein Beispiel für einen solchen Test für die Analysis ist in Anhang C zu finden. In manchen Zyklen wurden zusätzlich Fragebögen zu Lernstrategien bzw. zu Need for Cognition ausgegeben (diese werden in Abschnitt 7.4 beschrieben).

Um die Teilnahme an Interventions- und Kontrollgruppe nachvollziehen zu können, wurden Anwesenheitslisten geführt. Darüber hinaus wurden, wie in Anfängervorlesungen üblich, die wöchentlich abzugebenden HausaufgabenFootnote 3 bepunktet, um eventuelle Verbesserungen erkennen zu können.

Zusätzlich dazu wurde untersucht, ob die Zugehörigkeit zur Interventions- oder Kontrollgruppe auf die Teilnahme an den Übungsstunden oder an der Klausur ausgewirkt hat.

7.2 Stichprobe

Die hier vorgestellten Erhebungen beschränken sich auf die letzten drei Zyklen der Maßnahme (zwei Wintersemester und ein Sommersemester). Das hängt zum einen damit zusammen, dass in den ersten Durchgängen die Interventionsgruppe nur aus ein oder zwei Übungsgruppen bestand, wodurch quantitative Messungen wenig sinnvoll erschienen (unter anderem ist hier der Einfluss der Tutorenpersönlichkeit auf die zu messenden Merkmale als zu stark eingeschätzt worden), zum anderen wurde die Interventionsmaßnahme in den letzten Zyklen als vergleichsweise stabil eingeschätzt, d. h. die größten Modifikationen wurden in den vorherigen Durchgängen vorgenommen, während es nach dem fünften Zyklus nur noch kleine Veränderungen gab. Insgesamt haben sich im betrachteten Zeitraum 598 Studierende in eine Übungsgruppe eingetragen. Leider ist es nicht gelungen, von allen Übungsgruppen Anwesenheitslisten zu bekommen, um zu überprüfen, ob diese Studierenden auch wirklich dort erschienen sind. Zieht man die Studierenden, von denen diese Information nicht vorlag, und diejenigen, von denen man weiß, dass sie nie zu einer Übung erschienen sind, ab, so bleiben 367 Probanden übrig. Da hier aber Auswirkungen von Interventions- und Kontrollgruppe betrachtet werden sollen, wurden nur Studierende berücksichtigt, die mindestens an der Hälfte der Übungsstunden teilgenommen haben. Durch dieses Ausschlusskriterium bleiben noch insgesamt \(N=177\) Probanden übrig, \(N_I=95\) aus der Interventionsgruppe und \(N_K=82\) aus der KontrollgruppeFootnote 4. Selbstverständlich handelt es sich hierbei um eine Positiv-Auswahl, da Studierende, die frühzeitig abbrechen oder aus anderen Gründen nicht regelmäßig zu den Übungen erscheinen können, ausgeschlossen werden, aber eine Wirkung der Maßnahme kann nur bei Teilnahme gemessen werden.

7.3 Präzisierung der Forschungsfragen

Die in Kapitel 3 gestellte Frage

Forschungsfrage 3::

Welche Auswirkungen hat die Intervention auf den Klausurerfolg sowie die Teilnahme an den Übungsgruppen und die Bearbeitung der Hausaufgaben im ersten Semester?

soll an dieser Stelle genauer ausdifferenziert werden. Jede Teilfrage wird im entsprechenden Abschnitt ausführlicher erläutert. Die ersten drei Teilfragen beziehen sich auf die Klausur am Ende des Semesters:

Forschungsfrage 3a::

Wirkt sich die Teilnahme an der Intervention auf das Bestehen der Klausur aus?

Forschungsfrage 3b::

Wirkt sich die Teilnahme an der Intervention auf die Punktzahl in der Klausur aus?

Forschungsfrage 3c::

Wirkt sich die Teilnahme an der Intervention auf die Teilnahme an der Klausur aus?

Diese ersten drei Teilfragen werden in Abschnitt 7.5 behandelt.

Neben den Auswirkungen auf die Klausur werden auch mögliche Veränderungen während des Semesters in Augenschein genommen:

Forschungsfrage 3d::

Wirkt sich die Teilnahme an der Intervention auf die Punktzahl der Hausaufgaben aus?

Dieser Frage wird in Abschnitt 7.6 nachgegangen.

Forschungsfrage 3e::

Wirkt sich die Teilnahme an den ersten Einheiten der Intervention auf die weitere Teilnahme an den Übungsgruppen aus?

Da in dieser Frage nach der Teilnahme an Übungsgruppen gefragt wird kann diese nicht vorher schon als Auswahlkriterium verwendet werden. Näheres zur Filterung der Probanden findet sich mit der weiteren Besprechung dieser Frage in Abschnitt 7.7.

7.4 Vergleichbarkeit der Gruppen

Bevor die oben genannten Fragen beantwortet werden, soll in diesem Abschnitt sichergestellt werden, ob Interventions- und Kontrollgruppe ähnliche Eingangsvoraussetzungen haben. Da die Probanden nicht zufällig den beiden Gruppen zugeteilt wurdenFootnote 5, ist dies nicht selbstverständlich. Hierzu werden die Ergebnisse aus dem in Abschnitt 7.1 beschriebenen Prätest herangezogen. Bei der Bewertung der Aufgaben gab es nur die Möglichkeit, einen Punkt für eine komplett richtige Aufgabe oder keinen Punkt zu vergeben. Wie bereits erwähnt, wurden hier Mathematikaufgaben auf Schulniveau gestellt und dabei darauf geachtet, dass Rechenfertigkeiten keine zu große Rolle spielen. Exemplarisch ist in Anhang C der Test aus dem sechsten Zyklus dargestellt. Der Prätest aus dem fünften Zyklus unterscheidet sich hiervon nicht wesentlich, wenngleich die Inhalte eher auf die Lineare Algebra abgestimmt sind und aufgrund einer längeren Bearbeitungszeit mehr Fragen aufgenommen werden konnten. Zur besseren Vergleichbarkeit der beiden Jahrgänge wird die Punktzahl als Prozentsatz der Maximalpunktzahl betrachtet und liegt somit zwischen 0 und 100 %. Wie auch in den folgenden Abschnitten wurden nur diejenigen Studierenden bei der Auswertung beachtet, die mindestens an der Hälfte der Übungsstunden teilgenommen hatten. Um zu prüfen, ob sich Interventions- und Kontrollgruppe bezüglich der Leistung im Prätest unterscheiden, wurden die Ergebnisse einem t-Test unterzogen (vgl. Döring & Bortz, 2016):

Tabelle 7.1 Ergebnisse des Prätests im fünften und sechsten Zyklus

Tabelle 7.1 stellt die Anzahl N der Probanden, den Mittelwert \(\bar{x}\) als Anteil von der maximal erreichbaren Punktzahl, die Standard-Abweichung \(\sigma \), die Signifikanz p sowie die Effektstärke (Cohen’s) d dar. Hierbei gibt der p-Wert für die Signifikanz die Wahrscheinlichkeit dafür an, dass die Unterschiede zwischen den Gruppen zufällig bedingt sind. Ein Gruppenunterschied gilt als signifikant, wenn er kleiner als (willkürlich festgelegte) Grenzwerte ist, meist 0, 01, 0, 05 oder 0, 1 (vgl. Döring & Bortz, 2016). Wie man sieht, liegt zwar der Mittelwert bei der Interventionsgruppe etwas höher als bei der Kontrollgruppe, da der hier berechnete p-Wert von 0, 431 aber deutlich über den genannten Grenzen liegt, ist dieser Unterschied nicht signifikant, sondern vermutlich zufällig bedingt. Bei Cohens d spricht man ab Werten von 0, 2 von kleinen Effekten, ab 0, 5 von mittleren und ab 0, 8 von großen (vgl. Cohen, 2013). Der hier gemessene Wert von 0, 159 liegt also unterhalb dieser Schwellen. Hinzu kommt, dass es bei so deutlich nicht-signifikanten Unterschieden nicht sinnvoll ist, von Effekten zu sprechen. Man kann also davon ausgehen, dass sich Interventions- und Kontrollgruppe bezüglich der hier gemessenen Leistung nicht wesentlich unterscheiden.

Die hier betrachtete Stichprobe von 100 Probanden unterscheidet sich deutlich von den in Abschnitt 7.2 genannten 177 Studierenden. Hierfür gibt es zwei Gründe. Zum Einen wurde der Prätest im siebten Zyklus auf Wunsch des verantwortlichen Dozenten anonym durchgeführt. Dadurch sind zwar keine Rückschlüsse auf die Anwesenheit in den Gruppenübungen möglich, allerdings wurde die Zugehörigkeit zur Übungsgruppe und damit zur Interventions- oder Kontrollgruppe erfasst. Der Prätest dieses Zyklus wurde daher separat ausgewertet. Die Ergebnisse sind in Tabelle 7.2 dargestellt. Zum anderen haben nicht alle Probanden am Prätest teilgenommen. 23 Studierende haben zwar an mindestens 50 % der Übungen, nicht aber am Prätest teilgenommen. Dieser hat in der Regel in einer der ersten Vorlesungsstunden stattgefunden. Es gibt keine Hinweise darauf, dass die Teilnahme am Prätest Einfluss auf die betrachteten Faktoren (Klausurteilnahme, Klausurerfolg, Klausurpunktzahl, Anwesenheit in den ÜbungenFootnote 6, Übungspunkte) hat. Deshalb werden diese 23 Studierenden nicht von den weiteren Analysen ausgeschlossen. Dasselbe gilt für die Probanden aus dem siebten Zyklus, von denen nicht bekannt ist, ob sie am Prätest teilgenommen haben. Signifikante Unterschiede lassen sich auch hier nicht feststellen.

Tabelle 7.2 Ergebnisse des Prätests im siebten Zyklus

Zusätzlich zum mathematischen Teil der Prätests wurde im fünften Zyklus eine verkürzte Form des LIST-Fragebogens (Wild & Schiefele, 1994) im fünfstufigen Likert-Format gestellt, der ebenfalls in Anhang C zu finden ist. Hier wurden die Dimensionen Organisation (Items 1, 6, 13 und 21), Kollaboration (Items 2, 7, 12 und 16), Literaturnutzung (Items 3, 5 und 8), Metakognition (Items 4, 14, 18, 19 und 20), Elaboration (Items 9, 11, 15, 21 und 23) und Anstrengung (Items 10 und 17) erfasst. Tabelle 7.3 zeigt die Ergebnisse dieser Befragung.

Tabelle 7.3 Ergebnisse des LIST-Fragebogens im fünften Zyklus

Wie man sieht, gibt es auch hier keine signifikanten Unterschiede zwischen den beiden Gruppen. Zwar gibt es einen kleinen Effekt bei der Anstrengung zu Gunsten der Interventionsgruppe, dieser kann aber bei einem derartig hohen p-Wert vernachlässigt werden.

Im Zuge der zyklischen Weiterentwicklung der Maßnahme wurden auch die Messinstrumente modifiziert: Da die Aussagekraft eines Fragebogens, der die Lernstrategien im Studium abfragen soll, aber zu Beginn des ersten Semesters ausgefüllt wird, fraglich ist, wurde im sechsten Zyklus stattdessen ein Konstrukt gewählt, das „Engagement und Freude bei Denkaufgaben“ (Bless, Wänke, Bohner, Fellhauer & Schwarz, 1994) erfassen soll, die Need for Cognition. Der zugehörige Fragebogen befindet sich ebenfalls in Anhang C. Da es sich bei diesem Zyklus um ein Sommersemester handelt, sind die Fallzahlen entsprechend gering (vgl. Tabelle 7.4). Auch hier sind keine signifikanten Unterschiede zu erkennen. Im siebten Zyklus wurde auf Wunsch des Verantwortlichen Professors kein vergleichbarer Fragebogen verwendet.

Tabelle 7.4 Ergebnisse zur Need for Cognition im sechsten Zyklus

Insgesamt wurden bezüglich der gemessenen Eingangsvoraussetzungen keine signifikanten Unterschiede zwischen Interventions- und Kontrollgruppe gefunden. Der Vergleich beider Gruppen kann also wie geplant statistisch durchgeführt werden.

7.5 Auswirkungen auf die Klausur

In diesem Abschnitt sollen die Forschungsfragen 3a bis 3c (vgl. Abschnitt 7.3) behandelt werden. Es geht also um den Einfluss der Maßnahme auf die Bestehensquoten der Klausur (a), die Punktzahl in der Klausur (b) sowie die Teilnahme an der Klausur (c). In allen drei Fällen, wie auch in den folgenden Abschnitten, geht es um den Vergleich der Interventionsgruppe mit der Kontrollgruppe. Neben einem positiven Einfluss der Intervention ist, vor allem da sich diese auf Problemlösekompetenzen konzentriert, die Klausur aber eher Routineaufgaben beinhaltet, auch ein negativer denkbar. In Bezug auf die Klausurteilnahme ist ein positiver Einfluss denkbar, wenn etwa die Teilnehmer der Maßnahme sich aufgrund der intensiven Reflexion von Bearbeitungsprozessen eher zutrauen, die Klausuraufgaben zu lösen.

Nimmt man die Punktzahl in der Klausur als Maß, so eignet sich hierfür wieder ein t-Test (vgl. Döring & Bortz, 2016). Da es sich beim Bestehen der Klausur und bei der Teilnahme daran aber um duale (Ja/Nein), also insbesondere keine metrischen Ereignisse handelt, eignet sich hierfür eher ein \(\chi ^2\)-Test. Tabelle 7.5 stellt die Bestehensquote der beiden Gruppen dar. Hier und in den folgenden Abschnitten werden die Ergebnisse der Zyklen fünf bis sieben betrachtet (vgl. Abschnitt 7.2).

Tabelle 7.5 Ergebnisse der Klausur gemäß Forschungsfrage 3a

Hier wird ein anderes Maß für die Effektstärke verwendet als bisher. An Stelle des bei t-Tests üblichen d wird hier (Cramers) \(\phi \) verwendet, was bei \(2 \times 2\)-Ereignissen wie hier Cramers V entspricht. Es ist zu beachten, dass hier bereits ab Werten von 0, 1 von kleiner Effektstärke, ab 0, 3 von einer mittleren und ab 0, 5 von einer starken gesprochen wird (Cohen, 2013). Im vorliegenden Fall liegt allerdings kein signifikanter Unterschied vor.

In Tabelle 7.6 wird gemäß Forschungsfrage 3b (vgl. Abschnitt 7.3) bei den Klausurergebnissen nicht nur zwischen bestanden und nicht bestanden unterschieden, sondern auch die Punktzahlen betrachtet. Auch hier wurde die Punktzahl als Anteil der maximal möglichen Punkte berechnet, um die verschiedenen Semester vergleichbar zu machen. Zum Bestehen der Klausur wurden zwischen 43,75 % (35 von 80) und 50 % (30 von 60) Punkte benötigt. Der Mittelwert beider Gruppen liegt unterhalb dieser Grenze. Ein signifikanter Unterschied konnte nicht festgestellt werden.

Tabelle 7.6 Ergebnisse der Klausur gemäß Forschungsfrage 3b

Zum Abschluss dieses Abschnitts soll die Teilnahme an der Klausur betrachtet werden (vgl. Tabelle 7.7). Auch wenn hier ein etwas deutlicherer Unterschied zu Gunsten der Interventionsgruppe mit einer kleinen Effektstärke (\(\phi >0,1\)) zu sehen ist, ist dieser nicht signifikant.

Tabelle 7.7 Teilnahme an der Klausur

Insgesamt wirkt sich die Frage, ob ein Proband der Interventionsgruppe oder der Kontrollgruppe angehört, nicht signifikant auf den Klausurerfolg oder die Klausurteilnahme aus. Es gibt also in dieser Hinsicht durch die Intervention weder Vorteile noch Nachteile. Also scheint sich die Fokussierung auf Probleme und die damit zusammenhängende Vernachlässigung von Routinetätigkeiten in der Übung zumindest nicht negativ auszuwirken.

7.6 Auswirkungen auf die Punkte bei den Hausaufgaben

In diesem Abschnitt wird Forschungsfrage 3d behandelt. Da es bei der Intervention um die Bearbeitung problemhafter Aufgaben geht, ist es naheliegend einen möglichen Einfluss auf die Bearbeitung der Hausaufgaben zu untersuchen, bei denen es sich in der Regel auch um Probleme handelt (vgl. Abschnitt 2.2.1). Da diese Aufgaben vor Abschluss der Intervention bearbeitet werden, ist ein verminderter Effekt zu erwarten. Deshalb wurden in der folgenden Auswertung nur Hausaufgaben ab dem sechstenFootnote 7 Übungsblatt berücksichtigt. Vorher besteht wenig Grund zu der Annahme, dass die Maßnahme bereits Wirkung zeigt. Außerdem ist zu beachten, dass die Abgabe der Hausaufgaben freiwillig war, wenngleich hierdurch Bonuspunkte für die Klausur gesammelt werden konnten und im fünften Zyklus eine Mindestpunktzahl Voraussetzung für die Teilnahme an der Klausur war. Gerade zum Ende des Semesters, wenn klar war, dass eine solche Schwelle bereits erreicht wurde, ging die Zahl der abgegebenen Aufgaben deutlich zurück. Auch hier wurden die Punkte als Anteil der maximal erreichbaren Punktzahl berechnet (vgl. Tabelle 7.8). Es zeigt sich ein kleiner Effekt zu Gunsten der Interventionsgruppe, der allerdings wieder nicht signifikant ist.

Tabelle 7.8 Einfluss auf die Punkte bei Hausaufgaben

7.7 Auswirkungen auf die Teilnahme an den Übungsgruppen

Als letztes wurde zur Beantwortung der Forschungsfrage 3e untersucht, ob die Interventionsmaßnahme Studierende dazu bewegen konnte, regelmäßiger zu den Gruppenübungen zu kommen, was ein Signal dafür wäre, dass diese Art der Übung als hilfreicher empfunden wird als die klassische FormFootnote 8. Im Gegensatz zu den anderen Erhebungen, ist hierbei das Herausfiltern derjenigen Probanden, die weniger als die Hälfte der Übungsstunden besucht haben, nicht sinnvoll. Auf der anderen Seite ergibt es aber auch wenig Sinn, alle Studierenden, die sich in Übungsgruppen eingeschrieben haben, zu betrachten: Wer die Übung nie oder nur einmal besucht hat, kann deren Nutzen schwerlich einschätzen. Deshalb wurde entschieden, diejenigen Studierenden zu betrachten, die in den ersten fünf Übungsstunden mindestens dreimal anwesend waren. Daher ist die Grundgesamtheit dieser Auswertung mit \(N=269\) größer als zuvor. Auch bei dieser Auswertung ist kein signifikanter Unterschied zwischen den beiden Gruppen zu erkennen (vgl. Tabelle 7.9).

Tabelle 7.9 Einfluss auf die Anwesenheit in den Übungen

7.8 Zusammenfassung

Die Ergebnisse aus dem Prätest zeigen, dass sich Interventions- und Kontrollgruppe bezüglich der hier erhobenen Eingangsvoraussetzungen nicht wesentlich unterscheiden. Bei der Betrachtung der Variablen Klausurergebnis (Bestehensquote und Durchschnittpunktzahl), Teilnahme an der Klausur, Punkte bei Hausaufgaben und Anwesenheit in Übungsgruppen zeigen sich zwar bei allen Betrachtungen leichte Vorteile für die Interventionsgruppe (bei der Klausurteilnahme und den Übungspunkten auch mit kleiner Effektstärke), allerdings ist keiner dieser Vorteile signifikant. Diese Unterschiede könnten also auch zufällig sein.

Insgesamt ist dieses Ergebnis wenig überraschend, da die Maßnahme als minimal-invasiv zu betrachten ist: Von 6 bis 10 Semesterwochenstunden (vier Stunden Vorlesung, zwei Stunden Übung, zwei Stunden Ergänzung für Fachbachelor-Studierende, ggf. Globalübung oder Tutorium) wurde nur die Übung (2 SWS) modifiziert, d. h. sie wurde so umgestaltet, dass sie noch immer die bisherigen Funktionen erfüllt. Effektiv wurde also maximal eine halbe Stunde pro Woche überhaupt verändert. Große Effekte waren deswegen von vornherein nicht zu erwarten. Allerdings konnte die Befürchtung, die Fokussierung auf strategische Herangehensweisen und Reflexion und eine daraus resultierende Vernachlässigung des Einübens von Routinen könnte sich negativ auswirken, nicht bestätigt werden.