1 Einleitung und Vorstellung der Forschungsfrage

In Folge der Reformierung des universitären Systems durch den Bologna-Prozess und der Forderung nach der Unterstützung Lebenslangen Lernens (z. B. Wissenschaftsrat 2006) bieten Hochschulen vermehrt berufsbegleitende Studiengänge an. Besonders der Beschluss der Kultusministerkonferenz zu Strukturvorgaben für die Akkreditierung von Bachelor- und Masterstudiengängen (KMK 2003, 2010) forcierte diese Entwicklung (Hanft und Zilling 2011). Solche Studiengänge firmieren an Hochschulen unter verschiedenen Bezeichnungen, wie z. B. „wissenschaftliche Weiterbildung“, „weiterbildender Studiengang“ oder „postgradualer Studiengang“. Wenngleich hiesige Hochschulen im internationalen Vergleich diesbezüglich immer noch ein wenig hinterherhinken, hat das Angebot an wissenschaftlicher Weiterbildung deutlich zugenommen und stellt heute auch hierzulande einen „Mosaikstein im … Konzept des Lebenslangen Lernens“ (Blank et al. 2015, S. 368) dar (Salland und Siegmund 2018; Wolter 2011).

Mit der steigenden Bedeutung wissenschaftlicher Weiterbildung hat sich ein spezifischer wissenschaftlicher Diskurs entwickelt (Dollhausen 2015; Jütte und Lobe 2016). So lassen sich in jüngerer Zeit zunehmend Projekte bzw. Publikationen finden, die verschiedene Aspekte dieses Bildungsbereiches thematisieren (z. B. Arnold et al. 2014; Hanft et al. 2016; Hanft und Knust 2007; Heufers und El-Mafaalani 2011; Hillebrecht 2016; Salland 2018). Zudem sind in der Weiterbildungsforschung der letzten Jahre vereinzelt Studierenden- und Absolventinnenstudien zu finden (z. B. Schüßler 2012; von Felden 2012). Im Unterschied zu den genannten Arbeiten fokussiert der vorliegende Beitrag jedoch weder auf die Professionalitätsentwicklung noch auf die Erwerbstätigkeit der Studierenden, sondern fragt nach der Wirksamkeit eines Studiengangs. Insofern können, trotz intensiver Recherche, keine Wirksamkeitsevaluationen berufsbegleitender Masterstudiengänge ausfindig gemacht werden. Die hier berichtete Untersuchung ist somit (auch) als Beitrag zur Schließung dieser Forschungslücke zu sehen.

Gegenstand der Betrachtung ist ein berufsbegleitender Masterstudiengang einer süddeutschen Universität. Durch eine, von der Universität in Auftrag gegebene, quantitative Befragung der Alumni sollen wirksame Elemente identifiziert und Verbesserungsmöglichkeiten abgeleitet werden. Die Evaluation klärt, inwiefern das Studium auf die berufliche Praxis der Alumni wirkt, dabei werden die Schwerpunktthemengebiete des Studiengangs und didaktische Merkmale, wie der Einbezug von Fallbeispielen, das Ausfertigen einer Projektarbeit und der geforderte Austausch zwischen Studierenden, zur inhaltlichen Differenzierung genutzt.

2 Evaluationsgegenstand: berufsbegleitender Masterstudiengang

Der untersuchte Masterstudiengang ist ein berufsbegleitendes Teilzeitstudium an einer süddeutschen Universität, das von dieser in Kooperation mit einem außeruniversitären Institut angewandter Berufsbildungsforschung angeboten wird. Der an einem Pädagogik-Lehrstuhl eingerichtete und von diesem koordinierte, in seiner Dozentinnenschaft jedoch interdisziplinäre Studiengang behandelt die Schwerpunktthemen Organisations- und Personalentwicklung.

Dabei richtet er sich an Hochschulabsolventen verschiedener Disziplinen, deren Tätigkeitsfelder bereits im Bereich der Organisations- und/oder Personalentwicklung liegen oder die die Übernahme einer solchen Tätigkeit anstreben. Für die Zulassung müssen die Teilnehmenden eine mindestens einjährige Berufserfahrung vorweisen.

Das zweijährige Studium umfasst elf Präsenzphasen (ca. 30 Tage), in denen theoretische und empirische Wissensbestände an Fallbeispielen illustriert, bearbeitet und ggf. durchgespielt werden. Zwischen den Präsenzphasen finden sogenannte Selbstlernphasen statt. Das Von- und Miteinander lernen wird zudem durch ein Internetforum gefördert. Ferner müssen die Studierenden in ihren jeweiligen Organisationen (Betrieben, Sozialunternehmen, Kliniken, Behörden u. a.) ein Organisations- und/oder Personalentwicklungs-Projekt durchführen, dokumentieren und unter Rekurs auf im Studium Behandeltes reflexiv präsentieren.

3 Evaluationsmodell der vorliegenden Untersuchung

Zur Überprüfung der Wirksamkeit des Studiengangs wurde ein Evaluationsmodell entwickelt, welches in seinen Grundannahmen Kirkpatricks (1959a, 1959b, 1960a, 1960b) 4‑Ebenen-Modell und dessen Weiterentwicklung durch Alliger et al. (1997) folgt. Kirkpatricks Evaluationsmodell ist eines der populärsten Modelle zur Erfassung der Wirksamkeit einer Qualifizierungsmaßnahme (Alliger und Janak 1989; Alliger et al. 1997; Arthur et al. 2003; Gollwitzer und Jäger 2009). Alliger et al. (1997) entwickelten es weiter, indem sie die Ebenen des Modells inhaltlich spezifizierten.

Die vierte Ebene – von Kirkpatrick (1960b) und Alliger et al. (1997) als Trainingsteilnahme-Folgen auf organisationaler Ebene (z. B. erhöhte Produktivität, verbesserte Qualität, reduzierte Kosten, höhere Profite) beschrieben – wird in der vorliegenden Forschung nicht untersucht. Der evaluierte Studiengang stellt keine Weiterbildungsmaßnahme für Mitarbeitende einer einzelnen Organisation dar, womit für eine Untersuchung dieser Ebene keine ausreichend große Stichprobe vorhanden ist.

Hinsichtlich der Beziehungen der Ebenen zueinander liegen in der Literatur keine eindeutigen Befunde vor (z. B. Alliger et al. 1997; Arthur et al. 2003; Colquitt et al. 2000; Gessler und Sebe-Opfermann 2011; Ruona et al. 2002).

3.1 Evaluationsebene Reaktionen

Die erste Ebene reactions unterteilen Alliger et al. (1997) in affective reactions und utility judgements. Die Unterebene affective reactions misst die Zufriedenheit der Teilnehmer mit der Maßnahme (z. B. „Das Training hat mir gefallen“). Unter utility judgements werden Nützlichkeitsbeurteilungen (z. B. „War das Training von praktischem Wert?“) verstanden. Die Autoren weisen darauf hin, dass diese Unterteilung zwar unabhängig von anderen Autoren empirie-basiert vorgenommen wurde, eine analoge Unterscheidung (enjoyment of training—usefulness of training) aber auch bei Warr und Bunce (1995) zu entdecken ist.

Die dritte der von Warr und Bunce (1995) unterschiedenen Kategorien difficulty of training bleibt in der Metaanalyse von Alliger et al. (1997) unberücksichtigt, da „training difficulty seems to be rarely asked of trainees“ (Alliger et al. 1997, S. 344). In unserer Studie wird diese Kategorie in das Evaluationsmodell aufgenommen.

Mit Blick auf das Forschungsinteresse, die Wirksamkeit des Studiengangs zu evaluieren, und dem Anschluss an das vorliegende Forschungsmodell, lautet die erste Hypothese: Die Antworten der Alumni weisen auf der Ebene Reaktionen Zustimmung aus.

3.2 Evaluationsebene Lernen

Die zweite Ebene Learning unterscheiden Alliger et al. (1997) in drei Unterkategorien: immediate post-training knowledge, worunter Wissen, das direkt nach der Maßnahme gemessen wird, zu verstehen ist; knowledge retention, welches das zu einem späteren Zeitpunkt erfasste Wissen beschreibt; sowie behavioral/skill demonstration, worunter alle im Rahmen der Maßnahme gemessenen Verhaltensänderungen fallen.

Auffällig ist hierbei, dass lediglich die Resultate des Lernens im Mittelpunkt der Konstruktbeschreibung stehen. Üblicherweise werden diese daher mithilfe von Leistungstests erhoben (Arthur et al. 2003).

Da die vorliegende Evaluationsstudie jedoch den gesamten Studiengang auf seine Wirksamkeit untersucht, ist die Durchführung eines solchen Leistungstests nicht sinnvoll. Vielmehr beabsichtigt die Evaluation die Analyse der Merkmale des Studiengangs, durch welche die Alumni gelernt haben. Das Forschungsinteresse begründet eine Konzentration auf die Aspekte ‚Einbezug von Fallbeispielen‘, ‚Ausfertigen einer Projektarbeit‘ sowie ‚Austausch zwischen Studierenden‘.

Dies ist auch lerntheoretisch begründet. Lernen wird hier im Anschluss an Göhlich und Zirfas (2007, S. 17) als „erfahrungsreflexive, auf den Lernenden sich auswirkende Gewinnung von spezifischem Wissen und Können“ verstanden. Modal wesentlich ist dabei Dialogizität, erfolgt Lernen doch notwendig in Auseinandersetzung mit Anderem bzw. Anderen. Wenngleich Lernen in der hier berichteten Studie nicht in seiner so definierten Komplexität eingefangen werden kann, wird doch mittels der Aspekte ,Einbezug von Fallbeispielen‘, ,Anfertigen einer Projektarbeit‘ und ,Austausch zwischen Studierenden‘ zumindest versucht, inhaltlich auch Können-Lernen sowie modal die Dialogizität des Lernens zu berücksichtigen.

Die zweite Hypothese lautet: Die Antworten der Alumni weisen auf der Ebene Lernen Zustimmung aus.

3.3 Evaluationsebene Transfer

Die dritte Ebene bezeichnen Alliger et al. (1997) als Transfer. In der fachwissenschaftlichen Auseinandersetzung mit diesem Begriff im Lernkontext (synonym auch „Lerntransfer“) liegen unterschiedliche Definitionen vor: Alliger et al. (1997) fassen Transfer als Verhaltensänderungen, die sich einige Zeit nach der Maßnahme und am Arbeitsplatz zeigen. Unklar bleibt hierbei allerdings, was genau die Ursache der jeweiligen Verhaltensänderung ist. Kauffeld et al. (2008, S. 51) verstehen unter Lerntransfer „die Anwendung und Generalisierung neuen Wissens und neuer Fähigkeiten in der Arbeit“. Bei Baldwin et al. (2009) lässt sich zudem eine zeitliche Komponente finden. Jedoch beschränken sie sich auf erlerntes Verhalten. Sie erklären, dass „[f]or transfer to have occurred, learned behavior must be generalized to the job context and maintained over a period of time on the job“ (Baldwin et al. 2009, S. 41).

Dem universitären Rahmen entsprechend zielt der Studiengang zwar primär auf Wissensvermittlung, enthält jedoch auch Anregungen zur Ausbildung spezifischen Könnens. Dies gilt es in die Begriffsklärung und das methodische Instrumentarium für die vorliegende Arbeit aufzunehmen. Ferner ist es Teil des Erkenntnisinteresses, ob das Studium in die Arbeit der Alumni hineinwirkt und dabei die intendierten nachhaltigen Effekte zeigt. Deshalb sind über einen längeren Zeitraum stabile Änderungen für das vorliegende Begriffsverständnis von Transfer relevant. Dieser wird somit als die Anwendung und Generalisierung (ggf. bis hin zu über längere Zeit am Arbeitsplatz gezeigten Verhaltensänderungen) von im Studium vermitteltem Wissen und Können begriffen.

Tonhäuser (2017) identifiziert in ihrer Studie einige Transferdeterminanten, die sie in „individuelle Einflussfaktoren der Weiterbildungsteilnehmenden“, „maßnahmespezifische Einflussfaktoren des Lernfeldes“ und „organisationale Einflussfaktoren des Arbeitskontextes“ unterteilt. Da gemäß unserer Definition Transfer die Anwendung und Generalisierung des Gelernten nach Beendigung des Studiums bedeutet, fokussiert diese Arbeit weder maßnahmespezifische Einflussfaktoren noch den Einfluss des Arbeitsplatzes. Es interessiert nicht warum, sondern ob Transfer stattfindet. Zu den individuellen Faktoren zählt Tonhäuser (2017) u. a. motivationale Aspekte sowie Interesse und Einstellungen (s. Abschn. 3.1). Das Alter der Weiterbildungsteilnehmenden scheint ebenfalls einen Einfluss zu haben. Da mehrere Studien (z. B. Gegenfurtner et al. 2009; Holton et al. 2000; Liebermann und Hoffmann 2008; Noe 1986) zeigen, dass die Transfermotivation – definiert als „the trainees’ desire to use the knowledge and skills mastered in the training program on the job“ (Noe 1986, S. 743) – einen wesentlichen Teil von Transfer darstellt, erscheint uns deren Erhebung notwendig, um die Transferleistung möglichst vollständig zu erfassen.

Transfermotivation lässt sich in in- sowie extrinsische Motivation unterteilen (Burke und Hutchins 2007; Curado et al. 2015; Gegenfurtner et al. 2009). Intrinsisch motivierte Verhaltensweisen stellen in dieser Untersuchung „interessensbestimmte Handlungen … deren Aufrechterhaltung keine vom Handlungsgeschehen ‚separierbaren‘ Konsequenzen erfordert“ (Deci und Ryan 1993, S. 225) dar, wohingegen extrinsische Transfermotivation „in Verhaltensweisen sichtbar [wird], die mit instrumenteller Absicht durchgeführt werden, um eine von der Handlung separierbare Konsequenz zu erlangen“ (Deci und Ryan 1993, S. 225). In Übereinstimmung mit Tonhäuser (2017, S. 13) sei jedoch bereits an dieser Stelle angemerkt, dass uns „vor allem intrinsische Faktoren als transferförderliche Dimensionen der Motivation“ erscheinen.

Im Zusammendenken des Wirksamkeitsinteresses mit der Transfer-Ebene des Forschungsmodells, ergibt sich die dritte Hypothese: Die Antworten der Alumni weisen auf der Ebene Transfer Zustimmung auf.

4 Methode

4.1 Stichprobe

Gleichwohl die Skepsis gegenüber Evaluationsergebnissen, die durch studentische Aussagen zustande kommen, groß ist (Schmidt und Tippelt 2005), zeigen verschiedene Untersuchungen, dass derartige Einschätzungen durchaus valide und unbeeinflusst von Verzerrungsvariablen sind (z. B. Hornbostel und Keiner 2002; Marsh und Roche 1997; Schmidt und Loßnitzer 2010).

Von den 142 Alumni, die zum Zeitpunkt der Befragung ihr Studium abgeschlossen hatten, nahmen 88 an der Befragung teil. 67,00 % der Teilnehmenden waren weiblich, 31,80 % männlich (eine Person machte keine Angaben), wobei die befragten Personen im Mittel 39,76 Jahre (SD = 8,60) alt waren. 44 der Befragten hatten Kinder.

59 Personen hatten vor dem berufsbegleitenden Masterstudium bereits ein Diplom, vier einen Magister, 17 einen Bachelor und zwei einen Master erworben. Das Staatsexamen als höchsten Hochschulabschluss sowie das kirchliche Examen nannte jeweils ein Absolvent. Drei Befragte waren bereits promoviert.

Die Absolventen erzielten eine durchschnittliche Abschlussnote von 1,73 (SD = 0,37), wobei als Beste die 1,0 und als schlechteste die 3,0 genannt wurden. Es zeigte sich, dass die weiblichen Alumni mit t (1,67) = 2,80 (p < 0,01) signifikant bessere Abschlussnoten erzielten, als die männlichen.

Die erhobenen übrigen soziodemographischen Daten (wie z. B. das Alter – s. Abschn. 3.3 – oder der Arbeitsplatz) hatten keinen signifikanten Einfluss auf das Antwortverhalten der Befragten.

4.2 Messinstrument

Die Daten wurden anhand eines quantitativen Fragebogens erhoben. Die Alumni wurden darin gebeten den Studiengang (kritisch) zu bewerten und so dessen Weiterentwicklung zu unterstützen.

Das Untersuchungsinstrument setzt sich dem Evaluationsmodell entsprechend aus drei Skalen sowie Hintergrundvariablen zusammen.

4.2.1 Skala Reaktionen

Reaktionen wurde mithilfe einer selbstkonstruierten Skala, bestehend aus drei Subskalen, gemessen. Die einzelnen Items der Subskalen wurden in Anlehnung an Itemformulierungen bereits bestehender Messinstrumente (Gläßer et al. 2002; Grohmann und Kauffeld 2013; Rindermann 2009; Warr et al. 1999; Warr und Bunce 1995) entwickelt, jedoch erstmalig in dieser Form zusammengesetzt und auf den Untersuchungskontext angepasst.

Die Subskalen Vergnügen und Nützlichkeit (s. Abschn. 3.1) wurden anhand einer 5‑Punkt-Likert-Skala (stimme überhaupt nicht zu – stimme absolut zu) erhoben, die Subskala Schwierigkeit mittels einer zweidimensionalen, 7‑stufigen Antwortskala (viel zu leicht – genau richtig – viel zu schwer).

Die faktorenanalytische Überprüfung bestätigt die 3‑Faktoren-Struktur mit Vergnügen (3 Items; α = 0,78), Nützlichkeit (4 Items; α = 0,86) sowie Schwierigkeit (4 Items; α = 0,76) und weist 57,86 % Varianzaufklärung aus.

4.2.2 Skala Lernen

Lernen wurde mittels sechs Subskalen operationalisiert. Neben drei selbst konstruierten Subskalen, nämlich Lernen durch Fallbeispiele, Lernen durch das Praxisprojekt sowie Lernen durch/mit Peers, welche der lernmodalen Bedeutung von Erfahrung und Dialogizität beim Wissen- und Können-Lernen folgen, wurde eine Subskala zum allgemeinen Lernen, welche über die Inhalte der ersten drei Subskalen hinausgeht, adaptiert. Diese wurde dem Students’ Evaluation of Educational Quality-Fragebogen (Marsh 1982) entnommen und per Forward-Back-Translation-Verfahren ins Deutsche übersetzt sowie an den Evaluationsgegenstand angepasst. Ferner wurden erworbene Fach- sowie Personalkompetenzen erhoben. Diese beiden Subskalen entstammen dem Berliner Evaluationsinstrument für selbsteingeschätzte, studentische Kompetenzen (Braun et al. 2008) und wurden lediglich in ihren Formulierungen dem Evaluationsgegenstand angepasst.

Alle Items waren anhand einer fünfstufigen Likert-Skala (stimme überhaupt nicht zu – stimme absolut zu) zu beantworten.

Abweichend zu den sechs theoretisch gebildeten Subskalen legt die faktorenanalytische Prüfung eine 5‑Faktoren-Struktur nahe. Der Faktor allgemeines Lernen kann nicht abgebildet werden. Insofern setzt sich die Skala Lernen aus den Subskalen Lernen durch Fallbeispiele (3 Items; α = 0,83), Lernen durch Praxisprojekt (4 Items; α = 0,90), Lernen durch/mit Peers (3 Items; α = 0,74) sowie Fach- (6 Items; α = 0,86) und Personalkompetenzen (5 Items; α = 0,80) zusammen. Diese fünf Faktoren tragen zu 68,45 % Varianzaufklärung bei.

4.2.3 Skala Transfer

Zur Erfassung des Transfers wurden fünf Subskalen entwickelt. Zwei erfassten die Transferrealisierung der Alumni hinsichtlich der Studieninhalte zu den Themen Organisations- sowie Personalentwicklung. Die Item-Formulierungen wurden in Anlehnung an bestehende Instrumente (Gegenfurtner 2013; Grohmann und Kauffeld 2013; Kauffeld et al. 2008) entwickelt, jedoch stark an den Evaluationsgegenstand angepasst und erstmalig in dieser Form zusammengesetzt.

Zur allgemeinen Transferrealisierung wurde eine Subskala in Anlehnung an Item-Formulierungen von Xiao (1996) sowie Machin und Fogarty (2004) konstruiert. Die englischsprachigen Items wurden per Forward-Back-Translation-Verfahren übersetzt und an den Evaluationsgegenstand angepasst.

Zudem untersuchten zwei Subskalen die in- und extrinsische Transfermotivation der Alumni. Diese wurde mithilfe eines Fragebogens von Gegenfurtner (2013) erhoben, welcher ebenfalls nur in englischer Sprache vorlag.

Alle Items wurden mithilfe einer 5‑Punkt-Likert-Skala (stimme überhaupt nicht zu – stimme absolut zu) beantwortet.

Die faktorenanalytische Überprüfung ergibt eine 4‑Faktoren-Lösung. Der aus der Theorie abgeleitete Faktor des allgemeinen Transfers kann nicht nachgewiesen und muss verworfen werden. Entsprechend setzt sich das Konstrukt Transfer aus den Faktoren Transferrealisierung hinsichtlich Studieninhalten zu den Themen Organisationsentwicklung (5 Items; α = 0,88) sowie Personalentwicklung (5 Items; α = 0,86) und in- (4 Items; α = 0,86) sowie extrinsische (4 Items; α = 0,74) Transfermotivation zusammen. Diese vier Faktoren klären gemeinsam 67,23 % der Varianz auf.

4.2.4 Hintergrundvariablen

Insgesamt wurden 21 Hintergrundvariablen im Fragebogen erhoben. Neben soziodemographischen Daten (12 Items), wie Alter oder Geschlecht, wurden der Stellenwert des Studiengangs (4 Items), die Unterstützung der Alumni während des Studiums durch den Arbeitgeber (3 Items) sowie ein möglicher Stellen- oder Unternehmenswechsel (2 Items) abgefragt.

5 Ergebnisse

5.1 Reaktionen (Hypothese 1)

Hypothese 1 erwartet Zustimmung der Alumni auf der Ebene der Reaktionen. Entsprechend wird davon ausgegangen, dass ebenso von Zustimmung hinsichtlich der einzelnen Faktoren Vergnügen, Nützlichkeit und Schwierigkeit berichtet wird.

Dafür wurde die zweidimensionale, siebenstufige Antwortskala des Faktors Schwierigkeit vor Beginn der Mittelwertanalysen in eine eindimensionale vierstufige Antwortskala umgerechnet.

Die arithmetischen Mittel für das Konstrukt Reaktionen sowie für die Subskalen zeigen allesamt hohe Zustimmungswerte (s. Tab. 1). Bezogen auf die Ebene Reaktionen antworteten 94,3 % der Befragten mit (sehr) hoher Zustimmung, womit Hypothese 1 vollumfänglich angenommen wird.

Tab. 1 Mittelwerte und Standardabweichungen der Evaluationsebene Reaktionen

5.2 Lernen (Hypothese 2)

Hypothese 2 erwartet Zustimmung der Alumni auf der Ebene Lernen. Insofern wurden hohe Werte für die Faktoren Lernen durch Fallbeispiele, Lernen durch das Praxisprojekt, Lernen durch/mit Peers sowie Fach- und Personalkompetenzen erwartet.

Wie Tab. 2 zeigt, können sowohl für das Konstrukt Lernen, als auch für die entsprechenden Subskalen, Werte im Zustimmungsbereich festgestellt werden. Insgesamt zeigten 79,5 % der Absolventinnen (sehr) hohe Zustimmung auf der Ebene Lernen. Hypothese 2 wird somit ebenfalls angenommen.

Tab. 2 Mittelwerte und Standardabweichungen der Evaluationsebene Lernen

5.3 Transfer (Hypothese 3)

Hypothese 3 erwartet Zustimmung der Alumni auf der Ebene Transfer. Es wird somit davon ausgegangen, dass ebenso von Zustimmung, hinsichtlich der Faktoren in- und extrinsische Transfermotivation sowie Transferrealisierung von Inhalten zu den Themen Organisations- und Personalentwicklung, berichtet wird.

Die Mittelwertanalyse zeigt Zustimmung der Alumni für die gesamte Ebene Transfer sowie die beiden Transferrealisierungsfaktoren und die intrinsische Transfermotivation (siehe Tab. 3). Hinsichtlich der extrinsischen Transfermotivation liegt das arithmetische Mittel bei M = 2,67 (SD = 0,93). Der Ebene Transfer stimmen 46,6 % der Befragten (sehr) hoch zu. Unter Ausschluss der extrinsischen Transfermotivation antworteten 64,8 % der Alumni mit (sehr) hoher Zustimmung.

Tab. 3 Mittelwerte und Standardabweichungen der Evaluationsebene Transfer

Insofern kann auch Hypothese 3 angenommen werden. Es muss jedoch beachtet werden, dass die Subskala extrinsische Transfermotivation einen Wert im neutralen Bereich aufweist, also weder Ablehnung noch Zustimmung abgeleitet werden können.

6 Diskussion

6.1 Beantwortung der Forschungsfrage

Es zeigt sich, dass die Absolventinnen das Studium auf der Ebene Reaktionen als wirksam bewerten. So wird festgestellt, dass die Alumni mit dem Studiengang zufrieden sind und ihm einen Nützlichkeitsbeitrag bescheinigen. Die Schwierigkeit des Studiums bewerten sie gar als sehr angemessen.

Auch auf der zweiten Ebene Lernen kann Wirksamkeit festgestellt werden. Es kann damit festgehalten werden, dass der Einsatz von Fallbeispielen, das Verfassen einer Projektarbeit sowie der geforderte Austausch mit Kommilitonen wirksam für das Lernen der Absolventen sind. Auch erwerben sie Fach- und Personalkompetenzen.

Die Ebene Transfer weist auf den Subskalen Transferrealisierung hinsichtlich der Studieninhalte zu den Themen Organisations- und Personalentwicklung sowie intrinsische Transfermotivation Zustimmung auf. Die Subskala extrinsische Transfermotivation hingegen zeigt Zustimmungswerte im neutralen Bereich. Betrachtet man die Inhalte dieser Subskala jedoch genauer, ist zu erkennen, dass diese – entsprechend ihrer Bezeichnung – motivationsfördernde bzw. -hemmende Aspekte abfragt, welche nicht von der Hochschule, sondern den Unternehmen und deren Angestellten beeinflusst werden (z. B. „Mein Vorgesetzter würdigte bisher meine Anwendung von Studiumsinhalten.“). Zudem weist bereits Tonhäuser (2017), wie auch in Abschn. 3.3 berichtet, darauf hin, dass zur Ermittlung der Transferleistung insbesondere intrinsische Faktoren maßgeblich sind. Daher leistet die Subskala extrinsische Transfermotivation keinen Beitrag zur Bewertung des untersuchten Studiengangs und für die Ebene Transfer kann dem Studiengang weiterhin uneingeschränkt Wirksamkeit zugesprochen werden.

Die Ergebnisse zeigen auch, dass die Zustimmungswerte je nach Evaluationsebene abnehmen. So weist die Ebene Reaktionen am meisten (94,3 %), die Ebene Transfer am wenigsten (64,8 %) Zustimmung aus. Das lässt vermuten, dass die jeweils „vorherige“ Ebene nur zu einem geringen Anteil die Nachfolgende vorherzusagen vermag (vgl. Gessler und Sebe-Opfermann 2011).

Bei der Betrachtung der Werte sollte außerdem bedacht werden, dass ausschließlich Personen, die ihr Studium erfolgreich abgeschlossen haben, befragt wurden. Zwar zeigt sich dabei, dass zumindest die Abschlussnote keinen signifikanten Einfluss auf das Antwortverhalten hat. Dennoch könnten Studierende, die keinen Abschluss erreichten, zu anderen Einschätzungen kommen.

Auch ist ein sozial erwünschtes Antwortverhalten denkbar. Da die Befragten jedoch ausdrücklich um kritisches Feedback gebeten wurden, um eine Weiterentwicklung des Studiengangs zu ermöglichen, und da der mit der Durchführung der Studie betraute Forscher weder administrativ noch lehrend am Studiengang mitgewirkt, sondern mit den Befragten ausschließlich als Forscher kommuniziert hat, ist davon auszugehen, dass derartige Verzerrungen eher marginal sind.

6.2 Diskussion des Evaluationsmodells

Die erste Evaluationsebene Reaktionen stellt zwar die am häufigsten evaluierte dar (Alliger und Janak 1989; Alliger et al. 1997), ist jedoch hinsichtlich ihrer inhaltlichen Differenziertheit nur unzureichend untersucht (Giangreco et al. 2010; Griffin 2012; Long et al. 2008). Die Unterscheidung Alligers et al. (1997) in affective reactions und utility judgements erscheint insofern plausibel, als dass Warr und Bunce (1995) in ihrer Untersuchung eine nahezu identische Unterteilung empirisch nachweisen konnten. Die über Alliger et al. (1997) hinausgehende Aufnahme der Kategorie Schwierigkeit ergab letztlich eine Unterteilung in Vergnügen, Nützlichkeit und Schwierigkeit (im Anschluss an Warr und Bunce 1995), welche sich als reliabel und valide erwies. Es ist jedoch zu kritisieren, dass Reaktionen, im Vergleich zu Kirkpatrick (1959a), zwar detaillierter beschrieben sind, jedoch die einzelnen Faktoren nicht weiter geklärt werden. So wird beispielsweise die Zufriedenheit der Teilnehmer als Teil von Reaktionen beschrieben, es werden jedoch keine genaueren Aussagen dazu getroffen, was unter Zufriedenheit zu verstehen ist beziehungsweise wie Zufriedenheit entsteht.

Die zweite Ebene Lernen ist bei Alliger et al. (1997) nur unzureichend konstruiert. Dass Lernen ein inhaltlich und modal facettenreicher Prozess ist, welcher in einem erfahrungsreflexiven Dialog zwischen Lernendem und Gegenstand sowie zwischen Lernendem und anderen Menschen stattfindet, lassen die Autoren außer Acht. Dem Verständnis von Lernen als „erfahrungsreflexive, auf den Lernenden sich auswirkende Gewinnung von spezifischem Wissen und Können“ (Göhlich und Zirfas 2007, S. 17) folgend sucht unsere Evaluation das Wissen- und Können-Lernen in den Subskalen Lernen durch Fallbeispiele, Lernen durch das Praxisprojekt sowie Lernen durch/mit Peers einzufangen. Da bislang keine empirischen Studien, die Lernen mit diesem Verständnis operationalisieren, vorliegen, versteht sich die hier berichtete Evaluation auch als diesbezügliche Pionierarbeit.

Was die dritte Evaluationsebene Transfer betrifft, so bleibt bei Alliger et al. (1997) unklar, wie Verhaltensänderungen entstehen. Da aber der „Wissenstransfer … eine zentrale Komponente in der wissenschaftlichen Weiterbildung dar[stellt]“ (Blank et al. 2015, S. 366), wurde eine Begriffspräzisierung notwendig. Transfer, welcher aufgrund der Anlage dieser Studie nur zu einem Messzeitpunkt und somit retrospektiv erfasst werden konnte, wird hier und in Fortführung des dargelegten Verständnisses von Lernen als die Anwendung und Generalisierung (ggf. bis hin zu über längere Zeit am Arbeitsplatz gezeigten Verhaltensänderungen) von im Studium vermitteltem Wissen und Können begriffen.

Ferner herrscht, wie bereits angemerkt (s. Abschn. 3), Unklarheit hinsichtlich der Beziehungen zwischen den Ebenen des Modells.

6.3 Implikationen für zukünftige Forschung

Die angezeigte Uneindeutigkeit hinsichtlich der Wirkannahmen (s. Abschn. 6.2) macht weitere empirische Überprüfungen notwendig.

Der vorliegende Beitrag ist indes gegenstandsbezogen, indem er die Wirksamkeit des untersuchten Studiengangs fokussiert. Hanft et al. (2016, S. 123) beschreiben, dass zwar „Studienangebote[ ], Pflichtmodule[ ], Lehrveranstaltungen etc.“ evaluiert werden, diesen aber „[e]in ganzheitliches Verständnis“ fehle. Auch die vorliegende Untersuchung wird diesem Anspruch nicht in vollem Umfang gerecht, vermag aber für sich zu beanspruchen, dass sie in ihrem Umfang über die Bewertung einzelner Gegenstände hinausreicht. Trotzdem muss nach wie vor eine defizitäre Forschungslage konstatiert werden.

Weitere Untersuchungen, insbesondere solche, die berufsbegleitende Studiengänge in ihrer Ganzheit und/oder aus Sicht der Teilnehmenden betrachten, sind gerade deswegen von großer Relevanz, da das Erkennen der „Bedarfe des Beschäftigungssystems … und [die Übersetzung] in passende Weiterbildungsangebote … eine wichtige und zugleich hoch voraussetzungsreiche Bedingung für die geforderte Theorie-Praxisverzahnung in der wissenschaftlichen Weiterbildung“ darstellt (Salland und Siegmund 2018, S. 132).

In Ermangelung einschlägiger Publikationen ist es wenig überraschend, dass kaum Instrumente zur Beurteilung berufsbegleitender Studiengänge vorliegen. Der von Hillebrecht (2016) vorgelegte Modellentwurf zur Beurteilung der Qualität in berufsbegleitenden Studiengängen konzentriert sich auf die fachliche und strukturelle Machbarkeit. Die vorliegende Studie fokussiert hingegen die Wirksamkeit des Studiengangs und versucht dazu beizutragen, diesbezüglich ein differenzierteres Modell zu entwickeln.

Das hier gewählte Evaluationsmodell basiert in seinen Grundannahmen auf Kirkpatricks (1959a, 1959b, 1960a, 1960b) 4‑Ebenen-Modell und dessen Weiterentwicklung durch Alliger et al. (1997). Die Bestimmung der einzelnen Ebenen zeigt, dass weitere Schärfungen erforderlich sind (s. auch Abschn. 6.2). So sind hinsichtlich einer inhaltlich und modal differenzierenden Operationalisierung von Lernen (s. Abschn. 3.2) weitere Untersuchungen notwendig, um spezifische Messinstrumente entwickeln zu können. Zudem liegen zwar empirische Untersuchungen zum Transfer vor (z. B. Baldwin et al. 2009; Blume et al. 2010; Burke und Hutchins 2007; Grossmann und Salas 2011; Holton et al. 2000), jedoch keine theoretischen Modellierungen. Da Transfer in der wissenschaftlichen Weiterbildung eine zentrale Komponente darstellt (Blank et al. 2015), sollte zukünftige Forschung ein theoriegestütztes Transfermodell entwickeln, das empirisch geprüft werden kann.