Online-Befragungen im Kontext von Lehrevaluationen – praktisch und unzuverlässig

Meinefeld, Werner

doi:10.1007/s11577-010-0098-x

Online-Befragungen im Kontext von Lehrevaluationen – praktisch und unzuverlässig

Online-surveys for the evaluation of teaching at university–convenient and unreliable

Berichte und Diskussionen
Published: 02 June 2010

Volume 62, pages 297–315, (2010)
Cite this article

KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie Aims and scope Submit manuscript

Werner Meinefeld¹

1660 Accesses
6 Citations
Explore all metrics

Zusammenfassung

Online-Befragungen erfreuen sich zunehmender Beliebtheit, insbesondere scheinen sie sich für Lehrevaluationen zu empfehlen. Die Zuverlässigkeit ihrer Ergebnisse aber ist kaum geprüft. In einem Vergleich der Ergebnisse einer Online-Befragung mit den Ergebnissen einer schriftlichen Befragung in denselben Veranstaltungen zeigen sich gravierende Mängel, die die Ergebnisse der Online-Befragung untauglich werden lassen: 1. ist die Beteiligung der Studierenden an der internet-basierten Erhebung wesentlich geringer als in der Veranstaltungsbefragung (in mehreren Veranstaltungen ist sie zu gering für eine Auswertung). 2. weichen ihre Ergebnisse in allen Veranstaltungen und allen analysierten Fragen von den Ergebnissen der (Voll-)Erhebung in den Veranstaltungen ab, sodass auf ihrer Basis gebildete Rangreihen und -gruppen zu unterschiedlichen Wertungen der Veranstaltungen führen. 3. gibt es Anhaltspunkte dafür, dass die Antworten in einer Online-Evaluation von geringerer Verlässlichkeit sind als in einer schriftlichen Befragung. Das unter arbeitsökonomischen Gesichtspunkten naheliegende Verfahren der Online-Befragung eignet sich daher nicht für eine zuverlässige Bewertung der Qualität der akademischen Lehre.

Abstract

Online-surveys enjoy increasing popularity and they seem to be especially suited for evaluating the quality of teaching in academic courses. The fact remains, however, that the reliability of their results has hardly been tested. Compared to the results of a written questionnaire carried out with the same university-courses online-surveys demonstrate grave deficiencies. These imperfections render their results useless: 1. Students’ participation in the onlinequestioning is—compared to their participation in the written questionnaire—considerably lower (in several courses too low to be of any analytical use). 2. In the case of all courses and analysed questions the results diverge from those of the written questionnaire which achieved census-quality. Rankings based on these two proceedings differ widely. This occurs regardless of them being set up in individual lists or in groupings. 3. There are clear indications that the way respondents answer online-questionnaires is less reliable than in paper&pencil methods. Although online-surveys benefit by being cost-efficient their methodological shortcomings raise important questions about their reliability for judging the quality of academic teaching.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Notes

Da die Erfassung zusätzlicher Interviews in Online-Befragungen keine Mehrkosten verursacht, können diese Zahlen die Bedeutsamkeit des neuen Verfahrens insofern überschätzen, als möglicherweise die durchschnittliche Interviewzahl pro Studie in Online-Erhebungen wesentlich höher liegt als bei anderen Umfragen. Aussagekräftiger als der Anteil der Interviews wäre daher der Anteil der Studien, die auf Online-Befragungen beruhen – diese Information ist aber dem Jahresbericht der ADM nicht zu entnehmen. (Arbeitsgemeinschaft Deutscher Marktforschungsinstitute 2009) Für die akademische Forschung sprechen Zerback et al. denn auch eher „von einem moderaten Bedeutungsgewinn als von einem unwiderstehlichen Siegeszug der Online-Befragung“. (2009, S.29; s. a. Pötschke 2009, S. 75).
Eine vergleichbare Untersuchung ist mir lediglich von Hollaus (2007) bekannt, der aber auch in der schriftlichen Befragung nur eine sehr geringe Ausschöpfungsquote erzielte und daher im Vergleich der Ergebnisse der beiden Verfahren nicht zwischen stichprobenbedingten und verfahrensbedingten Fehlern unterscheiden kann.
Der hierzu verwendete Fragebogen bestand im WS 2008/09 aus acht Fragen zu verschiedenen Dimensionen der Veranstaltung, wobei jede Dimension von 1 bis 6 benotet werden konnte. Weitere fünf Fragen bezogen sich auf den Vorbereitungsaufwand, das Anspruchsniveau, das Erleben von Überforderung und Unterforderung u. ä. In einem freien Textfeld konnten zudem Anmerkungen zur Veranstaltung gemacht werden.
Den Teilnehmerinnen und Teilnehmern des Seminars danke ich ganz herzlich für ihren engagierten Arbeitseinsatz: Gülsah Adigüzel, Karen Genz, Andreas Göller, Aylin Gülec, Nancy Hollmann, Stefanie Jahl, Monika Karl, Thomas Krombach, Christian Künert, Inga Maubach, Alisa Maul, Robin Pötke, Melanie Riese, Franziska Scharch, Hendriekje Schelten, Kathrin Schmidt, Franziska Schwabl, Anna Sippl, Irmgard Steckdaub-Muller, Michael Stransky, Andreas Tischler, Dagny Tolksdorf, Katharina v. Kracht, MarkusWesthauser. Ebenso danke ich den Lehrenden, die sich an unserer Erhebung beteiligten, für ihre Bereitschaft, ihre Veranstaltung(en) für unsere Befragung zu öffnen.
Veranstaltungen der heute ebenfalls zur Philosophischen Fakultät und Fachbereich Theologie gehörenden ehemaligen Erziehungswissenschaftlichen Fakultät und der Theologischen Fakultät wurden in diese Untersuchung nicht einbezogen.
In unserer Erhebung hatten wir die Zahl der anwesenden Studierenden festgestellt und die Lehrenden gebeten zu schätzen, wie viele Teilnehmer fehlen. Die im Folgenden berichteten Ausschöpfungsquoten beziehen sich auf die so ermittelte Gesamtteilnehmerzahl, nicht auf die am Befragungstag anwesenden Personen.
Die Berechnung des Globalindikators erfolgte in der Online-Erhebung auf der Basis der Antworten auf alle acht Teilfragen der ersten Frage. Damit wurde in die Bewertung des Dozenten auch die Bewertung des Engagements der Kommilitonen einbezogen. Inhaltlich ist dies wenig sinnvoll, doch mußten wir diese Berechnung ebenfalls anwenden, da andernfalls eine Vergleichbarkeit der beiden Bewertungen nicht gegeben wäre. Diese Berechnung von Mittelwerten ist verbreitete Praxis in der Lehrevaluation, in seiner methodologischen Begründung aber durchaus strittig. Stellvertretend für andere siehe die fundierten Einwände von Kromrey (1999, S. 65 ff.) Soll der von uns angestrebte Vergleich zwischen den beiden Erhebungsverfahren aber durchgeführt werden, so bleibt gar keine andere Wahl, als dieses Vorgehen ebenfalls anzuwenden; deshalb kann auf eine inhaltliche Diskussion dieser Analysestrategie hier verzichtet werden.
Berechnet wurde sie als Differenz „Note Online-Erhebung“ minus „Note schriftliche Erhebung“. Dies bedeutet, dass positive Werte eine schlechtere Bewertung in der Online-Erhebung anzeigen (deren Wert war größer, die Note folglich schlechter), während negative Differenzen für eine bessere Bewertung stehen.
In dieser Auszählung werden nur die acht Einzelfragen berücksichtigt: der Globalindikator als von den anderen abgeleitete Messgröße darf hier nicht mitgezählt werden.
Messtheoretisch macht dies durchaus Sinn: eine absolute Messung eines sozialen Phänomens wie der Lehrqualität ist sicherlich nicht möglich, aber in der öffentlichen Diskussion vermeidet man es tunlichst, die mit dieser Relativierung der Aussagekraft studentischer Lehrbewertungen angestoßene methodische Reflexion über die Gültigkeit dieser Aussagen weiter zu verfolgen. Dieselbe Öffentlichkeit, die ansonsten nicht dazu tendiert, sozialwissenschaftlichen Messungen eine hohe Zuverlässigkeit zuzusprechen, nimmt die methodisch unzureichenden Evaluationen im Bildungsbereich als Basis für weitreichende Entscheidungen. Zudem vergleicht man nur zu häufig – so auch in der hier untersuchten Lehrveranstaltungsbewertung an der Philosophischen Fakultät – Äpfel mit Birnen, indem man ohne jegliche Differenzierung die Bewertung unterschiedlichster Veranstaltungen zueinander in Beziehung setzt: also z. B. die Benotung eines kleines Hauptseminars mit der einer großen Einführungsvorlesung oder großer Proseminare. Zur Ungültigkeit der Ergebnisse einer so betriebenen methodisch unreflektierten Lehrbewertung siehe Meinefeld (2009).
Nicht diskutiert wird jedoch die Frage, wer in diesen Vergleichen eigentlich ein fundiertes Urteil zu fällen imstande ist. Nur zu offensichtlich dominiert bei solchen Aktionen die öffentlichkeitswirksame Demonstration von Aktivität zur Verbesserung der Lehre die Frage nach der sachlichen Begründung einer solchen Bewertung. Es stellt der Universität kein gutes Zeugnis aus, dass in ihr als eigentlicher Hüterin rationaler Entscheidungen die vorgängig zu beantwortende Frage nach der Möglichkeit eines solchen Urteils nicht ernsthaft verfolgt wird.
Die nachfolgenden Berechnungen beruhen auf der von den Studierenden vergebenen Gesamtnote für die Lehrveranstaltung, die in eine Rangreihe gebracht wurden. Berechnet wurde die Differenz „Rang in der Gesamtbewertung Online“ minus „Rang in der Gesamtbewertung schriftlich“ – negative Werte zeigen also an, dass die Veranstaltung Online besser platziert war, positive Werte stehen für eine schlechtere Online-Platzierung. Halbe Werte entstanden in der Differenzenbildung, weil uns für die Online-Erhebung nur einstellige Dezimalwerte vorlagen (1,7 oder 2,4), sodass Veranstaltungen, die dieselbe Durchschnittsnote erhielten, von SPSS auf einen gemittelten Rangplatz gesetzt wurden, während in unserer eigenen Erhebung genauere Zahlen vorlagen und somit ganze Rangplätze vergeben werden konnten.
Hier wurden die Ränge in Quintile aufgeteilt und die Zuordnung der Veranstaltungen zu diesen Ranggruppen in den beiden Erhebungen zueinander in Beziehung gesetzt. Bei manchen Ranglisten ist es üblich, die Gruppen nicht, wie es hier geschah, nach der Verteilung der Mittelwerte zu bilden, sondern auf der Basis von Konfidenzintervallen, sodass die Konfidenzintervalle der Untersuchungseinheiten in der Spitzen- und in der Schlussgruppe sich nicht überschneiden und man zu trennscharfen Einteilungen kommt, die von der zugrunde liegenden Stichprobe auf die Grundgesamtheit zu übertragen ist. Für die hier zugrunde liegenden Daten macht dies keinen Sinn, da es sich bei diesen Veranstaltungen fast um Vollerhebungen handelt, Konfidenzintervalle hier also keine Anwendung finden können.
Es handelt sich um die Fragen nach der Bewertung der Kommilitonen und nach der Betreuung der Studierenden durch den Lehrenden außerhalb der Lehrveranstaltung.
Das hier auf der Handlungsebene erkennbar begrenzte Engagement der Studierenden in bezug auf Lehrevaluationen steht in einem gewissen Gegensatz zu ihrem Bekenntnis zu Lehrevaluationen in der Befragungssituation. Auf die Frage „Halten Sie die Durchführung von Lehrveranstaltungsbewertungen für sinnvoll?“, antworteten 66 % mit ja, weitere 26 % machten es von bestimmten Bedingungen abhängig (v. a. müsse der Dozent selber Interesse an der Evaluation haben – d. h. es müssen Konsequenzen zu erwarten sein), 6 % verneinten die Frage, und 2 % hielten sie für „überflüssig und lästig“. Skeptiker von Lehrevaluationen werden dies möglicherweise als Indiz gegen studentische Beteiligung an Lehrevaluationen werten wollen, doch ist dies kein Spezifikum studentischen Verhaltens gegenüber Lehrevaluationen, sondern steht im Kontext einer allgemeinen Diskrepanz von Einstellung und Handeln (Meinefeld 1977), aus der für sich allein kein zwingendes Argument gegen studentische Evaluationen zu folgern ist.
Zu einer ähnlichen Schlussfolgerung kommen Maurer und Jandura, wenn sie „festhalten, dass zum jetzigen Zeitpunkt keines der genannten Verfahren zweifelsfrei die Qualitätskriterien wissenschaftlicher Umfragenforschung erfüllt. [Auch für die kommerzielle Marktforschung könne es – W.M.] nicht darum gehen, zweifelhafte Daten zu gewinnen, um damit weitreichende Entscheidungen zu begründen“, (2009, S. 64)
Zur Wirkung lehrexterner Faktoren siehe Meinefeld (2000, 2009). Zur Problematik methodisch unzureichender Evaluationen allgemein siehe Endruweit (1992); Kromrey (1999) und Schnell u. Kopp (2001).

Literatur

Arbeitsgemeinschaft Deutscher Marktforschungsinstitute. 2009. http://www.admev.de/fileadmin/user_upload/PDFS/Jahresbericht_08.pdf. Zugegriffen: 01. Sept. 2009.
Baur, Nina, und Michael J. Florian. 2009. Stichprobenprobleme bei Online-Umfragen. In Sozialforschung im Internet, Hrsg. Nikolaus Jackob, Harald Schoen, und Thomas Zerback, 109–128. Wiesbaden: VS Verlag für Sozialwissenschaften.
Chapter Google Scholar
Deutscher Hochschulverband. 2005. Newsletter April 2005. Bonn.
Endruweit, Günter. 1992. Programmevaluation als Laienspiel. Bemerkungen über Meinungsforschung, Sozialforschung und Pfusch bei Studentenbefragungen. Soziologie 21:107–115.
Google Scholar
Hollaus, Martin. 2007. Der Einsatz von Online-Befragungen in der empirischen Sozialforschung. Aachen: Shaker Verlag.
Google Scholar
Kromrey, Helmut. 1999. Von den Problemen anwendungsorientierter Sozialforschung und den Gefahren methodischer Halbbildung. Sozialwissenschaften und Berufspraxis (SUB) 22:58–77.
Google Scholar
Maurer, Marcus, und Olaf Jandura. 2009. Masse statt Klasse? Einige kritische Anmerkungen zu Repräsentativität und Validität von Online-Befragungen. In Sozialforschung im Internet, Hrsg. Jackob, 61–73. Wiesbaden: VS Verlag für Sozialwissenschaften.
Chapter Google Scholar
Meinefeld, Werner. 1977. Einstellung und soziales Handeln. Reinbek: Rowohlt.
Google Scholar
Meinefeld, Werner. 2000. Hochschulranking. Eine unsichere Basis für Entscheidungen. Forschung & Lehre 7:26–29.
Google Scholar
Meinefeld, Werner. 2009. Möglichkeiten und Grenzen einer Lehrevaluation. Eine Analyse am Beispiel der Lehrevaluation an der Philosophischen Fakultät der Friedrich-Alexander-Universität Erlangen-Nürnberg. Erlangen, unveröffentlichtes Manuskript.
Pötschke, Manuela. 2009. Potentiale von Online-Befragungen: Erfahrungen aus der Hochschulforschung. In Sozialforschung im Internet, Hrsg. Nikolaus Jackob, Harald Schoen, und Thomas Zerback 75–89. Wiesbaden: VS Verlag für Sozialwissenschaften.
Chapter Google Scholar
Schnell, Rainer, und Johannes Kopp. 2001. Zur Evaluation von Lehrveranstaltungen in den Sozialwissenschaften. Soziologie 21:107–115.
Google Scholar
Simonson, Julia, und Manuela Pötschke. 2006. Akzeptanz internetgestützter Evaluationen an Universitäten. Zeitschrift für Evaluation 2:227–248.
Google Scholar
Taddicken, Monika. 2009. Die Bedeutung von Methodeneffekten der Online-Befragung: Zusammenhänge zwischen computervermittelter Kommunikation und erreichbarer Datengüte. In Sozialforschung im Internet. Hrsg. Nikolaus Jackob, Harald Schoen, und Thomas Zerback, 91–107. Wiesbaden: VS Verlag für Sozialwissenschaften.
Chapter Google Scholar
Welker, Martin, und Uwe Matzat. 2009. Online-Forschung: Gegenstände, Entwicklung, Institutionalisierung und Ausdifferenzierung eines neuen Forschungszweiges. In Sozialforschung im Internet, Hrsg. Nikolaus Jackob, Harald Schoen, und Thomas Zerback, 33–47. Wiesbaden: VS Verlag für Sozialwissenschaften.
Chapter Google Scholar
Wettern, Michael. 2008. Lehrevaluation an Hochschulen. Datenschutz und Datensicherheit 32:29–33.
Article Google Scholar
Wiegand, Erich. 2003. Qualitätsstandards und Standesregeln web-basierter Datenerhebungen. In Online-Erhebungen. Sozialwissenschaftliche Tagungsberichte 7:61–70.
Google Scholar
Zerback, Thomas, Harald Schoen, Nikolaus Jackob, und Stefanie Schlereth. 2009. Zehn Jahre Sozialforschung mit dem Internet – eine Analyse zur Nutzung von Online-Befragungen in den Sozialwissenschaften. In Sozialforschung im Internet, Hrsg. Nikolaus Jackob, Harald Schoen, und Thomas Zerback, 15–31. Wiesbaden: VS Verlag für Sozialwissenschaften.
Chapter Google Scholar

Download references

Author information

Authors and Affiliations

Institut für Soziologie, Universität Erlangen-Nürnberg, Kochstr. 4, 91054, Erlangen, Deutschland
Werner Meinefeld

Authors

Werner Meinefeld
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Werner Meinefeld.

Additional information

Eine ausführlichere Fassung dieses Artikels ist nachzulesen unter:

http://www.soziologie.phil.uni-erlangen.de/Lehrveranstaltungsevaluation_qua_Online-Befragung.pdf

Rights and permissions

Reprints and permissions

About this article

Cite this article

Meinefeld, W. Online-Befragungen im Kontext von Lehrevaluationen – praktisch und unzuverlässig. Köln Z Soziol 62, 297–315 (2010). https://doi.org/10.1007/s11577-010-0098-x

Download citation

Published: 02 June 2010
Issue Date: June 2010
DOI: https://doi.org/10.1007/s11577-010-0098-x

Schlüsselwörter

Keywords

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Online-Befragungen im Kontext von Lehrevaluationen – praktisch und unzuverlässig

Zusammenfassung

Abstract

Access this article

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Additional information

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Search

Navigation