Zusammenfassung
In ihrem Aufsatz „Mein(schöner)Prof.de. Die physische Attraktivität des akademischen Lehrpersonals und ihr Einfluss auf die Ergebnisse studentischer Lehrevaluationen“ (Heft 4/2009 dieser Zeitschrift) versuchen Ulrich Rosar und Markus Klein zu zeigen, dass Produktivitätsvorteile attraktiver Lehrpersonen nicht existieren. Dieser Schlussfolgerung aus ihren empirischen Analysen anhand von Daten des Internetportals MeinProf.de wird aufgrund dreier Punkte, der hohen Selektivität der verwendeten Stichprobe, der fehlenden Kontrolle relevanter Drittvariablen sowie der gewählten Modellierungsstrategie und Interpretation der statistischen Modelle widersprochen. Diese Argumente werden auch anhand „realer“ Evaluationsdaten der LMU München empirisch gestützt. Es wird empfohlen, solche Daten tatsächlicher Lehrveranstaltungsevaluationen anstelle selektiver Stichproben von Internetplattformen zu verwenden, aus Theorie und Empirie bekannte konfundierende Faktoren wie studentisches Vorinteresse an dem Kursthema und Art des Kurses bei den Analysen (konsistent) zu berücksichtigen und statistische Nachweisbarkeit von Effekten klar von deren praktischer Relevanz zu trennen.
Abstract
In their article “Mein(schöner)Prof.de. The Physical Attractiveness of Academic Staff and Its Influence on Evaluations by Students”, Ulrich Rosar and Markus Klein try to show that attractive teachers don’t perform better in the classroom. There are three objections against their conclusion from the empirical analyses based on data from the online platform MeinProf.de: the high selectivity of the used sample, the missing control for relevant covariates as well as the choice of the modeling strategy and the interpretation of the statistical models. These arguments are also backed with data of “real” students’ evaluations of teaching at the LMU Munich. It is recommended to use such “real” students’ evaluations of teaching instead of selective samples from online platforms and to (consistently) include relevant confounding factors, which seem to be relevant from a theoretical and empirical perspective, such as the students’ prior interest in the topic of the course and the course type into the analyses. Furthermore, it is suggested to clearly separate statistical detectability of effects from their practical relevance.
Notes
Um einen nahe liegenden Einwand vorwegzunehmen: Zwar verweisen Rosar und Klein darauf, dass die verwendeten Daten „die an den Universitäten praktisch durchgeführten Lehrevaluationen nur sehr bedingt widerspiegeln, und dass dieser Umstand mit Blick auf das Wirkungspotenzial der physischen Attraktivität durchaus bedeutsam sein dürfte“ (Rosar u. Klein 2009, S. 638). Allerdings wird von den Autoren unterstellt, dass mit den vorliegenden Daten der interessierende Effekt unterschätzt wird. Dies muss nicht zwingend der Fall sein, wie die folgende Diskussion zur Selektivität der Stichprobe zeigen soll. Ein weiteres Argument dafür ist, dass in den oben zitierten bisherigen Studien zu diesem Thema (Ausnahme: Hamermesh u. Parker 2005) nicht ein mit dem Geschlecht variierender Attraktivitätseffekt, wie er in Rosar u. Klein (2009) berichtet wird, gefunden wurde (s. zur Übersicht Wolbring 2010b).
Dies könnte auch zu gewissen Schwierigkeiten bei der Bestimmung der Standardfehler der Schätzer in den berichteten Regressionsmodellen führen. Zwar wird dabei nicht die Annahme einer normalverteilten abhängigen Variable getroffen, wohl aber normalverteilter Fehler, die mit der Verteilung des Regressanden zusammenhängen.
MeinProf.de ist am 13.11.2005 online gegangen.
Zwar ist die studentische Population bezüglich der meisten dieser Merkmale relativ homogen, dennoch kann es zu einer systematischen Verzerrung kommen. Dies trifft beispielsweise zu, wenn dem Deutsch nicht oder weniger mächtige Studierende und weibliche Studierende mit geringerer Wahrscheinlichkeit Bewertungen abgeben.
Die Standardfehler der Schätzer, welche zur Berechnung der exakten t-Statistik und damit zur genaueren Bewertung der Resultate benötigt werden, sind den Tabellen leider nicht zu entnehmen.
Literatur
Behnke, Joachim. 2005. Lassen sich Signifikanztests auf Vollerhebungen anwenden? Einige Anmerkungen. Politische Vierteljahresschrift 46:1–15.
Berk, Richard A., Bruce Western, und Robert E. Weiss. 1995. Statistical inference for apparent populations. Sociological Methodology 25:421–458.
Broscheid, Andreas, und Thomas Gschwend. 2003. Augäpfel, Murmeltiere und Bayes: Zur Auswertung stochastischer Daten aus Vollerhebungen. MPIfG Working paper 03/7.
Couper, Mick C., und Elisabeth Coutts. 2006. Online-Befragung. Chancen und Risiken verschiedener Arten von Online-Erhebungen. In Methoden der Sozialforschung. Kölner Zeitschrift für Soziologie und Sozialpsychologie. Sonderheft 44/2004, Hrsg. Andreas Diekmann, 217–243. Wiesbaden: VS Verlag für Sozialwissenschaften.
Esser, Hartmut. 1975. Soziale Regelmäßigkeiten des Befragtenverhaltens. Meisenheim am Glan: Hain.
Frey, Bruno S. 2007. Evaluierungen, Evaluierungen … Evaluitis. Perspektiven der Wirtschaftspolitik 8:207–220.
Hamermesh, Daniel S., und Amy M. Parker. 2005. Beauty in the classroom. Instructors’ pulchritude and putative pedagogical productivity. Economics of Education Review 24:369–376.
Heckman, James J. 2008. Selection bias and self-selection. In The new palgrave of economics. 2. Aufl. Hrsg. Steven N. Durlauf und Lawrence E. Blume. Hampshire: Palgrave Macmillan. http://www.dictionaryofeconomics.com/dictionary. Zugegriffen: 21. Dez. 2009.
Holland, Paul W. 1986. Statistics and causal inference. Journal of the American Statistical Association 81:945–960.
Imbens, Guido W., und Donald B. Rubin. 2008. Rubin causal model. In The New Palgrave of Economics. 2. Aufl. Hrsg. Steven N. Durlauf und Lawrence E. Blume. Hampshire: Palgrave Macmillan. http://www.dictionaryofeconomics.com/dictionary. Zugegriffen: 21. Dez. 2009.
Imbens, Guido W., und Jeffrey M. Wooldridge. 2009. Recent developments in the econometrics of program evaluation. Journal of Economic Literature 47:5–86.
Jackob, Nikolaus, Harald Schoen, und Thomas Zerback, Hrsg. 2008. Sozialforschung im Internet: Methodologie und Praxis der Online-Befragung. Wiesbaden: VS Verlag für Sozialwissenschaften.
Kaube, Jürgen, Hrsg. 2009. Die Illusion der Exzellenz. Lebenslügen der Wissenschaftspolitik. Berlin: Wagenbach.
Kehm, Barbara M., Hrsg. 2008. Hochschule im Wandel. Festschrift für Ulrich Teichler. Frankfurt a.M.: Campus.
Klein, Markus, und Ulrich Rosar. 2006. Das Auge hört mit! Der Einfluss der physischen Attraktivität des Lehrpersonals auf die studentische Evaluation von Lehrveranstaltungen – eine empirische Analyse am Beispiel der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität zu Köln. Zeitschrift für Soziologie 35:305–316.
Kromrey, Helmut. 1994. Wie erkennt man „gute Lehre“? Was studentische Vorlesungsbefragungen (nicht) aussagen. Empirische Pädagogik 8:153–168.
Laske, Stephan, Michael Habersam, und Ekkehard Kappler, Hrsg. 2000. Qualitätsentwicklung in Universitäten. Konzepte, Prozesse, Wirkungen. München: Hampp.
Leung, Dors Y.P., und David Kember. 2005. Comparability of data gathered from evaluation questionnaires on paper and through the internet. Research in Higher Education 46:571–591.
Morgan, Stephen L., und Christopher Winship. 2007. Counterfactuals and causal inference. Methods and principles for social research. New York: Cambridge University Press.
Osterloh, Margit, und Bruno S. Frey. 2009. Research governance in academia: Are there alternatives to academic rankings. Working paper no. 423. Institute for Empirical Research in Economics. University of Zurich.
Rindermann, Heiner. 2001. Lehrevaluation. Einführung und Überblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichts. Landau: Empirische Pädagogik.
Rosar, Ulrich, und Markus Klein. 2009. Mein(schöner)Prof.de. Die physische Attraktivität des akademischen Lehrpersonals und ihr Einfluss auf die Ergebnisse studentischer Lehrevaluationen. Kölner Zeitschrift für Soziologie und Sozialpsychologie 61:621–645.
Rubin, Donald B. 1974. Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology 66:688–701.
Stölting, Erhard, und Uwe Schimank, Hrsg. 2001. Die Krise der Universitäten. Leviathan Sonderheft 20/2001.
Süssmuth, Bernd. 2006. Beauty in the classroom: Are German students less blinded? Putative pedagogical productivity due to professors’ pulchritude: Peculiar or pervasive? Applied Economics 38:231–238.
Wissenschaftsrat. 2008. Empfehlungen zur Qualitätsverbesserung von Lehre und Studium. http://www.wissenschaftsrat.de/texte/8639–08.pdf. Zugegriffen: 21. Dez. 2009.
Wolbring, Tobias. 2010a. Physische Attraktivität, Geschlecht und Lehrveranstaltungsevaluation. Eine Replikationsstudie zu den Befunden von Hamermesh und Parker (2005) und Klein und Rosar (2006) mit Hilfe von Individualdaten. Zeitschrift für Evaluation 9(1).
Wolbring, Tobias. 2010b. Was wird bei studentischen Lehrevaluationen bewertet? Attraktivitätseffekte und deren Interaktion mit zwischengeschlechtlichen Einflüssen bei der studentischen Beurteilung der Lehrleistung. In Lehre und Studium professionell evaluieren. Wie viel Wissenschaft braucht die Evaluation? Hrsg. Phillip Pohlenz und Antje Oppermann. Bielefeld: Universitätsverlag Webler.
Author information
Authors and Affiliations
Corresponding author
Additional information
Ich danke Norman Braun, Christian Ganser und Fabian Kratz für wertvolle Hinweise und Anregungen.
Rights and permissions
About this article
Cite this article
Wolbring, T. Weshalb die Separierung von Produktivitätseffekten und Diskriminierung bei der studentischen Lehrveranstaltungsbewertung misslingt. Köln Z Soziol 62, 317–326 (2010). https://doi.org/10.1007/s11577-010-0100-7
Published:
Issue Date:
DOI: https://doi.org/10.1007/s11577-010-0100-7