Skip to main content
Log in

Weshalb die Separierung von Produktivitätseffekten und Diskriminierung bei der studentischen Lehrveranstaltungsbewertung misslingt

Selektive Stichproben, fehlende Drittvariablen und die Konfundierung von Effekten

Why the attempt to separate productivity and discrimination effects on students’ evaluations of teaching fails

Selective samples, missing mediator variables and confounding of effects

  • Berichte und Diskussionen
  • Published:
KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie Aims and scope Submit manuscript

Zusammenfassung

In ihrem Aufsatz „Mein(schöner)Prof.de. Die physische Attraktivität des akademischen Lehrpersonals und ihr Einfluss auf die Ergebnisse studentischer Lehrevaluationen“ (Heft 4/2009 dieser Zeitschrift) versuchen Ulrich Rosar und Markus Klein zu zeigen, dass Produktivitätsvorteile attraktiver Lehrpersonen nicht existieren. Dieser Schlussfolgerung aus ihren empirischen Analysen anhand von Daten des Internetportals MeinProf.de wird aufgrund dreier Punkte, der hohen Selektivität der verwendeten Stichprobe, der fehlenden Kontrolle relevanter Drittvariablen sowie der gewählten Modellierungsstrategie und Interpretation der statistischen Modelle widersprochen. Diese Argumente werden auch anhand „realer“ Evaluationsdaten der LMU München empirisch gestützt. Es wird empfohlen, solche Daten tatsächlicher Lehrveranstaltungsevaluationen anstelle selektiver Stichproben von Internetplattformen zu verwenden, aus Theorie und Empirie bekannte konfundierende Faktoren wie studentisches Vorinteresse an dem Kursthema und Art des Kurses bei den Analysen (konsistent) zu berücksichtigen und statistische Nachweisbarkeit von Effekten klar von deren praktischer Relevanz zu trennen.

Abstract

In their article “Mein(schöner)Prof.de. The Physical Attractiveness of Academic Staff and Its Influence on Evaluations by Students”, Ulrich Rosar and Markus Klein try to show that attractive teachers don’t perform better in the classroom. There are three objections against their conclusion from the empirical analyses based on data from the online platform MeinProf.de: the high selectivity of the used sample, the missing control for relevant covariates as well as the choice of the modeling strategy and the interpretation of the statistical models. These arguments are also backed with data of “real” students’ evaluations of teaching at the LMU Munich. It is recommended to use such “real” students’ evaluations of teaching instead of selective samples from online platforms and to (consistently) include relevant confounding factors, which seem to be relevant from a theoretical and empirical perspective, such as the students’ prior interest in the topic of the course and the course type into the analyses. Furthermore, it is suggested to clearly separate statistical detectability of effects from their practical relevance.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Abb. 1

Notes

  1. Um einen nahe liegenden Einwand vorwegzunehmen: Zwar verweisen Rosar und Klein darauf, dass die verwendeten Daten „die an den Universitäten praktisch durchgeführten Lehrevaluationen nur sehr bedingt widerspiegeln, und dass dieser Umstand mit Blick auf das Wirkungspotenzial der physischen Attraktivität durchaus bedeutsam sein dürfte“ (Rosar u. Klein 2009, S. 638). Allerdings wird von den Autoren unterstellt, dass mit den vorliegenden Daten der interessierende Effekt unterschätzt wird. Dies muss nicht zwingend der Fall sein, wie die folgende Diskussion zur Selektivität der Stichprobe zeigen soll. Ein weiteres Argument dafür ist, dass in den oben zitierten bisherigen Studien zu diesem Thema (Ausnahme: Hamermesh u. Parker 2005) nicht ein mit dem Geschlecht variierender Attraktivitätseffekt, wie er in Rosar u. Klein (2009) berichtet wird, gefunden wurde (s. zur Übersicht Wolbring 2010b).

  2. Dies könnte auch zu gewissen Schwierigkeiten bei der Bestimmung der Standardfehler der Schätzer in den berichteten Regressionsmodellen führen. Zwar wird dabei nicht die Annahme einer normalverteilten abhängigen Variable getroffen, wohl aber normalverteilter Fehler, die mit der Verteilung des Regressanden zusammenhängen.

  3. MeinProf.de ist am 13.11.2005 online gegangen.

  4. Zwar ist die studentische Population bezüglich der meisten dieser Merkmale relativ homogen, dennoch kann es zu einer systematischen Verzerrung kommen. Dies trifft beispielsweise zu, wenn dem Deutsch nicht oder weniger mächtige Studierende und weibliche Studierende mit geringerer Wahrscheinlichkeit Bewertungen abgeben.

  5. Siehe hierzu auch die mit dieser Thematik verbundene Literatur zur Sinnhaftigkeit von Signifikanztests bei Vollerhebungen (z. B. Behnke 2005; Berk et al. 1995; Broscheid u. Gschwend 2003) sowie zu neueren Entwicklungen ökonometrischer Methoden zur Programmevaluation (Imbens u. Wooldridge 2009).

  6. Siehe zu wissenschaftstheoretischen Überlegungen zur Kausalität die Arbeiten von Donald Rubin und Kollegen (z. B. Rubin 1974; Imbens u. Rubin 2008; Holland 1986) sowie für einen Überblick über neuere statistische Verfahren zu deren Prüfung das Buch von Morgan u. Winship (2007).

  7. Die Standardfehler der Schätzer, welche zur Berechnung der exakten t-Statistik und damit zur genaueren Bewertung der Resultate benötigt werden, sind den Tabellen leider nicht zu entnehmen.

Literatur

  • Behnke, Joachim. 2005. Lassen sich Signifikanztests auf Vollerhebungen anwenden? Einige Anmerkungen. Politische Vierteljahresschrift 46:1–15.

    Article  Google Scholar 

  • Berk, Richard A., Bruce Western, und Robert E. Weiss. 1995. Statistical inference for apparent populations. Sociological Methodology 25:421–458.

    Article  Google Scholar 

  • Broscheid, Andreas, und Thomas Gschwend. 2003. Augäpfel, Murmeltiere und Bayes: Zur Auswertung stochastischer Daten aus Vollerhebungen. MPIfG Working paper 03/7.

  • Couper, Mick C., und Elisabeth Coutts. 2006. Online-Befragung. Chancen und Risiken verschiedener Arten von Online-Erhebungen. In Methoden der Sozialforschung. Kölner Zeitschrift für Soziologie und Sozialpsychologie. Sonderheft 44/2004, Hrsg. Andreas Diekmann, 217–243. Wiesbaden: VS Verlag für Sozialwissenschaften.

    Google Scholar 

  • Esser, Hartmut. 1975. Soziale Regelmäßigkeiten des Befragtenverhaltens. Meisenheim am Glan: Hain.

    Google Scholar 

  • Frey, Bruno S. 2007. Evaluierungen, Evaluierungen … Evaluitis. Perspektiven der Wirtschaftspolitik 8:207–220.

    Article  Google Scholar 

  • Hamermesh, Daniel S., und Amy M. Parker. 2005. Beauty in the classroom. Instructors’ pulchritude and putative pedagogical productivity. Economics of Education Review 24:369–376.

    Article  Google Scholar 

  • Heckman, James J. 2008. Selection bias and self-selection. In The new palgrave of economics. 2. Aufl. Hrsg. Steven N. Durlauf und Lawrence E. Blume. Hampshire: Palgrave Macmillan. http://www.dictionaryofeconomics.com/dictionary. Zugegriffen: 21. Dez. 2009.

    Google Scholar 

  • Holland, Paul W. 1986. Statistics and causal inference. Journal of the American Statistical Association 81:945–960.

    Article  Google Scholar 

  • Imbens, Guido W., und Donald B. Rubin. 2008. Rubin causal model. In The New Palgrave of Economics. 2. Aufl. Hrsg. Steven N. Durlauf und Lawrence E. Blume. Hampshire: Palgrave Macmillan. http://www.dictionaryofeconomics.com/dictionary. Zugegriffen: 21. Dez. 2009.

    Google Scholar 

  • Imbens, Guido W., und Jeffrey M. Wooldridge. 2009. Recent developments in the econometrics of program evaluation. Journal of Economic Literature 47:5–86.

    Article  Google Scholar 

  • Jackob, Nikolaus, Harald Schoen, und Thomas Zerback, Hrsg. 2008. Sozialforschung im Internet: Methodologie und Praxis der Online-Befragung. Wiesbaden: VS Verlag für Sozialwissenschaften.

    Google Scholar 

  • Kaube, Jürgen, Hrsg. 2009. Die Illusion der Exzellenz. Lebenslügen der Wissenschaftspolitik. Berlin: Wagenbach.

    Google Scholar 

  • Kehm, Barbara M., Hrsg. 2008. Hochschule im Wandel. Festschrift für Ulrich Teichler. Frankfurt a.M.: Campus.

    Google Scholar 

  • Klein, Markus, und Ulrich Rosar. 2006. Das Auge hört mit! Der Einfluss der physischen Attraktivität des Lehrpersonals auf die studentische Evaluation von Lehrveranstaltungen – eine empirische Analyse am Beispiel der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität zu Köln. Zeitschrift für Soziologie 35:305–316.

    Google Scholar 

  • Kromrey, Helmut. 1994. Wie erkennt man „gute Lehre“? Was studentische Vorlesungsbefragungen (nicht) aussagen. Empirische Pädagogik 8:153–168.

    Google Scholar 

  • Laske, Stephan, Michael Habersam, und Ekkehard Kappler, Hrsg. 2000. Qualitätsentwicklung in Universitäten. Konzepte, Prozesse, Wirkungen. München: Hampp.

    Google Scholar 

  • Leung, Dors Y.P., und David Kember. 2005. Comparability of data gathered from evaluation questionnaires on paper and through the internet. Research in Higher Education 46:571–591.

    Article  Google Scholar 

  • Morgan, Stephen L., und Christopher Winship. 2007. Counterfactuals and causal inference. Methods and principles for social research. New York: Cambridge University Press.

    Google Scholar 

  • Osterloh, Margit, und Bruno S. Frey. 2009. Research governance in academia: Are there alternatives to academic rankings. Working paper no. 423. Institute for Empirical Research in Economics. University of Zurich.

  • Rindermann, Heiner. 2001. Lehrevaluation. Einführung und Überblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichts. Landau: Empirische Pädagogik.

    Google Scholar 

  • Rosar, Ulrich, und Markus Klein. 2009. Mein(schöner)Prof.de. Die physische Attraktivität des akademischen Lehrpersonals und ihr Einfluss auf die Ergebnisse studentischer Lehrevaluationen. Kölner Zeitschrift für Soziologie und Sozialpsychologie 61:621–645.

    Article  Google Scholar 

  • Rubin, Donald B. 1974. Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology 66:688–701.

    Article  Google Scholar 

  • Stölting, Erhard, und Uwe Schimank, Hrsg. 2001. Die Krise der Universitäten. Leviathan Sonderheft 20/2001.

  • Süssmuth, Bernd. 2006. Beauty in the classroom: Are German students less blinded? Putative pedagogical productivity due to professors’ pulchritude: Peculiar or pervasive? Applied Economics 38:231–238.

    Article  Google Scholar 

  • Wissenschaftsrat. 2008. Empfehlungen zur Qualitätsverbesserung von Lehre und Studium. http://www.wissenschaftsrat.de/texte/8639–08.pdf. Zugegriffen: 21. Dez. 2009.

  • Wolbring, Tobias. 2010a. Physische Attraktivität, Geschlecht und Lehrveranstaltungsevaluation. Eine Replikationsstudie zu den Befunden von Hamermesh und Parker (2005) und Klein und Rosar (2006) mit Hilfe von Individualdaten. Zeitschrift für Evaluation 9(1).

  • Wolbring, Tobias. 2010b. Was wird bei studentischen Lehrevaluationen bewertet? Attraktivitätseffekte und deren Interaktion mit zwischengeschlechtlichen Einflüssen bei der studentischen Beurteilung der Lehrleistung. In Lehre und Studium professionell evaluieren. Wie viel Wissenschaft braucht die Evaluation? Hrsg. Phillip Pohlenz und Antje Oppermann. Bielefeld: Universitätsverlag Webler.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Tobias Wolbring.

Additional information

Ich danke Norman Braun, Christian Ganser und Fabian Kratz für wertvolle Hinweise und Anregungen.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Wolbring, T. Weshalb die Separierung von Produktivitätseffekten und Diskriminierung bei der studentischen Lehrveranstaltungsbewertung misslingt. Köln Z Soziol 62, 317–326 (2010). https://doi.org/10.1007/s11577-010-0100-7

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s11577-010-0100-7

Schlüsselwörter

Keywords

Navigation