Skip to main content
Log in

Übereinstimmung, Variabilität und Reliabilität von Schülerurteilen zur Unterrichtsqualität auf Schulebene

Ergebnisse aus 81 Ländern

Interrater agreement, variability and reliability of student ratings of instructional quality at the school-level

Results from 81 countries

  • Allgemeiner Teil
  • Published:
Zeitschrift für Erziehungswissenschaft Aims and scope Submit manuscript

Zusammenfassung

Für die Analyse der Unterrichtsqualität von Schulen durch Schülerurteile sollten drei Voraussetzungen erfüllt sein: (1) eine angemessene Übereinstimmung der Schülerurteile innerhalb der Schulen, (2) systematische Variabilität der Schülerurteile zwischen Schulen, (3) ein ausreichendes Maß an Reliabilität der aggregierten Urteile. Diese Studie untersucht mit internationalen PISA-Daten (Zyklen 2000–2012; 81 Länder, über 55.300 Schulen, über 1,3 Millionen 15-Jährige), inwiefern dies für Indikatoren der Qualitätsdimensionen des Unterrichts (Klassenführung, Kognitive Aktivierung, Konstruktive Unterstützung) zutrifft. Dafür bestimmten wir das Übereinstimmungsmaß rWG(J) sowie die Intraklassenkorrelationen ICC(1) und ICC(2). Es zeigte sich, dass (1) die Mehrzahl der Unterrichtsmerkmale eine moderate oder starke Übereinstimmung in Schulen aufwies, (2) sich Unterrichtsmerkmale aus Sicht der Schülerschaft systematisch zwischen Schulen unterschieden, jedoch (3) die Reliabilität der aggregierten Schülerurteile in vielen Ländern nicht ausreichte. Die Ergebnisse diskutieren wir vor dem Hintergrund von Konventionen zur Beurteilung der Übereinstimmung, Variabilität und Reliabilität auf Schulebene.

Abstract

Using student ratings to assess instructional quality of schools should fulfill three requirements: (1) an appropriate level of inter-rater agreement within schools, (2) systematic variance of student ratings between schools, (3) an adequate reliability level of aggregated student ratings. Using international PISA-data (2000–2012; 81 countries, over 55,300 schools, over 1.3 million 15-year olds) this study investigated how these requirements were met regarding indicators of instructional quality (classroom management, cognitive activation, individual learning support). We computed the interrater agreement index rWG(J), as well as the intraclass correlations ICC(1) and ICC(2). Our results showed that (1) student ratings demonstrated a moderate or strong level of agreement for most indicators of instructional quality and (2) instructional quality assessed by students varied systematically between schools. Yet, (3) reliability of aggregated student ratings was not sufficient in many countries. We discuss these results regarding conventions to evaluate agreement, variability, and reliability of student ratings at the school level.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Abb. 1

Notes

  1. Bei den Begriffen wie „Schülerurteil“, „Schülerwahrnehmung“ etc. werden sowohl Schülerinnen als auch Schüler mitgedacht.

  2. Eigene Übersetzung der Items von 2012, da hier der deutsche Fragebogen nicht öffentlich zugänglich ist.

  3. Die 95 %-Konfidenzintervalle könnten sonst nicht berechnet werden. Zudem wurden in Analysen mit einem Teil der Daten bei der ICC(1)-Berechnung Stichprobengewichte verwendet. Diese ergaben lediglich sehr geringe Abweichungen von maximal 0,03. Das Nicht-Verwenden der Stichprobengewichte hat jedoch zur Folge, dass die Befunde nur auf die Grundgesamtheit der teilnehmenden Schülerinnen und Schüler in den Ländern verallgemeinert werden können und insgesamt weniger präzise ausfallen, als unter Einbeziehung der Stichprobengewichte.

Literatur

  • Bates, D. M. (2010). lme4: mixed-effects modeling with R. http://lme4.r-forge.r-project.org/lMMwR/lrgprt.pdf. Zugegriffen: 31. Juli 2016.

    Google Scholar 

  • Bates, D. M., Mächler, M., Bolker, B., & Walker, S. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1). https://doi.org/10.18637/jss.v067.i01.

    Article  Google Scholar 

  • Baumert, J., Trautwein, U., & Artelt, C. (2003). Schulumwelten – institutionelle Bedingungen des Lehrens und Lernens. In Deutsches PISA-Konsortium (Hrsg.), PISA 2000 – Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 261–332). Opladen: Leske + Budrich.

    Chapter  Google Scholar 

  • Bliese, P. (2000). Within-group agreement, non-independence, and reliability. Implications for data aggregation and analysis. In K. J. Klein & S. W. J. Kozlowski (Hrsg.), Frontiers of industrial and organizational psychology: multilevel theory, research, and methods in organizations. Foundations, extensions, and new directions (S. 349–381). San Francisco: Jossey-Bass.

    Google Scholar 

  • Bliese, P. (2013). multilevel: multilevel functions. R package version 2.5. https://CRAN.R-project.org/package=multilevel. Zugegriffen: 2. Juni 2016.

    Google Scholar 

  • Chan, D. (1998). Functional relations among constructs in the same content domain at different levels of analysis. A typology of composition models. Journal of Applied Psychology, 83(2), 234–246.

    Article  Google Scholar 

  • Church, M. A., Elliot, A. J., & Gable, S. L. (2001). Perceptions of classroom environment, achievement goals, and achievement outcomes. Journal of Educational Psychology, 93(1), 43–54.

    Article  Google Scholar 

  • Clausen, M. (2002). Pädagogische Psychologie und Entwicklungspsychologie. Bd. 29: Unterrichtsqualität: eine Frage der Perspektive? Empirische Analysen zur Übereinstimmung, Konstrukt- und Kriteriumsvalidität. Münster: Waxmann.

    Google Scholar 

  • Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.). Hillsdale: Erlbaum.

    Google Scholar 

  • Cohen, A., Doveh, E., & Eick, U. (2001). Statistical properties of the rWG(J) index of agreement. Psychological methods, 6(3), 297–310.

    Article  Google Scholar 

  • Ditton, H. (2000). Qualitätskontrolle und Qualitätssicherung in Schule und Unterricht. Ein Überblick zum Stand der empirischen Forschung. In A. Helmke, W. Hornstein, & E. Terhart (Hrsg.), Qualität und Qualitätssicherung im Bildungsbereich; Schule, Sozialpädagogik, Hochschule  (Zeitschrift für Pädagogik: Beiheft 41, S. 73–92). Weinheim: Beltz.

    Google Scholar 

  • Fend, H. (2008). Schule gestalten. Systemsteuerung, Schulentwicklung und Unterrichtsqualität (1. Aufl.). Wiesbaden: VS.

    Google Scholar 

  • Finn, R. H. (1970). A note on estimating the reliability of categorical data. Educational and Psychological Measurement, 30(1), 71–76.

    Article  Google Scholar 

  • Fischer, R. (2009). Where is culture in cross cultural research? An outline of a multilevel research process for measuring culture as a shared meaning system. International Journal of Cross Cultural Management, 9(1), 25–49.

    Article  Google Scholar 

  • Gärtner, H. (2010). Wie Schülerinnen und Schüler ihre Lernumwelt wahrnehmen. Zeitschrift für Pädagogische Psychologie, 24(2), 111–122.

    Article  Google Scholar 

  • Gruehn, S. (2000). Unterricht und schulisches Lernen. Schüler als Quellen der Unterrichtsbeschreibung. Pädagogische Psychologie und Entwicklungspsychologie, Bd. 12. Münster: Waxmann.

    Google Scholar 

  • Hedges, L. V., & Hedberg, E. C. (2007). Intraclass correlation values for planning group-randomized trials in education. Educational Evaluation and Policy Analysis, 29(1), 60–87.

    Article  Google Scholar 

  • Helmke, A. (2009). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts (1. Aufl.). Seelze-Velber: Kallmeyer.

    Google Scholar 

  • Hemphill, J. F. (2003). Interpreting the magnitudes of correlation coefficients. American Psychologist, 58(1), 78–79.

    Article  Google Scholar 

  • James, L. R., Demaree, R. G., & Wolf, G. (1984). Estimating within-group interrater reliability with and without response bias. Journal of Applied Psychology, 69(1), 85–98.

    Article  Google Scholar 

  • Klieme, E., & Rakoczy, K. (2003). Unterrichtsqualität aus Schülerperspektive: Kulturspezifische Profile, regionale Unterschiede und Zusammenhänge mit Effekten von Unterricht. In Deutsches PISA-Konsortium (Hrsg.), PISA 2000 – Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 333–359). Opladen: Leske + Budrich.

    Chapter  Google Scholar 

  • Kunter, M., Baumert, J., Blum, W., & Neubrand, M. (Hrsg.). (2011). Professionelle Kompetenz von Lehrkräften. Ergebnisse des Forschungsprogramms COACTIV. Münster: Waxmann.

    Google Scholar 

  • LeBreton, J. M., & Senter, J. L. (2008). Answers to 20 questions about interrater reliability and interrater agreement. Organizational Research Methods, 11(4), 815–852.

    Article  Google Scholar 

  • Lipowsky, F. (2009). Unterricht. In E. Wild & J. Möller (Hrsg.), Springer-Lehrbuch: Pädagogische Psychologie (S. 73–101). Berlin: Springer.

    Chapter  Google Scholar 

  • Lüdtke, O., Trautwein, U., Kunter, M., & Baumert, J. (2006). Analyse von Lernumwelten. Ansätze zur Bestimmung der Reliabilität und Übereinstimmung von Schülerwahrnehmungen. Zeitschrift für Pädagogische Psychologie, 20(1/2), 85–96.

    Article  Google Scholar 

  • Lüdtke, O., Robitzsch, A., Trautwein, U., & Kunter, M. (2009). Assessing the impact of learning environments: how to use student ratings of classroom or school characteristics in multilevel modeling. Contemporary Educational Psychology, 34(2), 120–131.

    Article  Google Scholar 

  • OECD (2002) = Organisation for Economic Co-operation and Development. (2002). PISA 2000 technical report. Paris: OECD Publishing.

    Google Scholar 

  • OECD (2005) = Organisation for Economic Co-operation and Development. (2005). PISA 2003 technical report. Paris: OECD Publishing.

    Book  Google Scholar 

  • OECD (2012) = Organisation for Economic Co-operation and Development. (2012). PISA 2009 technical report. Paris: OECD Publishing.

    Book  Google Scholar 

  • OECD (2014) = Organisation for Economic Co-operation and Development. (2014). PISA 2012 technical report. Paris: OECD Publishing.

    Google Scholar 

  • Scheerens, J., & Bosker, R. J. (1997). The foundations of educational effectiveness (1. Aufl.). Oxford: Pergamon.

    Google Scholar 

  • Stapleton, L. M., Yang, J. S., & Hancock, G. R. (2016). Construct meaning in multilevel settings. Journal of Educational and Behavioral Statistics, 41(5), 481–520.

    Article  Google Scholar 

  • Viechtbauer, W. (2016). metafor: meta-analysis package for R. R package version 1.9-9. https://cran.r-project.org/web/packages/metafor/metafor.pdf. Zugegriffen: 31. März 2016.

    Google Scholar 

  • Wurster, S., & Gärtner, H. (2013). Erfassung von Bildungsprozessen im Rahmen von Schulinspektion und deren potenzieller Nutzen für die empirische Bildungsforschung. Unterrichtswissenschaft, 41(3), 217–236.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Marina Wenger.

Caption Electronic Supplementary Material

11618_2018_813_MOESM1_ESM.xlsx

Im Online Supplement sind folgende Materialien verfügbar: verwendete Skalen aus den PISA-Studien mit Itemtext; landesspezifische Ergebnisse der PISA-Länder für alle Kennwerte (rWG(J), ICC(1), ICC(2)) je Unterrichtsmerkmal; Varianzkomponentenanalyse bei Merkmalen, die in mehreren PISA-Zyklen erhoben wurden

Rights and permissions

Reprints and permissions

About this article

Check for updates. Verify currency and authenticity via CrossMark

Cite this article

Wenger, M., Lüdtke, O. & Brunner, M. Übereinstimmung, Variabilität und Reliabilität von Schülerurteilen zur Unterrichtsqualität auf Schulebene. Z Erziehungswiss 21, 929–950 (2018). https://doi.org/10.1007/s11618-018-0813-3

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s11618-018-0813-3

Schlüsselwörter

Keywords

Navigation