Zusammenfassung
Für die Analyse der Unterrichtsqualität von Schulen durch Schülerurteile sollten drei Voraussetzungen erfüllt sein: (1) eine angemessene Übereinstimmung der Schülerurteile innerhalb der Schulen, (2) systematische Variabilität der Schülerurteile zwischen Schulen, (3) ein ausreichendes Maß an Reliabilität der aggregierten Urteile. Diese Studie untersucht mit internationalen PISA-Daten (Zyklen 2000–2012; 81 Länder, über 55.300 Schulen, über 1,3 Millionen 15-Jährige), inwiefern dies für Indikatoren der Qualitätsdimensionen des Unterrichts (Klassenführung, Kognitive Aktivierung, Konstruktive Unterstützung) zutrifft. Dafür bestimmten wir das Übereinstimmungsmaß rWG(J) sowie die Intraklassenkorrelationen ICC(1) und ICC(2). Es zeigte sich, dass (1) die Mehrzahl der Unterrichtsmerkmale eine moderate oder starke Übereinstimmung in Schulen aufwies, (2) sich Unterrichtsmerkmale aus Sicht der Schülerschaft systematisch zwischen Schulen unterschieden, jedoch (3) die Reliabilität der aggregierten Schülerurteile in vielen Ländern nicht ausreichte. Die Ergebnisse diskutieren wir vor dem Hintergrund von Konventionen zur Beurteilung der Übereinstimmung, Variabilität und Reliabilität auf Schulebene.
Abstract
Using student ratings to assess instructional quality of schools should fulfill three requirements: (1) an appropriate level of inter-rater agreement within schools, (2) systematic variance of student ratings between schools, (3) an adequate reliability level of aggregated student ratings. Using international PISA-data (2000–2012; 81 countries, over 55,300 schools, over 1.3 million 15-year olds) this study investigated how these requirements were met regarding indicators of instructional quality (classroom management, cognitive activation, individual learning support). We computed the interrater agreement index rWG(J), as well as the intraclass correlations ICC(1) and ICC(2). Our results showed that (1) student ratings demonstrated a moderate or strong level of agreement for most indicators of instructional quality and (2) instructional quality assessed by students varied systematically between schools. Yet, (3) reliability of aggregated student ratings was not sufficient in many countries. We discuss these results regarding conventions to evaluate agreement, variability, and reliability of student ratings at the school level.
Notes
Bei den Begriffen wie „Schülerurteil“, „Schülerwahrnehmung“ etc. werden sowohl Schülerinnen als auch Schüler mitgedacht.
Eigene Übersetzung der Items von 2012, da hier der deutsche Fragebogen nicht öffentlich zugänglich ist.
Die 95 %-Konfidenzintervalle könnten sonst nicht berechnet werden. Zudem wurden in Analysen mit einem Teil der Daten bei der ICC(1)-Berechnung Stichprobengewichte verwendet. Diese ergaben lediglich sehr geringe Abweichungen von maximal 0,03. Das Nicht-Verwenden der Stichprobengewichte hat jedoch zur Folge, dass die Befunde nur auf die Grundgesamtheit der teilnehmenden Schülerinnen und Schüler in den Ländern verallgemeinert werden können und insgesamt weniger präzise ausfallen, als unter Einbeziehung der Stichprobengewichte.
Literatur
Bates, D. M. (2010). lme4: mixed-effects modeling with R. http://lme4.r-forge.r-project.org/lMMwR/lrgprt.pdf. Zugegriffen: 31. Juli 2016.
Bates, D. M., Mächler, M., Bolker, B., & Walker, S. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1). https://doi.org/10.18637/jss.v067.i01.
Baumert, J., Trautwein, U., & Artelt, C. (2003). Schulumwelten – institutionelle Bedingungen des Lehrens und Lernens. In Deutsches PISA-Konsortium (Hrsg.), PISA 2000 – Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 261–332). Opladen: Leske + Budrich.
Bliese, P. (2000). Within-group agreement, non-independence, and reliability. Implications for data aggregation and analysis. In K. J. Klein & S. W. J. Kozlowski (Hrsg.), Frontiers of industrial and organizational psychology: multilevel theory, research, and methods in organizations. Foundations, extensions, and new directions (S. 349–381). San Francisco: Jossey-Bass.
Bliese, P. (2013). multilevel: multilevel functions. R package version 2.5. https://CRAN.R-project.org/package=multilevel. Zugegriffen: 2. Juni 2016.
Chan, D. (1998). Functional relations among constructs in the same content domain at different levels of analysis. A typology of composition models. Journal of Applied Psychology, 83(2), 234–246.
Church, M. A., Elliot, A. J., & Gable, S. L. (2001). Perceptions of classroom environment, achievement goals, and achievement outcomes. Journal of Educational Psychology, 93(1), 43–54.
Clausen, M. (2002). Pädagogische Psychologie und Entwicklungspsychologie. Bd. 29: Unterrichtsqualität: eine Frage der Perspektive? Empirische Analysen zur Übereinstimmung, Konstrukt- und Kriteriumsvalidität. Münster: Waxmann.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.). Hillsdale: Erlbaum.
Cohen, A., Doveh, E., & Eick, U. (2001). Statistical properties of the rWG(J) index of agreement. Psychological methods, 6(3), 297–310.
Ditton, H. (2000). Qualitätskontrolle und Qualitätssicherung in Schule und Unterricht. Ein Überblick zum Stand der empirischen Forschung. In A. Helmke, W. Hornstein, & E. Terhart (Hrsg.), Qualität und Qualitätssicherung im Bildungsbereich; Schule, Sozialpädagogik, Hochschule (Zeitschrift für Pädagogik: Beiheft 41, S. 73–92). Weinheim: Beltz.
Fend, H. (2008). Schule gestalten. Systemsteuerung, Schulentwicklung und Unterrichtsqualität (1. Aufl.). Wiesbaden: VS.
Finn, R. H. (1970). A note on estimating the reliability of categorical data. Educational and Psychological Measurement, 30(1), 71–76.
Fischer, R. (2009). Where is culture in cross cultural research? An outline of a multilevel research process for measuring culture as a shared meaning system. International Journal of Cross Cultural Management, 9(1), 25–49.
Gärtner, H. (2010). Wie Schülerinnen und Schüler ihre Lernumwelt wahrnehmen. Zeitschrift für Pädagogische Psychologie, 24(2), 111–122.
Gruehn, S. (2000). Unterricht und schulisches Lernen. Schüler als Quellen der Unterrichtsbeschreibung. Pädagogische Psychologie und Entwicklungspsychologie, Bd. 12. Münster: Waxmann.
Hedges, L. V., & Hedberg, E. C. (2007). Intraclass correlation values for planning group-randomized trials in education. Educational Evaluation and Policy Analysis, 29(1), 60–87.
Helmke, A. (2009). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts (1. Aufl.). Seelze-Velber: Kallmeyer.
Hemphill, J. F. (2003). Interpreting the magnitudes of correlation coefficients. American Psychologist, 58(1), 78–79.
James, L. R., Demaree, R. G., & Wolf, G. (1984). Estimating within-group interrater reliability with and without response bias. Journal of Applied Psychology, 69(1), 85–98.
Klieme, E., & Rakoczy, K. (2003). Unterrichtsqualität aus Schülerperspektive: Kulturspezifische Profile, regionale Unterschiede und Zusammenhänge mit Effekten von Unterricht. In Deutsches PISA-Konsortium (Hrsg.), PISA 2000 – Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 333–359). Opladen: Leske + Budrich.
Kunter, M., Baumert, J., Blum, W., & Neubrand, M. (Hrsg.). (2011). Professionelle Kompetenz von Lehrkräften. Ergebnisse des Forschungsprogramms COACTIV. Münster: Waxmann.
LeBreton, J. M., & Senter, J. L. (2008). Answers to 20 questions about interrater reliability and interrater agreement. Organizational Research Methods, 11(4), 815–852.
Lipowsky, F. (2009). Unterricht. In E. Wild & J. Möller (Hrsg.), Springer-Lehrbuch: Pädagogische Psychologie (S. 73–101). Berlin: Springer.
Lüdtke, O., Trautwein, U., Kunter, M., & Baumert, J. (2006). Analyse von Lernumwelten. Ansätze zur Bestimmung der Reliabilität und Übereinstimmung von Schülerwahrnehmungen. Zeitschrift für Pädagogische Psychologie, 20(1/2), 85–96.
Lüdtke, O., Robitzsch, A., Trautwein, U., & Kunter, M. (2009). Assessing the impact of learning environments: how to use student ratings of classroom or school characteristics in multilevel modeling. Contemporary Educational Psychology, 34(2), 120–131.
OECD (2002) = Organisation for Economic Co-operation and Development. (2002). PISA 2000 technical report. Paris: OECD Publishing.
OECD (2005) = Organisation for Economic Co-operation and Development. (2005). PISA 2003 technical report. Paris: OECD Publishing.
OECD (2012) = Organisation for Economic Co-operation and Development. (2012). PISA 2009 technical report. Paris: OECD Publishing.
OECD (2014) = Organisation for Economic Co-operation and Development. (2014). PISA 2012 technical report. Paris: OECD Publishing.
Scheerens, J., & Bosker, R. J. (1997). The foundations of educational effectiveness (1. Aufl.). Oxford: Pergamon.
Stapleton, L. M., Yang, J. S., & Hancock, G. R. (2016). Construct meaning in multilevel settings. Journal of Educational and Behavioral Statistics, 41(5), 481–520.
Viechtbauer, W. (2016). metafor: meta-analysis package for R. R package version 1.9-9. https://cran.r-project.org/web/packages/metafor/metafor.pdf. Zugegriffen: 31. März 2016.
Wurster, S., & Gärtner, H. (2013). Erfassung von Bildungsprozessen im Rahmen von Schulinspektion und deren potenzieller Nutzen für die empirische Bildungsforschung. Unterrichtswissenschaft, 41(3), 217–236.
Author information
Authors and Affiliations
Corresponding author
Caption Electronic Supplementary Material
11618_2018_813_MOESM1_ESM.xlsx
Im Online Supplement sind folgende Materialien verfügbar: verwendete Skalen aus den PISA-Studien mit Itemtext; landesspezifische Ergebnisse der PISA-Länder für alle Kennwerte (rWG(J), ICC(1), ICC(2)) je Unterrichtsmerkmal; Varianzkomponentenanalyse bei Merkmalen, die in mehreren PISA-Zyklen erhoben wurden
Rights and permissions
About this article
Cite this article
Wenger, M., Lüdtke, O. & Brunner, M. Übereinstimmung, Variabilität und Reliabilität von Schülerurteilen zur Unterrichtsqualität auf Schulebene. Z Erziehungswiss 21, 929–950 (2018). https://doi.org/10.1007/s11618-018-0813-3
Published:
Issue Date:
DOI: https://doi.org/10.1007/s11618-018-0813-3