Advertisement

Faire Vergleiche? – Berücksichtigung von Kontextbedingungen des Lernens beim Vergleich von Testergebnissen aus deutschen Vergleichsarbeiten

  • Christiane FiegeEmail author
  • Franziska Reuther
  • Christof Nachtigall
Originalbeitrag

Zusammenfassung

Eine wesentliche Säule der Gesamtstrategie zum Bildungsmonitoring (KMK 2006) bilden die landesweiten Vergleichsarbeiten. Diese erheben den Lern- und Leistungsstand von Schülern mittels standardisierter Tests, welche den Vergleich der Schülerleistungen zwischen verschiedenen Klassen ermöglichen. Daraus werden u. a. Aussagen über Unterrichtseffekte auf die Schülerleistung abgeleitet, die Grundlage für Unterrichtsentwicklungsmaßnahmen sein sollen. Ein Problem bei solchen Vergleichen ist, dass Klassenunterschiede nicht nur aufgrund der Unterrichtseffekte zustande kommen können, sondern auch aufgrund unterschiedlicher Ausgangsvoraussetzungen der Schüler (z. B. ihr sozioökonomischer Status). Deshalb werden bspw. einfache Mittelwertsvergleiche der Testleistungen verschiedener Klassen als unfair angesehen. Für faire Vergleiche müssen Adjustierungsverfahren verwendet werden, um diesen Unterschieden Rechnung zu tragen.

Der vorliegende Beitrag stellt die Bedeutung und Anwendung fairer Vergleiche im Kontext von deutschen Vergleichsarbeiten dar. Vor diesem Hintergrund werden die derzeit verwendeten statistischen Adjustierungsverfahren systematisiert, um sie hinsichtlich der Fairness sowie Praktikabilitätskriterien beurteilen zu können.

Schlüsselwörter

Vergleichsarbeiten Faire Vergleiche Adjustierungsverfahren Kovariaten 

Fair comparisons?—Controlling for student background in German comparative performance tests

Abstract

The Standing Conference of the Ministers of Education and Cultural Affairs of the German states (KMK 2006) is currently conducting extensive monitoring of educational achievement in Germany. An important part of these efforts are the so-called “Vergleichsarbeiten” (comparative performance tests) that aim at assessing student achievement with standardized tests. By measuring students’ achievement on one common scale, these tests allow for comparing the achievement scores of classes to assess the effects of instruction on students’ outcomes. An ultimate goal of these comparisons is to identify and develop successful classroom practices. Unadjusted comparisons between classes—in the sense of naïve mean comparisons—are not fair because differences between the average achievement levels may result not only from school practice (e.g. teachers’ performance) but also from pre-existing differences among students, such as socio economic status. In order to yield unbiased comparisons, adjustment procedures need to be implemented.

This article describes the significance and the implementation of fair comparisons in the context of comparative performance testing in Germany. Against this background, the currently implemented adjustment procedures are systematically evaluated in terms of fairness and practicability.

Keywords

Comparative performance tests Fair comparisons Adjustment procedures Covariates 

Literatur

  1. Ackeren, I. van, & Bellenberg, G. (2004). Parallelarbeiten, Vergleichsarbeiten und Zentrale Abschlussprüfungen – Bestandsaufnahme und Perspektiven. In H. G. Holtappels, K. Klemm, H. Pfeiffer, H.-G. Rolff, & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (S. 125–160). Weinheim: Juventa.Google Scholar
  2. Baumert, J., & Schümer, G. (2001). Familiäre Lebensverhältnisse, Bildungsbeteiligung und Kompetenzerwerb. In J. Baumert et al. (Hrsg.), PISA 2000– Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 323–410). Opladen: Leske + Budrich.Google Scholar
  3. Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefele, U., Schneider, W., Stanat, P., Tillmann, K.-J., & Weiß, M. (Hrsg.). (2001). PISA 2000 – Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Opladen: Leske + Budrich.Google Scholar
  4. Bonsen, M., Bos, W., Gröhlich, C., Harney, B., Imhäuser, K., Makles, A., Schräpler, J.-P., Terpoorten, T., Weishaupt, H., & Wendt, H. (2010). Zur Konstruktion von Sozialindizes – Ein Beitrag zur Analyse sozialräumlicher Benachteiligung von Schulen als Voraussetzung für qualitative Schulentwicklung. Bildungsforschung Band 31, Herausgegeben vom Bundesministerium für Bildung und Forschung (BMBF), Berlin.Google Scholar
  5. Bortz, J. (2005). Statistik: für Human- und Sozialwissenschaftler (6. vollst. überarb. u. aktualisierte Aufl.). Heidelberg: Springer.Google Scholar
  6. Bos, W., Bonsen, M., Gröhlich, C., Guill, K., May, P., Rau, A., Stubbe, T.C., Vieluf, U., & Wocken, H. (2007). KESS 7 – Kompetenzen und Einstellungen von Schülerinnen und Schülern – Jahrgangsstufe 7. http://www.ifs-dortmund.de/files/KESS-7-Bericht_170309.pdf. Zugegriffen: 14. Mai 2010.Google Scholar
  7. Braun, H., & Wainer, H. (2007). Value-added modeling. In C. R. Rao & S. Sinharay (Hrsg.), Handbook of statistics 26: Psychometrics (S. 867–892). Boston: Elsevier.Google Scholar
  8. Braun, H., Chudowsky, N., & Koenig, J. (2010). Getting value out of value-added: Report of a workshop. Committee on Value-Added Methodology for Instructional Improvement, Program Evaluation, and Accountability; National Research Council.Google Scholar
  9. Briggs, D. C. (2008). The goals and uses of value-added models. Paper prepared for a workshop held by the Committee on Value-Added Methodology for Instructional Improvement, Program Evaluation and Educational Accountability sponsored by the National Research Council and the National Academy of Education, Washington, November 13–14, 2008.Google Scholar
  10. Emmrich, R. (2010). Rückmeldungen VERA 8: Rückmeldeformate und Nutzungsmöglichkeiten Schuljahr 2009/10. http://www.isq-bb.de/uploads/media/VERA8_2010_Rueckmeldungen_Engl.pdf. Zugegriffen: 14. Mai 2010.Google Scholar
  11. Emmrich, R., Harych, P., Hammer, U., & Hüsemann, D. (2010). VERA 8: Vergleichsarbeiten in der Jahrgangsstufe 8 im Schuljahr 2008/2009– Länderbericht Brandenburg. ISQ (Hrsg.). http://www.isq-bb.de/uploads/media/Bericht_Brandenburg_2010_02_15_final.pdf. Zugegriffen: 14. Mai 2010.Google Scholar
  12. Fiege, C. (2007). Faire Vergleiche in Schulleistungsuntersuchungen und ihre kausaltheoretische Grundlage. Unveröffentlichte Diplomarbeit, Friedrich-Schiller-Universität Jena.Google Scholar
  13. Fiege, C., Steyer, R., & Nachtigall, C. (2010, Juli). Which kinds of causal effects are we looking for in educational research? – An application of the theory of causal effects. Vortrag auf dem Symposium on Causality, Dornburg, Deutschland.Google Scholar
  14. Freie und Hansestadt Hamburg, Behörde für Schule und Berufsbildung, Institut für Bildungsmonitoring. (Hrsg.). (2009). Bildungsbericht Hamburg 2009. http://www.bildungsmonitoring.hamburg.de/index.php/file/download/1359. Zugegriffen: 21. Juni 2010.Google Scholar
  15. Hartig, J., & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 127–143). Heidelberg: Springer.Google Scholar
  16. Hartig, J., Klieme, E., & Leutner, D. (Hrsg.). (2008). Assessment of competencies in educational settings: State of the art and future prospects. Göttingen: Hogrefe.Google Scholar
  17. Hedges, L. V., & Hedberg, E. C. (2007). Intraclass correlations for planning group-randomized experiments in education. Educational Evaluation and Policy Analysis, 29, 60–87.CrossRefGoogle Scholar
  18. Helmke, A., & Hosenfeld, I. (2004). Vergleichsarbeiten – Kompetenzmodelle – Standards. In M. Wosnitza, A. Frey, & R. S. Jäger (Hrsg.), Lernprozesse, Lernumgebungen und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert (S. 56–75). Landau: Verlag Empirische Pädagogik.Google Scholar
  19. Helmke, A., & Hosenfeld, I. (2005). Standardbasierte Unterrichtsevaluation. In G. Brägger, B. Bucher, & N. Landwehr (Hrsg.), Schlüsselfragen zur externen Schulevaluation (S. 127–151). Bern: h.e.p.Google Scholar
  20. Helmke, A., Hosenfeld, I., & Schrader, F.-W. (2004). Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In R. Arnold & C. Griese (Hrsg.), Schulleitung und Schulentwicklung (S. 119–144). Hohengehren: Schneider.Google Scholar
  21. Hovestadt, G., & Kessler, N. (2005). 16 Bundesländer – Eine Übersicht zu Bildungsstandards und Evaluationen. In G. Becker, A. Bremerich-Vos, M. Demmer, K. Maag Merki, B. Priebe, K. Schwippert, L. Stäudel, & K. J. Tillmann (Hrsg.), Standards – Unterrichten zwischen Kompetenzen, zentralen Prüfungen und Vergleichsarbeiten (Friedrich Jahresheft XXIII 2005, S. 8–10). Seelze: Friedrich.Google Scholar
  22. Isaac, K., & Hosenfeld, I. (2008). Faire Ergebnisrückmeldungen bei Vergleichsarbeiten. In J. Ramseger, & M. Wagener (Hrsg.), Chancenungleichheit in der Grundschule – Ursachen und Wege aus der Krise (S. 143–146). Wiesbaden: VS-Verlag für Sozialwissenschaften.CrossRefGoogle Scholar
  23. Klieme, E., & Leutner, D. (2006). Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen. Beschreibung eines neu eingerichteten Schwerpunktprogramms der DFG. Z Pädagogik, 52, 876–903.Google Scholar
  24. Klieme, E., & Hartig, J. (2008). Kompetenzkonzepte in den Sozialwissenschaften und im erziehungswissenschaftlichen Diskurs. In M. Prenzel, I. Gogolin, & H.-H. Krüger (Hrsg.), Kompetenzdiagnostik (Sonderheft 8 der Zeitschrift für Erziehungswissenschaft, S. 11–29). Wiesbaden: VS Verlag für Sozialwissenschaften.CrossRefGoogle Scholar
  25. KMK (Hrsg.). (2006). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. Bonn: LinkLuchterhand.Google Scholar
  26. Kuper, H., & Schneewind, J. (Hrsg.). (2006). Rückmeldung und Rezeption von Forschungsergebnissen – Zur Verwendung wissenschaftlichen Wissens im Bildungssystem. Münster: Waxmann.Google Scholar
  27. Maier, U. (2008). Vergleichsarbeiten im Vergleich – Akzeptanz und wahrgenommener Nutzen standardbasierter Leistungsmessungen in Baden-Württemberg und Thüringen. Z Erziehungswissensch, 11, 453–474.CrossRefGoogle Scholar
  28. McCaffrey, D. F., Lockwood, J. R., Koretz, D., & Hamilton, L. S. (2003). Evaluating value-added models for teacher accountability. Santa Monica: RAND Corporation.Google Scholar
  29. Meyer, R. (1997). Value-added indicators of school performance: A primer. Economics of Education Review, 16, 283–301.CrossRefGoogle Scholar
  30. Mill, J. S. (1843). Of the four methods of experimental inquiry. A system of logic, ratiocinative and inductive: Being a connected view of the principles of evidence, and the methods of scientific investigation (Bd. 1). London: Longmans, Green, and Co.Google Scholar
  31. Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen. (2005). Zentrale Lernstandserhebungen in Jahrgangsstufe 9 – Schulische Standorttypen und Referenzwerte: Verfahren 2005. http://www.standardsicherung.schulministerium.nrw.de/lernstand8/upload/download/mat_2005/Standorttypenkonzept_2005.pdf. Zugegriffen: 14. Mai 2010.Google Scholar
  32. Moosbrugger, H., & Kelava, A. (Hrsg.). (2007). Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.Google Scholar
  33. Müller, A. (2010). Rückmeldungen nach Vergleichsarbeiten im Kontext des schulischen Qualitätsmanagements. Drei explorative Studien zu Gestaltung und Rezeption im Anschluss an KOALA-S. Berlin: Mensch und Buch.Google Scholar
  34. Nachtigall, C., & Kröhne, U. (2006). Methodische Anforderungen an schulische Leistungsmessung – Auf dem Weg zu fairen Vergleichen. In H. Kuper, & J. Schneewind (Hrsg.), Rückmeldung und Rezeption von Forschungsergebnissen – Zur Verwendung wissenschaftlichen Wissens im Bildungssystem (S. 59–74). Münster: Waxmann.Google Scholar
  35. Nachtigall, C., Kröhne, U., Enders, U., & Steyer, R. (2008). Causal effects and fair comparisons: Considering the influence of context variables on student competencies. In J. Hartig, E. Klieme, & D. Leutner (Hrsg.), Assessment of competencies in educational contexts: State of the art and future prospects (S. 315–336). Göttingen: Hogrefe.Google Scholar
  36. Nachtigall, C., Storbeck, I., & Landmann, M. (2009). Belastung oder Chance? Zur Nutzung von Vergleichsarbeiten, Lernstandserhebungen, Kompetenztests, Orientierungsarbeiten und Co. Schulleitung und Schulentwicklung, 45, 1–17.Google Scholar
  37. Orth, G. (2002). Vergleichsarbeiten. In H.-G. Rolff, & J. Schmidt (Hrsg.), Schulaufsicht und Schulleitung in Deutschland. Neuwied: Luchterhand.Google Scholar
  38. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research.Google Scholar
  39. Raudenbush, S. W., & Willms, J. D. (1995). The estimation of school effects. Journal of Educational and Behavioral Statistics, 20, 307–335.Google Scholar
  40. Rheinberg, F. (2001). Bezugsnormen und schulische Leistungsbeurteilung. In F. E Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 59–71). Weinheim: Beltz.Google Scholar
  41. Rolff, H.-G. (2002). Rückmeldung und Nutzung der Ergebnisse von großflächigen Leistungsuntersuchungen. Grenzen und Chancen. In R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (S. 75–98). Weinheim: Juventa.Google Scholar
  42. Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7, 147–177.CrossRefGoogle Scholar
  43. Schrader, F.-W., & Helmke, A. (2008). Determinanten der Schulleistung. In M. Schweer (Hrsg.), Lehrer-Schüler-Interaktion: Inhaltsfelder, Forschungsperspektiven und methodische Zugänge (2. Aufl., S. 285–302). Wiesbaden: VS Verlag für Sozialwissenschaften.Google Scholar
  44. Steyer, R., Partchev, I., Kröhne, U., Nagengast, B., & Fiege, C. (in Druck). Probability and causality. New York: Springer.Google Scholar
  45. Watermann, R., & Stanat, P. (2004). Schulrückmeldungen in PISA 2000: Sozialnorm- und kriteriumsorientierte Rückmeldeverfahren. Empirische Pädagogik, 18, 40–61.Google Scholar
  46. Watermann, R., Stanat, P., Kunter, M., Klieme, E., & Baumert, J. (2003). Schulrückmeldungen im Rahmen von Schulleistungsuntersuchungen: Das Disseminationskonzept von PISA-2000. Z Pädagogik, 49, 92–111.Google Scholar
  47. Wegscheider, K. (2004). Methodische Anforderungen an Einrichtungsvergleiche (‚Profiling‘) im Gesundheitswesen. Z Ärztliche Fortbildung Qualität Gesundheitswesen, 98, 647–654.Google Scholar
  48. Weinert, F. E. (Hrsg.). (2002). Leistungsmessungen an Schulen. Weinheim: Beltz.Google Scholar

Copyright information

© VS Verlag für Sozialwissenschaften 2011

Authors and Affiliations

  • Christiane Fiege
    • 1
    Email author
  • Franziska Reuther
    • 1
  • Christof Nachtigall
    • 2
  1. 1.Lehrstuhl für Methodenlehre und Evaluationsforschung, Institut für PsychologieFriedrich-Schiller-Universität Jena, Projekt Faire VergleicheJenaDeutschland
  2. 2.Lehrstuhl für Methodenlehre und Evaluationsforschung, Institut für PsychologieFriedrich-Schiller-Universität Jena, Projekt kompetenztest.deJenaDeutschland

Personalised recommendations