Advertisement

Längsschnittskalierung der Tests zur Überprüfung des Erreichens der Bildungsstandards der Sekundarstufe I im PISA-Längsschnitt 2012/2013

  • Gabriel NagyEmail author
  • Nicole Haag
  • Lüdtke Oliver
  • Olaf Köller
Article

Zusammenfassung

Der vorliegende Beitrag widmet sich der Skalierung der in der PISA-Längsschnittstudie 2012/2013 verwendeten Tests zur Überprüfung des Erreichens der Bildungsstandards für den Mittleren Schulabschluss. Vorgestellt werden Analysen zur Übereinstimmung der im Rahmen der Retesterhebung geschätzten Itemparameter mit den in der Ländervergleichsstudie 2012 kalibrierten Parametern sowie die Schätzung individueller Kompetenzniveaus. Darüber hinaus werden Analysen zu den Konsequenzen des in der Retesterhebung verwendeten nicht-balancierten Testdesigns vorgestellt. Es zeigte sich, dass die ermittelten Itemparameter sowohl in gymnasialen als auch in nichtgymnasialen Schulformen eine sehr hohe Übereinstimmung mit den bereits kalibrierten Parametern aufwiesen. Die mittels der Plausible-Value-Technik geschätzten Kompetenzniveaus indizierten sowohl für nichtgymnasiale als auch für gymnasiale Schulformen mit wenigen Ausnahmen Kompetenzzuwächse im Laufe des 10. Schuljahres. Weiterführende Analysen deuteten jedoch drauf hin, dass aufgrund des am zweiten Erhebungszeitpunkt nicht-balancierten Testdesigns mit Verzerrungen bei der Zuwachsschätzung zu rechnen ist. Implikationen der Befunde für die Auswertungen der Leistungszuwächse werden diskutiert.

Schlüsselwörter

PISA-Studie Item Response Theorie Leistungszuwächse Nicht-balancierte Testdesigns 

Longitudinal IRT Scaling of Tests of the Educational Standards for Lower Secondary Level in the PISA Longitudinal Assessment 2012/2013

Abstract

The present article is devoted to the IRT scaling of tests used in the PISA Longitudinal Study 2012/2013 which verify educational standards for lower secondary school certification. It presents analyses investigating the agreement of freely estimated item parameters with the parameters calibrated in the national assessment 2012, and describes the estimation of competence levels. In addition, analyses are presented on the consequences of the unbalanced test design implemented in the retest assessment. Results indicated that the item parameters estimated for non-academic and academic track school types closely matched the pre-calibrated parameters. With few exceptions increases in competence levels during the 10th grade were estimated for both academic and non-academic track school types on basis of ability parameters estimated by means of the plausible value technique. Further analyses suggested, however, that distortions in the growth estimate are to be expected due to the unbalanced test design administered in the second survey period. Implications of these findings for the evaluation of the competence gains are discussed.

Keywords

PISA Study Item Response Theory Performance gains Unbalanced test designs 

Literatur

  1. Bejar, I. I. (1980). A procedure for investigating the unidimensionality of achievement tests based on item parameter estimates. Journal of Educational Measurement, 17, 283–296.CrossRefGoogle Scholar
  2. Blum, W., Drücke-Noe, C., Hartung, R., & Köller, O. (2010). Bildungsstandards Mathematik: konkret (4. Aufl.). Berlin: Cornelsen.Google Scholar
  3. Brennan, R. L. (1992). The context of context effects. Applied Measurement in Education, 5, 225–264.CrossRefGoogle Scholar
  4. Clauser, B. E., & Mazor, K. M. (1998). Using statistical procedures to identify differentially functioning test items. Educational Measurement: Issues and Practice, 17, 31–44.CrossRefGoogle Scholar
  5. von Davier, M., Xu, X., & Carstensen, C. H. (2011). Measuring growth in a longitudinal large-scale assessment with a general latent variable model. Psychometrika, 76, 318–336.CrossRefGoogle Scholar
  6. Frey, A., Hartig, J., & Rupp, A. A. (2009). An NCME instructional module on booklet designs in large-scale assessments of student achievement: theory and practice. Educational Measurement: Issues and Practice, 28, 39–53.CrossRefGoogle Scholar
  7. Harris, D. (1991). Effects of passage and item scrambling on equating relationships. Applied Psychological Measurement, 15, 247–256.CrossRefGoogle Scholar
  8. Hecht, M., Roppelt, A., & Siegle, T. (2013). Testdesign und Auswertung des Ländervergleichs. In H. A. Pant, P. Stanat, U. Schroeders, A. Roppelt, T. Siegle & C. Pöhlmann (Hrsg.), IQB-Ländervergleich 2012. Mathematische und naturwissenschaftliche Kompetenzen am Ende der Sekundarstufe I (S. 391–402). Münster: Waxmann.Google Scholar
  9. Heine, J.-H. et al. (2017). Empirische Grundlage und Stichprobenausfall im PISA-Längsschnitt-2012–2013. Zeitschrift für Erziehungswissenschaft. doi: 10.1007/s11618-017-0756-0.Google Scholar
  10. Holland, P. W., & Wainer, H. (1993). Differential item functioning. Hillsdale NJ: Erlbaum.Google Scholar
  11. Klieme, E., & Baumert, J. (2001). Identifying national cultures of mathematics education: Analysis of cognitive demands and differential item functioning in TIMSS. European Journal of Psychology of Education, 16, 385–402.CrossRefGoogle Scholar
  12. Klieme, E., Avenarius, H., Blum, W., Döbrich, P., Gruber, H., Prenzel, M., Reiss, K., Riquarts, K., Rost, J., Tenorth, H.-E., & Vollmer, H. (2003). Zur Entwicklung nationaler Bildungsstandards – Eine Expertise. Frankfrut a. M.: Deutsches Institut für Internationale Pädagogische Forschung.Google Scholar
  13. Leary, L. F., & Dorans, N. J. (1985). Implications for altering the context in which test items appear: A historical perspective on an immediate concern. Review of Educational Research, 55, 387–413.CrossRefGoogle Scholar
  14. Meade, A. W., Lautenschlager, G. J., & Hecht, J. E. (2005). Establishing measurement equivalence and invariance in longitudinal data with item response theory. International Journal of Testing, 5, 279–300.CrossRefGoogle Scholar
  15. Meredith, W. (1993). Measurement invariance, factor analysis and factorial invariance. Psychometrika, 58, 525–543.CrossRefGoogle Scholar
  16. Meyers, J. L., Miller, G. E., & Way, W. D. (2009). Item position and item difficulty change in an IRT-based common item equating design. Applied Measurement in Education, 22, 38–60.CrossRefGoogle Scholar
  17. Muthén, L. K., & Muthén, B. O. (2012). Mplus user’s guide (7. Aufl.). Los Angeles CA: Muthén & Muthén.Google Scholar
  18. Nagy, G., & Neumann, M. (2010). Psychometrische Aspekte des Tests zu den voruniversitären Mathematikleistungen in TOSCA-2002 und TOSCA-2006: Unterrichtsvalidität, Rasch-Homogenität und Messäquivalenz. In U. Trautwein, M. Neumann, G. Nagy, O. Lüdtke & K. Maaz (Hrsg.), Schulleistungen von Abiturienten: Die neu geordnete gymnasiale Oberstufe auf dem Prüfstand (S. 281–306). Wiesbaden: VS.CrossRefGoogle Scholar
  19. Nagy, G., Heine, J. H., & Köller, O. (2017). IRT-Skalierung der PISA-Tests im PISA-Längsschnitt 2012/2013: Auswirkungen von Testkontexteffekten auf die Zuwachsschätzung. Zeitschrift für Erziehungswissenschaft. doi: 10.1007/s11618-017-0749-z.Google Scholar
  20. Organization for Economic Cooperation and Development (OECD) (2014). PISA 2012 technical report. Paris: OECD Publishing.Google Scholar
  21. Pant, H. A., Stanat, P., Schroeders, U., Roppelt, A., Siegle, T., & Pöhlmann, C. (2013). IQB-Ländervergleich 2012. Mathematische und naturwissenschaftliche Kompetenzen am Ende der Sekundarstufe I. Münster: Waxmann.Google Scholar
  22. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Kopenhagen: Paedagogiske Institut.Google Scholar
  23. Reise, S. P., Widaman, K. F., & Pugh, R. H. (1993). Confirmatory factor analysis and item response theory: two approaches for exploring measurement invariance. Psychological bulletin, 114, 552–566.CrossRefGoogle Scholar
  24. Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley.CrossRefGoogle Scholar
  25. Wagner, H., Schöps, K., Hahn, I., Pietsch, M., & Köller, O. (2014). Konzeptionelle Äquivalenz von Kompetenzmessungen in den Naturwissenschaften zwischen NEPS, IQB-Ländervergleich und PISA. Unterrichtswissenschaft, 42, 301–320.Google Scholar
  26. Weirich, S., Haag, N., Hecht, M., Böhme, K., Siegle, T., & Lüdtke, O. (2014). Nested multiple imputation in large-scale assessments. Large-scale Assessments in Education, 2, 1–18.CrossRefGoogle Scholar
  27. Wu, M. (2005). The role of plausible values in large-scale surveys. Studies in Educational Evaluation, 31, 114–128.CrossRefGoogle Scholar
  28. Wu, M. L., Adams, R. J., Wilson, M. R., & Haldane, S. A. (2007). ACERConQuest, Version 2.0: generalized item response modelling software. Camberwell VIC: Australian council for Educational Research.Google Scholar

Copyright information

© Springer Fachmedien Wiesbaden 2017

Authors and Affiliations

  • Gabriel Nagy
    • 1
    Email author
  • Nicole Haag
    • 2
  • Lüdtke Oliver
    • 3
  • Olaf Köller
    • 3
  1. 1.Pädagogisch-Psychologische MethodenlehreLeibniz-Institut für die Pädagogik der Naturwissenschaften und MathematikKielDeutschland
  2. 2.MathematikInstitut zur Qualitätsentwicklung im BildungswesenBerlinDeutschland
  3. 3.ErziehungswissenschaftLeibniz-Institut für die Pädagogik der Naturwissenschaften und MathematikKielDeutschland

Personalised recommendations