Advertisement

Journal für Mathematik-Didaktik

, Volume 35, Issue 1, pp 7–48 | Cite as

Modellierungen mathematischer Kompetenzen – Kriterien für eine Validitätsprüfung aus fachdidaktischer Sicht

  • Timo LeudersEmail author
Originalarbeit/Original Article

Zusammenfassung

Die letzte Dekade verzeichnet ein wachsendes Interesse an der empirischen Erfassung von Schülerleistungen. Dies steht im Zusammenhang mit der ausgeprägteren Ergebnisorientierung in der Bildungspolitik und mit der der Forderung nach diagnostischen, der Heterogenität der Schülerschaft Rechnung tragenden Lehrformen. Der hieraus resultierende Schub in der Entwicklung sogenannter Kompetenzmodelle bietet Herausforderungen für die Fachdidaktiken: Erstens hinsichtlich der Entwicklung und empirischen Fundierung fachbezogener Theorien zu Schülerkompetenzen und zweitens hinsichtlich der Entwicklung praktikabler Diagnoseinstrumente für die Unterrichtspraxis.

Der vorliegende Beitrag wirft einen vergleichenden Blick auf einige prototypische Anwendungen der Modellierung mathematischer Kompetenzen, wie sie in den letzten Jahren vorgeschlagen oder umgesetzt wurden. Ziel ist dabei, theoretisch aufzuzeigen, auf welche Weise die Validität solcher Modelle bewertet werden kann und welche Rolle hierbei die fachdidaktische Perspektive spielt. Validität wird dabei verstanden als die Gesamtbewertung der theoretischen Argumente und empirischen Evidenzen für die Angemessenheit der Interpretation eines Kompetenzmodells und der Angemessenheit der Konsequenzen seiner Anwendung in der Kompetenzerfassung. Es wird aufgezeigt, wie eine systematische Bewertung von sechs Validitätsaspekten (inhaltliche, kognitive, strukturelle, generalisierende, externe und konsequentielle Validität) eine differenzierte Einschätzung bestehender Anwendungen von Kompetenzmodellierungen und Hinweise für deren Weiterentwicklung liefern kann.

Schlüsselwörter

Mathematische Kompetenz Kompetenzmodelle Kompetenzmessung Validität Leistungsmessung Assessment 

Modelling Mathematical Competences—Criteria for Validity from a Perspective of Subject Pedagogy

Abstract

The last decade saw an increasing interest in the empirical assessment of students’ achievement. This was induced by a stronger emphasis on outcome orientation in education policy, and the need for diagnostic teaching in heterogeneous classrooms. The resulting impulse to develop “competence models” challenged the subject specific research (didactics of mathematics). Theories on students’ competences had to be developed, empirically tested and transformed into diagnostic instruments for everyday use.

This article presents an overview on prototypical approaches in modelling mathematical competences and discusses the issue of validity of such models—also from a subject specific perspective. Validity is considered to be the evaluation of theoretical arguments and empirical evidence for the adequacy of the interpretation of a competence model and the adequacy of its consequences when applied.

It is shown how a systematic evaluation of six aspects of validity (content, cognitive, structural, generalizability, external and consequential) can promote a differentiated appraisal of existing models and guide the development of new competence models.

Mathematics Education Subject Classification

B70 C30 C40 D60 

Notes

Danksagung

Diese Veröffentlichung wurde ermöglicht durch Sachbeihilfen der Deutschen Forschungsgemeinschaft (Kennzeichen: LE 2335/1, BR 2552/2, WI 3210/2) im Schwerpunktprogramm „Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen“ (SPP 1293). Mein ausdrücklicher Dank gehört meinen Kolleginnen und Kollegen im Schwerpunktprogramm, allen voran Markus Wirtz und Regina Bruder, die mir durch intensiven Austausch die Möglichkeit gegeben haben, in den Bereich der Kompetenzmodellierung tiefer einzudringen.

Literatur

  1. Adams, R., Wilson, M., & Wang, W. (1997). The multidimensional random coefficients multinomial logit model. Applied Psychological Measurement, 21(1), 1–23. Google Scholar
  2. Altrichter, H. (2010). Schul- und Unterrichtsentwicklung durch Datenrückmeldung. In H. Altrichter und Katharina Maag Merki (Hrsg.), Handbuch Neue Steuerung im Schulsystem (S. 219–254). Wiesbaden: Verlag für Sozialwissenschaften. Google Scholar
  3. Altrichter, H. & Maag Merki, K. (Hrsg.) (2010). Handbuch neue Steuerung im Schulsystem. Wiesbaden: VS Verlag für Sozialwissenschaften. Google Scholar
  4. Anderson, L. W. & Krathwohl, D. R. (Hrsg.) (2001). A taxonomy for learning, teaching, and asssessing: a revision of Bloom’s taxonomy of educational objectives. New York: Addison-Wesley. Google Scholar
  5. Bauer, L. (1978). Mathematische Fähigkeiten. Paderborn: Schöningh. Google Scholar
  6. Baumert, J., & Lehmann, R. (1997). TIMSS – Mathematisch-naturwissenschaftlicher Unterricht im internationalen Vergleich. Opladen: Leske & Budrich. Google Scholar
  7. Baumert, J., Brunner, M., Lüdtke, O., & Trautwein, U. (2007). Was messen internationale Schulleistungsstudien? Resultate kumulativer Wissenserwerbsprozesse. Psychologische Rundschau, 58(2), 118–128. Google Scholar
  8. Baumert, J., Stanat, P., & Demmrich, A. (2001). PISA 2000: Untersuchungsgegenstand, theoretische Grundlagen und Durchführung der Studie. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann, & M. Weiß(Hrsg.), PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 15–68). Opladen: Leske & Budrich. Google Scholar
  9. Bayrhuber, M., Leuders, T., Bruder, R., & Wirtz, M. (2010). Erfassung und Modellierung mathematischer Kompetenz: Aufdeckung kognitiver Strukturen anhand des Wechsels von Darstellungs- und Repräsentationsform. In E. Klieme, D. Leutner, & M. Kenk (Hrsg.), Kompetenzmodellierung; Zwischenbilanz des DFG-Schwerpunktprogramms und Perspektiven des Forschungsansatzes. Zeitschrift für Pädagogik (Beiheft) (Bd. 56, S. 28–39). Weinheim: Beltz. Google Scholar
  10. Beaton, E., & Allen, N. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191–204. Google Scholar
  11. Bernholt, S., Parchmann, I., & Commons, M. L. (2009). Kompetenzmodellierung zwischen Forschung und Unterrichtspraxis. Zeitschrift für Didaktik der Naturwissenschaften, 15, 217–243. Google Scholar
  12. Biggs, J., & Collis, K. (1982). Evaluating the quality of learning: the SOLO taxonomy. New York: Academy Press. Google Scholar
  13. Blum, W., Neubrand, M., Ehmke, T., Senkbeil, M., Jordan, A., Ulfig, F., & Carstensen, C. H. (2004). Mathematische Kompetenz. In M. Prenzel, J. Baumert, W. Blum, R. Lehmann, D. Leutner, M. Neubrand, R. Pekrun, H. G. Rolff, J. Rost, & U. Schiefele (Hrsg.), PISA 2003. Der Bildungsstand der Jugendlichen in Deutschland – Ergebnisse des zweiten internationalen Vergleichs (S. 47–92). Münster: Waxmann. Google Scholar
  14. Bonsen, M., & von der Gathen, J. (2004). Schulentwicklung und Testdaten. Die innerschulische Verarbeitung von Leistungsrückmeldungen. In H. G. Holtappels, K. Klemm, & H. Pfeiffer (Hrsg.), Jahrbuch der Schulentwicklung (Bd. 13, S. 225–252). Weinheim: Juventa. Google Scholar
  15. Borsboom, D. (2006). The attack of the psychometrician. Psychometrika, 71(3), 425–440. Google Scholar
  16. Briggs, D. C., & Wilson, M. (2007). Generalizability in item response modeling. Journal of Educational Measurement, 44, 131–155. Google Scholar
  17. Brunner, M., Krauss, S., & Martignon, M. (2011). Eine alternative Modellierung von Geschlechtsunterschieden in Mathematik. Journal für Mathematik-Didaktik, 32(2), 179–204. Google Scholar
  18. Büchter, A., & Pallack, A. (2012). Zur impliziten Standardsetzung durch zentrale Prüfungen – methodische Überlegungen und empirische Analysen. Journal für Mathematik-Didaktik, 33(1), 59–85. Google Scholar
  19. Carpenter, T., & Moser, J. (1984). The acquisition of addition and subtraction concepts in grades one through three. Journal for Research in Mathematics Education, 15(3), 179–202. Google Scholar
  20. Carpenter, T. P., Fennema, E., Franke, M. L., Levi, L. W., & Empson, S. B. (1999). Children’s mathematics: cognitively guided instruction. Heinemann: Portsmouth. Google Scholar
  21. Cavanagh, R. F. (2011). Establishing the validity of rating scale instrumentation in learning enviornment investigations. In R. F. Cavanagh & R. F. Waugh (Hrsg.), Applications of rasch measurement in learning environments research (S. 101–118). Rotterdams: Sense Publishers. Google Scholar
  22. Chomsky, N. (1965). Aspects of the theory of syntax. Cambridge: MIT Press. Google Scholar
  23. Cizek, G. J., & Bunch, M. B. (2007). Standard-setting: a guide to establishing and evaluating perform- ance standards on tests. London: Sage. Google Scholar
  24. Cohors-Fresenborg, E., Brinkschmidt, S., & Armbrust, S. (2003). Augenbewegungen als Spuren prädikativen oder funktionalen Denkens. Zentralblatt für Didaktik der Mathematik, 35(3), 86–93. Google Scholar
  25. Cohors-Fresenborg, E., Sjuts, J., & Sommer, N. (2004). Komplexität von Denkvorgängen und Formalisierung von Wissen. In M. Neubrand (Hrsg.), Mathematische Kompetenzen von Schülerinnen und Schülern in Deutschland: Vertiefende Analysen im Rahmen von PISA-2000 (S. 109–144). Wiesbaden: VS-Verlag für Sozialwissenschaften. Google Scholar
  26. Council of Europe (2000). A common European framework of reference for languages: learning, teaching, assessment. Cambridge: Cambridge University Press. Google Scholar
  27. Cronbach, L. J. (1971). Test validation. In R. L. Thorndike (Hrsg.), Educational measurement (2. Aufl., S. 443–507). Washington: American Council on Education. Google Scholar
  28. Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302. Google Scholar
  29. Crooks, T. J., Kane, M. T., & Cohen, A. S. (1996). Threats to the valid use of assessments. Assessment in Education, 3(3), 265–286. Google Scholar
  30. Deno, S. L. (1985). Curriculum-based measurement: the emerging alternative. Exceptional Children, 52(3), 219–232. Google Scholar
  31. DiBello, L. V., Roussos, L. A., & Stout, W. (2007). Review of cognitively diagnostic assessment and a summary of psychometric models. In C. R. Rao & S. Sinharay (Hrsg.), Handbook of statistics (S. 979–1030). New York: Elsevier. Google Scholar
  32. Drüke-Noe, C., Möller, G., Pallack, A., Schmidt, S., Schmidt, U., Sommer, N., & Wynands, A. (2011). Basiskompetenzen Mathematik für den Alltag und Berufseinstieg am Ende der allgemeinen Schulpflicht. Berlin: Cornelsen. Google Scholar
  33. Elia, I., Panaoura, A., Gagatsis, A., Gravvani, K., & Spyrou, P. (2008). Exploring different aspects of the understanding of function: toward a four-facet model. Canadian Journal of Science, Mathematics and Technology Education, 8(1), 49–69. Google Scholar
  34. Embretson, S. E. (1994). Applications of cognitive design systems to test development. In C. R. Reynolds (Hrsg.), Cognitive assessment: a multidisciplinary perspective (S. 107–135). New York: Plenum. Google Scholar
  35. Embretson, S. E. (1998). A cognitive design system approach to generating valid tests: application to abstract reasoning. Psychological Methods, 3, 300–396. Google Scholar
  36. Embretson, S. E. (2003). The second century of ability testing: some predictions and speculations. Princeton: Educational Testing Service. Google Scholar
  37. Ericsson, K., & Simon, H. (1993). Protocol analysis: verbal reports as data (2. Aufl.). Boston: MIT Press. Google Scholar
  38. Fischer, G. H. (1973). Linear logistic test model as an instrument in educational research. Acta Psychologica, 37, 359–374. Google Scholar
  39. Foegen, A., Olson, J. R., & Impecoven-Lind, L. (2008). Developing progress monitoring measures for secondary mathematics: an illustration in algebra. Assessment for Effective Intervention, 33, 240–249. Google Scholar
  40. Frederiksen, N., Mislevy, R. J., & Bejar, I. (Hrsg.) (1993). Test theory for a new generation of tests. Hillsdale: Erlbaum. Google Scholar
  41. Frey, A. (2007). Adaptives Testen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 261–278). Berlin: Springer. Google Scholar
  42. Frey, A., Heinze, A., Mildner, D., Hochweber, J., & Asseburg, R. (2010). Mathematische Kompetenz von PISA 2003 bis PISA 2009. In E. Klieme, C. Artelt, J. Hartig, N. Jude, O. Köller, M. Prenzel, W. Schneider, & P. Stanat (Hrsg.), PISA 2009. Bilanz nach einem Jahrzehnt (S. 153–176). Münster: Waxmann. Google Scholar
  43. Gagatsis, A., & Monoyiou, A. (2011). The structure of primary and secondary school students’ geometrical figure apprehension. In B. Ubuz (Hrsg.), Proceedings of the 35th conference of the international group for the psychology of mathematics education (Vol. 2, S. 369–376). Ankara: PME. Google Scholar
  44. Gierl, M. J., Leighton, J. P., & Hunka, S. M. (2007). Using the attribute hierarchy method to make diagnostic inferences about examinees’ cognitive skills. In J. P. Leighton & M. J. Gierl (Hrsg.), Cognitive diagnostic assessment for education: theory and applications (S. 242–274). Cambridge: Cambridge University Press. Google Scholar
  45. Goldstein, H. (2004). International comparisons of student attainment: some issues arising from the PISA study. Assessment in Education, 11, 319–330. Google Scholar
  46. Groß Ophoff, J. (2013). Lernstandserhebungen: Reflexion und Nutzung. Münster: Waxmann. Google Scholar
  47. Guler, N., & Gelbal, S. (2010). Studying reliability of open ended mathematics items according to the classical test theory and generalizability theory. Kuram Ve Uygulamada Eğitim Bilimleri, 10, 1011–1019. Google Scholar
  48. Hadjidemetriou, C., & Williams, J. (2002). Children’s graphical conceptions. Research in Mathematics Education, 4(1), 69–87. Google Scholar
  49. Haladyna, T. M., Downing, S. M., & Rodriguez, M. C. (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15(3), 309–334. Google Scholar
  50. Hambleton, R. K. (2004). Theory, methods, and practices in testing for the 21st century. Psicothema (Oviedo), 16(4), 696–701. Google Scholar
  51. Hartig, J. (2008). Psychometric models for the assessment of competencies. In J. Hartig, E. Klieme, & D. Leutner (Hrsg.), Assessment of competencies in educational contexts (S. 69–90). Cambridge: Hogrefe. Google Scholar
  52. Hartig, J., & Frey, A. (2012). Konstruktvalidierung und Skalenbeschreibung in der Kompetenzdiagnostik durch die Vorhersage von Aufgabenschwierigkeiten. Psychologische Rundschau, 63, 43–49. Google Scholar
  53. Hartig, J., Klieme, E., & Leutner, D. (Hrsg.) (2008). Assessment of competencies in educational contexts. Cambridge: Hogrefe. Google Scholar
  54. Helmke, A., & Hosenfeld, I. (2005). Ergebnisorientierte Unterrichtsevaluation. In Interkantonale Arbeitsgemeinschaft Externe Evaluation von Schulen (Hrsg.), Schlüsselfragen zur externen Schulevaluation (S. 127–151). Bern: h.e.p.-Verlag. Google Scholar
  55. Helmke, A., Hosenfeld, I., & Schrader, F.-W. (2004). Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In R. Arnold & C. Griese (Hrsg.), Schulleitung und Schulentwicklung (S. 119–143). Hohengehren: Schneider. Google Scholar
  56. Heymann, H.-W. (1996). Allgemeinbildung und Mathematik. Weinheim: Beltz. Google Scholar
  57. Holland, P. W., & Wainer, H. (1993). Differential item functioning. Hillsdale: Erlbaum. Google Scholar
  58. Irvine, S. H. & Kyllonen, P. C. (Hrsg.) (2002). Item generation for test development. Hillsdale: Erlbaum. Google Scholar
  59. Jahnke, T. & Meyerhöfer, W. (Hrsg.) (2007). PISA & Co – Kritik eines Programms. Hildesheim: Franzbecker. Google Scholar
  60. Kane, M. T. (2001). Current concerns in validity theory. Journal of Educational Measurement, 38(4), 319–342. Google Scholar
  61. Kane, M. T. (2013). Validation as a pragmatic, scientific activity. Journal of Educational Measurement, 50(1), 115–122. Google Scholar
  62. Kelley, B., Hosp, J. L., & Howell, W. (2008). Curriculum-based evaluation and math: an overview. Assessment for Effective Intervention, 33, 250–256. Google Scholar
  63. Ketterlin-Geller, L. R., & Yovanoff, P. (2009). Diagnostic assessments in mathematics to support instructional decision making. Practical Assessment, Research and Evaluation, 14, 1–11. Google Scholar
  64. Kilpatrick, J., Swafford, J., & Findell, B. (Hrsg.) (2001). Adding it up: helping children learn mathematics. Washington: National Academies Press. Google Scholar
  65. Kleine, M. (2004). Quantitative Erfassung von mathematischen Leistungsverläufen in der Sekundarstufe I. Hildesheim: Franzbecker. Google Scholar
  66. Klieme, E. (2004). Was sind Kompetenzen und wie lassen sie sich messen? Standardsicherung konkret. Pädagogik, 56(6), 10–13. Google Scholar
  67. Klieme, E., & Leutner, D. (2006). Kompetenzmodelle zur Erfassung indvidueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen: Beschreibung eines neu eingerichteten Schwerpunktprogramms der DFG. Zeitschrift für Pädagogik, 52, 876–903. Google Scholar
  68. Klieme, E., Neubrand, M., & Lüdtke, O. (2001). Mathematische Grundbildung: Testkonzeption und Ergebnisse. In J. Baumert et al. (Hrsg.), PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 139–190). Opladen: Leske & Budrich. Google Scholar
  69. Klieme, E., Avenarius, H., Blum, W., et al. (2003). Zur Entwicklung nationaler Bildungsstandards: Eine Expertise. Bonn: BMBF. Google Scholar
  70. Klieme, E., Hartig, J., & Rauch, D. (2008). The concept of competence in educational contexts. In J. Hartig et al. (Hrsg.), Assessment of competencies in educational contexts (S. 3–22). Göttingen: Hogrefe. Google Scholar
  71. Klieme, E., Jude, N., Baumert, J., & Prenzel, M. (2010). PISA 2000–2009. In E. Klieme, C. Artelt, J. Hartig, N. Jude, O. Köller, M. Prenzel, W. Schneider, & P. Stanat (Hrsg.), PISA 2009: Bilanz nach einem Jahrzehnt (S. 277–300). Münster: Waxmann. Google Scholar
  72. KMK (Ständige Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland) (2003). Beschlüsse der Kultusministerkonferenz: Bildungsstandards im Fach Mathematik für den Mittleren Schulabschluss. Münster: Luchterhand. Google Scholar
  73. KMK (Ständige Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland) (2006). Gesamtstrategie der kultusministerkonferenz zum bildungsmonitoring. München: Wolters Kluwer. Google Scholar
  74. Kreiner, S., & Christensen, K. B. (2013). Analyses of model fit and robustness. a new look at the PISA scaling model underlying ranking of countries according to reading literacy. Psychometrika. doi: 10.1007/S11336-013-9347-Z. Google Scholar
  75. Kunina-Habenicht, O., Rupp, A. A., & Wilhelm, O. (2009). A practical illustration of multidimensional diagnostic skills profiling: comparing results from confirmatory factor analysis and diagnostic classification models. Studies in Educational Evaluation, 35(2–3), 64–70. Google Scholar
  76. Lee, J., & Corter, J. E. (2011). Diagnosis of subtraction bugs using Bayesian networks. Applied Psychological Measurement, 35(1), 27–47. Google Scholar
  77. Leighton, J. P. (2012). Large-scale assessment design and development for the measurement of student cognition. In M. Simon, K. Ercikan, & M. Rousseau (Hrsg.), Improving large scale assessment in education: theory, issues, and practice (S. 13–26). London: Taylor & Francis/Routledge. Google Scholar
  78. Leinhardt, G., Zaslavsky, O., & Stein, M. S. (1990). Functions, graphs and graphing: tasks, learning and teaching. Review of Educational Research, 1, 1–64. Google Scholar
  79. Leuders, T. (2011). Kompetenzorientierung – eine Chance für die Weiterentwicklung des Mathematikunterrichts? In K. Eilerts, A. Hilligus, G. Kaiser, & P. Bender (Hrsg.), Kompetenzorientierung in Schule und Lehrerbildung: Perspektiven der bildungspolitischen Diskussion, der Bildungsforschung und der Lehrerbildung. Festschrift für Hans-Dieter Rinkens (S. 285–303). Münster: Lit-Verlag. Google Scholar
  80. Leuders, T., & Sodian, B. (2013). Inwiefern sind Kompetenzmodelle dazu geeignet kognitive Prozesse von Lernenden zu beschreiben? Zeitschrift für Erziehungswissenschaft, 16(1), Suppl., 27–33. Google Scholar
  81. Leuders, T., Barzel, B., & Hußmann, S. (2005). Outcome standards and core curricula: a new orientation for mathematics teachers in Germany. Zentralblatt für Didaktik der Mathematik, 37(4), 275–286. Google Scholar
  82. Linneweber-Lammerskitten, H., & Wälti, B. (2008). HarmoS Mathematik: Kompetenzmodell und Vorschläge für Bildungsstandards. Beiträge zur Lehrerbildung, 26(3), 326–337. Google Scholar
  83. Maier, U. (2008). Rezeption und Nutzung von Vergleichsarbeiten aus der Perspektive von Lehrkräften. Zeitschrift für Pädagogik, 54(1), 95–117. Google Scholar
  84. Marion, S., & Pellegrino, J. W. (2006). A validity framework for evaluating the technical quality of alternate assessments. Educational Measurement, Issues and Practice, 25(4), 47–57. Google Scholar
  85. Markus, L. H., Cooper-Thomas, H. D., & Allpress, K. N. (2005). Confounded by competencies? An evaluation of the evolution and use of competency models. New Zealand Journal of Psychology, 34(2), 122. Google Scholar
  86. Martinez, M. (1999). Cognition and the question of test item format. Educational Psychologist, 34(4), 207–218. Google Scholar
  87. Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174. Google Scholar
  88. Matt, D. (2008). Analyse und Konstruktion von Lern- und Leistungsaufgaben im Kompetenzbereich „proportionale und lineare Zusammenhänge“. Wiss. Hausarbeit, Pädagogische Hochschule Freiburg. Google Scholar
  89. McClelland, D. C. (1973). Testing for competence rather than for intelligence. American Psychologist, 28, 1–14. Google Scholar
  90. Messick, S. (1989). Validity. In R. L. Linn (Hrsg.), Educational measurement (3. Aufl., S. 13–103). New York: Macmillan. Google Scholar
  91. Messick, S. (1995). Validity of psychological assessment: validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50, 741–749. Google Scholar
  92. Messick, S. (1998). Test validity: a matter of consequences. Social Indicators Research, 45(4), 35–44. Google Scholar
  93. Meyerhöfer, W. (2004a). Zum Problem des Ratens bei PISA. Journal für Mathematik-Didaktik, 25(1), 62–69. Google Scholar
  94. Meyerhöfer, W. (2004b). Zum Kompetenzstufenmodell von PISA. Journal für Mathematik-Didaktik, 25(3/4), 294–305. Google Scholar
  95. Mislevy, R. J. (1996). Test theory reconceived. Journal of Educational Measurement, 33, 379–416. Google Scholar
  96. Mislevy, R. J. (2006). Cognitive psychology and educational assessment. In R. L. Brennan (Hrsg.), Educational measurement (4. Aufl., S. 257–306). Phoenix: Greenwood. Google Scholar
  97. Molenaar, P. C. M., & Campbell, C. G. (2009). The new person-specific paradigm in psychology. Current Directions in Psychological Science, 18, 112–117. Google Scholar
  98. MPI (Max-Planck Institut für Bildungsforschung) (2001). PISA 2003. Beispielaufgaben aus dem Mathematiktest. Online am 23.9.2013 unter www.mpib-berlin.mpg.de/Pisa/Beispielaufgaben_Mathematik.pdf.
  99. Naccarella, D., Leuders, T., Wirtz, M., & Bruder, R. (2011). Empiriegestützte Itemanalyse für die Kompetenzmodellierung funktionalen Denkens mit Graph, Tabelle und Situation. In: Beiträge zum Mathematikunterricht 2011 (S. 591–594). Münster: WTM-Verlag. Google Scholar
  100. National Council of Teachers of Mathematics (NCTM) (2000). Principles and standards for school mathematics. Reston: NCTM. Google Scholar
  101. Neubrand, M. (2003). „Mathematical literacy“ (Mathematische Grundbildung): Der Weg in die Leistungstests, die mathematikdidaktische Bedeutung, die Rolle als Interpretationshintergrund für den PISA-Test. Zeitschrift für Erziehungswissenschaft, 6, 338–356. Google Scholar
  102. Neubrand, M., Klieme, E., Lüdtke, O., & Neubrand, J. (2002). Kompetenzstufen und Schwierigkeitsmodelle für den PISA-Test zur mathematischen Grundbildung. Unterrichtswissenschaft, 30(2), 116–135. Google Scholar
  103. Neumann, I., Duchhardt, C., Grüßing, M., Heinze, A., Knopp, E., & Ehmke, T. (2013). Modeling and assessing mathematical competence over the lifespan. Journal for Educational Research Online, 5(2), 80–109. Google Scholar
  104. Newell, A., & Simon, H. A. (1972). Human problem solving. Englewood Cliffs: Prentice-Hall. Google Scholar
  105. Nichols, P. D., Chipman, S. F., & Brennan, R. L. (Hrsg.) (1995). Cognitively diagnostic assessment. Hillsdale: Erlbaum. Google Scholar
  106. Niss, M. (2003). Mathematical competencies and the learning of mathematics: the Danish KOM project. In A. Gagatsis & S. Papastavridis (Hrsg.), 3rd Mediterranean conference on mathematical education (S. 115–123). Athen: Hellenic Mathematical Society. Google Scholar
  107. Niss, M. A. & Højgaard, T. (Hrsg.) (2011). Competencies and mathematical learning: ideas and inspiration for the development of mathematics teaching and learning in Denmark. Roskilde: Roskilde Universitet. Google Scholar
  108. Nunes, T., Schliemann, T., & Carraher, D. (1993). Street mathematics and school mathematics. Cambridge: Cambridge University Press. Google Scholar
  109. OECD (1999). Measuring student knowledge and skills—a new framework for assessment. Paris: OECD. Google Scholar
  110. OECD (2005). PISA 2003 technical report. Paris: OECD. Google Scholar
  111. OECD (2009). PISA 2009 assessment framework: key competencies in reading, mathematics and science. Paris: OECD. Google Scholar
  112. Pant, H. A., Tiffin-Richards, S. P., & Köller, O. (2010). Standard-Setting für Kompetenztests im Large-Scale-Assessment. Zeitschrift für Pädagogik (Beiheft), 56, 175–188. Google Scholar
  113. Paulsen, C. A., & Levine, R. (1999). The applicability of the cognitive laboratory method to the development of achievement test items. In Research in the development of tests and test items at the annual meeting of the American educational research association, Montreal. Google Scholar
  114. Peek, R., & Dobbelstein, P. (2006). Zielsetzung: Ergebnisorientierte Schul- und Unterrichtsentwicklung; Potenziale und Grenzen der nordrhein-westfälischen Lernstandserhebungen. In W. Böttcher, H. G. Holtappels, & M. Brohm (Hrsg.), Evaluation im Bildungswesen: Eine Einführung in Grundlagen und Praxisbeispiele (S. 177–194). Weinheim: Juventa. Google Scholar
  115. Pellegrino, J., Chudowsky, N., & Glaser, R. (Hrsg.) (2001). Knowing what students know: the science and design of educational assessment. Washington: National Academy Press. Google Scholar
  116. Prenzel, M., Baumert, J., Blum, W., Lehmann, R., Leutner, D., Neubrand, M., Pekrun, R., Rolff, H.-G., Rost, J., & Schiefele, U. (Hrsg.) (2004). PISA 2003: Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann. Google Scholar
  117. Prenzel, M., Walter, O., & Frey, A. (2007). PISA misst Kompetenzen: Eine Replik auf Rindermann (2006). Was messen unternationale Schulleistungsstudien? Psychologische Rundschau, 58(2), 128–136. Google Scholar
  118. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Chicago: University of Chicago Press. Google Scholar
  119. Reiss, K., & Ufer, S. (2009). Fachdidaktische Forschung im Rahmen der Bildungsforschung: Eine Diskussion wesentlicher Aspekte am Beispiel der Mathematikdidaktik. In R. Tippelt & B. Schmidt (Hrsg.), Handbuch Bildungsforschung (S. 199–213). Wiesbaden: VS-Verlag. Google Scholar
  120. Reiss, K., & Winkelmann, H. (2008). Step by step: Ein Kompetenzstufenmodell für das Fach Mathematik. Grundschule, 40(10), 18–21. Google Scholar
  121. Reiss, K., & Winkelmann, H. (2009). Kompetenzstufenmodelle für das Fach Mathematik im Primarbereich. In D. Granzer, O. Köller, A. Bremerich-Vos, M. van den Heuvel-Panhuizen, K. Reiss, & G. Walther (Hrsg.), Bildungsstandards Deutsch und Mathematik: Leistungsmessung in der Grundschule (S. 120–141). Weinheim: Beltz. Google Scholar
  122. Renkl, A. (2012). Modellierung von Kompetenzen oder von interindividuellen Kompetenzunterschieden: Ein unterschätzter Unterschied? Psychologische Rundschau, 63, 50–53. Google Scholar
  123. Rindermann, H. (2006). Was messen internationale Schulleistungsstudien? Schulleistungen, Schülerfähigkeiten, kognitive Fähigkeiten, Wissen oder allgemeine Intelligenz? Psychologische Rundschau, 57, 69–86. Google Scholar
  124. Robitzsch, A. (2013). Wie robust sind Struktur- und Niveaumodelle? Wie zeitlich stabil und über Situationen hinweg konstant sind Kompetenzen? Zeitschrift für Erziehungswissenschaft, 16, 41–45. Google Scholar
  125. Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion (2. Aufl.). Bern: Huber. Google Scholar
  126. Roth, H. (1971). Pädagogische Anthropologie. Hannover: Schroedel. Google Scholar
  127. Rubio, D. M., Berg-Weger, M., Tebb, S. S., Lee, E. S., & Rauch, S. (2003). Objectifying content validity: conducting a content validity study in social work research. Social Work Research, 27, 94–104. Google Scholar
  128. Rupp, A. A., & Mislevy, R. J. (2007). Cognitive foundations of structured item response theory models. In J. Leighton & M. Gierl (Hrsg.), Cognitive diagnostic assessment in education: theory and applications (S. 205–241). Cambridge: Cambridge University Press. Google Scholar
  129. Rupp, A., Templin, J., & Henson, R. (2010). In Diagnostic measurement: theory, methods, and applications. New York: Guilford. Google Scholar
  130. Schaper, N. (2003). Arbeitsproben und situative Fragen zur Messung arbeitsplatzbezogener Kompetenzen. In L.v. Rosenstiel & J. Erpenbeck (Hrsg.), Handbuch der Kompetenzmessung (S. 185–199). Münster: Waxmann. Google Scholar
  131. Schneider, M., Heine, A., Thaler, V., Torbeyns, J., De Smedt, B., Verschaffel, L., Jacobs, A., & Stern, E. (2008). A validation of eye movements as a measure of elementary school children’s developing number sense. Cognitive Development, 23(3), 424–437. Google Scholar
  132. Schulz, A. (2010). Ergebnisorientierung als Chance für den Mathematikunterricht? Innovationsprozesse qualitativ und quantitativ erfassen. München: Utz-Verlag. Google Scholar
  133. Selter, C. (2001). Addition and subtraction of three-digit numbers: German elementary children’s success, methods and strategies. Educational Studies in Mathematics, 47, 145–173. Google Scholar
  134. Shavelson, R. J. (2010). On the measurement of competency. Empirical Research in Vocational Education and Training, 2(1), 41–63. Google Scholar
  135. Sierpinska, A. (1992). Theoretical perspectives for development of the function concept. In G. Harel & E. Dubinsky (Hrsg.), MAA notes: Bd. 25. The concept of function: aspects of epistemology and pedagogy (S. 23–58). Washington: MAA. Google Scholar
  136. Silver, J., & Waits, B. (1973). Multiple-choice examinations in mathematics, not valid for everyone. The American Mathematical Monthly, 80(8), 937–942. Google Scholar
  137. Snow, R. E., & Lohman, D. F. (1989). Implications of cognitive psychology for educational measurement. In R. L. Linn (Hrsg.), Educational measurement (3. Aufl., S. 263–331). New York: American Council on Education/MacMillan Publishing Company. Google Scholar
  138. Spoden, C., & Leutner, D. (2011). Vergleichsarbeiten: Studienbrief im Rahmen des KMK-Projektes UDiKom: Aus- und Fortbildung der Lehrkräfte in Hinblick auf Verbesserung der Diagnosefähigkeit, Umgang mit Heterogenität, individuelle Förderung. Online unter http://www.kmk-udikom.de/ (1.12.2013).
  139. Stacey, K., & Steinle, V. (2006). A case of the inapplicability of the rasch model: mapping conceptual learning. Mathematics Education Research Journal, 18(2), 77–92. Google Scholar
  140. Stanat, P., Pant, H. A., Böhme, K., & Richter, D. (Hrsg.) (2012). Kompetenzen von Schülerinnen und Schülern am Ende der vierten Jahrgangsstufe in den Fächern Deutsch und Mathematik Ergebnisse des IQB-Ländervergleichs 2011. Münster: Waxmann. Google Scholar
  141. Stecker, P. M., Fuchs, L. S., & Fuchs, D. (2005). Using curriculum-based measurement to improve student achievement: Review of the research. Psychology in the Schools, 42(8), 795–819. Google Scholar
  142. Sternberg, R. J. & Ben-Zeev, T. (Hrsg.) (1996). The nature of mathematical thinking. Mahwah: Erlbaum. Google Scholar
  143. Tatsuoka, K. K. (1983). Rule-space: an approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20, 345–354. Google Scholar
  144. Thomson, S., & Hillman, K. (2010). Against the odds: influences on the post-school success of ‘low performers’. Adelaide: NCVER. Google Scholar
  145. Thorndike, E. (1912). The measurement of educational products. The School Review, 20(5), 289–299. Google Scholar
  146. van Lehn, K. (1990). Mind bugs: the origins of procedural misconceptions. Cambridge: MIT Press. Google Scholar
  147. van Lehn, K. (1982). Bugs are not enough: empirical studies of bugs, impasses and repairs in procedural skills. The Journal of Mathematical Behavior, 3, 3–71. Google Scholar
  148. Verschaffel, L., Greer, B., & De Corte, E. (2007). Whole number concepts and operations. In F. Lester (Hrsg.), Second handbook of research on mathematics teaching and learning. (2. Aufl., S. 557–628). Charlotte: Information Age Publishing. Google Scholar
  149. von Davier, M. (2005). A general diagnostic model applied to language testing data. Research report No. RR-05-16. Princeton: Educational Testing Service Google Scholar
  150. Vosniadou, S., & Verschaffel, L. (2004). Extending the conceptual change approach to mathematics learning and teaching. In L. Verschaffel & S. Vosniadou (Hrsg.), Conceptual change in mathematics learning and teaching, special issue of learning and instruction (Bd. 14, S. 445–451). Google Scholar
  151. Wacker, A., & Kramer, J. (2012). Vergleichsarbeiten in Baden-Württemberg. Zur Einschätzung von Lehrkräften vor und nach der Implementation. Zeitschrift für Erziehungswissenschaften, 15(4), 683–706. Google Scholar
  152. Webb, N. L., Day, R., & Romberg, T. A. (1988). Evaluation of the use of “Exploring data” and “Exploring probability”. Madison: Wisconsin Center for Education Research. Google Scholar
  153. Webb, N. M., Shavelson, R. J., & Haertel, E. H. (2007). Reliability and generalizability theory. In C. R. Rao (Hrsg.), Handbook of statistics. Google Scholar
  154. Weinert, F. E. (2001). Concept of competence: a conceptual clarification. In D. Rychen & L. Salganik (Hrsg.), Defining and selecting key competencies (S. 45–66). Seattle: Hogrefe & Huber. Google Scholar
  155. Wendt, H., & Bos, W. (2011). Fachdidaktik und Bildungsforschung – von der Notwendigkeit zur Kooperation im Zeitalter globalisierter Kompetenzen. In K.-O. Bauer & N. Logemann (Hrsg.), Unterrichtsqualität und fachdidaktische Forschung – Modelle und Instrumente zur Messung fachspezifischer Lernbedingungen und Kompetenzen (S. 11–34). Münster: Waxmann. Google Scholar
  156. Wilson, M. (1990). Investigation of structured problem solving items. In G. Kulms (Hrsg.), Assessing higher order thinking in mathematics. Washington: American Association for the Advancement of Science. Google Scholar
  157. Wilson, M. (1992). Measuring levels of mathematical understanding. In T. Romberg (Hrsg.), Mathematics assessment and evaluation: imperatives for mathematics educators. New York: SUNY Press. Google Scholar
  158. Wilson, M. (2005). Constructing measures: an item response modeling approach. Mahwah: Erlbaum. Google Scholar
  159. Wilson, M., & Carstensen, C. H. (2007). Assessment to improve learning: the BEAR assessment system. Assessing Mathematical Proficiency, 53, 311–332. Google Scholar
  160. Wilson, M., & Scalise, S. (2006). Assessment to improve learning in higher education: the BEAR Assessment System. The Juornal of Higher Education, 52(4), 635–663. Google Scholar
  161. Wilson, M., & Sloane, K. (2000). From principles to practice: an embedded assessment system. Applied Measurement in Education, 13(2), 181–208. Google Scholar
  162. Wilson, M., De Boeck, P., & Carstensen, C. H. (2008). Explanatory item response models: a brief introduction. In J. Hartig, E. Klieme, & D. Leutner (Hrsg.), Assessment of competencies in educational contexts (S. 91–120). Göttingen: Hogrefe. Google Scholar
  163. Winkelmann, H., Robitzsch, A., Stanat, P., & Köller, O. (2012). Mathematische Kompetenzen in der Grundschule: Struktur, Validierung und Zusammenspiel mit allgemeinen kognitiven Fähigkeiten. Diagnostica, 58, 15–30. Google Scholar
  164. Winter, H. (1995). Mathematikunterricht und Allgemeinbildung. Mitteilungen der GDM, 61, 37–46. Google Scholar
  165. Wirtz, M., Naccarella, D., Henning, J., Kröhne, U., Bruder, R., & Leuders, T. (2012). Komparative Analyse von Kompetenzstrukturmodellen im Bereich funktionaler Zusammenhänge. In R. Riemann (Hrsg.), 48. Kongress der Deutschen Gesellschaft für Psychologie (S. 34). Bielefeld: DGPS. Google Scholar
  166. Wu, M., & Adams, R. (2006). Modelling mathematics problem solving item responses using a multidimensional IRT model. Mathematics Education Research Journal, 8, 93–113. Google Scholar
  167. Wu, M., & Adams, R. (2007). Applying the Rasch model to psycho-social measurement: a practical approach. Melbourne: Educational Measurement Solutions. Google Scholar
  168. Yerushalmy, M. (2000). Probelm solving strategies and mathematical resources: a longitudinal view on problem solving in a function based approach to algebra. Educational Studies in Mathematics, 43, 125–147. Google Scholar
  169. Zeitler, S., Asbrand, B., & Heller, N. (2013). Steuerung durch Bildungsstandards – Bildungsstandards als Innovation zwischen Implementation und Rezeption. In I. Bormann & M. Rürup (Hrsg.), Innovationen im Bildungswesen: Analytisiche Zugänge und empirische Befunde (S. 127–147). Wiesbaden: Springer. Google Scholar

Copyright information

© GDM 2014

Authors and Affiliations

  1. 1.Institut für Mathematische Bildung Freiburg (IMBF)FreiburgDeutschland

Personalised recommendations