Zusammenfassung
Den Beitrag „Methodische Überlegungen und empirische Analysen zur impliziten Standardsetzung durch zentrale Prüfungen“ in Heft 1/2012 dieser Zeitschrift zum Anlass nehmend werden Schwierigkeiten und Grenzen diskutiert, die sich generell bei einer Verwendung des Rasch-Modells zur Evaluation zentraler Prüfungsarbeiten ergeben können.
Abstract
Considering “Methodological Considerations and Empirical Analyses of the Implicit Standard-Setting by Central Examinations” from Volume 1/2012 of this journal, some concerns are being discussed regarding the Rasch model as a tool for evaluating central examinations.
Notes
Da es sich bei der Notenskala um eine Ordinalskala handelt, ist es u. U. missverständlich, hier von Zahlen zu reden, mit der Schulnote ist jedenfalls ein einzelnes statistisches Datum gegeben.
In diesem Sinne hat etwa die Klagenfurter Projektgruppe „Standardisierte schriftliche Reifeprüfung aus Mathematik“ die Leistungsbeurteilungsverordnung interpretiert, die ihrerseits keinerlei Quantifizierungen vornimmt, vgl. IDM/AECC-M (2009), S. 11 f.
Der „Summenscore“ meint die Anzahl korrekter Antworten.
Die von Büchter und Pallack (2012) festgestellten Überschneidungen zwischen Personenparameterschätzungen und Notengrenzen (mit einem WLE von Θ=0.33, also mit 14 korrekt bearbeiteten Aufgaben, erhalten Schüler(innen) Noten zwischen „3“ und „5“) beruhen nicht ursächlich auf der Rasch-Modellierung, sondern sind einzig der von den Autoren gewählten Form der Dichotomisierung (richtig-falsch-Auswertung) geschuldet: Schüler(innen) können mit mehr oder wenig vielen Teilpunkten versehene Aufgaben gelöst haben, je nachdem erhalten sie dann mehr oder weniger Punkte und daher auch verschiedene Noten trotz gleicher Anzahl gelöster Aufgaben, die in der Folge zum gleichen Personenparameter führt.
Beim Test auf Rasch-Verträglichkeit ist die Geltung des Modells die Nullhypothese. Das führt u.a. dazu, dass das Modell bei hinreichend kleinen Personenzahlen nur selten verworfen werden kann, weil Abweichungen vom Modell bei kleinen Personenzahlen nicht signifikant werden (vgl. Rost 2003). Insofern ist auch der Übernahme von kritischen Schwellenwerten für Gütekriterien (Item-Infit etc.) aus Großstudien wie PISA mit einer gewissen Skepsis zu begegnen.
Im Sinne einer probabilistischen Interpretation löst dann jedes Mitglied dieser Personengruppe die Aufgabe mit einer Wahrscheinlichkeit von 53.39 %.
Als Onlinematerial 1 ist auf Springer-Online eine Excel-Datei mit der vollständig rekonstruierten, nach Lösungshäufigkeiten vorsortierten Item-Personengruppen-Matrix verfügbar, mit Hilfe derer alle in diesem Aufsatz angestellten Berechnungen und die (im Modell geschätzten) Lösungshäufigkeiten für alle Personengruppen und alle Aufgaben im Detail nachvollzogen werden können.
Die Unterschiede liegen für 6 der 14 Aufgaben unterhalb von 10 %-Punkten, Details können erneut der Excel-Tabelle Onlinematerial 1 entnommen werden
Im Ernstfall (Maturaprüfung) war in diesem Teil zum Bestehen der Prüfung ein Erreichungsgrad von 2/3 erforderlich, auf den Pilottest 3 übertragen wären also 8 korrekte Beispiele nötig gewesen.
Die Modellierung erfolgte mit dem Paket eRm (Poinstingl et al. 2007) innerhalb des Programms R (R Development Core Team 2012). Die Auswertung ist nicht Teil des Pilotprojekts, welches explizit auf die Gefahr einer Dominanz psychometrischer Betrachtungen gegenüber inhaltlichen Argumenten hingeweisen hat. Eine diesbezügliche Resolution, alle eingesetzten Aufgaben, Korrekturanleitungen und Ergebnisse können vollständig unter http://www.aau.at/Zentralmatura-M eingesehen werden. Eine Tabelle mit im Rasch-Modell geschätzten Häufigkeitswerten ist als Onlinematerial 2 auf Springer-Online einsehbar.
Einen Einblick in Effekte im Bereich variierender Antwortmuster und Lösungshäufigkeitsreihenfolgen zwischen unterschiedlichen Schulklassen liefert etwa Peschek 2011, S. 27 ff.
Literatur
Baumert, J., Brunner, M., Lüdtke, O., & Trautwein, U. (2007). Was messen internationale Schulleistungsstudien? Resultate kumulativer Wissensserwerbsprozesse. Psychologische Rundschau, 58(2), 118–128.
Büchter, A., & Pallack, A. (2012). Methodische Überlegungen und empirische Analysen zur impliziten Standardsetzung durch zentrale Prüfungen. Journal Für Mathematik-Didaktik, 33(1), 59–85.
Cronbach, L. J., & Gleser, G. C. (1965). Psychological tests and personnel decisions. Urbana: University of Illinois Press.
Gellert, U., & Hümmer, A.-M. (2008). Soziale Konstruktion von Leistung im Unterricht. Zeitschrift für Erziehungswissenschaft, 11(2), 288–311.
IDM/AECC-M (2009). Das Projekt „Standardisierte schriftliche Reifeprüfung aus Mathematik“. http://www.aau.at/idm/downloads/sRP-M_September_2009.pdf. Gesehen 26.07.2012.
KMK (2002). Einheitliche Prüfungsanforderungen in der Abiturprüfung (EPA). Beschluss der Kultusministerkonferenz vom 01.12.1989 i.d.f. vom 24.05.2002. http://db2.nibis.de/1db/cuvo/datei/epa_mathematik.pdf. Gesehen 26.07.2012.
Levin, A. (2009). Qualitätsprobleme mathematischer Vergleichsarbeiten. Münster: Waxmann.
Peschek, W. (2011). Zentralmatura Mathematik: Sicherung von Grundkompetenzen für alle. Internationale Mathematische Nachrichten, 116, 15–30).
Poinstingl, H., Mair, P., & Hatzinger, R. (2007). Manual zum Softwarepackage eRm. http://erm.r-forge.r-project.org/eRm_manual.pdf. Gesehen 26.07.2012.
R Development Core Team (2012). R: a language and environment for statistical computing. Wien: R Foundation for Statistical Computing. http://www.R-project.org/. Gesehen 26.07.2012.
Ratzka, N. (2004). Mathematische Leistung im Spiegel unterschiedlicher Tests. In I. Esslinger-Hinz & H. Hahn (Hrsg.), Kompetenzen entwickeln – Unterrichtsqualität in der Grundschule steigern: Entwicklungslinien und Forschungsbefunde (S. 175–179). Hohengehren: Schneider Verlag.
Rindermann, H. (2006). Was messen internationale Schulleistungsstudien? Psychologische Rundschau, 57(2), 68–89.
Rost, J. (1996). Lehrbuch Testtheorie Testkonstruktion. Bern: Hans Huber.
Rost, J. (2003). Zeitgeist und Moden empirischer Analysemethoden. Forum Qualitative Sozialforschung 4(2), 5. http://nbn-resolving.de/urn:nbn:de:0114-fqs030258. Gesehen 26.07.2012.
SchulG (2012). Schulgesetz für das Land Nordrhein-Westfalen vom 15. Februar 2005 (GV. NRW. S. 102), zuletzt geändert durch Gesetz vom 14. Februar 2012 (SGV. NRW. 223).
Author information
Authors and Affiliations
Corresponding author
Zusätzliche Information
Rights and permissions
About this article
Cite this article
Vohns, A. Zur Rekonstruierbarkeit impliziter Standardsetzungen zentraler Prüfungen mit Hilfe des Rasch-Modells. J Math Didakt 33, 339–349 (2012). https://doi.org/10.1007/s13138-012-0041-y
Received:
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1007/s13138-012-0041-y