Skip to main content
Log in

Zur Rekonstruierbarkeit impliziter Standardsetzungen zentraler Prüfungen mit Hilfe des Rasch-Modells

On the Reconstruction of Implicit Standard-Setting by Central Examinations Using the Rasch-Model

  • Diskussionsbeitrag
  • Published:
Journal für Mathematik-Didaktik Aims and scope Submit manuscript

Zusammenfassung

Den Beitrag „Methodische Überlegungen und empirische Analysen zur impliziten Standardsetzung durch zentrale Prüfungen“ in Heft 1/2012 dieser Zeitschrift zum Anlass nehmend werden Schwierigkeiten und Grenzen diskutiert, die sich generell bei einer Verwendung des Rasch-Modells zur Evaluation zentraler Prüfungsarbeiten ergeben können.

Abstract

Considering “Methodological Considerations and Empirical Analyses of the Implicit Standard-Setting by Central Examinations” from Volume 1/2012 of this journal, some concerns are being discussed regarding the Rasch model as a tool for evaluating central examinations.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Notes

  1. Da es sich bei der Notenskala um eine Ordinalskala handelt, ist es u. U. missverständlich, hier von Zahlen zu reden, mit der Schulnote ist jedenfalls ein einzelnes statistisches Datum gegeben.

  2. In diesem Sinne hat etwa die Klagenfurter Projektgruppe „Standardisierte schriftliche Reifeprüfung aus Mathematik“ die Leistungsbeurteilungsverordnung interpretiert, die ihrerseits keinerlei Quantifizierungen vornimmt, vgl. IDM/AECC-M (2009), S. 11 f.

  3. Der „Summenscore“ meint die Anzahl korrekter Antworten.

  4. Die von Büchter und Pallack (2012) festgestellten Überschneidungen zwischen Personenparameterschätzungen und Notengrenzen (mit einem WLE von Θ=0.33, also mit 14 korrekt bearbeiteten Aufgaben, erhalten Schüler(innen) Noten zwischen „3“ und „5“) beruhen nicht ursächlich auf der Rasch-Modellierung, sondern sind einzig der von den Autoren gewählten Form der Dichotomisierung (richtig-falsch-Auswertung) geschuldet: Schüler(innen) können mit mehr oder wenig vielen Teilpunkten versehene Aufgaben gelöst haben, je nachdem erhalten sie dann mehr oder weniger Punkte und daher auch verschiedene Noten trotz gleicher Anzahl gelöster Aufgaben, die in der Folge zum gleichen Personenparameter führt.

  5. Beim Test auf Rasch-Verträglichkeit ist die Geltung des Modells die Nullhypothese. Das führt u.a. dazu, dass das Modell bei hinreichend kleinen Personenzahlen nur selten verworfen werden kann, weil Abweichungen vom Modell bei kleinen Personenzahlen nicht signifikant werden (vgl. Rost 2003). Insofern ist auch der Übernahme von kritischen Schwellenwerten für Gütekriterien (Item-Infit etc.) aus Großstudien wie PISA mit einer gewissen Skepsis zu begegnen.

  6. Im Sinne einer probabilistischen Interpretation löst dann jedes Mitglied dieser Personengruppe die Aufgabe mit einer Wahrscheinlichkeit von 53.39 %.

  7. Als Onlinematerial 1 ist auf Springer-Online eine Excel-Datei mit der vollständig rekonstruierten, nach Lösungshäufigkeiten vorsortierten Item-Personengruppen-Matrix verfügbar, mit Hilfe derer alle in diesem Aufsatz angestellten Berechnungen und die (im Modell geschätzten) Lösungshäufigkeiten für alle Personengruppen und alle Aufgaben im Detail nachvollzogen werden können.

  8. Die Unterschiede liegen für 6 der 14 Aufgaben unterhalb von 10 %-Punkten, Details können erneut der Excel-Tabelle Onlinematerial 1 entnommen werden

  9. Im Ernstfall (Maturaprüfung) war in diesem Teil zum Bestehen der Prüfung ein Erreichungsgrad von 2/3 erforderlich, auf den Pilottest 3 übertragen wären also 8 korrekte Beispiele nötig gewesen.

  10. Die Modellierung erfolgte mit dem Paket eRm (Poinstingl et al. 2007) innerhalb des Programms R (R Development Core Team 2012). Die Auswertung ist nicht Teil des Pilotprojekts, welches explizit auf die Gefahr einer Dominanz psychometrischer Betrachtungen gegenüber inhaltlichen Argumenten hingeweisen hat. Eine diesbezügliche Resolution, alle eingesetzten Aufgaben, Korrekturanleitungen und Ergebnisse können vollständig unter http://www.aau.at/Zentralmatura-M eingesehen werden. Eine Tabelle mit im Rasch-Modell geschätzten Häufigkeitswerten ist als Onlinematerial 2 auf Springer-Online einsehbar.

  11. Einen Einblick in Effekte im Bereich variierender Antwortmuster und Lösungshäufigkeitsreihenfolgen zwischen unterschiedlichen Schulklassen liefert etwa Peschek 2011, S. 27 ff.

Literatur

  • Baumert, J., Brunner, M., Lüdtke, O., & Trautwein, U. (2007). Was messen internationale Schulleistungsstudien? Resultate kumulativer Wissensserwerbsprozesse. Psychologische Rundschau, 58(2), 118–128.

    Article  Google Scholar 

  • Büchter, A., & Pallack, A. (2012). Methodische Überlegungen und empirische Analysen zur impliziten Standardsetzung durch zentrale Prüfungen. Journal Für Mathematik-Didaktik, 33(1), 59–85.

    Article  Google Scholar 

  • Cronbach, L. J., & Gleser, G. C. (1965). Psychological tests and personnel decisions. Urbana: University of Illinois Press.

    Google Scholar 

  • Gellert, U., & Hümmer, A.-M. (2008). Soziale Konstruktion von Leistung im Unterricht. Zeitschrift für Erziehungswissenschaft, 11(2), 288–311.

    Article  Google Scholar 

  • IDM/AECC-M (2009). Das Projekt „Standardisierte schriftliche Reifeprüfung aus Mathematik“. http://www.aau.at/idm/downloads/sRP-M_September_2009.pdf. Gesehen 26.07.2012.

  • KMK (2002). Einheitliche Prüfungsanforderungen in der Abiturprüfung (EPA). Beschluss der Kultusministerkonferenz vom 01.12.1989 i.d.f. vom 24.05.2002. http://db2.nibis.de/1db/cuvo/datei/epa_mathematik.pdf. Gesehen 26.07.2012.

  • Levin, A. (2009). Qualitätsprobleme mathematischer Vergleichsarbeiten. Münster: Waxmann.

    Google Scholar 

  • Peschek, W. (2011). Zentralmatura Mathematik: Sicherung von Grundkompetenzen für alle. Internationale Mathematische Nachrichten, 116, 15–30).

    Google Scholar 

  • Poinstingl, H., Mair, P., & Hatzinger, R. (2007). Manual zum Softwarepackage eRm. http://erm.r-forge.r-project.org/eRm_manual.pdf. Gesehen 26.07.2012.

  • R Development Core Team (2012). R: a language and environment for statistical computing. Wien: R Foundation for Statistical Computing. http://www.R-project.org/. Gesehen 26.07.2012.

    Google Scholar 

  • Ratzka, N. (2004). Mathematische Leistung im Spiegel unterschiedlicher Tests. In I. Esslinger-Hinz & H. Hahn (Hrsg.), Kompetenzen entwickeln – Unterrichtsqualität in der Grundschule steigern: Entwicklungslinien und Forschungsbefunde (S. 175–179). Hohengehren: Schneider Verlag.

    Google Scholar 

  • Rindermann, H. (2006). Was messen internationale Schulleistungsstudien? Psychologische Rundschau, 57(2), 68–89.

    Article  Google Scholar 

  • Rost, J. (1996). Lehrbuch Testtheorie Testkonstruktion. Bern: Hans Huber.

    Google Scholar 

  • Rost, J. (2003). Zeitgeist und Moden empirischer Analysemethoden. Forum Qualitative Sozialforschung 4(2), 5. http://nbn-resolving.de/urn:nbn:de:0114-fqs030258. Gesehen 26.07.2012.

    Google Scholar 

  • SchulG (2012). Schulgesetz für das Land Nordrhein-Westfalen vom 15. Februar 2005 (GV. NRW. S. 102), zuletzt geändert durch Gesetz vom 14. Februar 2012 (SGV. NRW. 223).

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Andreas Vohns.

Zusätzliche Information

Ergänzendes Onlinematerial kann unter folgendem Links abgerufen werden.

(XLS 67 kB)

(XLS 79 kB)

Rights and permissions

Reprints and permissions

About this article

Cite this article

Vohns, A. Zur Rekonstruierbarkeit impliziter Standardsetzungen zentraler Prüfungen mit Hilfe des Rasch-Modells. J Math Didakt 33, 339–349 (2012). https://doi.org/10.1007/s13138-012-0041-y

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s13138-012-0041-y

Schlüsselwörter

Mathematics Subject Classification (2000)

Navigation