ZDM

, Volume 48, Issue 1–2, pp 83–95 | Cite as

Uncovering predictors of disagreement: ensuring the quality of expert ratings

  • Jessica Hoth
  • Björn Schwarz
  • Gabriele Kaiser
  • Andreas Busse
  • Johannes König
  • Sigrid Blömeke
Original Article

Abstract

Rating scales are a popular item format used in many types of assessments. Yet, defining which rating is correct often represents a challenge. Using expert ratings as benchmarks is one approach to ensuring the quality of a rating instrument. In this paper, such expert ratings are analyzed in detail taking a video-based test instrument of teachers’ professional competencies from a follow-up study to TEDS-M (the so-called TEDS-FU study) as an example. The paper focuses on those items that did NOT reach sufficient consensus among the experts and analyzes in depth their features by coding the experts’ comments on those items and additionally considering their rating outcome. The results revealed that the item-wording and the composition of the group of experts strengthened or weakened agreement among the experts.

Keywords

Content validity Reliability Expert-rating Video-based assessment 

References

  1. Blömeke, S., (2013). Validierung als Aufgabe im Forschungsprogramm „Kompetenzmodellierung und Kompetenzerfassung im Hochschulsektor“. KokoHs Working Papers, 2. Berlin and Mainz: Humboldt-Universität and Johannes Gutenberg-Universität.Google Scholar
  2. Blömeke, S., Gustafsson, J.-E., & Shavelson, R. (2015). Beyond dichotomies: competence viewed as a continuum. Zeitschrift für Psychologie, 223, 3–13.CrossRefGoogle Scholar
  3. Blömeke, S., Hsieh, F.-J., Kaiser, G., & Schmidt, W. (Eds.). (2014a). International perspectives on teacher knowledge, beliefs and opportunities to learn. Dordrecht: Springer.Google Scholar
  4. Blömeke, S., König, J., Busse, A., Suhl, U., Benthien, J., Döhrmann, M., & Kaiser, G. (2014b). Von der Lehrerausbildung in den Beruf–Fachbezogenes Wissen als Voraussetzung für Wahrnehmung, Interpretation und Handeln im Unterricht. Zeitschrift für Erziehungswissenschaft, 17(3), 509–542. doi:10.1007/s11618-014-0564-8.CrossRefGoogle Scholar
  5. Blömeke, S., Suhl, U., & Döhrmann, M. (2013). Assessing strengths and weaknesses of teacher knowledge in Asia, Eastern Europe and Western countries: differential item functioning in TEDS-M. International Journal of Science and Mathematics Education, 11, 795–817.CrossRefGoogle Scholar
  6. Brown, M. B., & Forsythe, A. B. (1974). Robust tests for the equality of variances. Journal of the American Statistical Association, 69(346), 364–367.CrossRefGoogle Scholar
  7. Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium.Google Scholar
  8. Clausen, M., Reusser, K., & Klieme, E. (2003). Unterrichtsqualität auf der Basis hoch-inferenter Unterrichtsbeurteilungen. Unterrichtswissenschaft, 31(2), 122–141.Google Scholar
  9. Fabrigar, L. R., & Krosnick, J. A. (1995). Attitude measurement and questionnaire design. In A. S. R. Manstead & M. Hewstone (Eds.), Blackwell encyclopedia of social psychology. Oxford: Blackwell Publishers.Google Scholar
  10. Fowler, F. J. (1992). How unclear terms can affect survey data. Public Opinion Quarterly, 56, 218–231.CrossRefGoogle Scholar
  11. Häder, M. (2009). Delphi-Befragungen–Ein Arbeitsbuch. Wiesbaden: VS Verlag für Sozialwissenschaften.CrossRefGoogle Scholar
  12. Hartig, J., Frey, A., & Jude, N. (2012). Validität. In H. Moosbrugger & A. Kelava (Eds.), Testtheorie und Fragebogenkonstruktion (pp. 143–171). Heidelberg: Springer-Verlag.CrossRefGoogle Scholar
  13. Helmke, A., (2009). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze-Velber: Klett-Kallmeyer.Google Scholar
  14. Holleman, B. (1999). Wording effects in survey research: using meta-analysis to explain the forbid/allow asymmetry. Journal of Quantitative Linguistics, 6, 29–40.CrossRefGoogle Scholar
  15. Jenßen, L., Dunekacke, S., & Blömeke S. (2015). Qualitätssicherung in der Kompetenzforschung: Standards für den Nachweis von Validität in Testentwicklung und Veröffentlichungspraxis. Zeitschrift für Pädagogik, 61(supplementary issue), 11–31.Google Scholar
  16. Jonckheere, A. R. (1954). A test of significance for the relation between m rankings and k ranked categories. British Journal of Statistical Psychology, 7(2), 93–100.CrossRefGoogle Scholar
  17. Kaiser, G., Busse, A., Hoth, J., König, J., & Blömeke, S. (2015). About the complexities of video-based assessments: theoretical and methodological approaches to overcoming shortcomings of research on teachers’ competence. International Journal of Science and Mathematics Education, 13(2), 369–387.CrossRefGoogle Scholar
  18. Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1–73.CrossRefGoogle Scholar
  19. Klieme, E., Pauli, C., & Reusser, K. (Eds.). (2005). Dokumentation der Erhebungs- und Auswertungsinstrumente zur schweizerisch-deutschen Videostudie Unterrichtsqualität, Lernverhalten und mathematisches Verständnis. Frankfurt: GFPF.Google Scholar
  20. [KMK] Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (2004). Bildungsstandards im Fach Mathematik für den Primarbereich: Beschluss der Kultusministerkonferenz vom 15.10.2004. http://www.kmk.org/fileadmin/veroeffentlichungen_beschluesse/2004/2004_10_15-Bildungsstandards-Mathe-Primar.pdf. Accessed 22 July 2015.
  21. König, J., Blömeke, S., Klein, P., Suhl, U., Busse, A., & Kaiser, G. (2014). Is teachers‘general pedagogical knowledge a premise for noticing and interpreting classroom situations? A video-based assessment approach. Teaching and Teaching Education, 38, 76–88.CrossRefGoogle Scholar
  22. Krosnick, J. A., & Fabrigar, L. R. (1997). Designing rating scales for effective measurement in surveys. In L. Lyberg, P. Biemer, M. Collins, L. Decker, E. DeLeeuw, C. Dippo, N. Schwarz, & D. Trewin (Eds.), Survey measurement and process quality. New York: Wiley-Interscience.Google Scholar
  23. Lam, C. T., & Kolic, M. (2008). Effects of semantic incompatibility on rating response. Applied Psychological Measurement. Sage Publications, 32(3), 248–260.CrossRefGoogle Scholar
  24. Markus, K. A., & Smith, K. M. (2010). Content validity. In N. Salkind (Ed.), Encyclopedia of research design (pp. 239–244). Thousand Oaks, CA: SAGE Publications.Google Scholar
  25. Messick, S. (1989). Meaning and values in test validation: the science and ethics of assessment. Educational Researcher, 18(2), 5–11.CrossRefGoogle Scholar
  26. Moosbrugger, H., & Kelava, A. (2007). Testtheorie und Fragebogenkonstruktion. Berlin, Heidelberg: Springer.Google Scholar
  27. Pauli, C., & Reusser, K. (2006). Von international vergleichenden Video Surveys zur videobasierten Unterrichtsforschung und -entwicklung. Zeitschrift für Pädagogik, 52(6), 774–797.Google Scholar
  28. Rasch, B., Hofmann, W., Friese, M. & Naumann, E. (2010). Quantitative Methoden: Band 1: Einführung in die Statistik für Psychologen und Sozialwissenschaftler. Berlin, Heidelberg: Springer-Verlag.Google Scholar
  29. Rheinberg, F. (2006). Motivation. Stuttgart: Kohlhammer.Google Scholar
  30. Robinson, J. P., Shaver, P. R., & Wrightsman, L. S. (1999). Measures of political attitudes. San Diego, CA: Academic Press.Google Scholar
  31. Rohrmann, B. (1987). Empirische Studien zur Entwicklung von Antwortskalen für die sozialwissenschaftliche Forschung. Zeitschrift für Sozialpsychologie, 9(3), 222–245.Google Scholar
  32. Schwarz, N. (1999). Self-reports: how the questions shape the answers. American Psychologist, 54, 93–105.CrossRefGoogle Scholar
  33. Seidel, T., & Prenzel, M. (2007). Wie Lehrpersonen Unterricht wahrnehmen und einschätzen–Erfassung pädagogisch-psychologischer Kompetenzen mit Videosequenzen. In M. Prenzel, I. Gogolin, & H.-H. Krüger (Eds.), Kompetenzdiagnostik-Zeitschrift für Erziehungswissenschaft, special issue 8 (pp. 201–216). Wiesbaden: VS Verlag für Sozialwissenschaften.Google Scholar
  34. Spector, P. E. (1992). Summated rating scale construction: An introduction. Newbury Park, CA: Sage.CrossRefGoogle Scholar
  35. Strauss, A., & Corbin, J. (1991). Basics of qualitative research–Grounded theory procedures and techniques. Newbury Park: Sage Publications.Google Scholar

Copyright information

© FIZ Karlsruhe 2016

Authors and Affiliations

  • Jessica Hoth
    • 1
  • Björn Schwarz
    • 2
  • Gabriele Kaiser
    • 2
  • Andreas Busse
    • 2
  • Johannes König
    • 3
  • Sigrid Blömeke
    • 4
  1. 1.Department 2Universität VechtaVechtaGermany
  2. 2.Fakultät für Erziehungswissenschaft, Universität HamburgHamburgGermany
  3. 3.Universität zu KölnCologneGermany
  4. 4.Centre for Educational Measurement (CEMO)University of OsloOsloNorway

Personalised recommendations