Sportwissenschaft

, Volume 42, Issue 2, pp 126–136 | Cite as

Fehlende Werte in sportwissenschaftlichen Untersuchungen

Eine anwendungsorientierte Einführung in die multiple Imputation mit SPSS
  • Darko Jekauc
  • Manuel Völkle
  • Lena Lämmle
  • Alexander Woll
Hauptbeiträge

Zusammenfassung

Fehlende Werte sind in der empirischen Forschung ein ernstzunehmendes Problem, das gerade in sportwissenschaftlichen Studien oft vernachlässigt wird. Häufig eingesetzte Verfahren wie Regressionsmethode, fallweiser und paarweiser Ausschluss und Mittelwertsersetzungen stellen aus methodischer Sicht keine befriedigende Lösung dar. Neuere Verfahren wie Maximum-Likelihood-Schätzungen (ML) und multiple Imputation (MI) finden nach wie vor zu selten Anwendung. Ziel des vorliegenden Artikels ist es, dem entgegenzuwirken. Basierend auf der statistischen Theorie fehlender Werte nach Rubin (1976) werden verschiedene Verfahren zum Umgang mit fehlenden Werten vorgestellt und kritisch diskutiert. Im Fokus steht dabei das Verfahren der multiplen Imputation (MI). Seit der Implementierung von MI in SPSS Version 17 (SPSS 2009) steht dem routinemäßigen Einsatz durch eine breite Anwenderschaft nichts mehr im Wege. Illustriert wird der Einsatz von MI im letzten Teil des Artikels anhand einer empirischen Studie mit einem für sportwissenschaftliche Untersuchungen typischen Ausfallprozess. Vorteile des MI, aber auch Grenzen und Schwierigkeiten bei der Umsetzung werden anhand dieses Beispiels diskutiert.

Schlüsselwörter

Fehlende Daten SPSS Multiple Imputation Maximum Likelihood Predictive Mean Matching 

Missing values in sport scientific studies

A practical guide to multiple imputation with SPSS

Abstract

Missing values are a serious statistical problem in empirical studies which tends not to be considered in sport scientific studies. The methods usually applied such as listwise and pairwise deletion, mean and regression imputation do not constitute satisfactory solutions. New methods such as Maximum Likelihood Estimation (ML) and Multiple Imputation (MI) have not yet been widely implemented. The aim of this article is to change this situation. For this purpose, this article provides an overview of the missing data theory stated by Rubin (1976). Based on this approach, different methods for dealing with the problem of missing data will be presented and discussed. Special emphasis is put on new methods, in particular MI. In the past, the application of MI required special software. Since the implementation of MI in SPSS 17 (SPSS 2009) there is no obstacle for a routine usage of this method to handle missing data problems. The implementation of MI will be illustrated with an empirical study with a missing data mechanism typical for sport scientific studies. Using this example, advantages of MI as well as current limitations and practical difficulties will be discussed.

Keywords

Missing data SPSS Multiple imputation Maximum likelihood Predictive mean matching 

Literatur

  1. 1.
    Allison, P.D. (2002). Missing Data. Thousand Oaks: Sage.Google Scholar
  2. 2.
    American Psychological Association (2009). Publication manual of the American Psychological Association. Washington D.C.: American Psychological Association.Google Scholar
  3. 3.
    Arbuckle, J.L. (1996). Full information estimation in the presence of incomplete data. In G.A. Marcoulides & R.E. Schumacker (Eds.), Advanced structural equation modeling (pp. 243–277). Mahwah, NJ: Lawrence Erlbaum.Google Scholar
  4. 4.
    Bös, K., Abel, T., Woll, A., Niemann, S., Tittlbach, S. & Schott, N. (2002). Der Fragebogen zur Erfassung des motorischen Funktionsstatus (FFB-Mot): Bericht über die Entwicklung und Überprüfung. Diagnostica, 48, 101–111.Google Scholar
  5. 5.
    Demirtas, H. and Schafer, J.L. (2003). On the performance of random-coefficient pattern-mixture models for non-ignorable dropout. Statistics in Medicine, 22, 2553–2575.Google Scholar
  6. 6.
    Dempster, A.P., Laird, N & Rubin, D.B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, B39, 1–38.Google Scholar
  7. 7.
    Dillman, D.A. (2000). Mail and internet surveys. The tailored design method. New York: Wiley.Google Scholar
  8. 8.
    Enders, C.K. (2010). Applied missing data analysis. New York: Guilford Press.Google Scholar
  9. 9.
    Enders, C.K., & Bandalos, D.L. (2001). The relative performance of full information maximum likelihood estimation for missing data in structural equation models. Structural Equation Modeling, 8, 430–457.Google Scholar
  10. 10.
    Enders, C.K., & Peugh, J.L. (2004). Using an EM covariance matrix to estimate structural equation models with missing data: Choosing an adjusted sample size to improve the accuracy of inferences. Structural Equation Modeling, 11, 1–19.Google Scholar
  11. 11.
    Ford, B.L. (1983). An overview of hot-deck procedures. In W.G. Madow, I. Olkin & D.B. Rubin (Eds.), Incomplete data in sample surveys (pp. 185–207). New York: Academic Press.Google Scholar
  12. 12.
    Glynn, R.J., Laird, N.M. & Rubin, D.B. (1993). Multiple imputation in mixture models for nonignorable nonresponse with followups. Journal of American Statistical Association, 88, 984–93.Google Scholar
  13. 13.
    Graham, J.W. (2009). Missing data analysis: making it work in the real world. Annual Review of Psychology, 60, 549–576.Google Scholar
  14. 14.
    Graham, J.W. & Hofer, S.M. (2000). Multiple Imputation in Multivariate Research. In T.D. Little, K.U. Schnabel & J. Baumert (Hrsg). Modeling longitudinal and multilevel data. Mahwah: Erlbaum.Google Scholar
  15. 15.
    Groves, R.M., Fowler, F.J., Couper, M.P., Lepkowski, J.M., Singer, E. & Tourangeau, R. (2009). Survey Methodology. Hoboken: WileyGoogle Scholar
  16. 16.
    King, K., Honaker, J., Joseph, A. & Scheve, K. (2001). Analyzing incomplete political science data: an alternative algorithm for multiple imputation. American Political Science Review, 95, 49–69.Google Scholar
  17. 17.
    Little, R.J.A. (1988). A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83, 1198–1202.Google Scholar
  18. 18.
    Little, R.J.A. & Rubin, D.B. (2002). Statistical analysis with missing data. New Jersey: Wiley.Google Scholar
  19. 19.
    Lüdtke, O., Robitzsch, A., Trautwein, U. & Köller, O. (2007). Umgang mit fehlenden Daten in der psychologischen Forschung. Probleme und Lösungen. Psychologische Rundschau, 58, 103–117.Google Scholar
  20. 20.
    O’Conner, B.P. (1999). Simple and flexible SAS and SPSS programs for analysing lag-sequential categorical data. Behavior Research Methods, Instruments and Computers, 31, 718–726.Google Scholar
  21. 21.
    Peugh, J.L. & Enders, C.K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525–556.Google Scholar
  22. 22.
    Rubin, D.B. (1976). Inference and missing data. Biometrika, 63, 581–592.Google Scholar
  23. 23.
    Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley.Google Scholar
  24. 24.
    Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of American Statistical Association, 91, 473–489.Google Scholar
  25. 25.
    Schafer, J.L. (1997). NORM: multiple imputation of incomplete multivariate data under a normal model, version 2.03. Online: http://www.stat.psu.edu/~jls/misoftwa.html (24.09.2010).Google Scholar
  26. 26.
    Schafer, J.L. (1999). Multiple imputation: a primer. Statistical Methods in Medical Research, 8, 3–15.Google Scholar
  27. 27.
    Schafer, J.L. (2000). Analysis of incomplete multivariate data. Boca Raton: Chapman & Hall.Google Scholar
  28. 28.
    Schafer, J.L. & Graham, J.W. (2002). Missing data: our view of the state of the art. Psychological Methods, 7, 147–177.Google Scholar
  29. 29.
    Scheuren, F. (2005). Multiple imputation: How it began and continues. The American Statistician, 59, 315–319.Google Scholar
  30. 30.
    Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Ausmaß, Entwicklungen und Ursachen. Opladen: Leske & Budrich.Google Scholar
  31. 31.
    SPSS (2009). SPSS Missing Values 17.0. Chicago, IL: SPSS.Google Scholar
  32. 32.
    Tanner, M.A. & Wong, W.H. (1987). The calculation of posterior distributions by data augmentation. Journal of American Statistical Association, 82, 528–50.Google Scholar
  33. 33.
    Tukey, J.W. (1977). Exploratory data analysis. Reading, MA: Addison-Wesley Publishing.Google Scholar
  34. 34.
    Van Buuren, S. & Oudshoorn, C.G.M. (1999) Flexible multivariate imputation by MICE. TNO-rapport PG 99.054. TNO Prevention and Health. Leiden: TNO.Google Scholar
  35. 35.
    Wirtz, M. (2004). Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation, 43, 109–115.Google Scholar
  36. 36.
    Woll, A., Tittlbach, S. & Schott, N. (2004). Diagnose körperlich-sportlicher Aktivität, Fitness und Gesundheit – Methodenband II. Berlin: Dissertation.de.Google Scholar

Copyright information

© Springer-Verlag 2012

Authors and Affiliations

  • Darko Jekauc
    • 1
  • Manuel Völkle
    • 2
  • Lena Lämmle
    • 3
  • Alexander Woll
    • 1
  1. 1.Institut für SportwissenschaftUniversität KonstanzKonstanzDeutschland
  2. 2.Max Planck Institute for Human Development BerlinBerlinDeutschland
  3. 3.Technische Universität MünchenMünchenDeutschland

Personalised recommendations