Skip to main content
Log in

Fehlende Werte in sportwissenschaftlichen Untersuchungen

Eine anwendungsorientierte Einführung in die multiple Imputation mit SPSS

Missing values in sport scientific studies

A practical guide to multiple imputation with SPSS

  • Hauptbeiträge
  • Published:
Sportwissenschaft Aims and scope Submit manuscript

Zusammenfassung

Fehlende Werte sind in der empirischen Forschung ein ernstzunehmendes Problem, das gerade in sportwissenschaftlichen Studien oft vernachlässigt wird. Häufig eingesetzte Verfahren wie Regressionsmethode, fallweiser und paarweiser Ausschluss und Mittelwertsersetzungen stellen aus methodischer Sicht keine befriedigende Lösung dar. Neuere Verfahren wie Maximum-Likelihood-Schätzungen (ML) und multiple Imputation (MI) finden nach wie vor zu selten Anwendung. Ziel des vorliegenden Artikels ist es, dem entgegenzuwirken. Basierend auf der statistischen Theorie fehlender Werte nach Rubin (1976) werden verschiedene Verfahren zum Umgang mit fehlenden Werten vorgestellt und kritisch diskutiert. Im Fokus steht dabei das Verfahren der multiplen Imputation (MI). Seit der Implementierung von MI in SPSS Version 17 (SPSS 2009) steht dem routinemäßigen Einsatz durch eine breite Anwenderschaft nichts mehr im Wege. Illustriert wird der Einsatz von MI im letzten Teil des Artikels anhand einer empirischen Studie mit einem für sportwissenschaftliche Untersuchungen typischen Ausfallprozess. Vorteile des MI, aber auch Grenzen und Schwierigkeiten bei der Umsetzung werden anhand dieses Beispiels diskutiert.

Abstract

Missing values are a serious statistical problem in empirical studies which tends not to be considered in sport scientific studies. The methods usually applied such as listwise and pairwise deletion, mean and regression imputation do not constitute satisfactory solutions. New methods such as Maximum Likelihood Estimation (ML) and Multiple Imputation (MI) have not yet been widely implemented. The aim of this article is to change this situation. For this purpose, this article provides an overview of the missing data theory stated by Rubin (1976). Based on this approach, different methods for dealing with the problem of missing data will be presented and discussed. Special emphasis is put on new methods, in particular MI. In the past, the application of MI required special software. Since the implementation of MI in SPSS 17 (SPSS 2009) there is no obstacle for a routine usage of this method to handle missing data problems. The implementation of MI will be illustrated with an empirical study with a missing data mechanism typical for sport scientific studies. Using this example, advantages of MI as well as current limitations and practical difficulties will be discussed.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Notes

  1. Predictive Mean Matching ähnelt dabei stark einer anderen Klasse an Imputationsverfahren, der sog. Hot-Deck-Imputation (Ford, 1983). Hierunter versteht man ganz allgemein eine Verfahrensklasse, die darauf abzielt, fehlende Werte einer Person durch die Werte einer möglichst ähnlichen anderen (Geber-)Person zu ersetzen. Die einzelnen Ansätze unterscheiden sich darin, wie genau diese Ähnlichkeit quantifiziert wird. Gerade in der Umfrageforschung haben Hot-Deck-Imputationen einige Aufmerksamkeit erhalten (Scheuren, 2005).

  2. Bei der Posteriorverteilung der Kovarianzmatrix handelt es sich um eine inverse Wishart-Verteilung, während es sich bei der Posteriorverteilung des Mittelwertvektors um eine multivariate Normalverteilung handelt. Das Konzept der Posteriorverteilung (sowie die Methode der multiplen Imputation an sich) ist eng mit dem bayesianischen Wahrscheinlichkeitsbegriff verbunden, auf welchen im Rahmen dieses Artikels jedoch nicht näher eingegangen werden kann. Für ein tiefergehendes Verständnis empfehlen wir die Lektüre von Enders (2010).

  3. Seit 2009 wird das Statistikprogramm SPSS (Statistical Package for the Social Sciences) unter dem Namen PASW (Predictive Analysis SoftWare) vermarktet.

  4. Von einem monotonen Muster spricht man, wenn der Ausfall betrachtet über einzelne Items oder Personen aufeinander aufbauend verläuft. In der Praxis kommt das monotone Ausfallmuster selten vor. Beispielsweise in Längsschnittstudien, in denen Testpersonen von Messzeitpunkt zu Messzeitpunkt sukzessive ausfallen, kann dieses Muster auftreten. Das monotone Muster vereinfacht den Schätzprozess, da iterative Algorithmen nicht mehr gebraucht werden, weder bei ML- noch bei Bayes-Schätzungen. Im Fall eines nicht monotonen Musters empfiehlt SPSS (2009), den oben beschriebenen MCMC-Algorithmus anzuwenden. SPSS bietet auch die Möglichkeit des Einsatzes des weniger rechenaufwendigen Verfahrens für monotone Ausfallmuster.

  5. Bei dieser Spezifikation der Minimal- und Maximalwerte wird versucht, die Werte innerhalb dieser Grenzen zu erzeugen. Falls dies nicht gelingt, wird die Prozedur für Fall- und Parameterziehungen wiederholt. SPSS 18 bietet die Möglichkeit, die maximale Anzahl der Fall- und Parameterziehungen festzulegen. Je höher die maximale Anzahl der Ziehungen, desto wahrscheinlicher ist eine Ziehung innerhalb der aufgestellten Grenzen, aber umso größer fällt der Rechenaufwand aus. Wie groß die maximale Anzahl dieser Ziehungen sein sollte, ist im Einzelfall abzuwägen.

Literatur

  1. Allison, P.D. (2002). Missing Data. Thousand Oaks: Sage.

    Google Scholar 

  2. American Psychological Association (2009). Publication manual of the American Psychological Association. Washington D.C.: American Psychological Association.

  3. Arbuckle, J.L. (1996). Full information estimation in the presence of incomplete data. In G.A. Marcoulides & R.E. Schumacker (Eds.), Advanced structural equation modeling (pp. 243–277). Mahwah, NJ: Lawrence Erlbaum.

  4. Bös, K., Abel, T., Woll, A., Niemann, S., Tittlbach, S. & Schott, N. (2002). Der Fragebogen zur Erfassung des motorischen Funktionsstatus (FFB-Mot): Bericht über die Entwicklung und Überprüfung. Diagnostica, 48, 101–111.

  5. Demirtas, H. and Schafer, J.L. (2003). On the performance of random-coefficient pattern-mixture models for non-ignorable dropout. Statistics in Medicine, 22, 2553–2575.

    Google Scholar 

  6. Dempster, A.P., Laird, N & Rubin, D.B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, B39, 1–38.

  7. Dillman, D.A. (2000). Mail and internet surveys. The tailored design method. New York: Wiley.

    Google Scholar 

  8. Enders, C.K. (2010). Applied missing data analysis. New York: Guilford Press.

    Google Scholar 

  9. Enders, C.K., & Bandalos, D.L. (2001). The relative performance of full information maximum likelihood estimation for missing data in structural equation models. Structural Equation Modeling, 8, 430–457.

    Google Scholar 

  10. Enders, C.K., & Peugh, J.L. (2004). Using an EM covariance matrix to estimate structural equation models with missing data: Choosing an adjusted sample size to improve the accuracy of inferences. Structural Equation Modeling, 11, 1–19.

    Google Scholar 

  11. Ford, B.L. (1983). An overview of hot-deck procedures. In W.G. Madow, I. Olkin & D.B. Rubin (Eds.), Incomplete data in sample surveys (pp. 185–207). New York: Academic Press.

    Google Scholar 

  12. Glynn, R.J., Laird, N.M. & Rubin, D.B. (1993). Multiple imputation in mixture models for nonignorable nonresponse with followups. Journal of American Statistical Association, 88, 984–93.

    Google Scholar 

  13. Graham, J.W. (2009). Missing data analysis: making it work in the real world. Annual Review of Psychology, 60, 549–576.

    Google Scholar 

  14. Graham, J.W. & Hofer, S.M. (2000). Multiple Imputation in Multivariate Research. In T.D. Little, K.U. Schnabel & J. Baumert (Hrsg). Modeling longitudinal and multilevel data. Mahwah: Erlbaum.

  15. Groves, R.M., Fowler, F.J., Couper, M.P., Lepkowski, J.M., Singer, E. & Tourangeau, R. (2009). Survey Methodology. Hoboken: Wiley

  16. King, K., Honaker, J., Joseph, A. & Scheve, K. (2001). Analyzing incomplete political science data: an alternative algorithm for multiple imputation. American Political Science Review, 95, 49–69.

    Google Scholar 

  17. Little, R.J.A. (1988). A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83, 1198–1202.

    Google Scholar 

  18. Little, R.J.A. & Rubin, D.B. (2002). Statistical analysis with missing data. New Jersey: Wiley.

    Google Scholar 

  19. Lüdtke, O., Robitzsch, A., Trautwein, U. & Köller, O. (2007). Umgang mit fehlenden Daten in der psychologischen Forschung. Probleme und Lösungen. Psychologische Rundschau, 58, 103–117.

    Google Scholar 

  20. O’Conner, B.P. (1999). Simple and flexible SAS and SPSS programs for analysing lag-sequential categorical data. Behavior Research Methods, Instruments and Computers, 31, 718–726.

    Google Scholar 

  21. Peugh, J.L. & Enders, C.K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525–556.

    Google Scholar 

  22. Rubin, D.B. (1976). Inference and missing data. Biometrika, 63, 581–592.

    Google Scholar 

  23. Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley.

    Google Scholar 

  24. Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of American Statistical Association, 91, 473–489.

    Google Scholar 

  25. Schafer, J.L. (1997). NORM: multiple imputation of incomplete multivariate data under a normal model, version 2.03. Online: http://www.stat.psu.edu/~jls/misoftwa.html (24.09.2010).

  26. Schafer, J.L. (1999). Multiple imputation: a primer. Statistical Methods in Medical Research, 8, 3–15.

    Google Scholar 

  27. Schafer, J.L. (2000). Analysis of incomplete multivariate data. Boca Raton: Chapman & Hall.

    Google Scholar 

  28. Schafer, J.L. & Graham, J.W. (2002). Missing data: our view of the state of the art. Psychological Methods, 7, 147–177.

    Google Scholar 

  29. Scheuren, F. (2005). Multiple imputation: How it began and continues. The American Statistician, 59, 315–319.

    Google Scholar 

  30. Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Ausmaß, Entwicklungen und Ursachen. Opladen: Leske & Budrich.

  31. SPSS (2009). SPSS Missing Values 17.0. Chicago, IL: SPSS.

  32. Tanner, M.A. & Wong, W.H. (1987). The calculation of posterior distributions by data augmentation. Journal of American Statistical Association, 82, 528–50.

    Google Scholar 

  33. Tukey, J.W. (1977). Exploratory data analysis. Reading, MA: Addison-Wesley Publishing.

  34. Van Buuren, S. & Oudshoorn, C.G.M. (1999) Flexible multivariate imputation by MICE. TNO-rapport PG 99.054. TNO Prevention and Health. Leiden: TNO.

  35. Wirtz, M. (2004). Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation, 43, 109–115.

    Google Scholar 

  36. Woll, A., Tittlbach, S. & Schott, N. (2004). Diagnose körperlich-sportlicher Aktivität, Fitness und Gesundheit – Methodenband II. Berlin: Dissertation.de.

Download references

Interessenkonflikt

Der korrespondierende Autor gibt für sich und seine Koautoren an, dass kein Interessenkonflikt besteht.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Darko Jekauc.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Jekauc, D., Völkle, M., Lämmle, L. et al. Fehlende Werte in sportwissenschaftlichen Untersuchungen. Sportwiss 42, 126–136 (2012). https://doi.org/10.1007/s12662-012-0249-5

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s12662-012-0249-5

Schlüsselwörter

Keywords

Navigation