Skip to main content

Statistische Analyse unvollständiger Daten

  • Living reference work entry
  • First Online:
Moderne Verfahren der Angewandten Statistik
  • 86 Accesses

Zusammenfassung

Die Grundlage einer statistischen Analyse sind Daten, doch leider sind diese nicht immer vollständig. Einzelwerte (und in Erhebungen sogar ganze Beobachtungen) können fehlen und erschweren die Analyse der Daten. Die verbleibenden vollständigen Werte zu analysieren, erweist sich als schlechte Idee, wenn die Substichprobe der fehlenden Werte keine Zufallsstichprobe der ursprünglichen Stichprobe ist, weil Schätzer verzerrt werden. Und selbst wenn der Datenausfall zufällig ist, verlieren Schätzer an Effizienz, weil die verbliebene Information nicht bestmöglich genutzt wird. Im Rahmen dieses Kapitels werden außerdem die zugrundeliegenden Annahmen beim Umgang mit fehlenden Werten sowie in der Statistik verwendete Verfahren zur Behebung des Problems vorgestellt. Eine etablierte und vermutlich die flexibelste Lösung, die mehrfache Ergänzung oder Multiple Imputation (MI) fehlender Werte, wird als Konzept ausführlich beschrieben und es wird der Umgang mit MI in der Praxis erläutert.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Institutional subscriptions

Notes

  1. 1.

    In der schematischen Darstellung fehlen die unteren 50 % der Werte von Y2, was zunächst nicht nach Zufall aussieht. Da die Beobachtungen jedoch unabhängig voneinander sind, kann man sich das Ganze als eine Löschung zufällig ausgewählter 50 % mit anschließender Sortierung nach beobachtet/fehlend vorstellen. Der Unterschied zwischen zufälligen Datenausfallmustern und Datenausfallmechanismen wird im nächsten Abschnitt erläutert.

  2. 2.

    In manchen Quellen, unter anderem in Little und Rubin (2019), sind die beiden Methoden anders definiert: Was in diesem Text als Complete Case-Analyse bezeichnet wird, wird dort als Available Case-Analyse definiert, während dort Complete Case-Analyse den Fall beschreibt, wo man sich unabhängig von der Analyse auf die vollständigen Fälle über den ganzen Datensatz hinweg beschränkt, so dass die Fallzahlen über alle Analysen hinweg konstant sind.

  3. 3.

    Der im Englischen verbreitete Begriff stammt aus dem Lateinischen und bedeutet eigentlich „Unterstellung“.

  4. 4.

    Im Falle einer nominalskalierten zu ergänzenden Variable mit k Ausprägungen wird der Unterschied ebenfalls deutlich: Während man bei Regressionsergänzung/Prädiktion den Modus unter den k prädizierten Wahrscheinlichkeiten als zu ergänzende Kategorie verwendet, würde stochastische Regressionsergänzung einen mit \(\left [\hat {p}_1 \cdots \hat {p}_k \right ]'\) gewichteten Zufallszug durchführen.

  5. 5.

    Der im Simulationskontext häufig mit „MC“ abgekürzte Begriff „Monte Carlo“ geht auf das Forscherteam in Los Alamos zurück, das zur Entwicklung der Atombombe bereits mit Computersimulationen arbeitete. Die stochastischen Prozesse erinnerten an Glücksspiele und somit an das weltberühmte Casino von Monte Carlo.

  6. 6.

    Das R steht für „Responder“. Einige Publikationen verwenden als Indikatorvariable M für „missing“ und vertauschen konsequenterweise dann auch die Bedeutung von null und eins.

  7. 7.

    Lange Zeit galt M = 5 als ungeschriebenes Gesetz und viele MI-Algorithmen verwenden dies noch immer als Voreinstellung.

  8. 8.

    In grafischen Darstellungen „wachsen“ Entscheidungsbäume meist von oben nach unten.

  9. 9.

    Mice verwendet als Startergänzung beispielsweise eine Hot Deck-Ergänzung.

  10. 10.

    Für Algorithmen, die diese Möglichkeit nicht bieten, empfehlen wir, zunächst alles zu ergänzen und am Ende den Filter „nachzuprogrammieren“, das heißt, z. B. die Variable zur Frage nach der Anzahl der gerauchten Zigaretten pro Tag wird für Nichtraucher im Nachhinein wieder auf „NA“ gesetzt, da diese im Interview übersprungen worden wäre.

  11. 11.

    Ist nur eine Variable unvollständig, so müssen die verketteten Regressionen nicht iterativ eingesetzt werden – eigentlich sind sie dann gar nicht verkettet.

References

  • Barnard J, Rubin DB (1999) Small-sample degrees of freedom with multiple imputation. Biometrika 86(4):948–955

    Article  MathSciNet  MATH  Google Scholar 

  • Bartlett JW, Seaman SR, White IR, Carpenter JR (2015) Multiple imputation of covariates by fully conditional specification: accommodating the substantive model. Stat Methods Med Res 24(4):462–487

    Article  MathSciNet  Google Scholar 

  • Bondarenko I, Raghunathan T (2016) Graphical and numerical diagnostic tools to assess suitability of multiple imputations and imputation models. Stat Med 35(17):3007–3020

    Article  MathSciNet  Google Scholar 

  • Breiman L, Friedman J, Stone CJ, Olshen RA (1984) Classification and regression trees. Taylor & Francis

    MATH  Google Scholar 

  • Burgette LF, Reiter JP (2010) Multiple imputation for missing data via sequential regression trees. J Am Stat Assoc 172(9):1070–1076

    Google Scholar 

  • Buuren S van (2018) Flexible imputation of missing data. Chapman and Hall/CRC Interdisciplinary statistics series, 2nd edn. Chapman and Hall/CRC, Boca Raton/London/New York

    Google Scholar 

  • Buuren S van, Oudshoorn CG (2000) Multivariate imputation by chained equations: Mice v1. 0 users's manual

    Google Scholar 

  • Dempster AP, Laird N, Rubin DB (1977) Maximum likelihood from incomplete data via the em algorithm. J R Stat Soc Ser B Stat Methodol 39:1–38

    MathSciNet  MATH  Google Scholar 

  • Doove LL, van Buuren, S., Dusseldorp E (2014) Recursive partitioning for missing data imputation in the presence of interaction effects. Comput Stat Data Anal 72:92–104

    Article  MathSciNet  MATH  Google Scholar 

  • Drechsler J, Reiter JP (2010) Sampling with synthesis: A new approach for releasing public use census microdata. J Am Stat Assoc 105(492):1347–1357

    Article  MathSciNet  MATH  Google Scholar 

  • Gaffert P, Meinfelder F, Bosch V (2018) Towards an MI-proper predictive mean matching. In: JSM Proceedings, Survery Research Methods Section. Alexandria, VA: American Statistical Association: 1026–1039. http://www.asasrms.org/Proceedings/y2018/files/867081.pdf. Zugegriffen am 15.09.2023

  • Gelman A, Rubin DB (1992) Inference from iterative simulation using multiple sequences. Stat Sci 7(4):475–472

    Article  MATH  Google Scholar 

  • Geman S, Geman DJ (1984) Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images. IEEE Trans Pattern Anal Mach Intell 6:721–741

    Article  MATH  Google Scholar 

  • Hartley HO (1958) Maximum likelihood estimation from incomplete data. Biometrics 14:174–194

    Article  MATH  Google Scholar 

  • Hippel PT von (2009) How to impute interactions, squares, and other transformed variables. Sociol Methodol 39(1):265–291

    Article  Google Scholar 

  • He Y, Zaslavsky AM (2012) Diagnosing imputation models by applying target analyses to posterior replicates of completed data. Stat Med 31(1):1–18

    Article  MathSciNet  Google Scholar 

  • Kennickell AB (1991) Imputation of the 1989 survey of consumer finances: stochastic relaxation and multiple imputation. In: JSM Proceedings, Survery Research Methods Section. Alexandria, VA: American Statistical Association: 1–10. http://www.asasrms.org/Proceedings/papers/1991_001.pdf. Zugegriffen am 15.09.2023

  • Little RJA (1988) Missing-data adjustments in large surveys. J Bus Econ Stat 6(3):287–296

    Google Scholar 

  • Little RJA, Rubin DB (2019) Statistical analysis with missing data, 3., rev. Aufl. Wiley Blackwell, Chichester/West Sussex

    MATH  Google Scholar 

  • Little RJ, Rubin DB (1987) Statistical Analysis with Missing Data. Wiley Series in Probability and Mathematical Statistics. Wiley, New York

    Google Scholar 

  • Meinfelder F (2014) Multiple imputation: An attempt to retell the evolutionary process. AStA Wirtschafts- und Sozialstatistisches Archiv 8(4):249–267

    Article  Google Scholar 

  • Meng X-L (1994) Multiple-imputation inferences with uncongenial sources of input (with discussion). Stat Sci 9(4):538–558

    Google Scholar 

  • Raghunathan TE, Grizzle JE (1995) A split questionnaire survey design. J Am Stat Assoc 90:54–63

    Article  MATH  Google Scholar 

  • Raghunathan TE, Solenberger P, Berglund P, van Hoewyk J (2016) Iveware. https://www.src.isr.umich.edu/software/. Zugegriffen am 15.09.2023

  • Rao JNK, Shao J (1992) Jackknife variance estimation with survey data under hot deck imputation. Biometrika 79(4):811

    Article  MathSciNet  MATH  Google Scholar 

  • Rässler S, Rubin D, Schenker N (2008) Incomplete data: Diagnosis, imputation, and estimation. In: Leeuw EDD, Hox JJ, Dillman DA (Hrsg) International handbook of survey methodology. EAM book series, Lawrence Erlbaum Associates, New York/London, S 370–386

    Google Scholar 

  • Reiter JP (2007) Small-sample degrees of freedom for multi-component significance tests with multiple imputation for missing data. Biometrika 94(2):502–508

    Article  MathSciNet  MATH  Google Scholar 

  • Rubin D (1974) Characterizing the estimation of parameters in incomplete-data problems. J Am Stat Assoc 69:467–474

    Article  MATH  Google Scholar 

  • Rubin DB (1978) A note on Bayesian, likelihood, and sampling distribution inferences. J Educ Stat 3(2):189–201

    Article  Google Scholar 

  • Rubin DB (1986) Statistical matching using file concatenation with adjusted weights and multiple imputations. J Bus Econ Stat 4(1):87–94

    MathSciNet  Google Scholar 

  • Rubin DB (1987) Multiple imputation for nonresponse in surveys. Wiley, New York

    Book  MATH  Google Scholar 

  • Schafer JL (1997) Analysis of incomplete multivariate data. Chapman and Hall, London

    Book  MATH  Google Scholar 

  • Schafer JL (1999) Norm – multiple imputation under a normal model, version 2.03

    Google Scholar 

  • Su Y-S, Gelman A, Hill J, Yajima M (2011) Multiple imputation with diagnostics (mi) in r: Opening windows into the black box. J Stat Softw 45(2):1–31

    Article  Google Scholar 

  • Templ M, Alfons A, Kowarik A, Prantner B (2016) Vim: Visualization and imputation of missing values. https://CRAN.R-project.org/package=VIM. Zugegriffen am 15.09.2023

  • White IR, Royston P (2009) Imputing missing covariate values for the Cox model. Stat Med 28(15):1982–1998

    Article  MathSciNet  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Florian Meinfelder .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2023 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature

About this entry

Check for updates. Verify currency and authenticity via CrossMark

Cite this entry

Meinfelder, F. (2023). Statistische Analyse unvollständiger Daten. In: Gertheiss, J., Schmid, M., Spindler, M. (eds) Moderne Verfahren der Angewandten Statistik. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-63496-7_24-1

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-63496-7_24-1

  • Published:

  • Publisher Name: Springer Spektrum, Berlin, Heidelberg

  • Print ISBN: 978-3-662-63496-7

  • Online ISBN: 978-3-662-63496-7

  • eBook Packages: Springer Referenz Naturwissenschaften

Publish with us

Policies and ethics