Zusammenfassung
Großzahliges, quantitativ auswertbares Datenmaterial stellt heute die Grundlage zahlreicher, wenn nicht gar der meisten Studien und Forschungsarbeiten in den Wirtschafts- und Sozialwissenschaften dar. Typisch in Bereichen wie beispielsweise der Organisations- und Marketingforschung oder der Volkswirtschaftslehre sind Umfragen, Panels oder Zeitreihen, die diese Grundlage bilden. Werden Daten nicht in einem kontrollierten oder experimentellen Umfeld gewonnen, geht mit der Datenerhebung regelmäßig das Problem fehlender Werte einher: Die Probanden antworten nicht auf alle gestellten Fragen, sodass Lücken in den für die Auswertung vorgesehenen Datenmatrizen verbleiben. Diese Lücken bergen die Gefahr, dass es bei der Analyse zu Verzerrungen und in der Konsequenz zu Fehlschlüssen und Fehlentscheidungen kommt. Die Standardverfahren der Statistiksoftware ignorieren dieses Problem und nehmen implizit an, der Anwender hätte eine vollständige Datentabelle geliefert. Fehlende Daten stellen damit eines der fundamentalen Probleme empirischer Arbeit dar und sind zudem ein Problem, das durch den Einsatz von Statistiksoftware allein nicht gelöst werden kann. Dennoch werden noch immer zahlreiche großzahlige empirische Studien veröffentlicht, ohne dass darin über das Ausmaß fehlender Werte und die Art und Weise, wie mit ihnen umgegangen wurde, berichtet wird. In der Folge verlieren diese Arbeiten an Überzeugungskraft. Der folgende Aufsatz will dazu beitragen, die Problematik fehlender Daten stärker in das Bewusstsein der Anwender zu rücken, und eröffnet — unter bewusstem Verzicht auf mathematische Ausführungen — einen schnellen Einstieg in die Thematik.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Literatur
Allison, P.D. (2002): Missing Data,Thousand Oaks et al.
Bankhofer, U. (1995): Unvollständige Daten und Distanzmatrizen in der Multivariaten Datenanalyse, Bergisch Gladbach, Köln.
Bernaards, C.A., M.M. Farmer, K. Qi, G.S. Dulai, P.A. Ganz und K.L. Kahn (2003): Comparison of Two Multiple Imputation Procedures in a Cancer Screening Survey, Journal of Data Science, 1, 293–312.
Christensen, B., M. Clement, S. Albers und S. Guldner (2004): Zur Relevanz der Kontrollgruppenauswahl in der empirischen Forschung, Arbeitspapier, Kiel.
Cohen, J. und P. Cohen (1985): Applied Multiple Regression and Correlation Analysis for the Behavioral Sciences, 2. Aufl., Hillsdale, NJ.
Dempster, A.P., N.M. Laird und D.B. Rubin (1977): Maximum Likelihood from Incomplete Data Via the EM Algorithm, Journal of the Royal Statistical Society, B, 39, 1–38.
Eberle, W. und H. Toutenburg (1999): Handling of Missing Values in Statistical Software Packages for Windows,SFB 386, Arbeitspapier 170, München.
Esser, H., H. Grohmann, W. Müller, K.-A. Schäffer (1989): Mikrozensus im Wandel,Stuttgart.
Gartner, H. (2000): Die Ersetzung fehlender Werte: Ein Test alternativer Methoden mit Makrodaten, SFB 386, Arbeitspapier 216, München.
Gartner, H. und S. Scheid (2003): Multiple Imputation von fehlenden Werten mit Daten über Unterernährung und Kindersterblichkeit, SFB 386, Arbeitspapier 322, München.
Haitovsky, Y. (1968): Missing Data in Regression Analysis, Journal of the Royal Statistical Society, B, 30, 67–82.
Heckman, J.J. (1976): The Common Structure of Statistical Models of Truncation, Sample Selection, and Limited Dependent Variables and a Simple Estimator for Such Models, Annals of Economic and Social Measurement, 5, 475–492.
Horton, N.J. und S.R. Lipsitz (2001): Multiple Imputation in Practice, The American Statistician, 55, 244–254.
Hübler, O. (1986): Zufällig und systematisch fehlende Werte in linearen Regressionsmodellen, Allgemeines Statistisches Archiv, 74, 138–157.
Jones, M.P. (1996): Indicator and Stratification Methods for Missing Explanatory Variables in Multiple Linear Regression, Journal of the American Statistical Association, 91, 222–230.
Kastner, C. (2001): Fehlende Werte bei korrelierten Beobachtungen, Frankfurt/M. et al.
Kastner, C. und A. Ziegler (1997): Cross-sectional Analysis of Longitudinal Data with Missing Values in the Dependent Variables, SFB 386, Arbeitspapier 64, München.
Kim, J.O. und J. Curry (1977): The Treatment of Missing Data in Multivariate Analysis, Sociological Methods and Research, 6, 215–239.
Klasen, S. (2000): Malnourished and Surviving in South Asia, Better Nourished and Dying Young in Africa, SFB 386, Arbeitspapier 214, München.
Kölling, A. und S. Rässler (2003): Die Einflüsse von Antwortverweigerung und mehrfacher Ergänzung fehlender Daten auf Produktivitätsschätzungen mit dem IAB-Betriebspanel, Jahrbücher für Nationalökonomie und Statistik, 223, 279–311.
Lemieux, J. und L. McAlister (2005): Handling Missing Values in Marketing Data: A Comparison of Techniques,MSI-Working Paper Series, 2, Report 05–107.
Little, R.J.A. (1988a): Missing Data Adjustments in Large Surveys, Journal of Business and Economic Statistics, 6, 287–310.
Little, R.J.A (1988b): A Test of Missing Completely at Random for Multivariate Data with Missing Values, Journal of the American Statistical Association, 83, 1198–1202.
Little, R.J.A. und D.B. Rubin (2002): Statistical Analysis With Missing Data, 2. Aufl., Thousand Oaks.
Nittner, T. (2002a): The Additive Model with Missing Values in the Independent Variable: Theory and Simulation, SFB 386, Arbeitspapier 272, München.
Nittner, T. (2002b): Missing at Random (MAR) in Nonparametric Regression: A Simulation Experiment, SFB 386, Arbeitspapier 284, München.
Noack, T. und R. Schlittgen (2000): Nonparametric Estimation of Missing Values in Time Series, Allgemeines Statistisches Archiv, 84, 23–32.
Park, T. und C.S. Davis (1993): A Test of the Missing Data Mechanism for Repeated Categorical Data, Biometrics, 49, 631–638.
Park, T. und S.-Y. Lee (1997): A Test of Missing Completely at Random for Longitudinal Data with Missing Observations, Statistics in Medicine, 16, 1859–1871.
Pindyck, R.S. und D.L. Rubinfeld (1986): Econometric Models and Economic Forecasts,2. Aufl., Auckland et al.
Rässler, S. (2000): Ergänzung fehlender Daten in Umfragen, Jahrbücher für Nationalökonomie und Statistik, 220, 64–94.
Raghunathan, T.E., J.P. Reiter und D.B. Rubin (2003): Multiple Imputation for Statistical Disclosure Limitation, Journal of Official Statistics, 19, 1–16.
Reiter, J.P. (2002): Satisfying Disclosure Restrictions With Synthetic Data Sets, Journal of Official Statistics, 18, 531–543.
Rubin, D.B. (1976): Inference and Missing Data, Biometrika, 63, 581–592.
Rubin, D.B. (1977): Formalizing Subjective Notion About the Effect of Nonrespondents in Sample Surveys, Journal of the American Statistical Association, 72, 538–543.
Rubin, D.B. (1987): Multiple Imputation for Nonresponse in Surveys, New York et al.
Rubin, D.B. (1993): Statistical Disclosure Limitation, Journal of Official Statistics, 9, 461–468.
Schafer, J.L. (1997): Analysis of Incomplete Multivariate Data, London et al.
Schafer, J.L. (1999): Multiple Imputation: a Primer, Statistical Methods in Medical Research, 8, 3–15.
Schnell, R. (1985): Zur Effizienz einiger Missing-Data-Techniken: Ergebnisse einer Computer-Simulation, ZUMA-Nachrichten, 17, November.
Schnell, R. (1986): Missing-data-Probleme in der empirischen Sozialforschung, Bochum. Schnell, R. ( 1997 ): Nonresponse in Bevölkerungsumfragen, Opladen.
Schnell, R., P.B. Hill und E. Esser (1999): Methoden der empirischen Sozialforschung,6. Aufl., München et al.
Toutenburg, H. und A. Fieger (2000): Using Diagnostic Measures to Detect Non-MCAR Processes in Linear Regression Models with Missing Covariates, SFB 386, Arbeitspapier 204, München.
Editor information
Rights and permissions
Copyright information
© 2009 Springer Fachmedien Wiesbaden
About this chapter
Cite this chapter
Göthlich, S.E. (2009). Zum Umgang mit fehlenden Daten in großzahligen empirischen Erhebungen. In: Albers, S., Klapper, D., Konradt, U., Walter, A., Wolf, J. (eds) Methodik der empirischen Forschung. Gabler Verlag, Wiesbaden. https://doi.org/10.1007/978-3-322-96406-9_9
Download citation
DOI: https://doi.org/10.1007/978-3-322-96406-9_9
Publisher Name: Gabler Verlag, Wiesbaden
Print ISBN: 978-3-8349-1703-4
Online ISBN: 978-3-322-96406-9
eBook Packages: Business and Economics (German Language)