Skip to main content

Multiple Regressionen mit unabhängigen Beobachtungen

  • Chapter
  • First Online:
Handbuch Methoden der Politikwissenschaft
  • 20k Accesses

Zusammenfassung

Die multiple Regression ist eines der am weitesten verbreiteten multivariaten Verfahren zur Analyse des Einflusses unabhängiger Variablen auf eine metrische abhängige Variable. Die unabhängigen Variablen dürfen hierbei jedes beliebige Skalenniveau besitzen. Dabei können Aussagen über die Stärke des Zusammenhangs zwischen einzelnen Variablen und die Anpassungsgüte des Modells insgesamt getroffen werden. Eine grundlegende Voraussetzung hierfür ist jedoch, dass die Annahmen des Modells halten, was empirisch überprüft werden muss. Die Regression ermöglicht zudem auch die Erstellung von Prognosen. In abgewandelter Form lässt sich die Methode auch auf diskrete abhängige Variablen oder komplexere Daten mit Messwiederholungen, hierarchischer Struktur oder räumlichen Abhängigkeiten anwenden.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 119.00
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Hardcover Book
USD 129.99
Price excludes VAT (USA)
  • Durable hardcover edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Der Autor dankt Sebastian Netscher und Achim Goerres für inhaltliche Hinweise sowie Erik Wenker für sprachliche Vorschläge.

  2. 2.

    Hierunter fallen dichotome Variablen (z. B. wählen gehen oder nicht), polytome Variablen (z. B. welcher Partei man nahesteht), ganzzahlige Variablen (z. B. die Anzahl parlamentarischer Anfragen) oder Dauern (z. B. die Tage einer Regierung im Amt).

  3. 3.

    Da die Summe der negativen und positiven Abweichungen vom Mittelwert 0 ergibt, werden die Differenzen quadriert, um unterschiedliche Schätzer miteinander vergleichen zu können. Würde man alternativ den Median von y als Schätzer verwenden, wäre die Summe der quadratischen Abweichungen mit 35,5 größer.

  4. 4.

    Der Wert lässt sich im bivariaten Modell alternativ auch über das Quadrieren von Pearsons r ermitteln, welches hier 0,86 beträgt.

  5. 5.

    Der Laufindex j beträgt hier 1 und wird benötigt, da im multivariaten Modell später weitere unabhängige Variablen hinzugefügt werden.

  6. 6.

    Durch die Schätzung der Konstante und jeder weiteren unabhängigen Variable geht jeweils ein Freiheitsgrad (eine sonst frei wählbare Beobachtung) verloren.

  7. 7.

    Gemäß des zentralen Grenzwertsatzes kann die t-Verteilung ab einer höheren Fallzahl auch mit der Standardnormalverteilung approximiert werden, etwa wenn n größer als 30 ist.

  8. 8.

    Der zweiseitige t-Test und das Konfidenzintervall verwenden dieselben Angaben und müssen daher zu einem übereinstimmenden Ergebnis führen.

  9. 9.

    Gleiches gilt für die Bestimmung der durchschnittlichen Differenz der Beliebtheit zwischen Politikerinnen mit geringer und mittlerer Erfahrung unter Nichtberücksichtigung der Politikerinnen mit hoher Erfahrung.

  10. 10.

    Bei Stichprobenfehlern kann die Standardisierung jedoch auch zu Verzerrungen der Regressionskoeffizienten führen.

  11. 11.

    Im bivariaten Regressionsmodell entspricht der F-Wert dem Quadrat des T-Werts des Regressionskoeffizienten der unabhängigen Variable.

  12. 12.

    Hierfür wird Democracy Cross-National Data, Norris (2015) verwendet.

  13. 13.

    Bei Absolutskalen kann ein Problem bestehen, wenn die Anteile der einzelnen Beobachtungen sich jeweils zu 1 aufaddieren müssen. In diesem Fall können alternativ sogenannte Fractional Response Modelle verwendet werden, die auf einer anderen Verteilungsannahme beruhen (siehe hierzu Papke und Wooldridge (1996)).

  14. 14.

    In diesem Fall lässt sich eine Variable als Linearkombination der anderen darstellen und die Matrix der unabhängigen Variablen hätte keinen vollen Rang.

  15. 15.

    Siehe hierzu auch die Kapitel von Berning und Mayer in diesem Sammelband.

  16. 16.

    Die Bezeichnung „Attenuation“ wurde erstmals von Spearman (1904) verwendet.

  17. 17.

    Systematische Messfehler führen hingegen allgemein zu verzerrten Schätzungen.

  18. 18.

    Teilweise werden die Koeffizienten auch als prozentuale Änderung interpretiert. Dies gilt aber nur näherungsweise bei geringen prozentualen Veränderungen.

  19. 19.

    Die Verteilungsannahme kann alternativ auch mit einem Quantil-Quantil-Plot überprüft werden.

  20. 20.

    Dabei werden Huber-White Standardfehler geschätzt.

  21. 21.

    Wird das Residuum einer Beobachtung unter Auslassung derselben bestimmt, um zu verhindern, dass die Beobachtung die Schätzung beeinflusst und so ihr absolutes Residuum sinkt, spricht man von extern studentisierten Residuen (David 1981).

  22. 22.

    Alternativ hierzu kann auch DFBETA berechnet werden, welches die Differenz zwischen dem Koeffizienten unter Verwendung aller Beobachtungen respektive unter Auslassung jeweils einer Beobachtung beinhaltet, skaliert durch den Standardfehler unter Auslassung der Beobachtung. DFBETA drückt somit den Einfluss einer Beobachtung auf den Regressionskoeffizienten aus. Als kritischer Wert wird hier \( 2/\sqrt{n} \) verwendet.

  23. 23.

    Es wurde bewusst eine vereinfachte Darstellung der kausalen Zusammenhänge gewählt, um an dieser Stelle nicht zusätzlich auf die Problematik möglicher Endogenität zwischen den Variablen eingehen zu müssen (inhaltlich siehe hierzu Cipriani 2015).

  24. 24.

    Hierbei wird die Nullhypothese getestet, dass die Differenz des R2 zwischen dem ursprünglichen Modell und dem, das den Interaktionseffekt zusätzlich beinhaltet, 0 ist.

  25. 25.

    Wird die OLS Regression auf diskrete Variablen mit wenigen Ausprägungen angewendet, treten in der Regel Verletzungen der Modellannahmen auf, die sich sowohl auf die Koeffizienten als auch die Standardfehler auswirken können.

  26. 26.

    Siehe hierzu Agresti (2013).

  27. 27.

    Für eine grundlegende Einführung in Maximum Likelihood Schätzer sowie die am häufigsten angewendeten Modelle für diskrete Variablen siehe Long (2008).

  28. 28.

    Siehe hierzu das Kapitel von Jäckle in diesem Sammelband.

  29. 29.

    Siehe hierzu das Kapitel von Ziller in diesem Sammelband.

  30. 30.

    Für eine grundlegende Einführung in räumliche Modelle siehe Haining (2003).

  31. 31.

    Siehe hierzu das Kapitel von Pötschke in diesem Sammelband.

  32. 32.

    Für eine kurze Einführung siehe Keele (2008).

  33. 33.

    Siehe hierzu das Kapitel von Gill und Traunmüller in diesem Sammelband.

  34. 34.

    Im ersten Schritt werden bei bestimmten nicht-exakten Matching Verfahren, wie dem weit verbreiteten Propensity Score Matching, auch logistische oder Probit Regressionen verwendet, um Balance zwischen den Beobachtungen herzustellen, die Schätzung des interessierenden Effekts im Anschluss basiert jedoch nicht auf Regressionen.

  35. 35.

    Siehe Morgan und Winship (2011) für eine Einführung in kontrafaktische Kausalität sowie das Grundprinzip von Matching Verfahren.

  36. 36.

    Für eine praktische Einführung siehe Imbens und Lemieux (2008).

  37. 37.

    Siehe hierzu das Kapitel von Wagemann und Siewert in diesem Sammelband.

  38. 38.

    Siehe Abadie et al. (2010) für eine Einführung und Anwendung von Synthetic Control Methods.

  39. 39.

    Für eine grundlegende Einführung in Machine Learning Verfahren siehe Hastie et al. (2008).

  40. 40.

    Siehe hierzu auch das Kapitel von König in diesem Sammelband.

Literatur

  • Abadie, Alberto, Alexis Diamond, und Jens Hainmueller. 2010. Synthetic Control Methods for Comparative Case Studies: Estimating the Effect of California’s Tobacco Control Program. Journal of the American Statistical Association 105(490): 493–505.

    Article  Google Scholar 

  • Agresti, Alan. 2013. Categorical data analysis. New York: Wiley.

    Google Scholar 

  • Allison, Paul D. 1999. Multiple regression: A primer. Thousand Oaks: Pine Forge Press.

    Google Scholar 

  • Anscombe, Francis J. 1973. Graphs in statistical analysis. American Statistician 27(1): 17–21.

    Google Scholar 

  • Cipriani, Giam P. 2015. Child labour, human capital and life expectancy. Economics Bulletin 35(2): 978–985.

    Google Scholar 

  • David, Herbert A. 1981. Order statistics. New York: Wiley.

    Google Scholar 

  • Fahrmeir, Ludwig, Thomas Kneib, und Stefan Lang. 2009. Regression. Modelle, methoden und anwendungen. Berlin: Springer.

    Google Scholar 

  • Field, Andy. 2018. Discovering statistics using IBM SPSS Statistics. Los Angeles: Sage.

    Google Scholar 

  • Haining, Robert. 2003. Spatial data analysis: Theory and practice. Cambridge: Cambridge University Press.

    Book  Google Scholar 

  • Hastie, Trevor, Robert Tibshirani, und Jerome Friedman. 2008. The elements of statistical learning. Data mining, inference, and prediction. New York: Springer.

    Google Scholar 

  • Hoerl, Arthur E. 1962. Application of ridge analysis to regression problems. Chemical Engineering Progress 58(3): 54–59.

    Google Scholar 

  • Imbens, Guido W., und Thomas Lemieux. 2008. Regression discontinuity designs: A guide to practice. Journal of Econometrics 142(2): 615–635.

    Article  Google Scholar 

  • Keele, Luke. 2008. Semiparametric regression for the social sciences. Chichester: Wiley.

    Google Scholar 

  • Long, J. Scott. 2008. Regression models for categorical and limited dependent variables. Thousand Oaks: Sage.

    Google Scholar 

  • Morgan, Stephen L., und Christopher Winship. 2011. Counterfactuals and causal inference: Methods and principles for social research. Cambridge: Cambridge University Press.

    Google Scholar 

  • Mitchell, Michael N. 2012. Interpreting and visualizing regression models using stata. College Station/Texas: Stata Press.

    Google Scholar 

  • Norris, Pippa. 2015. Democracy cross-national data. Release 4.0 Fall.

    Google Scholar 

  • Papke, Leslie E., und Jeffrey M. Wooldridge. 1996. Econometric methods for fractional response variables with an application to 401 (K) plan participation rates. Journal of Applied Econometrics 11(6): 619–632.

    Article  Google Scholar 

  • Schlittgen, Rainer. 2013. Regressionsanalysen mit R. Berlin/München: Oldenbourg Wissenschaftsverlag.

    Google Scholar 

  • Spearman, Charles. 1904. The proof and measurement of association between two things. American Journal of Psychology 15:72–101.

    Article  Google Scholar 

  • Tibshirani, Robert. 1996. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society 58(1): 267–288.

    Google Scholar 

  • Wooldridge, Jeffrey M. 2013. Introductory econometrics. A modern approach. Mason/Ohio: South-Western Cengage Learning.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Kilian Seng .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2020 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Seng, K. (2020). Multiple Regressionen mit unabhängigen Beobachtungen. In: Wagemann, C., Goerres, A., Siewert, M.B. (eds) Handbuch Methoden der Politikwissenschaft. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-16936-7_27

Download citation

  • DOI: https://doi.org/10.1007/978-3-658-16936-7_27

  • Published:

  • Publisher Name: Springer VS, Wiesbaden

  • Print ISBN: 978-3-658-16935-0

  • Online ISBN: 978-3-658-16936-7

  • eBook Packages: Social Science and Law (German Language)

Publish with us

Policies and ethics