Skip to main content

Regressionsanalyse

  • Chapter
  • First Online:
Multivariate Analysemethoden

Zusammenfassung

Die Regressionsanalyse bildet eines der flexibelsten und am häufigsten eingesetzten statistischen Analyseverfahren. Sie dient der Analyse von Beziehungen zwischen einer metrisch skalierten abhängigen Variablen und einer oder mehreren metrisch skalierten unabhängigen Variablen. Insbesondere wird sie eingesetzt, um Zusammenhänge quantitativ zu beschreiben und sie zu erklären, Werte der abhängigen Variablen zu schätzen bzw. zu prognostizieren. Die Regressionsanalyse ist von eminenter Wichtigkeit für Wissenschaft und Praxis.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 34.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Galton (1886) untersuchte die Beziehung zwischen der Körpergröße von Eltern und ihren erwachsenen Kindern. Er regressierte die Körpergröße der Kinder auf die Körpergröße der Eltern.

  2. 2.

    Der Absatz kann auch von Umweltfaktoren wie Wettbewerb, sozio-ökonomischen Einflüssen oder dem Wetter abhängen. Eine weitere Schwierigkeit besteht darin, dass die Werbung selbst ein komplexes Bündel von Faktoren ist, das sich nicht einfach auf Ausgaben reduzieren lässt. Die Wirkung der Werbung hängt auch von ihrer Qualität ab, die schwer zu messen ist, und sie hängt von den eingesetzten Medien ab (z. B. Print, Radio, Fernsehen, Internet). Diese und andere Gründe machen es so schwierig, die Wirkung von Werbung zu messen.

  3. 3.

    Auf der zu diesem Buch gehörigen Internetseite www.multivariate.de stellen wir ergänzendes Material zur Verfügung, um das Verstehen der Methode zu erleichtern und zu vertiefen.

  4. 4.

    Vgl. Abschn. 2.2.3.3 und 2.2.5.

  5. 5.

    Bei der Regressionsanalyse kommt es zu dem Problem der Multikollinearität, welches in Abschn. 2.2.5.7 behandelt wird.

  6. 6.

    In der Statistik spricht man von Assoziation oder Korrelation. Die Begriffe werden oft austauschbar verwendet. Aber es gibt Unterschiede. Assoziation von Variablen bezieht sich auf jede Art von Beziehung zwischen Variablen. Man spricht von einer Assoziation zweier Variablen, wenn die Werte der einen Variablen dazu neigen, auf irgendeine systematische Weise mit den Werten der anderen Variablen aufzutreten. Ein Streudiagramm der Variablen zeigt ein systematisches Muster. Korrelation ist ein spezifischerer Begriff. Er bezieht sich auf Assoziationen in Form eines linearen Trends. Und er ist ein Maß für die Stärke dieser Assoziation. Der Korrelationskoeffizient nach Pearson misst die Stärke eines linearen Trends, d. h. wie nahe die Punkte auf einer geraden Linie liegen. Die Rangkorrelation von Spearman kann auch für nichtlineare Trends verwendet werden.

  7. 7.

    Diese elementaren Statistiken können leicht mit den Excel-Funktionen MITTELWERT(Matrix) für den Mittelwert, STABW.S(Matrix) für die Standardabweichung in der Stichprobe bzw. STABW.P(Matrix) für die Standardabweichung in der Grundgesamtheit und KORREL(Matrix1; Matrix2) für die Korrelation berechnet werden.

  8. 8.

    Blalock (1964, S. 51), schreibt: „A large correlation merely means a low degree of scatter … It is the regression coefficients which give us the laws of science.“

  9. 9.

    Mit dem Optimierungswerkzeug Solver von MS Excel ist es einfach, diese Lösung zu finden, ohne Differentialrechnung oder Kenntnis irgendwelcher Formeln. Man wählt die Zelle, die den Wert von SSR (die Summe unten rechts in Tab. 2.5) enthält, als Zielzelle (Ziel) aus. Die Zellen, die die Parameter a und b enthalten, werden als die veränderbaren Zellen gewählt. Wenn man dann das Ziel minimiert, erhält man die Kleinste-Quadrate-Schätzungen der Parameter innerhalb der veränderbaren Zellen.

  10. 10.

    Carl Friedrich Gauß (1777–1855) verwendete die Methode 1795 im Alter von nur 18 Jahren zur Berechnung der Umlaufbahnen von Himmelskörpern. Unabhängig davon wurde diese Methode auch von dem französischen Mathematiker Adrien-Marie Legendre (1752–1833) gefunden. G. Udny Yule (1871–1951) wandte sie zuerst auf die Regressionsanalyse an.

  11. 11.

    Bei der Verwendung von Matrixalgebra zur Berechnung wird der konstante Term als Koeffizient einer fiktiven Variablen behandelt, deren Werte alle gleich 1 sind. Dadurch kann er auf die gleiche Weise wie die anderen Koeffizienten berechnet werden, und die Berechnung wird einfacher.

  12. 12.

    Dies gilt nur für lineare Modelle und KQ-Schätzung. Das Prinzip der Streuungszerlegung ist auch von zentraler Bedeutung für die Varianzanalyse bzw. ANOVA (vgl. Kap. 3) und für die Diskriminanzanalyse (vgl. Kap. 4).

  13. 13.

    Dies wird Inferenzstatistik genannt und muss von der deskriptiven Statistik unterschieden werden. Die Inferenzstatistik macht Rückschlüsse und Vorhersagen über eine Population auf der Grundlage einer aus der untersuchten Population gezogenen Stichprobe.

  14. 14.

    In Abschn. 1.3 wird kurz auf Grundlagen des statistischen Testens eingegangen.

  15. 15.

    Für einen einfachen Korrelationskoeffizienten r erhalten wir: \(F_{emp} = \frac{{r^{2} }}{{(1 - r^{2} )/(N - 2)}}\), da J = 1.

  16. 16.

    Mit Excel können wir den p-Wert berechnen mit der Funktion F.VERT.RE(\(F_{emp}\);df1;df2). Wir erhalten: F.VERT.RE(31,50;3; 8) = 0,00009 oder 0,009 %.

  17. 17.

    Der Leser sollte sich bewusst sein, dass auch andere Werte für α möglich sind. α = 5 % ist eine Art „Gold“-Standard in der Statistik, der auf Sir R. A. Fisher (1890 – 1962) zurückgeht, welcher auch die F-Verteilung geschaffen hat. Der Anwender muss aber auch die Folgen (Kosten) einer Fehlentscheidung bedenken.

  18. 18.

    Weitere Kriterien, die zur Modellbewertung und -auswahl entwickelt wurden, sind das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (BIC). Siehe z. B. Agresti (2013, S. 212); Greene (2012, S. 212); Hastie et al. (2011, S. 219–257).

  19. 19.

    In Abschn. 1.3 wird auf die Grundlagen des statistischen Testens eingegangen.

  20. 20.

    Mit Excel können wir den kritischen Wert \(t_{\alpha /2}\) für einen zweiseitigen t-Test berechnen, indem wir die Funktion T.INV.2S(α;df) verwenden. Wir erhalten: T.INV.2S(0,05;8) = 2,306.

  21. 21.

    Die p-Werte können wir mit Excel berechnen, indem wir die Funktion T.VERT.2S(ABS(temp); df) verwenden. Z. B. für die Variable Preis erhalten wir: T.VERT.2S(3,20;8) = 0,0126 oder 1,3 %.

  22. 22.

    Mit Excel können wir den kritischen Wert \(t_{\alpha }\) für einen einseitigen t-Test mit der Funktion T.INV(1 – α;df) berechnen. Wir erhalten: T.INV(0,95;8) = 1,860.

  23. 23.

    Mit Excel können wir den p-Wert für den rechtsseitigen Test durch die Funktion T.VERT.RE(temp;df) berechnen. Für die Variable Werbung erhalten wir: T.VERT.RE(5,89;8) = 0,00018 oder 0,018 %.

  24. 24.

    Mit Excel können wir den kritischen Wert für einen linksseitigen t-Test mit T.INV(α;df) berechnen. Wir erhalten: T.INV(0,05;8) = −1,860.

  25. 25.

    Vgl. z. B. Kmenta (1997, S. 392); Fox (2008, S. 105); Greene (2012, S. 92); Wooldridge (2016, S. 79 ff.); Gelman und Hill (2018, S. 45). Zwischen den Formulierungen der verschiedenen Autoren finden sich leichte Unterschiede.

  26. 26.

    Dies ergibt sich aus dem Gauß-Markov-Theorem. Siehe z. B. Fox (2008, S. 103); Kmenta (1997, S. 216).

  27. 27.

    Der zentrale Grenzwertsatz spielt in der statistischen Theorie eine wichtige Rolle. Es besagt, dass die Summe oder der Mittelwert von n unabhängigen Zufallsvariablen zu einer Normalverteilung tendiert, wenn n ausreichend groß ist, auch wenn die ursprünglichen Variablen selbst nicht normalverteilt sind. Dies ist der Grund dafür, dass die Normalverteilung für viele Phänomene angenommen werden kann.

  28. 28.

    Anscombe und Tukey (1963) demonstrierten die Leistungsfähigkeit grafischer Techniken zur Datenanalyse.

  29. 29.

    In einem Experiment verändert der Anwender aktiv die unabhängige Variable X und beobachtet Veränderungen der abhängigen Variable Y. Und er versucht, andere Einflüsse auf Y so weit wie möglich fernzuhalten. Für die Gestaltung von Experimenten siehe z. B. Campbell und Stanley (1966); Green et al. (1988).

  30. 30.

    Die Schweiz war der Spitzenreiter beim Schokoladenkonsum und bei der Anzahl der Nobelpreisträger. Siehe Messerli (2012).

  31. 31.

    Zur kausalen Inferenz in der Regression siehe Freedman (2012); Pearl und Mackenzie (2018, S. 72). Probleme wie diese sind Themen der Pfadanalyse, die ursprünglich von Sewall Wright (1889–1988) entwickelt wurde, und der Strukturgleichungsmodellierung (Structural Equation Modeling, SEM), vgl. z. B. Kline (2016); Hair et al. (2014); Weiber und Sarstedt (2021).

  32. 32.

    Einen Mediator mit einem Confounder zu verwechseln, ist eine der tödlichsten Sünden bei der kausalen Schlussfolgerung (Pearl und Mackenzie 2018, S. 276).

  33. 33.

    Der Ausdruck geht auf Francis Galton (1886) zurück, der den Effekt „regression towards mediocrity“ nannte. Galton interpretierte ihn fälschlicherweise als kausalen Effekt bei der menschlichen Vererbung. Es ist eine Ironie des Schicksals, dass die erste und wichtigste Methode der multivariaten Datenanalyse ihren Namen von etwas erhielt, das das Gegenteil dessen bedeutet, was die Regressionsanalyse bewirken soll. Vgl. Kahneman (2011, S. 175 ff.); Pearl und Mackenzie (2018, S. 53 ff.).

  34. 34.

    Vgl. Freedman et al. (2007, S. 169). In der ökonometrischen Analyse wird dieser Effekt als Kleinste-Quadrate-Abschwächung (attenuation bias) bezeichnet. Vgl. z. B. Kmenta (1997, S. 346); Greene (2012, S. 280); Wooldridge (2016, S. 306).

  35. 35.

    In der Psychologie wurden, beginnend mit Charles Spearman (1904), große Anstrengungen unternommen, um die Zuverlässigkeit von Messmethoden empirisch zu messen und daraus Korrekturen für den Regressionseffekt (attenuation bias) abzuleiten. Vgl. z. B. Hair et al. (2014, S. 96); Charles (2005).

  36. 36.

    Einen Überblick über diese und andere Tests gibt Kmenta (1997, S. 292); Maddala und Lahiri (2009, S. 214).

  37. 37.

    Aus einer Durbin-Watson-Tabelle würden wir die Werte dL = 0,97 und dU = 1,33 und damit 1,33 < DW < 2,67 erhalten (keine Autokorrelation).

  38. 38.

    Wenn die Fehler normalverteilt sind, dann sind auch die y-Werte, die die Fehler als additive Elemente enthalten, normalverteilt. Und da die Kleinste-Quadrate-Schätzer Linearkombinationen der y-Werte bilden, sind auch die Parameterschätzungen normalverteilt.

  39. 39.

    Numerische Signifikanztests der Normalität sind der Kolmogorov-Smirnov-Test und der Shapiro-Wilk-Test.

  40. 40.

    Die Matrix X’X wird singulär und kann nicht mehr invertiert werden.

  41. 41.

    Numerisch lassen sich diese Flächen durch die Summe ihrer Quadrate ausdrücken: \(SS_{Y} = \sum {\left( {y_{k} - \overline{y}} \right)}^{2}\) und \(SS_{{X_{j} }} = \sum {\left( {x_{jk} - \overline{x}_{j} } \right)}^{2}\).

  42. 42.

    Siehe Belsley et al. (1980, S. 93).

  43. 43.

    Sehr kleine Toleranzwerte können zu Berechnungsproblemen führen. Daher lässt SPSS standardmäßig keine Variablen mit Tj < 0,0001 in das Modell einfließen.

  44. 44.

    Eine weitere Methode, der Multikollinearität zu begegnen, die allerdings den Rahmen dieses Textes sprengt, ist die Ridge-Regression. Mit dieser Methode nimmt man eine kleine Erhöhung der Verzerrung der Schätzer gegen eine große Reduzierung der Varianz in Kauf. Siehe Fox (2008, S. 325); Kmenta (1997, S. 440); Belsley et al. (1980, S. 219).

  45. 45.

    Ausgezeichnete Behandlungen dieses Themas finden sich in Belsley et al. (1980); Fox (2008, S. 246). SPSS liefert zahlreiche Statistiken.

  46. 46.

    Bevor man eine Regressionsanalyse durchführt, kann man explorative Techniken der Datenanalyse, wie z. B. Box-Plots (Box-und-Whisker-Plots), zur Überprüfung der Daten und zur Erkennung möglicher Ausreißer verwenden. Sie zeigen jedoch nicht die Auswirkungen auf die Regression.

  47. 47.

    Dies kann anders sein, wenn die Anzahl der Variablen groß ist. In diesem Fall kann die Erkennung von multivariaten Ausreißern durch Scatterplots schwierig sein. Siehe dazu Belsley et al. (1980, S. 17).

  48. 48.

    Mit Excel können wir berechnen: p(abs(z) ≥ 1,59) = 2*(1-NORM.S.VERT(1,59;1)) = 0,112.

  49. 49.

    Hut-Werte sind die Diagonalelemente der sog. „Hut-Matrix“ (hat matrix) H, die bei der rechnerischen Durchführung der multiplen Regressionsanalyse mittels Matrix-Algebra verwendet wird.

  50. 50.

    Ein modifiziertes Maß für diesen Abstand ist die zentrierte Hebelwirkung \(h^{\prime}_{i} = h_{i} - \frac{J + 1}{N}\) mit \(0 \le h^{\prime}_{i} \le 1\).

  51. 51.

    Durch die Verwendung von s(−i) anstelle des Standardfehlers s werden der Zähler und der Nenner in der Formel für die studentisierten gelöschten Residuen stochastisch unabhängig. Siehe Belsley et al. 1980, S. 14.

  52. 52.

    Siehe Fox 2008, S. 246; Belsley et al. 1980, S. 20.

  53. 53.

    Mit Excel können wir berechnen: p(abs(t) ≥ 2.46) = T.VERT.2S(2,46;9) = 0,036.

  54. 54.

    Fehlende Werte sind ein häufiges und leider unvermeidbares Problem bei der Durchführung von Umfragen (z. B. weil Personen die Frage nicht beantworten können oder wollen, oder aufgrund von Fehlern des Interviewers). Der Umgang mit fehlenden Werten in empirischen Studien wird in Abschn. 1.5.2 behandelt.

  55. 55.

    Zur Auffrischung der Grundlagen zum statistischen Testen, bietet Abschn. 1.3 eine Zusammenfassung der grundlegenden Aspekte.

  56. 56.

    Seit Albert Einstein (1879–1955) wissen wir zwar, dass dies nicht ganz stimmt. Die Relativitätstheorie sagt uns, dass sich die Zeit mit zunehmender Geschwindigkeit verlangsamt und bei Lichtgeschwindigkeit sogar zum Stillstand kommt. Aber für unsere Probleme können wir dies vernachlässigen.

Literatur

Zitierte Literatur

  • Agresti, A. (2013). Categorical data analysis. New Jersey: Wiley.

    Google Scholar 

  • Anscombe, F. J., & Tukey, J. W. (1963). The Examination and Analysis of Residuals. Technometrics, 5(2), 141–160.

    Google Scholar 

  • Belsley, D., Kuh, E., & Welsch, R. (1980). Regression diagnostics. New York: John Wiley & Sons.

    Book  Google Scholar 

  • Blalock, H. M. (1964). Causal inferences in nonexperimental research. New York: The Norton Library.

    Google Scholar 

  • Campbell, D. T., & Stanley, J. C. (1966). Experimental and quasi-experimental designs for research. Chicago: Rand McNelly.

    Google Scholar 

  • Charles, E. P. (2005). The correction for attenuation due to measurement error: Clarifying concepts and creating confidence sets. American Psychological Association, 10(2), 206–226.

    Google Scholar 

  • Cook, R. D. (1977). Detection of influential observations in linear regression. Technometrics, 19, 15–18.

    Google Scholar 

  • Fox, J. (2008). Applied regression analysis and generalized linear models. Los Angeles: Sage Publications.

    Google Scholar 

  • Freedman, D. (2002). From Association to causation: Some remarks on the history of statistics. University of California, Berkeley, Technical Report No. 521.

    Google Scholar 

  • Freedman, D. (2012). Statistical models: Theory and practice. Cambridge: Cambridge University Press.

    Google Scholar 

  • Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4. Aufl.). New York: Norton & Company.

    Google Scholar 

  • Galton, F. (1886). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246–263.

    Article  Google Scholar 

  • Gelman, A., & Hill, J. (2018). Data analysis using regression and multilevel/hierarchical models. Cambridge: Cambridge University Press.

    Google Scholar 

  • Green, P. E., Tull, D. S., & Albaum, G. (1988). Research for marketing decisions (5. Aufl.). Prentice Hall, Englewood Cliffs (NJ).

    Google Scholar 

  • Greene, W. H. (2012). Econometric analysis (7. Aufl.). Essex: Pearson.

    Google Scholar 

  • Greene, W. H. (2020). Econometric analysis (8. Aufl.). Essex: Pearson.

    Google Scholar 

  • Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7. Aufl.). Englewood Cliffs: Pearson.

    Google Scholar 

  • Hair, J. F., Hult, G.T., Ringle, C. M., & Sarstedt, M. (2014). A primer on partial least squares structural equation modelling (PLS-SEM). Los Angeles: Sage.

    Google Scholar 

  • Hastie, T., Tibshirani, R., & Friedman, J. (2011). The elements of statistical learning. New York: Springer.

    Google Scholar 

  • Izenman, A. L. (2013). Modern multivariate statistical techniques. New York: Springer Texts in Statistics.

    Google Scholar 

  • Kahneman, D. (2011). Thinking, fast and slow. London: Penguin Books.

    Google Scholar 

  • Kline, R. B. (2016). Principles and practice of structural equation modeling. New York: Guilford Press.

    Google Scholar 

  • Kmenta, J. (1997). Elements of econometrics (2. Aufl.). New York: Macmillan.

    Book  Google Scholar 

  • Leeflang, P., Witting, D., Wedel, M., & Naert, P. (2000). Building models for marketing decisions. Boston: Kluwer Academic Publishers.

    Book  Google Scholar 

  • Little, J. D. C. (1970). Models and managers: The concept of a decision calculus. Management Science, 16(8), 466–485.

    Article  Google Scholar 

  • Maddala, G., & Lahiri, K. (2009). Introduction to econometrics (4. Aufl.). New York: Wiley.

    Google Scholar 

  • Messerli, F. H. (2012). Chocolate consumption, cognitive function, and Nobel laureates. New England Journal of Medicine, 367(16), 1562–1564.

    Article  Google Scholar 

  • Pearl, J., & Mackenzie, D. (2018). The book of why – The new science of cause and effect. New York: Basic Books.

    Google Scholar 

  • Spearman, C. (1904). The proof and measurement of association between two things. The American Journal of Psychology, 15(1), 72–101.

    Article  Google Scholar 

  • Stigler, S. M. (1997). Regression towards the mean, historically considered. Statistical Methods in Medical Research, 6, 103–114.

    Article  Google Scholar 

  • Weiber, R., & Sarstedt, M. (2021). Strukturgleichungsmodellierung (3. Aufl.). Berlin: Springer.

    Google Scholar 

  • Wooldridge, J. (2016). Introductory econometrics: A modern approach (6. Aufl.). Cincinnati (OH): Thomson.

    Google Scholar 

Weiterführende Literatur

  • Fahrmeir, L., Kneib, T., Lang, S., & Marx, B. (2009). Regression – Models, methods and aplications. Heidelberg: Springer.

    Google Scholar 

  • Hanke, J. E., & Wichern, D. (2013). Business forecasting (9. Aufl.). Upper Saddle River: Prentice-Hall.

    Google Scholar 

  • Härdle, W., & Simar, L. (2012). Applied multivariate analysis. Heidelberg: Springer.

    Book  Google Scholar 

  • Stigler, S. M. (1986). The history of statistics. Cambridge: Harvard University Press.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Klaus Backhaus .

Rights and permissions

Reprints and permissions

Copyright information

© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Backhaus, K., Erichson, B., Gensler, S., Weiber, R., Weiber, T. (2021). Regressionsanalyse. In: Multivariate Analysemethoden. Springer Gabler, Wiesbaden. https://doi.org/10.1007/978-3-658-32425-4_2

Download citation

  • DOI: https://doi.org/10.1007/978-3-658-32425-4_2

  • Published:

  • Publisher Name: Springer Gabler, Wiesbaden

  • Print ISBN: 978-3-658-32424-7

  • Online ISBN: 978-3-658-32425-4

  • eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics