Skip to main content

Lineare Regression

  • Chapter
  • First Online:
Grundlagen der Datenanalyse mit R

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 17k Accesses

Zusammenfassung

Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs. Auch die lineare Regression analysiert den linearen Zusammenhang von Variablen, um die Werte einer Zielvariable (Kriterium) durch die Werte anderer Variablen (Prädiktoren, Kovariaten, Kovariablen) vorherzusagen. Für die statistischen Grundlagen dieser Themen vgl. die darauf spezialisierte Literatur (Eid et al., 2015), die auch für eine vertiefte Behandlung von Regressionsanalysen in R verfügbar ist (Faraway, 2014; Fox & Weisberg, 2011).

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 44.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Für Tests auf Zusammenhang von ordinalen Variablen s. Abschn. 10.3.1

  2. 2.

    Für Fishers Z-Transformation vgl. FisherZ() , für die Rücktransformation FisherZInv() aus dem Paket DescTools.

  3. 3.

    Für Maximum-Likelihood-Schätzungen der Parameter vgl. die glm() Funktion, deren Anwendung Kap. 8 demonstriert. Eine formalere Behandlung des allgemeinen linearen Modells findet sich in Abschn. 12.9 Für Methoden zur Einschätzung des Vorhersagefehlers in externen Stichproben s. Kap. 13

  4. 4.

    In der Voreinstellung na.omit zum Ausschluss aller Fälle mit mindestens einem fehlenden Wert ist zu beachten, dass das Ergebnis entsprechend weniger vorhergesagte Werte und Residuen umfasst. Dies kann etwa dann relevant sein, wenn diese Werte mit den ursprünglichen Datenvektoren in einer Rechnung auftauchen und lässt sich vermeiden, indem das Argument auf na.exclude gesetzt wird.

  5. 5.

    Bei fehlenden Werten ist darauf zu achten, dass die z-Standardisierung bei beiden Variablen auf denselben Beobachtungsobjekten beruht. Gegebenenfalls sollten fehlende Werte der beteiligten Variablen aus dem Datensatz vorher manuell ausgeschlossen werden (Abschn. 2.11.6).

  6. 6.

    Für eine Mediationsanalyse mit dem Sobel-Test vgl. sobel() aus dem multilevel Paket (Bliese, 2016). Weitergehende Mediationsanalysen sind mit dem Paket mediation (Tingley, Yamamoto, Keele, & Imai, 2015) möglich.

  7. 7.

    Im folgenden wird dieser Teil der Ausgabe mit options(show.signif.stars=FALSE) unterdrückt.

  8. 8.

    AIC und BIC besitzen einen engen Bezug zu bestimmten Methoden der Kreuzvalidierung (Abschn. 13.1).

  9. 9.

    Zusätzlich zu β 0 und den β j ist auch die Fehlerstreuung σ zu schätzen.

  10. 10.

    Der korrigierte AICc Wert für kleine Stichproben ist mit aictab() aus dem Paket AICcmodavg (Mazerolle, 2016) berechenbar.

  11. 11.

    Für die multivariate multiple Regression mit mehreren Kriteriumsvariablen Y k s. Abschn. 12.5 Eine formalere Behandlung des allgemeinen linearen Modells findet sich in Abschn. 12.9

  12. 12.

    Es sei vorausgesetzt, dass \(\boldsymbol{X}\) vollen Spaltenrang hat, also keine linearen Abhängigkeiten zwischen den Prädiktoren vorliegen. Dann gilt \(\boldsymbol{X}^{+} = (\boldsymbol{X}^{\top }\boldsymbol{X})^{-1}\boldsymbol{X}^{\top }\). Der hier gewählte Rechenweg ist numerisch nicht stabil und weicht von in R-Funktionen implementierten Rechnungen ab (Bates, 2004).

  13. 13.

    Das Paket leaps (Lumley, 2009) ermöglicht die automatisierte Auswahl aller Teilmengen von Prädiktoren. Beide Verfahren sind mit vielen inhaltlichen Problemen verbunden, für eine Diskussion und verschiedene Strategien zur Auswahl von Prädiktoren vgl. Miller (2002). Für penalisierte Regressionsverfahren, die auch eine Auswahl von Prädiktoren vornehmen, s. Abschn. 6.6.1.

  14. 14.

    Für Hinweise zur Analyse komplexerer Kausalmodelle s. Abschn. 12.3, Fußnote 32.

  15. 15.

    Handelt es sich etwa im Rahmen einer Kovarianzanalyse (Abschn. 7.8) um einen kategorialen Prädiktor – ein Objekt der Klasse factor, so muss die zugehörige Variable in newdata dieselben Stufen in derselben Reihenfolge beinhalten wie die Variable des ursprünglichen Modells – selbst wenn nicht alle Faktorstufen tatsächlich als Ausprägung vorkommen.

  16. 16.

    Da Extremwerte die Lage und Streuung der Daten mit beeinflussen, sollten hierfür evtl. robuste Schätzer in Betracht gezogen werden (Rousseeuw & van Zomeren, 1990). Robuste Schätzungen für die Kovarianzmatrix können etwa an das Argument cov von mahalanobis() übergeben werden (Abschn. 2.7.9). Für fortgeschrittene Tests, ob Ausreißer in multivariaten Daten vorliegen, vgl. aq.plot() und pcout() aus dem Paket mvoutlier (Filzmoser & Gschwandtner, 2015).

  17. 17.

    Zudem ist h i gleich dem i-ten Eintrag \(\boldsymbol{H}_{ii}\) in der Diagonale der Hat-Matrix \(\boldsymbol{H}\) (Abschn. 6.3.1).

  18. 18.

    Mitunter werden hierfür auch die Beträge der Residuen bzw. deren Wurzel gewählt (scale-location plot). Vergleiche weiterhin residualPlots() aus dem Paket car. Der Breusch-Pagan-Test auf Heteroskedastizität kann mit bptest() aus dem Paket lmtest (Zeileis & Hothorn, 2002) durchgeführt werden.

  19. 19.

    Für den Durbin-Watson-Test auf Autokorrelation der Messfehler vgl. durbinWatsonTest() aus dem Paket car.

  20. 20.

    Auf numerischer Seite bringt starke Multikollinearität das Problem mit sich, dass die interne Berechnung der Parameterschätzungen anfälliger für Fehler werden kann, die aus der notwendigen Ungenauigkeit der Repräsentation von Gleitkommazahlen in Computern herrühren (Abschn. 1.4.6).

  21. 21.

    Fortgeschrittene Methoden zur Diagnostik von Multikollinearität enthält das Paket perturb (Hendrickx, 2012).

  22. 22.

    Ursache dafür ist die Änderung der Eigenwerte bei Datentransformationen: Ist \(\boldsymbol{X}\) die Designmatrix des ursprünglichen Modells und \(\boldsymbol{X}^{{\prime}}\) die Designmatrix des Modells der transformierten Daten, so gehen die Eigenwerte von \(\boldsymbol{X}^{{\prime}\top }\boldsymbol{X}^{{\prime}}\) nicht auf einfache Weise aus denen von \(\boldsymbol{X}^{\top }\boldsymbol{X}\) hervor. Insbesondere verändern sich der größte und kleinste Eigenwert jeweils unterschiedlich, so dass deren Quotient nicht konstant ist.

Literatur

Download references

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 2017 Springer-Verlag GmbH Deutschland

About this chapter

Cite this chapter

Wollschläger, D. (2017). Lineare Regression. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53670-4_6

Download citation

Publish with us

Policies and ethics