Zusammenfassung
Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Für Tests auf Zusammenhang von ordinalen Variablen s. Abschn. 10.3.1.
- 2.
Für Fishers Z-Transformation vgl. FisherZ(), für die Rücktransformation FisherZInv() aus dem PaketDescTools.
- 3.
- 4.
In der Voreinstellung na.omit zum Ausschluss aller Fälle mit mindestens einem fehlenden Wert ist zu beachten, dass das Ergebnis entsprechend weniger vorhergesagte Werte und Residuen umfasst. Dies kann etwa dann relevant sein, wenn diese Werte mit den ursprünglichen Datenvektoren in einer Rechnung auftauchen und lässt sich vermeiden, indem das Argument aufna.exclude gesetzt wird.
- 5.
Bei fehlenden Werten ist darauf zu achten, dass die z-Standardisierung bei beiden Variablen auf denselben Beobachtungsobjekten beruht. Gegebenenfalls sollten fehlende Werte der beteiligten Variablen aus dem Datensatz vorher manuell ausgeschlossen werden (Abschn. 2.13.6).
- 6.
Für eine Mediationsanalyse mit dem Sobel-Test vgl. sobel() aus dem multilevel Paket (Bliese 2016). Weitergehende Mediationsanalysen sind mit dem Paket mediation (Tingley et al. 2019) möglich.
- 7.
Im Folgenden wird dieser Teil der Ausgabe mit options(show.signif.stars=FALSE) unterdrückt.
- 8.
AIC und BIC besitzen einen engen Bezug zu bestimmten Methoden der Kreuzvalidierung (Abschn. 13.1).
- 9.
Zusätzlich zu \(\beta _{0}\) und den \(\beta _{j}\) ist auch die Fehlerstreuung \(\sigma \) zu schätzen.
- 10.
Der korrigierte AICc Wert für kleine Stichproben ist mit aictab() aus dem Paket AICcmodavg (Mazerolle 2019) berechenbar.
- 11.
- 12.
Es sei vorausgesetzt, dass \(\textit{\textbf{X}}\) vollen Spaltenrang hat, also keine linearen Abhängigkeiten zwischen den Prädiktoren vorliegen. Dann gilt \(\textit{\textbf{X}}^{+} = (\textit{\textbf{X}}^{\top } \textit{\textbf{X}})^{-1} \textit{\textbf{X}}^{\top }\). Der hier gewählte Rechenweg ist numerisch nicht stabil und weicht von in R-Funktionen implementierten Rechnungen ab (Bates 2004).
- 13.
Das Paket leaps (Lumley 2020) ermöglicht die automatisierte Auswahl aller Teilmengen von Prädiktoren. Beide Verfahren sind mit vielen inhaltlichen Problemen verbunden, für eine Diskussion und verschiedene Strategien zur Auswahl von Prädiktoren vgl. Miller (2002). Für penalisierte Regressionsverfahren, die auch eine Auswahl von Prädiktoren vornehmen, s. Abschn. 6.6.1.
- 14.
Für Hinweise zur Analyse komplexerer Kausalmodelle s. Abschn. 12.3, Fußnote 31.
- 15.
In Kovarianzanalysen (Abschn. 7.8) kann modx auch ein Faktor sein.
- 16.
Handelt es sich etwa im Rahmen einer Kovarianzanalyse (Abschn. 7.8) um einen kategorialen Prädiktor – ein Objekt der Klasse factor, so muss die zugehörige Variable in newdata dieselben Stufen in derselben Reihenfolge beinhalten wie die Variable des ursprünglichen Modells – selbst wenn nicht alle Faktorstufen tatsächlich als Ausprägung vorkommen.
- 17.
Da Extremwerte die Lage und Streuung der Daten mit beeinflussen, sollten hierfür evtl. robuste Schätzer in Betracht gezogen werden (Abschn. 2.7.9). Robuste Schätzungen für die Kovarianzmatrix können etwa an das Argument cov von mahalanobis() übergeben werden. Für fortgeschrittene Tests, ob Ausreißer in multivariaten Daten vorliegen, vgl. aq.plot() und pcout() aus dem Paket mvoutlier (Filzmoser und Gschwandtner 2018).
- 18.
Zudem ist \(h_{i}\) gleich dem i-ten Eintrag \(\textit{\textbf{H}}_{ii}\) in der Diagonale der Hat-Matrix \(\textit{\textbf{H}}\) (Abschn. 6.3.1).
- 19.
Mitunter werden hierfür auch die Beträge der Residuen bzw. deren Wurzel gewählt (scale-location plot). Der Breusch-Pagan-Test auf Heteroskedastizität kann mit bptest() aus dem Paket lmtest (Zeileis und Hothorn 2002) durchgeführt werden.
- 20.
Für den Durbin-Watson-Test auf Autokorrelation der Residuen vgl. durbinWatsonTest() aus dem Paketcar. Das Autokorrelations-Diagramm der Residuen erzeugt .
- 21.
Auf numerischer Seite bringt starke Multikollinearität das Problem mit sich, dass die interne Berechnung der Parameterschätzungen anfälliger für Fehler werden kann, die aus der notwendigen Ungenauigkeit der Repräsentation von Gleitkommazahlen in Computern herrühren (Abschn. 1.4.6).
- 22.
Fortgeschrittene Methoden zur Diagnostik von Multikollinearität enthält das Paket perturb (Hendrickx 2019).
- 23.
Ursache dafür ist die Änderung der Eigenwerte bei Datentransformationen: Ist \(\textit{\textbf{X}}\) die Designmatrix des ursprünglichen Modells und \(\textit{\textbf{X}}'\) die Designmatrix des Modells der transformierten Daten, so gehen die Eigenwerte von \((\textit{\textbf{X}}')^{\top } \textit{\textbf{X}}'\) nicht auf einfache Weise aus denen von \(\textit{\textbf{X}}^{\top } \textit{\textbf{X}}\) hervor. Insbesondere verändern sich der größte und kleinste Eigenwert jeweils unterschiedlich, so dass deren Quotient nicht konstant ist.
- 24.
Das Paket glmnetUtils (Ooi 2020) bietet aber eine entsprechende Erweiterung an.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2020 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature
About this chapter
Cite this chapter
Wollschläger, D. (2020). Lineare Regression. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-61736-6_6
Download citation
DOI: https://doi.org/10.1007/978-3-662-61736-6_6
Published:
Publisher Name: Springer Spektrum, Berlin, Heidelberg
Print ISBN: 978-3-662-61735-9
Online ISBN: 978-3-662-61736-6
eBook Packages: Life Science and Basic Disciplines (German Language)