Lineare Regression

Wollschläger, Daniel

doi:10.1007/978-3-662-61736-6_6

Daniel Wollschläger⁴

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

7560 Accesses

Zusammenfassung

Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 44.99; Price excludes VAT (USA)

Softcover Book: USD 59.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Für Tests auf Zusammenhang von ordinalen Variablen s. Abschn. 10.3.1.
2.
Für Fishers Z-Transformation vgl. FisherZ(), für die Rücktransformation FisherZInv() aus dem PaketDescTools.
3.
Für Maximum-Likelihood-Schätzungen der Parameter vgl. die glm() Funktion, deren Anwendung Kap. 8 demonstriert. Eine formalere Behandlung des allgemeinen linearen Modells findet sich in Abschn. 12.9. Für Methoden zur Einschätzung des Vorhersagefehlers in externen Stichproben s. Kap. 13.
4.
In der Voreinstellung na.omit zum Ausschluss aller Fälle mit mindestens einem fehlenden Wert ist zu beachten, dass das Ergebnis entsprechend weniger vorhergesagte Werte und Residuen umfasst. Dies kann etwa dann relevant sein, wenn diese Werte mit den ursprünglichen Datenvektoren in einer Rechnung auftauchen und lässt sich vermeiden, indem das Argument aufna.exclude gesetzt wird.
5.
Bei fehlenden Werten ist darauf zu achten, dass die z-Standardisierung bei beiden Variablen auf denselben Beobachtungsobjekten beruht. Gegebenenfalls sollten fehlende Werte der beteiligten Variablen aus dem Datensatz vorher manuell ausgeschlossen werden (Abschn. 2.13.6).
6.
Für eine Mediationsanalyse mit dem Sobel-Test vgl. sobel() aus dem multilevel Paket (Bliese 2016). Weitergehende Mediationsanalysen sind mit dem Paket mediation (Tingley et al. 2019) möglich.
7.
Im Folgenden wird dieser Teil der Ausgabe mit options(show.signif.stars=FALSE) unterdrückt.
8.
AIC und BIC besitzen einen engen Bezug zu bestimmten Methoden der Kreuzvalidierung (Abschn. 13.1).
9.
Zusätzlich zu \(\beta _{0}\) und den \(\beta _{j}\) ist auch die Fehlerstreuung \(\sigma \) zu schätzen.
10.
Der korrigierte AICc Wert für kleine Stichproben ist mit aictab() aus dem Paket AICcmodavg (Mazerolle 2019) berechenbar.
11.
Für die multivariate multiple Regression mit mehreren Kriteriumsvariablen \(Y_{k}\) s. Abschn. 12.5. Eine formalere Behandlung des allgemeinen linearen Modells findet sich in Abschn. 12.9.
12.
Es sei vorausgesetzt, dass \(\textit{\textbf{X}}\) vollen Spaltenrang hat, also keine linearen Abhängigkeiten zwischen den Prädiktoren vorliegen. Dann gilt \(\textit{\textbf{X}}^{+} = (\textit{\textbf{X}}^{\top } \textit{\textbf{X}})^{-1} \textit{\textbf{X}}^{\top }\). Der hier gewählte Rechenweg ist numerisch nicht stabil und weicht von in R-Funktionen implementierten Rechnungen ab (Bates 2004).
13.
Das Paket leaps (Lumley 2020) ermöglicht die automatisierte Auswahl aller Teilmengen von Prädiktoren. Beide Verfahren sind mit vielen inhaltlichen Problemen verbunden, für eine Diskussion und verschiedene Strategien zur Auswahl von Prädiktoren vgl. Miller (2002). Für penalisierte Regressionsverfahren, die auch eine Auswahl von Prädiktoren vornehmen, s. Abschn. 6.6.1.
14.
Für Hinweise zur Analyse komplexerer Kausalmodelle s. Abschn. 12.3, Fußnote 31.
15.
In Kovarianzanalysen (Abschn. 7.8) kann modx auch ein Faktor sein.
16.
Handelt es sich etwa im Rahmen einer Kovarianzanalyse (Abschn. 7.8) um einen kategorialen Prädiktor – ein Objekt der Klasse factor, so muss die zugehörige Variable in newdata dieselben Stufen in derselben Reihenfolge beinhalten wie die Variable des ursprünglichen Modells – selbst wenn nicht alle Faktorstufen tatsächlich als Ausprägung vorkommen.
17.
Da Extremwerte die Lage und Streuung der Daten mit beeinflussen, sollten hierfür evtl. robuste Schätzer in Betracht gezogen werden (Abschn. 2.7.9). Robuste Schätzungen für die Kovarianzmatrix können etwa an das Argument cov von mahalanobis() übergeben werden. Für fortgeschrittene Tests, ob Ausreißer in multivariaten Daten vorliegen, vgl. aq.plot() und pcout() aus dem Paket mvoutlier (Filzmoser und Gschwandtner 2018).
18.
Zudem ist \(h_{i}\) gleich dem i-ten Eintrag \(\textit{\textbf{H}}_{ii}\) in der Diagonale der Hat-Matrix \(\textit{\textbf{H}}\) (Abschn. 6.3.1).
19.
Mitunter werden hierfür auch die Beträge der Residuen bzw. deren Wurzel gewählt (scale-location plot). Der Breusch-Pagan-Test auf Heteroskedastizität kann mit bptest() aus dem Paket lmtest (Zeileis und Hothorn 2002) durchgeführt werden.
20.
Für den Durbin-Watson-Test auf Autokorrelation der Residuen vgl. durbinWatsonTest() aus dem Paketcar. Das Autokorrelations-Diagramm der Residuen erzeugt .
21.
Auf numerischer Seite bringt starke Multikollinearität das Problem mit sich, dass die interne Berechnung der Parameterschätzungen anfälliger für Fehler werden kann, die aus der notwendigen Ungenauigkeit der Repräsentation von Gleitkommazahlen in Computern herrühren (Abschn. 1.4.6).
22.
Fortgeschrittene Methoden zur Diagnostik von Multikollinearität enthält das Paket perturb (Hendrickx 2019).
23.
Ursache dafür ist die Änderung der Eigenwerte bei Datentransformationen: Ist \(\textit{\textbf{X}}\) die Designmatrix des ursprünglichen Modells und \(\textit{\textbf{X}}'\) die Designmatrix des Modells der transformierten Daten, so gehen die Eigenwerte von \((\textit{\textbf{X}}')^{\top } \textit{\textbf{X}}'\) nicht auf einfache Weise aus denen von \(\textit{\textbf{X}}^{\top } \textit{\textbf{X}}\) hervor. Insbesondere verändern sich der größte und kleinste Eigenwert jeweils unterschiedlich, so dass deren Quotient nicht konstant ist.
24.
Das Paket glmnetUtils (Ooi 2020) bietet aber eine entsprechende Erweiterung an.

Author information

Authors and Affiliations

Institut für Medizinische Biometrie, Epidemiologie und Informatik (IMBEI), Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Mainz, Deutschland
Daniel Wollschläger

Authors

Daniel Wollschläger
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Wollschläger, D. (2020). Lineare Regression. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-61736-6_6

Download citation

DOI: https://doi.org/10.1007/978-3-662-61736-6_6
Published: 03 November 2020
Publisher Name: Springer Spektrum, Berlin, Heidelberg
Print ISBN: 978-3-662-61735-9
Online ISBN: 978-3-662-61736-6
eBook Packages: Life Science and Basic Disciplines (German Language)

Publish with us

Policies and ethics