Zusammenfassung
Vektoren, Matrizen und Arrays unterliegen der Beschränkung, gleichzeitig nur Werte desselben Datentyps aufnehmen zu können. Da in empirischen Erhebungssituationen meist Daten unterschiedlichen Typs – etwa numerische Variablen, Faktoren und Zeichenketten – anfallen, sind sie deshalb nicht unmittelbar geeignet, Datensätze in Gänze zu speichern. Objekte der Klasse list und data.frame sind in dieser Hinsicht flexibler. So eignen sich Listen zur Repräsentation heterogener Sammlungen von Daten und werden deshalb von vielen Funktionen genutzt, die ihren Output in Form einer Liste zurückgeben. Listen sind darüber hinaus die allgemeine Grundform von Datensätzen (Klasse data.frame), der gewöhnlich am besten geeigneten Struktur für empirische Daten.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Eine Matrix kann in dieser Syntax nur wie ein Vektor indiziert werden, d. h. mittels eines einzelnen Index.
- 2.
Obwohl es nicht empfehlenswert ist, reicht es beim $ Operator bereits aus, den unvollständigen Anfang von 〈Variablenname〉 zu nennen, sofern dieser bereits eindeutig ist.
- 3.
Außer bei sehr großen Datensätzen, die sich effizienter als Matrix verarbeiten lassen.
- 4.
Gleiches gilt für Listen – hier werden die Komponenten als separate Vektoren gewertet. Soll dieses Verhalten verhindert werden, um eine Liste als eine einzelne Variable des Datensatzes zu erhalten, muss sie in I() eingeschlossen werden: data.frame(I(〈Liste〉), 〈Objekt2〉, ...).
- 5.
Für die automatisierte Simulation von Datensätzen nach vorgegebenen Kriterien, etwa hinsichtlich der UV-Effekte, vgl. die sim.〈Typ〉() Funktionen des psych Pakets.
- 6.
Das Komma ist von Bedeutung: so würde etwa 〈Datensatz〉[3] wie in Listen nicht einfach die dritte Variable von 〈Datensatz〉 zurückgeben, sondern einen Datensatz, dessen einzige Spalte diese Variable ist.
- 7.
Bei sehr großen Datensätzen empfiehlt es sich daher aus Gründen der Speichernutzung, nur eine geeignete Teilmenge von Fällen mit attach() verfügbar zu machen, vgl. Abschn. 3.2.6.2.
- 8.
Namen werden als Attribut gespeichert und sind mit attributes(〈Datensatz〉) sichtbar, vgl. Abschn. 3.1.
- 9.
Dagegen ist das Ergebnis von cbind(〈Vektor1〉, 〈Vektor2〉) eine Matrix. Dies ist insbesondere wichtig, wenn numerische Daten und Zeichenketten zusammengefügt werden – in einer Matrix würden die numerischen Werte automatisch in Zeichenketten konvertiert.
- 10.
Das genannte Vorgehen wirft die Frage auf, wie sich allen Elementen einer Variable gleichzeitig der Wert NULL zuweisen lässt, statt die Variable zu löschen. Dies ist durch 〈Datensatz〉$〈Variable〉 <– list(NULL) bzw. 〈Datensatz〉[["〈Variable〉"]] <– list(NULL) möglich.
- 11.
Da fehlende Werte innerhalb von subset als FALSE behandelt werden, ist es nicht notwendig, die logischen Indizes mit which() in numerische umzuwandeln.
- 12.
Das Paket reshape (Wickham, 2007) stellt weitere spezialisierte Möglichkeiten zur Transformation zwischen beiden Organisationsformen bereit.
- 13.
Im Fall zweier AVn, für die jeweils eine Gruppe von zwei Spalten im Wide-Format vorhanden ist, könnte das Argument also varying=list(c("DV1_t1", "DV1_t2"), c("DV2_t1", ↘ → "DV2_t2")) lauten.
- 14.
Insbesondere bei Gruppierungsfaktoren ist es wichtig, dass diese Variablen auch in beiden Datensätzen Objekte derselben Klasse (i. d. R. factor, dann auch mit denselben Stufen) sind.
- 15.
sapply() ist auch für jene Fälle nützlich, in denen auf jedes Element eines Vektors eine Funktion angewendet werden soll, diese Funktion aber nicht vektorisiert ist – d. h. für ein Argument nur einzelne Werte, nicht aber Vektoren akzeptiert. In diesem Fall betrachtet sapply() jedes Element des Vektors als eigene Variable, die nur einen Wert beinhaltet.
- 16.
Auch apply(〈Datensatz〉, 1, function(x) { all(!is.na(x))} ) wäre möglich (vgl. Abschn. 11.1).
References
Wickham, H. A. (2007). Reshaping Data with the Reshape Package. Journal of Statistical Software, 21 (12), 1–20. URL http://www.jstatsoft.org/v21/i12/
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2010 Springer-Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Wollschläger, D. (2010). Datensätze. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-12228-6_3
Download citation
DOI: https://doi.org/10.1007/978-3-642-12228-6_3
Published:
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-12227-9
Online ISBN: 978-3-642-12228-6
eBook Packages: Life Science and Basic Disciplines (German Language)