Zusammenfassung
Vektoren, Matrizen und arrays unterliegen der Beschränkung, gleichzeitig nur Werte desselben Datentyps aufnehmen zu können. Da in empirischen Erhebungssituationen meist Daten unterschiedlichen Typs – etwa numerische Variablen, Faktoren und Zeichenketten – anfallen, sind sie nicht unmittelbar geeignet, vollständige Datensätze zu speichern. Objekte der Klasse list und data.frame sind in dieser Hinsicht flexibler: Sie erlauben es, gleichzeitig Variablen unterschiedlichen Datentyps und auch unterschiedlicher Klasse als Komponenten zu besitzen. Der Datentyp von Listen und Datensätzen selbst ist list. Listen eignen sich zur Repräsentation heterogener Sammlungen von Daten undwerden deshalb von vielen Funktionen genutzt, um ihr Ergebnis zurückzugeben. Listen sind darüber hinaus die allgemeine Grundform von Datensätzen (Klasse data.frame), der gewöhnlich am besten geeigneten Struktur für empirische Daten.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Für Hilfe zu diesem Thema vgl. ?Extract.
- 2.
Obwohl es nicht empfehlenswert ist, reicht es beim $ Operator bereits aus, den unvollständigen Anfang von <<Variablenname>> zu nennen, sofern dieser bereits eindeutig ist.
- 3.
Außer bei sehr großen Datensätzen, die sich effizienter als Matrix verarbeiten lassen.
- 4.
Gleiches gilt für Listen – hier werden die Komponenten als separate Vektoren gewertet. Soll dieses Verhalten verhindert werden, um eine Liste als eine einzelne Variable des Datensatzes zu erhalten, muss sie in I() eingeschlossen werden: data.frame(I(<<Liste>>), <<Objekt2>>, ...).
- 5.
Für die automatisierte Simulation von Datensätzen nach vorgegebenen Kriterien, etwa hinsichtlich der UV-Effekte, vgl. die sim.<<Typ>>() Funktionen des psych Pakets.
- 6.
Das Komma ist von Bedeutung: So würde etwa <<Datensatz>>[3] wie in Listen nicht einfach die dritte Variable von <<Datensatz>> zurückgeben, sondern einen Datensatz, dessen einzige Spalte diese Variable ist.
- 7.
Namen werden als Attribut gespeichert und sind mit attributes(<<Datensatz>>) sichtbar (vgl. Abschn. 1.3).
- 8.
Bei sehr großen Datensätzen empfiehlt es sich daher aus Gründen der Speichernutzung, nur eine geeignete Teilmenge von Fällen mit attach() verfügbar zu machen (vgl. Abschn. 3.3.3.2).
- 9.
Dagegen ist das Ergebnis von cbind(<<Vektor1>>, <<Vektor2>>) eine Matrix. Dies ist insbesondere wichtig, wenn numerische Daten und Zeichenketten zusammengefügt werden – in einer Matrix würden die numerischen Werte automatisch in Zeichenketten konvertiert.
- 10.
Das genannte Vorgehen wirft die Frage auf, wie sich allen Elementen einer Variable gleichzeitig der Wert NULL zuweisen lässt, statt die Variable zu löschen. Dies ist durch <<Datensatz>>$<<Variable>> <- list(NULL) möglich.
- 11.
Da fehlende Werte innerhalb von subset als FALSE behandelt werden, ist es hier nicht notwendig, logische Indizes mit which() in numerische umzuwandeln.
- 12.
Insbesondere bei Gruppierungsfaktoren ist es wichtig, dass diese Variablen auch in beiden Datensätzen Objekte derselben Klasse (i. d. R. factor, dann auch mit denselben Stufen) sind.
- 13.
- 14.
Im Fall zweier AVn, für die jeweils eine Gruppe von zwei Spalten im Wide-Format vorhanden ist, könnte das Argument also varying=list(c("DV1_t1", "DV1_t2"), c("DV2_t1", "DV2_t2")) lauten.
- 15.
Das Paket plyr 142 enthält spezialisierte Funktionen, die diese Arbeitsschritte systematisieren und besonders bequem durchführbar machen.
- 16.
sapply() ist auch für jene Fälle nützlich, in denen auf jedes Element eines Vektors eine Funktion angewendet werden soll, diese Funktion aber nicht vektorisiert ist – d. h. als Argument nur einen einzelnen Wert, nicht aber Vektoren akzeptiert. In diesem Fall betrachtet sapply() jedes Element des Vektors als eigene Variable, die nur einen Wert beinhaltet.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2012 Springer–Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Wollschläger, D. (2012). Datensätze. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-25800-8_3
Download citation
DOI: https://doi.org/10.1007/978-3-642-25800-8_3
Published:
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-25799-5
Online ISBN: 978-3-642-25800-8
eBook Packages: Life Science and Basic Disciplines (German Language)