Datensätze

Wollschläger, Daniel

doi:10.1007/978-3-642-12228-6_3

Daniel Wollschläger²

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

4057 Accesses

Zusammenfassung

Vektoren, Matrizen und Arrays unterliegen der Beschränkung, gleichzeitig nur Werte desselben Datentyps aufnehmen zu können. Da in empirischen Erhebungssituationen meist Daten unterschiedlichen Typs – etwa numerische Variablen, Faktoren und Zeichenketten – anfallen, sind sie deshalb nicht unmittelbar geeignet, Datensätze in Gänze zu speichern. Objekte der Klasse list und data.frame sind in dieser Hinsicht flexibler. So eignen sich Listen zur Repräsentation heterogener Sammlungen von Daten und werden deshalb von vielen Funktionen genutzt, die ihren Output in Form einer Liste zurückgeben. Listen sind darüber hinaus die allgemeine Grundform von Datensätzen (Klasse data.frame), der gewöhnlich am besten geeigneten Struktur für empirische Daten.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Eine Matrix kann in dieser Syntax nur wie ein Vektor indiziert werden, d. h. mittels eines einzelnen Index.
2.
Obwohl es nicht empfehlenswert ist, reicht es beim $ Operator bereits aus, den unvollständigen Anfang von 〈Variablenname〉 zu nennen, sofern dieser bereits eindeutig ist.
3.
Außer bei sehr großen Datensätzen, die sich effizienter als Matrix verarbeiten lassen.
4.
Gleiches gilt für Listen – hier werden die Komponenten als separate Vektoren gewertet. Soll dieses Verhalten verhindert werden, um eine Liste als eine einzelne Variable des Datensatzes zu erhalten, muss sie in I() eingeschlossen werden: data.frame(I(〈Liste〉), 〈Objekt2〉, ...).
5.
Für die automatisierte Simulation von Datensätzen nach vorgegebenen Kriterien, etwa hinsichtlich der UV-Effekte, vgl. die sim.〈Typ〉() Funktionen des psych Pakets.
6.
Das Komma ist von Bedeutung: so würde etwa 〈Datensatz〉[3] wie in Listen nicht einfach die dritte Variable von 〈Datensatz〉 zurückgeben, sondern einen Datensatz, dessen einzige Spalte diese Variable ist.
7.
Bei sehr großen Datensätzen empfiehlt es sich daher aus Gründen der Speichernutzung, nur eine geeignete Teilmenge von Fällen mit attach() verfügbar zu machen, vgl. Abschn. 3.2.6.2.
8.
Namen werden als Attribut gespeichert und sind mit attributes(〈Datensatz〉) sichtbar, vgl. Abschn. 3.1.
9.
Dagegen ist das Ergebnis von cbind(〈Vektor1〉, 〈Vektor2〉) eine Matrix. Dies ist insbesondere wichtig, wenn numerische Daten und Zeichenketten zusammengefügt werden – in einer Matrix würden die numerischen Werte automatisch in Zeichenketten konvertiert.
10.
Das genannte Vorgehen wirft die Frage auf, wie sich allen Elementen einer Variable gleichzeitig der Wert NULL zuweisen lässt, statt die Variable zu löschen. Dies ist durch 〈Datensatz〉$〈Variable〉 <– list(NULL) bzw. 〈Datensatz〉[["〈Variable〉"]] <– list(NULL) möglich.
11.
Da fehlende Werte innerhalb von subset als FALSE behandelt werden, ist es nicht notwendig, die logischen Indizes mit which() in numerische umzuwandeln.
12.
Das Paket reshape (Wickham, 2007) stellt weitere spezialisierte Möglichkeiten zur Transformation zwischen beiden Organisationsformen bereit.
13.
Im Fall zweier AVn, für die jeweils eine Gruppe von zwei Spalten im Wide-Format vorhanden ist, könnte das Argument also varying=list(c("DV1_t1", "DV1_t2"), c("DV2_t1", ↘ → "DV2_t2")) lauten.
14.
Insbesondere bei Gruppierungsfaktoren ist es wichtig, dass diese Variablen auch in beiden Datensätzen Objekte derselben Klasse (i. d. R. factor, dann auch mit denselben Stufen) sind.
15.
sapply() ist auch für jene Fälle nützlich, in denen auf jedes Element eines Vektors eine Funktion angewendet werden soll, diese Funktion aber nicht vektorisiert ist – d. h. für ein Argument nur einzelne Werte, nicht aber Vektoren akzeptiert. In diesem Fall betrachtet sapply() jedes Element des Vektors als eigene Variable, die nur einen Wert beinhaltet.
16.
Auch apply(〈Datensatz〉, 1, function(x) { all(!is.na(x))} ) wäre möglich (vgl. Abschn. 11.1).

References

Wickham, H. A. (2007). Reshaping Data with the Reshape Package. Journal of Statistical Software, 21 (12), 1–20. URL http://www.jstatsoft.org/v21/i12/
Google Scholar

Download references

Author information

Authors and Affiliations

Christian-Albrechts-Universität zu Kiel, Institut für Psychologie, Olshausenstr. 62, 24098, Kiel, Deutschland
Daniel Wollschläger

Authors

Daniel Wollschläger
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Wollschläger, D. (2010). Datensätze. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-12228-6_3

Download citation

DOI: https://doi.org/10.1007/978-3-642-12228-6_3
Published: 30 June 2010
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-12227-9
Online ISBN: 978-3-642-12228-6
eBook Packages: Life Science and Basic Disciplines (German Language)

Publish with us

Policies and ethics