Datensätze

Wollschläger, Daniel

doi:10.1007/978-3-642-25800-8_3

Daniel Wollschläger^nAff1

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

6648 Accesses

Zusammenfassung

Vektoren, Matrizen und arrays unterliegen der Beschränkung, gleichzeitig nur Werte desselben Datentyps aufnehmen zu können. Da in empirischen Erhebungssituationen meist Daten unterschiedlichen Typs – etwa numerische Variablen, Faktoren und Zeichenketten – anfallen, sind sie nicht unmittelbar geeignet, vollständige Datensätze zu speichern. Objekte der Klasse list und data.frame sind in dieser Hinsicht flexibler: Sie erlauben es, gleichzeitig Variablen unterschiedlichen Datentyps und auch unterschiedlicher Klasse als Komponenten zu besitzen. Der Datentyp von Listen und Datensätzen selbst ist list. Listen eignen sich zur Repräsentation heterogener Sammlungen von Daten undwerden deshalb von vielen Funktionen genutzt, um ihr Ergebnis zurückzugeben. Listen sind darüber hinaus die allgemeine Grundform von Datensätzen (Klasse data.frame), der gewöhnlich am besten geeigneten Struktur für empirische Daten.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Für Hilfe zu diesem Thema vgl. ?Extract.
2.
Obwohl es nicht empfehlenswert ist, reicht es beim $ Operator bereits aus, den unvollständigen Anfang von <<Variablenname>> zu nennen, sofern dieser bereits eindeutig ist.
3.
Außer bei sehr großen Datensätzen, die sich effizienter als Matrix verarbeiten lassen.
4.
Gleiches gilt für Listen – hier werden die Komponenten als separate Vektoren gewertet. Soll dieses Verhalten verhindert werden, um eine Liste als eine einzelne Variable des Datensatzes zu erhalten, muss sie in I() eingeschlossen werden: data.frame(I(<<Liste>>), <<Objekt2>>, ...).
5.
Für die automatisierte Simulation von Datensätzen nach vorgegebenen Kriterien, etwa hinsichtlich der UV-Effekte, vgl. die sim.<<Typ>>() Funktionen des psych Pakets.
6.
Das Komma ist von Bedeutung: So würde etwa <<Datensatz>>[3] wie in Listen nicht einfach die dritte Variable von <<Datensatz>> zurückgeben, sondern einen Datensatz, dessen einzige Spalte diese Variable ist.
7.
Namen werden als Attribut gespeichert und sind mit attributes(<<Datensatz>>) sichtbar (vgl. Abschn. 1.3).
8.
Bei sehr großen Datensätzen empfiehlt es sich daher aus Gründen der Speichernutzung, nur eine geeignete Teilmenge von Fällen mit attach() verfügbar zu machen (vgl. Abschn. 3.3.3.2).
9.
Dagegen ist das Ergebnis von cbind(<<Vektor1>>, <<Vektor2>>) eine Matrix. Dies ist insbesondere wichtig, wenn numerische Daten und Zeichenketten zusammengefügt werden – in einer Matrix würden die numerischen Werte automatisch in Zeichenketten konvertiert.
10.
Das genannte Vorgehen wirft die Frage auf, wie sich allen Elementen einer Variable gleichzeitig der Wert NULL zuweisen lässt, statt die Variable zu löschen. Dies ist durch <<Datensatz>>$<<Variable>> <- list(NULL) möglich.
11.
Da fehlende Werte innerhalb von subset als FALSE behandelt werden, ist es hier nicht notwendig, logische Indizes mit which() in numerische umzuwandeln.
12.
Insbesondere bei Gruppierungsfaktoren ist es wichtig, dass diese Variablen auch in beiden Datensätzen Objekte derselben Klasse (i. d. R. factor, dann auch mit denselben Stufen) sind.
13.
Das reshape2 Paket 139 stellt weitere spezialisierte Möglichkeiten zur Transformation zwischen beiden Organisationsformen bereit. Beispiele hierfür finden sich bei 126.
14.
Im Fall zweier AVn, für die jeweils eine Gruppe von zwei Spalten im Wide-Format vorhanden ist, könnte das Argument also varying=list(c("DV1_t1", "DV1_t2"), c("DV2_t1", "DV2_t2")) lauten.
15.
Das Paket plyr 142 enthält spezialisierte Funktionen, die diese Arbeitsschritte systematisieren und besonders bequem durchführbar machen.
16.
sapply() ist auch für jene Fälle nützlich, in denen auf jedes Element eines Vektors eine Funktion angewendet werden soll, diese Funktion aber nicht vektorisiert ist – d. h. als Argument nur einen einzelnen Wert, nicht aber Vektoren akzeptiert. In diesem Fall betrachtet sapply() jedes Element des Vektors als eigene Variable, die nur einen Wert beinhaltet.

Author information

Daniel Wollschläger
Present address: Institut für Psychologie, Christian-Albrechts-Universität zu Kiel, Olshausenstr. 62, 24098, Kiel, Deutschland

Authors and Affiliations

Authors

Daniel Wollschläger
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Wollschläger, D. (2012). Datensätze. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-25800-8_3

Download citation

DOI: https://doi.org/10.1007/978-3-642-25800-8_3
Published: 03 April 2012
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-25799-5
Online ISBN: 978-3-642-25800-8
eBook Packages: Life Science and Basic Disciplines (German Language)

Publish with us

Policies and ethics