Skip to main content

Erste Schritte

  • Chapter
  • First Online:
Book cover Grundlagen der Datenanalyse mit R

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 7066 Accesses

Zusammenfassung

R ist eine freie und kostenlose Umgebung zur computergestützten statistischen Datenverarbeitung (Ihaka & Gentleman, 1996; R Development Core Team, 2011b): R integriert eine Vielzahl von Möglichkeiten, um Daten organisieren, transformieren, auswerten und visualisieren zu können. Dabei bezeichnet R sowohl das Programm selbst als auch die Sprache, in der die Auswertungsbefehle geschrieben werden. In R bestehen Auswertungen nämlich aus einer Abfolge von Befehlen in Textform, die der Benutzer unter Einhaltung einer bestimmten Syntax selbst einzugeben hat. Jeder Befehl stellt dabei einen eigenen Auswertungsschritt dar, wobei eine vollständige Datenanalyse durch die Abfolge vieler solcher Schritte gekennzeichnet ist. So könnten Daten zunächst aus einer Datei gelesen und zwei Variablen zu einer neuen verrechnet werden, ehe eine Teilmenge von Beobachtungen ausgewählt und mit ihr ein statistischer Test durchgeführt wird, dessen Ergebnisse im Anschluss grafisch aufzubereiten sind.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 29.99
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Genauer gesagt ist eine eigenständige Implementierung der Sprache S, deren kommerzielle Umsetzung das Programm S+ ist 129. teilt damit weitgehend die Syntax von S, besitzt aber einen erweiterten Funktionsumfang. Sich auf S beziehende Texte und Auswertungsbeispiele lassen sich weitestgehend direkt für nutzen.

  2. 2.

    Der Open Source-Programmen zugrunde liegende Quelltext ist frei erhältlich, zudem darf die Software frei genutzt, verbreitet und verändert werden. Genaueres erläutert der Befehl licence().

  3. 3.

    LaTeX-Anwender erhalten jedoch Unterstützung durch die Sweave() Funktion 80. Ähnliche Möglichkeiten für das open document format verschiedener Textverarbeitungen bietet das Paket odfWeave (78, vgl. Abschn. 1.2.7).

  4. 4.

    Auch bei der Beschreibung von Elementen der grafischen Oberfläche von wird im Folgenden von einer deutschsprachigen Installation unter Windows ausgegangen. Abgesehen von der Oberfläche und abweichenden Pfadangaben bestehen nur unwesentliche Unterschiede zwischen der Arbeit mit unter verschiedenen Betriebssystemen.

  5. 5.

    CRAN steht für ,,Comprehensive Archive Network” und bezeichnet ein Netzwerk von mehreren sog. mirror servern mit gleichem Angebot, die die aktuellen Dateien und Informationen zu anbieten. Aus der Liste der verfügbaren Server sollte einer nach dem Kriterium der geografischen Nähe ausgewählt werden.

  6. 6.

    R-2.14.0-win.exe ist die im November 2011 aktuelle Version von für Windows. 2.14.0 ist die Versionsnummer. Bei neueren Versionen sind leichte, für den Benutzer jedoch üblicherweise nicht merkliche Abweichungen zur in diesem Manuskript beschriebenen Arbeitsweise von Funktionen möglich.

  7. 7.

    Für automatisierte Auswertungen vgl. Abschn. 4.1. Die Ausgabe lässt sich mit der sink() Funktion entweder gänzlich oder i. S. eines Protokolls aller Vorgänge als Kopie in eine Datei umleiten (Argument split=TRUE). Ebenso lassen sich alle Konsoleninhalte (eingegebene Befehle und Ausgabe von R) über das Menü mit Datei: Speichern in Datei in einer Textdatei speichern. Befehle des Betriebssystems sind mit shell("<<Befehl>>") ausführbar, so können etwa die Netzwerkverbindungen mit shell("netstat") angezeigt werden.

  8. 8.

    Unter Unix-artigen Systemen auch in die Datei .Rprofile im Heimverzeichnis des Benutzers. Hier können etwa eigene Funktionen namens .First bzw. .Last mit beliebigen Befehlen definiert werden, die dann beim Start als erstes bzw. beim Beenden als letztes ausgeführt werden (vgl. Abschn. 12.2).

  9. 9.

    Tatsächlich rufen auch die meisten Einträge des Menüs im Programmfenster lediglich die zugehörigen R-Funktionen auf. In der Konsole stehen zum Speichern und Laden der Befehlshistorie die Funktionen savehistory("<<Dateiname>>") und loadhistory("<<Dateiname>>") zur Verfügung.

  10. 10.

    Sofern diese Formatierung nicht mit options(scipen=999) ganz unterbunden wird. Allgemein kann dabei mit ganzzahlig positiven Werten für scipen (scientific penalty) die Schwelle erhöht werden, ab der die wissenschaftliche Notation für Zahlen verwendet, vgl. ?options.

  11. 11.

    Für die zur Bestimmung der Ausführungsreihenfolge wichtige Assoziativität von Operatoren vgl.  ?Syntax.

  12. 12.

    In diesem Text werden nur die wichtigsten Argumente der behandelten Funktionen vorgestellt, eine vollständige Übersicht liefert jeweils args(<<Funktionsname>>) sowie die zugehörige Hilfe-Seite ?<<Funktionsname>>.

  13. 13.

    In sind Operatoren wie +, -, * oder / Funktionen, für die lediglich eine bequemere und vertrautere Kurzschreibweise zur Verfügung steht. Operatoren lassen sich auch in der Präfix-Form benutzen, wenn sie in Anführungszeichen gesetzt werden. /̈(̈1, 10) ist also äquivalent zu 1/10.

  14. 14.

    Gleiches gilt für die Werte von Argumenten, sofern sie aus einer festen Liste von Zeichenketten stammen. Statt cov(<<Matrix>>, use=p̈airwise.complete.obs)̈ ist also auch cov(<<Matrix>>, u=p̈airwise)̈ als Funktionsaufruf möglich.

  15. 15.

    Der Lesbarkeit halber werden in diesem Buch vorgestellte Pakete nur bei ihrer ersten Verwendung auch zitiert, bei späteren Erwähnungen wird nur ihr Name genannt. Über den im Index markierten Haupteintrag für ein Paket lässt sich die Zitation finden.

  16. 16.

    Die Installation setzt voraus, dass der Benutzer ausreichende Schreibrechte auf dem Computer besitzt, weshalb es u. U. notwendig ist, zunächst als Administrator zu starten. Mit dem Argument repos von install.packages() können temporär, mit der Funktion setRepositories() auch dauerhaft andere Server als Paketquelle verwendet werden. Hier ist etwa das Bioconductor-Projekt 50 mit Paketen vor allem zur Bioinformatik zu nennen. Die Funktion remove.packages() deinstalliert ein Paket wieder.

  17. 17.

    Bei der Installation einer neuen R-Version müssen zuvor manuell hinzugefügte Pakete erneut installiert werden. Alternativ können Pakete auch in einem separaten Verzeichnis außerhalb des R-Programmverzeichnisses installiert werden. Dafür muss eine Textdatei Renviron.site im Unterordner etc/ des R-Programmordners existieren und eine Zeile der Form R_LIBS="<<Pfad>>" (z. B. R_LIBS="c:/rlibs") mit dem Pfad zu den Paketen enthalten.

  18. 18.

    Wird versucht, ein nicht installiertes Paket zu laden, erzeugt library() einen Fehler und gibt ein später zur Fallunterscheidung verwendbares FALSE zurück, sofern das Argument logical.return=TRUE gesetzt wird (vgl. Abschn. 12.1.1). Soll in einem solchen Fall neben dem Rückgabewert FALSE nur eine Warnung ausgegeben werden, ist require() zu verwenden.

  19. 19.

    Besitzen verschiedene geladene Pakete Funktionen desselben Namens, maskieren die aus später geladenen Paketen jene aus früher geladenen (vgl. Abschn. 1.3.1). Um explizit auf eine so maskierte Funktion zuzugreifen, ist dem Funktionsnamen der Paketname mit zwei Doppelpunkten voranzustellen, etwa base::mean().

  20. 20.

    Mit structure() lassen sich auch mehrere Attribute gleichzeitig setzen.

  21. 21.

    Die Funktion label() aus dem Hmisc Paket 61 erweitert dieses Konzept und macht es den etwa in SPSS gebräuchlichen Variablen-Labels ähnlicher.

  22. 22.

    Wenn ein Objektname dennoch nicht zulässige Zeichen enthält, kann man nichtsdestotrotz auf das Objekt zugreifen, indem man den Namen in rückwärts gerichtete Hochkommata setzt (`<<Objektname>>`).

  23. 23.

    Um analog Objekte mit später festgelegtem Namen zu erstellen vgl. Abschn. 1.3.4.

  24. 24.

    Tauchen sehr kleine Zahlen, die eigentlich \(0\) sein sollten, zusammen mit größeren Zahlen in einem Ergebnis auf, eignet sich die zapsmall() Funktion, um sie i. S. einer besseren Übersichtlichkeit auch tatsächlich als \(0\) ausgeben zu lassen.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

© 2012 Springer–Verlag Berlin Heidelberg

About this chapter

Cite this chapter

Wollschläger, D. (2012). Erste Schritte. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-25800-8_1

Download citation

Publish with us

Policies and ethics