Zusammenfassung
Ein nicht unbedeutendes Problem bei der Analyse von Daten ist der Umstand, daß Teile der Rohdaten in einer Form vorliegen, die für eine Auswertung nur bedingt brauchbar sind. Dieses Problem tritt besonders dann auf, wenn die zu analysierende Variable sehr viele Merkmalsausprägungen besitzt. Typische Beispiele für derartige Fragen wären die nach dem Einkommen, der Körpergröße und dem Alter der Befragten. Sie können beispielsweise davon ausgehen, daß bei dem diesem Buch zugrunde liegenden Datensatz (rtdata.sys) die Bandbreite des Altersspektrums der Bibliotheksbesucher ungefähr zwischen 10 und 80 Jahren liegt. Dies ist natürlich rein spekulativ, natürlich könnte es auch sein, daß es auch Leser unter zehn und über 80 Jahren gibt, aber dies wird sicher eine vernachlässigbare Größe sein. Ausgehend von der eben erwähnten Bandbreite wäre es theoretisch möglich, daß wir siebzig unterschiedliche Merkmalsausprägungen erhielten. Jeder wird sofort einsehen, daß sich eine Variable so nicht oder nur sehr schwer analysieren läßt. Würde man beispielsweise diese Variable mit der Variable V12 (“Geschlecht”) kreuztabellieren, so würde man wahrscheinlich eine Tabelle mit 140 (also 70 Ausprägungen * 2 Ausprägungen) Zellen erhalten. Eine derartige Tabelle wäre vollkommen unübersichtlich und eigentlich nicht sinnvoll auswertbar. Man wird daher versuchen, die Daten in eine Form zu bringen, in der sie auch auswertbar sind.
Preview
Unable to display preview. Download preview PDF.