Zusammenfassung
Vor allem in den wirtschaftswissenschaftlichen Disziplinen basieren viele strategische Überlegungen auf der Existenz von unterschiedlichen (Kunden-)Gruppen innerhalb einer Gesamtpopulation. Dem Rat des Mephistopheles folgend – es wird nächstens schon besser gehen, Wenn ihr lernt alles reduzieren Und gehörig klassifizieren (Goethe 1949, S. 201) benötigen Theoretiker und Praktiker objektive und nachvollziehbare Verfahren zur Abgrenzung homogener Gruppen innerhalb einer Gesamtheit von Beobachtungen. Diverse Techniken der Clusteranalyse können diese homogenen Gruppierungen liefern. In diesem Kapitel werden die Hierarchische Clusteranalyse und die Clusterzentrenanalyse genauer erläutert. Neben der Beschreibung der Grundidee der beiden Techniken, werden Vor- und Nachteile bei der Verwendung unterschiedlicher Distanzmaße und Fusionierungsalgorithmen dargelegt. Insbesondere wird auf die Gütekriterien zur Bewertung von Lösungen mit unterschiedlicher Clusteranzahl Wert gelegt. Zum Abschluss wird gezeigt, wie sich die Clusteranalyse mit Hilfe von SPSS oder Stata berechnen lässt. Die Inhalte werden in Übungsaufgaben vertieft.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Im Gegensatz hierzu werden bei Divisiven Verfahren alle Beobachtungen zunächst als ein Cluster aufgefasst. Dieses wird in einem ersten Schritt algorithmisch in zwei Gruppen aufgeteilt, in einem zweiten Schritt wird eine dieser Gruppen wieder in zwei einzelne Gruppen aufgeteilt, usw. Der entscheidende Nachteil Divisiver Verfahren ist die hohe Rechenkomplexität. Während bei agglomerativen Verfahren mit n Beobachtungen beim rechenintensivsten ersten Schritt insgesamt n(n − 1) / 2 Distanzmessungen durchgeführt werden müssen, sind es bei Divisiven Verfahren bei Bildung von zwei nicht leeren Gruppen insgesamt 2(n−1) − 1 mögliche Vergleichsrechnungen. Die hohe Zeit- und Rechenkomplexität Divisiver Hierarchischer Verfahren dürfte auch der Grund dafür sein, dass sie weder in der Literatur häufig ausführlich beschrieben werden, noch in den gängigen Statistikpaketen implementiert sind.
- 2.
Der Leser mache sich deutlich, dass die Anwendung der Euklidischen Distanz auf den zweidimensionalen Fall der Formel des Satzes von Pythagoras entspricht.
- 3.
Von jedem Wert einer Variablen wird der zugehörige Mittelwert \( \bar{\text{x}}\) abgezogen und dieser Wert durch die Standardabweichung S der Variablen geteilt: \( \text{z}_{\text{i}}=\frac{\text{x}_{\text{i}}-\bar{\text{x}}}{\text{S}}\).
- 4.
Eine Zerlegung in drei Kalorienvariablen erfolgt beispielsweise wie folgt: Die Kalorienvariable 1 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 60 und 99,99 Kalorien liegt. Die Kalorienvariable 2 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 100 und 139,99 Kalorien liegt. Die Kalorienvariable 3 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 140 und 200 Kalorien liegt. Alle sonstigen Werte sind gleich Null. Die Variable Kalorienzahl wird somit mit Hilfe von drei Variablen dichotomisiert.
- 5.
Eine Besonderheit von Centroid-linkage- und Average-linkage-Verfahren ist die Tatsache, dass die Heterogenität nicht zwangsläufig mit jedem Fusionierungsschritt zunimmt.
- 6.
Bei der Varianzanalyse werden die Clusterzugehörigkeit als unabhängiger Faktor und die bei der Clusteranalyse verwendeten n Dimensionen (Variablen) jeweils in n unterschiedlichen Varianzanalysen hintereinander als abhängige Variablen gewählt. In unserem Beispiel sind dies zwei Varianzanalysen mit den n = 2 abhängigen Variablen Kosten und Kalorien der Biere. Tatsächlich ergeben sich bei den beiden durchgeführten Varianzanalysen signifikante Unterschiede hinsichtlich der drei Gruppen: Gemäß der post-hoc Verfahren unterscheiden sich Premiumbiere preislich und die Light Biere in ihrem Kaloriengehalt signifikant von den restlichen Bieren. Scheffé und Tamhane Tests ergeben gleichermaßen diese Signifikanzunterschiede.
- 7.
Der Centroid wird ermittelt, indem für alle Beobachtungen eines jeden Clusters getrennt der Mittelwert für jede Variable berechnet wird.
- 8.
(−0,401 − (−0,401))2 + (−1,353 − (−0,563))2 = 0,792: Distanz: 0,79.
- 9.
(−0,571 − (−0,401))2 + (0,486 − (−0,563))2 = 0,652: Distanz: 0,65.
- 10.
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → Hierarchische Cluster …
- 11.
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Deskriptive Statistiken → Deskriptive Statistik …
- 12.
In der deutschsprachigen SPSS Version heißt dieses Feld Standardisierte Werte als Variable speichern.
- 13.
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → K-Means Cluster …
Literatur
Backhaus K, Erichson B, Plinke W, Weiber R (2011) Multivariate Analysemethoden. Eine Anwendungsorientierte Einführung, 13. Aufl. Springer, Berlin, Heidelberg
Berg S (1981) Optimalität bei Cluster-Analysen. Westfälische Wilhelms-Universität, Münster (Münster: Dissertation, Fachbereich Wirtschafts- und Sozialwissenschaften)
Bühl A (2012) Einführung in die moderne Datenanalyse unter Windows, 13. Aufl. SPSS 20. Pearson Studium, München
Everitt BS, Rabe-Hesketh S (2004) A Handbook of Statistical Analyses Using Stata, 3. Aufl. Chapman & Hall, Boca Raton
Goethe JW (1949) Faust. Eine Tragödie. In: Beutler E (Hrsg) Gedenkausgabe der Werke, Briefe und Gespräche, Bd. 5. Artemis, Zürich, S 140–526
Janssens W, Wijnen K, de Pelsmacker P, van Kenvove P (2008) Marketing Research with. Pearson Education, Esse
Kaufman L, Rousseeuw PJ (1990) Finding Groups in Data. Wiley, New York
Mooi E, Sarstedt M (2011) A Concise Guide to Market Research. The Process, Data, and Methods Using IBM SPSS Statistics. Springer, Berlin und Heidelberg
Ward JH Jr. (1963) Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association 58:236–244
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2015 Springer Fachmedien Wiesbaden
About this chapter
Cite this chapter
Cleff, T. (2015). Clusteranalyse. In: Deskriptive Statistik und Explorative Datenanalyse. Gabler Verlag, Wiesbaden. https://doi.org/10.1007/978-3-8349-4748-2_7
Download citation
DOI: https://doi.org/10.1007/978-3-8349-4748-2_7
Published:
Publisher Name: Gabler Verlag, Wiesbaden
Print ISBN: 978-3-8349-4747-5
Online ISBN: 978-3-8349-4748-2
eBook Packages: Life Science and Basic Disciplines (German Language)