Clusteranalyse

Cleff, Thomas

doi:10.1007/978-3-8349-4748-2_7

Thomas Cleff²

25k Accesses

Zusammenfassung

Vor allem in den wirtschaftswissenschaftlichen Disziplinen basieren viele strategische Überlegungen auf der Existenz von unterschiedlichen (Kunden-)Gruppen innerhalb einer Gesamtpopulation. Dem Rat des Mephistopheles folgend – es wird nächstens schon besser gehen, Wenn ihr lernt alles reduzieren Und gehörig klassifizieren (Goethe 1949, S. 201) benötigen Theoretiker und Praktiker objektive und nachvollziehbare Verfahren zur Abgrenzung homogener Gruppen innerhalb einer Gesamtheit von Beobachtungen. Diverse Techniken der Clusteranalyse können diese homogenen Gruppierungen liefern. In diesem Kapitel werden die Hierarchische Clusteranalyse und die Clusterzentrenanalyse genauer erläutert. Neben der Beschreibung der Grundidee der beiden Techniken, werden Vor- und Nachteile bei der Verwendung unterschiedlicher Distanzmaße und Fusionierungsalgorithmen dargelegt. Insbesondere wird auf die Gütekriterien zur Bewertung von Lösungen mit unterschiedlicher Clusteranzahl Wert gelegt. Zum Abschluss wird gezeigt, wie sich die Clusteranalyse mit Hilfe von SPSS oder Stata berechnen lässt. Die Inhalte werden in Übungsaufgaben vertieft.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 44.99; Price excludes VAT (USA)

Softcover Book: USD 59.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Im Gegensatz hierzu werden bei Divisiven Verfahren alle Beobachtungen zunächst als ein Cluster aufgefasst. Dieses wird in einem ersten Schritt algorithmisch in zwei Gruppen aufgeteilt, in einem zweiten Schritt wird eine dieser Gruppen wieder in zwei einzelne Gruppen aufgeteilt, usw. Der entscheidende Nachteil Divisiver Verfahren ist die hohe Rechenkomplexität. Während bei agglomerativen Verfahren mit n Beobachtungen beim rechenintensivsten ersten Schritt insgesamt n(n − 1) / 2 Distanzmessungen durchgeführt werden müssen, sind es bei Divisiven Verfahren bei Bildung von zwei nicht leeren Gruppen insgesamt 2⁽ⁿ⁻¹⁾ − 1 mögliche Vergleichsrechnungen. Die hohe Zeit- und Rechenkomplexität Divisiver Hierarchischer Verfahren dürfte auch der Grund dafür sein, dass sie weder in der Literatur häufig ausführlich beschrieben werden, noch in den gängigen Statistikpaketen implementiert sind.
2.
Der Leser mache sich deutlich, dass die Anwendung der Euklidischen Distanz auf den zweidimensionalen Fall der Formel des Satzes von Pythagoras entspricht.
3.
Von jedem Wert einer Variablen wird der zugehörige Mittelwert \( \bar{\text{x}}\) abgezogen und dieser Wert durch die Standardabweichung S der Variablen geteilt: \( \text{z}_{\text{i}}=\frac{\text{x}_{\text{i}}-\bar{\text{x}}}{\text{S}}\).
4.
Eine Zerlegung in drei Kalorienvariablen erfolgt beispielsweise wie folgt: Die Kalorienvariable 1 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 60 und 99,99 Kalorien liegt. Die Kalorienvariable 2 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 100 und 139,99 Kalorien liegt. Die Kalorienvariable 3 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 140 und 200 Kalorien liegt. Alle sonstigen Werte sind gleich Null. Die Variable Kalorienzahl wird somit mit Hilfe von drei Variablen dichotomisiert.
5.
Eine Besonderheit von Centroid-linkage- und Average-linkage-Verfahren ist die Tatsache, dass die Heterogenität nicht zwangsläufig mit jedem Fusionierungsschritt zunimmt.
6.
Bei der Varianzanalyse werden die Clusterzugehörigkeit als unabhängiger Faktor und die bei der Clusteranalyse verwendeten n Dimensionen (Variablen) jeweils in n unterschiedlichen Varianzanalysen hintereinander als abhängige Variablen gewählt. In unserem Beispiel sind dies zwei Varianzanalysen mit den n = 2 abhängigen Variablen Kosten und Kalorien der Biere. Tatsächlich ergeben sich bei den beiden durchgeführten Varianzanalysen signifikante Unterschiede hinsichtlich der drei Gruppen: Gemäß der post-hoc Verfahren unterscheiden sich Premiumbiere preislich und die Light Biere in ihrem Kaloriengehalt signifikant von den restlichen Bieren. Scheffé und Tamhane Tests ergeben gleichermaßen diese Signifikanzunterschiede.
7.
Der Centroid wird ermittelt, indem für alle Beobachtungen eines jeden Clusters getrennt der Mittelwert für jede Variable berechnet wird.
8.
(−0,401 − (−0,401))² + (−1,353 − (−0,563))² = 0,79²: Distanz: 0,79.
9.
(−0,571 − (−0,401))² + (0,486 − (−0,563))² = 0,65²: Distanz: 0,65.
10.
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → Hierarchische Cluster …
11.
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Deskriptive Statistiken → Deskriptive Statistik …
12.
In der deutschsprachigen SPSS Version heißt dieses Feld Standardisierte Werte als Variable speichern.
13.
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → K-Means Cluster …

Literatur

Backhaus K, Erichson B, Plinke W, Weiber R (2011) Multivariate Analysemethoden. Eine Anwendungsorientierte Einführung, 13. Aufl. Springer, Berlin, Heidelberg
Google Scholar
Berg S (1981) Optimalität bei Cluster-Analysen. Westfälische Wilhelms-Universität, Münster (Münster: Dissertation, Fachbereich Wirtschafts- und Sozialwissenschaften)
Google Scholar
Bühl A (2012) Einführung in die moderne Datenanalyse unter Windows, 13. Aufl. SPSS 20. Pearson Studium, München
Google Scholar
Everitt BS, Rabe-Hesketh S (2004) A Handbook of Statistical Analyses Using Stata, 3. Aufl. Chapman & Hall, Boca Raton
MATH Google Scholar
Goethe JW (1949) Faust. Eine Tragödie. In: Beutler E (Hrsg) Gedenkausgabe der Werke, Briefe und Gespräche, Bd. 5. Artemis, Zürich, S 140–526
Google Scholar
Janssens W, Wijnen K, de Pelsmacker P, van Kenvove P (2008) Marketing Research with. Pearson Education, Esse
Google Scholar
Kaufman L, Rousseeuw PJ (1990) Finding Groups in Data. Wiley, New York
Google Scholar
Mooi E, Sarstedt M (2011) A Concise Guide to Market Research. The Process, Data, and Methods Using IBM SPSS Statistics. Springer, Berlin und Heidelberg
Google Scholar
Ward JH Jr. (1963) Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association 58:236–244
Article MathSciNet Google Scholar

Download references

Author information

Authors and Affiliations

Pforzheim, Deutschland
Thomas Cleff

Authors

Thomas Cleff
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Thomas Cleff .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Cleff, T. (2015). Clusteranalyse. In: Deskriptive Statistik und Explorative Datenanalyse. Gabler Verlag, Wiesbaden. https://doi.org/10.1007/978-3-8349-4748-2_7

Download citation

DOI: https://doi.org/10.1007/978-3-8349-4748-2_7
Published: 27 March 2015
Publisher Name: Gabler Verlag, Wiesbaden
Print ISBN: 978-3-8349-4747-5
Online ISBN: 978-3-8349-4748-2
eBook Packages: Life Science and Basic Disciplines (German Language)

Publish with us

Policies and ethics