Zusammenfassung
Die Clusteranalyse ist ein Verfahren zur Gruppierung von Fällen (Untersuchungsobjekten) in einem Datensatz. Zu diesem Zweck muss im ersten Schritt die Ähnlichkeit bzw. Unähnlichkeit (Distanz) zwischen den Fällen über ein geeignetes Maß festgestellt werden. Im zweiten Schritt ist der Fusionierungsalgorithmus zu bestimmen, mit dessen Hilfe die einzelnen Fälle sukzessive zu Gruppen (Cluster) zusammengefasst werden. Ziel ist es dabei, solche Untersuchungsobjekte zu Gruppen (Cluster) zusammenzufassen, die im Hinblick auf die betrachteten Eigenschaften oder Merkmale der Untersuchungsobjekte als möglichst homogen zu bezeichnen sind. Gleichzeitig sollten die Gruppen untereinander eine möglichst große Heterogenität aufweisen, d. h. möglichst unähnlich sein. Die Verfahren der Clusteranalyse können dabei sowohl Variablen mit metrischem, nicht-metrischem als auch gemischtem Skalenniveau verarbeiten. Den Schwerpunkt des Kapitels bilden die hierarchisch-agglomerativen Clusterverfahren, wobei vor allem das Single Linkage-Verfahren und das Ward-Verfahren im Detail vorgestellt werden. Abschließend werden mit der K-Means-Clusteranalyse und der Two-Step-Clusteranalyse auch zwei partitionierende Clusterverfahren behandelt, die vor allem bei großen Datenmengen deutliche Vorteile gegenüber den hierarchischen Clusterverfahren bieten.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Die Abbildung lässt leicht erkennen, dass die beiden Merkmale „Einkommen“ und „Alter“ nicht unabhängig sind. Das bedeutet, dass die erzielte Zwei-Clusterlösung auch allein auf Basis nur eines der beiden Merkmale hätte erzielt werden können. Vgl. zum Unabhängigkeit von Clustervariablen die Ausführungen in Abschn. 8.2.1.
- 2.
Vgl. zur Standardisierung von Variablen die Ausführungen zu den statistischen Grundlagen in Abschn. 1.2.1.
- 3.
- 4.
Die Auswahl der in Tab. 8.4 aufgezeigten Proximitätsmaße orientierte sich an den auch in der SPSS-Prozedur „Hierarchische Clusteranalyse“ bereitgestellten Maßen.
- 5.
Auf der zu diesem Buch gehörigen Internetseite www.multivariate.de stellen wir ergänzendes Material zur Verfügung, um das Verstehen der Methode zu erleichtern und zu vertiefen.
- 6.
Zur Vereinfachung der folgenden Berechnungen wurden nur ganzzahlige Werte in die Ausgangsdatenmatrix aufgenommen.
- 7.
Vgl. zur Standardisierung von Variablen die Ausführungen zu den statistischen Grundlagen in Abschn. 1.2.1.
- 8.
Eine ausführliche Darstellung zur Berechnung des Korrelationskoeffizienten findet der Leser in Abschn. 1.2.2.
- 9.
Aufgrund ihrer für die Praxis eher geringen Bedeutung werden die divisiven Verfahren hier nicht weiter betrachtet. Allerdings stehen in SPSS mit dem Klassifizierungsbaum (Menüfolge: Analysieren/Klassifizieren/Baum) divisive Clusteralgorithmen zur Verfügung.
- 10.
Der konkrete Ablauf eines Fusionierungsprozesses wird i. d. R. anhand einer Tabelle (sog. Zuordnungsübersicht) und auch grafisch mittels Dendrogramm oder Eiszapfendiagramm verdeutlicht. Beide Möglichkeiten werden für das Single Linkage-Verfahren in Abschn. 8.2.3.2.1 ausführlich erläutert.
- 11.
Für das erweiterte Anwendungsbeispiel wurden die Dendrogramme mit Hilfe der Prozedur CLUSTER in SPSS erzeugt. Vgl. hierzu die Darstellungen in Abschn. 8.3.2.
- 12.
Auch die Zuordnungsübersicht wurde mit Hilfe der Prozedur CLUSTER in SPSS erzeugt.
- 13.
Da in SPSS bisher keine Kriterien zur Bestimmung der optimalen Clusterzahl verfügbar sind, wird empfohlen ggf. auf alternative Programme wie S-Plus, R oder SAS und das hier verfügbare Cubic Clustering Criterion (CCC) zurückzugreifen.
- 14.
Zur Auffrischung der Grundlagen zum statistischen Testen bietet Abschn. 1.3 eine Zusammenfassung der grundlegenden Aspekte.
- 15.
Neben der KM-CA kann auch die Two-Step Clusteranalyse zur Optimierung einer gefundenen Clusterlösung herangezogen werden. Beide Verfahren zählen zu den partitionierenden Clustermethoden und werden in Abschn. 8.4.2 genauer dargestellt.
- 16.
Vgl. zur Ausreißer-Problematik auch die Ausführungen zu den Grundlagen empirischer Analysen in Abschn. 1.5.1.
- 17.
Vertiefende Betrachtungen zur Robustheit von Clusteranalysen findet der Leser z. B. in dem Beitrag von García-Escudero et al. (2010, S. 89).
- 18.
Zur Auffrischung der Grundlagen zum statistischen Testen bietet Abschn. 1.3 eine Zusammenfassung der grundlegenden Aspekte.
- 19.
Auf der Internetseite www.multivariate.de wird ergänzendes Material (z. B. Excel-Dateien) zur Verfügung gestellt, mit dessen Hilfe der Leser sein Verständnis zur Clusteranalyse vertiefen kann.
- 20.
Fehlende Werte sind ein häufiges und leider unvermeidbares Problem bei empirischen Erhebungen (z. B. weil Personen nicht antworten konnten oder wollten). Der Umgang mit fehlenden Werten in empirischen Studien wird in Abschn. 1.5.2 diskutiert.
- 21.
Die Mittelwerte wurden auf der Grundlage des Datensatzes berechnet, der auch im Fallbeispiel der Diskriminanzanalyse (Kap. 4), der Logistischen Regression (Kap. 5) und der Faktorenanalyse (Kap. 7) verwendet wurde. Die Gemeinsamkeiten und Unterschiede zwischen den Methoden können durch das gemeinsame Fallbeispiel besser veranschaulicht werden.
- 22.
Die multinomiale logistische Regression erfordert mindestens drei Gruppen. Im Falle der Zwei-Cluster-Lösung müsste hingegen eine binäre logistische Regression durchgeführt werden.
Literatur
Zitierte Literatur
Bergs, S. (1981). Optimalität bei Custer-Analysen. Münster: Diss.
Calinski, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in statistics – Theory and methods, 3(1), 1–27.
García-Escudero, L., Gordaliza, A., Matrán, C., & Mayo-Iscar, A. (2010). A review of robust clustering methods. Advances in Data Analysis and Classification, 4(2–3), 89–109.
Kaufman, L., & Rousseeuw, P. (2005). Finding groups in data: an introduction to cluster analysis. New Jersey: John Wiley & Sons.
Kline, R. (2011). Principles and practice of structural equation modeling (3. Aufl.). New York: Guilford Press.
Lance, G. H., & Williams, W. T. (1966). A general theory of classification sorting strategies i hierarchical systems. The Computer Journal, 9(4), 373–380.
Milligan, G. W. (1980). An examination of the effect of six types of error pertubation on fifteen clustering algorithms. Psychometrika, 45(3), 325–342.
Milligan, G. W., & Cooper, M. (1985). An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50(2), 159–179.
Mojena, R. (1977). Hierarchical clustering methods and stopping rules: An evaluation. The Computer Journal, 20(4), 359–363.
Punj, G., & Stewart, D. (1983). Cluster analysis in marketing research: Review and suggestions for application. Journal of Marketing Research, 20(2), 134–148.
Steinhausen, D., & Langer, K. (1977). Clusteranalyse. Berlin: de Gruyter.
Wedel, M., & Kamakura, W. A. (2000). Market segmentation: Conceptual and methodological foundations (2. Aufl.). New York: Springer.
Wind, Y. (1978). Issues and advances in segmentation research. Journal of Marketing Research, 15(3), 317–337.
Weiterführende Literatur
Anderberg, M. R. (2014). Cluster analysis for applications: Probability and mathematical statistics: A series of monographs and textbooks (19. Aufl.). New York: Academic press.
Eisen, M. B., Spellman, P. T., Brown, P. O., & Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences, 95(25), 14863–14868.
Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5. Aufl.). New York: Wiley.
Hennig, C., Meila, M., Murtagh, F., & Rocci, R. (Hrsg.). (2015). Handbook of cluster analysis. London: Chapman & Hall/CRC.
Romesberg, C. (2004). Cluster analysis for researchers. Lulu.com.
Wierzchoń, S., & Kłopotek, M. (2018). Modern algorithms of cluster analysis. Berlin: Springer Nature.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature
About this chapter
Cite this chapter
Backhaus, K., Erichson, B., Gensler, S., Weiber, R., Weiber, T. (2021). Clusteranalyse. In: Multivariate Analysemethoden. Springer Gabler, Wiesbaden. https://doi.org/10.1007/978-3-658-32425-4_8
Download citation
DOI: https://doi.org/10.1007/978-3-658-32425-4_8
Published:
Publisher Name: Springer Gabler, Wiesbaden
Print ISBN: 978-3-658-32424-7
Online ISBN: 978-3-658-32425-4
eBook Packages: Business and Economics (German Language)