Skip to main content

Clusteranalyse

  • Chapter
  • First Online:
Multivariate Analysemethoden

Zusammenfassung

Die Clusteranalyse ist ein Verfahren zur Gruppierung von Fällen (Untersuchungsobjekten) in einem Datensatz. Zu diesem Zweck muss im ersten Schritt die Ähnlichkeit bzw. Unähnlichkeit (Distanz) zwischen den Fällen über ein geeignetes Maß festgestellt werden. Im zweiten Schritt ist der Fusionierungsalgorithmus zu bestimmen, mit dessen Hilfe die einzelnen Fälle sukzessive zu Gruppen (Cluster) zusammengefasst werden. Ziel ist es dabei, solche Untersuchungsobjekte zu Gruppen (Cluster) zusammenzufassen, die im Hinblick auf die betrachteten Eigenschaften oder Merkmale der Untersuchungsobjekte als möglichst homogen zu bezeichnen sind. Gleichzeitig sollten die Gruppen untereinander eine möglichst große Heterogenität aufweisen, d. h. möglichst unähnlich sein. Die Verfahren der Clusteranalyse können dabei sowohl Variablen mit metrischem, nicht-metrischem als auch gemischtem Skalenniveau verarbeiten. Den Schwerpunkt des Kapitels bilden die hierarchisch-agglomerativen Clusterverfahren, wobei vor allem das Single Linkage-Verfahren und das Ward-Verfahren im Detail vorgestellt werden. Abschließend werden mit der K-Means-Clusteranalyse und der Two-Step-Clusteranalyse auch zwei partitionierende Clusterverfahren behandelt, die vor allem bei großen Datenmengen deutliche Vorteile gegenüber den hierarchischen Clusterverfahren bieten.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 34.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Die Abbildung lässt leicht erkennen, dass die beiden Merkmale „Einkommen“ und „Alter“ nicht unabhängig sind. Das bedeutet, dass die erzielte Zwei-Clusterlösung auch allein auf Basis nur eines der beiden Merkmale hätte erzielt werden können. Vgl. zum Unabhängigkeit von Clustervariablen die Ausführungen in Abschn. 8.2.1.

  2. 2.

    Vgl. zur Standardisierung von Variablen die Ausführungen zu den statistischen Grundlagen in Abschn. 1.2.1.

  3. 3.

    Vgl. zur Analyse von Ausreißern auch die Ausführungen zu den statistischen Grundlagen in Abschn. 1.5.1 sowie die Darstellungen zum Single Linkage-Verfahren in Abschn. 8.2.3.2, das in besonderer Weise zur Identifikation von Ausreißern in Clusteranalysen geeignet ist.

  4. 4.

    Die Auswahl der in Tab. 8.4 aufgezeigten Proximitätsmaße orientierte sich an den auch in der SPSS-Prozedur „Hierarchische Clusteranalyse“ bereitgestellten Maßen.

  5. 5.

    Auf der zu diesem Buch gehörigen Internetseite www.multivariate.de stellen wir ergänzendes Material zur Verfügung, um das Verstehen der Methode zu erleichtern und zu vertiefen.

  6. 6.

    Zur Vereinfachung der folgenden Berechnungen wurden nur ganzzahlige Werte in die Ausgangsdatenmatrix aufgenommen.

  7. 7.

    Vgl. zur Standardisierung von Variablen die Ausführungen zu den statistischen Grundlagen in Abschn. 1.2.1.

  8. 8.

    Eine ausführliche Darstellung zur Berechnung des Korrelationskoeffizienten findet der Leser in Abschn. 1.2.2.

  9. 9.

    Aufgrund ihrer für die Praxis eher geringen Bedeutung werden die divisiven Verfahren hier nicht weiter betrachtet. Allerdings stehen in SPSS mit dem Klassifizierungsbaum (Menüfolge: Analysieren/Klassifizieren/Baum) divisive Clusteralgorithmen zur Verfügung.

  10. 10.

    Der konkrete Ablauf eines Fusionierungsprozesses wird i. d. R. anhand einer Tabelle (sog. Zuordnungsübersicht) und auch grafisch mittels Dendrogramm oder Eiszapfendiagramm verdeutlicht. Beide Möglichkeiten werden für das Single Linkage-Verfahren in Abschn. 8.2.3.2.1 ausführlich erläutert.

  11. 11.

    Für das erweiterte Anwendungsbeispiel wurden die Dendrogramme mit Hilfe der Prozedur CLUSTER in SPSS erzeugt. Vgl. hierzu die Darstellungen in Abschn. 8.3.2.

  12. 12.

    Auch die Zuordnungsübersicht wurde mit Hilfe der Prozedur CLUSTER in SPSS erzeugt.

  13. 13.

    Da in SPSS bisher keine Kriterien zur Bestimmung der optimalen Clusterzahl verfügbar sind, wird empfohlen ggf. auf alternative Programme wie S-Plus, R oder SAS und das hier verfügbare Cubic Clustering Criterion (CCC) zurückzugreifen.

  14. 14.

    Zur Auffrischung der Grundlagen zum statistischen Testen bietet Abschn. 1.3 eine Zusammenfassung der grundlegenden Aspekte.

  15. 15.

    Neben der KM-CA kann auch die Two-Step Clusteranalyse zur Optimierung einer gefundenen Clusterlösung herangezogen werden. Beide Verfahren zählen zu den partitionierenden Clustermethoden und werden in Abschn. 8.4.2 genauer dargestellt.

  16. 16.

    Vgl. zur Ausreißer-Problematik auch die Ausführungen zu den Grundlagen empirischer Analysen in Abschn. 1.5.1.

  17. 17.

    Vertiefende Betrachtungen zur Robustheit von Clusteranalysen findet der Leser z. B. in dem Beitrag von García-Escudero et al. (2010, S. 89).

  18. 18.

    Zur Auffrischung der Grundlagen zum statistischen Testen bietet Abschn. 1.3 eine Zusammenfassung der grundlegenden Aspekte.

  19. 19.

    Auf der Internetseite www.multivariate.de wird ergänzendes Material (z. B. Excel-Dateien) zur Verfügung gestellt, mit dessen Hilfe der Leser sein Verständnis zur Clusteranalyse vertiefen kann.

  20. 20.

    Fehlende Werte sind ein häufiges und leider unvermeidbares Problem bei empirischen Erhebungen (z. B. weil Personen nicht antworten konnten oder wollten). Der Umgang mit fehlenden Werten in empirischen Studien wird in Abschn. 1.5.2 diskutiert.

  21. 21.

    Die Mittelwerte wurden auf der Grundlage des Datensatzes berechnet, der auch im Fallbeispiel der Diskriminanzanalyse (Kap. 4), der Logistischen Regression (Kap. 5) und der Faktorenanalyse (Kap. 7) verwendet wurde. Die Gemeinsamkeiten und Unterschiede zwischen den Methoden können durch das gemeinsame Fallbeispiel besser veranschaulicht werden.

  22. 22.

    Die multinomiale logistische Regression erfordert mindestens drei Gruppen. Im Falle der Zwei-Cluster-Lösung müsste hingegen eine binäre logistische Regression durchgeführt werden.

Literatur

Zitierte Literatur

  • Bergs, S. (1981). Optimalität bei Custer-Analysen. Münster: Diss.

    Google Scholar 

  • Calinski, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in statistics – Theory and methods, 3(1), 1–27.

    Google Scholar 

  • García-Escudero, L., Gordaliza, A., Matrán, C., & Mayo-Iscar, A. (2010). A review of robust clustering methods. Advances in Data Analysis and Classification, 4(2–3), 89–109.

    Article  Google Scholar 

  • Kaufman, L., & Rousseeuw, P. (2005). Finding groups in data: an introduction to cluster analysis. New Jersey: John Wiley & Sons.

    Google Scholar 

  • Kline, R. (2011). Principles and practice of structural equation modeling (3. Aufl.). New York: Guilford Press.

    Google Scholar 

  • Lance, G. H., & Williams, W. T. (1966). A general theory of classification sorting strategies i hierarchical systems. The Computer Journal, 9(4), 373–380.

    Google Scholar 

  • Milligan, G. W. (1980). An examination of the effect of six types of error pertubation on fifteen clustering algorithms. Psychometrika, 45(3), 325–342.

    Google Scholar 

  • Milligan, G. W., & Cooper, M. (1985). An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50(2), 159–179.

    Google Scholar 

  • Mojena, R. (1977). Hierarchical clustering methods and stopping rules: An evaluation. The Computer Journal, 20(4), 359–363.

    Article  Google Scholar 

  • Punj, G., & Stewart, D. (1983). Cluster analysis in marketing research: Review and suggestions for application. Journal of Marketing Research, 20(2), 134–148.

    Article  Google Scholar 

  • Steinhausen, D., & Langer, K. (1977). Clusteranalyse. Berlin: de Gruyter.

    Book  Google Scholar 

  • Wedel, M., & Kamakura, W. A. (2000). Market segmentation: Conceptual and methodological foundations (2. Aufl.). New York: Springer.

    Book  Google Scholar 

  • Wind, Y. (1978). Issues and advances in segmentation research. Journal of Marketing Research, 15(3), 317–337.

    Article  Google Scholar 

Weiterführende Literatur

  • Anderberg, M. R. (2014). Cluster analysis for applications: Probability and mathematical statistics: A series of monographs and textbooks (19. Aufl.). New York: Academic press.

    Google Scholar 

  • Eisen, M. B., Spellman, P. T., Brown, P. O., & Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences, 95(25), 14863–14868.

    Article  Google Scholar 

  • Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5. Aufl.). New York: Wiley.

    Book  Google Scholar 

  • Hennig, C., Meila, M., Murtagh, F., & Rocci, R. (Hrsg.). (2015). Handbook of cluster analysis. London: Chapman & Hall/CRC.

    Google Scholar 

  • Romesberg, C. (2004). Cluster analysis for researchers. Lulu.com.

    Google Scholar 

  • Wierzchoń, S., & Kłopotek, M. (2018). Modern algorithms of cluster analysis. Berlin: Springer Nature.

    Book  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Klaus Backhaus .

Rights and permissions

Reprints and permissions

Copyright information

© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Backhaus, K., Erichson, B., Gensler, S., Weiber, R., Weiber, T. (2021). Clusteranalyse. In: Multivariate Analysemethoden. Springer Gabler, Wiesbaden. https://doi.org/10.1007/978-3-658-32425-4_8

Download citation

  • DOI: https://doi.org/10.1007/978-3-658-32425-4_8

  • Published:

  • Publisher Name: Springer Gabler, Wiesbaden

  • Print ISBN: 978-3-658-32424-7

  • Online ISBN: 978-3-658-32425-4

  • eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics