Clusteranalyse

Backhaus, Klaus; Erichson, Bernd; Gensler, Sonja; Weiber, Rolf; Weiber, Thomas

doi:10.1007/978-3-658-32425-4_8

Klaus Backhaus⁶,
Bernd Erichson⁷,
Sonja Gensler⁸,
Rolf Weiber⁹ &
…
Thomas Weiber¹⁰

27k Accesses
3 Citations

Zusammenfassung

Die Clusteranalyse ist ein Verfahren zur Gruppierung von Fällen (Untersuchungsobjekten) in einem Datensatz. Zu diesem Zweck muss im ersten Schritt die Ähnlichkeit bzw. Unähnlichkeit (Distanz) zwischen den Fällen über ein geeignetes Maß festgestellt werden. Im zweiten Schritt ist der Fusionierungsalgorithmus zu bestimmen, mit dessen Hilfe die einzelnen Fälle sukzessive zu Gruppen (Cluster) zusammengefasst werden. Ziel ist es dabei, solche Untersuchungsobjekte zu Gruppen (Cluster) zusammenzufassen, die im Hinblick auf die betrachteten Eigenschaften oder Merkmale der Untersuchungsobjekte als möglichst homogen zu bezeichnen sind. Gleichzeitig sollten die Gruppen untereinander eine möglichst große Heterogenität aufweisen, d. h. möglichst unähnlich sein. Die Verfahren der Clusteranalyse können dabei sowohl Variablen mit metrischem, nicht-metrischem als auch gemischtem Skalenniveau verarbeiten. Den Schwerpunkt des Kapitels bilden die hierarchisch-agglomerativen Clusterverfahren, wobei vor allem das Single Linkage-Verfahren und das Ward-Verfahren im Detail vorgestellt werden. Abschließend werden mit der K-Means-Clusteranalyse und der Two-Step-Clusteranalyse auch zwei partitionierende Clusterverfahren behandelt, die vor allem bei großen Datenmengen deutliche Vorteile gegenüber den hierarchischen Clusterverfahren bieten.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 34.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Die Abbildung lässt leicht erkennen, dass die beiden Merkmale „Einkommen“ und „Alter“ nicht unabhängig sind. Das bedeutet, dass die erzielte Zwei-Clusterlösung auch allein auf Basis nur eines der beiden Merkmale hätte erzielt werden können. Vgl. zum Unabhängigkeit von Clustervariablen die Ausführungen in Abschn. 8.2.1.
2.
Vgl. zur Standardisierung von Variablen die Ausführungen zu den statistischen Grundlagen in Abschn. 1.2.1.
3.
Vgl. zur Analyse von Ausreißern auch die Ausführungen zu den statistischen Grundlagen in Abschn. 1.5.1 sowie die Darstellungen zum Single Linkage-Verfahren in Abschn. 8.2.3.2, das in besonderer Weise zur Identifikation von Ausreißern in Clusteranalysen geeignet ist.
4.
Die Auswahl der in Tab. 8.4 aufgezeigten Proximitätsmaße orientierte sich an den auch in der SPSS-Prozedur „Hierarchische Clusteranalyse“ bereitgestellten Maßen.
5.
Auf der zu diesem Buch gehörigen Internetseite www.multivariate.de stellen wir ergänzendes Material zur Verfügung, um das Verstehen der Methode zu erleichtern und zu vertiefen.
6.
Zur Vereinfachung der folgenden Berechnungen wurden nur ganzzahlige Werte in die Ausgangsdatenmatrix aufgenommen.
7.
Vgl. zur Standardisierung von Variablen die Ausführungen zu den statistischen Grundlagen in Abschn. 1.2.1.
8.
Eine ausführliche Darstellung zur Berechnung des Korrelationskoeffizienten findet der Leser in Abschn. 1.2.2.
9.
Aufgrund ihrer für die Praxis eher geringen Bedeutung werden die divisiven Verfahren hier nicht weiter betrachtet. Allerdings stehen in SPSS mit dem Klassifizierungsbaum (Menüfolge: Analysieren/Klassifizieren/Baum) divisive Clusteralgorithmen zur Verfügung.
10.
Der konkrete Ablauf eines Fusionierungsprozesses wird i. d. R. anhand einer Tabelle (sog. Zuordnungsübersicht) und auch grafisch mittels Dendrogramm oder Eiszapfendiagramm verdeutlicht. Beide Möglichkeiten werden für das Single Linkage-Verfahren in Abschn. 8.2.3.2.1 ausführlich erläutert.
11.
Für das erweiterte Anwendungsbeispiel wurden die Dendrogramme mit Hilfe der Prozedur CLUSTER in SPSS erzeugt. Vgl. hierzu die Darstellungen in Abschn. 8.3.2.
12.
Auch die Zuordnungsübersicht wurde mit Hilfe der Prozedur CLUSTER in SPSS erzeugt.
13.
Da in SPSS bisher keine Kriterien zur Bestimmung der optimalen Clusterzahl verfügbar sind, wird empfohlen ggf. auf alternative Programme wie S-Plus, R oder SAS und das hier verfügbare Cubic Clustering Criterion (CCC) zurückzugreifen.
14.
Zur Auffrischung der Grundlagen zum statistischen Testen bietet Abschn. 1.3 eine Zusammenfassung der grundlegenden Aspekte.
15.
Neben der KM-CA kann auch die Two-Step Clusteranalyse zur Optimierung einer gefundenen Clusterlösung herangezogen werden. Beide Verfahren zählen zu den partitionierenden Clustermethoden und werden in Abschn. 8.4.2 genauer dargestellt.
16.
Vgl. zur Ausreißer-Problematik auch die Ausführungen zu den Grundlagen empirischer Analysen in Abschn. 1.5.1.
17.
Vertiefende Betrachtungen zur Robustheit von Clusteranalysen findet der Leser z. B. in dem Beitrag von García-Escudero et al. (2010, S. 89).
18.
Zur Auffrischung der Grundlagen zum statistischen Testen bietet Abschn. 1.3 eine Zusammenfassung der grundlegenden Aspekte.
19.
Auf der Internetseite www.multivariate.de wird ergänzendes Material (z. B. Excel-Dateien) zur Verfügung gestellt, mit dessen Hilfe der Leser sein Verständnis zur Clusteranalyse vertiefen kann.
20.
Fehlende Werte sind ein häufiges und leider unvermeidbares Problem bei empirischen Erhebungen (z. B. weil Personen nicht antworten konnten oder wollten). Der Umgang mit fehlenden Werten in empirischen Studien wird in Abschn. 1.5.2 diskutiert.
21.
Die Mittelwerte wurden auf der Grundlage des Datensatzes berechnet, der auch im Fallbeispiel der Diskriminanzanalyse (Kap. 4), der Logistischen Regression (Kap. 5) und der Faktorenanalyse (Kap. 7) verwendet wurde. Die Gemeinsamkeiten und Unterschiede zwischen den Methoden können durch das gemeinsame Fallbeispiel besser veranschaulicht werden.
22.
Die multinomiale logistische Regression erfordert mindestens drei Gruppen. Im Falle der Zwei-Cluster-Lösung müsste hingegen eine binäre logistische Regression durchgeführt werden.

Literatur

Zitierte Literatur

Bergs, S. (1981). Optimalität bei Custer-Analysen. Münster: Diss.
Google Scholar
Calinski, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in statistics – Theory and methods, 3(1), 1–27.
Google Scholar
García-Escudero, L., Gordaliza, A., Matrán, C., & Mayo-Iscar, A. (2010). A review of robust clustering methods. Advances in Data Analysis and Classification, 4(2–3), 89–109.
Article Google Scholar
Kaufman, L., & Rousseeuw, P. (2005). Finding groups in data: an introduction to cluster analysis. New Jersey: John Wiley & Sons.
Google Scholar
Kline, R. (2011). Principles and practice of structural equation modeling (3. Aufl.). New York: Guilford Press.
Google Scholar
Lance, G. H., & Williams, W. T. (1966). A general theory of classification sorting strategies i hierarchical systems. The Computer Journal, 9(4), 373–380.
Google Scholar
Milligan, G. W. (1980). An examination of the effect of six types of error pertubation on fifteen clustering algorithms. Psychometrika, 45(3), 325–342.
Google Scholar
Milligan, G. W., & Cooper, M. (1985). An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50(2), 159–179.
Google Scholar
Mojena, R. (1977). Hierarchical clustering methods and stopping rules: An evaluation. The Computer Journal, 20(4), 359–363.
Article Google Scholar
Punj, G., & Stewart, D. (1983). Cluster analysis in marketing research: Review and suggestions for application. Journal of Marketing Research, 20(2), 134–148.
Article Google Scholar
Steinhausen, D., & Langer, K. (1977). Clusteranalyse. Berlin: de Gruyter.
Book Google Scholar
Wedel, M., & Kamakura, W. A. (2000). Market segmentation: Conceptual and methodological foundations (2. Aufl.). New York: Springer.
Book Google Scholar
Wind, Y. (1978). Issues and advances in segmentation research. Journal of Marketing Research, 15(3), 317–337.
Article Google Scholar

Weiterführende Literatur

Anderberg, M. R. (2014). Cluster analysis for applications: Probability and mathematical statistics: A series of monographs and textbooks (19. Aufl.). New York: Academic press.
Google Scholar
Eisen, M. B., Spellman, P. T., Brown, P. O., & Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences, 95(25), 14863–14868.
Article Google Scholar
Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5. Aufl.). New York: Wiley.
Book Google Scholar
Hennig, C., Meila, M., Murtagh, F., & Rocci, R. (Hrsg.). (2015). Handbook of cluster analysis. London: Chapman & Hall/CRC.
Google Scholar
Romesberg, C. (2004). Cluster analysis for researchers. Lulu.com.
Google Scholar
Wierzchoń, S., & Kłopotek, M. (2018). Modern algorithms of cluster analysis. Berlin: Springer Nature.
Book Google Scholar

Download references

Author information

Authors and Affiliations

Marketing Center Münster, Universität Münster, Münster, Nordrhein-Westfalen, Deutschland
Klaus Backhaus
Wirtschaftswissenschaft, Otto-von-Guericke-Universität, Magdeburg, Sachsen-Anhalt, Deutschland
Bernd Erichson
Marketing Center Münster, Universität Münster, Münster, Nordrhein-Westfalen, Deutschland
Sonja Gensler
Professur für Marketing, Innovation & E-Business, Universität Trier, Trier, Rheinland-Pfalz, Deutschland
Rolf Weiber
München, Deutschland
Thomas Weiber

Authors

Klaus Backhaus
View author publications
You can also search for this author in PubMed Google Scholar
Bernd Erichson
View author publications
You can also search for this author in PubMed Google Scholar
Sonja Gensler
View author publications
You can also search for this author in PubMed Google Scholar
Rolf Weiber
View author publications
You can also search for this author in PubMed Google Scholar
Thomas Weiber
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Klaus Backhaus .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Backhaus, K., Erichson, B., Gensler, S., Weiber, R., Weiber, T. (2021). Clusteranalyse. In: Multivariate Analysemethoden. Springer Gabler, Wiesbaden. https://doi.org/10.1007/978-3-658-32425-4_8

Download citation

DOI: https://doi.org/10.1007/978-3-658-32425-4_8
Published: 03 September 2021
Publisher Name: Springer Gabler, Wiesbaden
Print ISBN: 978-3-658-32424-7
Online ISBN: 978-3-658-32425-4
eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics