Skip to main content
  • 25k Accesses

Zusammenfassung

Vor allem in den wirtschaftswissenschaftlichen Disziplinen basieren viele strategische Überlegungen auf der Existenz von unterschiedlichen (Kunden-)Gruppen innerhalb einer Gesamtpopulation. Dem Rat des Mephistopheles folgend – es wird nächstens schon besser gehen, Wenn ihr lernt alles reduzieren Und gehörig klassifizieren (Goethe 1949, S. 201) benötigen Theoretiker und Praktiker objektive und nachvollziehbare Verfahren zur Abgrenzung homogener Gruppen innerhalb einer Gesamtheit von Beobachtungen. Diverse Techniken der Clusteranalyse können diese homogenen Gruppierungen liefern. In diesem Kapitel werden die Hierarchische Clusteranalyse und die Clusterzentrenanalyse genauer erläutert. Neben der Beschreibung der Grundidee der beiden Techniken, werden Vor- und Nachteile bei der Verwendung unterschiedlicher Distanzmaße und Fusionierungsalgorithmen dargelegt. Insbesondere wird auf die Gütekriterien zur Bewertung von Lösungen mit unterschiedlicher Clusteranzahl Wert gelegt. Zum Abschluss wird gezeigt, wie sich die Clusteranalyse mit Hilfe von SPSS oder Stata berechnen lässt. Die Inhalte werden in Übungsaufgaben vertieft.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 44.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 59.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Im Gegensatz hierzu werden bei Divisiven Verfahren alle Beobachtungen zunächst als ein Cluster aufgefasst. Dieses wird in einem ersten Schritt algorithmisch in zwei Gruppen aufgeteilt, in einem zweiten Schritt wird eine dieser Gruppen wieder in zwei einzelne Gruppen aufgeteilt, usw. Der entscheidende Nachteil Divisiver Verfahren ist die hohe Rechenkomplexität. Während bei agglomerativen Verfahren mit n Beobachtungen beim rechenintensivsten ersten Schritt insgesamt n(n − 1) / 2 Distanzmessungen durchgeführt werden müssen, sind es bei Divisiven Verfahren bei Bildung von zwei nicht leeren Gruppen insgesamt 2(n−1) − 1 mögliche Vergleichsrechnungen. Die hohe Zeit- und Rechenkomplexität Divisiver Hierarchischer Verfahren dürfte auch der Grund dafür sein, dass sie weder in der Literatur häufig ausführlich beschrieben werden, noch in den gängigen Statistikpaketen implementiert sind.

  2. 2.

    Der Leser mache sich deutlich, dass die Anwendung der Euklidischen Distanz auf den zweidimensionalen Fall der Formel des Satzes von Pythagoras entspricht.

  3. 3.

    Von jedem Wert einer Variablen wird der zugehörige Mittelwert \( \bar{\text{x}}\) abgezogen und dieser Wert durch die Standardabweichung S der Variablen geteilt: \( \text{z}_{\text{i}}=\frac{\text{x}_{\text{i}}-\bar{\text{x}}}{\text{S}}\).

  4. 4.

    Eine Zerlegung in drei Kalorienvariablen erfolgt beispielsweise wie folgt: Die Kalorienvariable 1 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 60 und 99,99 Kalorien liegt. Die Kalorienvariable 2 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 100 und 139,99 Kalorien liegt. Die Kalorienvariable 3 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 140 und 200 Kalorien liegt. Alle sonstigen Werte sind gleich Null. Die Variable Kalorienzahl wird somit mit Hilfe von drei Variablen dichotomisiert.

  5. 5.

    Eine Besonderheit von Centroid-linkage- und Average-linkage-Verfahren ist die Tatsache, dass die Heterogenität nicht zwangsläufig mit jedem Fusionierungsschritt zunimmt.

  6. 6.

    Bei der Varianzanalyse werden die Clusterzugehörigkeit als unabhängiger Faktor und die bei der Clusteranalyse verwendeten n Dimensionen (Variablen) jeweils in n unterschiedlichen Varianzanalysen hintereinander als abhängige Variablen gewählt. In unserem Beispiel sind dies zwei Varianzanalysen mit den n = 2 abhängigen Variablen Kosten und Kalorien der Biere. Tatsächlich ergeben sich bei den beiden durchgeführten Varianzanalysen signifikante Unterschiede hinsichtlich der drei Gruppen: Gemäß der post-hoc Verfahren unterscheiden sich Premiumbiere preislich und die Light Biere in ihrem Kaloriengehalt signifikant von den restlichen Bieren. Scheffé und Tamhane Tests ergeben gleichermaßen diese Signifikanzunterschiede.

  7. 7.

    Der Centroid wird ermittelt, indem für alle Beobachtungen eines jeden Clusters getrennt der Mittelwert für jede Variable berechnet wird.

  8. 8.

    (−0,401 − (−0,401))2 + (−1,353 − (−0,563))2 = 0,792: Distanz: 0,79.

  9. 9.

    (−0,571 − (−0,401))2 + (0,486 − (−0,563))2 = 0,652: Distanz: 0,65.

  10. 10.

    In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → Hierarchische Cluster …

  11. 11.

    In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Deskriptive Statistiken → Deskriptive Statistik …

  12. 12.

    In der deutschsprachigen SPSS Version heißt dieses Feld Standardisierte Werte als Variable speichern.

  13. 13.

    In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → K-Means Cluster …

Literatur

  • Backhaus K, Erichson B, Plinke W, Weiber R (2011) Multivariate Analysemethoden. Eine Anwendungsorientierte Einführung, 13. Aufl. Springer, Berlin, Heidelberg

    Google Scholar 

  • Berg S (1981) Optimalität bei Cluster-Analysen. Westfälische Wilhelms-Universität, Münster (Münster: Dissertation, Fachbereich Wirtschafts- und Sozialwissenschaften)

    Google Scholar 

  • Bühl A (2012) Einführung in die moderne Datenanalyse unter Windows, 13. Aufl. SPSS 20. Pearson Studium, München

    Google Scholar 

  • Everitt BS, Rabe-Hesketh S (2004) A Handbook of Statistical Analyses Using Stata, 3. Aufl. Chapman & Hall, Boca Raton

    MATH  Google Scholar 

  • Goethe JW (1949) Faust. Eine Tragödie. In: Beutler E (Hrsg) Gedenkausgabe der Werke, Briefe und Gespräche, Bd. 5. Artemis, Zürich, S 140–526

    Google Scholar 

  • Janssens W, Wijnen K, de Pelsmacker P, van Kenvove P (2008) Marketing Research with. Pearson Education, Esse

    Google Scholar 

  • Kaufman L, Rousseeuw PJ (1990) Finding Groups in Data. Wiley, New York

    Google Scholar 

  • Mooi E, Sarstedt M (2011) A Concise Guide to Market Research. The Process, Data, and Methods Using IBM SPSS Statistics. Springer, Berlin und Heidelberg

    Google Scholar 

  • Ward JH Jr. (1963) Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association 58:236–244

    Article  MathSciNet  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Thomas Cleff .

Rights and permissions

Reprints and permissions

Copyright information

© 2015 Springer Fachmedien Wiesbaden

About this chapter

Cite this chapter

Cleff, T. (2015). Clusteranalyse. In: Deskriptive Statistik und Explorative Datenanalyse. Gabler Verlag, Wiesbaden. https://doi.org/10.1007/978-3-8349-4748-2_7

Download citation

Publish with us

Policies and ethics