Zusammenfassung
Die Leistungsfähigkeit von sieben der gebräuchlichsten hierarchischen Klassifikationsverfahren bei der Aufteilung von Untersuchungsgesamtheiten in “natürliche” und “homogene” Klassen wird anhand der Klassifikationsergebnisse von mehreren zufällig erzeugten Gesamtheiten analysiert.
Bei der Untersuchung (1) der Güte der Anpassung der Hierarchie an die empirische Distanzmatrix, (2) der Tendenz der Verfahren, gleich große Klassen zu bilden, und (3) der Homogenität der Klassifikationsergebnisse bezüglich verschiedener Homogenitätsmaße führen die Verfahren Group Average und Average Linkage sowie das Verfahren von Ward zu den durchschnittlich besten Ergebnissen. Unter diesen erweist sich wiederum Average Linkage, das bei Verwendung quadrierter Euklidscher Distanzen schrittweise Klassen mit minimaler Varianz erzeugt, als im Durchschnitt optimal.
Anhand eines Beispiels werden die Klassifikationseigenschaften des Verfahrens dargestellt. Einige Anwendungsprobleme werden behandelt.
Summary
The ability of seven of the most common clustering methods to partition a population into “natural” and “homogenous” groups is explored by means of the grouping results of several randomly generated populations.
In the investigation of (1) the goodness of fit of the hierarchy to the matrix of empirical distances, (2) the tendency of the methods, to form groups of equal size, and (3) the homogeneity of the grouping results with regard to various measures of homogeneity, Group Average, Average Linkage and Ward's method on average produce the best results. Of these methods Average Linkage, which stepwise produces minimum variance groups using squared Euclidean distances, on average proves to be the best.
The grouping features of Average Linkage are demonstrated by means of an example. Some problems of application are discussed.
Résumé
L'efficience de sept des méthodes les plus courantes pour la classification hiérarchique en répartissant une population en groupes “naturels” et “homogène” est analysée à l'aide de résultats de classification de plusieurs populations en provenance de processus aléatoires.
Examinant (1) la qualité de l'adaptation de l'hiérarchie à la matice de distance empiriques, (2) la tendance des méthodes pour la formation de groupes de grandeur identique et (3) l'homogéneite des résultats de classification en ce qui concerne des mesures de l'homogéneite variées, les méthodes Group Average, Average Linkage et la méthode de Ward éprouvent les résultats en moyenne les meilleurs. Parmi celles-ci Average Linkage produisant progressivement des groupes avec des variances minimales par des distances carrées d'Euklid s'avère d'être optimale en moyenne.
Les caractéristiques de classification de cette méthode sont présentés à l'aide d'un exemple. Quelques problèmes d'application sont discutés.
Резюме
Действенность семи самых употребительных иерархических классификационных метод при разделении иследовательских совокупностей на “естественные” и “однородные” классы анализируется при помощи классификационныс результатов нескольких случайно образованных совокупностей.
При иследовании (I) качества приснособления иерархии к эмпирической матрицы расстояния, (2) тенденцни метода образовать одинаковые классы и (3) однородности классификационных результатов относительно разных мер однородности приводит метод грун эвридж и эвридж линкидж а также метод ворда к средним лучшим результатам. Среди них онять оказывается метод, эвридж линкидж, который образует шаг за шагом классы с минимальнож дисперсией, а то при применении квадратных расстояний Зуклида, в среднем онтимальным.
На одном примере изображаются классификационные свойства этого метода. Свыме того рассматриваются некоторые трудности в применении выше упомянутого метода.
Literaturverzeichnis
Anderberg, M. R.: Cluster Analysis for Applications, New York u. London 1973.
Bock, H. H.: Automatische Klassifikation, Göttingen 1974.
Lance, G. N. und W. T. Williams: A General Theory of Classificatory Strategies. 1. Hierarchical Systems. The Computer Journal 9 (1967), S. 373–380.
Möllers, H.: Infrastrukturausstattung und Entwicklung von Städten—Methoden der multivariaten Analyse. Beiträge zum Siedlungs-und Wohnungswesen und zur Raumplanung, Band 42, Münster 1977.
Rohlf, F.J.: Generalization of the Gap Test for the Detection of Multivariate Outliers. Biometrics 31 (1973), S. 92–101.
Sedlacek, P.: Zur Klassifizierung räumlicher Bezugseinheiten durch Matrixauswertung. ASTA 3 (1977), S. 254–275.
Sherif, S.A.: Die Anwendung der “Wroclaw-Taxonomy” auf Input-Output-Tabellen. Statistische Hefte 18 (1977), S. 58–67.
Sherif, S. A.: Ein hierarchisch-agglomeratives Klassifikationsverfahren zur Anwendung auf Input-Output-Tabellen. Statistische Hefte 19 (1978), S. 53–62.
Sitterberg, G.: Multivariate Analyse der Struktur und Entwicklung von Städten. Beiträge zum Siedlungs- und Wohnungswesen und zur Raumplanung. Band 41, Münster 1977.
Sneath, P.H.A.: Evaluation of Clustering Methods. In: A.J. Cole (Ed.), Numerical Taxonomy, London, New York 1969, S. 257–271.
Sokal, R.R. und F.J. Rohlf: The Comparison of Dendrogramms by Objective Methods. Taxon 11 (1962), S. 33–40.
Späth, H.: Cluster-Analyse-Algorithmen zur Objektklassifizierung und Datenreduktion, München u. Wien 1975.
Vogel, F.: Einige Bemerkungen zur Anwendung der “Wroclaw-Taxonomy” auf Input-Output-Tabellen. Statistische Hefte 19 (1978), S. 45–52.
Williams, W.T., H.T. Clifford und G.N. Lance: Group Size Dependence: A Rationale for Choice between Numerical Classifications. The Computer Journal 14 (1971), S. 157–162.
Rights and permissions
About this article
Cite this article
Sitterberg, G. Zur Anwendung hierarchischer Klassifikationsverfahren. Statistische Hefte 19, 231–246 (1978). https://doi.org/10.1007/BF02932722
Issue Date:
DOI: https://doi.org/10.1007/BF02932722