Hydrogeology Journal

, Volume 10, Issue 4, pp 455–474 | Cite as

Evaluation of graphical and multivariate statistical methods for classification of water chemistry data

  • Cüneyt Güler
  • Geoffrey D. Thyne
  • John E. McCray
  • Keith A. Turner
Paper

Abstract.

A robust classification scheme for partitioning water chemistry samples into homogeneous groups is an important tool for the characterization of hydrologic systems. In this paper we test the performance of the many available graphical and statistical methodologies used to classify water samples including: Collins bar diagram, pie diagram, Stiff pattern diagram, Schoeller plot, Piper diagram, Q-mode hierarchical cluster analysis, K-means clustering, principal components analysis, and fuzzy k-means clustering. All the methods are discussed and compared as to their ability to cluster, ease of use, and ease of interpretation. In addition, several issues related to data preparation, database editing, data-gap filling, data screening, and data quality assurance are discussed and a database construction methodology is presented.

The use of graphical techniques proved to have limitations compared with the multivariate methods for large data sets. Principal components analysis is useful for data reduction and to assess the continuity/overlap of clusters or clustering/similarities in the data. The most efficient grouping was achieved by statistical clustering techniques. However, these techniques do not provide information on the chemistry of the statistical groups. The combination of graphical and statistical techniques provides a consistent and objective means to classify large numbers of samples while retaining the ease of classic graphical presentations.

Classification techniques Cluster analysis Database construction Fuzzy k-means clustering Water chemistry 

Résumé.

Un système robuste de classification pour répartir des échantillons de chimie de l'eau en groupes homogènes est un outil important pour la caractérisation des hydrosystèmes. Dans ce papier nous testons les performances des nombreuses méthodes graphiques et statistiques disponibles utilisées pour réaliser une classification des échantillons d'eau; ces méthodes sont les suivantes: les diagrammes en barres de Collins, en camembert, de Stiff, de Schoeller, de Piper, l'analyse hiérarchique en grappe en mode Q, le regroupement de moyennes K, l'analyse en composantes principales et le regroupement flou de moyennes K. Toutes ces méthodes sont discutées et comparées quant à leur aptitude à regrouper et leur facilité de mise en œuvre et d'interprétation. En outre, plusieurs points relatifs à la préparation des données, à l'édition des bases de données, à la reconstitution de données manquantes, à l'examen des données et au contrôle de validité des données sont discutés et une méthodologie d'élaboration d'une base de données est proposée.

L'utilisation de techniques graphiques a démontré qu'elle présente des limites par rapport aux méthodes multidimensionnelles, pour les jeux importants de données. L'analyse en composantes principales est utile pour réduire les données et pour évaluer la continuité/recouvrement des groupes ou le groupement/similitude dans les données. Le groupement le plus efficace est assuré par les techniques statistiques de regroupement en grappes. Cependant, ces techniques ne fournissent pas d'information sur le chimisme des groupes statistiques. La combinaison de techniques graphiques et statistiques donne les moyens solides et objectifs de faire une classification d'un grand nombre d'échantillons tout en conservant la facilité des représentations graphiques classiques.

Resumen.

Disponer de un esquema sólido de clasificación química de muestras de agua en grupos homogéneos es una herramienta importante para la caracterización de sistemas hidrológicos. En este artículo, contrastamos la utilidad de muchas metodologías gráficas y estadísticas disponibles para clasificar muestras de aguas; entre ellas, hay que citar el diagrama de barras de Collins, diagramas de sectores, diagrama de Stiff, gráfico de Schoeller, diagrama de Piper, análisis jerárquico de conglomerados en modo-Q, conglomerados de K-medias, análisis de componentes principales, y conglomerados difusos de k-medias. Se discute todos los métodos, comparándolos en función de su capacidad para establecer agrupaciones, de su facilidad de uso y de su facilidad de interpretación. Además, se discute varios aspectos relacionados con la entrada de datos, edición de bases de datos, extrapolación de datos en series incompletas, visualización de datos, y garantía de calidad de los datos, y se presenta una metodología para elaborar una base de datos.

Se demuestra que el uso de técnicas gráficas padece limitaciones respecto a los métodos multivariados para conjuntos de datos numerosos. El análisis de componentes principales es útil para reducir el número de datos y establecer la continuidad/superposición de grupos o agrupaciones/similaridades en los datos. Los resultados más efectivos se logran mediante técnicas estadísticas de agrupamiento; sin embargo, éstas no proporcionan información sobre la química de los grupos estadísticos. La combinación de técnicas gráficas y estadísticas posibilita un enfoque coherente y objetivo para clasificar números elevados de muestras y, a la vez, mantener la facilidad de las presentaciones gráficas convencionales.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Copyright information

© Springer-Verlag 2002

Authors and Affiliations

  • Cüneyt Güler
    • 1
  • Geoffrey D. Thyne
    • 1
  • John E. McCray
    • 1
  • Keith A. Turner
    • 1
  1. 1.Colorado School of Mines, Department of Geology and Geological Engineering, 1500 Illinois Street, Golden, CO 80401, USAUSA

Personalised recommendations