Advertisement

Hydrogeology Journal

, Volume 23, Issue 5, pp 851–868 | Cite as

Semi-automated filtering of data outliers to improve spatial analysis of piezometric data

  • Yohann Tremblay
  • Jean-Michel LemieuxEmail author
  • Richard Fortier
  • John Molson
  • René Therrien
  • Pierre Therrien
  • Guillaume Comeau
  • Marie-Catherine Talbot Poulin
Paper

Abstract

The identification and removal of data outliers remains a major challenge for spatial analysis of piezometric data. In this context, a simple semi-automated procedure for filtering outliers of depth to static water level was developed and used as a part of a regional groundwater-mapping project in the Québec Metropolitan Community, Québec, Canada. Following a few basic steps of data control, potential outliers were detected using two simple automated steps: (1) identifying water levels that are deeper than the 99th percentile of a high-reliability dataset compiled by groundwater professionals and assumed to adequately represent depths to static water level, and (2) using moving averages within a search radius of 250 m calculated around each well. All detected potential outliers were visually examined in a geographic information system and compared to neighbouring data before being kept or discarded. To evaluate the efficiency of the procedure, exploratory statistics, histograms and semi-variograms of the initial, intermediate and filtered datasets were compared to the high-reliability dataset. Objective interpolation was then performed using ordinary kriging. A cross-validation analysis showed a less biased and more accurate interpolation after applying the proposed outlier filtering procedure. Qualitative knowledge of the hydrogeological settings is an important component of this procedure which combines advantages of both manual and automated processing, making the procedure adaptive and easy to use. The final outcome of the proposed procedure is an improved interpolation map of depth to static water level along with minimised and low squared estimation errors.

Keywords

Outlier filtering Groundwater level Geostatistics Geographic information systems Canada 

Filtrage semi-automatique de données aberrantes pour améliorer l’analyse spatiale de données piézométriques

Résumé

L’identification et la suppression de données aberrantes restent un enjeu majeur pour l’analyse spatiale de données piézométriques. Dans ce contexte, une simple procédure semi-automatique pour filtrer des données aberrantes de profondeur du niveau d’eau statique a été développée et utilisée dans le cadre d’un projet de cartographie hydrogéologique régionale, de la communauté métropolitaine de Québec (Canada). En suivant quelques étapes basiques de contrôle de données, les données potentiellement aberrantes ont été détectées en utilisant deux étapes automatisées simples : (1) en identifiant les niveaux d’eau dont la profondeur est supérieure au 99ème percentile d’un jeu de données fiables, compilées par des hydrogéologues et considérées valides pour représenter la profondeur du niveau d’eau statique, et (2) en utilisant les moyennes glissantes dans un périmètre de 250 m autour de chaque puits. Toutes les données potentiellement aberrantes détectées ont été examinées dans un système d’information géographique et comparées aux données voisines avant d’être conservées ou écartées. Afin d’évaluer l’efficacité de la procédure, des statistiques exploratoires, des histogrammes et des semi-variogrammes des jeux de données initiaux, intermédiaires et filtrés ont été comparés au jeu de données fiables. Une interpolation objective a ainsi été réalisée en utilisant un krigeage ordinaire. Une analyse discriminante a montré une interpolation moins biaisée et plus précise, après avoir appliqué la procédure proposée de filtrage de données aberrantes. La connaissance qualitative des conditions hydrogéologiques est une composante importante de cette procédure qui associe les avantages de traitements à la fois manuels et automatisés, ce qui rend cette procédure adaptable et facile à utiliser. Le résultat final de la procédure proposée est une carte d’interpolation améliorée de la profondeur du niveau statique de l’eau, ainsi que des erreurs quadratiques minimisées et faibles.

Filtrado semi-automático de valores atípicos de datos para mejorar el análisis espacial de los datos piezométricos

Resumen

La identificación y eliminación de los valores atípicos de datos sigue siendo un desafío importante para el análisis espacial de los datos piezométricos. En este contexto, se desarrolló un procedimiento sencillo semi-automático para filtrar los valores atípicos de los datos de profundidad del nivel estático del agua y se usó como parte de un proyecto de mapeo regional de agua subterránea en la Comunidad Metropolitana de Québec, Québec, Canadá. Siguiendo unos pocos pasos básicos de control de datos, se detectaron posibles valores atípicos utilizando dos simples pasos automatizados: (1) identificar los niveles de agua que están más profundos que el percentil 99 de un conjunto de datos de alta fiabilidad compilado por profesionales hidrogeólogos y que se supuso que representaban adecuadamente profundidades hasta nivel estático del agua, y (2) utilizando promedios móviles dentro de un radio de búsqueda de 250 m calculados alrededor de cada pozo. Todos los posibles valores atípicos detectados se examinaron visualmente en un sistema de información geográfica y se comparan con los datos vecinos antes de ser guardados o descartados. Para evaluar la eficacia del procedimiento, se compararon conjuntos de datos iniciales, intermedios y filtrados de estadísticas exploratorias, histogramas y semi-variogramas con los conjuntos de datos de alta confiabilidad. Luego se realizó la interpolación objetivo mediante kriging ordinario. Un análisis de validación cruzada mostró una interpolación menos sesgada y más exacta después de aplicar el procedimiento de filtrado. El conocimiento cualitativo de la configuración hidrogeológica es una componente importante de este procedimiento que combina las ventajas del procesamiento manual y automático, haciendo que el procedimiento sea adaptativo y fácil de usar. El resultado final del procedimiento propuesto es un mapa de interpolación mejorado de profundidad del nivel estático del agua junto con bajos errores cuadráticos de estimación bajos y minimizados.

数据异常值的半自动化过滤以提高测压数据的空间分析水平

摘要

数据异常值的识别和排除仍然是测压数据空间分析的一个重要挑战。本文介绍了一种过滤静水位深度异常值的简单的半自动化程序。这个程序用在了加拿大魁北克省魁北克都市中一个区域地下水编图项目中。数据控制的几个基本步骤后,采用两个简单的步骤检测潜在的异常值:(1)确定地下水专业人员编辑的高度可靠的数据库中深于第99百分位的水位,假定这个水位可充分代表静水位的深度;(2)采用根据周围每个井计算的探寻半径为250米内的移动平均数。所有探测的潜在异常值在保留或弃用之前在地理信息系统中进行检测,并与相邻数据进行对比。为了评估程序的效率,初始的、中间的和过滤的数据库中的勘探统计学、直方图和半变异函数与高度可靠的数据库进行对比。然后采用普通的克里格法进行目标插值。应用所述异常值过滤程序,交叉验证显示出较小的偏倚及较准确的插值。水文地质背景的定性认知是这个程序的重要组成部分,这个程序结合人工和自动处理的优点,使程序非常适配和容易使用。所述程序的最终成果为静水位深度的改进插值图,其平方值估算误差最小,也最低。

Filtragem semi automática de dados discrepantes (outliers) para melhorar a análise espacial de dados piezométricos

Resumo

A identificação e remoção de dados discrepantes (outliers) permanecem um grande desafio para análise espacial de dados piezométricos. Nesse contexto, um simples procedimento semi automático para filtragem de outliers da profundidade do nível estático da água foi desenvolvido e usado como parte de um projeto de mapeamento regional das águas subterrâneas na Comunidade Metropolitana de Quebec, Quebec, Canadá. Seguindo alguns passos básicos de controle dos dados, potenciais outliers foram detectados usando dois simples passos automatizados: (1) identificando níveis de água que são mais profundos que o 99° percentil de um conjunto de dados de alta confiabilidade compilado por profissionais das águas subterrâneas e supondo representar adequadamente a profundidade do nível estático da água, e (2) usando médias móveis dentro de um raio de 250 m calculado ao redor de cada poço. Todos potenciais outliers detectados foram visualmente examinados em um sistema de informações geográficas e comparados a dados vizinhos antes de serem mantidos ou descartados. Para avaliar a eficiência do procedimento, estatísticas exploratórias, histogramas e semivariogramas dos conjuntos de dados iniciais, intermediários e filtrados foram comparados ao conjunto de dados de alta confiabilidade. Interpolação objetiva foi realizada então utilizando krigagem ordinária. A análise de validação cruzada mostrou uma interpolação menos enviesada e mais acurada depois da aplicação do procedimento de filtragem dos outliers proposto. Conhecimento quantitativo das configurações hidrogeológicas é um componente importante desse procedimento, o qual combina vantagens de ambos os procedimentos manuais e automatizados, fazendo o procedimento adaptativo e fácil de usar. O resultado final do procedimento proposto é um mapa da profundidade do nível estático da água com interpolação melhorada junto com uma estimativa minimizada e com baixos erros quadráticos.

Notes

Acknowledgements

The regional groundwater-mapping project of the Québec Metropolitan Community was funded by Québec’s Ministry of Sustainable Development, Environment and Initiatives against Climate Change, and by many local contributing organizations, including the Québec Metropolitan Community, partner cities (Québec, Lévis and Saint-Augustin-de-Desmaures), regional county municipalities (La Côte-de-Beaupré, L’Île-d’Orléans and La Jacques-Cartier) and watershed organizations (Charlevoix-Montmorency, de la Capitale, de la Côte-du-Sud, de la rivière Etchemin and de la Jacques-Cartier). The authors wish to thank the staff of the Québec Metropolitan Community and all graduate and undergraduate students of Université Laval who participated in the QMC regional groundwater-mapping project. Constructive reviews from the associate editor Ryan M. Pollyea and reviewer Changming He were really helpful to improve the original manuscript.

References

  1. Arihood LD (2009) Processing, analysis, and general evaluation of well-driller records for estimating hydrogeologic parameters of the glacial sediments in a ground-water flow model of the Lake Michigan Basin. US Geol Surv Sci Invest Rep 2008–5184Google Scholar
  2. ASTM (2010a) D5922-96 (2010): standard guide for analysis of spatial variation in geostatistical site investigations. ASTM, West Conshohocken, PA. doi: 10.1520/D5922-96R10 Google Scholar
  3. ASTM (2010b) D5923-96 (2010): standard guide for selection of kriging methods in geostatistical site investigations. ASTM, West Conshohocken, PA. doi: 10.1520/D5923-96R10 Google Scholar
  4. Bayless ER, Arihood LD (1996) Hydrogeology and simulated ground-water flow through the unconsolidated aquifers of northeastern St. Joseph County, Indiana. US Geol Surv Water Resour Invest Rep 95–4225Google Scholar
  5. Chen D, Lu C, Kou Y, Chen F (2008) On detecting spatial outliers. Geoinformatica 12(4):455–475. doi: 10.1007/s10707-007-0038-8 CrossRefGoogle Scholar
  6. Chung JW, Rogers JD (2012) Interpolations of groundwater table elevation in dissected uplands. Ground Water 50(4):598–607. doi: 10.1111/j.1745-6584.2011.00889.x CrossRefGoogle Scholar
  7. Comeau G, Talbot Poulin MC, Tremblay Y, Ayotte S, Molson J, Lemieux JM, Montcoudiol N, Therrien R, Fortier R, Therrien P, Fabien-Ouellet G (2013) Projet d’acquisition de connaissances sur les eaux souterraines en Outaouais, Rapport final [Knowledge acquisition project on groundwater in Outaouais, Final report]. Département de géologie et de génie géologique, Université Laval, QBGoogle Scholar
  8. Dunlap LE, Spinazola JM (1984) Interpolating water-table altitudes in west-central Kansas using kriging techniques. US Geol Surv Water Supply Pap 2238Google Scholar
  9. Felicísimo AM (1994) Parametric statistical method for error detection in digital elevation models. Photogramm Eng Remote Sens 49(4):29–33. doi: 10.1016/0924-2716(94)90044-2 CrossRefGoogle Scholar
  10. Fowler KK, Arihood LD (1998) Geohydrology and quality of ground water in unconsolidated aquifers near South Bend, Indiana. US Geol Surv Water Resour Invest Rep 98–4139Google Scholar
  11. Gerardin V, McKenney D (2001) Une classification climatique du Québec à partir de modèles de distribution spatiale de données climatiques mensuelles: vers une définition des bioclimats du Québec [A Québec climate classification based on spatially distributed models of monthly climatic data: towards a definition of Québec bioclimates]. Direction du patrimoine écologique et du développement durable, Ministère de l’Environnement, Quebec City, QBGoogle Scholar
  12. Hannah MJ (1981) Error detection and correction in digital terrain models. Photogramm Eng Remote Sens 47(1):63–69Google Scholar
  13. Hill-Rowley R, McClain T, Malone M (2003) Static water level mapping in east central Michigan. J Am Water Resour Assoc 39(1):99–111. doi: 10.1111/j.1752-1688.2003.tb01564.x CrossRefGoogle Scholar
  14. Isaaks EH, Srivastava RM (1989) An introduction to applied geostatistics. Oxford University Press, OxfordGoogle Scholar
  15. Krige DG, Magri EJ (1982) Studies of the effects of outliers and data transformation on variogram estimates for a base metal and a gold ore body. Math Geol 14(6):557–564. doi: 10.1007/BF01033879 CrossRefGoogle Scholar
  16. López C (1997) Locating some types of random errors in digital terrain models. Int J Geogr Inf Sci 11(7):677–698. doi: 10.1080/136588197242149 CrossRefGoogle Scholar
  17. Liu HX, Kenneth C, Jezek KC, O’Kelly ME (2010) Detecting outliers in irregularly distributed spatial data sets by locally adaptive and robust statistical analysis and GIS. Int J Geogr Inf Sci 15(8):721–741. doi: 10.1080/13658810110060442 CrossRefGoogle Scholar
  18. MDDELCC (2014a) Rapport de forage, Mode d’emploi et instructions [Drilling report, User manual and instructions]. Ministère du Développement durable, de l’Environnement et de la Lutte contre les changements climatiques, Province of Québec. http://www.mddelcc.gouv.qc.ca/eau/souterraines/forage/. Accessed 12 June 2014
  19. MDDELCC (2014b) Système d’information hydrogéologique [Hydrogeologic information system]. Ministère du Développement durable, de l’Environnement et de la Lutte contre les changements climatiques, Province of Québec. http://www.sih.mddep.gouv.qc.ca/. Accessed 12 June 2014
  20. MDDELCC (2014c) Réseau du suivi des eaux souterraines du Québec [Provincial groundwater-monitoring network]. Ministère du Développement durable, de l’Environnement et de la Lutte contre les changements climatiques, Province of Québec. http://www.mddelcc.gouv.qc.ca/eau/piezo/. Accessed 12 June 2014
  21. Poirier C, Fortier-Filion TC, Turcotte R, Lacombe P (2012) Apports verticaux journaliers estimés de 1900 à 2010, version 2012, Contribution au Programme d’acquisition de connaissances sur les eaux souterraines [Daily available recharge estimated from 1900 to 2010, version 2012, Contribution to the Groundwater Knowledge Acquisition Program]. Centre d’expertise hydrique du Québec, Ministère du Développement durable, de l’Environnement et de la Lutte contre les changements climatiques, Province of Québec, Québec City, QBGoogle Scholar
  22. Roth C (1998) Is lognormal Kriging suitable for local estimation? Math Geol 30(8):999–1009. doi: 10.1023/A:1021733609645 CrossRefGoogle Scholar
  23. Saito H, Goovaerts P (2000) Geostatistical interpolation of positively skewed and censored data in a dioxin-contaminated site. Environ Sci Technol 34(19):4228–4235. doi: 10.1021/es991450y CrossRefGoogle Scholar
  24. Snyder DT (2008) Estimated depth to ground water and configuration of the water table in the Portland, Oregon area. US Geol Surv Sci Invest Rep 2008–5059Google Scholar
  25. Stat Can (2014) Population and dwelling counts, for census metropolitan areas, 2011 and 2006 censuses. Statistics Canada, Ottawa. http://www12.statcan.ca/census-recensement/2011/dp-pd/hlt-fst/pd-pl/Table-Tableau.cfm?Lang=eng&T=205&S=3&RPP=50. Accessed 12 June 2014
  26. Talbot Poulin MC, Comeau G, Tremblay Y, Therrien R, Nadeau MM, Lemieux JM, Molson J, Fortier R, Therrien P, Lamarche L, Donati-Daoust F, Bérubé S (2013) Projet d’acquisition de connaissances sur les eaux souterraines du territoire de la Communauté métropolitaine de Québec, Rapport final [Knowledge acquisition project on groundwater of the Québec Metropolitan Community, Final report]. Département de géologie et de génie géologique, Université Laval, Laval, QBGoogle Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2015

Authors and Affiliations

  • Yohann Tremblay
    • 1
  • Jean-Michel Lemieux
    • 1
    Email author
  • Richard Fortier
    • 1
  • John Molson
    • 1
  • René Therrien
    • 1
  • Pierre Therrien
    • 1
  • Guillaume Comeau
    • 1
    • 2
  • Marie-Catherine Talbot Poulin
    • 1
  1. 1.Département de géologie et de génie géologiqueUniversité LavalQuébecCanada
  2. 2.Now at SNC Lavalin Inc.QuébecCanada

Personalised recommendations