Data Mining mit unsicheren Daten

Fallbeispiel OpenStreetMap
Schwerpunkt

Zusammenfassung

Im Zeitalter von Big Data werden immense Informationsbestände aus unterschiedlichen Quellen gesammelt. Die Daten sind häufig unvollständig, unsicher und ungenau. Ein Beispiel hierfür ist das OpenStreetMap Projekt, bei dem Nutzer auf der ganzen Welt einmal mehr und einmal weniger „sauber“ bzw. vollständig Daten beisteuern. In diesem Beitrag wird gezeigt, ob sich diese Daten eignen um ein betriebswirtschaftliches Problem zu lösen. Ein konkretes Fallbeispiel verdeutlicht, wie gut Standortentscheidungen einer Fast Food Kette unter Anwendung fortgeschrittener datenanalytischer Verfahren, wie bspw. Künstlicher Neuronaler Netze, Entscheidungsbäume und Logit-Modelle, nachempfunden werden können. Als Grundlage dienen die Daten des OpenStreetMap Projekts. Im Konkreten geht es darum, potenzielle Filialstandorte hinsichtlich deren Güte mittels OpenStreetMap Daten zu klassifizieren und die prognostizierten Lokationen mit tatsächlichen Standortentscheidungen zu vergleichen. Dabei zeigt sich, dass die Daten des OpenStreetMap Projekts grundsätzlich für die Prognose von Standorten geeignet sind. Allerdings ist die Wahl des datenanalytischen Verfahrens von Bedeutung. Im vorliegenden Fall konnte mit Hilfe der Künstlichen Neuronalen Netze das beste Prognoseergebnis erzielt werden.

Schlüsselwörter

Data Mining OpenStreetMap Standortanalyse Neuronales Netz Entscheidungsbaum Logit-Analyse 

Data Mining Based on Uncertain Data

An OpenStreetMap Case Study

Abstract

In the age of big data, a huge amount of information is being collected from diverse sources. These data are often incomplete, uncertain, and imprecise. An excellent example is the OpenStreetMap project, where users across the whole world contribute data on a more or less precise and complete level. This article shows whether these data are suited to support management decisions. A real-world example illustrates the extent to which location decisions of a fast food restaurant chain may be reproduced by means of advanced data analytic techniques, such as neural networks, decision trees, and logit models. The data are retrieved form the OpenStreetMap project. The basic task deals with classifying potential locations of the fast food restaurant chain and comparing the predicted locations with the actual locations. We find that data based on the OpenStreetMap project are generally suited for forecasting locations. However, the choice of the data analytic technique is important. In the case under consideration, neural networks resulted in the best forecast.

Keywords

Data mining OpenStreetMap Location decision Neural network Decision tree Logit model 

Literatur

  1. Agrawal P, Sarma AD, Ullman J, Widom J (2010) Foundations of uncertain-data integration. Proceedings VLDB Endowment 3(1):1080–1090.  https://doi.org/10.14778/1920841.1920976 CrossRefGoogle Scholar
  2. Backhaus K, Erichson B, Plinke W, Weiber R (2016) Multivariate Analysemethoden. Springer Gabler, Berlin, HeidelbergCrossRefMATHGoogle Scholar
  3. Chang RM, Kauffman RJ, Kwon Y (2014) Understanding the paradigm shift to computational social science in the presence of big data. Decis Support Syst 63:67–80.  https://doi.org/10.1016/j.dss.2013.08.008 CrossRefGoogle Scholar
  4. Cleve J, Lämmel U (2014) Data mining. De Gruyter, Oldenbourg, MüchenCrossRefGoogle Scholar
  5. Fasel D, Meier A (2016) Big Data: Grundlagen, Systeme und Nutzungspotenziale. Springer Vieweg, WiesbadenCrossRefGoogle Scholar
  6. Haklay M (2010) How good is volunteered geographical information? A comparative study of openstreetmap and ordnance survey datasets. Environ Plann B Plann Des 37(4):682–703.  https://doi.org/10.1068/b35097 CrossRefGoogle Scholar
  7. Hess RL, Rubin RS, West LA (2004) Geographic information systems as a marketing information system technology. Decis Support Syst 38(2):197–212.  https://doi.org/10.1016/S0167-9236(03)00102-7 CrossRefGoogle Scholar
  8. Heuberger-Götsch O (2016) Der Wert von Daten aus juristischer Sicht am Beispiel des Profiling. In: Fasel D, Meier A (Hrsg) Big Data: Grundlagen, Systeme und Nutzungspotenziale. Springer, Wiesbaden, S 83–105Google Scholar
  9. Kellner F (2016) Analyse logistischer Systeme mittels Online-Navigationsdiensten – Bessere Planung auf Grundlage besserer Daten. HMD Prax Wirtschaftsinform 53(6):894–905.  https://doi.org/10.1365/s40702-016-0245-6 CrossRefGoogle Scholar
  10. Kisilevich S, Keim D, Rokach L (2013) A GIS-based decision support system for hotel room rate estimation and temporal price prediction: the hotel brokers’ context. Decis Support Syst 54(2):1119–1133.  https://doi.org/10.1016/j.dss.2012.10.038 CrossRefGoogle Scholar
  11. Li H, Yu B, Zhou D (2013) Error rate analysis of labeling by crowdsourcing. http://arxiv.org/pdf/1307.2674. Zugegriffen: 20. Jan. 2018Google Scholar
  12. Little RJA, Rubin DB (2002) Statistical analysis with missing data. Wiley, HobokenCrossRefMATHGoogle Scholar
  13. Meier A, Kaufmann M (2016) SQL- & NoSQL-Datenbanken. Springer, Heidelberg, BerlinCrossRefGoogle Scholar
  14. Neis P, Goetz M, Zipf A (2012) Towards automatic vandalism detection in openstreetmap. ISPRS Int J Geoinf 1(3):315–332.  https://doi.org/10.3390/ijgi1030315 CrossRefGoogle Scholar
  15. Ngai EWT, Xiu L, Chau DCK (2009) Application of data mining techniques in customer relationship management: a literature review and classification. Expert Syst Appl 36(2):2592–2602.  https://doi.org/10.1016/j.eswa.2008.02.021 CrossRefGoogle Scholar
  16. Pick JB, Turetken O, Deokar AV, Sarkar A (2017) Location analytics and decision support: reflections on recent advancements, a research framework, and the path ahead. Decis Support Syst 99:1–8.  https://doi.org/10.1016/j.dss.2017.05.016 CrossRefGoogle Scholar
  17. Ripley BD (2002) Pattern recognition and neural networks. Cambridge University Press, CambridgeMATHGoogle Scholar
  18. Roick O, Neis P, Zipf A (2011) Volunteered Geographic Information – Datenqualität und Nutzungspotentiale am Beispiel von OpenStreetMap. http://oliverroick.de/publications/2011/DGfK_VGI.pdf. Zugegriffen: 20. Jan. 2018Google Scholar
  19. Schröder N, Hruschka H (2012) Response measurement and optimization of direct mailings. J Betriebswirtsch 62(3):261–308.  https://doi.org/10.1007/s11301-012-0088-3 CrossRefGoogle Scholar
  20. Stockinger K, Stadelmann T (2014) Data Science für Lehre, Forschung und Praxis. HMD Prax Wirtschaftsinform 51(4):469–479.  https://doi.org/10.1365/s40702-014-0040-1 CrossRefGoogle Scholar
  21. Venables WN, Ripley BD (2002) Modern applied statistics with S. Springer, New YorkCrossRefMATHGoogle Scholar
  22. Zielstra D, Zipf A (2010) A comparative study of proprietary geodata and volunteered geographic information for Germany. http://www.geog.uni-heidelberg.de/md/chemgeo/geog/gis/agile2010_zielstra_zipf_final5.pdf. Zugegriffen: 20. Jan. 2018Google Scholar

Copyright information

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2018

Authors and Affiliations

  1. 1.Faculty of Business, Economics and Management Information SystemsUniversity of RegensburgRegensburgDeutschland

Personalised recommendations