Advertisement

Datenbank-Spektrum

, Volume 17, Issue 2, pp 183–196 | Cite as

Daten wie Sand am Meer – Datenerhebung, -strukturierung, -management und Data Provenance für die Ostseeforschung

  • Ilvio Bruder
  • Meike Klettke
  • Mark Lukas Möller
  • Frank Meyer
  • Andreas Heuer
  • Susanne Jürgensmann
  • Susanne Feistel
Fachbeitrag

Zusammenfassung

Das Datenmanagement für heterogene Umweltdaten wird am Beispiel verschiedener Projekte aus dem maritimen Umfeld gezeigt. Besonderer Schwerpunkt dabei sind eine Pipeline zur Integration heterogener Forschungsdaten, die Nachvollziehbarkeit der Daten (Data Provenance) und die Berücksichtigung temporaler Aspekte bei der Erhebung, Speicherung und Auswertung der Daten.

Notes

Danksagung

Wir danken den Mitarbeitern der IOW-Arbeitsgruppe Chemische in situ Sensoren um Ralf Prien sowie den Mitarbeitern der IOW-Arbeitsgruppe Ökologie benthischer Organismen um Michael Zettler für die fachliche Unterstützung und die Bereitstellung der Daten. Weiterhin danken wir den studentischen Projektgruppen und Hilfskräften der Generationen 2015 und 2016 für ihre Unterstützung bei der Implementierung einzelner Komponenten des Frameworks, der Provenance-Techniken (Projekt METIS) und der Privacy-Techniken (Projekt PArADISE): im Cluster Forschungsdatenmanagement-Framework Dennis Weu, Paul Wegener, Oleg Wagenleitner, Hannes Awolin; im Cluster Provenance Jan Svacina, Pia Wilsdorf, Tanja Auge, Sabrina Brossmann, Marc Stefan Martens, Daniel Horak; im Cluster Privacy Jan Tepke, Hannes Steffenhagen, Christoph Damerius, Martin Haufschild, Felix Thomas Wächter; übergreifend unseren Hilfskräften Richard Dabels, Johann Kluth, Jörg Stüwe.

Literatur

  1. 1.
    Bose R, Frew J (2005) Lineage retrieval for scientific data processing: a survey. ACM Comput Surv 37(1):1–28CrossRefGoogle Scholar
  2. 2.
    Buneman P, Chapman A, Cheney J (2006) Provenance management in curated databases. In: Proceedings of the 2006 ACM SIGMOD international conference on management of data - SIGMOD ’06. ACM, New York, pp 539–550CrossRefGoogle Scholar
  3. 3.
    Büttner S, Hobohm HC, Müller L (2011) Handbuch Forschungsdatenmanagement. BOCK+HERCHEN, Bad HonnefGoogle Scholar
  4. 4.
    Celko J (2012) Joe Celko’s trees and hierarchies in SQL for smarties. Morgan Kaufmann, Elsevier, BurlingtonGoogle Scholar
  5. 5.
    Cheney J, Chiticariu L, Tan WC (2009) Provenance in databases: why, how, and where. Found Trends Databases 1(4):379–474CrossRefGoogle Scholar
  6. 6.
    Curino CA, Moon HJ, Zaniolo C (2008) Graceful database schema evolution: the prism workbench. Proceedings VLDB Endowment 1(1):761–772CrossRefGoogle Scholar
  7. 7.
    Dalamagas T, Cheng T, Winkel KJ, Sellis T (2006) A methodology for clustering XML documents by structure. Inf Syst 31:187–228CrossRefzbMATHGoogle Scholar
  8. 8.
    Doan A, Halevy AY, Ives ZG (2012) Principles of data integration. Morgan Kaufmann, BurlingtonGoogle Scholar
  9. 9.
    Fagin R, Kolaitis PG, Popa L, Tan WC (2011) Schema mapping evolution through composition and inversion. In: Schema matching and mapping. Springer, HeidelbergGoogle Scholar
  10. 10.
    Glavic B, Alonso G (2009) The PERM provenance management system in action. In: Proceedings of the 35th SIGMOD international conference on Management of data - SIGMOD ’09. ACM, New YorkGoogle Scholar
  11. 11.
    Hartung M, Terwilliger JF, Rahm E (2011) Recent advances in schema and ontology evolution. In: Schema matching and mapping. Springer, Heidelberg, pp 149–190CrossRefGoogle Scholar
  12. 12.
    Hegewald J, Naumann F, Weis M (2006) XStruct: efficient schema extraction from multiple and large XML documents. In: ICDE Workshops, pp 81Google Scholar
  13. 13.
    Heuer A (1989) Equivalent schemes in semantic, nested relational, and relational database models. In: Proceedings MFDBS’89, pp 237–253Google Scholar
  14. 14.
    Heuer A (2015) METIS in PArADISE: Provenance Management bei der Auswertung von Sensordatenmengen für die Entwicklung von Assistenzsystemen. In: BTW workshops, pp 131–136Google Scholar
  15. 15.
    ISO/IEC 9075-2:2011 (2011) Information technology - Database languages - SQL-Part 2: Foundation (SQL/Foundation). Tech. rep., ISO/IEC JTC 1/SC 32 Google Scholar
  16. 16.
    Kirsten T, Gross A, Hartung M, Rahm E (2011) GOMMA: a component-based infrastructure for managing and analyzing life science ontologies and their evolution. J Biomed Semant 2(1):6CrossRefGoogle Scholar
  17. 17.
    Klettke M (2007) Modellierung, Bewertung und Evolution von XML-Dokumentkollektionen. Habilitationsschrift. Logos, BerlinGoogle Scholar
  18. 18.
    Klettke M, Meyer H (2000) XML and object-relational database systems - enhancing structural mappings based on statistics. In: Proceedings WebDB, pp 151–170Google Scholar
  19. 19.
    Klettke M, Scherzinger S, Störl U (2014) Datenbanken ohne Schema? Herausforderungen und Lösungs-Strategien in der agilen Anwendungsentwicklung mit schema-flexiblen NoSQL-Datenbanksystemen. Datenbank Spektrum 14(2):119–129CrossRefGoogle Scholar
  20. 20.
    Klettke M, Scherzinger S, Störl U (2015) Schema extraction and structural outlier detection for JSON-based NoSQL data stores. In: Proceedings BTW’15, pp 425–444Google Scholar
  21. 21.
    Kulkarni K, Michels JE (2012) Temporal features in SQL:2011. ACM SIGMOD Rec 41(3):34–43CrossRefGoogle Scholar
  22. 22.
    Köppen V, Saake G, Sattler KU (2012) Data Warehouse Technologien. mitp, FrechenGoogle Scholar
  23. 23.
    Leser U, Naumann F (2006) Informationsintegration. dpunkt.verlag, HeidelbergzbMATHGoogle Scholar
  24. 24.
    Luksetich DL (2012) How to leverage DB2’s automated time travel queries and temporal tables. Enterprise Systems Media, RichardsonGoogle Scholar
  25. 25.
    McPhilips T, Bowers S, Ludäscher B (2006) Collection-oriented scientific workflows for integrating and analyzing biological data. In: Proceedings of the DILS WorkshopGoogle Scholar
  26. 26.
    Meyer F (2015) Aufbau einer Artenlistenverwaltung im Benthos-Projekt. Bachelor-Arbeit, Universität Rostock Google Scholar
  27. 27.
    Meyer F (2016) Temporale Aspekte und Provenance-Anfragen im Umfeld des Forschungsdatenmanagements. Master-Arbeit, Universität Rostock Google Scholar
  28. 28.
    Miller RJ (2007) Retrospective on Clio: schema mapping and data exchange in practice. In: Proceedings Ws. DL’07Google Scholar
  29. 29.
    Miller RJ, Hernández MA, Haas LM, Yan L, Ho CTH, Fagin R, Popa L (2001) The Clio project: managing heterogeneity. ACM SIGMOD Rec 30(1):78–83CrossRefGoogle Scholar
  30. 30.
    Moh CH, Lim EP, Ng WK (2000) DTD-miner, a tool for mining DTD from XML documents. In: Proceedings WECWISGoogle Scholar
  31. 31.
    Moreau L, Groth PT (2013) Provenance: an introduction to PROV. Morgan & Claypool, San RafaelGoogle Scholar
  32. 32.
    Motro A (1994) Intensional answers to database queries. IEEE Trans Knowl Data Eng 6(3):444–454CrossRefGoogle Scholar
  33. 33.
    Möller ML (2016) Aufbau einer Forschungsdatenverwaltung für chemische und physikalische In-Situ-Daten aus der Ostsee. Bachelor-Arbeit, Universität Rostock Google Scholar
  34. 34.
    Naumann F, Leser U, Freytag JC (1999) Quality-driven integration of heterogenous information systems. In: Proceedings VLDB’99, pp 447–458Google Scholar
  35. 35.
    Necaský M, Klímek J, Malý J, Mlýnková I (2012) Evolution and change management of XML-based systems. J Syst Softw 85(3):683–707CrossRefGoogle Scholar
  36. 36.
    Prien RD, Schulz-Bull DE (2016) Technical note: GODESS – a profiling mooring in the Gotland Basin. Ocean Sci Discuss. doi: 10.5194/os-2016-11 Google Scholar
  37. 37.
    Rahm E, Do HH (2000) Data cleaning: problems and current approaches. IEEE Data Eng Bull 23(4):3–13Google Scholar
  38. 38.
    Rahm E, Kirsten T, Lange J (2007) The GeWare data warehouse platform for the analysis of molecular-biological and clinical data. J Integr Bioinform 4(1):47Google Scholar
  39. 39.
    Redman TC (1996) Data quality for the information age. Artech House, LondonGoogle Scholar
  40. 40.
    Rheinheimer G (1996) Meereskunde der Ostsee. Springer, HeidelbergCrossRefGoogle Scholar
  41. 41.
    Saake G, Sattler K, Heuer A (2013) Datenbanken - Konzepte und Sprachen, 5. Aufl. mitp, FrechenzbMATHGoogle Scholar
  42. 42.
    Saracco C, Nicola M, Gandhi L (2012) A matter of time: temporal data management in DB2 10 (IBM Developer Works)Google Scholar
  43. 43.
    Schick S, Meyer H, Heuer A (2013) Flexy: Flexible, datengetriebene prozessmodelle mit YAWL. In: Proceedings der BTW’13Google Scholar
  44. 44.
    Schönbach C, Kowalski-Saunders P, Brusic V (2000) Data warehousing in molecular biology. Brief Bioinformatics 1(1):190–198CrossRefGoogle Scholar
  45. 45.
    Snodgrass RT (Hrsg) (1995) The TSQL2 temporal query language. Kluwer, DordrechtzbMATHGoogle Scholar
  46. 46.
    Snodgrass RT (1999) Developing time-oriented database applications in SQL. Morgan Kaufmann, BurlingtonGoogle Scholar
  47. 47.
    Svacina J (2016) Intensional Answers for Provenance Queries in Big Data Analytics. Bachelor-Arbeit, Universität Rostock Google Scholar
  48. 48.
    Zierke J (2014) Konzeption der Datenintegration für eine zu entwickelnde Benthos-Datenbank. Master-Arbeit, Universität Rostock Google Scholar

Copyright information

© Springer-Verlag GmbH Deutschland 2017

Authors and Affiliations

  • Ilvio Bruder
    • 1
  • Meike Klettke
    • 1
  • Mark Lukas Möller
    • 1
  • Frank Meyer
    • 1
  • Andreas Heuer
    • 1
  • Susanne Jürgensmann
    • 2
  • Susanne Feistel
    • 2
  1. 1.Universität RostockRostockDeutschland
  2. 2.Leibniz-Institut für Ostseeforschung WarnemündeWarnemündeDeutschland

Personalised recommendations