Advertisement

Datenbank-Spektrum

, Volume 16, Issue 1, pp 5–15 | Cite as

Heterogenität überwinden mit der Datentransformationssprache NotaQL

  • Johannes SchildgenEmail author
  • Stefan Deßloch
SCHWERPUNKTBEITRAG
  • 173 Downloads

Zusammenfassung

Bei der Informationsintegration, also dem Zusammenführen verschiedener Daten aus zwei oder mehr Datenquellen, gilt es die Heterogenität der Quellen aufzulösen und die gegebenen Schemata ineinander abzubilden. Besonders bei der Verarbeitung von Big Data in schemalosen NoSQL-Systemen, in denen heterogene Datensätze gespeichert sind, und die sich zusätzlich untereinander stark im Datenmodell und in ihren Zugriffsmethoden unterscheiden, scheitern meist klassische SQL-basierte Techniken. In diesem Artikel stellen wir vor, wie mit der Datentransformationssprache NotaQL die verschiedenen Arten von Heterogenität überwunden werden können. Die meist wenige Zeilen kurzen NotaQL-Skripte beschreiben eine Transformation zwischen unterschiedlichen Systemen und bieten einen flexiblen Zugriff auf Daten und Metadaten.

Schlüsselwörter

NoSQL-Datenbanksysteme Informationsintegration Datentransformation 

Literatur

  1. 1.
    Batini C, Scannapieca M (2006) Data quality dimensions. Data quality: concepts, methodologies and techniques. Springer, Berlin, S 19–49Google Scholar
  2. 2.
    Beyer MA, Laney D (2012) The importance of 'big data`: a definition. Gartner, StamfordGoogle Scholar
  3. 3.
    Bleiholder J, Naumann F (2008) Data fusion. ACM Comput Surv 41(1):1Google Scholar
  4. 4.
    Eisenberg A, Melton J (2001) SQL/XML and the SQLX informal group of companies. Sigmod Record 30(3):105–108Google Scholar
  5. 5.
    Foreign data wrappers - PostgreSQL wiki. URLGoogle Scholar
  6. 6.
    Halevy AY (2003) Data integration: a status report. In BTW 26:24–29Google Scholar
  7. 7.
    Jhingran A, Mattos N, Pirahesh H (2002) Information integration: a research agenda. IBM Syst J 41(4):555–562Google Scholar
  8. 8.
    Lakshmanan LV, Sadri F, Subramanian IN (1996) SchemaSQL-a language for interoperability in relational multi-database systems. VLDB 96:239–250Google Scholar
  9. 9.
    Leser U, Naumann F (2007) Informationsintegration–Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt, HeidelbergGoogle Scholar
  10. 10.
    Levy AY, Mendelzon AO, Sagiv Y (1995) Answering queries using views. In: Proceedings of the fourteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems, S 95–104. ACMGoogle Scholar
  11. 11.
    Melton J (2005) ISO/IEC 9075-2: 2003 (E) Information technology—database languages—SQL—part 2: foundation (SQL/Foundation). August, 2003. Retrieved December 26, 2004Google Scholar
  12. 12.
    Melton J, Michels JE, Josifovski V, Kulkarni K, Schwarz P (2002) SQL/MED: a status report. ACM SIGMOD Record 31(3):81–89Google Scholar
  13. 13.
    Melton J, Michels J-E, Josifovski V, Kulkarni K, Schwarz P, Zeidenstein K (2001) SQL and management of external data. ACM SIGMOD Record 30(1):70–77Google Scholar
  14. 14.
    Miller RJ, Haas LM, Hernández MA (2000) Schema mapping as query discovery. VLDB 2000:77–88Google Scholar
  15. 15.
    Ong KW, Papakonstantinou Y, Vernoux R (2014) The SQL++ query language: configurable, unifying and semi-structured. arXiv preprint arXiv:1405.3631Google Scholar
  16. 16.
    Rahm E, Bernstein PA (2001) A survey of approaches to automatic schema matching. the VLDB Journal 10(4):334–350Google Scholar
  17. 17.
    Rahm E, Do HH (2000) Data cleaning: problems and current approaches. IEEE Data Eng Bull 23(4):3–13Google Scholar
  18. 18.
    Roth MT, Schwarz PM (1997) Don’t scrap it, wrap it A wrapper architecture for legacy data sources. VLDB 97:25–29Google Scholar
  19. 19.
    Rutledge S, Medicke J (2001) Database integration with DB2® relational connect, building federated systems with relational connect and database viewsGoogle Scholar
  20. 20.
    Sadalage PJ, Fowler M (2012) NoSQL Distilled: a brief guide to the emerging world of polyglot persistence, 1. Aufl. Addison-Wesley Professional, BostonGoogle Scholar
  21. 21.
    Sanderson D (2009) Programming google app engine: build and run scalable web apps on google’s infrastructure. O’Reilly Media, Inc., CaliforniaGoogle Scholar
  22. 22.
    Scherzinger S, Klettke M, Störl U (2013) Managing schema evolution in NoSQL data stores. arXiv preprint ar- Xiv:1308.0514Google Scholar
  23. 23.
    Schildgen J, Deßloch S (2015) NotaQL is not a query language It’s for data transformation on wide-column stores. In: British International Conference on Databases - BICOD 2015, 7Google Scholar
  24. 24.
    Wyss CM, Robertson EL (2005) Relational languages for metadata integration. ACM Transact Database Syst (TODS) 30(2):624–660Google Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2016

Authors and Affiliations

  1. 1.AG Heterogene InformationssystemeKaiserslauternDeutschland

Personalised recommendations