Advertisement

Datenbank-Spektrum

, Volume 17, Issue 1, pp 69–76 | Cite as

Das Fachgebiet „Informationssysteme“ am Hasso-Plattner-Institut

  • Felix NaumannEmail author
  • Ralf Krestel
Datenbankgruppen vorgestellt
  • 266 Downloads

Zusammenfassung

Das Hasso-Plattner-Institut (HPI) ist ein privat finanziertes Institut an der Universität Potsdam. Stifter ist Professor Hasso Plattner, Mitgründer und Aufsichtsratsvorsitzender des Software-Konzerns SAP. Das Fachgebiet Informationssysteme, das von Prof. Dr. Felix Naumann geleitet wird, beschäftigt sich mit dem effizienten und effektiven Umgang mit heterogenen Daten und Texten. Gegründet wurde das Fachgebiet 2006 und bietet derzeit 12 Doktoranden und circa 15 Masterstudenten eine Forschungsumgebung.

Notes

Danksagung

Unserer Forschung genoss die Unterstützung verschiedener Partner wie der DFG und Unternehmen, die sich für das Verständnis und die Verbesserung ihrer Daten interessieren. Die hier vorgestellten Arbeiten beruhen – natürlich – auf der Forschung unserer hervorragenden Doktoranden: Tobias Bleifuß, Toni Grütze, Hazar Harmouch, Maximilian Jenders, Anja Jentzsch, John Koumarelas, Sebastian Kruse, Konstantina Lazaridou, Michael Loster, Thorsten Papenbrock, Julian Risch, Ahmad Samiei und Zhe Zuo.

Zwei weitere HPI-Fachgebiete, mit denen wir kooperieren, arbeiten ebenfalls in der Datenbank-Community: Das Fachgebiet „Enterprise Platforms and Integration Concepts“ (EPIC) unter der Leitung von Hasso Plattner und Matthias Uflacker sowie das Fachgebiet „Knowledge Discovery und Data Mining“ (KDD) unter der Leitung von Emmanuel Müller.

Literatur

  1. 1.
    Abedjan Z, Gruetze T, Jentzsch A, Naumann F (2014) Profiling and mining RDF data with ProLOD. In: Proceedings of the International Conference on Data Engineering (ICDE). IEEE Computer Society, Washington DC, S 1198–1201 (Demo)Google Scholar
  2. 2.
    Abedjan Z, Golab L, Naumann F (2015) Profiling relational data: a survey. VLDB J 24(4):557–581CrossRefGoogle Scholar
  3. 3.
    Agichtein E, Gravano L (2000) Snowball: extracting relations from large plain-text collections. In: Proceedings of the ACM Conference on Digital Libraries. ACM, New York, S 85–94CrossRefGoogle Scholar
  4. 4.
    Agrawal D, Bernstein P, Bertino E, Davidson S, Dayal U, Franklin M, Widom J et al (2012) Challenges and opportunities with Big Data. Technical report, Computing Community Consortium. http://cra.org/ccc/docs/init/bigdatawhitepaper.pdf. Zugegriffen: 1.1.2017Google Scholar
  5. 5.
    Draisbach U, Naumann F, Szott S, Wonneberg O (2012) Adaptive windows for duplicate detection. In: Proceedings of the International Conference on Data Engineering (ICDE). IEEE Computer Society, Washington DC, S 1073–1083Google Scholar
  6. 6.
    Godde C, Lazaridou K, Krestel R (2016) Classification of German newspaper comments. In: Proceedings of the Conference Lernen, Wissen, Daten, Analysen (LWDA). Hasso Plattner Institut, Potsdam, S 299–310Google Scholar
  7. 7.
    Gruetze T, Yao G, Krestel R (2015) Learning temporal tagging behaviour. In: Proceedings of the Temporal Web Analytics Workshop (TempWeb) at the International World Wide Web Conference (WWW). ACM, New York, S 1333–1338Google Scholar
  8. 8.
    Gruetze T, Krestel R, Naumann F (2016) Topic shifts in StackOverflow: ask it like Socrates. In: Proceedings of the 21st International Conference on Applications of Natural Language to Information Systems (NLDB), Bd. 9612. Springer, Heidelberg, S 213–221Google Scholar
  9. 9.
    Hernández MA, Stolfo SJ (1998) Real-world data is dirty: data cleansing and the merge/purge problem. Data Min Knowl Discov 2(1):9–37CrossRefGoogle Scholar
  10. 10.
    Huhtala Y, Kärkkäinen J, Porkka P, Toivonen H (1999) TANE: an efficient algorithm for discovering functional and approximate dependencies. Comput J 42(2):100–111CrossRefzbMATHGoogle Scholar
  11. 11.
    Köhler H, Link S, Zhou X (2015) Possible and certain SQL keys. Proceedings VLDB Endowment 8(11):1118–1129CrossRefGoogle Scholar
  12. 12.
    Krestel R, Wall A, Nejdl W (2012) Treehugger or Petrolhead? Identifying bias by comparing online news articles with political speeches. In: Proceedings of the International World Wide Web Conference (WWW). ACM, New York, S 547–548Google Scholar
  13. 13.
    Krestel R, Werkmeister T, Wiradarma TP, Kasneci G (2015) Tweet-recommender: finding relevant tweets for news articles. In: Proceedings of the International World Wide Web Conference (WWW). ACM, New York, S 53–54CrossRefGoogle Scholar
  14. 14.
    Kruse S, Jentzsch A, Papenbrock T, Kaoudi Z, Quiane-Ruiz JA, Naumann F (2016) RDfind: scalable conditional inclusion dependency discovery in RDF datasets. In: Proceedings of the International Conference on Management of Data (SIGMOD). ACM, New York, S 953–967Google Scholar
  15. 15.
    Lange D, Naumann F (2011) Efficient similarity search: arbitrary similarity measures, arbitrary composition. In: Proceedings of the International Conference on Information and Knowledge Management (CIKM). ACM, New York, S 1679–1688Google Scholar
  16. 16.
    Papenbrock T, Bergmann T, Finke M, Zwiener J, Naumann F (2015) Data profiling with Metanome (demo). Proceedings VLDB Endowment 8(12):1860–1871CrossRefGoogle Scholar
  17. 17.
    Papenbrock T, Ehrlich J, Marten J, Neubert T, Rudolph JP, Schönberg M, Zwiener J, Naumann F (2015) Functional dependency discovery: an experimental evaluation of seven algorithms. Proceedings VLDB Endowment 8(10):1082–1093CrossRefGoogle Scholar
  18. 18.
    Papenbrock T, Naumann F (2017) A hybrid approach for efficient unique column combination discovery. In: Proc. der Fachtagung Business, Technologie und Web (BTW). GI, Bonn, Deutschland (accepted)Google Scholar
  19. 19.
    Park J, Blume-Kohout M, Krestel R, Nalisnick E, Smyth P (2016) Analyzing NIH funding patterns over time with statistical text analysis. In: Scholarly Big Data: AI Perspectives, Challenges, and Ideas, Workshop at AAAI. AAAI Press, Palo Alto, CA, S 698–704Google Scholar
  20. 20.
    Weis M, Naumann F, Jehle U, Lufter J, Schuster H (2008) Industry-scale duplicate detection. Proceedings VLDB Endowment 1(2):1253–1264CrossRefGoogle Scholar
  21. 21.
    Zuo Z, Kasneci G, Gruetze T, Naumann F (2014) BEL: bagging for entity linking. In: Proceedings of the International Conference on Computational Linguistics (COLING). ACL, Stroudsburg, PA, 2075–2086Google Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2017

Authors and Affiliations

  1. 1.Hasso-Plattner-InstitutPotsdamDeutschland

Personalised recommendations