Schwerpunktthema „Berlin Institute for the Foundations of Learning and Data (BIFOLD)“

Big Data (BD) und Maschinelles Lernen (ML) sind die Treiber von Innovationen in der Künstlichen Intelligenz und der Data Science. Die Analyse von sehr großen und heterogenen Datenmengen hat das Potenzial, viele Lebensbereiche zu revolutionieren, von den Wissenschaften (Medizin, Chemie, Physik, Materialwissenschaften, Geisteswissenschaften etc.) über die Produktion (z. B. Fehlervorhersage im Rahmen von Predictive Maintenance und Massenindividualisierung bei Produktempfehlungen auf Online-Marktplätzen), den Verkehr oder die Energie bis hin zu politischen und gesellschaftlichen Prozessen (Wahlvorhersagen, Identifikation von Fake News, Bildern oder Videos). Der Umgang mit BD und ML ist aber hochgradig spezialisiert und anspruchsvoll: er erfordert sowohl informatische, mathematische als auch ingenieurstechnische Kompetenzen. Big Data und ML wirken disruptiv auf allen gesellschaftlichen Ebenen und führen zu völlig neuartigen Anwendungen in Wirtschaft und Wissenschaften. In den Wissenschaften wird bereits vom „vierten Paradigma“ gesprochen, in der Wirtschaft von der nächsten industriellen Revolution, mit Daten als wesentlichem Produktionsfaktor.

Das BMBF hat in Deutschland die Forschung auf diesen zukunftskritischen Wissenschaftsgebieten unterstützt durch die Einrichtung von zwei Kompetenzzentren zu BD (in Berlin und Dresden/Leipzig) und vier Kompetenzzentren zu ML (in Berlin, Dortmund/Bonn, München und Tübingen) und die damit einhergehende Bündelung von Kompetenz. Kürzlich wurden die beiden Berliner Kompetenzzentren zu BD und ML zu BIFOLD, das Berlin Institute for the Foundations of Learning and Data, verschmolzen. Sie werden von BMBF und Land Berlin dauerhaft mit 22 Mio € pro Jahr gefördert: BIFOLD hat bereits eine kritische Masse an Wissenschaftlern im wissenschaftlichen Ökosystem von Berlin zusammengebracht und zu einer Reihe von international sichtbaren Erfolgen geführt.

Die folgenden Artikel beleuchten unterschiedliche Schwerpunkte der Forschung in BD, ML und der Schnittstelle zwischen BD und ML.

Wichtige Herausforderungen, bei denen BIFOLD bereits erste Ergebnisse erzielt hat, sind hierbei Diskretisierung von Datenströmen und deklarative Spezifikation von I/O-Strömen. Das Problem der Diskretisierung von Datenströmen untersuchen im ersten Beitrag Algorithms for Windowed Aggregations and Joins on Distributed Stream Processing Systems Juliane Verwiebe, Philipp Grulich, Jonas Traub und Volker Markl (TU Berlin).

Die deklarative Spezifikation von I/O-Strömen wird im Beitrag IOSIG: Declarative I/O-Stream Properties Using Pragmas von Mosoud Gholami und Florian Schintke (Zuse Institut Berlin) untersucht.

Mit den Problemen der Datenreiningung und AutoML beschäftigt sich der Beitrag Cleaning and AutoML: Would an optimizer choose to clean? von Felix Neutatz, Binger Chen, Yazan Alkhatib, JingwenYe und Ziawasch Abedjan (TU Berlin).

Datenmanagement für das Internet der Dinge wird im Beitrag NebulaStream: Data Management for the Internet of Things von Steffen Zeuch, Xenofon Chatziliadis, Ankit Chaudhary, Dimitrios Giouroukis, Philipp Grulich, Dwi Prasetyo Adi Nugroho, Ariane Ziehn und Volker Markl (TU Berlin) dargestellt.

Eine Übersicht zur kollaborativen Clusterkonfiguration für die verteilte datenparallele Verarbeitung stellt der Beitrag Collaborative Cluster Configuration for Distributed Data-Parallel Processing: A Research Overview von Lauritz Thamsen, Dominik Scheinert, Jonathan Will, Jonathan Bader und Odej Kao (TU Berlin) dar.

Darüber hinaus befasst sich BIFOLD mit disruptiven Anwendungen in den Wissenschaften, was exemplarisch durch einen Anwendungsfall in den Digital Humanities im Beitrag An Ever-Expanding Humanities Knowledge Graph: The Sphaera Corpus at the Intersection of Humanities, Data Management, and Machine Learning von Hassan el-Hajj, Maryam Zamani, Jochen Büttner, Julius Martinez, Oliver Eberle, Noga Shlomi, Annas Siebold, Gregoire Montavon, Klaus-Robert Müller, Holger Kantz und Matteo Valleriani (TU Berlin und Max Plank Institute for the History of Science) präsentiert wird.

Ferner forschen Wissenschaftler des BIFOLD am Umgang mit großen Datenmengen in der Fernerkundung (earth observation), Quantenphysik, Chemie und Materialforschung sowie allgemein an Informationsmarktplätzen und Ökosystemen. Die Forschung in BIFOLD zielt auf die Entwicklung von neuartigen Systemen ab. Hierbei ist insbesondere Nebula Stream (http://nebula.stream) zu nennen, ein neuartiges System zur Verarbeitung von Millionen von heterogen verteilten Datenströmen, welches als Open Source bereitgestellt wird. Durch Kooperationen entsteht dafür gerade eine lebendige Entwickler-Community.

BIFOLD wird über die nächsten Jahre wachsen mit dem Ziel, eine kritische Masse von exzellenten Wissenschaftlern zu den Themen BD und ML in Berlin zu vereinen und einen Leuchtturm der KI-Forschung mit internationaler Strahlkraft zu schaffen. Dazu werden mehrere neue Professuren zu BD, ML und an deren Schnittstelle eingerichtet werden. Eine Graduiertenschule bietet ein strukturiertes Promotionsprogramm. Zusätzlich werden Tenure-Track-Stellen für promovierte Wissenschaftler angeboten, um den akademischen Mittelbau zu stärken, sowie Forschergruppen zur Stärkung des akademischen Nachwuchses. Weitere Informationen hierzu finden sich unter http://bifold.berlin bzw. können von den Direktoren erfragt werden.

Fachbeitrag

in jüngerer Zeit veröffentlichte das Standardisierungskomitee von SQL eine Spezifikation, um das Konzept „Row Pattern Recognition“ in SQL zu unterstützen. Dus̆an Petković (HS Rosenheim) setzt sich in seinem Beitrag Specification of Row Pattern Recognition in the SQL Standard and its Implementations mit diesem Konzept anhand von anschaulichen Beispielen auseinander und zeigt, in welchem Umfang verschiedene relationale Datenbanksysteme und Datenanalyse-Tools dieses Konzept integriert haben. Er beschreibt aber auch die hauptsächlichen Ungenauigkeiten des Standardisierungsvorschlags und schlägt Möglichkeiten vor, diese zu aufzulösen.

Community-Beiträge

Die Rubrik „Datenbankgruppen vorgestellt“ enthält den Beitrag Das Fachgebiet „Enterprise Platform and Integration Concepts“ am Hasso-Plattner-Institut von Michael Perscheid et al. (EPIC-Fachgebiet, Univ. Potsdam). Die Arbeitsgruppe unter Leitung von Hasso Plattner beschäftigt sich mit der effizienten Verwaltung, Integration und Auswertung von Unternehmens- und Geschäftsprozessdaten. Bei ihren Forschungsarbeiten arbeiten sie eng mit verschiedenen Unternehmen und deren Nutzer:innen zusammen, um in ihren Anwendungen Herausforderungen zu identifizieren und Lösungen gemeinsam zu entwickeln. Gegründet wurde das EPIC-Fachgebiet 2006 und bietet zurzeit zwei Senior-Researchern, drei Postdoktoranden, 16 Doktorand:innen und 21 Masterstudent:innen eine Forschungsumgebung.

Die Rubrik „Dissertationen“ enthält in diesem Heft 10 Kurzfassungen von Dissertationen aus der deutschsprachigen DBIS-Community, die im vergangenen Jahr erfolgreich abgeschlossen wurden.

Die Rubrik „Community“ berichtet unter „News“ über aktuelle Informationen, welche die DBIS-Gemeinde betreffen.

Künftige Schwerpunktthemen

Testing and Benchmarking Database Management Systems

Today’s database management systems are the result of several decades of research and engineering. These efforts have resulted in a multitude of both open-source and commercial systems that are widely deployed in production and provide the backbone of a vast range of mission-critical applications. To ensure a high software quality, development teams routinely have to apply sophisticated testing strategies for finding defects early and ensuring the robustness, performance, and scalability of their solutions.

This special issue of the Datenbank-Spektrum focuses on aspects that are related with the novel techniques for testing and benchmarking of database management systems (i.e., classical DBMSs and beyond) as well as war stories from industry-scale use of database management systems. Topics of interest include, but are not limited to:

  • Testing or benchmarking of database systems, storage services, and database applications

  • Testing or benchmarking of database systems using novel hardware and software technology (non-volatile memory, hardware transactional memory, …)

  • Testing or benchmarking heterogeneous systems with hardware accelerators (GPUs, FPGAs, ASICs, …)

  • Testing or benchmarking distributed and big data systems

  • Testing or benchmarking machine learning systems

  • Testing or benchmarking learned database component/systems

  • Specific challenges of testing or benchmarking and quality assurance for cloud-based systems

  • Database system benchmark development

  • War stories and lessons learned

  • Formal verification techniques in the context of database management systems

  • Applying automated testing tools to database management systems

  • Performance and scalability testing

  • Testing the reliability and availability of database systems

  • Algorithms and techniques for automatic program verification

  • Maximizing code coverage during testing of database systems and applications

  • Generation of synthetic data for test databases

  • Testing the effectiveness of adaptive policies and components

  • Tools for analyzing or benchmarking database management systems (e.g., profilers, debuggers)

  • Workload characterization with respect to performance metrics and engine components

  • Metrics for test quality, robustness, efficiency, and effectiveness

  • Operational aspects such as continuous integration and delivery pipelines

  • Security and vulnerability testing

  • Experimental reproduction of benchmark results

  • Functional and performance testing of interactive data exploration systems

  • Tracability, reproducibility and reasoning for ML-based systems

We welcome traditional research articles, experience and application reports, proof-of-concept studies, as well as benchmark proposals, surveys, and experimental studies. These can either be in the form of full submissions (8-10 pages) as well as short papers/extended abstracts (not more than 4 pages) for this issue. Please find the submission guidelines at https://www.springer.com/journal/13222/submission-guidelines.

Submission deadline is June 1st, 2022 (the special issue will be published in November 2022).

Guest editors:

Alexander Boehm, SAP SE, Walldorf

alexander.boehm@sap.com

Carsten Binnig, TU Darmstadt

carsten.binnig@cs.tu-darmstadt.de

Tilmann Rabl, HPI, Universität Potsdam

Tilmann.Rabl@hpi.de

Trends in Social Media Analysis to Address Fake News, Hate Speech, or Bias

Social media has many benefits: from staying in contact with close and not-so-close friends, over exercising the right to voice one?s opinion, to communicating with many like-minded people all over the world and providing an additional channel for information exchange.

Unfortunately, social media has also been abused and misused ever since its inception. Hate speech is prevalent on many sites alienating trusting users and hindering fruitful discussions. Fake news are distributed through social media platforms with dangerous effects. But even without malicious intention, social media can be misleading due to various biases in the system.

In this special issue of Datenbank-Spektrum, we will explore and present current trends in the field of automatically detecting and managing hate speech, fake news, bias and other toxic content in the context of social media.

We welcome original contributions including technical papers, application-oriented papers, case studies, survey papers and position papers. Topics of interest include, but are not limited to:

  • Automatic detection of hate speech

  • Methods to improve online discussions

  • Trust and reputation of social media actors

  • Identification of fake news

  • Countermeasures to fight fake news

  • Detection and/or mitigation of bias

  • Dealing with bias in training data

  • Content analysis and NLP

  • Opinion mining and sentiment analysis on social media

  • Information extraction and retrieval on social media

  • Information diffusion within social networks

  • Ethical and legal aspects

Paper format: 8–10 pages, double-column (cf. author guidelines at https://www.springer.com/13222). We welcome contributions in both German and English.

Deadline for submissions: Oct. 1st, 2022; Publication of special issue: DASP-1-2023 (March 2023)

Guest editors:

Ralf Krestel, ZBW CAU Kiel

r.Krestel@zbw.eu

Udo Kruschwitz, Universität Regensburg

Udo.Kruschwitz@ur.de

Michael Wiegand, Universität Klagenfurt

michael.wiegand@aau.at

Managing Data and Metadata in Complex Enterprise Landscapes

The digital transformation generates huge amounts of heterogeneous data, across the entire lifecycle of all kinds of products and services and across all kinds of businesses. Extracting insights from these data by applying data analytics and AI constitutes a critical success factor for enterprises, e.g., to optimize processes and reinvent business models. Comprehensive analytics efforts and vast amounts of data have made enterprise data landscapes far more complex revealing globally distributed, federated and hybrid deployed structures of analytical and operational data systems. This poses new challenges to both data management and metadata management: new kinds of data platforms have emerged, e.g., data lakes, data catalogs and data marketplaces, semantic techniques for managing data and metadata are increasingly becoming popular in industry practice, data governance and data strategy concepts are developed to ensure the compliant and economically beneficial use of data.

In this special issue of Datenbank-Spektrum, we call for contributions on technical and organizational aspects of data management and metadata management in complex enterprise landscapes, interpreted broadly. We welcome original contributions – including technical papers, interdisciplinary and application-oriented papers, case studies and survey papers – relating to the following areas, but not limited to:

  • Data platform architectures and technologies, e.g., data lakes, data catalogs, data marketplaces, feature stores

  • Architecting and modeling data and metadata in data platforms, e.g., semantic data modeling for data lakes and data catalogs, reference data models, data model management, data model evolution

  • Data engineering and metadata management for analytics and AI, e.g., for data pipelines and MLOps

  • Data integration and data quality in complex enterprise landscapes, e.g., federated data integration, semantic data integration, distributed data quality assessments

  • Enterprise data architecture: organizing data and metadata across the enterprise landscape, e.g., across several data lakes, data catalogs and operational systems

  • Data governance and data strategy, e.g., data ownership and data stewardship across operational and analytical systems, organizational roles for data governance and data analytics, data offense and data defense concepts

Paper format: 8–10 pages, double-column (cf. author guidelines at https://www.springer.com/13222). Contributions either in German or in English are welcome.

Deadline for submissions: February 1st, 2023

Issue delivery: DASP-2-2023 (July 2023)

Guest editors:

Christoph Gröger, Robert Bosch GmbH, Stuttgart

christoph.groeger@de.bosch.com

Holger Schwarz, University of Stuttgart

holger.schwarz@ipvs.uni-stuttgart.de