1 Schwerpunktthema „Berlin Institute for the Foundations of Learning and Data (BIFOLD)“

Big Data (BD) und Maschinelles Lernen (ML) sind die Treiber von Innovationen in der Künstlichen Intelligenz und der Data Science. Die Analyse von sehr großen und heterogenen Datenmengen hat das Potenzial, viele Lebensbereiche zu revolutionieren, von den Wissenschaften (Medizin, Chemie, Physik, Materialwissenschaften, Geisteswissenschaften etc.) über die Produktion (z. B. Fehlervorhersage im Rahmen von Predictive Maintenance und Massenindividualisierung bei Produktempfehlungen auf Online-Marktplätzen), den Verkehr oder die Energie bis hin zu politischen und gesellschaftlichen Prozessen (Wahlvorhersagen, Identifikation von Fake News, Bildern oder Videos). Der Umgang mit BD und ML ist aber hochgradig spezialisiert und anspruchsvoll: er erfordert sowohl informatische, mathematische als auch ingenieurstechnische Kompetenzen. Big Data und ML wirken disruptiv auf allen gesellschaftlichen Ebenen und führen zu völlig neuartigen Anwendungen in Wirtschaft und Wissenschaften. In den Wissenschaften wird bereits vom „vierten Paradigma“ gesprochen, in der Wirtschaft von der nächsten industriellen Revolution, mit Daten als wesentlichem Produktionsfaktor.

Das BMBF hat in Deutschland die Forschung auf diesen zukunftskritischen Wissenschaftsgebieten unterstützt durch die Einrichtung von zwei Kompetenzzentren zu BD (in Berlin und Dresden/Leipzig) und vier Kompetenzzentren zu ML (in Berlin, Dortmund/Bonn, München und Tübingen) und die damit einhergehende Bündelung von Kompetenz. Kürzlich wurden die beiden Berliner Kompetenzzentren zu BD und ML zu BIFOLD, das Berlin Institute for the Foundations of Learning and Data, verschmolzen. Sie werden von BMBF und Land Berlin dauerhaft mit 22 Mio € pro Jahr gefördert: BIFOLD hat bereits eine kritische Masse an Wissenschaftlern im wissenschaftlichen Ökosystem von Berlin zusammengebracht und zu einer Reihe von international sichtbaren Erfolgen geführt.

Die folgenden Artikel beleuchten unterschiedliche Schwerpunkte der Forschung in BD, ML und der Schnittstelle zwischen BD und ML.

Wichtige Herausforderungen, bei denen BIFOLD bereits erste Ergebnisse erzielt hat, sind hierbei Diskretisierung von Datenströmen und deklarative Spezifikation von I/O-Strömen. Das Problem der Diskretisierung von Datenströmen untersuchen im ersten Beitrag Algorithms for Windowed Aggregations and Joins on Distributed Stream Processing Systems Juliane Verwiebe, Philipp Grulich, Jonas Traub und Volker Markl (TU Berlin).

Die deklarative Spezifikation von I/O-Strömen wird im Beitrag IOSIG: Declarative I/O-Stream Properties Using Pragmas von Mosoud Gholami und Florian Schintke (Zuse Institut Berlin) untersucht.

Mit den Problemen der Datenreiningung und AutoML beschäftigt sich der Beitrag Cleaning and AutoML: Would an optimizer choose to clean? von Felix Neutatz, Binger Chen, Yazan Alkhatib, JingwenYe und Ziawasch Abedjan (TU Berlin).

Datenmanagement für das Internet der Dinge wird im Beitrag NebulaStream: Data Management for the Internet of Things von Steffen Zeuch, Xenofon Chatziliadis, Ankit Chaudhary, Dimitrios Giouroukis, Philipp Grulich, Dwi Prasetyo Adi Nugroho, Ariane Ziehn und Volker Markl (TU Berlin) dargestellt.

Eine Übersicht zur kollaborativen Clusterkonfiguration für die verteilte datenparallele Verarbeitung stellt der Beitrag Collaborative Cluster Configuration for Distributed Data-Parallel Processing: A Research Overview von Lauritz Thamsen, Dominik Scheinert, Jonathan Will, Jonathan Bader und Odej Kao (TU Berlin) dar.

Darüber hinaus befasst sich BIFOLD mit disruptiven Anwendungen in den Wissenschaften, was exemplarisch durch einen Anwendungsfall in den Digital Humanities im Beitrag An Ever-Expanding Humanities Knowledge Graph: The Sphaera Corpus at the Intersection of Humanities, Data Management, and Machine Learning von Hassan el-Hajj, Maryam Zamani, Jochen Büttner, Julius Martinez, Oliver Eberle, Noga Shlomi, Annas Siebold, Gregoire Montavon, Klaus-Robert Müller, Holger Kantz und Matteo Valleriani (TU Berlin und Max Plank Institute for the History of Science) präsentiert wird.

Ferner forschen Wissenschaftler des BIFOLD am Umgang mit großen Datenmengen in der Fernerkundung (earth observation), Quantenphysik, Chemie und Materialforschung sowie allgemein an Informationsmarktplätzen und Ökosystemen. Die Forschung in BIFOLD zielt auf die Entwicklung von neuartigen Systemen ab. Hierbei ist insbesondere Nebula Stream (http://nebula.stream) zu nennen, ein neuartiges System zur Verarbeitung von Millionen von heterogen verteilten Datenströmen, welches als Open Source bereitgestellt wird. Durch Kooperationen entsteht dafür gerade eine lebendige Entwickler-Community.

BIFOLD wird über die nächsten Jahre wachsen mit dem Ziel, eine kritische Masse von exzellenten Wissenschaftlern zu den Themen BD und ML in Berlin zu vereinen und einen Leuchtturm der KI-Forschung mit internationaler Strahlkraft zu schaffen. Dazu werden mehrere neue Professuren zu BD, ML und an deren Schnittstelle eingerichtet werden. Eine Graduiertenschule bietet ein strukturiertes Promotionsprogramm. Zusätzlich werden Tenure-Track-Stellen für promovierte Wissenschaftler angeboten, um den akademischen Mittelbau zu stärken, sowie Forschergruppen zur Stärkung des akademischen Nachwuchses. Weitere Informationen hierzu finden sich unter http://bifold.berlin bzw. können von den Direktoren erfragt werden.

2 Fachbeitrag

in jüngerer Zeit veröffentlichte das Standardisierungskomitee von SQL eine Spezifikation, um das Konzept „Row Pattern Recognition“ in SQL zu unterstützen. Dus̆an Petković (HS Rosenheim) setzt sich in seinem Beitrag Specification of Row Pattern Recognition in the SQL Standard and its Implementations mit diesem Konzept anhand von anschaulichen Beispielen auseinander und zeigt, in welchem Umfang verschiedene relationale Datenbanksysteme und Datenanalyse-Tools dieses Konzept integriert haben. Er beschreibt aber auch die hauptsächlichen Ungenauigkeiten des Standardisierungsvorschlags und schlägt Möglichkeiten vor, diese zu aufzulösen.

3 Community-Beiträge

Die Rubrik „Datenbankgruppen vorgestellt“ enthält den Beitrag Das Fachgebiet „Enterprise Platform and Integration Concepts“ am Hasso-Plattner-Institut von Michael Perscheid et al. (EPIC-Fachgebiet, Univ. Potsdam). Die Arbeitsgruppe unter Leitung von Hasso Plattner beschäftigt sich mit der effizienten Verwaltung, Integration und Auswertung von Unternehmens- und Geschäftsprozessdaten. Bei ihren Forschungsarbeiten arbeiten sie eng mit verschiedenen Unternehmen und deren Nutzer:innen zusammen, um in ihren Anwendungen Herausforderungen zu identifizieren und Lösungen gemeinsam zu entwickeln. Gegründet wurde das EPIC-Fachgebiet 2006 und bietet zurzeit zwei Senior-Researchern, drei Postdoktoranden, 16 Doktorand:innen und 21 Masterstudent:innen eine Forschungsumgebung.

Die Rubrik „Dissertationen“ enthält in diesem Heft 10 Kurzfassungen von Dissertationen aus der deutschsprachigen DBIS-Community, die im vergangenen Jahr erfolgreich abgeschlossen wurden.

Die Rubrik „Community“ berichtet unter „News“ über aktuelle Informationen, welche die DBIS-Gemeinde betreffen.

