1 Schwerpunktthema: Trends in Information Retrieval Evaluation

Evaluation nimmt eine zentrale Rolle bei der Erforschung und Entwicklung von Systemen im Information Retrieval (IR) ein. Im akademischen Bereich erfolgt die Evaluation solcher Systeme meist gemäß des sogenannten Cranfield-Paradigmas. Um eine systematische und wiederholbare Evaluation zu gewährleisten, wird eine Testkollektion erstellt, welche aus einer Dokumentensammlung, einer Menge von Anfragen bzw. sogenannten Topics sowie korrespondierenden Relevanzbewertungen besteht. Diese Vorgehensweise hat sich seit über 25 Jahren in internationalen Initiativen wie der Text Retrieval Evaluation Conference (TREC) und der Conference and Labs of the Evaluation Forum (CLEF) bewährt. In der Industrie hingegen wird meist eine gänzlich andere Vorgehensweise zur Evaluation verwendet. Unternehmen sind in der Lage, das Verhalten ihrer Nutzer sowie deren Interaktionen mit dem System zu beobachten, welche dann zur Evaluation herangezogen werden können. Neben A/B-Tests, die unterschiedlichen Nutzern unterschiedliche Varianten des Systems präsentieren, haben sich andere Vorgehensweisen wie das Verschachteln von Ergebnissen der zu vergleichenden Systeme etabliert. Was bei einer Evaluation gemäß des Cranfield-Paradigmas nicht berücksichtigt werden kann, sind unterschiedliche Nutzergruppen (z. B. Suchende mit verschiedenen Vorkenntnisse) sowie Aspekte der Nutzerschnittstelle, wozu eine tiefergehende Analyse der Nutzerinteraktionen mit dem System notwendig ist. Dies spielt insbesondere bei der Evaluation von Systemen im interaktiven Information Retrieval (IIR) (z. B. Konversationssysteme) eine Rolle, bei denen der Nutzer mehrfach hintereinander mit dem System interagiert, im Gegensatz zur einmaligen Interaktion im klassischen Ad-hoc Information Retrieval.

In der jüngeren Vergangenheit wurden verschiedene Vorgehensweisen vorgeschlagen, die das Cranfield-Paradigma hinter sich lassen und die Lücke zwischen den Evaluationspraktiken im akademischen und industriellen Umfeld schließen. Diese Ausgabe des Datenbank-Spektrums widmet sich solchen neueren Ansätzen.

Wir haben vier Artikel von Autoren aus dem UK, den USA sowie Deutschland für diese Ausgabe akzeptiert. Das Themenspektrum der Artikel reicht von Vorgehensweisen zur Evaluation mit Hilfe von Methoden der Mensch-Maschine-Interaktion, über die Evaluation interaktiver kommerzieller Systeme, bis zur automatischen Generierung und der Schaffung von Evaluationsinfrastrukturen für Systeme im akademischen Bereich.

D. Lewandowski et al. (Hochschule fur Angewandte Wissenschaften Hamburg) beschreiben in ihrem Artikel dringende Forschungsfragen im Kontext der Evaluation kommerzieller Suchmaschinen anhand von Nutzerverhalten. Da kommerzielle Suchmaschinen meist ihre Daten nicht öffentlich verfügbar machen und auch keinen direkten Zugriff auf ihre Systeme gewähren, ist es wichtig, alternative Vorgehensweisen zur Evaluation durch Außenstehende zu entwickeln.

L. Dietz (University of New Hampshire, USA) und J. Dalton (University of Glasgow, UK) beschreiben, wie sich Testkollektionen zur Evaluation von Ansätzen zum Finden von Text-Passagen und Entitäten automatisch generieren lassen. Da das manuelle Erstellen solcher Testkollektionen zeitaufwändig ist, ist diese Arbeit von besonderem Interesse für das Gebiet des Information Retrievals.

J. Schaible et al. (GESIS, ZB MED, TH Köln) vergleichen verschiedene Infrastrukturen zur Evaluation von Systemen. Da wenige der verfügbaren Infrastrukturen eine Ausführung eigener Algorithmen erlauben, wird eine neue Infrastruktur basierend auf Docker-Containern vorgestellt.

D. Elsweiler et al. (Universität Regensburg) berichten von ihren Beobachtungen beim Vergleich zweier Studien zur Evaluation von Konversationssystemen – eine basierend auf einem Wizard-of-Oz-Ansatz, die andere basierend auf einer tiefergehenden Analyse des Nutzerverhaltens.

Die enthaltenen Artikel geben einen ersten Einblick in aktuelle und aufkommende Fragestellungen bei der Evaluation von Systemen zum Information Retrieval und zeigen zugleich die Breite und Heterogenität dieses Forschungsgebiets.

Wir hoffen, Ihr Interesse geweckt zu haben, und laden Sie ein, die Artikel zu lesen und mitzudiskutieren.

Ihre Gasteditoren

2 Fachbeiträge

Datenbanksysteme für hybride transaktionale/analytische Arbeitslasten (HTAP) sind schwierig zu entwerfen, verlangen neuartige Implementierungslösungen und erfordern eine komplexe Administration. Bisherige Ansätze konzentrierten sich auf die Lösung isolierter Probleme, ohne dabei auf die Nutzung von Synergieeffekten zu achten. Dagegen schlägt der Fachbeitrag GridTables: A One-Size-Fits-Most \(H^{2}TAP\) Data Store von Marcus Pinnecke et al. (Otto-von-Guericke-Universität Magdeburg) für solche Systeme eine flexible und adaptive Datenstruktur, GridTable genannt, vor, die dünn-besetzte, aber strukturierte Datensätze im Kontext von HTAP physisch organisieren und verwalten kann. Als Schlüsselprobleme sind dabei die verteilte Allokation der Struktur in verschiedenen Hauptspeicherbereichen und die Möglichkeit der Optimierung für gemischten OLTP-/OLAP-Zugriff zu lösen.

In großen Unternehmen müssen zunehmend sehr umfangreiche Daten verschiedenster Art verwaltet und analysiert werden, um den darin enthaltenen Wert für das Unternehmen zu extrahieren. Für diese Aufgaben wurde in den letzten Jahren der Data Lake als neuartiges Konzept entwickelt, um solche komplexen und heterogenen Daten verarbeiten und nutzen zu können. Der Fachbeitrag Data Lakes auf den Grund gegangen – Herausforderungen und Forschungslücken in der Industriepraxis von Corinna Giebler et al. (Universität Stuttgart) zeigt, welche vielfältigen Herausforderungen, wie beispielsweise Widersprüche in der Definition oder unscharfe und fehlende Konzepte, überwunden werden müssen, wenn Unternehmen einen solchen Data Lake praktisch nutzen wollen. In diesem Beitrag werden konkrete Projekte eines global agierenden Industrieunternehmens beschrieben, um bestehende Herausforderungen zu identifizieren und Anforderungen an Data Lakes herzuleiten. Dabei zeigen die Autoren eine Reihe von Lücken auf, die noch von der Datenbankforschung gefüllt werden müssen.

3 Community-Beiträge

Die Rubrik „Datenbankgruppen vorgestellt“ enthält den Beitrag The Data Mining Group at University of Vienna – Clustering, Causality, Massive Data and Applications von Can Altinigneli et al. Dieser Artikel skizziert das breite Arbeitsspektrum der Data-Mining-Gruppe an der Universität Wien. Weiterhin gibt er einen Überblick über die wichtigsten Anwendungsgebiete, die im Mittelpunkt dieser Forschungsarbeiten stehen.

Die Rubrik „Dissertationen“ enthält in diesem Heft 4 Kurzfassungen von Dissertationen aus der deutschsprachigen DBIS-Community.

Schließlich berichtet die Rubrik „Community“ unter News über weitere aktuelle Informationen, welche die DBIS-Gemeinde betreffen.

4 Künftige Schwerpunktthemen

4.1 Argumentative Intelligence (Arguing)

This special issue of the “Datenbank-Spektrum“ is dedicated to the area of “argumentative intelligence“ concerned with the question of how to design intelligent systems that reach a deep understanding of states of affairs and domains in order to be able to analyze and generate arguments to support users in the activity of rationalizing as a basis for informed decision making. We will invite submissions from different research fields including semantics, natural language processing, information retrieval, knowledge representation and artificial intelligence in general to contribute to this new field of research. The special issue will feature key results and advancements achieved as a result of the DFG-funded priority program “Robust Argumentation Machines“.

Expected size of the paper: 8–10 pages, double-column (cf. the author guidelines at www.springer.com/13222). Contributions either in German or in English are welcome.

  • Deadline for submissions: Feb. 1st, 2020

  • Issue delivery: DASP-2-2020 (July 2020)

  • Guest editors:

  • Philipp Cimiano (Universität Bielefeld)

  • Gerhard Heyer (Universität Leipzig)

  • Michael Kohlhase (FAU Erlangen-Nürnberg)

  • Benno Stein (Bauhaus-Universität Weimar)

  • Jürgen Ziegler (Universität Duisburg-Essen)

4.2 Data Management for Future Hardware

This special issue of the “Datenbank-Spektrum” is dedicated to the research achieved by the DFG Priority Programme “Scalable Data Management on Future Hardware”. We invite submissions on original research as well as overview articles addressing the challenges and opportunities of modern and future hardware for data management such as many-core processors, co-processing units, new memory and network technologies.

Paper format: 8–10 pages, double-column (cf. the author guidelines at www.springer.com/13222).

  • Deadline for submissions: June 1st, 2020

  • Issue delivery: DASP-3-2020 (November 2020)

  • Guest editors:

  • Kai-Uwe Sattler, TU Ilmenau

  • kus@tu-ilmenau.de

  • Alfons Kemper, TU München

  • alfons.kemper@in.tum.de

4.3 Digitale Lehre im Fachgebiet Datenbanksysteme

Die Lehre im Bereich Datenbanken und Informationssysteme hat ihren festen Platz in den Curricula für Informatik-Studiengänge an Universitäten und Hochschulen. Neben klassischen Inhalten wie dem relationalen Modell oder SQL finden sich in den Lehrveranstaltungen auch stetig neue Themen, u. a. NoSQL und NewSQL. Der wachsenden Bedeutung von Big Data und Data Analytics wird auch durch eigene Profilierungen und Studiengänge im Bereich Data Science Rechnung getragen.

Neben diesen inhaltlichen Veränderungen macht die Digitalisierung natürlich auch vor der Durchführung der Lehre selbst nicht halt. Neue Lehrformen wie das Flipped-Classroom-Modell oder digitale Angebote wie Massive Open Online Courses (MOOCs) setzen mit Videos und Quizzes verstärkt auf digitale Lernmaterialien. Technische Innovationen, wie z. B. die Virtualisierung mit Docker oder die Verfügbarkeit großer Datensätze, ermöglichen Lernenden Zugriff auf komplexe Lernumgebungen für praxisnahe Übungen.

Dieses Themenheft des Datenbank-Spektrums soll einen Überblick über die Entwicklungen der digitalen Lehre im Bereich Datenbanken sowohl im Universitäts- und Hochschulkontext als auch in der betrieblichen Weiterbildung geben. Zu den relevanten Themenbereichen gehören unter anderem:

  • Architekturen und Werkzeuge zur Durchführung praktischer Übungen u. a. im Bereich relationaler Datenbanksysteme oder Big-Data-Systeme

  • Systeme zur (semi-)automatischen Bewertung typischer Aufgabenformate im Bereich Datenbanken

  • Aufbau und Erfahrungsberichte zu neuartigen Curricula oder Lehr-Lern-Szenarien (z. B. Flipped Classroom, Blended Learning)

  • Evaluationen zur Wirksamkeit digitaler Lehre.

Wir erbitten Einreichungen in Deutsch oder Englisch mit einem Umfang von 8 bis 10 Seiten (zweispaltig) gemäß den Layoutvorgaben (siehe www.springer.com/13222).

  • Frist zur Einreichung: 1. Okt. 2020

  • Erscheinen des Themenheftes: DASP-1-2021 (März 2021)

  • Gast-Editoren:

  • Stefanie Scherzinger, OTH Regensburg

  • stefanie.scherzinger@oth-regensburg.de

  • Andreas Thor, HTWK Leipzig

  • andreas.thor@htwk-leipzig.de