COVID-19 stellt Individuen und Gesellschaften weltweit vor eine der größten Herausforderungen der letzten Jahrzehnte. Public-Health-Forschung, epidemiologische und klinische Studien sind daher unabdingbar, um die Ausbreitung des für die Pandemie verantwortlichen SARS-CoV‑2 und dessen Varianten nachzuverfolgen, die Folgen für die Gesundheit und das soziale Leben besser zu verstehen sowie wirksame Therapie- und Impfmethoden zu identifizieren. Dadurch entsteht für Politik, Wirtschaft, Gesundheitsversorgung und Gesellschaft eine empirische Grundlage zur Eindämmung und zum Umgang mit der Pandemie. Diese bedarf jedoch einer fortlaufenden Aktualisierung.
In sehr kurzer Zeit entstanden zahlreiche Projekte, Studien und Netzwerke zur Erforschung von SARS-CoV‑2 und COVID-19. Aus der Perspektive von Forschenden sind hiermit erhebliche Herausforderungen verbunden. Es fällt zunehmend schwer, einen Überblick zu behalten. Dieser Überblick ist jedoch unabdingbar, um Forschungsaktivitäten besser zu koordinieren, ungeplante Doppelforschung zu vermeiden und Studien harmonisiert zu implementieren. Derzeit wird die Zusammenführung von Wissensquellen durch die unzureichende Berücksichtigung von Standards und einen Mangel an harmonisierten Methoden auf allen Ebenen des Forschungsprozesses erschwert.
Aufgrund der bestehenden Pflicht zur Registrierung klinischer Studien in Registern sind deren Metadaten gut strukturiert verfügbar, z. B. in der International Clinical Trials Registry Platform (ICTRP) der Weltgesundheitsorganisation (WHO; [1]) oder dem Deutschen Register Klinischer Studien (DRKS; [2]). Dagegen ist die Situation für epidemiologische und Public-Health-Studien wesentlich unübersichtlicher. Zwar gibt es national und international mehrere Übersichten im Internet, z. B. zu seroepidemiologischen Studien am Robert Koch-Institut (RKI; [3]), ein COVID-19-Forschungsregister der American Society for Microbiology [4], die COVID-19-Forschungsübersicht der Medizininformatik-Initiative [5] oder des Rats für Sozial- und Wirtschaftsdaten [6], aber diese Übersichten sind in Umfang, Aktualität und Informationstiefe uneinheitlich.
Noch schwieriger wird es, wenn studienübergreifend ein detaillierter Einblick in die Protokolle, Erhebungsinstrumente, Itembanken und weitere Studiendokumente gewonnen werden soll, obwohl Technologien zur übersichtlichen Aufbereitung und Darstellung solcher Informationen grundsätzlich verfügbar sind [7,8,9]. Dies wäre zum Beispiel wichtig, um eigene Erhebungen mit bestehenden vergleichbar zu planen. Nur vereinzelt bieten Projekte Zugang zu relevanten Informationen. So wurde im Netzwerk Universitätsmedizin (NUM; [10]), das vor allem krankenhausbezogene Forschung koordiniert, mit dem German Corona Consensus Dataset (GECCO) ein positives Beispiel für harmonisierte Datenerhebungen auf Basis von internationalen medizinischen IT-Standards anhand eines abgestimmten Kerndatensatzes geschaffen [11]. Auch das GESIS – Leibniz-Institut für Sozialwissenschaften stellt eigene Erhebungsinstrumente und weitere Studiendokumente auf ihren Webseiten bereit [12].
Ein weiteres Problem betrifft den Zugriff auf neueste Forschungsergebnisse und Daten, die inzwischen häufig in Preprints publiziert werden, bevor sie mit oft mehrmonatigen Verzögerungen in etablierten Literaturdatenbanken wie PubMed oder Web of Science auffindbar sind. Ein zentraler Zugriff auf diese verteilt vorliegenden Preprint-Archive ist daher wichtig, um aktuelle Ergebnisse besser zu finden und die Idee des breiten Communityreviews von Preprints im Sinne einer Qualitätssicherung praktisch zu unterstützen.
Darüber hinaus wurden im Laufe der Pandemie weitere Hürden offensichtlich, die eine effiziente Forschung erschweren: Obwohl teilweise dieselben Personen in verschiedene Studien eingeschlossen wurden und weitere Gesundheitsdaten dieser Personen z. B. bei den Krankenkassen gespeichert sind, fehlen ausreichende Optionen, diese Daten auf individueller Ebene zu verknüpfen. Dies beschränkt die Möglichkeiten, ein ausreichend umfassendes Bild des Krankheitsgeschehens zu erhalten, um verlässlichere Aussagen zur Verlaufsprognose oder zu Impffolgen schnell zu erhalten. Dies ist der Fall, obwohl es außerhalb von reinen Forschungsprojekten positive Beispiele gibt, die durch eine entsprechende Gesetzgebung abgedeckt sind, wie etwa die Zusammenführung von Melde- und Sequenzierungsdaten am RKI, um verbesserte Aussagen zu Virusvarianten zu erhalten.
Zusammenfassend erfüllen die deutschen klinischen Studien zu COVID-19 sowie entsprechende Datenbestände in Epidemiologie und Public Health trotz positiver Beispiele die Ansprüche der sogenannten FAIR-Prinzipien [13] noch nicht im vollen Umfang. Dabei steht FAIR für die Auffindbarkeit (Findable), Zugänglichkeit (Accessible), Interoperabilität (Interoperable) und Wiederverwendbarkeit (Reusable) von Forschungsdaten LINK zu [14]. Um diesem Defizit zu begegnen, wurde als Teil des deutschen interdisziplinären Netzwerkprojekts „Nationale Forschungsdateninfrastruktur für personenbezogene Gesundheitsdaten“ (NFDI4Health; [15]) die Task Force COVID-19 etabliert [16]. Ihr Ziel ist es, eine bundesweite Informationsinfrastruktur zu entwickeln, um medizinische, epidemiologische und Public-Health-Forschung nach FAIR-Kriterien leichter zugänglich zu machen und Forschungsergebnisse besser zu kommunizieren. Dabei betrachtet die NFDI4Health Task Force COVID-19 neben Forschung in Bezug auf PatientInnen mit COVID-19 auch die Public-Health-Folgen des Pandemieausbruchs auf die Allgemeinbevölkerung.
Wesentliche Arbeitsinhalte der NFDI4Health Task Force COVID-19 umfassen:
-
1.
die Erstellung eines Studienportals zum Auffinden deutscher COVID-19-Forschungsinitiativen mit strukturierten Gesundheitsdaten aus epidemiologischen und klinischen Studien inkl. Impfstudien, administrativen Datenbanken, der Primärversorgung und der Gesundheitsberichterstattung, das auch die semantisch aufbereitete vergleichende Darstellung von Items aus Erhebungsinstrumenten umfasst;
-
2.
die auf Text-Mining (Extraktion aus großen Textmengen) basierende Aufbereitung und Darstellung von SARS-CoV-2- und COVID-19-bezogener Forschung unter Nutzung der Inhalte verschiedener Preprint-Server in einer semantischen Suchmaschine;
-
3.
ein Konzept zur Verknüpfung von Forschungs- und Routinedaten;
-
4.
Services zum verbesserten Umgang mit Bilddaten;
-
5.
die Anwendung standardisierter Analyseroutinen für harmonisierte Qualitätsbewertungen.
Die primäre Zielgruppe der Infrastruktur sind Forschende, die Studien zu SARS-CoV‑2 oder COVID-19 durchführen oder planen. Die intendierte Anwendung der ersten beiden Arbeitsinhalte betrifft insbesondere das leichtere Auffinden deutscher COVID-19-Ressourcen zur besseren Planung eigener Studien sowie zur Bewertung von Studienergebnissen. Mit den Arbeitsinhalten 3–5 werden Hilfsmittel an die Hand gegeben, um die Qualität spezifischer Aspekte von COVID-19-bezogener Forschung wie das Verknüpfen von Daten aus verschiedenen Quellen (Record-Linkage) oder Bildanalyse zu unterstützen. Eine Übersicht zu den verschiedenen Arbeitsinhalten findet sich in Abb. 1. Der Schwerpunkt dieser Publikation liegt auf der Darstellung des Studienportals und der Suchmaschine für Preprint-Publikationen (Arbeitsinhalte 1–2).