Einleitung

Vor etwa 20 Jahren wurde das erste Ganzgenom eines multizellulären Organismus, des Fadenwurms Caenorhabditis elegans veröffentlicht [1]. Nur sechs Jahre später wurde im Rahmen des Human Genome Projects ein substanzieller Teil des menschlichen Genoms sequenziert [2]. Seitdem sind nicht nur die Kosten, sondern auch der technische und zeitliche Aufwand für die Sequenzierung um mehrere Größenordnungen gefallen [3]. Molekulargenetische Ansätze sind heutzutage in zahlreichen Bereichen außerhalb der Biologie zu einem Standardwerkzeug geworden, haben diverse wissenschaftliche Gebiete revolutioniert und einen enormen, in einigen Bereichen disruptiven Erkenntnisgewinn gebracht [4]. Neuere Methoden wie Next Generation Sequencing (NGS) erlauben es mittlerweile, die organismische Zusammensetzung einzelner Proben über ihren genetischen „Footprint“ zu messen (Metagenomik; [5]).

Parallel zur experimentellen Datengewinnung hat sich der Wissenschaftszweig Bioinformatik zum am stärksten wachsenden Teilgebiet der Informatik entwickelt. Da immer größere Datenmengen durch effizientere Sequenzierung gewonnen werden, müssen hoch performante Computeralgorithmen entwickelt werden, die aus den Rohdaten relevante Informationen extrahieren, Datenlücken mit hoher Verlässlichkeit schließen, effektives Management gewährleisten und große Datenmengen klassifizieren.

In der Epidemiologie ist die Verzahnung molekulargenetischer und bioinformatischer Methoden nicht mehr wegzudenken. In verschiedensten Anwendungen werden traditionelle Ansätze, zum Beispiel in der Infektionsepidemiologie übertragbarer Krankheiten, durch genetische Informationen über Erreger ergänzt, erweitert oder verbessert. So können die schnelle Sequenzierung von Proben und ihre bioinformatische Analyse im Kontext nosokomialer Ausbrüche antibiotikaresistenter Keime Aufschluss über potenzielle Transmissionswege innerhalb eines Krankenhauses liefern [6].

Mittlerweile ist die transdisziplinäre Brücke zwischen Molekularbiologie und Bioinformatik eine solide wissenschaftliche Verbindung in der Epidemiologie und ein gutes Beispiel für Synergien, die durch die Vernetzung vormals disjunkter Wissenschaftsgebiete entstehen. Oftmals werden diese Vernetzungen durch die Entwicklung neuer Technologien geradezu erzwungen. Man denke nur an die Entwicklung des Mikroskops vor 400 Jahren, das gewissermaßen die Medizin mit der Biologie verschränkt und den Lebenswissenschaften eine unvergleichliche Kaskade von Erkenntnissen gebracht hat.

Digitale Epidemiologie

Momentan werden wir wieder Zeugen einer vergleichbaren wissenschaftlichen Revolution, die durch neue Technologien ausgelöst wurde und immer noch anhält. Diese Revolution wird im Wesentlichen durch drei technologische Errungenschaften der letzten Jahre getragen und vorangetrieben: 1.) das Internet, 2.) soziale Netzwerke und 3.) mobile Endgeräte. Diese Technologien sind das technologische Fundament der digitalen Epidemiologie.

Der Begriff „Digital Epidemiology“ wurde 2012 von Marcel Salathé geprägt, um Forschungsprojekte und -aktivitäten im Bereich der Epidemiologie zusammenzufassen, bei denen eine oder mehrere dieser Schlüsseltechnologien nutzbar gemacht werden [7]. Ähnlich wie die Schlagworte „Big Data“, „Data Analytics“, „maschinelles Lernen“, „künstliche Intelligenz“, „Digital Health“ etc. führt der Begriff „Digital Epidemiology“, zu Deutsch „digitale Epidemiologie“, oftmals zu leichter Verwirrung, wird nicht selten missverstanden oder mit anderen Konzepten verwechselt. Hinzu kommt, dass Schlagworte auch immer vage bleiben und die Inhalte, die sich dahinter verbergen, gerade hierzulande immer auch etwas bedrohlich wirken können, weil sie unbekannt sind. Dieser Effekt wird noch dadurch verstärkt, dass gerade einige Konzepte, wie z. B. „maschinelles Lernen“ oder „künstliche Intelligenz“, in Teilen der Gesellschaft negativ besetzt sind, in der digitalen Epidemiologie aber eine wichtige Rolle spielen.

Wieso das noch neue, rasant wachsende Gebiet „digitale Epidemiologie“ so vielversprechend ist, kann gut am Beispiel von Ausbrüchen direkt übertragbarer Infektionskrankheiten erläutert werden. Jedes einzelne Ausbruchsgeschehen ist ein komplexes dynamisches Phänomen, bei dem eine Vielzahl von Faktoren eine Rolle spielt. Trotz spezifischer Unterschiede eint alle Prozesse die Tatsache, dass sie an der Schnittstelle zwischen Erreger und Wirt stattfinden und dass Erreger und Wirt systemspezifischen Umweltbedingungen ausgesetzt sind (siehe Abb. 1). Biologische Faktoren des Erregers spielen eine wichtige Rolle und werden z. B. durch molekularbiologische Methoden in Verbindung mit bioinformatischen Analysen bestimmt. Das Schlüsselproblem liegt auf der Seite des Wirts, also des Menschen. Die Vielzahl der Faktoren, die wirtsseitig eine Rolle spielen, lassen sich praktisch nicht quantitativ erfassen. Eine ganze Reihe individueller Verhaltensmuster bestimmt Transmissionswahrscheinlichkeiten, die mechanistisch nicht einmal ausreichend beschrieben werden können. Insbesondere bei übertragbaren Krankheiten ist es aber notwendig, die Struktur der Interaktionen zwischen Individuen zu messen, die wiederum stark kontextabhängig sind. Mobilitätsmuster können eine Rolle spielen und bestimmen, wie stark eine Population durchmischt wird. Modelle zeigen, dass die Strukturen von Kontaktnetzwerken den Verlauf einer Epidemie stark beeinflussen können [8]. Diese Netzwerke sind allerdings nur schwer zu erfassen, insbesondere in natürlichen Verhaltenssituationen. Es können eben keine systematischen Experimente durchgeführt werden. In den meisten Fällen ist man auf Surveys und indirekte Methoden angewiesen.

Abb. 1
figure 1

Methoden zur Erforschung von Wechselwirkungen zwischen Erreger und Wirt in der Umwelt bei direkt übertragbaren Infektionskrankheiten. Die digitale Epidemiologie bietet neue Technologien zum Verständnis der wirtsseitigen Faktoren

Die digitale Epidemiologie setzt an dieser Stelle an. Mithilfe der o. g. Technologien ist es teilweise möglich, wichtige Erkenntnisse über das menschliche Verhalten zu gewinnen, besonders über Entscheidungsprozesse, Bewegungsmuster und, am allerwichtigsten, die Wechselwirkungen zwischen Individuen, die mit konventionellen Methoden nicht erfasst werden können. Diese Forschung steht noch am Anfang, aber schon jetzt zeichnet sich ab, dass die digitale Epidemiologie für das Verständnis der Dynamik von Infektionskrankheiten eine ebenso wichtige Rolle spielen wird wie die Bioinformatik für das Verständnis des Erregers.

Dieser Artikel soll einen Überblick liefern. Fragen wie: „Welche Methoden kommen in der digitalen Epidemiologie zum Einsatz?“, „Welche Art von Daten werden analysiert?“ und „Was sind die typischen Datenquellen?“, werden beantwortet und an Beispielen diskutiert. Ein besonderer Fokus wird auf die Chancen dieses neuen Forschungszweiges gelegt. Es werden die Herausforderungen diskutiert und erläutert, wie auch in diesem Bereich der Erfolg im Kern davon abhängt, wie mutig Wissenschaftler mit bisher unbekannten Methoden, Ansätzen und Sichtweisen umgehen können.

Neue Datenquellen

Datenintegration neuer Qualität

Ein wichtiger Strang der digitalen Epidemiologie ist die Erweiterung klassischer Surveillance-Systeme. Insbesondere die Analyse von Inzidenz- und Prävalenzdaten wird immer stärker durch digitale Technologien verbessert und verfeinert. Hochaufgelöste Daten mit breiter Abdeckung werden mittlerweile integrativ auf öffentlich zugänglichen Datenportalen zur Verfügung gestellt. Die Internetplattform Healthmap (https://www.healthmap.org/en) ist hierfür ein gutes Beispiel [9]. Ziel dieser Plattform ist, verschiedenste Datenquellen (WHO [World Health Organization], ProMed Mail [10], GeoSentinel [11], OIE [12], FAO [13], EuroSurveillance [14], etc.) zu Ausbrüchen verschiedener Erreger in einer Datenbank zusammenzufassen. Sowohl Infektionskrankheiten als auch Zoonosen und andere Krankheiten sind integriert. Daten werden auf dieser Plattform nicht nur gesammelt und zur Verfügung gestellt, sondern auch interaktiv visualisiert (siehe Abb. 2). Healthmap ist ein hervorragendes Beispiel für die Zusammenarbeit von Epidemiologen, Medizinern, Biologen, Sozialwissenschaftlern und Informatikern. Die Integration verschiedener Datenquellen in einer Gesamtdatenbank birgt den offensichtlichen Vorteil, viel schneller Ausbruchsgeschehen automatisiert zu identifizieren. So können speziell dafür konzipierte Algorithmen statistische Unregelmäßigkeiten detektieren und von spontanen Schwankungen unterscheiden. Mittlerweile ist Healthmap zu einem Werkzeug gereift, das in verschiedenen wissenschaftlichen Studien als zentrale Datenquelle herangezogen wird, so z. B. in einer vielzitierten Untersuchung zur globalen Verteilung von Dengue [15].

Abb. 2
figure 2

Interaktive Visualisierung von Daten zu verschiedenen Infektionskrankheiten im öffentlich zugänglichen Datenportal Healthmap (www.healthmap.org)

Ein zweites erfolgreiches Beispiel ist das Projekt NextStrain (https://nextstrain.org/), konzipiert und entwickelt von Trevor Bedford und Richard Neher [16]. NextStrain ist eine Internetplattform, die molekularbiologische Informationen zur Evolution verschiedener Virusinfektionskrankheiten (Influenza, Masern, Ebola, West-Nil-Virus etc.), aber mittlerweile auch bakterieller Infektionskrankheiten mit geografischen Informationen vereint. NextStrain ist damit im neuen Gebiet der Phylogeografie angesiedelt (Abb. 3). Genau wie Healthmap integriert NextStrain Daten aus verschiedensten Quellen. Das Tool wird mittlerweile von Wissenschaftlern genutzt, um z. B. die weitere Evolutionsdynamik verschiedener Viren vorherzusagen oder um die Zusammensetzung von Impfstoffen zu optimieren [17]. Wie bei vielen Projekten dieser Art wird auch hier Wert darauf gelegt, alle zum Einsatz kommenden Softwarekomponenten unter Public License und Open Source auf Code-Sharing-Plattformen zur Verfügung zu stellen.

Abb. 3
figure 3

Visualisierung von genetischen und geografischen Daten zu verschiedenen Erregern im öffentlichen Internetportal NextStrain (www.nextstrain.org)

Soziale Netzwerke als Datenquelle

Epidemiologie ist per definitionem eine interdisziplinäre Wissenschaft, in der Expertenwissen aus Medizin, Biologie, Sozialwissenschaften und Statistik zusammengeführt wird. Klassisch werden Daten aus der Surveillance mit statistischen Methoden untersucht, statistische Modelle werden entwickelt, um Inzidenz und Prävalenz einer Infektionskrankheit vorherzusagen. Sowohl die Qualität der Surveillance als auch die Genauigkeit der zum Einsatz kommenden statistischen Methoden hat sich graduell immer weiter verbessert.

Eine vielversprechende, ergänzende Komponente hat sich durch die Integration sozialer Medien und sozialer Netzwerke ergeben. Wissenschaftler aus verschiedenen Disziplinen entwickeln mittlerweile Methoden, um aus individuenspezifischen Daten, die gewissermaßen als Nebenprodukt auf Internetplattformen sozialer Netzwerke gewonnen werden, Antworten auf epidemiologische Fragestellungen zu finden. Netzwerke wie Facebook oder Twitter aggregieren Daten, die Rückschlüsse über die Dynamik von Infektionskrankheiten erlauben oder mit überraschender Genauigkeit z. B. den Verlauf einer saisonalen Grippewelle reproduzieren können [18]. So können z. B. der Effekt von Impfkampagnen und die Impfbereitschaft in Populationen quantitativ über die Textanalyse der Inhalte auf sozialen Medienplattformen erfasst werden [19]. Obwohl diese Entwicklung noch nicht ausgereift ist, sind erste Ergebnisse sehr vielversprechend und werden sich sicher zu einer wichtigen Ergänzung traditioneller und klassischer Surveillance-Systeme entwickeln. Gerade die Daten des Kurznachrichtendienstes Twitter werden immer interessanter für Wissenschaftler aus dem Bereich Public Health. Zum Beispiel konnte in einer Reihe jüngst veröffentlichter Studien die Vernetzung sowohl von Impfgegnern als auch Impfbefürwortern in den USA quantitativ erfasst und ausgewertet werden. Außerdem wurde sehr präzise ausgewertet, welche Onlinemedien die jeweiligen Gruppen nutzen, um Informationen auszutauschen und informiert zu werden [20]. Diese Daten liefern dann weitere Erkenntnisse, wenn moderne netzwerktheoretische Methoden zum Einsatz kommen und die Existenz sogenannter Echo-Chambers (Gruppen von Gleichgesinnten; [21]) nachweisen können, um die Persistenz nichtevidenzbasierter Meinungen in sozialen Gruppen zu erklären oder geografisch zu lokalisieren. Hierbei kann gut erkannt werden, an welchen Stellen z. B. Informationskampagnen greifen könnten.

Mobile Endgeräte, Smartphones und tragbare Sensoren

Eine der fundamentalen Schwierigkeiten in der Infektionsepidemiologie übertragbarer Krankheiten ist die Rekonstruktion individueller Transmissionsgeschehen bzw. Transmissionswege in einer Population. Aus reinen Inzidenzen bzw. Prävalenzen können diese nicht rekonstruiert werden, was die Vorhersage des weiteren Verlaufs erschwert oder unmöglich macht. Phylogenetische Analysen können helfen, erfordern aber Zeit und können nur bedingt eingesetzt werden. Im Kern liegt das Problem darin, dass die Dynamik direkt übertragbarer Krankheiten durch die zugrunde liegenden, direkten Wechselwirkungen von Individuen bestimmt wird, deren genaue Messung über längere Zeit und in repräsentativen Populationen unter natürlichen Bedingungen aber unmöglich ist.

In einem Gedankenexperiment könnte man jeden physischen Kontakt oder jede räumliche Proximität von Personen messen, um in Verbindung mit dem Infektionszustand jeder Person potenzielle Infektionen entweder zu identifizieren oder auszuschließen. Gerade am Beispiel direkt übertragbarer Infektionskrankheiten wird klar, dass statt der zeitlichen Inzidenz- oder Prävalenzdynamik der zeitliche Verlauf der Interaktionen zwischen infektiösen und suszeptiblen Personen analysiert werden müsste, was in der Sprache der Netzwerktheorie bedeutet: „Es kommt nicht auf die Netzwerkknoten an, sondern auf deren Verbindungen.“

An diesem Punkt setzt ein weiterer Teilbereich der digitalen Epidemiologie an: die genaue Erfassung einzelner Interaktionen zwischen Individuen in Populationen mittels neuer individuenbasierter Sensoren. Schon 2008 haben Wissenschaftler um Alain Barrat, Ciro Cattuto und Alessandro Vespignani Experimente durchgeführt, bei denen Probanden in ausgewählten, aber natürlichen Szenarien mit tragbaren RFID(„radio-frequency identification“)-Chips ausgestattet wurden [22]. Das SocioPatterns-Projekt war geboren (www.sociopatterns.org). Die tragbaren Sensoren konnten mit hoher Auflösung die physische Proximität zwischen Individuen messen. Immer, wenn sich zwei Personen in einem Abstand von weniger als einem Meter gegenüberstanden, wurde ein Kontakt gemessen. Die Wissenschaftler hatten zunächst das Ziel, die statistischen, temporalen und topologischen Strukturen der Interaktionsnetzwerke zu verstehen. Experimente wurden in Museen, Schulen und auf Konferenzen durchgeführt [23,24,25]. Das Potenzial dieser Methode zur Kontaktnetzwerkrekonstruktion im Public-Health-Bereich wurde schnell erkannt und verschiedene Wissenschaftler haben diese Technologie im Kontext nosokomialer Infektionen eingesetzt [26]. In einer Studie von 2013 wurden in einem Krankenhaus Patienten und Krankenhausangestellte mit RFID-Chips ausgestattet. Mit einer zeitlichen Auflösung im Sekundenbereich wurde über mehrere Wochen jeder Kontakt zwischen einigen Hundert Probanden gemessen [27]. Mithilfe dieser Daten konnte gezeigt werden, wie sich Kontakthäufigkeiten zwischen den verschiedenen Gruppen von Personen (z. B. zwischen Patienten und Personal) quantitativ unterscheiden und von welchen Parametern Unterschiede abhängen. Mithilfe netzwerktheoretischer Methoden konnten die aggregierten Kontaktnetzwerke auf strukturelle Muster und statistisch auffällige Eigenschaften untersucht werden.

In einer ähnlichen Serie von Studien hat eine Forschungsgruppe an der DTU (Technische Universität Kopenhagen) unter Leitung von Sune Lehmann im Rahmen des SensibleDTU-Projekts im Jahr 2012 ca. 1000 Smartphones an Studenten in einem partizipatorischen Experiment verteilt [28]. Die einzelnen Geräte wurden mit einer speziellen Software ausgestattet, die alle Aktivitäten jedes Individuums aufzeichnet und in einer Datenbank sammelt. Sowohl Aktivitäten auf sozialen Medien, der Austausch von SMS und der genaue Aufenthalt via GPS wurden erfasst und über viele Monate mit einer zeitlichen Auflösung von einigen Minuten gemessen. Insbesondere wurde via Bluetooth erfasst, wann sich zwei Personen der Kohorte in physischer Proximität befanden und wie lange diese Kontakte andauerten. Abb. 4 zeigt ein über drei Monate aggregiertes Kontaktnetzwerk, das aus diesen Experimenten gewonnen wurde. Jeder Netzwerkknoten repräsentiert eine Person. Die Netzwerkverbindungen, die sog. Links, quantifizieren, wie häufig und lange zwei Personen in näherem Kontakt waren. Man erkennt sofort, dass sich diese Populationen nicht durchmischen. Es existieren Cluster mit starker interner Vernetzung, die untereinander nur schwach verknüpft sind. Die Intensität der Verbindungen variiert ebenfalls stark. In verschiedenen Folgestudien und Modellen wurde gezeigt, welchen substanziellen Einfluss diese versteckten Strukturen realer Kontaktnetzwerke auf die Ausbreitung von Infektionskrankheiten haben können [29]. Es konnte in diesen Experimenten zweifelsfrei festgestellt werden, dass Modelle, die z. B. eine homogene Durchmischung annehmen oder die zeitlichen Modulationen in Netzwerkstrukturen ignorieren, zu stark fehlerhaften Vorhersagen kommen [30, 31]. Diese Einsicht ist insbesondere deshalb wichtig, weil konventionelle Modelle, mithilfe derer Größen wie die notwendige Durchimpfung zur Auslöschung von Erkrankungen, wie z. B. Masern, berechnet werden, teilweise auf Annahmen fußen, die nicht einmal approximative Gültigkeit haben und deshalb neu evaluiert werden müssen.

Abb. 4
figure 4

Struktur eines Kontaktnetzwerkes, das aus SensibleDTU-Daten rekonstruiert wurde. Jeder Knoten repräsentiert eine Person. Die Verbindungen quantifizieren die Häufigkeit, mit der zwei Personen über einen Zeitraum von drei Monaten in Kontakt waren. Die Farben unterscheiden berechnete Cluster

Wie wichtig die Messung von Interaktionen und damit potenziellen Transmissionen ist, zeigt Abb. 5. Die Abbildung illustriert den Verlauf einer simulierten Infektionskrankheit auf der Datengrundlage des SensibleDTU-Experiments. Das heißt, hier wurde eine hypothetische Infektionskrankheit simuliert, bei der Transmissionen durch die empirisch ermittelten Kontakte stattfinden. Während die konventionelle Inzidenzkurve einen charakteristischen Verlauf mit exponentiellem Anstieg und darauffolgendem Abfall hat, ist der zeitliche Verlauf der Kontakte zwischen infizierten und suszeptiblen Personen extrem starken Schwankungen unterworfen. Es ist aber genau diese Kurve, die das Ergebnis bestimmt. Die starken Fluktuationen weisen auch darauf hin, dass gemittelte Größen, wie die traditionell verwendete Basisreproduktionszahl (die mittlere Anzahl von Sekundärinfektionen, die eine infizierte Person für die Dauer der Infektion in einer vollständig empfänglichen (suszeptiblen) Population im Durchschnitt auslöst), nur mit großer Vorsicht und Skepsis für quantitative Vorhersagen herangezogen werden sollten.

Abb. 5
figure 5

Verlauf einer hypothetischen Infektionskrankheit, die durch direkte Kontakte übertragen wird, simuliert auf Basis der empirischen Kontaktnetzwerke aus den SensibleDTU-Messungen. Grau: traditionelle Inzidenzkurve: Anzahl der Neuinfektionen pro Zeiteinheit. Grün: Verlauf der Anzahl potenziell infektiöser Kontakte

Methoden in der digitalen Epidemiologie

In der digitalen Epidemiologie kommen verschiedene Methoden zum Einsatz, die sich besonders zur Analyse der neu gewonnenen Daten eignen. Hier sollen drei Methoden schwerpunktmäßig näher diskutiert werden, die in der Infektionsepidemiologie noch nicht zu den Standardwerkzeugen gehören, aber gerade im Bereich direkt übertragbarer Krankheiten traditionelle Methoden sehr gut ergänzen können.

Komplexe Netzwerke

Die o. g. Beispiele zeigen, dass die moderne Netzwerkforschung ein ganz wichtiges Werkzeug der digitalen Epidemiologie ist. Die „natürlichen Experimente“, exemplarisch repräsentiert durch die Projekte SensibleDTU und SocioPatterns, messen mit hoher Präzision Kontaktnetzwerke zwischen Individuen in Populationen unter natürlichen Bedingungen. Um diese oftmals zeitabhängigen Netzwerke besser verstehen und wichtige Strukturen extrahieren zu können, liefern netzwerktheoretische Methoden wichtige Ergebnisse. So kann z. B. die Variabilität des Knotengrads (der Knotengrad ist die Anzahl der Verbindungen eines Netzwerkknotens) als ein Maß für die Heterogenität des Netzwerks Aufschluss geben, inwieweit sich epidemiologische Größen im Vergleich zu einer gut durchmischten Population verschieben [8, 32]. Typischerweise sind soziale Kontaktnetzwerke stark „geclustert“, d. h., es existieren stark vernetzte Bereiche des Netzwerks, die untereinander nur schwach verlinkt sind. Starkes Clustering kann dazu führen, dass Infektionskrankheiten sich zwar langsamer ausbreiten, aber auch persistenter sind [33].

Die Netzwerktheorie ist ebenso wichtig für das Verständnis der geografischen Ausbreitung von Infektionskrankheiten, bei der natürlicherweise Mobilität eine Rolle spielt. Während noch vor einigen Jahren quantitative Mobilitätsmessungen für große Populationen unmöglich waren, liefern jetzt die neuen Technologien, insbesondere mobile Endgeräte und interaktive Kartenanwendungen wie Google-Maps (Google LLC, Mountain View, CA, USA), Open-Streetmaps etc., sehr wertvolle Daten zu Bewegungsmustern einzelner Personen und gesamter Populationen. Aus diesen Bewegungsmustern können Netzwerke rekonstruiert werden, bei denen einzelne Knoten Orte repräsentieren und deren Verlinkung die Anzahl von Personen, die sich pro Zeiteinheit zwischen den Orten bewegen. Diese Mobilitätsnetzwerke bestimmen die geografische Ausbreitung von Infektionskrankheiten. Ihre Kenntnis verbessert Vorhersagen substanziell. Abb. 6 zeigt das weltweite Flugverkehrsnetz und die Ergebnisse eines Netzwerkmodells zur Ausbreitung von Ebola im Jahr 2013. Das Modell wurde entwickelt, um die wahrscheinlichsten Ausbreitungswege zu bestimmen und das relative Importrisiko an verschiedenen Flughäfen weltweit zu schätzen. Durch mobile Endgeräte und deren GPS-Sensoren können mittlerweile individuelle Bewegungsmuster mit extrem hoher zeitlicher und räumlicher Auflösung gewonnen werden. Diese Bewegungsdaten können auch genutzt werden, um die Dynamik von Infektionskrankheiten in urbanen Settings besser verstehen und modellieren zu können.

Abb. 6
figure 6

Netzwerktheoretische Berechnung der möglichen Ausbreitungswege im Kontext der Ebolaepidemie in Westafrika im Jahr 2013. Ausgangspunkt ist hier der Flughafen in Freetown, Sierra Leone. Das Netzwerk repräsentiert die wahrscheinlichsten Ausbreitungswege über das weltweite Flugverkehrsnetz. Berechnet wurden diese Wege durch spezielle Algorithmen, die den gesamten weltweiten Flugverkehr berücksichtigen

Interaktive Visualisierung

Neben der Netzwerktheorie werden auch immer stärker interaktive Visualisierungen als Werkzeug eingesetzt. Die interaktiven Komponenten z. B. in den Datenportalen Healthmap und NextStrain sind ein wesentliches Merkmal dieser Tools. Gerade die Komplexität und Fülle der Daten, die in der digitalen Epidemiologie anfallen, erfordern es, neue Methoden zu entwickeln, um Strukturen in diesen Daten „sichtbar zu machen“. Wichtig ist hier auch, dass interaktive Visualisierungen es erlauben, verschiedene Perspektiven auf einen Datensatz bereitzustellen und schnell zwischen verschiedenen Perspektiven zu wechseln. Leider wird die Macht der interaktiven Visualisierung noch unterschätzt. Intuitive Visualisierungen werden oft zu Unrecht mit der attraktiven Aufbereitung von Daten verwechselt. Diese Fehleinschätzung folgt aus dem Missverständnis, dass es in der Wissenschaft in erster Linie darum geht, Hypothesen zu testen, als neue Hypothesen zu entwickeln, die Intuition für Systeme zu schärfen und Daten explorativ zu verstehen. Interaktive Visualisierungen sind ein Instrument, eine neue Technologie, die ähnlich wie Mikroskop oder Teleskop neue Einblicke in Daten vermitteln, die dann quantitative Analysen anregen, bei der Entwicklung neuer Hypothesen helfen und neue Studien motivieren können. Immer mehr Internetplattformen, Onlinedatenbanken und Softwarepakete werden entwickelt, bei denen interaktive Visualisierungen eine dominante Rolle spielen. Die Technologie D3js.org („data driven documents“; [34]) oder die Programmieroberfläche „Observable“ [35] sind sehr elegante und vielversprechende Methoden, um komplexe Daten im Browser effektiv darzustellen. 2017 wurde die Internetplattform „Complexity Explorables“ [36] ins Leben gerufen, auf der auch Prinzipien und Zusammenhänge aus dem Bereich der Epidemiologie veranschaulicht werden.

Maschinelles Lernen – künstliche Intelligenz

Die am meisten verwendeten Schlagworte im Kontext „digitale Epidemiologie“ sind „maschinelles Lernen“ und „künstliche Intelligenz“. Maschinelles Lernen umfasst eine Klasse von Computeralgorithmen, die besonders geeignet sind, in komplexen, hochdimensionalen, großen und/oder lückenhaften Daten entweder Strukturen zu erkennen oder aus Daten Vorhersagen zu generieren, die traditionellen, linearen statistischen Methoden verborgen bleiben [37]. Es geht also, grob gesprochen, um neue Regressions- oder Klassifizierungsmethoden. Die Algorithmen des maschinellen Lernens zeichnet aus, dass innere Parameter zwar veränderlich sind und optimiert werden, aber typischerweise nicht interpretierbar sind. Vorhersagen oder Klassifizierungen werden mit Trainingsdaten bewertet und während des Lernprozesses die inneren Parameter des Algorithmus so adaptiert, dass immer bessere „Scores“ erzielt werden. Diese Scores werden auf den Trainingsdaten berechnet und sind je nach Anwendung ein Maß für den Erfolg der Klassifizierung bzw. der Vorhersagen. Besonders neuronale Netzwerke [38] zeigen große Erfolge bei der Klassifizierung komplexer Daten. Diesen Algorithmen dient die Struktur biologischer neuronaler Netze, z. B. des visuellen Kortex, als Architekturvorlage mit hintereinandergeschalteten Lagen einzelner in-silico-simulierter Nervenzellen, deren laterale und vertikale synaptische Kopplungsstärken modifiziert werden können. Sogenannte Deep-Learning-Algorithmen sind nur dadurch ausgezeichnet, dass sie vergleichsweise viele Lagen von Neuronen implementieren [39]. Neuronale Netzwerke dieser Art werden schon seit den 1990er-Jahren verwendet und studiert [40]. Aber erst jetzt stehen Prozessorarchitekturen zur Verfügung, die effiziente Anwendungen erlauben. Außerdem stehen erst jetzt Datensätze mit dem notwendigen Volumen zur Verfügung. Die Erfolge neuronaler Netze bei der Bild‑, Text- oder Spracherkennung sind frappierend und nur in Ansätzen verstanden [41]. Sie finden auch in der medizinischen Forschung immer zahlreichere Anwendungen. So können mittlerweile maschinelle Lernverfahren Melanome deutlich besser als Spezialisten identifizieren [42].

Eine vielversprechende Anwendung im Bereich Public Health ist die Früherkennung von Signalen in Surveillance-Daten. Andere momentan entwickelte Anwendungen sind die Erkennung neuer Antibiotikaresistenzkombinationen im Rahmen der am Robert Koch-Institut (RKI) gesammelten Daten der Antibiotika-Resistenz-Surveillance [43]. Auch auf dem Gebiet nichtübertragbarer Krankheiten spielt maschinelles Lernen eine immer wichtigere Rolle. So werden in verschiedenen Projekten am RKI die im Rahmen der Studie zur Gesundheit von Kindern und Jugendlichen in Deutschland (KiGGS-Studie; [44]) gewonnenen Daten mithilfe maschineller Lernverfahren untersucht, um ggf. versteckte Zusammenhänge zu identifizieren.

Datenschutz

Ein ganz wichtiger Aspekt der digitalen Epidemiologie sind die Herausforderungen, die durch die hochaufgelöste Aggregation personalisierter Daten entstehen. Nahezu 100 % aller Menschen nutzen mittlerweile das Internet und mobile Endgeräte täglich. Damit werden Internetunternehmen wie Apple, Google, Facebook oder Amazon persönliche Daten mit höchster Auflösung preisgegeben. Es wachsen gesellschaftlich das Bewusstsein, dass die eigenen Daten einen Wert haben, und der Unmut darüber, dass Endnutzer diese Daten großen Unternehmen „schenken“. Die Aussage: „If it’s free, you are the product!“, trifft bei den genannten Technologien und Dienstleistungen in besonderem Maße zu.

Erfreulicherweise wächst mit gleicher Geschwindigkeit die Erkenntnis, dass Datenschutz gewährleistet werden muss, um Persönlichkeitsrechte nicht zu verletzen. Allerdings wird auch hier der Begriff Datenschutz wieder recht vage verwendet. Es wird oftmals nicht erkannt oder verstanden, welche Daten geschützt werden sollten. Die digitale Epidemiologie ist als Wissenschaft auf diese neuen Daten angewiesen. Es überrascht daher nicht, dass mittlerweile verschiedene Methoden entwickelt werden, um wissenschaftliche Erkenntnisse aus den personenspezifischen Verhaltensdaten zu gewinnen, wobei gleichzeitig ein hoher Grad an Datensicherheit gewährleistet wird. Mittlerweile gibt es interessante gemeinnützige Projekte, die Infrastruktur zur Verfügung stellen, damit Menschen „ihre persönlichen Daten“ spenden können. Ein prominentes Beispiel ist die Internetplattform www.openhumans.org [45]. Hier kann jeder Nutzer bzw. Datenspender genau auswählen, welche wissenschaftlichen Projekte die eigenen Daten nutzen dürfen. Die Portale sorgen dafür, dass die Spender auch in regelmäßigen Abständen über die Forschungsergebnisse informiert werden und darüber, welchen Wert die Datenspende hatte. Die Grundidee ist hier, die eigenen Daten für das Gemeinwohl zu spenden. Diese Philosophie ist sicher eine der vielversprechendsten und wird, so ist zu hoffen, weiterentwickelt, um die Datengrundlage der digitalen Epidemiologie zu erweitern und letztendlich die Gesundheit der Menschen zu verbessern.

Ausblick

Für das nächste Jahrzehnt ist zu erwarten, dass sich die noch junge Disziplin „digitale Epidemiologie“ als fundamentaler Zweig der Epidemiologie sowohl in der Grundlagenforschung als auch in der anwendungsorientierten Forschung etablieren wird. Bei der Nutzung und Zusammenführung der für die Epidemiologie oftmals neuartigen Daten müssen dringend fachübergreifende Maßnahmen zur Einschätzung der Qualität und Validität entwickelt werden und diese bei der Nutzung der Daten dann auch in die Bewertung der Ergebnisse einfließen. Die größte Herausforderung wird es sein, die Methoden zeitnah in die Ausbildung von Epidemiologen und Wissenschaftlern im Bereich Public Health zu integrieren. In verschiedenen anderen natur-, sozial- und lebenswissenschaftlichen Disziplinen werden schon seit einigen Jahren die neuen Methoden systematisch in die universitäre Ausbildung integriert, aber im internationalen Vergleich doch eher zaghaft. Für den Fortschritt in den Gesundheitswissenschaften ist es wünschenswert, dass auch die Lehrenden den Chancen der neuen Methoden offen begegnen und im Sinne der nächsten Generation von Wissenschaftlern darauf achten, dass die Ausbildung im Bereich Informatik, Datenanalyse und Computerprogrammierung schon sehr früh als zentrales Element jedes Curriculums etabliert wird.