Netzwerkanalysen bezeichnen klassischerweise eine Reihe von Methoden zur Visualisierung und Erforschung von Datensätzen, die Interaktionen in sozialen Netzwerken abbilden. In den letzten Jahrzehnten hat sich ihre Anwendung auf weitere Fachgebiete außerhalb der Sozialwissenschaften ausgeweitet. Mit der folgenden Übersicht sollen ein grundlegendes Verständnis für Netzwerke und deren Analyseverfahren übermittelt sowie praktische medizinische Anwendungsbeispiele aufgezeigt werden.

Das ist neu!

Probleme der konventionellen Statistik

In der konventionellen Statistik werden Hypothesen aufgestellt, die unter anderem mithilfe von Signifikanztests auf ihre Richtigkeit untersucht werden. Dies ist jedoch nur dann sinnhaft möglich, wenn der Untersucher ein grundlegendes Verständnis des zu untersuchenden Sachverstandes besitzt. Empirische Beobachtungen oder auch die deskriptive und explorative Statistik können dafür bei einfachen Datensätzen von Nutzen sein.

In einem einfachen Beispiel bei der Untersuchung von Körpergewicht und -größe könnte die Hypothese, dass größere Menschen generell mehr wiegen, nach empirischer Durchsicht von Patientendaten oder Erfahrungswerten aus der persönlichen Umwelt des Wissenschaftlers aufgekommen sein (Abb. 1a).

I think the next century will be the century of complexity – Stephen Hawking

Abb. 1
figure 1

Vereinfachter Vergleich der Prinzipien und Datensätze in der konventionellen (a) gegenüber einer unkonventionellen (b) Statistik. a Hypothese am Anfang der konventionellen Analyse (z. B. lineare Regression) → „Je größer der Patient, desto mehr wiegt er.“ b Datenexploration am Anfang der unkonventionellen Analyse (z. B. Netzwerkanalyse) → Agnostische Datenanalyse

Im Zuge der „Big Data“-Bewegung und der damit verbundenen Aufzeichnung von immer größer werdenden multidimensionalen Datensätzen in einer wachsenden Anzahl an Fachgebieten zeigt sich immer mehr die Notwendigkeit für eine ergänzende, unkonventionelle Analyse, da darunterliegende, komplexe Interaktionen auch nach tabellarischer Durchsicht nur schwer zu erahnen sind (Abb. 1b). „Big Data“ beschreibt sehr große, unübersichtliche oder schnelllebige Datensätze, die nur sehr schwer mit traditionellen Methoden zu analysieren sind.

Verfahren des maschinellen Lernens nutzen „Big Data“ zum Trainieren von Modellen, um anschließend in neuen, zuvor ungesehenen Daten Vorhersagen zu treffen (Abb. 2). Die Vorteile des maschinellen Lernens im Vergleich zur konventionellen Statistik sind zum einen die Möglichkeit des Einspeisens von beliebigen Datensätzen (Größe, Variablentypen etc.), und zum anderen müssen vorher keine grundlegenden Annahmen und Hypothesen formuliert werden, da die Heuristiken aus den Daten „erlernt“ werden. Lediglich die grundlegende Struktur des maschinellen Algorithmus, z. B. in Form eines neuronalen Netzes, muss zuvor definiert werden.

Abb. 2
figure 2

Big Data als „Treibstoff“ für das Trainieren von künstlicher Intelligenz, deren Teilgebiete maschinelles Lernen und neuronale Netze sind, die sich die Verschaltungsprinzipien des menschlichen Nervensystems zu eigen machen

Das maschinelle Lernen führt jedoch ein neues Problem ein: Die erlernten Heuristiken stellen häufig eine „Black box“ dar und können für Menschen meist nicht verständlich dargestellt werden [1]. Der Begriff „Black box“ beschreibt dabei ein System, in dem nur die Ein- und Ausgaben, nicht jedoch die innere Funktionsweise betrachtet werden kann.

Die Anwendung von maschinellem Lernen schließt die konventionelle Statistik keinesfalls aus, sondern sollte eher als Erweiterung des Werkzeugkoffers angesehen werden. Sie kann im zweiten Schritt dazu genutzt werden, neue Hypothesen aufzustellen oder Vorhersagen zu treffen, die im klinischen Alltag erprobt oder mit der konventionellen Statistik überprüft werden können.

Definition

Eine Lösung für das beschriebene Grenzgebiet zwischen konventioneller Statistik und maschinellem Lernen können Verfahren wie die Netzwerkanalyse sein. Im Allgemeinen beschreiben Netzwerke Beziehungen und Abhängigkeiten zwischen einzelnen Akteuren. Die Verbindungen mitsamt Akteuren können in einem sog. Netzwerkgraphen dargestellt werden. Je nach verwendetem Layout lassen sich auch Gruppen von eng miteinander in Verbindung stehenden Datenpunkten intuitiv identifizieren, da diese in räumlicher Nähe zueinander dargestellt und farblich kodiert werden können. Die Netzwerkanalyse umfasst dabei die Gesamtheit der mathematischen und visuellen Methoden für die Beschreibung und das Verständnis dieser Netzwerke.

Netzwerke können überall dort genutzt werden, wo sich Zusammenhänge zwischen Datenpunkten zeigen. Auf diese Weise können nicht nur menschliche Beziehungen, sondern auch Datensätze aus unterschiedlichen Bereichen von der Genomanalyse über Proteininteraktionen bis zu Themenschwerpunkten medizinischer Kongresse analysiert werden.

Geschichte der Netzwerkanalysen

Die soziale Netzwerkanalyse, die ursprünglich als „soziale Physik“ nach Comte im 19. Jahrhundert beschrieben und für die empirische Sozialforschung zur Erfassung von menschlichen Beziehungen in den 1930er-Jahren weiterentwickelt wurde, zeigte ihre Renaissance in den 1970er-Jahren in den Sozialwissenschaften mit neuen Möglichkeiten einer systematischen und quantitativen Analyse von Netzwerken [2]. Heutzutage stellen Netzwerkanalysen auch außerhalb der modernen Soziologie ein häufig verwendetes Werkzeug dar.

Medizinische Anwendungsbeispiele

Am Beispiel der frei verfügbaren PubMed-gelisteten COVID-19-Publikationen und den kooperierenden Städten lässt sich der Nutzen der Netzwerkgraphen leicht verständlich veranschaulichen. Wenn für jede Publikation die daran beteiligten Städte im Netzwerkgraphen aufgezeichnet und miteinander verbunden werden, resultiert eine Übersichtskarte aller an COVID-19-Publikationen beteiligten Städte mitsamt deren Kooperationspartnern. Die Schriftgröße der Städte spiegelt dabei die Anzahl der Publikationen wider. Mithilfe von bestimmten Netzwerkanalyseparametern, wie z. B. Modularitätsklassen, können eng miteinander kooperierende Städtegruppen farblich dargestellt werden. Einheitlich gefärbte Verbindungslinien zwischen den Städten zeichnen sich dabei durch vergleichsweise häufige Kooperationen aus (Abb. 3).

Abb. 3
figure 3

Städtekooperationen von COVID-19-Publikationen auf PubMed. Ein Netzwerkgraph zur Veranschaulichung von Städtekooperationen in COVID-19-Publikationen. Größere Knotenpunkte spiegeln eine größere Anzahl an Publikationen aus der jeweiligen Stadt wider (nicht-linear), einzelne Cliquen mit besonders vielen Kooperationen sind farblich getrennt voneinander aufgezeichnet. Die darüber liegende Tabelle zeigt den Ausgangsdatensatz für die Visualisierung dieses Netzwerkgraphen – Städte innerhalb einer Zeile weisen im Netzwerkgraphen Verbindungslinien auf

Auf dieselbe Weise konnten Netzwerkanalysen und -graphen auch dazu genutzt werden, um Themenschwerpunkte automatisiert aus über 100 Seiten langen Programmheften dermatologischer Fachkongresse herauszuarbeiten [3,4,5,6]. Dies bringt potenziellen Kongressinteressenten den Vorteil, Themengebiete schon vor der Kongressanmeldung überblicken zu können. Als Knotenpunkte dienten dabei unter anderem Autoren, Städte, Schlüsselwörter und die Titel der Beiträge (Poster, freie Vorträge etc.).

In den letzten Jahren erschienen auch in weiteren medizinischen Fachdisziplinen vermehrt wissenschaftliche Arbeiten zu Netzwerkanalysen, die z. B. zu einem besseren Krankheitsverständnis bei psychischen Erkrankungsbildern und assoziierten Komorbiditäten geführt haben, welche mit konventioneller Methodik nur schwer einzuordnen gewesen wären [7]. So konnten zuvor unbekannte Persönlichkeitsstörungen aufgedeckt werden.

Aber auch in der Corona-Pandemie wurden zahlreiche neue Anwendungsgebiete für Netzwerkanalysen erschlossen. Das komplexe Geschehen um mRNA-Impfungen [9] oder SARS-CoV-2-Genomanalysen [10] konnten so verständlich aufgeschlüsselt werden.

Eine Autorenanalyse in der kardiovaskulären Forschung zeigte durch geschickte Kombination von Netzwerkanalysen und Algorithmen des maschinellen Lernens Kooperationsnetzwerke auf, die für die Planung zukünftiger Kollaborationen genutzt werden können [8].

Weiter profitiert die Domäne der künstlichen Intelligenz beim sog. Natural Language Processing von Netzwerkanalysen [11], also der Anwendung von maschinellem Lernen bei der Verarbeitung von natürlicher Sprache. Zukünftig werden maschinelle Algorithmen in der Lage sein, relevante Informationen aus Arztbriefen oder Audioaufnahmen von Patientengesprächen zu extrahieren und für Diagnostik- und Therapieempfehlungen zu verwenden. Auch ist ein praktischer Nutzen durch Therapieempfehlungen in der Präzisionsmedizin der Krebstherapie denkbar [12]. Da die Architektur des maschinellen Lernens einen Netzwerkcharakter hat, könnte diese auch mithilfe von Netzwerkgraphen dargestellt und analysiert werden, was letztendlich ein besseres Verständnis liefern und eine Plausibilitätsprüfung der Vorhersagen zulassen könnte – ein weiterer Schritt in Richtung erklärbare künstliche Intelligenz.

Ausblick

Netzwerkanalysen werden eine immer größer werdende Rolle bei der statistischen Auswertung einnehmen sowohl als Werkzeug zur explorativen und verständlichen Visualisierung als auch zur Aufdeckung von Wechselwirkungen in immer größer und komplexer werdenden Datensätzen.

Die synergistische Nutzung konventioneller Statistik, Netzwerkanalysen und maschinellem Lernen bietet zukünftig das Potenzial für neue Entdeckungen in immer mehr Forschungsbereichen.

Fazit für die Praxis

Netzwerkanalysen können ergänzend zur konventionellen statistischen Auswertung für die visuelle Darstellung komplexer Datensätze genutzt werden. Sie finden aber auch Anwendung in der Plausibilitätskontrolle der Ergebnisse des maschinellen Lernens. Zukünftig werden immer mehr Forschungsbereiche nicht nur in der Medizin von synergistischer Nutzung von konventioneller Statistik, Netzwerkanalysen und künstlicher Intelligenz profitieren.