Die aktuellen Entwicklungen in der Digitalisierung und in den Biotechnologien werden häufig als die zwei prägenden Transformatoren für unsere Gesellschaft und unsere Zukunft genannt [1]. Während beide Entwicklungen scheinbar unabhängig verlaufen, finden sich dennoch Überschneidungen: Klassische Anwendungen der künstlichen Intelligenz (KI) halten Einzug in die medizinische Praxis, während gleichzeitig die Anforderungen der Genomik neue Algorithmen in der KI-Forschung inspirieren. Gerade in der sich derzeit etablierenden Einzelzellgenomik ist die Datenanalyse ohne KI nicht mehr denkbar.

Trend 1: Einzelzelltranskriptomik in der vaskulären Medizin

Fokus auf die kleinste Einheit des Lebens

Als kleinste Einheit des Lebens bestimmen biologische Zellen durch ihre Mechanismen und Interaktionen Struktur und Funktion aller Organismen. Störungen dieser Prozesse führen zu nichtphysiologischen Zuständen und schlussendlich zu Erkrankungen. Auch äußere Einflüsse und Umweltfaktoren werden letztlich immer auf zellulärer Ebene verarbeitet. Dabei kann es sowohl zu aberranten spezifischen Zellzuständen als auch zur Entstehung spezifischer Zelltypen kommen [2]. Diese „Entartung von Zellen“ wird insbesondere in der Krebsforschung schon lange untersucht [3]. Aber auch vaskuläre Erkrankungen werden durch zelluläre Prozesse beeinflusst, beispielsweise bei der Entstehung von Atherosklerose, Atherothrombose, Aneurysmen, Wundheilungsstörungen oder Inflammation [4,5,6,7,8,9]. Besonders die Plastizität und Transdifferenzierung glatter Gefäßmuskelzellen (SMCs) bei der Entstehung atherosklerotischer Plaques sowie deren zelluläre Heterogenität stellt dabei ein sehr interessantes und relevantes Forschungsfeld dar [10, 11].

Neue Technologien zur Untersuchung von Zellen

Vor der Untersuchung von Genese, Progression und möglicher Behandlungen von Erkrankungen muss zunächst der physiologische Zustand eines Organismus und damit seiner Zellen und deren Interaktionen verstanden werden. In der Vergangenheit kamen dabei eine Vielzahl von Technologien als Grundlage für die systematische Beschreibung von Geweben zum Einsatz, wie zum Beispiel die Licht‑/Elektronenmikroskopie, immunhistochemische Methoden wie die Durchflusszytometrie (FACS) sowie Microarrays, Fluoreszenz-in-situ-Hybridisierung (FISH) und schließlich Hochdurchsatzverfahren für die RNA- und DNA-Sequenzierung (vgl. Tab. 1 für zentrale Begriffe und Technologien; [2, 12]).

Tab. 1 Zentrale Begriffe und Technologien in der Genexpressionsanalyse

Ein grundlegendes Problem blieb jedoch, dass zwar unterschiedliche Zelltypen, nicht aber unterschiedliche Zellzustände differenziert werden konnten. Wesentlicher Grund dafür ist, dass sich die klassische (Bulk‑)Untersuchung auf ein Gemisch von Zellen bezieht und die daraus resultierende Mittelwertmessung die wahre Zellheterogenität verschleiert. Dies änderte sich, als Expressionsprofile einzelner Zellen mittels Microarray- oder RNA-Sequenzierung zugänglich wurden (vgl. Abb. 1). Während zunächst nur sehr wenige Zellen untersucht werden konnten, ist es aufgrund fortschreitender Entwicklung und sinkender Kosten mittlerweile möglich, in parallelisierten Hochdurchsatzverfahren Millionen von Zellen zu untersuchen. Dabei stehen vielfältige Analysemöglichkeiten der klassischen Molekulargenetik bis hin zu Multi-OMICS-Ansätzen auch für Einzelzellanalysen zur Verfügung, was an anderer Stelle ausführlich zusammengefasst wurde [2, 3].

Abb. 1
figure 1

Durch die höhere Auflösung ergeben sich umfangreiche zusätzliche Erkenntnisse. Während bei herkömmlichen Bulk-Verfahren, unter anderem beim Vergleich zweier Proben (z. B. Test- vs. Kontrollgruppe), nur die zwei Mittelwerte aller Zellen der jeweiligen Proben verglichen werden können, liefern Einzelzell-Transkriptomik-Studien eine Vielfalt an weiteren Vergleichsmöglichkeiten

Einzelzelltranskriptomik als neues Forschungsgebiet

Im Folgenden beschränken wir uns auf Analysen von durch RNA-Sequenzierung gewonnenen Expressionsprofilen (Transkriptom) einzelner Zellen. Diese erlauben es nicht nur Zelltypen zu differenzieren, sondern geben auch einen Einblick in zellspezifische molekulare Prozesse. Vielfältige Studien zeigen, dass diese molekulare Herangehensweise sowohl bekannte, morphologisch distinkte Zelltypen bestätigt, als auch neue (Sub‑)Zelltypen identifizieren kann [13, 14]. Die Expressionsprofile einzelner Zellen können auch in ihrer natürlichen räumlichen Anordnung im Gewebe analysiert werden (sog. spatial transcriptomics), und es können Entwicklungswege und Übergangszustände zwischen Zellzuständen und -typen identifiziert werden (sog. trajectories) [15, 16]. Darüber hinaus erlaubt die hohe Sensitivität die Identifikation sehr kleiner (Sub‑)Zellpopulationen. Auch in vitro schlecht zu kultivierende Organismen lassen sich so untersuchen, z. B. im Umgang mit Infektionskrankheiten oder beim Studium von Mikrobiomen [17]. Eine große Herausforderung liegt jedoch in der adäquaten Analyse der gewonnenen Daten, welche in aller Regel als Genexpressionsmatrizen vorliegen. Diese Matrizen sind sehr groß (>20.000 Expressionswerte pro Zelle) und nur spärlich besetzt, d. h. viele der Einträge sind „Null“, entweder da das entsprechende Gen nicht exprimiert wird, oder die Expression nicht detektiert wurde („Dropout“). Ein Hilfsmittel, um diese Herausforderungen anzugehen, ist die künstliche Intelligenz, auf die wir im weiteren Verlauf des Artikels näher eingehen werden (s. Trend 2).

Medizinische Forschung in der Einzelzelltranskriptomik

Ein Treiber der Einzelzelltranskriptomik ist die Krebsforschung. Hier ermöglicht die Einzelzellsequenzierung u. a. die Katalogisierung von Tumor-Teilpopulationen, eine Detail-Charakterisierung von Tumorzellen und deren zeitliche und phylogenetische Entwicklung, die Detektion seltener Zellen und das Studium der Interaktion eines Tumors mit seiner Umgebung. Ähnlich relevante Anwendungsmöglichkeiten ergeben sich für das Studium des zentralen Nervensystems, des Immunsystems oder für die Untersuchung der frühen Embryonalentwicklung bei Säugetieren [7, 18, 19].

Besonders hervorzuheben ist hier der „Human Cell Atlas“ [2], ein aktuelles Forschungsprojekt zur Katalogisierung aller Zelltypen des gesunden menschlichen Körpers. Verwendet man diese Zelltypen als Referenz für anschließende Studien, u. a. im Krankheitskontext, können die Erkenntnisse aus dem Bereich der Einzelzellanalyse auch die Diagnostik verbessern, beispielsweise durch neu identifizierte Biomarker.

Ein Treiber der Einzelzelltranskriptomik ist die Krebsforschung

Im Bereich vaskulärer Erkrankungen liegt der Fokus der Transkriptomanalyse von einzelnen Zellen aktuell im Bereich der Inflammation und Atherosklerose. Das Potenzial zeigte sich bereits in ersten Studien zur Heterogenität von Makrophagen der Aorta, der Identifikation distinkter Endothelzellpopulationen, deren Hierarchie sowie Übergangszuständen in der Aorta, der zellulären Zusammensetzung von Blutgefäßen im Gehirn und der Lunge und dem Immunzellrepertoire im Atherosklerose-Mausmodell [5, 20,21,22]. Besonders relevante und neue Erkenntnisse durch Einzelzellanalysen liefern hochaktuelle Studien zur Entstehung, Zusammensetzung und der zellulären Plastizität in atherosklerotischen Plaques [23]. Von herausragender Bedeutung ist dabei die phänotypische Modulation (Phänotypswitch) glatter Gefäßmuskelzellen (SMCs) und deren Fähigkeit auf verschiedenste Weise transdifferenzieren zu können, um beispielsweise gewisse Subtypen von Schaumzellen zu bilden [11]. Zudem konnte eine kürzlich erschienene Einzelzellstudie erstmals die phänotypische Modulation von SMCs mit einer durch genomweite Assoziationsstudien (GWAS) identifizierten Variante für die Koronare Herzkrankheit (KHK) in Zusammenhang gebracht werden [24, 25]. Die gefundene Variante im TCF21-Gen ist dabei protektiv und führt zur Differenzierung der SMCs in einen fibroblastenähnlichen Zelltyp („Fibromyocyten“ genannt) anstelle eines klassischen Makrophagenphänotyps. Weitere Forschung auf diesem Feld wird in naher Zukunft erstmals die Erstellung eines umfassenden Zellatlasses der Atherosklerose erlauben [26].

Trend 2: Künstliche Intelligenz als Wegbereiter für Medizin und Forschung

KI im Alltag und speziell in der Medizin

Methoden der künstlichen Intelligenz (KI) halten mit rasanter Geschwindigkeit Einzug in unseren Alltag: Das Spektrum von Anwendungen reicht dabei von Produktempfehlungen, Preisgestaltung, Chatbots und Spam-Erkennung über Spracherkennung, Navigation und autonomes Fahren bis hin zu Mustererkennung in Sensordaten, Bildern und Filmen. In den verschiedensten Bereichen von Wirtschaft und Forschung wird künstliche Intelligenz vermehrt zur Automatisierung von repetitiven Aufgaben eingesetzt und ist somit ein wesentlicher Treiber der digitalen Transformation [27].

Getrieben wird dieser Prozess durch das Entstehen großer annotierter Datenräume (Big Data), innovativer Analysemethoden (KI, maschinelles Lernen, „deep learning“), und neuer technischer Möglichkeiten in der Berechnung komplexer Algorithmen und Analyseaufgaben (GPU-Beschleunigung, Cloud-Computing, Big-Data-Technologien). Die hier genannten Begriffe werden aus diesem Grund jedoch häufig fälschlicherweise synonym verwendet, obwohl eine klare Abgrenzung möglich und nötig ist (Tab. 2).

Tab. 2 Zentrale Begriffe und Technologien im KI-Umfeld

Auch die moderne medizinische Versorgung bleibt nicht unbeeinflusst von der Kombination aus digitaler Transformation und Fortschritten in den Biotechnologien: Das Spektrum der Durchbrüche, erzielt durch Einsatz künstlicher Intelligenz, reicht dabei derzeit von (i) beschleunigter oder verbesserter Verarbeitung oder Interpretation von bildgebenden Verfahren über (ii) Verbesserung von Prozessen und Auswertungsverfahren durch Automatisierung und Fehlerreduktion bis hin zu (iii) der verstärkten Einbindung und Ermächtigung des Patienten durch digitale Systeme.

KI erlaubt erstmals die automatisierte, objektive und reproduzierbare Hautkrebsfrüherkennung sowie Identifikation von Läsionen und Tumoren. Außerdem können Operationen in zuvor undenkbarer Präzision durch Verarbeitung und Einblendung von Echtzeitinformationen (augmented reality) oder auch Roboterunterstützung realisiert werden. Weiterhin erlaubt die KI Patienten verstärkt durch Wearables und andere digitale Systeme den eigenen Gesundheitszustand zu verfolgen, kommunizierbar zu machen und zusammen mit den entsprechenden Experten Maßnahmen zu treffen. Schlussendlich besteht die Hoffnung, mittels KI die Zeit bis zur Diagnose zu verkürzen, die Fehlerrate zu verringern und schließlich die Versorgung zu verbessern. Eine exzellente und ausführliche Zusammenstellung und Auswertung weiterer Beispiele wurde erst vor Kurzem an anderer Stelle veröffentlicht [28].

Vorzüge von KI-Systemen gegenüber menschlichen Experten

Auch wenn die Anwendungsgebiete und Aufgabenstellungen für den Einsatz von KI-Systemen sehr vielfältig sind, so lassen sich häufig auf einem abstrakten Level klare gemeinsame Vorteile der digitalen Automatisierung erkennen. Erfolgreiche Einsätze von KI in der Medizin verbessern üblicherweise die Qualität oder den Zugang zu wichtigen objektiv messbaren Kenngrößen (z. B. bei der Detektion, Lagebestimmung oder Kategorisierung) gegenüber herkömmlichen Ansätzen durch menschliche Experten. Dies lässt sich zum einen darauf zurückführen, dass KI-Systeme für eine solche Aufgabenstellung hoch spezialisiert sind und deterministische, reproduzierbare Ergebnisse liefern; zum anderen werden diese Expertensysteme anhand tausender bis Millionen von Beispielen trainiert und verifiziert, während ein durchschnittlicher menschlicher Experte naturgemäß eine deutlich geringere Menge an Fällen in seinem Berufsleben diagnostiziert.

Gleichzeitig weist einmal maschinell inkorporiertes Expertenwissen einen weiteren entscheidenden Vorteil auf: Die trainierten mathematischen Modelle lassen sich leicht vervielfältigen, konservieren und transportieren und können somit flächendeckend bis an Orte mit erschwerten Bedingungen und medizinischer Unterversorgung zur Verfügung gestellt werden.

Herausforderungen beim Einsatz von KI

Beim Einsatz von KI-Methoden wird häufig maximale Transparenz über die Entscheidungsfindung gefordert. Dies wird von KI-Experten leider gelegentlich missverstanden als eine Forderung nach völliger Nachvollziehbarkeit und Dokumentation der (oft höchst komplexen) mathematischen und algorithmischen Abläufe. Das Vertrauen in KI beim Anwender steht und fällt jedoch vor allem mit einem Verständnis über die Chancen und Möglichkeiten, aber auch Grenzen der jeweiligen Algorithmen und Systeme sowie der Darreichungsform der Ergebnisse von solchen Entscheidungs- und Assistenzsystemen. So können unabhängig von der Aufgabenstellung trainierte KI-Systeme nicht „zwischen den Zeilen lesen“ und somit nicht intuitiv entscheiden, wie es ein menschlicher Experte kann. Sie verarbeiten lediglich exakt die Informationen, auf denen zuvor trainiert wurde, wohingegen ein erfahrener Chirurg beispielsweise einen Tumor erkennen kann, auch wenn er eine gewisse Tumorart an dieser Stelle im Körper zuvor noch nie gesehen hat.

Einsatz von KI in der medizinischen Forschung

Neben den oben aufgezeigten Einsatzgebieten in Diagnostik und Automatisierung findet KI in jüngster Zeit auch vermehrt Anwendung in medizinischer Grundlagenforschung zur Aufklärung von Pathogenese und der Identifikation neuer geeigneter Biomarker. So können beispielsweise in der Neurologie durch Analyse von Bewegung, Sprache und Schriftbild kleinste Veränderungen mittels des Einsatzes von KI aufgedeckt werden und durch Identifikation korrespondierender Features (Tab. 2) in Biomarker überführt werden. Ein ähnliches Vorgehen findet in der Einzelzellanalytik von Transkriptomdaten Anwendung. Hier werden mittels KI-gestützter Methoden die Funktion und Heterogenität von Zellen untersucht, um damit Informationen über Pathogenese und Wirkmechanismen komplexer Krankheitsbilder wie Inflammation und Atherosklerose liefern zu können [2, 5, 29].

Obgleich die Anwendungsgebiete von KI in der medizinischen Forschung sehr vielfältig sind, lässt sich eine typische Vorgehensweise mittels Kernthemen der KI darstellen. So werden die häufig erheblichen Mengen an Bilddaten oder Zeitreihen von Sensordaten zunächst auf die wesentlichen Informationen reduziert (Dimensionsreduktion), Ähnlichkeiten hervorgehoben (Clustering und Mustererkennung) und Auffälligkeiten sowie Abweichungen zu erwartetem Verhalten (Modellbildung: Training und Vorhersage) für die Experten kenntlich und zugänglich gemacht.

Methoden der KI im Bereich der Einzelzellanalytik

Die Kombination der Trends

Aktuelle Studien in der Einzelzelltranskriptomik befassen sich mit der Beschreibung der Zellvielfalt in einer oder mehreren Stichproben, der vergleichenden Analyse zwischen zwei oder mehr Konditionen (z. B. Test- vs. Kontrollgruppe), der Untersuchung des Einflusses der Umgebung der Zelle im Gewebe, aber auch der Entwicklung von Zellen im Rahmen eines zeitlichen oder dynamischen Prozesses wie der Zelldifferenzierung oder des Zellzyklus. Analyse-Pipelines in der Einzelzellforschung weisen deshalb einen typischen Ablauf auf (vgl. Abb. 2).

Abb. 2
figure 2

Typischer Ablauf der Analyse von Einzelzelltranskriptomdaten. Eine Auswahl der hier genannten Schritte ist der Kern jeder Einzelzell-Transkriptomik-Studie

Die Kombination aus den typischerweise sehr großen Datenmengen (volume), den Schwierigkeiten durch technische Artefakte (veracity) und der Vielfalt an Daten durch Multi-omics-Perspektiven (variety) macht Einzelzelltranskriptomik dabei zu einem typischen Big-Data-Problem. Es ist daher wenig überraschend, dass Einzelzellanalysen ein typischer Anwendungsfall für die Kernthemen von KI sind. Im Folgenden sollen zur Demonstration exemplarisch vier wesentliche Schritte einer Einzelzellanalyse sowie die dabei verwendeten KI-Methoden erläutert werden.

Beispiel 1: Vereinfachung der Datenräume (Dimensionsreduktion)

Hochdimensionale Count-Matrizen, welche Daten zu tausenden Genen in zehntausenden biologischen Zellen enthalten, sind inhaltlich oft redundant und für Menschen schwer oder gänzlich unlesbar. KI-Verfahren zur Dimensionsreduktion vereinfachen die Daten selbstständig bei möglichst geringem Informationsverlust, indem sie die Koordinaten in neuen Formaten darstellen, sodass eine grafische Darstellung in 2‑D oder 3‑D (anstatt der tausenden Dimensionen) möglich wird (vgl. Abb. 2, Mitte oben). Für Einzelzelldaten kommen dabei KI-Algorithmen mit Namen wie t‑SNE oder UMAP zum Einsatz, sowie sog. Autoencoder aus dem Bereich des „deep learning“ (vgl. Überblick z. B. in [30]).

Beispiel 2: Gruppierung (Clustering)

Ein naher verwandter Arbeitsschritt ist die Gruppierung von Zellen zu anonymen Klassen gemäß systematischer Ähnlichkeiten. KI-Verfahren zum sogenannten Clustering gruppieren selbstständig biologische Zellen auf Basis eines definierten Verständnisses von Ähnlichkeit. So könnte z. B. die Klasse aller kurz vor dem Zelltod befindlichen Zellen oder die Klasse aller Zellen mit hoher Aktivität in bestimmten Genen gänzlich automatisiert entstehen. Sehr häufig finden sich dutzende anonyme Klassen in einer Stichprobe. Anschließend können statistische Eigenschaften der Klassen (z. B. Größe, Variabilität, klassentypische Markergene und klassenspezifische biomolekulare Prozesse) von menschlichen Experten begutachtet werden, um die Klassen zu benennen (vgl. Abb. 2, rechts oben). Häufig lassen sich so bereits längst bekannte Zelltypen identifizieren, aber auch neue, unbekannten Typen, Subtypen oder Zwischenstufen finden. Typische Algorithmen für das Clustering sind generische Verfahren, die auch in anderen Wissenschaften und Industriebranchen zum Einsatz kommen, wie hDBSCAN oder k‑Means, oder einzelzellspezifische Methoden wie der Louvain-Algorithmus [31].

Beispiel 3: Zeitliche Entwicklung (Mustererkennung)

Neben dem Zelltyp als Identität einer biologischen Zelle stellt ihre Position in einer zeitlichen Entwicklung oder in einem dynamischen Prozess eine weitere Facette dar. Beispielsweise mag man sich fragen, ob sich die Zellen einer Stichprobe eher am Anfang, in der Mitte oder am Ende des Zellteilungsprozesses befindet. Oder man fragt sich grundsätzlich, nach welchen Regeln sich Stammzellen hin zu spezifischen Zelltypen entwickeln. Frühe Studien lieferten bereits Hinweise auf eine komplexe Landschaft an Zellzuständen [2]. Mittlerweile existiert eine Vielzahl an spezialisierten KI-Verfahren, welche sogenannte Trajektorien (d. h. zeitliche Entwicklungspfade) automatisiert aus Daten bestimmen (Überblick in [32]), und damit Erkenntnisse über die Dauer von Veränderungen oder die logische Anordnung von Vorgängerzellen oder -zuständen liefern können (vgl. Abb. 2, links unten).

Beispiel 4: Zelltypisierung (Modellbildung)

Die Benennung der Zellklassen durch Zuweisung zu bekannten Zelltypen erfolgt im Allgemeinen manuell durch Experten (vgl. Abb. 2, rechts oben). Dieser Ansatz weist jedoch eine hohe Subjektivität auf, ist mit hohem Zeitaufwand verbunden und stößt bei sehr nah verwandten Zelltypen an seine Grenzen. Durch die derzeit entstehende Vielzahl an neuen Referenzdatensätzen [2] wird jedoch der Einsatz von automatisierten KI-Verfahren zunehmend machbar. Solche Verfahren können das Expertenwissen zu den bekannten Eigenschaften etablierter Zelltypen erlernen, indem sie automatisiert Wissen aus den Referenzdatensätzen extrahieren (= „Modelle bilden“). Das gelernte Wissen kann dann auf neue Datensätze übertragen werden. So kann in einem neuen Datensatz jeder einzelnen Zelle anhand ihres individuellen Profils der wahrscheinlichste Zelltyp präzise zugewiesen werden, ohne dass menschliche Experten erneut bemüht werden müssen [33].

Kollaboration zwischen den Wissenschaften

Wie oben beschrieben, bedeutet die Durchführung einer Einzelzellstudie die Analyse von mehreren tausend Zellen, also großen und vernetzten Datenmengen, verbunden mit der Anwendung einer Vielzahl von frei parametrisierbaren Algorithmen. Dafür sind eine umfassende Expertise in der Programmierung und Datenmanipulation sowie große Rechnerressourcen erforderlich. Da sich darüber hinaus das junge Feld der Einzelzellanalytik noch sehr schnell weiterentwickelt und regelmäßig neue Methoden entstehen, sind Best Practices und einfache Software selten. Neben dem intensiven Austausch zwischen klinischem Bereich und dem wet lab wird deshalb eine intensive Zusammenarbeit mit Statistikern, Algorithmikern und Ingenieuren in Zukunft zunehmende Bedeutung zukommen.

Ergänzend dazu entstehen derzeit interaktive, webbasierte Analyse-Tools in der Cloud wie FASTGenomics und Granatum [34, 35], welche neben einem grafischen Interface auch die notwendigen Rechenressourcen komfortabel für das Studium eigener Datenmengen zur Verfügung stellen. Die Autoren haben vor kurzem eine Studie zum Tool FASTGenomics [34] vorgelegt, welches als KI-Plattform zum einen etablierte Workflows zur KI-getriebenen Analyse von Einzelzelltranskriptomdaten bietet, als „collaboration platform“ zum anderen aber auch den Austausch zwischen den Expertenrichtungen explizit unterstützt.

Fazit für die Praxis

  • Einzelzellgenomik ist ein schnell voranschreitender Trend zur Analyse biomolekularer Vorgänge in Zellen in höchster Auflösung.

  • Künstliche Intelligenz hilft nicht nur in der Genomforschung, sondern in vielen Anwendungsbereichen der Biomedizin und Gesundheitsversorgung bei der Aufbereitung von digitalen Daten.

  • In Kombination liefern KI-basierte Algorithmen in der Einzelzelltranskriptomik Mehrwerte z. B. in der Vereinfachung von Daten oder der datengetriebenen Zelltyp- oder Zellzustandsbestimmung.

  • Beide Technologien, Einzelzellgenomik und künstliche Intelligenz, benötigen tiefes Expertenwissen und können nur im Austausch und intensiven Zusammenspiel beider Disziplinen erfolgreich sein.

  • Zum aktuellen Zeitpunkt erfordern die genannten Methoden häufig umfassende Programmierkenntnisse.

  • KI-Plattformen bieten eine gute Voraussetzung für die gemeinsame Arbeit.