Künstliche Intelligenz (KI) in der Onkologie verspricht einen Wandel für die personalisierte Medizin. Große Datensätze, technologischer Fortschritt, verbesserte Rechenleistung und neue Algorithmen treiben die KI-Forschung voran. Genomische Daten sind für die KI in der Onkologie von zentraler Bedeutung, da sie Mustererkennung und personalisierte Therapieansätze ermöglichen. Die Herausforderung liegt in der Datenbereitstellung sowie ihrer Standardisierung. Interoperabilität erfordert einheitliche Standards für Datenformate, Protokolle und Terminologien. Offene Standards fördern den effizienten Datenaustausch und tragen zur Weiterentwicklung dieser vielversprechenden Technologie bei.

Herausforderung der Datennutzung

Künstliche Intelligenz (KI) verändert die Onkologie und hat das Potenzial, die Medizin von der Ära der Krankheitskategorisierung und bevölkerungsbasierten Behandlung in die Ära der personalisierten n = 1-Medizin, Gesundheitsversorgung und individuellen Prävention zu führen. Insbesondere im Bereich der Krebsfrüherkennung und -behandlung kann die KI mehrere dringende klinische Bedürfnisse erfüllen und nicht nur das Überleben der Patient:innen, sondern auch ihre Lebensqualität verbessern [1, 2].

Die KI kann mit klinischen Entscheidungsunterstützungssystemen einen wichtigen Beitrag leisten

Ebenso kann die KI mit der Entwicklung von klinischen Entscheidungsunterstützungssystemen gerade im Bereich der personalisierten onkologischen Medizin einen wichtigen Beitrag leisten [3, 4]. Das Interesse an KI-Anwendungen ist groß und wird durch die Verfügbarkeit großer Datensätze (Big Data), erhebliche technologische Fortschritte bei der Rechenleistung und der Entwicklung neuer Algorithmen gefördert.

Eine Herausforderung ist allerdings die Bereitstellung und die Nutzung potenzieller Patient:innendaten in der Onkologie (Abb. 1).

Abb. 1
figure 1

Künstliche Intelligenz (KI) und Big Data in der Onkologie. KIS Krankenhausinformationssystem. Erläuterung s. Text. (Erstellt mit BioRender.com. Fotos: jamesteohart/stock.adobe.com, samunella/stock.adobe.com)

Klinische und radiologische Datensätze sind eine entscheidende Datengrundlage im onkologischen Kontext. Insbesondere in der personalisierten Medizin werden diese ergänzt um Daten u. a. des Genoms, des Transkriptoms sowie des Proteoms. Aber auch Informationen über den Lebensstil, welche z. B. auch über Wearables zur Verfügung gestellt werden können, sind von zunehmender Bedeutung. Die Herausforderung liegt insbesondere in der Verschiedenartigkeit dieser Datensätze. Unter Voraussetzung ihrer Verfügbarkeit und harmonisierten Erhebung kann KI dabei helfen, diese Datensätze zu integrieren, zu visualisieren und diese in „Physician-Support-Systemen“ den Behandler:innen aufbereitet und niederschwellig zur Verfügung zu stellen. In Zukunft wird der KI auch eine größere Unterstützungsfunktion bei der Identifikation personalisierter Therapieoptionen sowie von Biomarkern zukommen, um das Ansprechen [5] oder auch die Resistenz auf zielgerichtete Therapien besser vorherzusagen. Die Therapieempfehlungen werden insbesondere im Zeitalter hochdimensionaler Datensätze von multiprofessionellen (molekularen Tumor‑)Boards ausgesprochen.

Vor allem genomische Daten spielen bei der Anwendung von KI in der Onkologie eine entscheidende Rolle [6, 7]. Diese Daten, die die genetische Information von Tumorzellen und ggf. von gesundem Gewebe enthalten, ermöglichen es KI-Algorithmen, Muster und Signaturen zu erkennen, Zusammenhänge auch auf multimodaler Ebene zu verstehen und personalisierte Ansätze für die Diagnose und innovativen Behandlungen von Krebserkrankungen zu entwickeln, z. B. im Rahmen molekularer Tumorboards [8,9,10,11].

Die Bedeutung genomischer Daten liegt v. a. in der Personalisierung von Therapieentscheidungen

Die Bedeutung genomischer Daten liegt v. a. in der Personalisierung von Therapieentscheidungen. Durch die Analyse von Genomsequenzen können spezifische genetische Veränderungen identifiziert werden, die für das Tumorwachstum verantwortlich sind. Diese Informationen ermöglichen es, gezielte Therapien zu entwickeln, die auf die individuellen genetischen Eigenschaften eines Tumors abzielen. Dieser personalisierte Ansatz hat das Potenzial, die Wirksamkeit von Krebstherapien zu erhöhen und gleichzeitig Nebenwirkungen zu minimieren [12, 13]. Dieses setzt allerdings sowohl die zeitgerechte Bereitstellung (am besten im Real-Time-Setting, um Therapieentscheidungen auch für die einzelne Patientin/den einzelnen Patienten umsetzen zu können) als auch die Standardisierung der Datensätze voraus. Genomische Daten können von verschiedenen Plattformen und Technologien erzeugt werden. Die Schaffung von Standards für Datenformate und Harmonisierung von gemeinsamen Protokollen ist hierbei von entscheidender Bedeutung, um die Interoperabilität zu gewährleisten und den Informationsaustausch zwischen verschiedenen Systemen zu ermöglichen und zu erleichtern. Die Herausforderung der Dateninteroperabilität besteht häufig darin sicherzustellen, dass unterschiedliche Systeme einheitliche Standards für Datenformate, Kommunikationsprotokolle und Terminologien verwenden. Die Einführung offener Standards fördert die Interoperabilität, indem sie sicherstellt, dass Systeme unabhängig von ihrer spezifischen Implementierung Daten effizient austauschen können.

FAIR-Prinzipien

Die kooperative Nutzung von Daten ist keine spezifische Herausforderung für die Gesundheitswissenschaften, sondern ein allgemeines Problem in der Forschung. Dies führte zur Formulierung der FAIR-Datenprinzipien (Findable, Accessible, Interoperable, and Reusable), die gute wissenschaftliche Praktiken für das Datenmanagement definieren [14]. „Findable“ bedeutet, dass die Daten schnell und problemlos online über Suchmaschinen gefunden werden können. „Accessible“ bedeutet, dass auf die Daten direkt oder über ein genehmigtes Verfahren zugegriffen werden kann. „Interoperable“ bedeutet, dass die Daten bestimmten Standards folgen. Schließlich bedeutet „Reusable“, dass der Kontext, in dem die Daten entstanden sind (Metadaten), dokumentiert wird, um eine Vergleichbarkeit oder Integration mit anderen Datensätzen zu ermöglichen. Ursprünglich für den akademischen Bereich konzipiert, dienen diese Prinzipien sowohl auf staatlicher als auch auf industrieller Ebene als Referenz [15, 16]. Die Umsetzung dieser Prinzipien erfordert die Anwendung von Standards auf die verschiedenen Aspekte der Datenerhebung und Datenweitergabe.

Der umfassende Austausch von Gesundheitsdaten i. Allg. und in der Präzisionsonkologie im Besonderen ist mit besonderen Herausforderungen verbunden [17, 18]. Neben datenschutzrechtlichen und ethischen Fragen bestehen erhebliche Schwierigkeiten bei der Erfassung und Speicherung der Daten [19]. Die Inkompatibilität der verschiedenen lokalen und nationalen Gesundheitssysteme und Meldeverfahren macht die Integration von Daten aus unterschiedlichen Quellen komplex, kostspielig und zeitaufwendig. Mehrere Initiativen wurden ins Leben gerufen [20, 21], um diese Probleme durch Standardisierung und die Erleichterung der Implementierung von Daten-Pipelines anzugehen.

Genomdaten

Genomische Daten, die hauptsächlich aus der Nukleotidsequenz der DNA abgeleitet werden, bieten einen tiefen Einblick in die genetische Variation und ermöglichen die Erforschung komplexer biologischer Prozesse. Die Extraktion der Nukleinsäuren erfolgt i. d. R. aus Tumorzellen des betroffenen Gewebes oder als zellfreie DNA aus dem Plasma. Gelegentlich wird auch DNA aus gesundem Kontrollgewebe verwendet, um somatische Mutationen zu identifizieren, die außerhalb der Keimbahn auftreten.

Genetische Profile von Tumorzellen ändern sich longitudinal und evolutionär

Genomische Daten erfordern eine sorgfältige Beachtung sowohl des Zeitpunkts der Probenentnahme als auch der Lokalisation der gewonnen Proben: Genetische Profile von Tumorzellen ändern sich longitudinal und evolutionär von der Erstdiagnose, nach bestimmten Therapiezyklen – v. a. mit molekular stratifizierter Therapie – sowie an verschiedenen Lokalisationen/Metastasierungen. Die Methoden zur Gewinnung genetischer Informationen variieren und umfassen klassische Methoden wie Polymerasekettenreaktion (PCR), Fluoreszenz-in-situ-Hybridisierung (FISH), Chromosomen-Bänderungsanalyse, Fragmentlängenanalyse und Sanger-Sequenzierung. Durch technologische Methodenentwicklung hat das Next Generation Sequencing (NGS) die Datengenerierung im Genombereich revolutioniert: NGS ermöglicht nicht nur die Untersuchung von Nukleotidsequenzen auf verschiedenen Ebenen, einschließlich Einzelamplicon‑, Panel‑, Exom- oder Genomsequenzierung, sondern auch die Analyse von RNA-Translokationen, des Transkriptoms und des Methyloms. NGS-Rohdaten werden in standardisierten Sequenzdateiformaten wie dem weit verbreiteten FASTQ-Format präsentiert, das eine textbasierte Darstellung von Nukleotidsequenzen und Qualitätsinformationen beinhaltet. Darüber hinaus ermöglichen Formate wie SAM (Sequence Alignment Map) und VCF (Variant Call Format) die spezifische Aufbereitung und Speicherung biologischer Sequenzierungen sowie genetischer Variationen [22]. SAM wird in binärer Form als BAM-Datei (Binary Alignment Map) dargestellt, während VCF zur standardisierten Darstellung von genetischen Sequenzvariationen verwendet wird [23]. Diese Datenrevolution eröffnet große Potenziale und Möglichkeiten, bringt jedoch auch Herausforderungen für ihre effiziente Nutzung mit sich, insbesondere in Bezug auf persönlichkeitsrechtliche Aspekte (Datenschutz, ethische Überlegungen) sowie technische Aspekte sektorenübergreifender Interoperabilität, die, z. B. die Integration von Daten aus verschiedenen Gesundheitssystemen ermöglichen. Initiativen zur Standardisierung und Implementierung von Daten-Pipelines sind daher entscheidend, um das Potenzial von Genomdaten voll auszuschöpfen.

Initiativen und Konsortien

Um Daten aus Krankenversorgung und Forschung besser nutzbar zu machen, hat das Bundesministerium für Bildung und Forschung 2016 die Medizininformatik-Initiative (MII) und vor Kurzem die „Digitalen FortschrittsHubs Gesundheit“ ins Leben gerufen und seither verschiedene Konsortien, Use Cases und Strukturprojekte mit rund 500 Mio. € gefördert. Derzeit arbeiten im Rahmen der MII alle Universitätskliniken Deutschlands gemeinsam mit Forschungseinrichtungen, Unternehmen, Krankenkassen und Patient:innenvertretungen daran, die Rahmenbedingungen für sichere Datennutzung zu entwickeln, damit Erkenntnisse aus der Forschung direkt die Patient:innen erreichen können (wissensgenerierende Versorgung).

Harmonisierte Kerndatensätze bilden die Grundlage für die klinische Anwendung von KI

Diverse Initiativen und Konsortien fokussieren sich u. a. darauf, die Anwendbarkeit der KI speziell in der Onkologie voranzutreiben. Dazu gehören z. B. die Zentren für Personalisierte Medizin (ZPM) [24], das Deutsche Netzwerk Personalisierte Medizin (DNPM) [25], das nationale Netzwerk Genomischer Medizin (nNGM) [26], das Bayerische Zentrum für Krebsforschung (BZKF) [27] sowie die Nationale Strategie für Genommedizin (genomDE) [28] sowie das von der Nationalen Dekade gegen Krebs geförderte Verbundprojekt Personalisierte Medizin für Onkologie (PM4Onco) [29]. Darin wird gemeinschaftlich mit akademischen Partnern aus ganz Deutschland an neuen Algorithmen zur klinischen Entscheidungsunterstützung geforscht. Zusätzlich treiben die genannten Konsortien und Initiativen die Standardisierung und Harmonisierung der benötigen Daten aktiv voran und entwickeln neue Erweiterungsmodule und Anwendungsprofile für die von der MII und der Arbeitsgruppe Interoperabilität federführend entwickelten Kerndatensätze, damit diese speziell für die Dokumentation von präzisionsonkologisch behandelten Patient:innen genutzt werden können. Diese harmonisierten Kerndatensätze bilden die Grundlage, um die KI bei der klinischen Anwendung suffizient einzusetzen und sinnhaft den Behandlungsprozess unterstützen zu können.

Durch den Zusammenschluss und die Nutzbarmachung der Daten können durch den Einsatz der KI neue molekulargenetische Muster identifiziert werden, die als Biomarker in die klinische Entscheidung einbezogen werden und neue Therapiemöglichkeiten schaffen können.

Fazit für die Praxis

Um große onkologische Datensätze für KI-Algorithmen zur Verbesserung der Prävention, Diagnostik und Therapie von Krebspatient:innen effektiv nutzen zu können, bedarf es der Einbeziehung folgender Schlüsselaspekte im onkologischen Kontext:

  • longitudinale und räumliche Datenanalyse des sich verändernden Tumormaterials,

  • Real-Time-Analysen für Integration in zeitkritische Therapieentscheidungen,

  • Entwicklung intuitiver „Physician-Support-Systeme“ für klinisches Personal zur Nutzung hochdimensionaler onkologischer Daten,

  • Standardisierung und Harmonisierung von diversen Datensätzen, um präzisionsonkologische Besonderheiten und Endpunkte abbilden zu können.

So könnte als Ausblick ein Paradigmenwechsel in der onkologischen Patientenversorgung durch präzisere, personalisierte und effizientere Nutzung von KI und Algorithmen unter Wahrung von Datenschutz und Ethik erfolgen.