Maschinelles Lernen in der Radiologie

Maschinelles Lernen (ML) nimmt zunehmend Einzug in die Radiologie, um Aufgaben wie die automatische Detektion und Segmentation von diagnoserelevanten Bildmerkmalen, die Charakterisierung von Krankheits- und Behandlungsverläufen sowie Vorhersagen für individuelle Patienten durchzuführen.

Radiologische Standardverfahren

Die Anwendung von ML-Algorithmen ist für alle radiologischen Verfahren von der Computertomographie (CT), über die Magnetresonanztomographie (MRT) bis zum Ultraschall relevant. Verschiedene Modalitäten führen zu unterschiedlichen Herausforderungen bezüglich Standardisierung und Variabilität.

Methodische Innovationen

ML-Algorithmen sind zunehmend in der Lage, auch longitudinale Beobachtungen zu verarbeiten und für das Training von Vorhersagemodellen zu nutzen. Diese Entwicklung erlaubt es, umfassende Informationen für die Vorhersage individueller Verläufe heranzuziehen.

Leistungsfähigkeit

Die Qualität der Detektion und Segmentation von Läsionen hat in vielen Bereichen ein akzeptables Niveau erreicht, die Genauigkeit von Vorhersagemodellen muss diese aber erst erreichen, was u. a. auch mit der Verfügbarkeit repräsentativer Trainingsdaten zusammenhängt.

Bewertung

Die Entwicklung von ML-basierten Anwendungen in der Radiologie schreitet, trotz dass sich viele der Lösungen noch im Evaluationsstadium befinden, voran, und wird durch eine parallele Weiterentwicklung der grundlegenden Methoden und Techniken begleitet, die sukzessive in die Praxis übergehen werden.

Empfehlung für die Praxis

Maßgeblich für den effektiven Einsatz von ML in der Praxis sind die Validierung der Algorithmen und die Erstellung repräsentativer Datensätze, die sowohl für das Training als auch für die Validierung verwendet werden können.

Abstract

Methodical Issue

Machine learning (ML) algorithms have an increasingly relevant role in radiology tackling tasks such as the automatic detection and segmentation of diagnosis-relevant markers, the quantification of progression and response, and their prediction in individual patients.

Standard radiological methods

ML algorithms are relevant for all image acquisition techniques from computed tomography (CT) and magnetic resonance imaging (MRI) to ultrasound. However, different modalities result in different challenges with respect to standardization and variability.

Methodical innovations

ML algorithms are increasingly able to analyze longitudinal data for the training of prediction models. This is relevant since it enables the use of comprehensive information for predicting individual progression and response, and the associated support of treatment decisions by ML models.

Performance

The quality of detection and segmentation algorithms of lesions has reached an acceptable level in several areas. The accuracy of prediction models is still increasing, but is dependent on the availability of representative training data.

Achievements

The development of ML algorithms in radiology is progressing although many solutions are still at a validation stage. It is accompanied by a parallel and increasingly interlinked development of basic methods and techniques which will gradually be put into practice in radiology.

Practical considerations

Two factors will impact the relevance of ML in radiological practice: the thorough validation of algorithms and solutions, and the creation of representative diverse data for the training and validation in a realistic context.

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

Maschinelles Lernen (ML) ist ein Bereich der künstlichen Intelligenz (KI), in welchem Computeralgorithmen anhand von Beispielen lernen, bestimmte Aufgaben zu lösen. Um beim Lösen der Aufgaben besser zu werden, trainiert ein Algorithmus zunächst, indem die Datenverarbeitung anhand von Erfahrung an die Problemstellung angepasst wird. Eine solche Aufgabe kann z. B. das Erkennen von Tumorgeweben in Lungen-CT-Bildern sein. Gelernt hat der Algorithmus jedoch nur dann, wenn die Aufgabe auch auf neuen, zuvor ungesehenen Testdaten, die aus derselben Problemkategorie kommen, korrekt gelöst werden kann.

In den letzten Jahren hat die Bedeutung dieses Feldes aus mehreren Gründen zugenommen, die durch Fortschritte auf dem Gebiet der künstlichen neuronalen Netze (KNN) getrieben wird, welche sich als derzeit vielversprechendster Algorithmus für maschinelles Lernen etabliert haben. Grundlegend handelt es sich bei KNN um ein Netzwerk zur Datenverarbeitung, welches Datenpunkte beliebig gewichten kann, um Aufgaben zu lösen. Die Gewichte dieses Netzwerks werden über Lernstrategien angepasst, sodass abhängig von der Aufgabe auf bestimmte Datenpunkte mehr oder weniger Wert gelegt wird.

Nachdem diese Netzwerke mehrere hundert Millionen Gewichte enthalten können, erlaubt erst moderne Computer-Hardware wie Graphics Processing Units (GPUs) effizientes Trainieren. Sowohl die Lernstrategien selbst als auch die Architekturen künstlicher neuronaler Netze wurden in den letzten Jahren immer weiter verbessert, sodass heute das Erlernen komplexer Muster in hochdimensionalen Daten, wie in biomedizinischen Bildern, möglich ist.

Im Kern dieser Effizienz [15] ist eine Eigenschaft der visuellen Welt, die man mit Compositionality bezeichnet, der Umstand, dass viele Objekte eine Zusammensetzung anderer Objekte sind. Zwei Tische, auf denen sich entweder ein Teller oder ein Laptop befindet, sind nicht zwei grundsätzlich verschiedene Kategorien, sondern anders aus Teilen zusammengesetzte Konfigurationen. Entsprechend nutzt eine effiziente Lernstrategie diese Teilbarkeit aus, indem sie Tisch, Teller und Laptop und die Zusammensetzung als solche erkennt. Diese Eigenschaft lässt auch auf medizinische Bilddaten übertragen, die Gewebe, anatomische Strukturen und ihre räumlichen Relationen abbilden. Sie liegt Convolutional Neural Networks (CNNs), der häufigsten KNN-Architektur für maschinelles Lernen auf Bildern darstellen, zugrunde. CNNs erlernen Kaskaden von Filtern, die zunächst kleinere, allgemeinere Strukturen wie Ecken und Kanten in Bildern erkennen und in weiterer Folge zu komplexeren Strukturen zusammensetzen können.

Im Folgenden werden einige der wichtigsten Lernansätze erklärt und ihre Funktionsweise sowie ihre Rollen in der Radiologie einander gegenübergestellt. Den Beginn machen traditionelle Strategien wie das überwachte Lernen („supervised learning“), unüberwachtes Lernen („unsupervised learning“) sowie Merkmalsextraktion („feature extraction“), Merkmalsselektion („feature selection“) und Merkmalskonstruktion („feature learning“). Letztere stellen den Übergang zu neuartigen Ansätzen dar, die sich im Wesentlichen dadurch unterscheiden, verschiedene Typen und Konfigurationen während des Trainings verarbeiten zu können.

Grundlegende Lernstrategien

Damit ein Algorithmus anhand von Daten lernen kann, wird eine Zielfunktion benötigt, die der Algorithmus zu optimieren versucht. Zumeist wird ein Minimierungsproblem formuliert, sodass ein Fehler zwischen der Vorhersage des Modelles und der tatsächlich erwarteten Größe errechnet werden kann, der den Algorithmus dazu veranlasst, die Modellparameter derart zu ändern, dass dieser Fehler sukzessiv kleiner wird.

Maschinelles Lernen im herkömmlichen Sinn erstellt Vorhersagemodelle – z. B. mit welcher Wahrscheinlichkeit ein Lungeninfiltrat beim Intensivpatienten zu einer ARDS führt oder eine Tumorerkrankung auf eine Therapie ansprechen wird/Outcomeprediction – indem von einer möglichst großen und repräsentativen Zahl von Trainingsbeispielen gelernt wird. Diese bestehen typischerweise aus Beobachtungen (z. B. MRT- oder CT-Datensätze) und den Beobachtungen zugeordneten Zielwerten (z. B. zukünftiger klinischer Verlauf). Beobachtungen werden in einem ersten Schritt in Merkmalsvektoren (z. B. Größe, Form, und Texturparameter einer Läsion) übersetzt. Zielwerte können die Form von Klassen oder kontinuierlichen Werten in der Gegenwart, wie Diagnose, Tumortyp, Krankheitsstatus, oder auch in der Zukunft, wie Outcome, oder die Zeit bis zum Rezidiv, einnehmen [14]. Ein zentraler Aspekt des maschinellen Lernens ist dabei nicht nur, einzelne Merkmale (univariate Analyse) oder Gruppen von Merkmalen voneinander unabhängig (mass-univariate Analyse) zu nutzen, sondern den gesamten Merkmalsvektor, und damit auch Beziehungen zwischen Variablen (multivariate Analyse) für die Vorhersage heranzuziehen. Die Zielvariable kann kategorisch – Klassifikationsmodell z. B. zur Bestimmung des Krankheitstyps – oder skalar – Regressionsmodell z. B. zur Bestimmung des Krankheitsstadiums – sein. Ein spezieller, in der Medizin aber relevanter Fall sind sog. Survival-Modelle. Sie beschäftigen sich insbesondere mit Fällen, in denen die Zielvariablen der Trainingsdaten nur über einen begrenzten Zeitraum beobachtet werden. Ein Beispiel ist das Auftreten eines Rezidivs oder der nicht in allen Patienten vorkommende Transfer von Mild Cognitive Impairment zu Alzheimer Disease. Hier sind die Negativbeispiele tatsächlich nur noch nicht Beispiele, und zur Berücksichtigung dieser Tatsache stehen aus der klassischen Statistik bekannte Modelle wie Cox-Regression zur Verfügung [7].

Überwachtes Lernen

Überwachtes Lernen – „supervised learning“ – trainiert Modelle anhand von Trainingsbeispielen, die jeweils aus Paaren einer Beobachtung („input“) und eines Zielwertes („output“) bestehen. Nach dem Trainieren des Modelles kann dieses neuen Beobachtungen, d. h. auf Basis neuer Datensätze, Zielwerte zuordnen. In der Radiologie sind das Abbildungen, wie z. B. von jeweils einem Voxel auf die Kategorie Läsion bzw. normale Anatomie, von einem Bild auf die Art oder das Stadium einer Erkrankung, oder vom Ausschnitt eines Volumens auf die Größe einer bestimmten Struktur.

Zentral für die Genauigkeit des trainierten Modelles, d. h. seiner Fähigkeit die korrekten Zielwerte für neue Beobachtungen vorherzusagen, sind einerseits die Auswahl des Modelles, andererseits die Größe und Repräsentativität der Trainingsdaten. Diese sollen so gut wie möglich die Variabilität der zu identifizierenden Klassen, und ihre Unterschiede erfassen, und die Größe hängt damit von der Beschaffenheit, Heterogenität der Daten, und des Unterschieds zwischen den zu trennenden Klassen ab.

Eine grundsätzliche Limitation des überwachten Lernens ist in der Radiologie die Beschränkung auf bereits bekannte diagnostische Kategorien, die für die Trainingsbeispiele bekanntgegeben werden müssen. Dies schließt die Identifikation von über die Granularität dieser Kategorien hinausgehende Gruppen in den Daten aus.

Unüberwachtes Lernen

Unüberwachtes Lernen – „unsupervised learning“ – setzt an dieser Limitation an [13]. Statt Paaren von Eingabe- (Beobachtungen) und Ausgabewerten (Zielwerten) wird nur eine Menge von Eingabewerten zum Training herangezogen, da entweder keine Ausgabewerte bekannt sind oder hinterfragt werden soll, ob die zur Verfügung stehenden Ausgabewerte tatsächlich die Variabilität der Daten erklären. Ziel ist es nun, Struktur in den Daten zu entdecken, die in der Form von Gruppierungen oder gegenseitiger Abhängigkeit von Variablen auftreten kann. Gruppen in den Daten, d. h. Datenbeispiele, die einander im Sinne eines Maßes ähneln, werden durch Methoden des Clusterings identifiziert [21]. Eine Anwendung in der Radiologie ist hier die Identifikation von Phenotypen basierend auf Bilddaten, die zu klinischen Parametern in Bezug gesetzt werden können [12].

Merkmalsextraktion

Beobachtungen, wie Bilder, klinische Daten, Laborwerte oder Charakteristika der Krankengeschichte, die als Grundlage für Vorhersagen dienen sollen, werden vor der Verarbeitung durch ein Modell erst in numerische Merkmale übersetzt. Die Darstellung in der Form von Merkmalsvektoren erlaubt die Abbildung von sog. Merkmalsräumen zu Zielwerten. Rohe Beobachtungen in Merkmalsvektoren umzuwandeln war lange Zeit ein dominierendes Forschungsgebiet, das mit substanziellem Wissen über die Natur und zugrunde liegenden Mechanismen der Beobachtungen, Merkmalsextraktionsalgorithmen entwickelt hat, die einerseits relevante Informationen enthalten, andererseits für die Klassifikation oder Regression unwichtige und potenziell störende Größen unterdrücken. Hier liegt auch die Limitation dieser Zugänge: die Notwendigkeit der Konstruktion von Merkmalsextraktion durch Experten und die damit verbundene Limitation auf bekannte Mechanismen sowie die geringe Anwendbarkeit bestehender Modelle auf neue Problemstellungen. Modelle wie beispielsweise Support Vector Machines (SVM) sind sehr empfindlich gegenüber irrelevanten Merkmalen und bedürfen einer sorgfältigen Auswahl der informativen Merkmale, die tatsächlich für die Klassifikation herangezogen werden.

Selektion und Konstruktion von Merkmalen

Mit der Entwicklung von Methoden wie „Bagging“ und „Boosting“, die statt auf komplexen Klassifikationsmodellen und aufwändig konstruierten Merkmalen, auf Kaskaden simpler Modelle basieren – sog. „weak learner“ – nahm die Möglichkeit, die Auswahl von Merkmalen Algorithmen zu überlassen, Einzug. Random Forests [4] und AdaBoost [10] sind Beispiele, die als Teil des Lernens auch den Beitrag individueller Features zur korrekten Entscheidung evaluieren und durch ihre Architektur entsprechend gewichten. Dadurch wird die Extraktion von Merkmalskandidaten und die anschließende Selektion der Merkmale, die tatsächlich prädiktiven Wert haben, möglich. Es stellt eine der Grundvoraussetzungen von Radiomics dar, dem Ansatz aus einer großen Menge aus Bildausschnitten extrahierter Merkmale algorithmisch auszuwählen und die entstehenden Signaturen für Diagnose, Staging oder Vorhersage zu verwenden [1]. In der Radiologie erlaubt dieser Zugang zum Beispiel die Konstruktion von Merkmalen, die in Bezug auf diagnostische Kategorien besonders informativ sind [11].

Das Konzept der Selektion leidet unter einer Limitation, die sich durch die Definition der Merkmalskandidaten ergibt: Nur unter ihnen kann ausgewählt werden. Methoden wie CNNs erlauben das Erlernen bzw. die algorithmische Konstruktion der Merkmalsextraktoren bis zur Ebene des rohen Bildes und haben sich als effektive Strategie erwiesen, um Bildinhalte optimal zu nutzen.

Anwendungen in der Radiologie: Radiomics und mehr

Radiomics [1] nutzt die o. g. Konzepte der Merkmalsextraktion, Selektion und anschließenden Verarbeitung durch Vorhersagemodelle, um medizinische Bilddaten für klinisch relevante Vorhersagen zu nutzen. Merkmalskandidaten, die in der Radiomics-Literatur zur Anwendung kommen, reichen von Textur‑, Form-, bis hin zu Ortsmerkmalen. Dies erlaubt einerseits ein Maß an Standardisierung von Merkmalen über Studien hinweg, bewirkt aber die oben angesprochene Beschränkung des Merkmalsvokabulars auf diese Familien.

Selektion informativer und valider Merkmale

Basierend auf einem Vokabular von Merkmalskandidaten können die tatsächlich für die Vorhersage verwendeten Merkmale durch Dimensionalitätsreduktionsmethoden wie der Principal Component Analysis (PCA; [32]) oder nichtlineare Varianten des Lernens von Mannigfaltigkeit erstellt werden [6]. Alternativ können Gruppen informativer Merkmale ausgewählt werden, indem ihr Beitrag zur korrekten Vorhersage der Zielvariable quantifiziert wird. Random Forests [4, 23] und AdaBoost [3] gehören zu den entsprechenden Methoden. Ein wesentlicher Unterschied zwischen den beiden Ansätzen ist das bei letzterem für Selektion bereits die Zielvariablen der Trainingsbeispiele herangezogen werden, für die genannten Dimensionalitätsreduktionstechniken allerdings nicht.

Eine Gefahr in der Radiomics-Analyse ist die typischerweise im Vergleich zur Anzahl der Traininsbeispiele sehr hohe Anzahl von Merkmalen. Diese führt zur Gefahr des Overfittings von Modellen, die zwar die Trainingsbeispiele optimal verarbeiten, aber fast gar nicht auf neue Beispiele übertragbar sind. Aufgrund der hohen Anzahl der Merkmale, lässt sich oft eine Trennung der Klassen in den Trainingsbeispielen finden, die aber nicht die zugrundeliegende Verteilung der Klassen im Merkmalsraum wiedergibt. Dieser Bias kann sich bis in die Selektion und Konstruktion von Merkmalen ziehen, was eine entsprechend klare Trennung zwischen den dafür verwendeten Trainingsdaten und den für die Validierung herangezogenen Testdaten notwendig macht.

Dahingegen reduziert Dimensionalitätsreduktion Redundanz in der Merkmalsdarstellung, indem sie eine neue Darstellung der Punkte im Merkmalsraum finden, die im Wesentlichen miteinander korrelierte Merkmale zusammenfasst. Die entstehenden Merkmale sind nicht durch die Zielwerte der jeweiligen Beispiele beeinflusst und damit valide Merkmale, die nicht unmittelbar die Gefahr des Overfitting bergen. Durch das Zusammenfassen von Variablen limitieren Methoden wie die PCA allerdings die Identifikation von informativen Variablen des initialen Merkmalsvektors. Methoden wie „bagging“ und „boosting“ selektieren Variablen anstatt sie zusammenzufassen, ziehen dabei aber die Zielvariablen der Trainingsbeispiele in Betracht, was eine Validierung nur mehr auf einem getrennten Test-set ermöglicht.

Validierung von Radiomics-Modellen

Ein Schlüssel zur Auswahl und Beurteilung valider Merkmale ist daher der präzise Umgang mit der Information, die zur Auswahl herangezogen und zur anschließenden Validierung der erlernten Merkmale und Modelle verwendet wird. Grundsätzlich müssen Trainings- und Testdaten getrennt bleiben. Eine Möglichkeit, dies bei beschränkten Daten effizient umzusetzen, ist die Kreuzvalidierung, indem jeweils ein Teil für das Training und ein anderer Teil für die Validierung genutzt wird. Sobald für die Konstruktion und Selektion von Variablen Zielwerte herangezogen werden, darf auch diese Berechnung jeweils nur basierend auf Daten des Training-sets stattfinden. Bei der Kreuzvalidierung ist darauf zu achten, dass ihre häufige Anwendung während der Algorithmusentwicklung ebenfalls zu überoptimistischen Schätzungen der Modellgenauigkeit führen kann, da die Testdaten Resultate nicht mehr unabhängig vom entwickelten Algorithmus sind – sie haben ja durch die wiederholten Experimente und Auswertungen zunehmend Einfluss auf Designentscheidungen. In diesem Fall ist die Isolation eines Testdatensets, dass nur zur finalen Evaluation für die Publikation der Ergebnisse herangezogen wird, eine gute Praxis.

Evaluationsmasse wie „goodness of fit“ auf Testdaten sind valide Maße der Modellqualität, d. h. der Fähigkeit des trainierten Modells, die Charakteristika der Daten zu erfassen und zu imitieren. Für kategorische Variablen werden traditionelle Masse wie falsch-positive und falsch-negative bzw. daraus hergeleitete Maße verwendet. Da viele der Methoden durch Parameter gesteuert werden, die diese falsch-positive/negative Verhältnis verändern, ist die gemeinsame Darstellung dieser Varianten in Form einer „receiver-operator-characteristic curve“ (ROC) und das daraus abgeleitete „Area-under-the-curve“(AUC)-Maß ein probates Mittel der Wahl.

Lernen von longitudinalen Daten

Für die Analyse longitudinaler Daten werden neben den bereits eingeführten Lernstrategien zusätzliche Techniken benötigt, um die Zeitkomponente in die Modellbildung einfließen zu lassen. Diese sog. spatiotemporalen oder longitudinalen Modelle ermöglichen die Kodierung von z. B. Krankheitsverläufen, Entwicklungsprozessen und können auch zur Vorhersage von Therapieeffekt, Risiko einer Verschlechterung oder eines Verlaufes herangezogen werden.

Frage der Korrespondenz

Ein wichtiger Bestandteil dieser zeitbasierenden Lernstrategien bildet die Harmonisierung der Daten, um diese zu einem bestimmten Zeitpunkt, aber auch über mehrere Zeitpunktehinweg in Korrespondenz zu bringen. Hierzu werden in einem Vorverarbeitungsschritt Registrierungstechniken angewendet, die als Ziel haben, Strukturen in einem Ausgangsbild (Source Image) dahingehend zu transformieren, dass sich diese mit Strukturen des Zielbilds (Target Image) deckt. Man unterscheidet zwischen linearer Registrierung (rigide, affine), der globale Transformationen (Skalierung, Rotation, Translation) zugeordnet werden und nichtlineare (non-rigide) Registrierung, welche die lokale Deformationen, basierend auf physikalischen Modellen (Diffusion, Elastizität, Flüssigkeitsströmung etc.) im Fokus hat. In der Medizin ist es von großer Bedeutung, dass Bilder nach der Registrierung anatomisch valide bleiben, d. h. nur jene Deformationen zugelassen werden, die diese Eigenschaften bewahren (z. B. diffeomorphe Registrierung). In Abb. 1 werden schematisch die nötigen Transformationsprozesse visualisiert, um z. B. die Form eines Hirns in der 18. Schwangerschaftswoche (SW) (Source Image) zu der Form eines Hirns in der 30. Schwangerschaftswoche (Target Image) zu registrieren. Die nötigen Transformationen beinhaltet die Rotation und Skalierung des Hirns und anschließende feine lokale Transformationen, um die Hirnwindungen zu modellieren.

In der klinischen Routine erweitert sich das hier vorgestellte Registrierungsproblem auf dreidimensionale Grauwertbilder und bringt in Abhängigkeit von der Modalität zusätzliche Herausforderungen mit sich (Intensitätsschwankungen, Artefakte, Patienteninter- und -intravariabilität, Voxelspacing sowie die Variabilität der Umgebung, in der sich die zu registrierende Struktur befindet).

Transformationen können als parametrisierbare Funktionen (Transformationsmatrizen oder Vektorfelder) definiert werden, deren Parameter mittels maschinellen Lernens bestimmt werden können. Balakrishnan et al. [2] formulierten z. B. das Registrierungsproblem als Funktion, welche ein Bildpaar einem Deformationsfeld zuordnet, das diese Bilder bestmöglich in Korrespondenz bringt. Die Parameter dieser Funktion werden in diesem Ansatz durch ein Convolutional Neural Network (CNN) gelernt.

Zeitabhängige Entwicklungsprozesse mit mehreren Aufnahmezeitpunkten (>2) verwenden erweitere Formen der Registrierung. Sich kontinuierlich ändernde Referenzmodelle wurden kürzlich vorgestellt, um die Veränderungen in der Struktur und Form von longitudinal Daten darstellen zu können. Ein Bereich der publizierten Ansätze umfasst die Codierung von Unterschieden über die Zeit mittels lokal räumlicher Transformationen, die sich in Abhängigkeit einer Zeitkomponente (z. B. Alter) verändern:

Verkettung von paarweiser Registrierung.

Ein möglicher Ansatz, um longitudinal Trajektorien zu modellieren, ist die paarweise Registrierung zwischen einzelnen Aufnahmezeitpunkten von Bilddaten eines Patienten und anschließender Verkettung der berechneten Transformationsfelder [22]. Mit diesem Ansatz können Veränderungen über die Zeit in einem gemeinsamen Koordinatensystem beobachtet und verfolgt werden [8, 16, 19, 29]. Für die Modellierung patientenspezifischer Trajektorien ist dies eine gängige Technik, jedoch bei longitudinalen Daten mehrerer Patienten sind andere Ansätze besser geeignet, da die Anzahl der zu berechnenden Transformationen steigt, welches in höherem Zeitaufwand und Komplexität resultiert.

Bildregression.

Anstatt der Schätzung einzelner Deformationsfelder können als Erweiterung des bereits eingeführten Registrierungsansatzes zeitabhängige Deformationsfelder, die sich über die Zeit (z. B. Schwangerschaftswoche, Alter oder Therapiezeitpunkt) ändern, erlernt werden. Anstatt einer Berechnung einzelner paarweiser Deformationsfelder zwischen den observierten Zeitpunkten ist eine aufkommende Technik die Bildregression [24, 31]. In Licandro et al. [17] stellen einen Ansatz der geodätischen Bildregression vor, die es ermöglicht, aus longitudinalen Daten ein zeitabhängiges Deformationsfeld zu lernen, um die Änderungen während der fetale Hirnentwicklung über die Schwangerschaft zu beschreiben und zu analysieren. In Abb. 2 ist eine vereinfachte schematische Darstellung der Bildregression abgebildet. Ziel ist es, eine zeitabhängige Transformationsfunktion zu erlernen, die ein fetales Hirn in der 18. Schwangerschaftswoche (SW) mit Hirnen zwischen der 23. und 30. SW in Korrespondenz bringen kann.

In Fishbaugh und Gerig [9] stellten einen Ansatz zur nichtparametrischen Bildregression vor, welche Trajektorien basierend auf der Beschleunigung der Veränderung erlernt. Diese Technik ermöglicht es im Gegensatz zur Bildregression [17, 31], Trajektorien über längere Zeiträume zu erlernen, ist flexibler in der Modellierung von beschleunigtem Wachstum in früher Kindheit und wird auch für komplexe nichtmonotone Veränderungen, wie z. B. im Bereich der dynamischen Herzbildgebung, verwendet.

Eine andere Möglichkeit für Lernstrategien für longitudinale Analysen bilden statistische Methoden. Hier kann man zwischen parametrischen und nichtparametrischen Ansätzen unterscheiden. Parametrische Modelle (z. B. hierarchische lineare Modelle, „general linear model“) sind beschränkt durch die räumliche Auflösung der Daten und durch die vordefinierte Modellkomplexität. Beispielsweise wurde ein Krankheitsprogressionsmodell basierend auf Gaußschen Prozessen für die Vorhersage von MR-Zeitserien vorgestellt [19, 20]. Zu nichtparametrischen Modellen zählen z. B. Bayessche Mixture-Modelle, die auf Bayesscher Statistik basieren. Diese Modelle werden verwendet, um z. B. Lungenfunktionstrajektorien zu identifizieren [28], für die Modellierung von Alterungsprozessen in Zeitserien und für die Vorhersage und Modellierung mittels Mannigfaltigkeiten [26].

Neue Lernstrategien für longitudinale Daten

Die Verwendung neuronaler Netze hält auch Einzug in den Lernstrategien für longitudinale Analysen und Vorhersagen. Ravi et al. [27] präsentieren ein Adversarial Netzwerk, welches mittels unüberwachtem Lernen Bilder in einem Krankheitsverlauf vorhersagen kann. In [18] wird eine Kaskade von zwei neuronalen Netzwerken verwendet, um gezielt Orte der zukünftigen Läsionsprogression in Bilddaten von Patienten mit multiplem Myelom zu visualisieren (Abb. 3).

Răzvan et al. [22] präsentieren schließlich ein spatiotemporales Modell für degenerative Hirnerkrankungen, welches spezifisch für jeden Vertex auf einer Hirnoberfläche Trajektorien von Bild-Biomarkern visualisiert unter Verwendung eines generalisierten Expectation-Maximization-Ansatzes.

Alternative Lernstrategien mit Relevanz für die Radiologie

Das Feld des maschinellen Lernens entwickelt sich neben und teilweise auch mit seiner Anwendung in der Medizin ebenfalls fort. Drei Ansätze sollen aufgrund ihrer Relevanz für Problemstellungen und Datenlage in der medizinischen Bildgebung hervorgehoben werden.

Transfer Learning

Maschinelle Lernmethoden funktionieren gut, wenn die Voraussetzung gegeben ist, dass Trainingsdatensätze aus der gleichen Bilddomäne entnommen wurden und im Fall einer Krankheitsklassifikation eine ausgeglichene Verteilung zwischen gesund und krank besitzen [25]. In Szenarien, in denen sich die Bildmodalität ändert, Trainingsdaten teuer, selten oder schwer zu akquirieren sind, kann mithilfe von Transfer Learning ein Modell, welches auf eine bestimmte Problemstellung oder Bildmodalität trainiert wurde, in eine andere Problemstellung oder Bilddomäne übertragen werden [36]. Diese Strategie erlaubt insbesondere in der medizinischen Bildverarbeitung die Nutzung bereits teilweise trainierter Modelle, um das Training auf den Zieldaten einerseits zu beschleunigen, und andererseits auch mit geringen Trainingsmengen zu ermöglichen. Überraschenderweise sind für das Vortraining auch Bilddaten aus völlig anderen Domänen verwendbar, und das Transfer Learning ist bereits fast schon zum Standardverfahren geworden.

„Few-shot learning“ – Lernen mit wenigen Beispielen

Erinnern Sie sich an das erste Mal, als Ihnen ein Bild eines Segways gezeigt wurde? Nach nur einem Beispiel konnten Sie wahrscheinlich zwischen allen Ihnen bekannten Fahrzeugen und diesem neuartigen Gefährt unterscheiden. Auf der Idee, dass auch Maschinen mit nur wenigen Beispielen gute Vorhersagen machen können, baut „few-shot learning“ auf. Es ist in der Medizin sehr relevant, da hier vergleichsweise wenig Trainingsdaten zur Verfügung stehen. Wenig in diesem Kontext bedeutet zwischen 0 (zero-shot) und N (N‑shot) Beispielen, wobei N normalerweise kleiner als 10 ist. Jedes dieser N Beispiele kann zu einer von k Klassen gehören, was man dann eine N‑Shot k‑way-Aufgabe nennt. Ein gutes Few-shot-learning-Modell ist in der Lage, Testdaten (Query Set) in k vorher ungesehene Klassen zu differenzieren, indem nur N Beispiele zu jeder der k Klassen präsentiert werden (Support Set genannt).

Ein illustratives Beispiel.

Nehmen wir an, wir haben das Few-shot-learning-Modell bereits auf mehrere verschiedene 3 Klassen mit jeweils 10 Ausschnitten von MR-Bildern trainiert und wollen nun wissen, ob das Modell schnell zwischen ungesehenen Geweben von MR-Bildern unterscheiden kann. Wir bereiten einige wenige Ausschnitte von Fett‑, Fibrose- und Tumorgeweben in MR-Bildern der Leber vor. Es wurde noch keine dieser 3 Klassen im Trainingsprozess gesehen. Von diesen Ausschnitten stellen wir jeweils 10 Bilder von jeder Klasse als Unterstützungs-Set zur Verfügung. Mit nur 30 Bildern aus diesen Klassen als „Richtlinie“ evaluieren wir nun die Genauigkeit der Methode mit beliebigen neuen MR-Bildausschnitten von Fett, Fibrose- und Tumorgeweben der Leber.

Eine leicht verständliche und erfolgreiche Methode für „few-shot learning“ stellen „prototypical networks“ dar [33]. Daten werden mithilfe eines „encoder networks“ zu einem repräsentativen Vektor in einem niedrigdimensionalen Raum zusammengefasst. Ein Prototyp einer Klasse ist der Durchschnitt aller encodierten Vektoren aus dieser Klasse. Ungesehene Daten werden der Klasse zugeordnet, zu welcher der Prototyp mit der minimalen Distanz gehört. Ein weiteres Few-shot-learning-Modell „Matching Networks“ (entwickelt von [34]) berechnet die Ähnlichkeit der encodierten Vektoren aus dem Query Set zu den encodierten Vektoren aus dem Support Set und weist ungesehenen Daten die Klasse des am ähnlichsten encodierten Vektors aus dem Support Set zu. Die diesem Konzept zugrundeliegende Idee ist, dass das Aussehen der Objekte in einem Repräsentationsraum weitestgehend kontinuierlich verteilt und die Struktur des Raums durch die initialen Klassen soweit etabliert wird, das neue Klassen eingepasst werden können. Ein anderer Ansatz für das gleiche Problem ist das erlernte Augmentieren von Daten, das heißt, die Generierung von zusätzlichen Trainingsdaten aus wenigen Beobachtungen [5].

„Weakly supervised learning“ – Lernen mit vorhandenen Routinedaten

„Weakly-supervised learning“ bezeichnet eine spezielle Form des überwachten Lernens bei dem die Richtigkeit der Input-output-Paare nicht für die gesamten Trainingsdaten vorausgesetzt wird. Durch „weakly-supervised learning“ können auch Daten verwendet werden, die nicht für überwachtes Lernen geeignet sind. Folglich kann dadurch die Anzahl an Trainingsdaten oft deutlich erhöht werden, ohne zusätzliche Annotation notwendig zu machen. Ein Beispiel sind Bilder, in denen Läsionen nicht markiert sind, sondern zu denen jeweils nur bekannt ist, ob eine Läsion irgendwo im Bild vorhanden ist oder nicht. Ein anderes Beispiel ist die Quantifizierung der Ausdehnung einer Pathologie in der Lunge. Während in der klinischen Routine zwar eine große Anzahl an Paaren von CT-Scan und Befundung entstehen, wird die exakte Position und Ausdehnung des befundeten Musters nicht aufgezeichnet. „Weakly-supervised learning“ ermöglicht hier, im Unterschied zu überwachtem Lernen, die Befunde lokalisierten Bildregionen zuzuordnen [12, 35].

Fazit für die Praxis

Methoden des maschinellen Lernens ermöglichen einerseits die automatische Detektion und Segmentierung diagnoserelevanter Muster in Bilddaten und andererseits die Identifikation von Prädiktoren, die für die Prognose von Behandlungseffekten nutzbar sind.
Eine besondere Rolle nimmt die Untersuchung longitudinaler Daten ein, die es ermöglicht, Merkmale über Zeitverläufe hinweg zu verfolgen und ihre Veränderung zur Vorhersage zu nutzen.
Die Herstellung von Korrespondenz ist dabei von großer Bedeutung, um Veränderung am gleichen Ort verfolgen zu können.
Während einige Architekturen, wie Convolutional Neural Networks (CNNs), in der medizinischen Bildverarbeitung schon zum Standard geworden sind, gibt es neue Ansätze, die ebenfalls vielversprechende Lösungen bieten, wie Transfer Learning, „few-shot learning“ oder „weakly supervised learning“.
Diese Methoden sind zwar noch primär in der Literatur des maschinellen Lernens zu finden, halten aber großes Potenzial für die Interpretation medizinischer Bilddaten.

Literatur

Aerts HJWL, Velazquez ER, Leijenaar RTH et al (2014) Decoding tumour phenotype by noninvasive imaging using a quantitative radiomics approach. Nat Commun 5:4006
Article CAS Google Scholar
Balakrishnan G et al (2019) Voxelmorph: a learning framework for deformable medical image registration. IEEE Trans Med Imaging 38(8):1788–1800
Article Google Scholar
Bishop C (2006) Pattern recognition and machine learning
Google Scholar
Breiman L (2001) Random forests. Mach Learn 45(1):5–32
Article Google Scholar
Chaitanya K, Karani N, Baumgartner CF, Becker A, Donati O, Konukoglu E (2019) Semi-supervised and Task-Driven Data Augmentation. In: International Conference on Information Processing in Medical Imaging. Springer, Cham, S 29–41
Chapter Google Scholar
Coifman RR, Lafon S (2006) Diffusion maps. Appl Comput Harmon Anal 21(1):5–30
Article Google Scholar
Cox DR (1972) Regression models and life-tables. J Royal Stat Soc Ser B Methodol 34(2):187–202
Google Scholar
Donohue MC, Jacqmin-Gadda H, Le Goff M, Thomas RG, Raman R, Gamst AC, Beckett LA, Jack CR, Weiner MW, Dartigues J‑F (2014) Estimating long-term multivariate progression from short-term data. Alzheimers Dement 10:400–S410
Article Google Scholar
Fishbaugh J, Gerig G (2019) Acceleration controlled diffeomorphisms for nonparametric image regression. 2019 IEEE 16th International Symposium on Biomedical Imaging (ISBI 2019), Venice, S 1488–1491
Google Scholar
Hastie T, Rosset S, Zhu J, Zou H (2009) Multi-class adaboost. Stat Interface 2(3):349–360
Article Google Scholar
Hofmanninger J, Langs G (2015) Mapping visual features to semantic profiles for retrieval in medical imaging. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, S 457–465
Google Scholar
Hofmanninger J, Krenn M, Holzer M, Schlegl T, Prosch H, Langs G (2016) October. Unsupervised identification of clinically relevant clusters in routine imaging data. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, S 192–200
Google Scholar
Längkvist ML, Karlsson L, Loutfi A (2014) Pattern recognition letters. Pattern Recognit Lett 42(C):11–24
Article Google Scholar
Langs G, Röhrich S, Hofmanninger J, Prayer F, Pan J, Herold C, Prosch H (2018) Machine learning: from radiomics to discovery and routine. Radiologe 58(1):1–6
Article CAS Google Scholar
LeCun Y, Bengio Y (1995) Convolutional networks for images, speech, and time series. Handb Brain Theory Neural Netw 3361(10):1995
Google Scholar
Li D, Iddi S, Thompson WK, Donohue CM (2017) Bayesian latent time joint mixed effect models for multicohort longitudinal data. Stat Methods Med Res 00:1–11. https://doi.org/10.1177/0962280217737566
Article Google Scholar
Licandro R, Langs G, Kasprian G, Sablatnig R, Prayer D, Schwartz E (2016) Longitudinal atlas learning for fetal brain tissue labeling using geodesic regression. In: WiCV Workshop at the IEEE Conference on Computer Vision and Pattern Recogntition (CVPR) Las Vegas
Google Scholar
Licandro R, Hofmanninger J, Perkonigg M, Röhrich S, Weber M‑A, Wennmann M, Kintzele L, Piraud M, Menze B, Langs G (2019) Asymmetric cascade networks for focal Bone lesion prediction in multiple myeloma. International Conference on Medical Imaging with Deep Learning (MIDL), London (https://arxiv.org/abs/1907.13539)
Google Scholar
Lorenzi M, Ziegler G, Alexander DC, Ourselin S (2015) Efficient gaussian process-based modelling and prediction of image time series. In: International Conference on Information Processing in Medical Imaging. Springer, Cham, S 626–637
Chapter Google Scholar
Lorenzi M, Filippone M, Frisoni GB, Alexander DC, Ourselin S, Alzheimer’s Disease Neuroimaging Initiative (2017) Probabilistic disease progression modeling to characterize diagnostic uncertainty: application to staging and prediction in Alzheimer’s disease. Neuroimage. https://doi.org/10.1016/j.neuroimage.2017.08.059
Article PubMed Google Scholar
Luxburg U (2007) A tutorial on spectral clustering. Stat Comput 17(4):395–416
Article Google Scholar
Marinescu RV, Eshaghi A, Lorenzi M, Young AL, Oxtoby NP, Garbarino S, Crutch SJ, Alexander DC (2019) DIVE: A spatiotemporal progression model of brain pathology in neurodegenerative disorders. Neuroimage 192:166–177
Article Google Scholar
Menze BH, Kelm BM, Splitthoff DN, Koethe U (2011) On oblique random forests. International Conference on Computer Vision.
Book Google Scholar
Niethammer M, Huang Y, Vialard FX (2011) Geodesic regression for image time-series. International Conference MICCAI 2011. Bd. 14(Pt 2), S 655–662
Google Scholar
Pan SJ, Yang Q (2009) A survey on transfer learning. IEEE Trans Knowl Data Eng 22(10):1345–1359
Article Google Scholar
Rasmussen CE, Williams CKI (2006) Gaussian processes for machine learning. MIT Press, Cambridge, USA
Google Scholar
Ravi D, Alexander DC, Oxtoby NP Alzheimer’s Disease Neuroimaging Initiative (2019) Degenerative Adversarial NeuroImage Nets: Generating Images that Mimic Disease Progression. In: Shen D et al (Hrsg) Medical Image Computing and Computer Assisted Intervention – MICCAI 2019. Lecture Notes in Computer Science, Bd. 11766. Springer, Cham
Ross JC, Castaldi PJ, Cho MH et al (2018) Longitudinal modeling of lung function trajectories in smokers with and without chronic obstructive pulmonary disease. Am J Respir Crit Care Med 198(8):1033–1042. https://doi.org/10.1164/rccm.201707-1405OC
Article CAS PubMed PubMed Central Google Scholar
Schiratti J‑B, Allassonniere S, Colliot O, Durrleman S (2015) Learning spatiotemporal trajectories from manifold-valued longitudinal data. Adv Neural Inf Process Syst 28:2404–2412
Google Scholar
Schwartz E, Kasprian G, Jakab A, Prayer D, Schöpf V, Langs G (2016) Modeling Fetal Cortical Expansion Using Graph-Regularized Gompertz Models. International Conference on Medical Image Computing and Computer-Assisted Intervention (S 247–254). Springer, Cham. https://doi.org/10.1007/978-3-319-46720-7_29
Chapter Google Scholar
Singh N, Hinkle J, Joshi S, Fletcher P (2013) A vectormomenta formulation of diffeomorphisms for improved geodesic regression and atlas construction. In: Interna-tional Symposium on Biomedical Imaging (ISBI), IEEE. IEEE, San Francisco, S 1219–1222
Google Scholar
Smith L (2002) A tutorial on principal components analysis
Google Scholar
Snell J, Swersky K, Zemel R (2017) Prototypical networks for few-shot learning. Adv Neural Inf Process Syst 30:4077–4087
Google Scholar
Vinyals O, Blundell C, Lillicrap T, Wierstra D (2016) Matching networks for one shot learning. In: Advances in neural information processing systems, S 3630–3638
Google Scholar
Wang X et al (2017) Chestx-ray8: hospital-scale chest x‑ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In: Proceedings of the IEEE conference on computer vision and pattern recognition, S 2097–2106
Google Scholar
Weiss K, Khoshgoftaar TM, Wang DD (2016) A survey of transfer learning. J Big Data 3(1):9
Article Google Scholar

Download references

Funding

Open access funding provided by Medical University of Vienna. Parts of this work were funded by the EU H2020 Grant Nr. 780495 (BigMedilytics) and Grant Nr. 765148 (TRABIT), the Austrian Science Fund FWF Grant Nr. I2714-B31, and the Vienna Business Agency WAW Grant Nr. 1745015 (TeTRIS).

Author information

Authors and Affiliations

Universitätsklinik für Radiologie und Nuklearmedizin, Computational Imaging Research Lab, Medizinische Universität Wien, Währinger Gürtel 18–20, 1090, Wien, Österreich
Georg Langs, Roxane Licandro, Johannes Hofmanninger, Matthias Perkonigg, Mario Zusag, Sebastian Röhrich, Daniel Sobotka & Helmut Prosch
Universitätsklinik für Radiologie, Universitätsklinikum Bonn, Bonn, Deutschland
Ulrike Attenberger
Computer Vision Lab, Institute of Visual Computing and Human-Centered Technology, Technische Universität Wien, Favoritenstrasse 9–11, Wien, Österreich
Roxane Licandro

Authors

Georg Langs
View author publications
You can also search for this author in PubMed Google Scholar
Ulrike Attenberger
View author publications
You can also search for this author in PubMed Google Scholar
Roxane Licandro
View author publications
You can also search for this author in PubMed Google Scholar
Johannes Hofmanninger
View author publications
You can also search for this author in PubMed Google Scholar
Matthias Perkonigg
View author publications
You can also search for this author in PubMed Google Scholar
Mario Zusag
View author publications
You can also search for this author in PubMed Google Scholar
Sebastian Röhrich
View author publications
You can also search for this author in PubMed Google Scholar
Daniel Sobotka
View author publications
You can also search for this author in PubMed Google Scholar
Helmut Prosch
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Georg Langs.

Ethics declarations

Interessenkonflikt

G. Langs, U. Attenberger, R. Licandro, J. Hofmanninger, M. Perkonigg, M. Zusag, S. Röhrich, D. Sobotka und H. Prosch geben an, dass kein Interessenkonflikt besteht.

Für diesen Beitrag wurden von den Autoren keine Studien an Menschen oder Tieren durchgeführt. Für die aufgeführten Studien gelten die jeweils dort angegebenen ethischen Richtlinien.

Rights and permissions

Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Reprints and permissions

About this article

Cite this article

Langs, G., Attenberger, U., Licandro, R. et al. Maschinelles Lernen in der Radiologie. Radiologe 60, 6–14 (2020). https://doi.org/10.1007/s00117-019-00624-x

Download citation

Published: 08 January 2020
Issue Date: January 2020
DOI: https://doi.org/10.1007/s00117-019-00624-x

Schlüsselwörter

Keywords