Neuronale Netze manifestieren sich dem Menschen gegenüber als Blackbox. Sie berechnen ihre Resultate aufgrund von Millionen von Parameterwerten, die zuvor in einem oftmals tagelangen Rechenprozess unter Miteinbezug von zehntausenden durch Menschen annotierten Bildern, Texten oder anderen Daten festgelegt wurden. Zu Recht stellt sich dabei die Frage, was ein neuronales Netz nun tatsächlich gelernt hat, wie es zu einem bestimmten Resultat kommt und inwiefern sich dieses gegenüber menschlichen Experten rechtfertigen oder gegenüber Laien erklären lässt. Handelt es sich bei der Anwendung um eine optische Entriegelungsfunktion einer Katzentür, so sind die meisten Kunden durchaus gewillt, diese Intransparenz zu akzeptieren. Interessanterweise stimmt diese Aussage sogar für höchst sicherheitsrelevante Systeme. Vielleicht nutzen auch Sie die Smartphone-Gesichtserkennung für den Zugriff auf Ihre höchst privaten Bilder, Nachrichten oder Passwörter und vertrauen damit einem neuronalen Netz, dessen erlerntes Wissen sich nicht einmal seinen Entwicklern erschließt.
Weitaus differenzierter gestaltet sich diese Beziehung in medizinischen Anwendungen. Wir können zwar die Fehlerrate von neuronalen Netzen auf klinisch validierten und repräsentativen Testdaten erheben, in Wettbewerben mit menschlichen Fachexperten vergleichen, darauf hinweisen, dass neuronale Netze Dutzende von Diagnosen pro Sekunde reproduzierbar liefern und sich als medizinischer Service in Smartphone-Apps über die Welt verteilen lassen. Es bleibt zu Recht die Frage nach der Erklärbarkeit. Explainable Artificial Intelligence (XAI) ist damit auch eines der derzeit aktivsten Forschungsfelder in der künstlichen Intelligenz. Neben der Modellkomplexität ist diese Intransparenz der Tatsache geschuldet, dass neuronale Netze nur Korrelationen berechnen, jedoch keine Kausalitätsbeziehung ableiten können. Erste Ansätze basieren auf Visualisierungstechniken, die auf dem Originalbild die Bereiche mit dem stärksten Einfluss auf die Klassifizierung hervorheben. Die Abb. 4 zeigt ein dermatoskopisches Bild, für das ein Deep-Learning-Modell eine Wahrscheinlichkeit von 81,6 % für die Diagnose „basal cell carcinoma“ und 4,5 % für „melanocytic nevus“ prognostiziert. Die beiden Wärmebilder zeigen, welche Bildbereiche die entsprechenden Diagnosen stützen.
XAI ist eines der derzeit aktivsten Forschungsfelder in der künstlichen Intelligenz
Weiterführende Ansätze trainieren hierarchische Modelle, die z. B. auf einer dermatoskopischen Aufnahme zuerst differenzialdiagnostische Merkmale wie „pigment network“, „streaks“, „globules“ oder „milia-like cyst“ identifizieren und erst danach eine Diagnose ableiten. Damit benötigt dieser Ansatz aber auch eine hinreichende Menge von auf dieser Granularität annotierten Trainingsdaten, und damit steigt unweigerlich der Aufwand in der Datenbeschaffung. Inspiriert durch den klinischen Alltag und befähigt durch die erstaunlichen Fortschritte in der Deep-Learning-basierten Textgenerierung soll sich die modernste Form der künstlichen Intelligenz nicht mehr nur mit der Voraussage der wahrscheinlichsten Diagnose begnügen, sondern dazu gleich einen medizinischen Bericht zu Händen des menschlichen Arztes verfassen. In der Medizin fehlen dazu aktuell noch die nötigen Trainingsdaten, jedoch hat Facebook Research bereits gezeigt, dass neuronale Netze von einer Fotoaufnahme eines Gerichts das dazu passende Kochrezept verfassen können [21].
Die zentralste Herausforderung überhaupt ergibt sich aus dem beinahe unstillbaren Datenhunger moderner Deep-Learning-Modelle. Je mehr Parameter ein Modell hat, desto grösser ist seine Lernkapazität. Folglich werden mit immer mehr Rechenressourcen immer größere Modelle trainiert zum Preis eines immer weiter ansteigenden Datenbedarfs. Gerade in der Medizin ist das verfügbare Bildmaterial jedoch beschränkt, sei es aufgrund von seltenen Erscheinungen, Datenschutzaspekten, besonders aber aufgrund der mangelnden Verfügbarkeit menschlicher Experten zur Annotation von Trainingsdaten. Somit war es denn auch keine algorithmisch-mathematische Erkenntnis, die den wichtigsten und eingangs bereits erwähnten Durchbruch hinsichtlich Industrialisierbarkeit von Deep-Learning-Modellen ermöglichte, sondern ein brillanter und auf viel Intuition beruhender technischer Kniff. Frühe Schichten in neuronalen Netzen lernen einfache Bildstrukturen, spätere Schichten kombinieren diese zu komplexen Merkmalen und leiten schlussendlich eine Wahrscheinlichkeitsverteilung über mögliche Kategorien daraus ab. Der Kniff besteht nun darin, dass zum Erlernen einfacher Bildstrukturen wie Linien und Kanten gar keine medizinischen Daten benötigt werden. Vielmehr lassen sich diese Modelle auf riesigen, allgemeinen Bilddatenbanken einmalig vortrainieren. Dann werden die Parameter der frühen Schichten eingefroren und nur die späteren Schichten auf einem domänenspezifischen Datensatz nochmals trainiert, wobei durch die damit erreichte Reduktion der Parameter sehr viel weniger Bilder und Rechenleistung benötigt werden. Wir bezeichnen dieses Vorgehen als Transfer Learning. Google, Facebook und Co. stellen mittlerweile ganze Bibliotheken von vortrainierten Modellen zur Verfügung, für deren Training die wenigsten Forschungsinstitutionen überhaupt über die nötige Rechenleistung verfügen würden und die wir nun mit wenigen Tagen Aufwand und überschaubaren Datenmengen anwendungsspezifisch anpassen können.