Einleitung

Das derzeit rasch wachsende Gewicht datenanalytischer Verfahren sowie von KI-Tools lässt Schwierigkeiten in der forschungsethischen Begutachtungspraxis entstehen: Man benötigt in der Ethikbegutachtung die Expertise mehrerer Disziplinen. In der Medizin (wie in ähnlicher Weise auch in anderen Fächern) wächst zum einen die Bedeutung informatischer Sachverhalte hinsichtlich forschungsethisch relevanter Details ganz generell – Aspekte des Datenmanagements, Schnittstellen zu kommerziellen Softwareanbietern, Anonymisierungs- und Pseudonymisierungsverfahren, Funktionsweisen von Algorithmen u. a. m. müssen betrachtet werden. Schon das erfordert eine Kultur interdisziplinärer Begutachtung, auf welche medizinische Ethikkommissionen nicht gut eingestellt sind. Mit datengetriebenen Analysen (Big Data) sowie mit KI-Verfahren (länger schon etwa Machine Learning, jetzt aber auch generativer KI) hat sich zum anderen die Lage speziell hinsichtlich – spätestens, wenn es um Produktentwicklung geht – nun auch gesetzlich geforderter Gütekriterien verschärft: Biases und Diskriminierungsgefahren sollten evaluiert werden können, „Black Box“-Probleme kommerzieller Software-Tools gilt es zu beurteilen, Tracking und Datenabflüsse werden brisanter. In einem Klima „wilder“ Innovation in der forschenden Informatik (wir nutzen den pointierten Ausdruck „wild“ in Anlehnung an Latour 1994, 1996Footnote 1), sind die Implikationen digitaler Werkzeuge aus der Sicht von Anwendungsdomänen dabei zunehmend schwerer zu erfassen. Was internationale Forschungscommunities für akzeptabel halten, wandelt sich schnell und entspricht keineswegs immer in der EU bzw. Deutschland geltenden Standards.Footnote 2 Seit neuestem sind zudem auch Dual Use-Fragen dringlicher geworden (vgl. DFG 2023). Im Bereich von Software und Datenströmen können solche Fragen besonders schwer zu beurteilen sein.

Medizinische Forschungsethik steht vor dem Hintergrund der stetig zunehmenden Möglich- wie Wirklichkeiten der Datenverarbeitung vor der Herausforderung, entsprechende Forschungsvorhaben ethisch zu evaluieren. Sollen sich medizinische Ethikkommissionen nun also schrittweise zu allumfassend kompetenten – nennen wir es: Superkommissionen entwickeln, die alle genannten Aspekte abfragen und mitbegutachten? Dies würde auf die Schaffung von vornherein interdisziplinär zusammengesetzter Kommissionen hinauslaufen. Ein alternativer Lösungsansatz für die Organisation der forschungsethischen Begutachtung datenintensiver medizinischer Forschung könnte die verstärkte Kooperation von medizinischen mit nichtmedizinischen Ethikkommissionen sein. Ziel dieses Beitrages ist es, beide Optionen vorzustellen und zu diskutieren.

Ergänzen möchten wir unsere Überlegungen zur Organisation von Ethikkommissionen durch Vorschläge zu – für die Forschung geeigneten – Kriterien der Ethikbegutachtung von anwendungsnaher datenintensiver Forschung (etwa mit Big Data- oder KI-Methoden). Diese sollten in erster Linie der Qualitätssicherung von Forschung dienen, gerade auch angesichts der sachlich notwendigen Unterscheidung zwischen der ethischen Bewertung von Big Data- oder KI-Produkten und der forschungsethischen Bewertung von Big Data- und KI-Projekten. Als Beispiel wird die Handreichung zur forschungsethischen Begutachtung von KI-Forschungsprojekten des hessischen Zentrums verantwortungsbewusste Digitalisierung vorgestellt.

Zur Bedeutung informatischer Expertise für forschungsethische Begutachtungen – auch in der Medizin

Forschungsanstrengungen im Bereich datengetriebener Medizin und digitaler Gesundheitsversorgung versprechen zahlreiche Innovationen und Verbesserungen für das Gesundheitswesen (WHO 2021; Acatech 2020; Plattform Lernende Systeme 2019). Durch die Nutzung von KI werden etwa in den Bereichen der personalisierten Medizin, bei der Unterstützung von Diagnosen und bei sektorübergreifenden und vernetzten Behandlungsformen, aber auch genereller bei der Optimierung von Abläufen wie etwa der Kommunikation zwischen medizinischem Personal und Patient:innen oder dem Entgegenwirken medizinischer Unterversorgung große Chancen auf Verbesserung gesehen (Beck et al. 2023; Budde 2020). Datengetriebene Medizin kann darüber hinaus bei der Befundung seltener Krankheiten unterstützen oder zur bestmöglichen Auswahl von Patient:innen für eine potenzielle Teilnahme an klinischen Studien beitragen (Caliebe et al. 2019). In einigen klinischen Anwendungsfeldern sind Systeme zur Unterstützung von Entscheidungen zum Teil schon erprobt. Dazu gehören die Bereiche der Diagnostik (etwa für die Auswertung radiologischer Befunde oder von Literaturrecherchen), der Therapie (für die präoperative Therapieplanung und die Unterstützung intraoperativen Vorgehens durch Verbesserung endoskopischer Navigation), der klinischen Prognostik (z. B. zur Risikoabschätzung bezüglich unerwünschter Zwischenfälle oder Überlebenswahrscheinlichkeiten) und bei der Prädikation von Krankheitsrisiken bei gesunden Menschen (für die Einteilung und erläuternde Beispiele vgl. ZEKO 2021).

Den Chancen stehen aber auch vieldiskutierte Risiken gegenüber. Für einen generellen Überblick und spezifische Handlungsempfehlungen zur Medizin als einem von vier analysierten Sektoren siehe (Deutscher Ethikrat 2023), für eine Übersicht zu durch KI in der Medizin induzierten Haftungsfragen (Katzenmeier 2021). Schon Studien mit großen Datenmengen und diversen Datentypiken bringen hinsichtlich wissenschaftlicher Standards viele Herausforderungen mit sich (Strech 2018). KI-Technologien wie Maschinelles Lernen, Neuronale Netze oder auf großen Sprachmodellen aufsetzende Formen generativer KI verschärfen die Problematik, insofern sie das Problem der Opazität in die Ergebnisfindung einführen. Bei der Nutzung entsprechender Anwendungen sind Transparenz und Nachvollziehbarkeit der Datenverarbeitung und des Entscheidungsweges nicht gegeben. Neben der „technischen“ Opazität kann eine mangelnde Transparenz von KI-Anwendungen im medizinischen Bereich auch dadurch begründet sein, dass die zugrundliegenden Algorithmen durch Geschäftsgeheimnisse oder geistiges Eigentum geschützt sind.Footnote 3 Darüber hinaus ist zu bedenken, dass KI-Anwendungen oftmals privatwirtschaftlich entwickelt und finanziert werden und die Entwickelnden dem ärztlichen Berufsethos nicht unbedingt unterliegen.

Vor dem Hintergrund der rasanten Entwicklungen hat etwa die Zentrale Ethikkommission bei der Bundesärztekammer eine Stellungnahme zu IT-basierten Systemen zur Entscheidungsunterstützung bzw. Clinical Decision Support Systems abgegeben (ZEKO 2021). Darin werden sieben Aspekte benannt, unter denen sich ethische Herausforderungen des Medizinsektors durch KI-Anwendungen beschreiben lassen. (1) Vertrauen muss demnach in zumindest dreifacher Hinsicht möglich sein: mit Blick auf die Reliabilität professionell genutzter KI-Systeme, in der Beziehung von medizinischem Personal und Patient:innen und übergeordnet schließlich in einem Systemvertrauen gegenüber dem medizinischen Sektor insgesamt. (2) Verantwortung müssen Ärzt:innen übernehmen können für den fachgerechten Umgang mit Medizingeräten und die kritische Prüfung von Vorschlägen („Automation Bias“) und sie obliegt höherstufig Einrichtungsträgern für die Sicherheit, Validierung und Diskriminierungsfreiheit von eingesetzten Systemen. (3) Die ärztliche Autonomie ist durch den schon genannten Automation Bias oder die unzureichende Reaktion auf Warnsignale („Alert Fatigue“) bedroht und Verschiebungen in der Systemnutzung von der Assistenz bei Entscheidungen zur Entscheidungsübernahme können zu Formen der Unachtsamkeit und verminderter Kontrolle führen. In den Bereich der Autonomie von Ärzt:innen gehört dabei höherstufig auch das Kompetenzfeld der Datenliteracy, zu dem beispielsweise eine Sensibilität gegenüber sich selbst erfüllenden Vorhersagen gehört, die durch KI-Systeme induziert sind. Das kann etwa dann der Fall sein, wenn auf der Basis schlechter Prognosen eine palliative statt einer kurativen Behandlung erfolgt und die ursprüngliche Datenbasis dadurch weiter bestätigt wird (Challen et al. 2019). Weniger autonome Entscheidungen von Ärzt:innen wirken sich auch auf die Standards der Patient:innenautonomie aus.Footnote 4 (4) Kommunikation und Empathie zwischen medizinischem Personal und Patient:innen sind wichtige Faktoren für Wohlergehen und Gesundheit. Durch eine mit stärker automatisierten Abläufen einhergehende Vernachlässigung der Beziehungsebene zugunsten der Präsentation vermeintlich rein sachlicher Informationen könnten diese zwischenmenschlichen Interaktionen aus z. B. ökonomischen Gründen eine Zurücksetzung erfahren. (5) Auch ärztliches Erfahrungswissen ist wesentlich für die Ausübung der Heilkunde, zu der auch die Beurteilung spezifischer Lebensumstände gehört, und kann durch die Aufwertung maschinenlesbarer Daten an Bedeutung verlieren. (6) Diskriminierungsrisiken bestehen aufgrund der Bedeutung von Trainingsdaten und der Möglichkeit, dass diese fehler- oder lückenhaft sind oder falsch verarbeitet, z. B. falsch klassifiziert werden. In Gesellschaften verankerte Formen struktureller Diskriminierung und Stigmatisierung können sich so auch bei medizinischen Behandlungen auswirken. (7) Datensouveränität und Privatheit schließlich sind durch die Möglichkeiten von KI-Systemen ebenfalls herausgefordert, wobei Gesundheitsdaten nach Art. 9 Abs. 1 der Datenschutzgrundverordnung aufgrund ihrer Sensibilität der höchsten Datenschutzstufe unterliegen und sie zudem durch das Sozialgesetzbuch, v. a. §§ 291 ff. SGB V, und die ärztliche Schweigepflicht geschützt sind (Koeppe 2020). Der Zuwachs von Gesundheitsdaten durch die Nutzung von KI-Anwendungen im Gesundheitswesen stellt nicht zuletzt den Datenschutz vor neue Herausforderungen: So entstehen Daten beispielsweise durch die Nutzung von Wearables oder KI-Applikationen auf dem Smartphone, aber auch schon bei Einkäufen oder Stichwortsuchen im Internet werden automatisch Daten produziert, die Einschätzungen über den Gesundheitszustand oder zum Teil sogar medizinische Vorhersagen erlauben (Deutscher Ethikrat 2017).

Die genannten Aspekte sowie die Hinweise zu aktuell diskutierten Haftungsfragen und zur Opazität, aber etwa auch die Einstufung des Medizinsektors als Hochrisikobereich im AI Act (s. unten) zeigen, dass die medizinische Praxis und insbesondere die medizinische Forschung aktuell – jenseits der bekannten Problematiken des klassischen Datenschutzes – auch vor daten- und forschungsethischen Herausforderungen steht, wenn sie sich Big Data- und KI-Verfahren zunutze machen will. Diese Lage wollen wir im nächsten Abschnitt illustrieren.

Beispiele für forschungsethische Herausforderungen durch datengetriebene Forschung in der Medizin

Die Arbeit von Forschungs-Ethikkommissionen ist aus guten Gründen vertraulich, das Praxiswissen aus der Kommissionsarbeit findet so nicht hinreichend zurück in diesbezügliche Forschung. Auch wir stützen uns auf anekdotische Evidenz aus nur wenigen, selbst erlebten Fällen. Drei von diesen stellen wir hier idealtypisch verfremdet dar, so dass sie in ihrer Typik fassbar, aber nicht rückverfolgbar sind.

  • Im Fall A handelt es sich um ein Verbundvorhaben, das ein zu entwickelndes digitales Medizinprodukt im Zuge des Entwicklungsprozesses mehrfach (denn die Optimierung der Lösung erfordert mehrfache Erhebung vergleichbarer Daten) an vulnerablen Patienten testen will. Zum einen wird die informatische Dimension (KI-Mustererkennung in großen Datenmengen) optimiert, zum anderen werden die erhobenen Daten medizinisch ausgewertet, um die durch das Produkt induzierten Therapieeffekte messbar zu machen (also auch für den gewählten Ansatz überhaupt erst hinreichend präzise zu modellieren).

  • Im Fall B sollen ebenfalls in einem interdisziplinären Verbund große Datenmengen aus psychiatrischen Therapiegesprächen automatisiert ausgewertet werden. Auch hier ist ein medizinisches Interesse leitend, die anfallenden Sprachmuster mit Diagnosen zu korrelieren. Die sprachtechnologische Seite der Forschung verfügt jedoch ebenfalls noch nicht über medizinisch anerkannte Standards und ist also Teil des Experiments.

  • Im Fall C sollen informatische Standardwerkzeuge kommerzieller Softwareanbieter eingesetzt werden, um verknüpft Telekommunikationsdaten zu erheben, während zugleich qualitative Interviews stattfinden sollen, die sich unter anderem auf medizinische Sachverhalte und die Versorgungslage in Katastrophen‑/Krisenregionen beziehen. Die verknüpften Daten werden softwaregestützt umfassend (also auch hinsichtlich der Metadaten zur Einwahl) sowie in medizinischer Hinsicht evaluiert, um bislang noch nicht beschriebene Formen der improvisierten Krisenkommunikation erstmals präzisier zu beschreiben.

In allen drei Fällen hat man es – nur darauf kommt es im Weiteren an – mit Forschungen zu tun, in welchen Medizin und digitale Methoden „auf Augenhöhe“ innovativ zusammenkommen – soll heißen: so, dass auch der informatische Part der Forschung mittels einer noch nicht standardisierten Methode zum Ergebnis beiträgt. Informatische, datenwissenschaftliche und medizinische Forschungsfragen sind dabei jeweils so miteinander verknüpft, dass der Erfolg der Vorhaben nur aus der gemeinsamen, wechselseitig voneinander abhängenden Forschung resultieren kann. Im Fall C besteht der informatische Beitrag zwar nur aus der Zulieferung von Telekommunikations-Standarddaten. Gleichwohl ist der Big Data-gestützte Zugang zu den untersuchten ausnahmsweisen Formen des Kommunizierens ein Schlüssel zur Beantwortung der (explorativ gehaltenen) Forschungsfrage. Klar ist, dass in allen drei Fällen Ethikfragen berührt sind.Footnote 5 Jeweils stellt sich also die Frage, wie man hierzu eine forschungsethische Begutachtung organisiert.

In den Fällen A und B handelt es sich um interdisziplinäre Verbundvorhaben, so dass es ein gangbarer Weg sein kann, die Forschungsbeiträge der medizinischen und der informatischen Partner getrennt zu beschreiben, um auf dieser Basis von einer medizinischen und einer nichtmedizinischen („technisch“ kompetenten) Ethik-Kommission Voten zu jeweils einem Teil der geplanten Forschungen zu erbitten. Eine solche Doppelbegutachtung (ggf. in nachrichtlicher Kenntnis auch jeweils des fachlich anderen Antragsteils) verspricht belastbare Ergebnisse, aber die Nachteile liegen auf der Hand: Der Aufwand für die Antragsteller wie auch die Kommissionen ist hoch, verbleibende „Restfragen“ zur jeweils anderen Domäne können zusätzliche Kommunikationsschleifen erforderlich machen, die Voten kommen bei den Forschenden letztlich „additiv“ zusammen (und können sich in Details sogar widersprechen), und auch das Monitoring des Gesamtvorganges sowie die Verantwortlichkeit der beteiligten Kommissionen gegenüber den beteiligten Institutionen werden fragmentiert. Eine „ganzheitliche“ Würdigung fehlt – oder ließe sich erst durch eine Zusatzvereinbarung zwischen den beteiligten Ethikkommissionen herstellen, der zufolge eines der beiden Verfahren das „führende“ und das andere lediglich das „zuarbeitende“ ist. In der Praxis sorgen alle erforderlichen Klärungsschritte für eine Doppelbegutachtung nicht zuletzt für eine zeitliche Verlängerung der Verfahren.

In Fällen vom Typ des Falles C muss vor allem eine datenintensive Methode (mitsamt einer möglicherweise kritischen Erhebungssituation) forschungsethisch bewertet werden, der im engeren Sinne medizinische Part ist nachrangiger Art (auf den Daten, die nicht ohne Weiteres „klinische“ sind, ließen sich auch sozialwissenschaftliche oder psychologische Auswertungen durchführen). Gleichwohl wird man den Begutachtungsbedarf nicht ohne Weiteres auf Informatik-Expertise beschränken, sondern eine – sagen wir: sozialmedizinische Kompetenz beiziehen wollen. Infrage käme die Einholung eines Gutachtens oder die Beiziehung einer Person mit einschlägiger Qualifikation durch eine nichtmedizinische Kommission, die den Fall bewertet. Erneut liegen gewisse Nachteile auf der Hand: Die Komplexität der eingesetzten Datenerhebung- und Auswertung – kombiniert mit einer eben doch auch medizinisch relevanten Forschungsfrage – sprengt den Rahmen eines entweder „medizinischen“ oder aber „informatisch“ zu bewertenden Sachverhalts. Drohen in den Falltypen A und B sachlich überlappende Voten, kann der Falltyp C zu „Lücken“ in der Begutachtung führen: Potenziell problematische Aspekte (etwa Mängel an den Bedingungen einer informierten Einwilligung oder Sicherheitsprobleme, die aufgrund der Datenverknüpfung für die Versuchspersonen entstehen) werden erst sichtbar, wenn man tatsächlich einen von vornherein „interdisziplinären“ Blickwinkel wählt (vgl. auch Beck et al. 2023).

Ethikrichtlinien und -handreichungen

Sucht man nach orientierenden Ethikrichtlinien oder Handreichungen für die Schnittstelle von Medizin und Informatik, zeigt sich, dass das einfache Bild von zwei Disziplinen, die sich in Fragen der Forschungsethik „auf Augenhöhe“ begegnen, auch in dieser Hinsicht korrekturbedürftig ist. Während die Medizin in Deutschland seit Jahrzehnten über ein flächendeckendes Netz von für klinische Forschungsprojekte zuständigen, vernetzten Ethikkommissionen sowie eine dynamische Welt von Leitlinien und Verfahrensstandards verfügt (die ihrerseits von Ethikgremien entwickelt werden), gibt es Vergleichbares in der (bzw. für die) Informatik nicht. Das Fach besitzt in Deutschland im Grunde gar keine eigene forschungsethische Tradition der Begutachtung und Qualitätssicherung.

Es ließe sich argumentieren, dass dergleichen im Sinne einer „separaten“ Säule vielleicht auch wenig hilfreich wäre, da die Belange der Anwendungsdomäne (z. B. Medizin) forschungsethisch von so großem Gewicht sind, dass die Fachkompetenz letztlich auf dieser Seite zu liegen habe. Uns sind jedoch auch keine Vorschläge etwa der Gesellschaft für Informatik bekannt, die auf ein Angebot der regulären Mitwirkung der Informatik in medizinischen Ethikbegutachtungen hinauslaufen würde. Etwas anders stellt sich die Lage lediglich im Feld expliziter Bindestrich-Informatiken dar. So gibt es seit 2020 immerhin einen Mustertext zur Einwilligung in Big Data-Analysen auf pseudonymisierten Patientendaten, den die Deutsche Medizininformatik-Initiative erarbeitet hat (Medizininformatik-Initiative 2020).Footnote 6

Die oben skizzierten Fälle A, B und C zeigen freilich, dass es für ein Ethikvotum mit einem standardisierten Einwilligungsdokument nicht getan ist – wie überhaupt der Datenschutz nicht die einzige Bewertungsdimension ist, derer es in komplexen Fallkonstellationen bedarf. Derzeit ist also schon organisatorisch die Begutachtung von datengetriebenen und KI-Forschungsprojekten, sofern es sich nicht um rein medizinisch motivierte Datenanalysen mittels als Methode in der Medizin bereits eingeführter digitaler Analysewerkzeuge, sondern eben um Big Data- oder KI-Entwicklung und damit (auch) informatische Forschung handelt, an Forschungseinrichtungen (Universitäten, Außeruniversitären Forschungseinrichtungen, Klinika) schwierig.Footnote 7

Im Entwurf wie in der abschließenden Fassung der KI-Verordnung der Europäischen Kommission wird der Bereich der medizinischen Forschung und Versorgung als eine der Domänen eingestuft, die per se als hoch riskant zu betrachten sind (EU 2021, 2024).Footnote 8 Folgt daraus für die Forschungsethik, dass F+E-Projekte informatischer Prägung gar nicht auf medizinisch geprägten Anwendungsfällen durchgeführt werden sollten? Diese Schlussfolgerung wäre eine weitgehende und wohl nicht nur aus informatischer Sicht kontraintuitiv.Footnote 9

Organisatorische Ansätze zur Integration informatischer Expertise in forschungsethische Prozesse

Tatsächlich ist die Informatik freilich bislang ein Fach, das – jedenfalls in Deutschland – weder eine ingenieursethische noch eine längere forschungsethische Tradition besitzt.Footnote 10 Die Ethikleitlinien der Gesellschaft für Informatik sind alt und richten sich in recht allgemeiner Form auf Technikfolgenfragen. Der Duktus ist der einer Berufsethik, die in einem sehr allgemeinen Sinne „Verantwortung“ einfordert. Begriffe wie „Erklärbarkeit“ oder „Verstehbarkeit“ oder auch „Transparenz“ kommen in der Diskussion um Machine Learning-Verfahren seit einigen Jahren hinzu (Gehring 2023).

Forschungsethik, wie sie seit Ende der 1970er-Jahre an Hochschulen und Forschungseinrichtungen durch Ethikkommissionen praktiziert wird, wendet daher – wo Informatikforschung Ethikvoten anfordert – transdisziplinäre Kriterien an. Betrachtet werden z. B. mögliche illegitime oder ambivalente Forschungsziele, unlautere Forschungsmethoden oder Verletzungen guter wissenschaftlicher Praxis. Unter besonderer Beobachtung steht die Forschung an und mit Menschen, insbesondere Kindern sowie anderen vulnerablen Gruppen, sowie die Forschung an Tieren und Forschungen mit personenbezogenen Daten. Forschungsethik achtet aber auch auf Fairness in der Fachkonkurrenz und hat ein Auge auf mögliches Fehlverhalten (inkorrekter Ausweis der Autorschaft, Manipulationen, Plagiate), auf Fürsorgepflichten für den wissenschaftlichen Nachwuchs sowie auf Angemessenheit und Kenntnis von Methoden (ein Musikethnologe sollte keine Teilchenbeschleunigerdaten auswerten, eine Kernphysikerin keinen psychiatrischen Heilversuch anleiten).

Historisch gehen Forschungs-Ethikkommissionen in Deutschland auf die Bereiche der klinischen Pharmaforschung und der biomedizinischen Grundlagenforschung zurück; von hier aus haben sie sich in der Medizin ganz generell etabliert.Footnote 11 Neben psychologischen und sozialwissenschaftlichen Ethikkommissionen haben sich namentlich an Universitäten inzwischen auch sogenannte „interdisziplinäre“ Ethikkommissionen etabliert. Rein informatische Ethikkommissionen sind uns – trotz der inzwischen stürmischen Entwicklung dieses Faches – nicht bekannt. Allerdings ist die Ethikrelevanz im Bereich der datengetriebenen Großforschung außeruniversitärer Einrichtungen erkannt und es werden Ethik-Maßnahmen etabliert. So hat im Jahr 2021 etwa das Forschungszentrum Jülich eine Ethikkommission eingerichtet, die auch datenanalytische und die Simulation umfassende Expertise umfasst, und das Human Brain Project scheint zwar keine Ethikkommission, aber ein Ethics Advisory Board zu besitzen (Human Brain Project 2023).Footnote 12

Für Studien im medizinischen Bereich sieht der für Deutschland maßgebliche Arbeitskreis medizinischer Ethikkommissionen (AKEK) die sogenannte koordinierte Begutachtung multizentrischer Verfahren regulär vor (AKEK 2023). Ein Weg der „interdisziplinären“ Begutachtung existiert jedoch nicht, weswegen sich tatsächlich im Einzelfall Fragen der oben genannten Art auftun, also etwa die Frage einer Doppelbegutachtung stellt. Wir haben selbst in zwei Fällen eine solche koordiniert und (mit) durchgeführt: im einen Fall als zeitlich abgestimmte Befassung von zwei Kommissionen auf Basis zweier (zweiteiliger) Anträge, im anderen Fall durch Teilnahme als Gast an der Sitzung einer medizinischen Ethikkommission, die zuvor für den informatischen Part eine schriftliche Expertise zu technischen Aspekten seitens der nichtmedizinischen Ethikkommission erhalten hatte.

Der häufigste Weg, den medizinische Ethikkommissionen wählen, um der Schnittstelle zu informatischen Problemstellungen gerecht zu werden, dürfte jedoch nicht die Befassung einer zweiten Kommission, sondern die Integration von Personen mit medizininformatischer oder sogar „KI“-Expertise in eine medizinische Ethikkommissionen sein. Wir greifen als Beispiel die Ethikkommission des Fachbereichs Medizin der Philipps-Universität Marburg heraus, die ein (im konkreten Fall: humanbiologisch ausgebildetes) Mitglied für „KI-Technologie“ kooptiert hat; der Bereich „KI-Technologie“ wird hier ähnlich wie die Felder „Pflege“ oder aber „Recht“ gleichsam als Nachbargebiet aufgefasst und integriert.Footnote 13 Eine informatische bzw. technische Ethikkommission besitzt die Philipps-Universität (wie die meisten anderen Universitäten) nicht. Psychologische oder sozialwissenschaftliche bzw. erziehungswissenschaftliche Ethikkommissionen fassen Digitalfragen in der Regel noch enger als Frage nach „Methoden“, so dass hier zumeist datenanalytische Methodenfachleute der Fächer, nicht aber Informatik im Sinne von „Technologie“ ins Gremium integriert ist.

Die Alternative einer explizit „interdisziplinär“ zusammengesetzten (und zuständigen) Ethikkommission wird beispielsweise an der Technischen Universität Darmstadt praktiziert. Hier sieht die Satzung u. a. zwei Mitglieder aus den Ingenieurwissenschaften verpflichtend vor, in der Praxis befindet sich unter diesen stets eine Person aus der forschenden Informatik. Digitale Methodenkompetenz aus den Sozialwissenschaften kommt (neben naturwissenschaftlicher, juristischer und philosophischer (Ethik‑)Expertise) als weitere, ebenfalls obligatorische Fachlichkeit hinzu.Footnote 14 Diese Institutionalisierungsform von Forschungsethik stellt auch den Hintergrund unserer eigenen Erfahrungen dar.

Die Vorteile einer von vornherein interdisziplinär zusammengesetzten Kommissionen gegenüber einem engeren Zuständigkeitsbereich, durch welchen Kommissionswissen im Zweifel ergänzt oder kombiniert werden muss, liegen immer dann auf der Hand, wenn Informatikforschung mit andersfachlicher, in der Kommission aber ebenfalls repräsentierter Forschung verzahnt werden muss. Allerdings ist die interdisziplinäre Kommission mit zumeist nur einem medizinisch ausgebildeten sachverständigen Mitglied dezidiert keine medizinische Ethikkommission, weswegen die TU Darmstadt medizinische Forschungsvorhaben regelmäßig an eine medizinische Ethikkommission, die dem AKEK angehört, weiterverweist. Die Integration von Informatik in Ethikbegutachtungen kann in interdisziplinären Kommissionen also gelingen. Die Problemstellung, um die es in diesem Aufsatz geht, die Integration von Informatik und Medizin in die Begutachtung von Projekten, in welchen auch die informatische Seite aktiv forscht, wird aber ebenfalls nicht gelöst.

Fassen wir die Möglichkeiten zusammen, so lauten sie im Falle einer Verfahrensführung durch eine medizinische Forschungsethikkommission: Konsultation und/oder Doppelbegutachtung durch eine (auch) „technische“ Kommission – oder aber Erweiterung im Einzelfall durch externe Gutachtende, Gäste oder andere externe Expertise. Ebenso ist die Abgabe des Falles an eine technische oder interdisziplinäre Kommission denkbar, die dann sicher aber ihrerseits medizinethische Zuarbeiten oder „Amtshilfe“ erbitten wird.

Die Alternativen lauten ansonsten, eine dauerhafte interdisziplinäre Erweiterung der „eigenen“ medizinischen Ethikkommission vorzusehen. Die vielleicht naheliegende Forderung, die Ethikkommissions-„Landschaft“ in Deutschland solle durch eine gesonderte Säule (rein) informatischer Forschungsethikkommissionen ergänzt werden, halten wir aus verschiedenen Gründen nicht für angeraten. Erstens fehlt der Informatik hierzu die (der klassischen Ingenieursverantwortung vergleichbare) Tradition mit den dazugehörigen (etwa „Prüfung“ und Haftung) umfassenden Erfahrungswerten; sie sollte von daher wohlmöglich besser im Wege der Integration in „interdisziplinäre“ Gremien von den Erfahrungen anderer Fachkulturen profitieren. Und zweitens sind eben Forschungsprojekte gerade im Bereich Big Data und KI eher selten „rein“ informatisch. Fast immer sind die Konstellationen interdisziplinär, und also Datendomänen und damit auch Forschungsfragen anderer Fächer involviert.

Zumindest abstrakt scheint es uns klar auf der Hand zu liegen, dass auch Big Data und KI-Forschung sich hier den Zumutungen zu stellen hat, die Forschenden im Bereich der Medizin wie auch des klassischen Engineering längst vertraut sind. Jedwede Kooperationsform zur forschungsethischen Begutachtung datengetriebener oder mittels KI-Verfahren durchgeführter Forschung braucht, nicht nur im Bereich von Medizin und Pharmazie, ein Set von Kriterien, durch das eine Beurteilung zum einen angeleitet wird und das zugleich der Transparenz und Verbindlichkeit von Urteilen über den Einzelfall hinaus dient. Zudem können Kriterienkataloge bei der Konsolidierung forschungsethischer Herausforderungen helfen, insofern sie dem Forschungsstand entsprechend sowohl etablierte Kriterien wie auch offene oder umstrittene Gesichtspunkte erörtern.

Zu vermerken ist, dass inzwischen beispielsweise die DFG tatsächlich verstärkt Ethik-Voten auch für informatisch geprägte Forschungsvorhaben einfordert. Dies entspricht den Vorgehensweisen auch in anderen westlichen Ländern. Allerdings wird augenscheinlich erwartet, dass Ethikkommissionen bei der DFG gestellte Anträge (und nicht eigens die detaillierteren, auf die Belange einer Forschungsethikkommission zugeschnittene Anträge) „ethisch“ prüft.Footnote 15

Kriterien für die forschungsethische Begutachtung datengetriebener Projekte

Mit der stürmischen Entwicklung namentlich von allein auf hinsichtlich möglicher Zwecke noch ungerichteter Mustererkennung angelegter Big Data-Forschung sowie von KI-Experimenten stellen sich neben der Herausforderung, organisatorisch eine angemessene Begutachtungspraxis sicherzustellen, auch Fragen nach – für die Forschung geeigneten – Kriterien einer Ethikbegutachtung von anwendungsnaher (also beispielsweise Echtdaten nutzender) Big Data- und KI-Forschung. Ganz kurz versuchen wir uns auch hierzu an einem praxisnahen Lagebild.

Im Bereich „KI“ wird über die Marktzulassung von KI-Produkten öffentlich breit diskutiert. Reizworte lauten „Risikostufen“, „Diskriminierung“, „Erklärbarkeit“ etc. Interessanterweise strahlt diese Diskussion jedoch nicht wirklich auf den Bereich der Forschungsethik ab.Footnote 16 Ob man (und wie man) mittels KI sowie zu KI-Lösungen forschen sollte, bleibt damit bisher eine Frage, die sich nur anhand von allgemeinen forschungsethischen Kriterien beantworten lässt.

Hierbei kommt zum Tragen, dass KI-Forschung in der Begutachtung insbesondere solche Aspekte von Forschungsethik (oder auch guter wissenschaftlicher Praxis) tangiert, die man als klassische Qualitätssicherung von Forschung verstehen kann. Ein Beispiel ist die Vermeidung von – im Rahmen von KI-Verfahren bekanntlich schwer auszuschließenden – Biases bzw. Diskriminierungen. Zu Forschungszwecken kann ein Bias durchaus hingenommen werden, vielleicht sogar geboten sein (etwa, wenn man über Biases forscht). Umso wichtiger sind aber Gütekriterien der Forschungsarrangements selbst: Ethik muss hier Verfahren der Dokumentation von Datengewinnung, Datenpräparation, Auswertungsdurchläufen, Speicherung und auch der Minimierung unnötiger Forschung an kritischen (z. B. personenbeziehbaren) Daten einfordern.Footnote 17

Ein Beispiel für eine Richtlinie mit Fokus auf die Qualitätssicherung wissenschaftlicher Forschungsprozesse vor dem Hintergrund datengetriebener Möglichkeiten in der Informatik oder aber unter massiver Einbeziehung nicht trivialer algorithmischer Werkzeuge ist die seit 2022 vorliegende Handreichung zur forschungsethischen Begutachtung von KI-Forschungsprojekten, die das hessische Zentrum verantwortungsbewusste Digitalisierung entwickelt hat (ZEVEDI 2022). Wir präsentieren die Handreichung hier kurz in ihren Grundzügen, weil sie das erste Dokument ist, das forschungsethische Kriterien für die Forschung an und mit KI spezifisch für die Begutachtungsprozesse von Ethikkommissionen zusammenstellt. Für Aushandlungsprozesse innerhalb einzelner Ethikkommissionen (gleich welcher der im vorigen Abschnitt diskutierten Zusammensetzungen) bietet sie eine Grundlage, trägt aber auch darüber hinaus im Sinne eines ersten Schrittes (oder Vorschlags) zu einer Konsolidierung forschungsethischer Standards für Deutschland bei.

Die Handreichung führt zunächst knapp in das Themenfeld der Forschungsethik ein und benennt klassische Prüfkriterien der Ethikbewertung von Forschung (also etwa das Verbot körperlicher oder psychischer Schädigung, die Einhaltung der DSGVO oder der Standards guter wissenschaftlicher Praxis). Diese Prüfkriterien gelten auch für KI-Forschungsprojekte. Weil aber „Künstliche Intelligenz“ als Begutachtungsgegenstand einer Ethikbewertung mit einigen Besonderheiten aufwartet, werden zusätzlich spezifische Hinsichten für die Bewertung von KI-Forschungsprojekten aufgeführt:

  • die soziale Eingriffstiefe von Forschungen im Bereich von KI

  • die operativen Besonderheiten von KI als Gegenstand im Forschungsprozess (Dokumentation, Angaben zu Datenbeschaffenheit und Algorithmik, Umgang mit fehlender Reproduzierbarkeit, Nachnutzbarkeit und Forschungsdatenmanagement)

  • die Verwendung proprietärer KI-Tools („Black-Boxing“) sowie die gebotenen Voraussetzungen für eine Verwendung von KI-Tools in nichtinformatischen Disziplinen

  • EU-Konformität im Bereich der Produktentwicklung

  • Dual Use

Die Handreichung wird durch einige weitere Hinweise für Antragsstellende (zu KI-Forschung als Grundlagenforschung, zu Forschungsplanung und den Zeitschienen von forschungsethischen Begutachtungsverfahren, zur Zuständigkeit von Kommissionen an den Einrichtungen der Forschenden und zur Möglichkeit der Vernetzung über das Zentrum verantwortungsbewusste Digitalisierung) abgerundet. In seinem Kern will das Dokument die Kommissionsarbeit durch das Aufzeigen von 23 klar unterschiedenen KI-bezogenen Aspekten, geordnet nach den genannten fünf Hinsichten, unterstützen. Für diese werden jeweils spezifische Kriterien dafür angeführt, wann ein Bescheid Nachbesserungen von Seiten der Antragstellenden fordern sollte.Footnote 18

Wir gehen hier in illustrierender Absicht nur auf die erste und auf die letzte der oben genannten Dimensionen kurz näher ein, um die Funktionsweise und die Spannbreite der Handreichung zu verdeutlichen.

Mit dem Stichwort der „sozialen Eingriffstiefe“ von Forschungen im Bereich von KI wird in der Handreichung eine Art Gesamtbetrachtung des (insbesondere den Themenkomplex „Biases“ sowie überhaupt die Verschiebung sozialer Normen betreffenden) „impact“ von KI-Forschung versucht. Dieser hat in den letzten Jahren enorm zugenommen, weil einerseits immer mehr Trainingsdaten zur Verfügung stehen und diese mit anspruchsvoller Algorithmik und wachsender Rechenleistung verarbeitet werden können. KI-Systeme als trainierte Algorithmen können für eine breite Palette an Produkten und Anwendungen entwickelt werden oder auch nachträglich bzw. beiläufig in diese einfließen. Der Übergang von Grundlagenforschung zu Anwendungen und Produkten liegt im Bereich von KI nicht in der Verarbeitung der Daten selbst vor Augen, sondern bedarf einer soziotechnischen Analyse. Dies ist vor allem in Feldern angezeigt, bei denen bestimmte Ergebnisse der Informationsverarbeitung weitreichende Folgen für die individuelle Existenz oder das gesellschaftliche Zusammenleben haben, also z. B. im Sicherheits‑, Finanz- oder eben im Medizinbereich. Die vielfach genutzte Metapher vom Lebenszyklus (life cycle) von KI-Systemen erlaubt es, die Spezifik des hier umrissenen Problems als eines des Übergangs von spielerischen Versuchen in geschützten Umgebungen (wie Laboren oder sandboxes) hin zu einem Einsatz als Expertenmodelle in auf Entscheidung drängenden Situationen zu erfassen. Für eine forschungsethische Beurteilung der sozialen Eingriffstiefe sind Kriterien wie Datenschutz, Wirksamkeit der Einwilligung, Lieferketten, Diskriminierungsfreiheit oder Nachhaltigkeit relevant.

Die letzte der fünf Hinsichten einer KI-spezifischen Forschungsethik betrifft KI und die sogenannten Dual Use-Konstellationen, die es durchaus auch im Medizinbereich gibt.Footnote 19 Gemeint sind nicht nur explizit der Kriegsführung dienende Forschungsprojekte, sondern auch militärischen Szenarien benachbarte Pfade der Forschungsförderung, etwa die Katastrophenabwehr oder die Kriminalitätsbekämpfung oder auch Forschungen rund um das Thema Belastbarkeit/Stress, da hierbei auch Nutzungsoptionen für unfriedliche Zwecke entwickelt werden können. Forschungsethische Begutachtung arbeitet hier – und zwar jenseits des Risikos für Versuchspersonen – in einem hochgradig sensiblen Feld, das von manchen Einrichtungen durch Zivilklauseln vereindeutigt wird. Dass wiederum seit dem russischen Angriffskrieg auf die Ukraine die Diskussion über Zivilklauseln neu entbrannt ist (vgl. Stark-Watzinger 2023), berührt die Aufgabe, der sich Forschungsethik-Kommissionen stellen müssen, zweifellos. Die DFG hat die verantwortungsbewusste Auswahl von Kooperationspartnern unlängst ausdrücklich als Teil der „ethischen Verantwortung der Forschenden“ (DFG 2023, S. 2) bezeichnet und nicht nur die „Kommissionen für Ethik sicherheitsrelevanter Forschung“, sondern auch allgemein „Gutachtende, Fachkollegien und Gremien“ (DFG 2023, S. 4) und damit alle Begutachtungsvorgänge zur Sicherung eines guten Umgangs mit Dual Use-Risiken in die Pflicht genommen.

Auch die Frage nach einer etwaigen militärischen Nutzung und vor allem nach einer unerwünschten militärischen Nutzung von Forschungsergebnissen sowie Knowing How aus der Forschung stellt sich rund um KI insofern dringlich, als die Fachgemeinschaft der Informatik auf die Problemstellung einer Dual Use-Kontrolle für digitale Artefakte bisher kaum eigene Antworten besitzt. Forschungspolitische Instrumente wie klassische Exportbeschränkungen greifen im Bereich datengetriebener und algorithmischer Lösungen jedenfalls nur schlecht.

Schlussfolgerungen

Abschließend fassen wir die zentralen Punkte unserer Überlegungen zusammen. Es verwundert nicht, bedarf aber größerer Aufmerksamkeit aller Beteiligten, dass vor dem Hintergrund des rasch wachsenden Gewichts datenanalytischer Verfahren und von KI-Tools die forschungsethische Begutachtung im Einzelfall wie auch grundlegend vor Herausforderungen gestellt ist. Für eine umfassende Ethikbegutachtung wird die Expertise mehrerer Disziplinen benötigt, wofür fachkulturell insbesondere auf Seiten der Informatik weder hinsichtlich einschlägiger Kriterien noch organisatorisch bereits klare Voraussetzungen gegeben sind. Für die medizinische Forschung haben wir Risikobereiche dargestellt, bei denen es durch Big Data- und KI-Verfahren einen Aufwuchs an ethischem Klärungsbedarf gibt, den Ethikkommissionen in ihren Begutachtungen zusätzlich berücksichtigen müssen. Als mögliche Wege medizinische, datenwissenschaftliche und informatische Expertise in forschungsethische Begutachtungsprozesse einzubringen, haben wir die Integration von Perspektiven mittels Doppelbegutachtungen, durch eine Erweiterung medizinischer Ethikkommissionen oder durch die Etablierung von vornherein interdisziplinär zusammengesetzter Kommissionen vorgestellt. Für alle Formen zeigen wir auf, wo sie jeweils auch mit Nachteilen einhergehen. Vor diesem Hintergrund der Frage nach geeigneten Verfahren heben wir des Weiteren die Bedeutung von Kriterien hervor, die zu einer Konsolidierung des forschungsethischen Diskurses hinsichtlich der Herausforderungen durch datengetriebene Forschung beitragen können. Schließlich haben wir mit der sozialen Eingriffstiefe von KI-Forschung und der wachsenden Bedeutung von Dual Use-Konstellationen noch zwei weiterreichende Hinsichten vorgestellt, auf welche in der Arbeit von Ethikkommissionen, die KI-Forschungsprojekte begutachten, mit dem Ziel einer Herausbildung von Standards geachtet werden muss. Gerade weil die forschungsethische Begutachtung von KI-Projekten über etablierte Standards noch nicht verfügt, stellt die Auseinandersetzung mit den zuletzt genannten Aspekten in der Medizin und auch im Umfeld medizinischer Fragen im engeren Sinne eine besondere Herausforderung dar.