1 Einleitung

In der Medizin der Zukunft werden sich Entscheidungsprozesse durch sogenannte „digitale Systeme zur klinischen Entscheidungsunterstützung“ (clinical decision support systems / CDSS) verändern. Insbesondere in medizinischen Bereichen, in denen Diagnosen und entsprechende Behandlungsempfehlungen bildgestützt sind,Footnote 1 versprechen neue Technologien – vor allem solche, die über künstliche Intelligenz (KI) verfügenFootnote 2 – eine Verbesserung gegenüber konventionellen Verfahren. Die Erwartung ist, dass mit Hilfe von CDSSs menschliche Leistungen erreicht, vor allem aber übertroffen werden können. Der Einsatz von CDSSs wird in den Bereichen Diagnostik, Therapie, Prävention und Prädiktion von Krankheiten diskutiert. Sie sollen die Informationsbasis von Ärzt*innen und Patient*innen bei klinischen Entscheidungen verbessern und man erhofft sich dadurch Fortschritte in der Patient*innen-Versorgung.Footnote 3 Die Hoffnung auf Kostenreduktion spielt sicher auch eine Rolle.

Einen Sonderfall eines CDSSs stellt ein Patient Preference Predictor (PPP) dar. Annette Rid und David Wendler haben die Idee eines PPP entwickelt, der dabei helfen soll, Entscheidungen zu fällen, wenn zuvor einwilligungsfähige Patient*innen ihre Entscheidungsfähigkeit verloren haben.Footnote 4 Liegt in einem solchen Fall keine Vorausverfügung vor, dann ist vor dem Hintergrund des Prinzips des Respekts vor der Autonomie der mutmaßliche Wille der betreffenden Person zu eruieren. Man nimmt an, dass der Respekt vor der Autonomie unter Verwendung eines PPPs besser gewährleistet ist, als würde man menschlich stellvertretende Entscheider*innen nach dem mutmaßlichen Willen der Person befragen. Diese Annahme der Proponenten der PPPs wird hier kritisch in den Blick genommen.

Dazu werde ich als erstes mit der Autonomiekonzeption nach Ruth Faden, Tom Beauchamp und James Childress (Three Condition Theory) eine normative Basis legen sowie den normativen Standard für eine stellvertretende Entscheidung nach Buchanan und Brock skizzieren. Nach Verdeutlichung der Idee eines PPPs und auch seiner konzeptionellen Weiterentwicklung (dem personalisierten PPP (P4)) werde ich aus epistemischer Sicht Bedenken in Bezug auf Verlässlichkeits- und Nützlichkeitsurteile erheben. Im Ergebnis wird der Einsatz von PPPs zurückgewiesen und der nutzbringende Einsatz von P4s als zumindest fraglich ausgewiesen. In einem zweiten Schritt werde ich dafür argumentieren, dass P4s nicht nur aus epistemischer, sondern auch aus normativer Perspektive problematisch sind: Es ergeben sich Schwierigkeiten im Hinblick auf die Patient*innen-Autonomie auf mehreren Ebenen. Man ist weit davon entfernt, den Standard für stellvertretende Entscheidungen erfüllen zu können, sodass sie als Ersatz für menschliche stellvertretende Entscheider*innen nicht verwendbar sind. Als Entscheidungshilfe kommen sie nur in Frage, wenn bestimmte Zusatzanforderungen erfüllt werden. Abschließend werde ich zwei Einwände gegen die hier entwickelte kritische Beurteilung diskutieren und zurückweisen.

2 Hintergrund

Die klinischen Situationen, die den Einsatz von PPPs attraktiv erscheinen lassen, sind solche, in denen Patient*innen ihre Entscheidungsfähigkeit verloren haben. Man stelle sich folgenden Fall vor:

Silvia erleidet einen Herzstillstand. Sie wird daheim aufgefunden, reanimiert und in ein Krankenhaus gebracht. Das Herz-Kreislaufsystem kann stabilisiert werden, allerdings wird festgestellt, dass Silvia aufgrund einer Sauerstoffunterversorgung schwere Gehirnschäden davongetragen hat. Sie befindet sich jetzt ohne Aussicht auf Besserung in einem vegetativen Zustand. Es steht die Frage im Raum, ob Silvias Lebensfunktionen aufrechterhalten werden sollen. Eine Vorausverfügung, auf die man für eine solche Entscheidung zurückgreifen könnte, hat Silvia nicht verfasst.Footnote 5

In einem Fall wie diesem wird üblicherweise eine bevollmächtigte Person zum mutmaßlichen Willen der Patientin befragt. Sie versucht anhand von Indizien zu ermitteln, wie die Patientin selbst entscheiden würde, wäre sie kontrafaktisch dazu in der Lage. An diesem Vorgehen wird allerdings Kritik geübt, denn Studien legen nahe, dass Bevollmächtigte oder Betreuer oft inakkurat entscheiden. Nur in zwei von drei Fällen liegen diese mit ihren Vermutungen, wie sich jemand anderes entscheiden würde, richtig.Footnote 6 Handelt es sich bei diesen Stellvertreter*innen um Angehörige, sind sie zudem vielfach befangen.Footnote 7

Als Ausweg aus dieser Problematik wird der Patient Preference Predictor diskutiert. Befürworter*innen gehen davon aus, dass PPPs mit höherer Wahrscheinlichkeit eine mit den Werten und Präferenzen der betroffenen Person konsistente Behandlungswahl treffen als es menschlichen Stellvertreter*innen anscheinend möglich ist.Footnote 8 Die Idee ist, mit Hilfe von statistischen Algorithmen bzw. künstlicher Intelligenz eine Patientenpräferenz für die zu treffende Entscheidung zu extrapolieren, an der man sich orientieren sollte.Footnote 9 Der Einsatz solcher PPPs könnte den Prozess der Entscheidungsfindung zwischen Stellvertreter*innen und Mediziner*innen ergänzen.Footnote 10 Es gibt sogar Autor*innen, die ob einer postulierten epistemischen Überlegenheit der PPPs dafür plädieren, stellvertretende Entscheider*innen generell durch PPPs zu ersetzen. So fordern etwa Hubbard und Greenblum in Fällen, in denen Patient*innen keine medizinische Vollmacht erteilt haben, für ein dem PPP ähnliches System – dem „Autonomy Algorithm“ (AA): „[I]n such cases, and against the standard practice of vesting familial surrogates with decision making authority, the AA should have the sole decision-making authority.“Footnote 11

Nach Rid und Wendler böte der Einsatz eines PPPs folgende Vorteile:Footnote 12 Erstens nehmen die Autor*innen an, dass mit einem PPP das Ziel, eine mit Patientenwerten und -präferenzen konsistente Entscheidung treffen zu können, eher erreicht wird. Zweitens werde in einer für stellvertretende Entscheider*innen emotional fraglos hochgradig belastenden Stresssituation mit PPPs eine Entlastung in Aussicht gestellt. Drittens verbessern sie mutmaßlich die Entscheidungssituation, indem sie helfen, Konflikte zu verringern und Prozesse zu beschleunigen. Während eine Überprüfung der letzten beiden Annahmen eher Sache der Psychologie und der empirischen (Konflikt‑)Forschung sind – auch hier bin ich skeptisch, ob PPPs diese Vorteile mit sich bringen –, ist der erste postulierte Vorteil unmittelbar normativ relevant und allein um diesen Aspekt wird es im Folgenden gehen. Der Ausgangspunkt stellt die Annahme dar, dass die Autonomie der Patient*innen mit einem PPP besser berücksichtigt werden kann, weil mutmaßliche Präferenzen sich besser bestimmen lassen werden. Um diese Annahme einer kritischen Prüfung zu unterziehen ist es zunächst notwendig, den normativen Hintergrund – die Three Condition Theory der Autonomie und den Standard für stellvertretende Entscheidungen – sowie die Grundidee eines Patient Preference Predictors zu skizzieren.

2.1 Der normative Hintergrund

Wie der Name – Three Condition Theory – dieser für die Medizinethik paradigmatischen Theorie schon anzeigt, betrachten Beauchamp, Faden und Childress eine Handlung bzw. Entscheidung einer Person unter genau drei Bedingungen als autonom. So heißt es: „X acts autonomously only if X acts 1. intentionally, 2. with understanding, and 3. without controlling influences.“Footnote 13 Diese Bedingungen – Intentionalität, Verstehen und Freiwilligkeit – sind einzeln notwendig und zusammen hinreichend dafür, eine Handlung als autonom auszuweisen.

Intentionalität: Die erste der drei Bedingungen ist eine Grundvoraussetzung, denn Handeln impliziert Intentionalität. Als Abgrenzung zum bloßen Verhalten scheint diese Bedingung nahezu trivial. Dennoch möchte ich diese Bedingung hier kurz weiter erläutern, weil auch sie für die Beurteilung von PPPs/P4s relevant ist. Eine intentionale Handlung ist eine, die entsprechend einem Plan gewollt ist.Footnote 14 Man muss begreifen, was, wie und warum man etwas tun will.Footnote 15 Personen verstehen sich so als Urheber ihrer Handlungen, deren Grund in ihnen selbst zu suchen ist. Einen Plan zu haben bedeutet, dass man (zumindest implizit) begreift, worum es bei der entsprechenden Handlung geht. Hat sich die Person zu einer Handlung entschieden, dann ist sie sich dieser Aspekte gewiss.Footnote 16

Verständnis: Die zweite Bedingung, das auf hinreichendem Verstehen basierende Handeln, ist eng verwoben mit der ersten, geht aber darüber hinaus. Für ein verstehendes Handeln ist es nicht nur erforderlich, dass man erfasst, was, wie und zu welchem Zweck man etwas tun will. Man muss auch die Konsequenzen der Handlung begreifen. Dabei geht es natürlich nicht um alle möglichen Konsequenzen, denn das würde bedeuten, im vollen Umfang und adäquat alle relevanten Propositionen zu erfassen, die die Handlung und die Folgen ihrer Ausführung oder Nicht-Ausführung beschreiben.Footnote 17 Würde ein volles Verständnis gefordert sein, dann handelten die wenigsten von uns autonom. Damit eine Handlung als autonome gelten kann, ist es ‚nur‘ erforderlich, dass die individuelle Person diejenigen relevanten Beschreibungen der Handlung und deren vorhersehbare Folgen erfasst, die ihr wichtig sind.Footnote 18

Freiwilligkeit: Die dritte Bedingung fordert, dass autonome Handlungen freiwillig erfolgen müssen. Das wird negativ bestimmt: eine Handlung ist freiwillig, wenn sie unter keinem kontrollierenden Einfluss steht. Hier unterscheiden Faden, Beauchamp und Childress drei Arten von Einfluss: Zwang (coercion), Manipulation (manipulation) und Überzeugung ((rational) persuasion), wobei Zwang und Überzeugung die beiden äußeren Pole von Einflüssen darstellen (völlig kontrollierend und völlig nicht-kontrollierend). Zwischen diesen beiden Polen spannen Manipulationen ein breites Feld möglicher Einflussnahmen auf.

Ist jemand nicht mehr in der Lage, die drei oben genannten Bedingungen zu erfüllen, und es muss über eine medizinische Maßnahme entschieden werden, dann besteht ganz überwiegend Konsens, dass die Autonomie der Patient*innen auch in diesen Fällen respektiert werden muss.Footnote 19 Aus diesem Grund orientiert man sich möglichst an einer Vorausverfügung. Vorausverfügungen werden allerdings nicht so häufig aufgesetzt, wie es wünschenswert wäre,Footnote 20 und sie werden vielfach nicht aktualisiert. Je älter aber eine Verfügung ist, „desto mehr Zweifel entstehen, ob sie die aktuelle Meinung des Patienten bis zu dem Zeitpunkt widerspiegelt, an dem er seine Äußerungsfähigkeit verloren hat.“Footnote 21

Liegt wie in Silvias Fall keine Patientenverfügung vor, dann wird die Entscheidung von einem Vertreter oder einer Vertreterin getroffen. Stellvertretende Entscheidungsträger*innen sollen, wo immer es entsprechende Indizien gibt, nach Maßgabe des mutmaßlichen Willens der betroffenen Person eine Entscheidung für sie treffen. Für die Entscheidung durch Stellvertreter*innen wird dann folgender Standard gesetzt:

In the case of proxy advance directives, the same respect for self-determination that justifies the recognition of the authority of an advance directive in the first place suggests that the proxy ought […] to attempt to make decisions according to the substituted judgement standard – choosing as the incompetent individual would choose in the circumstances were he or she competent.Footnote 22

Als Maßstab oder Ideal wird hier die hypothetische Wahl der jetzt inkompetenten Person gesetzt, wäre sie in genau dieser Situation kompetent. Gesucht ist also eine kontrafaktisch intentionale, auf hinreichendem Verstehen basierende und freiwillige Entscheidung. Zugegebenermaßen ist das ein Standard, der sich vor hohe epistemische Herausforderungen gestellt sieht. Erkennt man aber das Prinzip des Respekts vor der Autonomie auch hier als relevant an, dann mag es zwar schwierig sein, diese Herausforderungen zu meistern, es entbindet aber nicht von der Notwendigkeit, es zu versuchen.

Vor dem Hintergrund der Schwierigkeiten, die menschliche Stellvertreter*innen bei der Ermittlung einer hypothetischen Entscheidung anscheinend haben, fragt sich, ob es nicht eine Möglichkeit gibt, diese stellvertretende Entscheidung zu unterstützen oder sogar zu ersetzen, und eben das bringt die Idee eines Patient Preference Predictors (PPP) ins Spiel.

2.2 Die Idee eines (personalisierten) PPP

Ein PPP ist ein (bislang nur gedanklich existierendes) System zur Entscheidungsunterstützung. Bislang sind solche Systeme nicht verfügbar; es handelt sich lediglich um konzeptuelle Überlegungen. Die ursprüngliche Idee eines PPPs ist es, dass in einer repräsentativen Umfrage soziodemographische Merkmale (Alter, Geschlecht, geographische Lokalisation, Bildung, Beschäftigungsstatus, Religiosität, etc.) sowie Behandlungspräferenzen für bestimmte medizinische Situationen erhoben werden und dies statistisch auf korrelative Zusammenhänge analysiert wird. Auf dieser Basis soll dann extrapoliert werden, wie sich eine einwilligungsinkompetente Person wie z. B. Silvia entscheiden würde wäre sie kompetent einwilligungsfähig.Footnote 23 Anhand von Silvias individuellen Merkmalen – wie alt sie ist, welches Geschlecht, welchen Bildungsstand sie hat, wie religiös sie ist, etc. – wird basierend auf der Korrelation extrapoliert, wie sich Silvia entscheiden würde, wäre sie kompetent. Rid und Wendler gehen davon aus, dass „making individualized predictions of patient’s treatment preferences will, on average, be more accurate than the predictions of their surrogate decision makers.“Footnote 24 Individualisiert wären die Ergebnisse durch den Einschluss möglichst vieler sozio-demographischer Merkmale der Person. Der Entscheidende Vorteil der PPPs gegenüber Stellvertreter*innen soll nun sein, dass der Output ersterer mit höherer Wahrscheinlichkeit mit den mutmaßlichen Präferenzen übereinstimmen wird.

Gegen einen solchen PPP wird allerdings von Tretter und Samhammer eingewendet, dass Menschen dadurch stereotypisiert würden,Footnote 25 und von Sharadin bzw. John, dass allgemeine (nicht genuin individualisierte) statistische Daten nicht ausreichen, um individuelle Präferenzen vorhersagen zu können.Footnote 26 Aus u. a. diesen Gründen schlagen Earp et al. eine neue Variante – einen personalisierten PPP (P4) – vor:

We propose to use machine learning to extract patients’ values or preferences from individual-level material produced primarily by themselves in which their preferences are likely to be encoded (if only implicitly). This hypothetical model for predicting patient preferences would harness advances in generative artificial intelligence (AI) to create large language models (LLMs) adapted to (that is, fine-tuned on) a person-specific corpus of text […]. The result would be a sort of ‘digital psychological twin’ of the person […] that could be queried in real-time as to the patients’ most likely preferences for treatment in any given healthcare crisis. In short, the P4 would be a personalized, rather than population-based, patient preference predictor.Footnote 27

Um einen Patient Preference Predictor zu personalisieren, soll also ein ‚vor‘-trainiertes Sprachmodell mit Material der jeweils betroffenen Person oder mit Material, das diese beschreibt, spezifisch weiter trainiert werden. Mit einem solchen Fine-Tuning erhofft man sich, Präferenzen und Wertvorstellungen der Person ermitteln zu können. Für das Fine-Tuning wird erwogen, unterschiedliches Textmaterial zu nutzen, das idealerweise medizinische Relevanz besitzt (Daten aus der Patient*innen-Akte und Biobanken, Befragungen im medizinischen Kontext). Aber auch andere Quellen werden erwogen. wie z. B. E‑Mails, Blog-Posts, Social-Media-Posts, Daten von Fitness-Trackern, Internet-Browsing-Verhalten, etc. – immer unter der Maßgabe, dass der Datenschutz eingehalten wird bzw. eine relevante Erlaubnis vorliegt.Footnote 28

Earp et al. gehen davon aus, dass der P4 gegenüber einem PPP folgende Vorteile bietet:Footnote 29

  1. 1.

    Der P4 erbringt einen genaueren – auf Individualbasis generierten – Output,

  2. 2.

    er deckt ein breiteres Spektrum möglicher Präferenzermittlung ab, da er nicht wie der PPP durch Umfrageszenarien limitiert ist und

  3. 3.

    er ist weniger anfällig für Autonomie-basierte Einwände, wie sie gegen den PPP vorgebracht wurden.

Letzteres ist nach Earp et al. der Fall, weil die für die Präferenzermittlung herangezogenen Informationen, von der Person selbst stammen, um die es geht.

Es mag tatsächlich der Fall sein, dass die Autor*innen mit den ersten beiden Punkten richtig liegen: Die Präferenzermittlung ist im Vergleich zu einem PPP besser auf das Individuum abgestimmt, und möglicherweise ist auch das Spektrum von ermittelbaren mutmaßlichen Präferenzen weiter. Der dritte Punkt, die angebliche Resistenz von P4 gegen Autonomie-basierte Einwände, ist allerdings zu bezweifeln. Im Folgenden werde ich zeigen, dass weder PPPs noch P4s gegen Autonomie-basierte Einwände immun sind.

3 Epistemische Bedenken

Zunächst sind epistemische Bedenken anzumelden, denn die Bedeutung des Outputs von PPPs/P4s ist in Zusammenhang mit einer (kontrafaktischen) Entscheidung äußerst unklar. Erstens ist nämlich fraglich, wie die Urteile über die angeblich mangelnde Verlässlichkeit der stellvertretenden Entscheider*innen zu bewerten sind, die ja den Ausgangspunkt für die Diskussion um den Einsatz der PPPs/P4s darstellen (3.1). Zweitens arbeiten PPPs auf der Basis von statistischen Korrelationen. Damit ist deren Aussagekraft für mutmaßliche Entscheidungen individueller Personen zu hinterfragen (3.2). Drittens kann bezweifelt werden, dass mit P4s individualisierte Präferenzen sicher bestimmt werden können (3.3). Schließlich ist viertens der informative Zugewinn von extrapolierten Präferenzen für das Treffen von Entscheidungen fraglich (3.4).

3.1 Das Problem der Verlässlichkeitsurteile

Die Ermittlung der Verlässlichkeit einer Präferenzmutmaßung in Fällen wie dem Silvias ist mit dem ganz grundlegenden Problem belastet, dass ein empirischer Abgleich zwischen einer stellvertretenden Entscheidung und der ‚echten‘ Entscheidung der irreversibel nicht-selbstbestimmungsfähigen Person unmöglich ist. Personen wie Silvia können zum fraglichen Zeitpunkt keine Entscheidung treffen, die sich mit jener des/der Stellvertreter*in vergleichen ließe. Aus diesem Grund wird die Verlässlichkeit in Modellbefragungen ermittelt. Man spricht in diesem Zusammenhang von Entscheidungen in ‚hypothetischen Situationen‘ im Gegensatz zu solchen in Real-Life-Situationen.Footnote 30 Für Umfragen in hypothetischen Situationen werden entscheidungskompetente Personen gebeten, ihre antizipierenden Präferenzen für bestimmte medizinische Situationen anzugeben. Parallel dazu sollen Stellvertreter*innen einschätzen, wofür sich erstere vermutlich entscheiden werden. Mitunter findet sich auch die Formulierung, dass die Stellvertreter*innen raten (guessing) sollen, wie sich die zu vertretende Person entschieden hat.Footnote 31

Die Aussagekraft eines solchen Untersuchungsdesigns ist allerdings nur begrenzt. Es wird nämlich unterstellt, dass der Entscheidungsprozess der betroffenen Personen in hypothetischen und in aktualen Situationen, also solchen, in denen tatsächlich eine folgenschwere Entscheidung getroffen werden muss, gleichartig ist.Footnote 32 Das ist allerdings keineswegs selbstverständlich. Es ist zu bezweifeln, dass mit der gleichen Ernsthaftigkeit und dem Sinn für die Bedeutung der entsprechenden Entscheidung agiert wird – das gilt sowohl für Stellvertreter*innen als auch die zu stellvertretenden Personen. Dieses Bedenken ist zu übertragen, würde man auf ähnliche Weise die Verlässlichkeit von PPPs/P4s bestimmen. Es bleibt an dieser Stelle festzuhalten, dass ein Ausgangspunkt mit dem ein Einsatz von PPPs/P4s häufig plausibel gemacht wird, nämlich das Stellvertreter*innen schlecht darin sind, mutmaßliche Präferenzen zu bestimmen, mit Vorsicht zu genießen ist.

3.2 Das Problem der bloßen Korrelation bei PPPs

Neben dieser Skepsis in Bezug auf das Setting empirischer Studien zur Beurteilung der Verlässlichkeit ist aber auch die Aussagekraft von Ergebnissen zweifelhaft, die allein auf Korrelationen beruhen. Es ist davon auszugehen, dass soziodemographische Merkmale wie Alter, Geschlecht, Herkunft, Bildungsstand etc. in keinem direkten Kausalzusammenhang mit individuellen Entscheidungen stehen. Die Sicherheit einer Prognose beruht aber allgemein darauf, dass ein kausaler Zusammenhang zwischen verschiedenen Variablen angenommen werden kann. Korrelationen bestehen auch (so sagt man wenigstens) zwischen der Anzahl von Störchen in einem Gebiet und der dortigen Geburtenrate. Man würde aber wohl keiner Prognose vertrauen, die sich allein auf die Anzahl der Störche berufen würde. Zugegeben, in einigen Fällen können uns starke Korrelationen gute epistemische Gründe geben. Aber dafür müsste nachgewiesen sein, dass es sich um starke Korrelationen handelt, dass die Merkmale, die gewählt werden, sachlich angemessen sind bzw. dass ein inhaltlicher Zusammenhang zwischen Stellvertretermerkmalen (hier: soziodemographische Faktoren) und Hauptmerkmal (hier: Entscheidung einer Person im relevanten Kontext) besteht. Solange der Faktor nicht bestimmt ist, aufgrund dessen eine Korrelation besteht oder zumindest die Stärke einer Korrelation nicht bekannt ist sowie der inhaltliche Zusammenhang nicht plausibilisiert wurde, steht die Verlässlichkeit eines Urteils in Frage.

Ein direkter Konnex zwischen den soziodemographischen Merkmalen und möglichen Entscheidungen ist jedenfalls nicht anzunehmen. Wir würden zu Recht davor zurückschrecken, Patient*innen-Präferenzen auf soziodemographische Merkmale zurückzuführen. Es mögen hier zwar Korrelationen bestehen, aber „we are all reluctant to say […] that the reason why we prefer (say) not to receive palliative care is because we are (say) straight, white, unmarried, college-educated 30-somethings.“Footnote 33 Wir treffen Entscheidungen nicht wegen dieser Merkmale. Dazu müssten sie Gründe für uns und unsere Entscheidungen sein. Das ist zwar logisch möglich, empirisch aber unwahrscheinlich.

Es ist auch kaum einzusehen, was es einem Stellvertreter oder einer Stellvertreterin nützen sollte, zu wissen, wie eine Person von Silvias Typ in der gegebenen Situation wahrscheinlich entscheiden würde. Eine statistische Auswertung bezieht sich immer auf eine Gruppe und gibt Auskunft in Bezug auf Merkmalsverteilungen innerhalb der Gruppe. Einen Schluss auf das Individuum ist hier aber verfehlt. Wenn man weiß, dass 90 % der Bewohner eines Stadtteils finanziell insolvent sind, dann kann man nicht darauf schließen, dass Silvia, die in dem Stadtteil wohnt, ebenfalls insolvent ist. Sie könnte sogar Millionärin sein. Das gilt auch, wenn man statistisch multifaktoriell arbeitet. Möglich ist es lediglich eine Aussage auf der Basis der Auswertung von Gruppenmerkmalen zu treffen, mit welcher Wahrscheinlichkeit Silvia finanziell insolvent ist. Für eine Vergabe von Krediten mag vielleicht ein solches Wahrscheinlichkeitsurteil interessant, wenn auch potentiell diskriminierend sein.Footnote 34 Bei der Vergabe von Krediten reicht den Geldgebern vermutlich aber auch zur Bestimmung ihres Risikos eine statistische Auswertung. Es wird ihnen wohl nicht darum gehen, das Individuum, um das es geht, wirklich in den Blick zu bekommen. Das ist bei den hier zu verhandelnden Fällen anders, denn es soll ja gerade ein höchst individuelles Urteil eruiert werden. Schon allein auf dieser Ebene scheint es die Sache zu verlangen, dass man eine (mutmaßliche) Entscheidung nicht qua Typzugehörigkeit bestimmt, sondern dass dabei die Persönlichkeit des Individuums berücksichtigt werden muss. Durch diese Problematik disqualifiziert sich der PPP als Möglichkeit, den Respekt vor der Autonomie individueller Personen gewährleisten zu können. Im Folgenden wird daher nur noch der P4 diskutiert.

3.3 Problem der mutmaßlich höheren Treffsicherheit des P4

Aber auch im Hinblick auf den P4 bestehen epistemische Bedenken. Proponenten gehen davon aus, dass ein P4 (kontrafaktische) Präferenzen einer Person mit großer Wahrscheinlichkeit treffen wird. Auch hier gibt es Grund zum Zweifel. Das liegt zum einen an generellen Problemen, zum anderen an spezifischen Problemen, die mit der personalisierten Präferenzbestimmung durch LLMs verbunden sind. Zum ersten Problemkomplex gehören die Schwierigkeiten, die sich durch sogenannte Halluzinationen und Biases der LLMs ergeben. Für den zweiten Komplex sind drei Probleme relevant: das der Oberflächengrammatik, das der Kontextabhängigkeit sprachlicher Äußerungen und das der existentiellen Grenzsituation.

Biases und Halluzinationen: Ein P4 würde zwar letztlich mit Textmaterial der betroffenen Person trainiert, einem solchen Fine-Tuning ginge aber ein nicht-individualisiertes Vortraining voraus. LLMs arbeiten auf der Basis einer großen textlichen Datenvielfalt. Es ist bekannt, dass sie dadurch soziale Vorurteile reproduzieren können.Footnote 35 Solche Biases können mit Einstellungen der betroffenen Person in starkem Kontrast stehen. Werden diese Biases reproduziert, dann würde das die Extrapolation von Präferenzen verfälschen.Footnote 36 So gesehen stellt die Verwendung von individuellen Texten nur einen bedingten Fortschritt gegenüber einem PPP dar. Außerdem tendieren LLMs dazu, Fehlinformationen zu liefern (sie ‚halluzinieren‘). Das heißt, dass sie auf Fragen mit plausibel klingenden Antworten reagieren, die inkorrekte Informationen enthalten.Footnote 37 Es konnte zwar bei der fortschreitenden Entwicklung von LLMs eine Reduktion solcher Halluzinationen erzielt werden,Footnote 38 dennoch bleibt es LLMs bislang inhärent zu halluzinieren. Es ist unklar, inwieweit sich ein Bias auf das Fine-Tuning und mögliche Halluzinationen auf die Qualität der Antworten eines LLMs auswirken wird. Empirisch wird sich das vermutlich erst nach der Entwicklung von P4s beurteilen lassen.

Oberflächengrammatik: Aber auch wenn sich das Vortraining nicht verzerrend auf das Fine-Tuning auswirken und LLMs nicht mehr halluzinieren würden, scheint es verfehlt, zu denken, man könnte Werte und Präferenzen mit einem spezifisch trainierten LLM ermitteln. Das unterstellt nämlich, man könnte das Selbstverständnis einer Person aus sprachlichen Äußerungen synthetisieren, die sie in verschiedenen Kontexten irgendwann getätigt hat. Werte und Präferenzen werden aber vielfach jenseits der Oberflächengrammatik sprachlicher Äußerungen ausgedrückt. Ein ‚Behandlung X würde ich mir wünschen!‘ könnte als Ausdruck des Wunsches nach Behandlung X interpretiert werden, es könnte aber auch ein ironischer Ausruf sein, mit dem man eigentlich das Gegenteil ausdrücken will (‚Das fehlt mir gerade noch!‘). Man implikiert mit Äußerungen in der Regel mehr als sich an der rein sprachlichen Oberfläche zeigt. Ob ein LLM diese kommunikative Vielfalt erfassen und Gricesche ImplikaturenFootnote 39 auswerten kann, bleibt abzuwarten.

Kontextabhängigkeit: Was eine Person äußert, ist zudem oft relativ zu einem spezifischen Kontext und einer Rolle, die sie in diesem Kontext innehat. Es mag der Fall sein, dass LLMs Fortschritte in der Verarbeitung von offen kontextabhängig sprachlichen Äußerungen (d. h. Verwendung sprachlicher Ausdrücke im Kontext eines Textes) gemacht haben, aber es ist fraglich, ob auch sozusagen verdeckte sozial-situative Kontexte in ihrer Bedeutung erfasst und entsprechend interpretiert werden können. Sozial-kontextuelle Konventionen beeinflussen, was man sprachlich äußert und welche Werte und Präferenzen man zum Ausdruck bringt. Persönliche Emails unterscheiden sich beispielsweise sprachlich von beruflichen. Wie wird ein LLM hier gewichten? Die Häufigkeit getätigter Aussagen ist jedenfalls kein adäquates Kriterium, zeichnen sich doch ernst gemeinte Wert- und Präferenzäußerungen nicht notwendig dadurch aus, dass man sie besonders häufig tätigt.Footnote 40 Es ist eine offene Frage, wie die Entwicklung der LLMs mit dieser Schwierigkeit umgehen kann und wird.

Orientiert man sich andererseits nur an individuellen Befragungen zu bestimmten medizinischen Notfallszenarien, dann stellt sich die Frage, warum man nicht besser gleich eine solche Befragung zur Erstellung einer Patientenverfügung verwendet. Letzteres scheint einem Respekt vor der Autonomie näher zu kommen, als einen P4 zu programmieren und nach dem mutmaßlichen Willen einer Person zu befragen. Es mag zwar der Fall sein, dass LLMs relativ verlässlich ein gewisses Kaufverhalten oder eine Filmauswahl prognostizieren können, kann doch vorheriges Verhalten einer Person im selben Bereich herangezogen werden für den die Prognose erstellt wird. Das ist aber etwas anderes, als Werte und Präferenzen aus unterschiedlichen Textquellen für jedweden Kontext ermitteln zu wollen. Kann die Problematik der Entschlüsselung kontextabhängiger Bedeutung sprachlicher Äußerungen nicht hinreichend gelöst werden, dann wäre der Output eines P4 unzuverlässig, weil die Textbasis zu unspezifisch ist. Ist die Textbasis hingegen hochspezifisch, weil sie direkt aus Fragen zum Umgang mit Notfallszenarien generiert wird, dann scheint ein P4 überflüssig zu sein.

Existentielle Grenzsituation: Diese Problematik verschärft sich dadurch, dass es sich bei Silvia-Fällen nicht um alltägliche Kontexte und Situationen handelt, für die eine Präferenz ermittelt werden soll. Der Idee der Präferenzextrapolation ließe sich vielleicht etwas abgewinnen, wenn es um Aussagen zu Alltagsgewohnheiten ginge. Mit hoher Wahrscheinlichkeit wird Kant etwas daran gelegen haben, mittags einen Spaziergang zu machen – konnten doch die Königsberger ihre Uhr nach ihm stellen. Man fühlt sich berechtigt zu schließen, dass er auch an kommenden Tagen zur Mittagszeit spazieren gehen wird. Eine solche Extrapolation ist allerdings – unter dem Vorbehalt der Induktionsproblematik – nur für ungefähr gleiche Situationen und eingefahrene Verhaltensweisen einschlägig. In den hier zu analysierenden Fällen handelt es sich aber um spezifische existentielle Grenzsituationen, und die Wahrscheinlichkeit ist vermutlich nicht gering, dass Entscheidungen in solchen Situationen von jenen in Gewohnheitskontexten abweichen. Gefragt ist nach einer Entscheidung von ganz besonderer Tragweite. Es ist unklar, wie aus früher geäußerten Wünschen oder Äußerungen, die alltäglich und unabhängig von der fraglichen Situation sind, sicher genug hergeleitet werden kann, was in der gegenwärtigen Situation gewünscht oder geäußert würde. Es wäre seltsam anzunehmen, man könne auf der Basis von in Texten und Äußerungen ermittelten statistische Korrelationen eine Art digitalen psychologischen Zwilling erstellen, dem sich entnehmen ließe, wie die Person eine außergewöhnliche Situation beurteilt.

3.4 Das Problem des epistemischen Zugewinns

Aber auch wenn der Output eines P4s große Verlässlichkeit besäße, gäbe es immer noch ein epistemisches Problem. Man stelle sich vor, dass sich eine Person – nennen wir sie Peter – vor die Wahl zwischen Behandlungsabbruch oder Weiterbehandlung wie im Fall von Silvia gestellt sieht, sich allerdings in einwilligungskompetentem Zustand befindet. Angenommen, Peter würde ein ihn betreffender Output eines P4 zur Verfügung stellt. Wäre dieser für seine eigene autonome Entscheidung wertvoll? Das wäre er nur unter ganz bestimmten Umständen: Aus der Beobachterperspektive auf die eigene Person und unter einer spezifischen Fragestellung (‚Welche Entscheidung werde ich – Peter – wohl am wahrscheinlichsten in Situation X fällen?‘). Er erfährt, welche Präferenz, ermittelt auf der Basis von eigenem Textmaterial, von ihm zu erwarten wäre. Das hilft ihm aber allenfalls dann, eine autonome Entscheidung zu fällen, wenn es ihm wichtig ist, entsprechend einer derart rekonstruierten Präferenzbestimmung zu handeln. Es erscheint nun äußerst unwahrscheinlich, dass sich jemand für eine bestimmte Handlung entscheidet, weil sie einer rekonstruierten Biographie entspricht. Es entstünde daher keine Informationslücke für Peter, bliebe ihm das Ausgabeergebnis unbekannt.Footnote 41 Ohne das Ergebnis seiner P4-Analyse entsteht für Peter selbst also nur dann eine Informationslücke, wenn ihm die biographische Konsistenz seiner Entscheidung wichtig ist.

Nun mag es zwar der Fall sein, dass die Information für Peter keine Relevanz hat, aber ein*e Stellvertreter*in von Silvia wird doch mit den Ergebnissen eines P4s Informationen an der Hand haben, die sie berücksichtigen sollte. Das ist aber nicht der Fall. Angenommen die Frage an den P4 lautet: ‚Wie würde sich Silvia entscheiden? Würde sie in ihrer Situation A oder B wählen?‘ und der P4 antwortet: ‚Sie würde A wählen‘, dann kennt man nur das Ergebnis einer Extrapolation und nicht die Gründe, die Silvia heranziehen würde. Überprüfen kann man dieses Ergebnis zunächst einmal nicht. Man kann nicht herausfinden, auf welcher Basis der P4 zu seinen Ergebnissen kommt. Das Modell, auf dem diese Vorhersage basiert, kann nicht durchsichtig gemacht werden. Bei einem P4 bleibt die Art und Weise, wie es zu einem bestimmten Ergebnis kommt, notwendig epistemisch opak. Dieses Merkmal der methodischen Intransparenz ist allen Maschinenmodellen zu eigen, die über ein Deep Learning trainiert werden. Die Black Box solcher Systeme kann nicht oder wenn, dann nur sehr begrenzt geöffnet werden.Footnote 42 Und wenn die schwarze Box ein wenig grauer gemacht werden kann, dann hilft einem eine Aufhellung, die auf die mathematische Sphäre beschränkt ist, nicht viel weiter, erläutert eine solche Erklärung doch nur die grundlegende Funktionsweise des Modells, gibt aber keine Anhaltspunkte, wie ein Output im lebensweltlichen Kontext und bezogen auf die individuelle Person, zu der man Auskünfte erhofft, zu interpretieren ist. Neuere Ansätze, die verständlich machen sollen, wie ein Output zu interpretieren ist und unter dem Label Explainable AI (XAI) laufen, werden zwar in einem sich rasant entwickelndes Forschungsfeld vorgelegt. Deren Nutzen im Umgang mit der Künstlichen Intelligenz muss sich allerdings erst noch erweisen.Footnote 43

Gegen den zuletzt genannten Punkt könnte man einwenden, dass faktische Entscheidungen anderer Menschen auch für Stellvertreter*innen notwendig epistemisch opak bleiben.Footnote 44 Wir wissen eben nicht genau, warum sich jemand für x und nicht für y entscheidet. Vielleicht ist es nicht einmal der Person selbst bewusst, ganz zu schweigen davon, dass andere Menschen darüber Bescheid wüssten. Das mag vielleicht auf den ersten Blick so sein, aber wir können hier nach Gründen fragen und Abwägungsprozesse in Erfahrung bringen.Footnote 45 Und das tun wir üblicherweise auch, wenn wir miteinander umgehen. Die menschliche Black Box lässt sich dialogisch zumindest zu einer hellgrauen, wenn nicht weißen machen. Zudem kann man nachfragen, warum Stellvertreter*innen meinen, die richtige Entscheidung getroffen zu haben, und dies auf Plausibilität überprüfen – darauf, ob das Begründungsmuster eines ist, das der betroffenen Person nachvollziehbarerweise zugeschrieben werden kann.

Man kann hier wiederum einwenden, dass auch menschliche Stellvertreter*innen nichts anderes machen als ein P4. Man könnte denken, dass auch sie nur auf der Grundlage ihrer Kenntnis der Person Präferenzen extrapolieren. Es mag zwar jetzt noch Bedenken hinsichtlich der oben geschilderten Probleme geben, aber diese Mängel werden angesichts der rasanten Entwicklung in der KI-Forschung bald behoben sein. Wenn menschliche Stellvertreter*innen und P4s aber beide etwas extrapolieren, dann wird die KI, wenn auch noch nicht jetzt, so doch in naher Zukunft, angesichts ihrer Rechen- und Analyseleistungen besser dastehen. Damit kommen wir zum zweiten Argumentkomplex: Auch wenn P4s in Bezug auf die Verlässlichkeit besser dastehen sollten, sagt doch eine höhere Verlässlichkeit noch nichts darüber aus, ob die Ergebnisse dieser Systeme innerhalb des Kontexts, in dem sie eingesetzt werden, angemessen sind. Es mag sein, dass P4s besser als stellvertretende Entscheider*innen Präferenzen extrapolieren können, aber das heißt noch nicht, dass dies angesichts des Kontexts als gut oder zu empfehlende Variante auszuweisen sind.

4 Normative Bedenken

Proponenten eines P4s meinen, dass es manchen nur falsch erscheint, von einer rein statistischen Analyse zu einer Entscheidung überzugehen. In Wirklichkeit sei das gar nicht normativ problematisch. Mit via KI ermittelten Präferenzen werde die Autonomie von Personen nicht notwendig in Frage gestellt. Das ist aber nicht ausgemacht. Auch wenn die P4s besser abschnitten als Stellvertreter*innen, sie also in Bezug auf die Reliabilität besser dastünden, steht die Frage im Raum, ob sie tatsächlich in Anbetracht des normativen Kontextes eine gute Wahl sind. Ist ein sich Verlassen auf eine solche Extrapolation dem normativen Kontext gerecht?

Zur Verdeutlichung, dass Extrapolationen mit hoher Trefferquote nicht notwendig in jedem Kontext angemessen sind, soll folgende Überlegung dienen: Besäße ein Richter eine Statistik, auf deren Grundlage eine Aussage über die Straffälligkeit einer vor Gericht stehenden Person mit 99 %iger Sicherheit gemacht werden könnte – was sicherlich die Prognoseleistung des Richters selbst übertrifft –, dann würde man dennoch nicht wollen, dass die Person auf der Grundlage einer solchen Extrapolation verurteilt wird.Footnote 46 Man würde vielmehr fordern, dass der Richter nach Sachlage und Beweisen eine Entscheidung fällt. Für das genaue Vorgehen sollte nicht die Statistik, sondern die Regularien der Rechtsprechung herangezogen werden.

Ähnliches gilt m. E. für den medizinischen Kontext in Fällen des Kompetenzverlustes bei vorheriger Entscheidungskompetenz und der Ermittlung eines mutmaßlichen Willens. Der hierzu gehörende normative Hintergrund ist die Beachtung des Prinzips des Respektes vor der Autonomie und hier speziell der Standard für die stellvertretende Entscheidung. Es ist, wie oben dargelegt, eine kontrafaktisch-autonome Entscheidung zu eruieren oder ihr zumindest sehr nahe zu kommen: eine Entscheidung, die intentional, verstehend und freiwillig wäre. Sieht man die P4s als Ersatz für menschliche Stellvertreter*innen-Entscheidungen, dann ergeben sich Probleme in allen drei Hinsichten. Werden P4s als zusätzliche Informationsquelle genutzt, dann ist es fraglich, ob sie per se einen relevanten Zugewinn darstellen.

4.1 P4s als Entscheidungsersatz

Sollten P4s menschliche Stellvertreter*innen ersetzen, dann müsste man mit ihnen eine kontrafaktisch-autonome Entscheidung fällen können oder zumindest möglichst nahe an einen solchen Standard herankommen. Bei allen drei Autonomiebedingungen ergeben sich Probleme.

Intentionalität: P4s können nichts entscheiden. Das liegt daran, dass die Ausgabeergebnisse der P4s und Entscheidungen kategorial voneinander verschieden sind. Das ist so, weil es mit P4s nicht möglich ist, die Intentionalitätsbedingung zu erfüllen. Wenn man eine Handlung intendiert, sich also zu etwas entschieden hat, dann liegt einem das Was, Wie und Warum einer Handlung vor Augen. Man besitzt diesbezüglich eine bestimmte Gewissheit. Diese Art der Gewissheit ist aber zu unterscheiden von einer Gewissheit, die man hat, weil man sich bislang auf eine bestimmte Weise verhalten hat. Erstere Art der Gewissheit ist eine, die aus der Teilnehmerperspektive besteht und auf Gründen basiert, letztere ist eine induktive Gewissheit, die aus der Beobachterperspektive besteht:

If a man does claim to be able to predict with certainty his own future actions, basing his prediction on induction, then he is implying that the actions in question will be in some sense, or to some degree, involuntary, the effect of causes outside his own control. If action in the situation envisaged were entirely voluntary, then it must be up to him to decide what he will do. If it is up to him to decide what he is going to do, then he must still be uncertain what he will do until he has made a decision or until his intentions are formed. While he is making the decision, and while he is reviewing reasons for acting one way rather than another, he must be in a state of uncertainty about what he is going to do. The certainty comes at the moment of decision, and indeed constitutes the decision, when the certainty is arrived at this way, as a result of considering reasons, and not as a result of considering evidence.Footnote 47

Vorhersagen – und auch die Extrapolationen der P4s – basieren auf einer induktiven Gewissheit. Sie extrapolieren aus vergangenen Handlungen und sprachlichen Äußerungen eine zukünftige Verhaltensweise. Willentliche Entscheidungen basieren hingegen auf Gründen. Sie sind nicht aus Verallgemeinerungen aus Gesagtem oder Verhalten aus der Vergangenheit zu verstehen. Würde ein Sich-Entscheiden bedeuten, dass die Entscheidung direkt aus Gesagtem oder Verhalten aus der Vergangenheit folgt, dann würde das bedeuten, dass man in bestimmten Situationen auf Handlungen festgelegt wäre. Das widerspricht geradezu der Idee von Selbstbestimmung. Man kann aber selbstbestimmt immer auch noch einmal das Steuer sozusagen herumreißen und ganz anders als bisher entscheiden. Der P4 kann hingegen nur mit einer induktiven Gewissheit ein Analyseergebnis liefern. Diese Systeme sind unfähig, eine Gewissheit basierend auf Gründen zu besitzen oder zu vermitteln, sie sind unfähig, etwas zu entscheiden. Entscheidungen sind gründe-basiert als flexibel anzusehen, wohingegen der Output von P4s durch die Vergangenheit fixiert ist. Ein Vorschlag das terminologisch festzuhalten ist es, zwischen einer Reason-Based-Flexibility-of-Decisions (RBFD) und History-Based-Rigidity-of-Extrapolations (HBRE) zu unterscheiden.Footnote 48

Verstehen: Der P4 kann zudem die Bedingung des (kontrafaktisch) substanziellen Verstehens nicht erfüllen. Ohne hier in die Tiefen epistemologischer Überlegungen eintauchen zu wollen, ist es zu bezweifeln, dass ein System, das mit künstlicher Intelligenz operiert, tatsächlich etwas versteht. Es mag vielleicht sein, dass ein LLM den Turing-Test besteht, aber das reicht nicht aus für ein substanzielles Verstehen im Sinne der Autonomiebedingungen. Es erscheint zunächst schon seltsam, ein System, das allein aufgrund der Häufigkeit des Vorkommens verschiedener Worte in Texten selbst Texte produziert, Verstehen zusprechen zu wollen. Dafür muss ein LLM weder Sinn und Bedeutung einzelner Wörter noch ganzer Sätze verstehen. Ein Verstehen der vom LLM produzierten Texte scheint vielmehr erst in deren Rezeption und Interpretation im Leser zu entstehen.

Aber auch wenn dem nicht so wäre, so ist doch das Verstehen im Sinne der Autonomiebedingungen eines, das ein evaluatives Moment enthält. Es müssen Konsequenzen einer Handlung verstanden sein, die für die betreffende Person selbst wichtig sind. Auch wenn eine KI alle möglichen Folgen einer Handlung berechnen könnte, so könnte sie doch diese an die Person gebundene Wichtigkeit, um die es gerade geht, nicht empfinden. Sie ist unfähig eine Pro- oder Con-Haltung zu etwas einzunehmen, die derjenigen einer anderen Person entspricht. Ihr fehlt die subjektive Betreffbarkeit und die Fähigkeit zur Empathie.Footnote 49

Freiwilligkeit: Der P4 droht auch die dritte der Bedingungen einer autonomen Entscheidung zu verletzen. In einem gewissen Sinne ist eine Steuerung von außen – also eine Kontrolle – in den hier diskutierten Fällen nicht zu vermeiden, handelt es sich doch um Fälle, in denen jemand entscheidungsinkompetent ist und genuine Selbstbestimmung nicht möglich ist. Indem jemand anderes die Entscheidung für die Person übernimmt, übt dieser auch Kontrolle aus. Darüber hinaus droht aber auch die Kontrolle der Entscheidung durch die Orientierung an der Text- oder Sprachproduktion aus der Vergangenheit. Immer dann, wenn die (kontrafaktische) Entscheidung eigentlich anders ausfiele als es der P4 bestimmt und man der Einschätzung der Geräte folgte, würde Zwang ausgeübt. Und dass den Systemen gefolgt würde – auch wenn Angehörige und/oder Freund*innen die Lage anders einschätzen würden – ist nicht unwahrscheinlich. Das liegt an einem psychologischen Phänomen: dem Automation Bias. Besonders aus der Forschung im Bereich der Luftfahrt aber auch aus der medizinischen Forschung ist es bekannt, dass die Gefahr besteht, dass Menschen einem technisch-automatisiertem Output mehr vertrauen als dem eigenen Urteil, auch wenn dies eine Fehleinschätzung repräsentiert. Maschineller Technologie wird ein übermäßiges Vertrauen entgegengebracht. Geräte werden eingesetzt, damit man weniger Arbeit hat, damit Arbeit zum Teil von ihnen übernommen wird und damit weniger menschliche Fehler gemacht werden. Dies kann dazu führen, dass man sich auch bei Verwendung der Geräte Arbeit ersparen möchte, Verantwortung an die Geräte abgibt und diese auch als Autoritäten im betreffenden Gebiet anerkennt, so dass Fehler durch Unterlassung (ommission error) oder Befolgung (commission error) wahrscheinlich werden. Und das kann zunehmen, je komplexer die Aufgabe, je größer die Belastung ist und je weniger der- oder diejenige Erfahrung in dem Gebiet hat, in dem Einschätzungen gemacht oder Entscheidungen getroffen werden sollen.Footnote 50 Hinzu kommt, dass ein technischer Output im medizinischen Kontext den Anschein harter wissenschaftlicher Evidenz mit sich bringt. Unberücksichtigt bleibt bei einem solchen Vertrauen, dass Werte möglicherweise fehlerhaft ermittelt sein können, Standards gesetzt, die nicht zur individuellen Konstitution passen, und die Datafizierung eine reduktive Verkürzung darstellt.Footnote 51

4.2 P4s als Entscheidungshilfe

Es dürfte deutlich geworden sein, dass ein P4 eine (kontrafaktisch-autonome) Entscheidung nicht ersetzen kann. Bleibt aber noch die Frage, ob diese Systeme nicht wertvolle Zusatzinformationen liefern können, die menschlichen Stellvertreter*innen weiterhelfen könnten, eine anstehende Entscheidung zu fällen. Oben wurde schon dafür argumentiert, dass die Informationen keinen epistemischen Zugewinn darstellen. Da der P4 ein Gedankenkonstrukt ist und man noch nicht genau weiß, zu welcher Art Antwort ein solches System fähig ist, kann man überlegen, ob es nicht doch Informationen gibt, die ein P4 beisteuern könnte, die hilfreich wären.

Das wäre der Fall, lieferte der P4 Antworten, die auf Plausibilität überprüfbare Begründungen einschlössen.Footnote 52 Würde der P4 im Falle Silvias antworten: ‚Silvia würde sich für einen Abbruch der Versorgung entscheiden, weil sie mehrfach im Kontext des Schauens von Medical-Drama Serien geäußert hat, dass sie ein Leben in einem vegetativen Zustand ablehnt.‘, dann könnten menschliche Stellvertreter*innen überlegen, ob sie diese Begründung im Falle von Silvia für relevant halten (z. B. Wie ernst sind Äußerungen zu nehmen, die Silvia beim Schauen von Serien gemacht hat?). Dieser Schritt ist notwendig, weil die menschlichen Stellvertreter*innen weiterhin die Verantwortung für die Entscheidung haben und überlegen müssen, ob sie die Informationen, die vom P4 bereitgestellt werden, für die Entscheidung als relevant erachten wollen. Werden sie als relevant erachtet, müssten sie in den Überlegungsprozess der Stellvertreter*innen integriert werden.Footnote 53 Das setzt aber voraus, dass Stellvertreter*innen Silvia in gewissem Umfang kennen und diesen Abgleich durchführen können. Ist ein solcher Abgleich nicht möglich ist der informationelle Zugewinn äußerst fraglich. Damit ist der Einsatz allenfalls von P4s unter Einhaltung der Forderung, dass überprüfbare Begründungen für Ermittlungsergebnisse mitgeliefert werden, als hilfreich anzusehen. Zu bedenken ist hier aber ebenfalls die oben angeführte Problematik des Automation Bias.

5 Zwei Einwände

Das Fazit bislang ist, dass der Einsatz der P4s nicht mit den Bedingungen der Autonomie harmoniert und dem Standard für eine stellvertretende Entscheidung nicht sehr nahe kommt. Es könnte aber immer noch argumentiert werden, dass die P4s das Beste sind, was uns in einer epistemisch sehr schwierigen Lage zur Verfügung steht. Die Systeme mögen zwar Autonomiebedingungen nicht erfüllen können, aber wenn menschliche Stellvertreter*innen sehr schlecht darin sind, Patientenpräferenzen zu bestimmen, dann sollte man sich dennoch an ihnen orientieren. Dem ist aber nicht so, wie in den nächsten beiden Abschnitten klar werden dürfte.

5.1 Zwei unterschiedliche Standards

Einen Einwand gegen die hier insgesamt vorgebrachte Kritik kann man im Artikel von Earp et al. finden. Die Autor*innen argumentieren, es stelle kein Hindernis dar, dass einem P4 als generativer KI ein genuines Verständnis für menschliche Präferenz- und Wert-Informationen fehlt. Ein solches Verständnis zu fordern, würde nämlich einen nicht plausiblen Doppelstandard aufmachen „whereby a P4 would be required to explain its predictions to a greater level of detail than a similarly situated human surrogate.“Footnote 54 Man würde von einem Präferenzbestimmungssystem die Einhaltung eines Standards einfordern, den man aber bei menschlichen Stellvertreter*innen nicht einfordern würde. Von einem P4 wird gefordert, dass Gründe und Werte einer Person tatsächlich gewürdigt werden müssen.Footnote 55 Von menschlichen Vertreter*innen würde man aber nicht fordern, dass sie tatsächlich die Gründe und Werte der Person, um die es geht, würdigen. Hier irren die Autoren allerdings. Von menschlichen Stellvertreter*innen kann man das nämlich durchaus erwarten und ich denke man sollte das auch tun, auch wenn das vielleicht vielfach in der Praxis nicht so gehandhabt wird.

Vielfach findet sich in der Literatur, dass Stellvertreter*innen ebenfalls vorhersagen sollen (gemeint ist wohl extrapolieren sollen), wie sich eine betroffene Person entscheiden würde. Wäre das die einzige Möglichkeit, den Standard von Buchanan und Brock einzuhalten, dann müssten Proponenten der P4s nur auf die Zukunft bauen und hoffen, dass die hier vorgebrachten epistemischen Bedenken ausgeräumt werden können. Ich denke aber, dass man den Standard anders lesen sollte. Buchanan und Brock selbst gehen nicht näher darauf ein, was es genau heißt, eine kontrafaktisch-autonome Entscheidung zu bestimmen. Vergegenwärtigen wir uns also noch einmal, was das beinhaltet. Geht man vom oben skizzierten Autonomieverständnis aus, dann ist der Stellvertreter oder die Stellvertreterin aufgefordert, eine Entscheidung zu treffen, die derjenigen möglichst nahekommt, welche die zu vertretende Person fällen würde, wäre sie autonom: d. h. die Handlung müsste kontrafaktisch intentional, verstehend und freiwillig sein. Stellvertreter*innen müssen also erstens aus Sicht der betroffenen Person in der jeweiligen Situation erfassen, um was für eine Handlung es geht, wie man sie ausführen (lassen) würde und warum sie ausgeführt wird. Sie müssen zweitens verstehen, welche für die betroffene Person wichtigen Konsequenzen die Handlung mit sich bringt. Drittens darf sich die Handlung aus Sicht der betroffenen Person keinem kontrollierenden Einfluss verdanken.

Legt man diesen Standard zugrunde, dann sollte eine stellvertretende Entscheidung nicht auf einer Extrapolation beruhen, sondern auf der Basis eines Standpunktwechsels erfolgen. Das kommt den oben genannten Bedingungen zumindest nahe. Eine stellvertretende Entscheidung sollte das Ergebnis des sich Hineinversetzens in die Lage der betroffenen Person unter möglichst vollständiger Einnahme ihres Standpunktes sein.Footnote 56 Ein Reflexionsprozess, der an ihrer statt durchlaufen wird und bei dem überprüft wird, ob sie der Handlung ablehnend gegenüberstehen würde, ob sie dieser einen Widerstand entgegenbringen würde. Um den Inhalt einer hypothetischen Entscheidung zu bestimmen, müssen Stellvertreter*innen also idealiter einen Mackie’schen Standpunktwechsel dritter Stufe anstreben. Sie müssen sich in die Lage des anderen hineinversetzen, „so daß [sic!] seine Wünsche, sein Geschmack, seine Vorlieben, Ideale und Wertvorstellungen genauso wie seine anderen Qualitäten, Fähigkeiten und seine äußere Lage wie zu etwas eigenem werden.“Footnote 57 Das ist ein völlig anderer Vorgang als die Methode, nach denen ein P4 arbeitet.

Dass ein solcher Standpunktwechsel, wenn überhaupt möglich, hohe Anforderungen an die Stellvertreter*innen stellt, ist ohne Frage richtig. Vermutlich wird vielfach nur ein Standpunktwechsel zweiter Stufe erfolgen – (Standpunktwechsel unter Beibehaltung der eigenen Präferenzen) oder einer, der zwischen der zweiten und dritten Stufe liegt. Zugegeben, man kann nicht gut überprüfen, ob Stellvertreter*innen derart bei der Entscheidungsfindung vorgehen, aber dennoch müsste das die Maßgabe sein, nach der sie vorgehen sollten. Es gilt dann, einen solchen Prozess der stellvertretenden Entscheidungsfindung via Standpunktwechsel entsprechend zu rahmen.Footnote 58

5.2 Ist es nicht wichtiger, mit hoher Wahrscheinlichkeit die richtige Präferenz zu treffen?

Ein Einwand, der von Stephen John gegen den PPP vorgebracht wurde, lautet, dass die Autonomie einer Person zu respektieren bedeutet, auf der Basis der richtigen Gründe, aus Gründen, die die betroffene Person selbst befürwortet hätte, zu einer stellvertretenden Entscheidung zu kommen: „[I]t is not simply a matter of treating them the ways they prefer to be treated. It is also important to make decisions for the right reasons, reasons the patient would also endorse.“Footnote 59 Gegen einen solchen Einwand macht Earp (unter Rekurs auf eine Argumentation bei Jardas et al.) folgendes geltend:

There may be trade-offs between respecting someone’s autonomy in the sense of how they actually want their life to go (based, in turn, on on [sic!] how they are treated) and honouring their assumed wishes for having surrogate decisions made for them according to a specific decision-making process (eg, only based on reasons they would endorse). However, in failing to honour their assumed wishes regarding a specific decision-making process nevertheless significantly improved one’s ability to respect their autonomy in the first sense, it may be that one has done more to respect their autonomy overall.Footnote 60

Earp (und auch Jardas et al.) gehen also davon aus, dass es zwei Weisen gibt, Autonomie zu respektieren: zum einen im Respekt vor Entscheidungen, wie man gewillt ist, das eigene Leben zu gestalten (Respekt vor dem Ergebnis einer Entscheidung; bezogen auf Silvias Fall: die Wahl einer der Behandlungsoptionen), und zum anderen Respekt davor, wie jemand wünscht, dass eine stellvertretende Entscheidung getroffen wird (Respekt vor der Wahl einer bestimmten Methode der Stellvertretung; bezogen auf Silvias Fall: Silvia würde z. B. eine stellvertretende Entscheidung durch jemanden wünschen, der ihre Gründe für eine Entscheidung anerkennen kann).

Diese Replik verfehlt aber die Stoßrichtung des Einwandes, denn es gibt hier nicht zwei Weisen, wie man Autonomie respektieren kann, sondern nur eine: die des Respekts vor den Entscheidungen, die die Gestaltung des eigenen Lebens betreffen. Eine dieser Entscheidungen kann es sein, dass man sich nur von einer Entität vertreten lassen will, die fähig ist, eine Entscheidung aus Gründen zu fällen. Es kann aber auch die Entscheidung sein, dass im Falle der Stellvertretung auf ein möglichst genaues Instrument der Extrapolation zurückgegriffen werden soll. Sind solche Weichenstellungen bekannt, dann ist diesen gemäß vorzugehen. Es scheint mir vor dem Hintergrund des Respekts vor der Autonomie kein Problem zu sein, würde jemand verfügen, im Falle einer medizinischen Situation wie der Silvias nach Maßgabe eines P4s behandelt zu werden. Der Respekt vor der Autonomie ist in einem solchen Fall gewahrt, genauso als würde jemand verfügen, dass menschliche Stellvertreter*innen entscheiden sollen. Es handelt sich dann gewissermaßen um eine P4-Bevollmächtigung. Einer solchen Vorausverfügung wäre genauso zu entsprechen, als hätte sich der Betroffene inhaltlich festgelegt. Silvias Fall ist insofern besonders, als dass keinerlei Vorausverfügung vorliegt – und um genau diese Art von Konstellationen geht es hier: es existiert weder eine inhaltliche noch eine Verfügung, die die Bevollmächtigung betrifft. In solchen Fällen ist eine kontrafaktisch autonome Entscheidung zu eruieren. Earp scheint der Ansicht zu sein, man könne das Ergebnis einer Entscheidung (eine Wahl, die getroffen wird) vom vorausgegangenen Deliberationsprozess abkoppeln. Das legt nahe, dass eine Entscheidung als isolierbarer zeitlicher Endpunkt eines Überlegungsprozesses verstanden wird und dass es ausreicht, gewissermaßen dieses ‚Isolat‘ zu respektieren. Das ist aber aus (mindestens) zwei Gründen verfehlt:

Untrennbarkeit der Entscheidungen von ihren Gründen: Erstens gebrauchen wir den Ausdruck ‚sich entscheiden‘ so, dass dabei Gründe eine Rolle spielen müssen.Footnote 61 Wenn jemand etwas ‚ohne Grund‘ tut, z. B. ohne darüber nachzudenken den rechten Socken vor dem linken anzieht, dann würden wir nicht sagen, diese Person habe sich dazu entschieden, die Socken in genau dieser Reihenfolge anzuziehen. Sie hat sich zwar entschieden, Socken anzuziehen (weil es kalt ist und sie warme Füße haben möchte), aber sie hat sich nicht entschieden erst den rechten und dann den linken anzuziehen. Dieser letztere Akt ist unbegründet und ist etwas anderes als eine Entscheidung. In den uns interessierenden medizinischen Fällen geht es aber nicht um solche unbegründeten, mechanischen Akte, sondern um eine Entscheidung für etwas. Man kann sagen, dass sich zu entscheiden, eine „Willensbildung angesichts von Erwägungen“Footnote 62 bedeutet. Darum kann man das Ergebnis einer Willensbildung nicht von ihren Erwägungen trennen. Der Wille bzw. die Absicht wird gebildet, indem Erwägungen in Bezug auf eine Handlungsoption angestellt werden. Damit sind Entscheidungen unauflöslich mit Gründen verbunden.

Wahl des besseren Instruments und der Respekt vor der Autonomie: Zweitens muss man zwischen dem Respekt vor einer (kontrafaktisch-)autonomen Entscheidung einer Person einerseits und der Wahl des besseren Instruments zur Bestimmung eines Wahlaktes andererseits unterscheiden. Wenn man das bessere Instrument wählt, dann trifft man zwar im Mittel mehr Behandlungsentscheidungen, die mit denen übereinstimmen, die jemand treffen würde, wäre er oder sie kompetent. Das bedeutet aber nicht, dass man die (kontrafaktische) Entscheidung der je individuellen Person respektiert hat. Man könnte hier denken, dass ein P4, der mit individuellem Textmaterial trainiert wurde, der individuellen Person notwendigerweise gerecht werden müsste. Das ist aber nicht der Fall. Das für die Bestimmung des mutmaßlichen Willens herangezogene Textmaterial wird sich in Qualität und Quantität von Person zu Person unterscheiden. Auch hier wird es nur eine allgemeine Gewähr in Bezug auf das Ausmaß der Verlässlichkeit geben. Würde man den P4 allein auf der Grundlage einer durchschnittlichen Verlässlichkeit bevorzugen, verlöre das Prinzip des Respekts vor der Autonomie den individuellen Bezugspunkt – es wäre populationsbezogen gedacht. Sich einem individualisierten und überprüfbaren Output von P4 anzunähern, wäre vielleicht möglich, wenn Personen intensiv und dauerhaft eigenes privates Textmaterial einspeisen und anschließend überprüfen würden, ob der generierte Output tatsächlich mit den eigenen Präferenzen übereinstimmt. Das wäre aber ein unverhältnismäßig hoher Aufwand, der zudem einen erheblichen Einschnitt in die Privatheit und ein Einfallstor für Missbrauch dieser Informationen darstellte.

6 Zusammenfassung

Fälle, in denen eine medizinische Entscheidung für entscheidungsinkompetente Patient*innen zu treffen ist und in denen keine Patientenverfügung vorliegt, stellen eine große Herausforderung für den klinischen Alltag dar. Der Einsatz von PPPs/P4s zur Bewältigung dieser Herausforderung ist allerdings sowohl von epistemischer wie normativer Seite zu kritisieren. Diesen Systemen wird zwar zugeschrieben, verlässlicher als menschliche Stellvertreter*innen zu sein. Aber diese Verlässlichkeitsurteile sind, ob der Problematik der Kontrafaktizität, mit Vorsicht zu genießen. Es ist zudem fraglich, welche Aussagekraft ein Output hat, das allein auf korrelativen Zusammenhängen basiert. Soziodemographische Faktoren sind keine Kausalfaktoren und stellen üblicherweise keine Gründe für Entscheidungen dar. Gruppen basierte statistische Schlüsse auf Individuen sind vor dem Hintergrund einer Frage, die sich auf die individuelle Selbstbestimmung bezieht, als nicht adäquat anzusehen. Damit disqualifizieren sich PPPs als Lösung für das Ausgangsproblem. Die Annahme, dass P4s mit hoher Treffsicherheit persönliche Präferenzen bestimmen können, sieht sich sowohl mit generellen Problemen konfrontiert, die Large Language Models zu eigen sind, als auch mit spezifischen Problemen, die sich auf die Ermittlung persönlicher Präferenzen via LLMs beziehen. Die postulierte Individualität und Qualität eines Outputs, das über ein LLM generiert wird, ist zweifelhaft. Durch ein Fine-Tuning von LLMs mit persönlichen Texten ist es – zumindest derzeit – weder plausibel, dass Individualität zu garantieren ist, noch, dass persönliche Werte und Präferenzen (insbesondere für existentielle Grenzsituationen) ermittelt werden können. Wäre es entgegen den vorgebrachten Bedenken – vielleicht in Weiterentwicklung der LLMs in der Zukunft – doch möglich, dass mit einem P4 sehr treffsicher Präferenzen für verschiedenste Kontexte eruiert werden könnten, dann scheint das dadurch möglich zu werden, dass hoch private Informationen kontinuierlich eingespeist und von der betreffenden Person regelmäßig auf Plausibilität überprüft würden. Das sind allerdings Kosten, die unverhältnismäßig hoch sind, was Aufwand, Einschnitte in die Privatheit und die Missbrauchsanfälligkeit betrifft.

Aus normativer Perspektive wird für die hier relevanten Fälle ein Standard für stellvertretende Entscheidungen angesetzt, der besagt, dass man so wählen soll, wie die jetzt inkompetente Person wählen würde, wäre sie kompetent. Nimmt man dies wörtlich – und das sollte man tun, wenn das dahinterstehende Prinzip der Respekt vor der Autonomie ist –, dann kann es hier nicht um Extrapolationen gehen, sondern um stellvertretende Entscheidungen. Eine stellvertretend (kontrafaktisch) autonome Entscheidung beinhaltet, dass sie stellvertretend intentional, hinreichend verstehend und freiwillig erfolgt. In allen diesen Aspekten würde eine Verwendung von P4s als Ersatz für stellvertretende Entscheider*innen Schwierigkeiten mit sich bringen. Wenn man etwas intendiert, etwas wählt oder entscheidet, dann geht das nicht mit einer induktiven Gewissheit einher, sondern mit einer Gewissheit basierend auf Gründen. Solche Gewissheiten kann ein P4 aber nicht liefern. Außerdem ist unklar, wie mit P4s das für eine autonome Wahl notwendige Verstehen hergestellt werden kann. Es müsste gewährleistet sein, dass die Folgen der Handlung verstanden sind, die der Person wichtig sind. Zudem dürfte sich die Handlung nicht einem kontrollierenden Einfluss verdanken. Es steht aber zu befürchten, dass mit dem P4 Kontrolle erfolgt, indem ein Output generiert wird, das dem mutmaßlichen Willen nicht entspricht. Zugegebenermaßen ist letzter Aspekt auch für menschliche Stellvertreter*innen nicht von der Hand zu weisen. Auch sie können falsche stellvertretende Entscheidungen treffen. Die derzeitige Praxis – wenn über einen Standpunktwechsel erfolgend – ist gegenüber der technischen Variante allerdings im Vorteil, da mit ihr die anderen Autonomiebedingungen (wenn auch eingeschränkt) erfüllt werden können. Als Ersatz für eine stellvertretende Entscheidung empfiehlt sich ein P4 daher nicht. Er könnte allenfalls unterstützend herangezogen werden, das aber auch nur dann, wenn zum Extrapolationsergebnis eine Begründung mitgeliefert wird, die auf Plausibilität überprüft werden kann.