Ein kritischer Blick auf die Idee eines Patient Preference ‚Predictors‘

Hiekel, Susanne

doi:10.1007/s42048-024-00188-z

Ein kritischer Blick auf die Idee eines Patient Preference ‚Predictors‘

Fachaufsatz
Open access
Published: 19 June 2024

(2024)
Cite this article

Download PDF

You have full access to this open access article

Zeitschrift für Ethik und Moralphilosophie Aims and scope Submit manuscript

Ein kritischer Blick auf die Idee eines Patient Preference ‚Predictors‘

Download PDF

Susanne Hiekel ORCID: orcid.org/0009-0004-9098-2382¹

119 Accesses
Explore all metrics

Zusammenfassung

Wenn Patient*innen die Fähigkeit verlieren, in klinische Maßnahmen einzuwilligen, aber keine Patient*innen-Verfügung vorliegt, ist der mutmaßliche Wille zu ermitteln. Um dies besser als bislang gewährleisten zu können, wird der Einsatz eines Patient Preference Predictors diskutiert: ein Instrument, das auf der Basis algorithmischer Korrelationen (PPP) bzw. mit Hilfe eines Large Language Models (personalisierter PPP (P4)) die mutmaßliche Präferenz einer Person ermitteln soll. Ein Einsatz von PPPs/P4s ist allerdings kritisch zu sehen, da sowohl von epistemischer als auch von normativer Seite Bedenken anzumelden sind. So stellen nämlich rein korrelative Zusammenhänge keine adäquate Grundlage für die Ermittlung zu respektierender individueller (kontrafaktisch) autonomer Präferenzen dar. Der PPP ist daher abzulehnen. Bei einem P4 ist es fraglich, ob die notwendige Individualität und hinreichende Qualität der Präferenzermittlung gewährleistet werden kann. Sollte ein Ersatz menschlicher Stellvertreter*innen durch einen P4 erwogen werden, so ist zu kritisieren, dass notwendige Bedingungen zur Erfüllung des Prinzips des Respekts vor der Autonomie nicht erfüllt werden bzw. der darauf basierende Standard für stellvertretende Entscheidungen nicht gut eingehalten werden kann. Ein P4 sollte daher, wenn überhaupt, nur zur Unterstützung bei der Entscheidungsfindung herangezogen werden – und dies auch nur dann, wenn nachprüfbare Begründungen für eine Präferenzbestimmung durch den P4 bereitgestellt werden.

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

1 Einleitung

In der Medizin der Zukunft werden sich Entscheidungsprozesse durch sogenannte „digitale Systeme zur klinischen Entscheidungsunterstützung“ (clinical decision support systems / CDSS) verändern. Insbesondere in medizinischen Bereichen, in denen Diagnosen und entsprechende Behandlungsempfehlungen bildgestützt sind,^{Footnote 1} versprechen neue Technologien – vor allem solche, die über künstliche Intelligenz (KI) verfügen^{Footnote 2} – eine Verbesserung gegenüber konventionellen Verfahren. Die Erwartung ist, dass mit Hilfe von CDSSs menschliche Leistungen erreicht, vor allem aber übertroffen werden können. Der Einsatz von CDSSs wird in den Bereichen Diagnostik, Therapie, Prävention und Prädiktion von Krankheiten diskutiert. Sie sollen die Informationsbasis von Ärzt*innen und Patient*innen bei klinischen Entscheidungen verbessern und man erhofft sich dadurch Fortschritte in der Patient*innen-Versorgung.^{Footnote 3} Die Hoffnung auf Kostenreduktion spielt sicher auch eine Rolle.

Einen Sonderfall eines CDSSs stellt ein Patient Preference Predictor (PPP) dar. Annette Rid und David Wendler haben die Idee eines PPP entwickelt, der dabei helfen soll, Entscheidungen zu fällen, wenn zuvor einwilligungsfähige Patient*innen ihre Entscheidungsfähigkeit verloren haben.^{Footnote 4} Liegt in einem solchen Fall keine Vorausverfügung vor, dann ist vor dem Hintergrund des Prinzips des Respekts vor der Autonomie der mutmaßliche Wille der betreffenden Person zu eruieren. Man nimmt an, dass der Respekt vor der Autonomie unter Verwendung eines PPPs besser gewährleistet ist, als würde man menschlich stellvertretende Entscheider*innen nach dem mutmaßlichen Willen der Person befragen. Diese Annahme der Proponenten der PPPs wird hier kritisch in den Blick genommen.

Dazu werde ich als erstes mit der Autonomiekonzeption nach Ruth Faden, Tom Beauchamp und James Childress (Three Condition Theory) eine normative Basis legen sowie den normativen Standard für eine stellvertretende Entscheidung nach Buchanan und Brock skizzieren. Nach Verdeutlichung der Idee eines PPPs und auch seiner konzeptionellen Weiterentwicklung (dem personalisierten PPP (P4)) werde ich aus epistemischer Sicht Bedenken in Bezug auf Verlässlichkeits- und Nützlichkeitsurteile erheben. Im Ergebnis wird der Einsatz von PPPs zurückgewiesen und der nutzbringende Einsatz von P4s als zumindest fraglich ausgewiesen. In einem zweiten Schritt werde ich dafür argumentieren, dass P4s nicht nur aus epistemischer, sondern auch aus normativer Perspektive problematisch sind: Es ergeben sich Schwierigkeiten im Hinblick auf die Patient*innen-Autonomie auf mehreren Ebenen. Man ist weit davon entfernt, den Standard für stellvertretende Entscheidungen erfüllen zu können, sodass sie als Ersatz für menschliche stellvertretende Entscheider*innen nicht verwendbar sind. Als Entscheidungshilfe kommen sie nur in Frage, wenn bestimmte Zusatzanforderungen erfüllt werden. Abschließend werde ich zwei Einwände gegen die hier entwickelte kritische Beurteilung diskutieren und zurückweisen.

2 Hintergrund

Die klinischen Situationen, die den Einsatz von PPPs attraktiv erscheinen lassen, sind solche, in denen Patient*innen ihre Entscheidungsfähigkeit verloren haben. Man stelle sich folgenden Fall vor:

Silvia erleidet einen Herzstillstand. Sie wird daheim aufgefunden, reanimiert und in ein Krankenhaus gebracht. Das Herz-Kreislaufsystem kann stabilisiert werden, allerdings wird festgestellt, dass Silvia aufgrund einer Sauerstoffunterversorgung schwere Gehirnschäden davongetragen hat. Sie befindet sich jetzt ohne Aussicht auf Besserung in einem vegetativen Zustand. Es steht die Frage im Raum, ob Silvias Lebensfunktionen aufrechterhalten werden sollen. Eine Vorausverfügung, auf die man für eine solche Entscheidung zurückgreifen könnte, hat Silvia nicht verfasst.^{Footnote 5}

In einem Fall wie diesem wird üblicherweise eine bevollmächtigte Person zum mutmaßlichen Willen der Patientin befragt. Sie versucht anhand von Indizien zu ermitteln, wie die Patientin selbst entscheiden würde, wäre sie kontrafaktisch dazu in der Lage. An diesem Vorgehen wird allerdings Kritik geübt, denn Studien legen nahe, dass Bevollmächtigte oder Betreuer oft inakkurat entscheiden. Nur in zwei von drei Fällen liegen diese mit ihren Vermutungen, wie sich jemand anderes entscheiden würde, richtig.^{Footnote 6} Handelt es sich bei diesen Stellvertreter*innen um Angehörige, sind sie zudem vielfach befangen.^{Footnote 7}

Als Ausweg aus dieser Problematik wird der Patient Preference Predictor diskutiert. Befürworter*innen gehen davon aus, dass PPPs mit höherer Wahrscheinlichkeit eine mit den Werten und Präferenzen der betroffenen Person konsistente Behandlungswahl treffen als es menschlichen Stellvertreter*innen anscheinend möglich ist.^{Footnote 8} Die Idee ist, mit Hilfe von statistischen Algorithmen bzw. künstlicher Intelligenz eine Patientenpräferenz für die zu treffende Entscheidung zu extrapolieren, an der man sich orientieren sollte.^{Footnote 9} Der Einsatz solcher PPPs könnte den Prozess der Entscheidungsfindung zwischen Stellvertreter*innen und Mediziner*innen ergänzen.^{Footnote 10} Es gibt sogar Autor*innen, die ob einer postulierten epistemischen Überlegenheit der PPPs dafür plädieren, stellvertretende Entscheider*innen generell durch PPPs zu ersetzen. So fordern etwa Hubbard und Greenblum in Fällen, in denen Patient*innen keine medizinische Vollmacht erteilt haben, für ein dem PPP ähnliches System – dem „Autonomy Algorithm“ (AA): „[I]n such cases, and against the standard practice of vesting familial surrogates with decision making authority, the AA should have the sole decision-making authority.“^{Footnote 11}

Nach Rid und Wendler böte der Einsatz eines PPPs folgende Vorteile:^{Footnote 12} Erstens nehmen die Autor*innen an, dass mit einem PPP das Ziel, eine mit Patientenwerten und -präferenzen konsistente Entscheidung treffen zu können, eher erreicht wird. Zweitens werde in einer für stellvertretende Entscheider*innen emotional fraglos hochgradig belastenden Stresssituation mit PPPs eine Entlastung in Aussicht gestellt. Drittens verbessern sie mutmaßlich die Entscheidungssituation, indem sie helfen, Konflikte zu verringern und Prozesse zu beschleunigen. Während eine Überprüfung der letzten beiden Annahmen eher Sache der Psychologie und der empirischen (Konflikt‑)Forschung sind – auch hier bin ich skeptisch, ob PPPs diese Vorteile mit sich bringen –, ist der erste postulierte Vorteil unmittelbar normativ relevant und allein um diesen Aspekt wird es im Folgenden gehen. Der Ausgangspunkt stellt die Annahme dar, dass die Autonomie der Patient*innen mit einem PPP besser berücksichtigt werden kann, weil mutmaßliche Präferenzen sich besser bestimmen lassen werden. Um diese Annahme einer kritischen Prüfung zu unterziehen ist es zunächst notwendig, den normativen Hintergrund – die Three Condition Theory der Autonomie und den Standard für stellvertretende Entscheidungen – sowie die Grundidee eines Patient Preference Predictors zu skizzieren.

2.1 Der normative Hintergrund

Wie der Name – Three Condition Theory – dieser für die Medizinethik paradigmatischen Theorie schon anzeigt, betrachten Beauchamp, Faden und Childress eine Handlung bzw. Entscheidung einer Person unter genau drei Bedingungen als autonom. So heißt es: „X acts autonomously only if X acts 1. intentionally, 2. with understanding, and 3. without controlling influences.“^{Footnote 13} Diese Bedingungen – Intentionalität, Verstehen und Freiwilligkeit – sind einzeln notwendig und zusammen hinreichend dafür, eine Handlung als autonom auszuweisen.

Intentionalität: Die erste der drei Bedingungen ist eine Grundvoraussetzung, denn Handeln impliziert Intentionalität. Als Abgrenzung zum bloßen Verhalten scheint diese Bedingung nahezu trivial. Dennoch möchte ich diese Bedingung hier kurz weiter erläutern, weil auch sie für die Beurteilung von PPPs/P4s relevant ist. Eine intentionale Handlung ist eine, die entsprechend einem Plan gewollt ist.^{Footnote 14} Man muss begreifen, was, wie und warum man etwas tun will.^{Footnote 15} Personen verstehen sich so als Urheber ihrer Handlungen, deren Grund in ihnen selbst zu suchen ist. Einen Plan zu haben bedeutet, dass man (zumindest implizit) begreift, worum es bei der entsprechenden Handlung geht. Hat sich die Person zu einer Handlung entschieden, dann ist sie sich dieser Aspekte gewiss.^{Footnote 16}

Verständnis: Die zweite Bedingung, das auf hinreichendem Verstehen basierende Handeln, ist eng verwoben mit der ersten, geht aber darüber hinaus. Für ein verstehendes Handeln ist es nicht nur erforderlich, dass man erfasst, was, wie und zu welchem Zweck man etwas tun will. Man muss auch die Konsequenzen der Handlung begreifen. Dabei geht es natürlich nicht um alle möglichen Konsequenzen, denn das würde bedeuten, im vollen Umfang und adäquat alle relevanten Propositionen zu erfassen, die die Handlung und die Folgen ihrer Ausführung oder Nicht-Ausführung beschreiben.^{Footnote 17} Würde ein volles Verständnis gefordert sein, dann handelten die wenigsten von uns autonom. Damit eine Handlung als autonome gelten kann, ist es ‚nur‘ erforderlich, dass die individuelle Person diejenigen relevanten Beschreibungen der Handlung und deren vorhersehbare Folgen erfasst, die ihr wichtig sind.^{Footnote 18}

Freiwilligkeit: Die dritte Bedingung fordert, dass autonome Handlungen freiwillig erfolgen müssen. Das wird negativ bestimmt: eine Handlung ist freiwillig, wenn sie unter keinem kontrollierenden Einfluss steht. Hier unterscheiden Faden, Beauchamp und Childress drei Arten von Einfluss: Zwang (coercion), Manipulation (manipulation) und Überzeugung ((rational) persuasion), wobei Zwang und Überzeugung die beiden äußeren Pole von Einflüssen darstellen (völlig kontrollierend und völlig nicht-kontrollierend). Zwischen diesen beiden Polen spannen Manipulationen ein breites Feld möglicher Einflussnahmen auf.

Ist jemand nicht mehr in der Lage, die drei oben genannten Bedingungen zu erfüllen, und es muss über eine medizinische Maßnahme entschieden werden, dann besteht ganz überwiegend Konsens, dass die Autonomie der Patient*innen auch in diesen Fällen respektiert werden muss.^{Footnote 19} Aus diesem Grund orientiert man sich möglichst an einer Vorausverfügung. Vorausverfügungen werden allerdings nicht so häufig aufgesetzt, wie es wünschenswert wäre,^{Footnote 20} und sie werden vielfach nicht aktualisiert. Je älter aber eine Verfügung ist, „desto mehr Zweifel entstehen, ob sie die aktuelle Meinung des Patienten bis zu dem Zeitpunkt widerspiegelt, an dem er seine Äußerungsfähigkeit verloren hat.“^{Footnote 21}

Liegt wie in Silvias Fall keine Patientenverfügung vor, dann wird die Entscheidung von einem Vertreter oder einer Vertreterin getroffen. Stellvertretende Entscheidungsträger*innen sollen, wo immer es entsprechende Indizien gibt, nach Maßgabe des mutmaßlichen Willens der betroffenen Person eine Entscheidung für sie treffen. Für die Entscheidung durch Stellvertreter*innen wird dann folgender Standard gesetzt:

In the case of proxy advance directives, the same respect for self-determination that justifies the recognition of the authority of an advance directive in the first place suggests that the proxy ought […] to attempt to make decisions according to the substituted judgement standard – choosing as the incompetent individual would choose in the circumstances were he or she competent.^{Footnote 22}

Als Maßstab oder Ideal wird hier die hypothetische Wahl der jetzt inkompetenten Person gesetzt, wäre sie in genau dieser Situation kompetent. Gesucht ist also eine kontrafaktisch intentionale, auf hinreichendem Verstehen basierende und freiwillige Entscheidung. Zugegebenermaßen ist das ein Standard, der sich vor hohe epistemische Herausforderungen gestellt sieht. Erkennt man aber das Prinzip des Respekts vor der Autonomie auch hier als relevant an, dann mag es zwar schwierig sein, diese Herausforderungen zu meistern, es entbindet aber nicht von der Notwendigkeit, es zu versuchen.

Vor dem Hintergrund der Schwierigkeiten, die menschliche Stellvertreter*innen bei der Ermittlung einer hypothetischen Entscheidung anscheinend haben, fragt sich, ob es nicht eine Möglichkeit gibt, diese stellvertretende Entscheidung zu unterstützen oder sogar zu ersetzen, und eben das bringt die Idee eines Patient Preference Predictors (PPP) ins Spiel.

2.2 Die Idee eines (personalisierten) PPP

Ein PPP ist ein (bislang nur gedanklich existierendes) System zur Entscheidungsunterstützung. Bislang sind solche Systeme nicht verfügbar; es handelt sich lediglich um konzeptuelle Überlegungen. Die ursprüngliche Idee eines PPPs ist es, dass in einer repräsentativen Umfrage soziodemographische Merkmale (Alter, Geschlecht, geographische Lokalisation, Bildung, Beschäftigungsstatus, Religiosität, etc.) sowie Behandlungspräferenzen für bestimmte medizinische Situationen erhoben werden und dies statistisch auf korrelative Zusammenhänge analysiert wird. Auf dieser Basis soll dann extrapoliert werden, wie sich eine einwilligungsinkompetente Person wie z. B. Silvia entscheiden würde wäre sie kompetent einwilligungsfähig.^{Footnote 23} Anhand von Silvias individuellen Merkmalen – wie alt sie ist, welches Geschlecht, welchen Bildungsstand sie hat, wie religiös sie ist, etc. – wird basierend auf der Korrelation extrapoliert, wie sich Silvia entscheiden würde, wäre sie kompetent. Rid und Wendler gehen davon aus, dass „making individualized predictions of patient’s treatment preferences will, on average, be more accurate than the predictions of their surrogate decision makers.“^{Footnote 24} Individualisiert wären die Ergebnisse durch den Einschluss möglichst vieler sozio-demographischer Merkmale der Person. Der Entscheidende Vorteil der PPPs gegenüber Stellvertreter*innen soll nun sein, dass der Output ersterer mit höherer Wahrscheinlichkeit mit den mutmaßlichen Präferenzen übereinstimmen wird.

Gegen einen solchen PPP wird allerdings von Tretter und Samhammer eingewendet, dass Menschen dadurch stereotypisiert würden,^{Footnote 25} und von Sharadin bzw. John, dass allgemeine (nicht genuin individualisierte) statistische Daten nicht ausreichen, um individuelle Präferenzen vorhersagen zu können.^{Footnote 26} Aus u. a. diesen Gründen schlagen Earp et al. eine neue Variante – einen personalisierten PPP (P4) – vor:

We propose to use machine learning to extract patients’ values or preferences from individual-level material produced primarily by themselves in which their preferences are likely to be encoded (if only implicitly). This hypothetical model for predicting patient preferences would harness advances in generative artificial intelligence (AI) to create large language models (LLMs) adapted to (that is, fine-tuned on) a person-specific corpus of text […]. The result would be a sort of ‘digital psychological twin’ of the person […] that could be queried in real-time as to the patients’ most likely preferences for treatment in any given healthcare crisis. In short, the P4 would be a personalized, rather than population-based, patient preference predictor.^{Footnote 27}

Um einen Patient Preference Predictor zu personalisieren, soll also ein ‚vor‘-trainiertes Sprachmodell mit Material der jeweils betroffenen Person oder mit Material, das diese beschreibt, spezifisch weiter trainiert werden. Mit einem solchen Fine-Tuning erhofft man sich, Präferenzen und Wertvorstellungen der Person ermitteln zu können. Für das Fine-Tuning wird erwogen, unterschiedliches Textmaterial zu nutzen, das idealerweise medizinische Relevanz besitzt (Daten aus der Patient*innen-Akte und Biobanken, Befragungen im medizinischen Kontext). Aber auch andere Quellen werden erwogen. wie z. B. E‑Mails, Blog-Posts, Social-Media-Posts, Daten von Fitness-Trackern, Internet-Browsing-Verhalten, etc. – immer unter der Maßgabe, dass der Datenschutz eingehalten wird bzw. eine relevante Erlaubnis vorliegt.^{Footnote 28}

Earp et al. gehen davon aus, dass der P4 gegenüber einem PPP folgende Vorteile bietet:^{Footnote 29}

1.
Der P4 erbringt einen genaueren – auf Individualbasis generierten – Output,
2.
er deckt ein breiteres Spektrum möglicher Präferenzermittlung ab, da er nicht wie der PPP durch Umfrageszenarien limitiert ist und
3.
er ist weniger anfällig für Autonomie-basierte Einwände, wie sie gegen den PPP vorgebracht wurden.

Letzteres ist nach Earp et al. der Fall, weil die für die Präferenzermittlung herangezogenen Informationen, von der Person selbst stammen, um die es geht.

Es mag tatsächlich der Fall sein, dass die Autor*innen mit den ersten beiden Punkten richtig liegen: Die Präferenzermittlung ist im Vergleich zu einem PPP besser auf das Individuum abgestimmt, und möglicherweise ist auch das Spektrum von ermittelbaren mutmaßlichen Präferenzen weiter. Der dritte Punkt, die angebliche Resistenz von P4 gegen Autonomie-basierte Einwände, ist allerdings zu bezweifeln. Im Folgenden werde ich zeigen, dass weder PPPs noch P4s gegen Autonomie-basierte Einwände immun sind.

3 Epistemische Bedenken

Zunächst sind epistemische Bedenken anzumelden, denn die Bedeutung des Outputs von PPPs/P4s ist in Zusammenhang mit einer (kontrafaktischen) Entscheidung äußerst unklar. Erstens ist nämlich fraglich, wie die Urteile über die angeblich mangelnde Verlässlichkeit der stellvertretenden Entscheider*innen zu bewerten sind, die ja den Ausgangspunkt für die Diskussion um den Einsatz der PPPs/P4s darstellen (3.1). Zweitens arbeiten PPPs auf der Basis von statistischen Korrelationen. Damit ist deren Aussagekraft für mutmaßliche Entscheidungen individueller Personen zu hinterfragen (3.2). Drittens kann bezweifelt werden, dass mit P4s individualisierte Präferenzen sicher bestimmt werden können (3.3). Schließlich ist viertens der informative Zugewinn von extrapolierten Präferenzen für das Treffen von Entscheidungen fraglich (3.4).

3.1 Das Problem der Verlässlichkeitsurteile

Die Ermittlung der Verlässlichkeit einer Präferenzmutmaßung in Fällen wie dem Silvias ist mit dem ganz grundlegenden Problem belastet, dass ein empirischer Abgleich zwischen einer stellvertretenden Entscheidung und der ‚echten‘ Entscheidung der irreversibel nicht-selbstbestimmungsfähigen Person unmöglich ist. Personen wie Silvia können zum fraglichen Zeitpunkt keine Entscheidung treffen, die sich mit jener des/der Stellvertreter*in vergleichen ließe. Aus diesem Grund wird die Verlässlichkeit in Modellbefragungen ermittelt. Man spricht in diesem Zusammenhang von Entscheidungen in ‚hypothetischen Situationen‘ im Gegensatz zu solchen in Real-Life-Situationen.^{Footnote 30} Für Umfragen in hypothetischen Situationen werden entscheidungskompetente Personen gebeten, ihre antizipierenden Präferenzen für bestimmte medizinische Situationen anzugeben. Parallel dazu sollen Stellvertreter*innen einschätzen, wofür sich erstere vermutlich entscheiden werden. Mitunter findet sich auch die Formulierung, dass die Stellvertreter*innen raten (guessing) sollen, wie sich die zu vertretende Person entschieden hat.^{Footnote 31}

Die Aussagekraft eines solchen Untersuchungsdesigns ist allerdings nur begrenzt. Es wird nämlich unterstellt, dass der Entscheidungsprozess der betroffenen Personen in hypothetischen und in aktualen Situationen, also solchen, in denen tatsächlich eine folgenschwere Entscheidung getroffen werden muss, gleichartig ist.^{Footnote 32} Das ist allerdings keineswegs selbstverständlich. Es ist zu bezweifeln, dass mit der gleichen Ernsthaftigkeit und dem Sinn für die Bedeutung der entsprechenden Entscheidung agiert wird – das gilt sowohl für Stellvertreter*innen als auch die zu stellvertretenden Personen. Dieses Bedenken ist zu übertragen, würde man auf ähnliche Weise die Verlässlichkeit von PPPs/P4s bestimmen. Es bleibt an dieser Stelle festzuhalten, dass ein Ausgangspunkt mit dem ein Einsatz von PPPs/P4s häufig plausibel gemacht wird, nämlich das Stellvertreter*innen schlecht darin sind, mutmaßliche Präferenzen zu bestimmen, mit Vorsicht zu genießen ist.

3.2 Das Problem der bloßen Korrelation bei PPPs

Neben dieser Skepsis in Bezug auf das Setting empirischer Studien zur Beurteilung der Verlässlichkeit ist aber auch die Aussagekraft von Ergebnissen zweifelhaft, die allein auf Korrelationen beruhen. Es ist davon auszugehen, dass soziodemographische Merkmale wie Alter, Geschlecht, Herkunft, Bildungsstand etc. in keinem direkten Kausalzusammenhang mit individuellen Entscheidungen stehen. Die Sicherheit einer Prognose beruht aber allgemein darauf, dass ein kausaler Zusammenhang zwischen verschiedenen Variablen angenommen werden kann. Korrelationen bestehen auch (so sagt man wenigstens) zwischen der Anzahl von Störchen in einem Gebiet und der dortigen Geburtenrate. Man würde aber wohl keiner Prognose vertrauen, die sich allein auf die Anzahl der Störche berufen würde. Zugegeben, in einigen Fällen können uns starke Korrelationen gute epistemische Gründe geben. Aber dafür müsste nachgewiesen sein, dass es sich um starke Korrelationen handelt, dass die Merkmale, die gewählt werden, sachlich angemessen sind bzw. dass ein inhaltlicher Zusammenhang zwischen Stellvertretermerkmalen (hier: soziodemographische Faktoren) und Hauptmerkmal (hier: Entscheidung einer Person im relevanten Kontext) besteht. Solange der Faktor nicht bestimmt ist, aufgrund dessen eine Korrelation besteht oder zumindest die Stärke einer Korrelation nicht bekannt ist sowie der inhaltliche Zusammenhang nicht plausibilisiert wurde, steht die Verlässlichkeit eines Urteils in Frage.

Ein direkter Konnex zwischen den soziodemographischen Merkmalen und möglichen Entscheidungen ist jedenfalls nicht anzunehmen. Wir würden zu Recht davor zurückschrecken, Patient*innen-Präferenzen auf soziodemographische Merkmale zurückzuführen. Es mögen hier zwar Korrelationen bestehen, aber „we are all reluctant to say […] that the reason why we prefer (say) not to receive palliative care is because we are (say) straight, white, unmarried, college-educated 30-somethings.“^{Footnote 33} Wir treffen Entscheidungen nicht wegen dieser Merkmale. Dazu müssten sie Gründe für uns und unsere Entscheidungen sein. Das ist zwar logisch möglich, empirisch aber unwahrscheinlich.

Es ist auch kaum einzusehen, was es einem Stellvertreter oder einer Stellvertreterin nützen sollte, zu wissen, wie eine Person von Silvias Typ in der gegebenen Situation wahrscheinlich entscheiden würde. Eine statistische Auswertung bezieht sich immer auf eine Gruppe und gibt Auskunft in Bezug auf Merkmalsverteilungen innerhalb der Gruppe. Einen Schluss auf das Individuum ist hier aber verfehlt. Wenn man weiß, dass 90 % der Bewohner eines Stadtteils finanziell insolvent sind, dann kann man nicht darauf schließen, dass Silvia, die in dem Stadtteil wohnt, ebenfalls insolvent ist. Sie könnte sogar Millionärin sein. Das gilt auch, wenn man statistisch multifaktoriell arbeitet. Möglich ist es lediglich eine Aussage auf der Basis der Auswertung von Gruppenmerkmalen zu treffen, mit welcher Wahrscheinlichkeit Silvia finanziell insolvent ist. Für eine Vergabe von Krediten mag vielleicht ein solches Wahrscheinlichkeitsurteil interessant, wenn auch potentiell diskriminierend sein.^{Footnote 34} Bei der Vergabe von Krediten reicht den Geldgebern vermutlich aber auch zur Bestimmung ihres Risikos eine statistische Auswertung. Es wird ihnen wohl nicht darum gehen, das Individuum, um das es geht, wirklich in den Blick zu bekommen. Das ist bei den hier zu verhandelnden Fällen anders, denn es soll ja gerade ein höchst individuelles Urteil eruiert werden. Schon allein auf dieser Ebene scheint es die Sache zu verlangen, dass man eine (mutmaßliche) Entscheidung nicht qua Typzugehörigkeit bestimmt, sondern dass dabei die Persönlichkeit des Individuums berücksichtigt werden muss. Durch diese Problematik disqualifiziert sich der PPP als Möglichkeit, den Respekt vor der Autonomie individueller Personen gewährleisten zu können. Im Folgenden wird daher nur noch der P4 diskutiert.

3.3 Problem der mutmaßlich höheren Treffsicherheit des P4

Aber auch im Hinblick auf den P4 bestehen epistemische Bedenken. Proponenten gehen davon aus, dass ein P4 (kontrafaktische) Präferenzen einer Person mit großer Wahrscheinlichkeit treffen wird. Auch hier gibt es Grund zum Zweifel. Das liegt zum einen an generellen Problemen, zum anderen an spezifischen Problemen, die mit der personalisierten Präferenzbestimmung durch LLMs verbunden sind. Zum ersten Problemkomplex gehören die Schwierigkeiten, die sich durch sogenannte Halluzinationen und Biases der LLMs ergeben. Für den zweiten Komplex sind drei Probleme relevant: das der Oberflächengrammatik, das der Kontextabhängigkeit sprachlicher Äußerungen und das der existentiellen Grenzsituation.

Biases und Halluzinationen: Ein P4 würde zwar letztlich mit Textmaterial der betroffenen Person trainiert, einem solchen Fine-Tuning ginge aber ein nicht-individualisiertes Vortraining voraus. LLMs arbeiten auf der Basis einer großen textlichen Datenvielfalt. Es ist bekannt, dass sie dadurch soziale Vorurteile reproduzieren können.^{Footnote 35} Solche Biases können mit Einstellungen der betroffenen Person in starkem Kontrast stehen. Werden diese Biases reproduziert, dann würde das die Extrapolation von Präferenzen verfälschen.^{Footnote 36} So gesehen stellt die Verwendung von individuellen Texten nur einen bedingten Fortschritt gegenüber einem PPP dar. Außerdem tendieren LLMs dazu, Fehlinformationen zu liefern (sie ‚halluzinieren‘). Das heißt, dass sie auf Fragen mit plausibel klingenden Antworten reagieren, die inkorrekte Informationen enthalten.^{Footnote 37} Es konnte zwar bei der fortschreitenden Entwicklung von LLMs eine Reduktion solcher Halluzinationen erzielt werden,^{Footnote 38} dennoch bleibt es LLMs bislang inhärent zu halluzinieren. Es ist unklar, inwieweit sich ein Bias auf das Fine-Tuning und mögliche Halluzinationen auf die Qualität der Antworten eines LLMs auswirken wird. Empirisch wird sich das vermutlich erst nach der Entwicklung von P4s beurteilen lassen.

Oberflächengrammatik: Aber auch wenn sich das Vortraining nicht verzerrend auf das Fine-Tuning auswirken und LLMs nicht mehr halluzinieren würden, scheint es verfehlt, zu denken, man könnte Werte und Präferenzen mit einem spezifisch trainierten LLM ermitteln. Das unterstellt nämlich, man könnte das Selbstverständnis einer Person aus sprachlichen Äußerungen synthetisieren, die sie in verschiedenen Kontexten irgendwann getätigt hat. Werte und Präferenzen werden aber vielfach jenseits der Oberflächengrammatik sprachlicher Äußerungen ausgedrückt. Ein ‚Behandlung X würde ich mir wünschen!‘ könnte als Ausdruck des Wunsches nach Behandlung X interpretiert werden, es könnte aber auch ein ironischer Ausruf sein, mit dem man eigentlich das Gegenteil ausdrücken will (‚Das fehlt mir gerade noch!‘). Man implikiert mit Äußerungen in der Regel mehr als sich an der rein sprachlichen Oberfläche zeigt. Ob ein LLM diese kommunikative Vielfalt erfassen und Gricesche Implikaturen^{Footnote 39} auswerten kann, bleibt abzuwarten.

Kontextabhängigkeit: Was eine Person äußert, ist zudem oft relativ zu einem spezifischen Kontext und einer Rolle, die sie in diesem Kontext innehat. Es mag der Fall sein, dass LLMs Fortschritte in der Verarbeitung von offen kontextabhängig sprachlichen Äußerungen (d. h. Verwendung sprachlicher Ausdrücke im Kontext eines Textes) gemacht haben, aber es ist fraglich, ob auch sozusagen verdeckte sozial-situative Kontexte in ihrer Bedeutung erfasst und entsprechend interpretiert werden können. Sozial-kontextuelle Konventionen beeinflussen, was man sprachlich äußert und welche Werte und Präferenzen man zum Ausdruck bringt. Persönliche Emails unterscheiden sich beispielsweise sprachlich von beruflichen. Wie wird ein LLM hier gewichten? Die Häufigkeit getätigter Aussagen ist jedenfalls kein adäquates Kriterium, zeichnen sich doch ernst gemeinte Wert- und Präferenzäußerungen nicht notwendig dadurch aus, dass man sie besonders häufig tätigt.^{Footnote 40} Es ist eine offene Frage, wie die Entwicklung der LLMs mit dieser Schwierigkeit umgehen kann und wird.

Orientiert man sich andererseits nur an individuellen Befragungen zu bestimmten medizinischen Notfallszenarien, dann stellt sich die Frage, warum man nicht besser gleich eine solche Befragung zur Erstellung einer Patientenverfügung verwendet. Letzteres scheint einem Respekt vor der Autonomie näher zu kommen, als einen P4 zu programmieren und nach dem mutmaßlichen Willen einer Person zu befragen. Es mag zwar der Fall sein, dass LLMs relativ verlässlich ein gewisses Kaufverhalten oder eine Filmauswahl prognostizieren können, kann doch vorheriges Verhalten einer Person im selben Bereich herangezogen werden für den die Prognose erstellt wird. Das ist aber etwas anderes, als Werte und Präferenzen aus unterschiedlichen Textquellen für jedweden Kontext ermitteln zu wollen. Kann die Problematik der Entschlüsselung kontextabhängiger Bedeutung sprachlicher Äußerungen nicht hinreichend gelöst werden, dann wäre der Output eines P4 unzuverlässig, weil die Textbasis zu unspezifisch ist. Ist die Textbasis hingegen hochspezifisch, weil sie direkt aus Fragen zum Umgang mit Notfallszenarien generiert wird, dann scheint ein P4 überflüssig zu sein.

Existentielle Grenzsituation: Diese Problematik verschärft sich dadurch, dass es sich bei Silvia-Fällen nicht um alltägliche Kontexte und Situationen handelt, für die eine Präferenz ermittelt werden soll. Der Idee der Präferenzextrapolation ließe sich vielleicht etwas abgewinnen, wenn es um Aussagen zu Alltagsgewohnheiten ginge. Mit hoher Wahrscheinlichkeit wird Kant etwas daran gelegen haben, mittags einen Spaziergang zu machen – konnten doch die Königsberger ihre Uhr nach ihm stellen. Man fühlt sich berechtigt zu schließen, dass er auch an kommenden Tagen zur Mittagszeit spazieren gehen wird. Eine solche Extrapolation ist allerdings – unter dem Vorbehalt der Induktionsproblematik – nur für ungefähr gleiche Situationen und eingefahrene Verhaltensweisen einschlägig. In den hier zu analysierenden Fällen handelt es sich aber um spezifische existentielle Grenzsituationen, und die Wahrscheinlichkeit ist vermutlich nicht gering, dass Entscheidungen in solchen Situationen von jenen in Gewohnheitskontexten abweichen. Gefragt ist nach einer Entscheidung von ganz besonderer Tragweite. Es ist unklar, wie aus früher geäußerten Wünschen oder Äußerungen, die alltäglich und unabhängig von der fraglichen Situation sind, sicher genug hergeleitet werden kann, was in der gegenwärtigen Situation gewünscht oder geäußert würde. Es wäre seltsam anzunehmen, man könne auf der Basis von in Texten und Äußerungen ermittelten statistische Korrelationen eine Art digitalen psychologischen Zwilling erstellen, dem sich entnehmen ließe, wie die Person eine außergewöhnliche Situation beurteilt.

3.4 Das Problem des epistemischen Zugewinns

Aber auch wenn der Output eines P4s große Verlässlichkeit besäße, gäbe es immer noch ein epistemisches Problem. Man stelle sich vor, dass sich eine Person – nennen wir sie Peter – vor die Wahl zwischen Behandlungsabbruch oder Weiterbehandlung wie im Fall von Silvia gestellt sieht, sich allerdings in einwilligungskompetentem Zustand befindet. Angenommen, Peter würde ein ihn betreffender Output eines P4 zur Verfügung stellt. Wäre dieser für seine eigene autonome Entscheidung wertvoll? Das wäre er nur unter ganz bestimmten Umständen: Aus der Beobachterperspektive auf die eigene Person und unter einer spezifischen Fragestellung (‚Welche Entscheidung werde ich – Peter – wohl am wahrscheinlichsten in Situation X fällen?‘). Er erfährt, welche Präferenz, ermittelt auf der Basis von eigenem Textmaterial, von ihm zu erwarten wäre. Das hilft ihm aber allenfalls dann, eine autonome Entscheidung zu fällen, wenn es ihm wichtig ist, entsprechend einer derart rekonstruierten Präferenzbestimmung zu handeln. Es erscheint nun äußerst unwahrscheinlich, dass sich jemand für eine bestimmte Handlung entscheidet, weil sie einer rekonstruierten Biographie entspricht. Es entstünde daher keine Informationslücke für Peter, bliebe ihm das Ausgabeergebnis unbekannt.^{Footnote 41} Ohne das Ergebnis seiner P4-Analyse entsteht für Peter selbst also nur dann eine Informationslücke, wenn ihm die biographische Konsistenz seiner Entscheidung wichtig ist.

Nun mag es zwar der Fall sein, dass die Information für Peter keine Relevanz hat, aber ein*e Stellvertreter*in von Silvia wird doch mit den Ergebnissen eines P4s Informationen an der Hand haben, die sie berücksichtigen sollte. Das ist aber nicht der Fall. Angenommen die Frage an den P4 lautet: ‚Wie würde sich Silvia entscheiden? Würde sie in ihrer Situation A oder B wählen?‘ und der P4 antwortet: ‚Sie würde A wählen‘, dann kennt man nur das Ergebnis einer Extrapolation und nicht die Gründe, die Silvia heranziehen würde. Überprüfen kann man dieses Ergebnis zunächst einmal nicht. Man kann nicht herausfinden, auf welcher Basis der P4 zu seinen Ergebnissen kommt. Das Modell, auf dem diese Vorhersage basiert, kann nicht durchsichtig gemacht werden. Bei einem P4 bleibt die Art und Weise, wie es zu einem bestimmten Ergebnis kommt, notwendig epistemisch opak. Dieses Merkmal der methodischen Intransparenz ist allen Maschinenmodellen zu eigen, die über ein Deep Learning trainiert werden. Die Black Box solcher Systeme kann nicht oder wenn, dann nur sehr begrenzt geöffnet werden.^{Footnote 42} Und wenn die schwarze Box ein wenig grauer gemacht werden kann, dann hilft einem eine Aufhellung, die auf die mathematische Sphäre beschränkt ist, nicht viel weiter, erläutert eine solche Erklärung doch nur die grundlegende Funktionsweise des Modells, gibt aber keine Anhaltspunkte, wie ein Output im lebensweltlichen Kontext und bezogen auf die individuelle Person, zu der man Auskünfte erhofft, zu interpretieren ist. Neuere Ansätze, die verständlich machen sollen, wie ein Output zu interpretieren ist und unter dem Label Explainable AI (XAI) laufen, werden zwar in einem sich rasant entwickelndes Forschungsfeld vorgelegt. Deren Nutzen im Umgang mit der Künstlichen Intelligenz muss sich allerdings erst noch erweisen.^{Footnote 43}

Gegen den zuletzt genannten Punkt könnte man einwenden, dass faktische Entscheidungen anderer Menschen auch für Stellvertreter*innen notwendig epistemisch opak bleiben.^{Footnote 44} Wir wissen eben nicht genau, warum sich jemand für x und nicht für y entscheidet. Vielleicht ist es nicht einmal der Person selbst bewusst, ganz zu schweigen davon, dass andere Menschen darüber Bescheid wüssten. Das mag vielleicht auf den ersten Blick so sein, aber wir können hier nach Gründen fragen und Abwägungsprozesse in Erfahrung bringen.^{Footnote 45} Und das tun wir üblicherweise auch, wenn wir miteinander umgehen. Die menschliche Black Box lässt sich dialogisch zumindest zu einer hellgrauen, wenn nicht weißen machen. Zudem kann man nachfragen, warum Stellvertreter*innen meinen, die richtige Entscheidung getroffen zu haben, und dies auf Plausibilität überprüfen – darauf, ob das Begründungsmuster eines ist, das der betroffenen Person nachvollziehbarerweise zugeschrieben werden kann.

Man kann hier wiederum einwenden, dass auch menschliche Stellvertreter*innen nichts anderes machen als ein P4. Man könnte denken, dass auch sie nur auf der Grundlage ihrer Kenntnis der Person Präferenzen extrapolieren. Es mag zwar jetzt noch Bedenken hinsichtlich der oben geschilderten Probleme geben, aber diese Mängel werden angesichts der rasanten Entwicklung in der KI-Forschung bald behoben sein. Wenn menschliche Stellvertreter*innen und P4s aber beide etwas extrapolieren, dann wird die KI, wenn auch noch nicht jetzt, so doch in naher Zukunft, angesichts ihrer Rechen- und Analyseleistungen besser dastehen. Damit kommen wir zum zweiten Argumentkomplex: Auch wenn P4s in Bezug auf die Verlässlichkeit besser dastehen sollten, sagt doch eine höhere Verlässlichkeit noch nichts darüber aus, ob die Ergebnisse dieser Systeme innerhalb des Kontexts, in dem sie eingesetzt werden, angemessen sind. Es mag sein, dass P4s besser als stellvertretende Entscheider*innen Präferenzen extrapolieren können, aber das heißt noch nicht, dass dies angesichts des Kontexts als gut oder zu empfehlende Variante auszuweisen sind.

4 Normative Bedenken

Proponenten eines P4s meinen, dass es manchen nur falsch erscheint, von einer rein statistischen Analyse zu einer Entscheidung überzugehen. In Wirklichkeit sei das gar nicht normativ problematisch. Mit via KI ermittelten Präferenzen werde die Autonomie von Personen nicht notwendig in Frage gestellt. Das ist aber nicht ausgemacht. Auch wenn die P4s besser abschnitten als Stellvertreter*innen, sie also in Bezug auf die Reliabilität besser dastünden, steht die Frage im Raum, ob sie tatsächlich in Anbetracht des normativen Kontextes eine gute Wahl sind. Ist ein sich Verlassen auf eine solche Extrapolation dem normativen Kontext gerecht?

Zur Verdeutlichung, dass Extrapolationen mit hoher Trefferquote nicht notwendig in jedem Kontext angemessen sind, soll folgende Überlegung dienen: Besäße ein Richter eine Statistik, auf deren Grundlage eine Aussage über die Straffälligkeit einer vor Gericht stehenden Person mit 99 %iger Sicherheit gemacht werden könnte – was sicherlich die Prognoseleistung des Richters selbst übertrifft –, dann würde man dennoch nicht wollen, dass die Person auf der Grundlage einer solchen Extrapolation verurteilt wird.^{Footnote 46} Man würde vielmehr fordern, dass der Richter nach Sachlage und Beweisen eine Entscheidung fällt. Für das genaue Vorgehen sollte nicht die Statistik, sondern die Regularien der Rechtsprechung herangezogen werden.

Ähnliches gilt m. E. für den medizinischen Kontext in Fällen des Kompetenzverlustes bei vorheriger Entscheidungskompetenz und der Ermittlung eines mutmaßlichen Willens. Der hierzu gehörende normative Hintergrund ist die Beachtung des Prinzips des Respektes vor der Autonomie und hier speziell der Standard für die stellvertretende Entscheidung. Es ist, wie oben dargelegt, eine kontrafaktisch-autonome Entscheidung zu eruieren oder ihr zumindest sehr nahe zu kommen: eine Entscheidung, die intentional, verstehend und freiwillig wäre. Sieht man die P4s als Ersatz für menschliche Stellvertreter*innen-Entscheidungen, dann ergeben sich Probleme in allen drei Hinsichten. Werden P4s als zusätzliche Informationsquelle genutzt, dann ist es fraglich, ob sie per se einen relevanten Zugewinn darstellen.

4.1 P4s als Entscheidungsersatz

Sollten P4s menschliche Stellvertreter*innen ersetzen, dann müsste man mit ihnen eine kontrafaktisch-autonome Entscheidung fällen können oder zumindest möglichst nahe an einen solchen Standard herankommen. Bei allen drei Autonomiebedingungen ergeben sich Probleme.

Intentionalität: P4s können nichts entscheiden. Das liegt daran, dass die Ausgabeergebnisse der P4s und Entscheidungen kategorial voneinander verschieden sind. Das ist so, weil es mit P4s nicht möglich ist, die Intentionalitätsbedingung zu erfüllen. Wenn man eine Handlung intendiert, sich also zu etwas entschieden hat, dann liegt einem das Was, Wie und Warum einer Handlung vor Augen. Man besitzt diesbezüglich eine bestimmte Gewissheit. Diese Art der Gewissheit ist aber zu unterscheiden von einer Gewissheit, die man hat, weil man sich bislang auf eine bestimmte Weise verhalten hat. Erstere Art der Gewissheit ist eine, die aus der Teilnehmerperspektive besteht und auf Gründen basiert, letztere ist eine induktive Gewissheit, die aus der Beobachterperspektive besteht:

If a man does claim to be able to predict with certainty his own future actions, basing his prediction on induction, then he is implying that the actions in question will be in some sense, or to some degree, involuntary, the effect of causes outside his own control. If action in the situation envisaged were entirely voluntary, then it must be up to him to decide what he will do. If it is up to him to decide what he is going to do, then he must still be uncertain what he will do until he has made a decision or until his intentions are formed. While he is making the decision, and while he is reviewing reasons for acting one way rather than another, he must be in a state of uncertainty about what he is going to do. The certainty comes at the moment of decision, and indeed constitutes the decision, when the certainty is arrived at this way, as a result of considering reasons, and not as a result of considering evidence.^{Footnote 47}

Vorhersagen – und auch die Extrapolationen der P4s – basieren auf einer induktiven Gewissheit. Sie extrapolieren aus vergangenen Handlungen und sprachlichen Äußerungen eine zukünftige Verhaltensweise. Willentliche Entscheidungen basieren hingegen auf Gründen. Sie sind nicht aus Verallgemeinerungen aus Gesagtem oder Verhalten aus der Vergangenheit zu verstehen. Würde ein Sich-Entscheiden bedeuten, dass die Entscheidung direkt aus Gesagtem oder Verhalten aus der Vergangenheit folgt, dann würde das bedeuten, dass man in bestimmten Situationen auf Handlungen festgelegt wäre. Das widerspricht geradezu der Idee von Selbstbestimmung. Man kann aber selbstbestimmt immer auch noch einmal das Steuer sozusagen herumreißen und ganz anders als bisher entscheiden. Der P4 kann hingegen nur mit einer induktiven Gewissheit ein Analyseergebnis liefern. Diese Systeme sind unfähig, eine Gewissheit basierend auf Gründen zu besitzen oder zu vermitteln, sie sind unfähig, etwas zu entscheiden. Entscheidungen sind gründe-basiert als flexibel anzusehen, wohingegen der Output von P4s durch die Vergangenheit fixiert ist. Ein Vorschlag das terminologisch festzuhalten ist es, zwischen einer Reason-Based-Flexibility-of-Decisions (RBFD) und History-Based-Rigidity-of-Extrapolations (HBRE) zu unterscheiden.^{Footnote 48}

Verstehen: Der P4 kann zudem die Bedingung des (kontrafaktisch) substanziellen Verstehens nicht erfüllen. Ohne hier in die Tiefen epistemologischer Überlegungen eintauchen zu wollen, ist es zu bezweifeln, dass ein System, das mit künstlicher Intelligenz operiert, tatsächlich etwas versteht. Es mag vielleicht sein, dass ein LLM den Turing-Test besteht, aber das reicht nicht aus für ein substanzielles Verstehen im Sinne der Autonomiebedingungen. Es erscheint zunächst schon seltsam, ein System, das allein aufgrund der Häufigkeit des Vorkommens verschiedener Worte in Texten selbst Texte produziert, Verstehen zusprechen zu wollen. Dafür muss ein LLM weder Sinn und Bedeutung einzelner Wörter noch ganzer Sätze verstehen. Ein Verstehen der vom LLM produzierten Texte scheint vielmehr erst in deren Rezeption und Interpretation im Leser zu entstehen.

Aber auch wenn dem nicht so wäre, so ist doch das Verstehen im Sinne der Autonomiebedingungen eines, das ein evaluatives Moment enthält. Es müssen Konsequenzen einer Handlung verstanden sein, die für die betreffende Person selbst wichtig sind. Auch wenn eine KI alle möglichen Folgen einer Handlung berechnen könnte, so könnte sie doch diese an die Person gebundene Wichtigkeit, um die es gerade geht, nicht empfinden. Sie ist unfähig eine Pro- oder Con-Haltung zu etwas einzunehmen, die derjenigen einer anderen Person entspricht. Ihr fehlt die subjektive Betreffbarkeit und die Fähigkeit zur Empathie.^{Footnote 49}

Freiwilligkeit: Der P4 droht auch die dritte der Bedingungen einer autonomen Entscheidung zu verletzen. In einem gewissen Sinne ist eine Steuerung von außen – also eine Kontrolle – in den hier diskutierten Fällen nicht zu vermeiden, handelt es sich doch um Fälle, in denen jemand entscheidungsinkompetent ist und genuine Selbstbestimmung nicht möglich ist. Indem jemand anderes die Entscheidung für die Person übernimmt, übt dieser auch Kontrolle aus. Darüber hinaus droht aber auch die Kontrolle der Entscheidung durch die Orientierung an der Text- oder Sprachproduktion aus der Vergangenheit. Immer dann, wenn die (kontrafaktische) Entscheidung eigentlich anders ausfiele als es der P4 bestimmt und man der Einschätzung der Geräte folgte, würde Zwang ausgeübt. Und dass den Systemen gefolgt würde – auch wenn Angehörige und/oder Freund*innen die Lage anders einschätzen würden – ist nicht unwahrscheinlich. Das liegt an einem psychologischen Phänomen: dem Automation Bias. Besonders aus der Forschung im Bereich der Luftfahrt aber auch aus der medizinischen Forschung ist es bekannt, dass die Gefahr besteht, dass Menschen einem technisch-automatisiertem Output mehr vertrauen als dem eigenen Urteil, auch wenn dies eine Fehleinschätzung repräsentiert. Maschineller Technologie wird ein übermäßiges Vertrauen entgegengebracht. Geräte werden eingesetzt, damit man weniger Arbeit hat, damit Arbeit zum Teil von ihnen übernommen wird und damit weniger menschliche Fehler gemacht werden. Dies kann dazu führen, dass man sich auch bei Verwendung der Geräte Arbeit ersparen möchte, Verantwortung an die Geräte abgibt und diese auch als Autoritäten im betreffenden Gebiet anerkennt, so dass Fehler durch Unterlassung (ommission error) oder Befolgung (commission error) wahrscheinlich werden. Und das kann zunehmen, je komplexer die Aufgabe, je größer die Belastung ist und je weniger der- oder diejenige Erfahrung in dem Gebiet hat, in dem Einschätzungen gemacht oder Entscheidungen getroffen werden sollen.^{Footnote 50} Hinzu kommt, dass ein technischer Output im medizinischen Kontext den Anschein harter wissenschaftlicher Evidenz mit sich bringt. Unberücksichtigt bleibt bei einem solchen Vertrauen, dass Werte möglicherweise fehlerhaft ermittelt sein können, Standards gesetzt, die nicht zur individuellen Konstitution passen, und die Datafizierung eine reduktive Verkürzung darstellt.^{Footnote 51}

4.2 P4s als Entscheidungshilfe

Es dürfte deutlich geworden sein, dass ein P4 eine (kontrafaktisch-autonome) Entscheidung nicht ersetzen kann. Bleibt aber noch die Frage, ob diese Systeme nicht wertvolle Zusatzinformationen liefern können, die menschlichen Stellvertreter*innen weiterhelfen könnten, eine anstehende Entscheidung zu fällen. Oben wurde schon dafür argumentiert, dass die Informationen keinen epistemischen Zugewinn darstellen. Da der P4 ein Gedankenkonstrukt ist und man noch nicht genau weiß, zu welcher Art Antwort ein solches System fähig ist, kann man überlegen, ob es nicht doch Informationen gibt, die ein P4 beisteuern könnte, die hilfreich wären.

Das wäre der Fall, lieferte der P4 Antworten, die auf Plausibilität überprüfbare Begründungen einschlössen.^{Footnote 52} Würde der P4 im Falle Silvias antworten: ‚Silvia würde sich für einen Abbruch der Versorgung entscheiden, weil sie mehrfach im Kontext des Schauens von Medical-Drama Serien geäußert hat, dass sie ein Leben in einem vegetativen Zustand ablehnt.‘, dann könnten menschliche Stellvertreter*innen überlegen, ob sie diese Begründung im Falle von Silvia für relevant halten (z. B. Wie ernst sind Äußerungen zu nehmen, die Silvia beim Schauen von Serien gemacht hat?). Dieser Schritt ist notwendig, weil die menschlichen Stellvertreter*innen weiterhin die Verantwortung für die Entscheidung haben und überlegen müssen, ob sie die Informationen, die vom P4 bereitgestellt werden, für die Entscheidung als relevant erachten wollen. Werden sie als relevant erachtet, müssten sie in den Überlegungsprozess der Stellvertreter*innen integriert werden.^{Footnote 53} Das setzt aber voraus, dass Stellvertreter*innen Silvia in gewissem Umfang kennen und diesen Abgleich durchführen können. Ist ein solcher Abgleich nicht möglich ist der informationelle Zugewinn äußerst fraglich. Damit ist der Einsatz allenfalls von P4s unter Einhaltung der Forderung, dass überprüfbare Begründungen für Ermittlungsergebnisse mitgeliefert werden, als hilfreich anzusehen. Zu bedenken ist hier aber ebenfalls die oben angeführte Problematik des Automation Bias.

5 Zwei Einwände

Das Fazit bislang ist, dass der Einsatz der P4s nicht mit den Bedingungen der Autonomie harmoniert und dem Standard für eine stellvertretende Entscheidung nicht sehr nahe kommt. Es könnte aber immer noch argumentiert werden, dass die P4s das Beste sind, was uns in einer epistemisch sehr schwierigen Lage zur Verfügung steht. Die Systeme mögen zwar Autonomiebedingungen nicht erfüllen können, aber wenn menschliche Stellvertreter*innen sehr schlecht darin sind, Patientenpräferenzen zu bestimmen, dann sollte man sich dennoch an ihnen orientieren. Dem ist aber nicht so, wie in den nächsten beiden Abschnitten klar werden dürfte.

5.1 Zwei unterschiedliche Standards

Einen Einwand gegen die hier insgesamt vorgebrachte Kritik kann man im Artikel von Earp et al. finden. Die Autor*innen argumentieren, es stelle kein Hindernis dar, dass einem P4 als generativer KI ein genuines Verständnis für menschliche Präferenz- und Wert-Informationen fehlt. Ein solches Verständnis zu fordern, würde nämlich einen nicht plausiblen Doppelstandard aufmachen „whereby a P4 would be required to explain its predictions to a greater level of detail than a similarly situated human surrogate.“^{Footnote 54} Man würde von einem Präferenzbestimmungssystem die Einhaltung eines Standards einfordern, den man aber bei menschlichen Stellvertreter*innen nicht einfordern würde. Von einem P4 wird gefordert, dass Gründe und Werte einer Person tatsächlich gewürdigt werden müssen.^{Footnote 55} Von menschlichen Vertreter*innen würde man aber nicht fordern, dass sie tatsächlich die Gründe und Werte der Person, um die es geht, würdigen. Hier irren die Autoren allerdings. Von menschlichen Stellvertreter*innen kann man das nämlich durchaus erwarten und ich denke man sollte das auch tun, auch wenn das vielleicht vielfach in der Praxis nicht so gehandhabt wird.

Vielfach findet sich in der Literatur, dass Stellvertreter*innen ebenfalls vorhersagen sollen (gemeint ist wohl extrapolieren sollen), wie sich eine betroffene Person entscheiden würde. Wäre das die einzige Möglichkeit, den Standard von Buchanan und Brock einzuhalten, dann müssten Proponenten der P4s nur auf die Zukunft bauen und hoffen, dass die hier vorgebrachten epistemischen Bedenken ausgeräumt werden können. Ich denke aber, dass man den Standard anders lesen sollte. Buchanan und Brock selbst gehen nicht näher darauf ein, was es genau heißt, eine kontrafaktisch-autonome Entscheidung zu bestimmen. Vergegenwärtigen wir uns also noch einmal, was das beinhaltet. Geht man vom oben skizzierten Autonomieverständnis aus, dann ist der Stellvertreter oder die Stellvertreterin aufgefordert, eine Entscheidung zu treffen, die derjenigen möglichst nahekommt, welche die zu vertretende Person fällen würde, wäre sie autonom: d. h. die Handlung müsste kontrafaktisch intentional, verstehend und freiwillig sein. Stellvertreter*innen müssen also erstens aus Sicht der betroffenen Person in der jeweiligen Situation erfassen, um was für eine Handlung es geht, wie man sie ausführen (lassen) würde und warum sie ausgeführt wird. Sie müssen zweitens verstehen, welche für die betroffene Person wichtigen Konsequenzen die Handlung mit sich bringt. Drittens darf sich die Handlung aus Sicht der betroffenen Person keinem kontrollierenden Einfluss verdanken.

Legt man diesen Standard zugrunde, dann sollte eine stellvertretende Entscheidung nicht auf einer Extrapolation beruhen, sondern auf der Basis eines Standpunktwechsels erfolgen. Das kommt den oben genannten Bedingungen zumindest nahe. Eine stellvertretende Entscheidung sollte das Ergebnis des sich Hineinversetzens in die Lage der betroffenen Person unter möglichst vollständiger Einnahme ihres Standpunktes sein.^{Footnote 56} Ein Reflexionsprozess, der an ihrer statt durchlaufen wird und bei dem überprüft wird, ob sie der Handlung ablehnend gegenüberstehen würde, ob sie dieser einen Widerstand entgegenbringen würde. Um den Inhalt einer hypothetischen Entscheidung zu bestimmen, müssen Stellvertreter*innen also idealiter einen Mackie’schen Standpunktwechsel dritter Stufe anstreben. Sie müssen sich in die Lage des anderen hineinversetzen, „so daß [sic!] seine Wünsche, sein Geschmack, seine Vorlieben, Ideale und Wertvorstellungen genauso wie seine anderen Qualitäten, Fähigkeiten und seine äußere Lage wie zu etwas eigenem werden.“^{Footnote 57} Das ist ein völlig anderer Vorgang als die Methode, nach denen ein P4 arbeitet.

Dass ein solcher Standpunktwechsel, wenn überhaupt möglich, hohe Anforderungen an die Stellvertreter*innen stellt, ist ohne Frage richtig. Vermutlich wird vielfach nur ein Standpunktwechsel zweiter Stufe erfolgen – (Standpunktwechsel unter Beibehaltung der eigenen Präferenzen) oder einer, der zwischen der zweiten und dritten Stufe liegt. Zugegeben, man kann nicht gut überprüfen, ob Stellvertreter*innen derart bei der Entscheidungsfindung vorgehen, aber dennoch müsste das die Maßgabe sein, nach der sie vorgehen sollten. Es gilt dann, einen solchen Prozess der stellvertretenden Entscheidungsfindung via Standpunktwechsel entsprechend zu rahmen.^{Footnote 58}

5.2 Ist es nicht wichtiger, mit hoher Wahrscheinlichkeit die richtige Präferenz zu treffen?

Ein Einwand, der von Stephen John gegen den PPP vorgebracht wurde, lautet, dass die Autonomie einer Person zu respektieren bedeutet, auf der Basis der richtigen Gründe, aus Gründen, die die betroffene Person selbst befürwortet hätte, zu einer stellvertretenden Entscheidung zu kommen: „[I]t is not simply a matter of treating them the ways they prefer to be treated. It is also important to make decisions for the right reasons, reasons the patient would also endorse.“^{Footnote 59} Gegen einen solchen Einwand macht Earp (unter Rekurs auf eine Argumentation bei Jardas et al.) folgendes geltend:

There may be trade-offs between respecting someone’s autonomy in the sense of how they actually want their life to go (based, in turn, on on [sic!] how they are treated) and honouring their assumed wishes for having surrogate decisions made for them according to a specific decision-making process (eg, only based on reasons they would endorse). However, in failing to honour their assumed wishes regarding a specific decision-making process nevertheless significantly improved one’s ability to respect their autonomy in the first sense, it may be that one has done more to respect their autonomy overall.^{Footnote 60}

Earp (und auch Jardas et al.) gehen also davon aus, dass es zwei Weisen gibt, Autonomie zu respektieren: zum einen im Respekt vor Entscheidungen, wie man gewillt ist, das eigene Leben zu gestalten (Respekt vor dem Ergebnis einer Entscheidung; bezogen auf Silvias Fall: die Wahl einer der Behandlungsoptionen), und zum anderen Respekt davor, wie jemand wünscht, dass eine stellvertretende Entscheidung getroffen wird (Respekt vor der Wahl einer bestimmten Methode der Stellvertretung; bezogen auf Silvias Fall: Silvia würde z. B. eine stellvertretende Entscheidung durch jemanden wünschen, der ihre Gründe für eine Entscheidung anerkennen kann).

Diese Replik verfehlt aber die Stoßrichtung des Einwandes, denn es gibt hier nicht zwei Weisen, wie man Autonomie respektieren kann, sondern nur eine: die des Respekts vor den Entscheidungen, die die Gestaltung des eigenen Lebens betreffen. Eine dieser Entscheidungen kann es sein, dass man sich nur von einer Entität vertreten lassen will, die fähig ist, eine Entscheidung aus Gründen zu fällen. Es kann aber auch die Entscheidung sein, dass im Falle der Stellvertretung auf ein möglichst genaues Instrument der Extrapolation zurückgegriffen werden soll. Sind solche Weichenstellungen bekannt, dann ist diesen gemäß vorzugehen. Es scheint mir vor dem Hintergrund des Respekts vor der Autonomie kein Problem zu sein, würde jemand verfügen, im Falle einer medizinischen Situation wie der Silvias nach Maßgabe eines P4s behandelt zu werden. Der Respekt vor der Autonomie ist in einem solchen Fall gewahrt, genauso als würde jemand verfügen, dass menschliche Stellvertreter*innen entscheiden sollen. Es handelt sich dann gewissermaßen um eine P4-Bevollmächtigung. Einer solchen Vorausverfügung wäre genauso zu entsprechen, als hätte sich der Betroffene inhaltlich festgelegt. Silvias Fall ist insofern besonders, als dass keinerlei Vorausverfügung vorliegt – und um genau diese Art von Konstellationen geht es hier: es existiert weder eine inhaltliche noch eine Verfügung, die die Bevollmächtigung betrifft. In solchen Fällen ist eine kontrafaktisch autonome Entscheidung zu eruieren. Earp scheint der Ansicht zu sein, man könne das Ergebnis einer Entscheidung (eine Wahl, die getroffen wird) vom vorausgegangenen Deliberationsprozess abkoppeln. Das legt nahe, dass eine Entscheidung als isolierbarer zeitlicher Endpunkt eines Überlegungsprozesses verstanden wird und dass es ausreicht, gewissermaßen dieses ‚Isolat‘ zu respektieren. Das ist aber aus (mindestens) zwei Gründen verfehlt:

Untrennbarkeit der Entscheidungen von ihren Gründen: Erstens gebrauchen wir den Ausdruck ‚sich entscheiden‘ so, dass dabei Gründe eine Rolle spielen müssen.^{Footnote 61} Wenn jemand etwas ‚ohne Grund‘ tut, z. B. ohne darüber nachzudenken den rechten Socken vor dem linken anzieht, dann würden wir nicht sagen, diese Person habe sich dazu entschieden, die Socken in genau dieser Reihenfolge anzuziehen. Sie hat sich zwar entschieden, Socken anzuziehen (weil es kalt ist und sie warme Füße haben möchte), aber sie hat sich nicht entschieden erst den rechten und dann den linken anzuziehen. Dieser letztere Akt ist unbegründet und ist etwas anderes als eine Entscheidung. In den uns interessierenden medizinischen Fällen geht es aber nicht um solche unbegründeten, mechanischen Akte, sondern um eine Entscheidung für etwas. Man kann sagen, dass sich zu entscheiden, eine „Willensbildung angesichts von Erwägungen“^{Footnote 62} bedeutet. Darum kann man das Ergebnis einer Willensbildung nicht von ihren Erwägungen trennen. Der Wille bzw. die Absicht wird gebildet, indem Erwägungen in Bezug auf eine Handlungsoption angestellt werden. Damit sind Entscheidungen unauflöslich mit Gründen verbunden.

Wahl des besseren Instruments und der Respekt vor der Autonomie: Zweitens muss man zwischen dem Respekt vor einer (kontrafaktisch-)autonomen Entscheidung einer Person einerseits und der Wahl des besseren Instruments zur Bestimmung eines Wahlaktes andererseits unterscheiden. Wenn man das bessere Instrument wählt, dann trifft man zwar im Mittel mehr Behandlungsentscheidungen, die mit denen übereinstimmen, die jemand treffen würde, wäre er oder sie kompetent. Das bedeutet aber nicht, dass man die (kontrafaktische) Entscheidung der je individuellen Person respektiert hat. Man könnte hier denken, dass ein P4, der mit individuellem Textmaterial trainiert wurde, der individuellen Person notwendigerweise gerecht werden müsste. Das ist aber nicht der Fall. Das für die Bestimmung des mutmaßlichen Willens herangezogene Textmaterial wird sich in Qualität und Quantität von Person zu Person unterscheiden. Auch hier wird es nur eine allgemeine Gewähr in Bezug auf das Ausmaß der Verlässlichkeit geben. Würde man den P4 allein auf der Grundlage einer durchschnittlichen Verlässlichkeit bevorzugen, verlöre das Prinzip des Respekts vor der Autonomie den individuellen Bezugspunkt – es wäre populationsbezogen gedacht. Sich einem individualisierten und überprüfbaren Output von P4 anzunähern, wäre vielleicht möglich, wenn Personen intensiv und dauerhaft eigenes privates Textmaterial einspeisen und anschließend überprüfen würden, ob der generierte Output tatsächlich mit den eigenen Präferenzen übereinstimmt. Das wäre aber ein unverhältnismäßig hoher Aufwand, der zudem einen erheblichen Einschnitt in die Privatheit und ein Einfallstor für Missbrauch dieser Informationen darstellte.

6 Zusammenfassung

Fälle, in denen eine medizinische Entscheidung für entscheidungsinkompetente Patient*innen zu treffen ist und in denen keine Patientenverfügung vorliegt, stellen eine große Herausforderung für den klinischen Alltag dar. Der Einsatz von PPPs/P4s zur Bewältigung dieser Herausforderung ist allerdings sowohl von epistemischer wie normativer Seite zu kritisieren. Diesen Systemen wird zwar zugeschrieben, verlässlicher als menschliche Stellvertreter*innen zu sein. Aber diese Verlässlichkeitsurteile sind, ob der Problematik der Kontrafaktizität, mit Vorsicht zu genießen. Es ist zudem fraglich, welche Aussagekraft ein Output hat, das allein auf korrelativen Zusammenhängen basiert. Soziodemographische Faktoren sind keine Kausalfaktoren und stellen üblicherweise keine Gründe für Entscheidungen dar. Gruppen basierte statistische Schlüsse auf Individuen sind vor dem Hintergrund einer Frage, die sich auf die individuelle Selbstbestimmung bezieht, als nicht adäquat anzusehen. Damit disqualifizieren sich PPPs als Lösung für das Ausgangsproblem. Die Annahme, dass P4s mit hoher Treffsicherheit persönliche Präferenzen bestimmen können, sieht sich sowohl mit generellen Problemen konfrontiert, die Large Language Models zu eigen sind, als auch mit spezifischen Problemen, die sich auf die Ermittlung persönlicher Präferenzen via LLMs beziehen. Die postulierte Individualität und Qualität eines Outputs, das über ein LLM generiert wird, ist zweifelhaft. Durch ein Fine-Tuning von LLMs mit persönlichen Texten ist es – zumindest derzeit – weder plausibel, dass Individualität zu garantieren ist, noch, dass persönliche Werte und Präferenzen (insbesondere für existentielle Grenzsituationen) ermittelt werden können. Wäre es entgegen den vorgebrachten Bedenken – vielleicht in Weiterentwicklung der LLMs in der Zukunft – doch möglich, dass mit einem P4 sehr treffsicher Präferenzen für verschiedenste Kontexte eruiert werden könnten, dann scheint das dadurch möglich zu werden, dass hoch private Informationen kontinuierlich eingespeist und von der betreffenden Person regelmäßig auf Plausibilität überprüft würden. Das sind allerdings Kosten, die unverhältnismäßig hoch sind, was Aufwand, Einschnitte in die Privatheit und die Missbrauchsanfälligkeit betrifft.

Aus normativer Perspektive wird für die hier relevanten Fälle ein Standard für stellvertretende Entscheidungen angesetzt, der besagt, dass man so wählen soll, wie die jetzt inkompetente Person wählen würde, wäre sie kompetent. Nimmt man dies wörtlich – und das sollte man tun, wenn das dahinterstehende Prinzip der Respekt vor der Autonomie ist –, dann kann es hier nicht um Extrapolationen gehen, sondern um stellvertretende Entscheidungen. Eine stellvertretend (kontrafaktisch) autonome Entscheidung beinhaltet, dass sie stellvertretend intentional, hinreichend verstehend und freiwillig erfolgt. In allen diesen Aspekten würde eine Verwendung von P4s als Ersatz für stellvertretende Entscheider*innen Schwierigkeiten mit sich bringen. Wenn man etwas intendiert, etwas wählt oder entscheidet, dann geht das nicht mit einer induktiven Gewissheit einher, sondern mit einer Gewissheit basierend auf Gründen. Solche Gewissheiten kann ein P4 aber nicht liefern. Außerdem ist unklar, wie mit P4s das für eine autonome Wahl notwendige Verstehen hergestellt werden kann. Es müsste gewährleistet sein, dass die Folgen der Handlung verstanden sind, die der Person wichtig sind. Zudem dürfte sich die Handlung nicht einem kontrollierenden Einfluss verdanken. Es steht aber zu befürchten, dass mit dem P4 Kontrolle erfolgt, indem ein Output generiert wird, das dem mutmaßlichen Willen nicht entspricht. Zugegebenermaßen ist letzter Aspekt auch für menschliche Stellvertreter*innen nicht von der Hand zu weisen. Auch sie können falsche stellvertretende Entscheidungen treffen. Die derzeitige Praxis – wenn über einen Standpunktwechsel erfolgend – ist gegenüber der technischen Variante allerdings im Vorteil, da mit ihr die anderen Autonomiebedingungen (wenn auch eingeschränkt) erfüllt werden können. Als Ersatz für eine stellvertretende Entscheidung empfiehlt sich ein P4 daher nicht. Er könnte allenfalls unterstützend herangezogen werden, das aber auch nur dann, wenn zum Extrapolationsergebnis eine Begründung mitgeliefert wird, die auf Plausibilität überprüft werden kann.

Notes

Burgess, M.: Now Deep Mind’s AI Can Spot Eye Disease Just as Well as Your Doctor. Brinker, T.J. et al: A Convolutional Neural Network Trained with Dermoscopic Images Performed On Par with 145 Dermatologists in a Clinical Melanoma Image Classification Task. Watson for Oncology von IBM ist die KI, die zunächst für Furore wie auch Kritik gesorgt hat. Vgl. McDougall, R.: Computer Knows Best?; Tupasela, A. und DiNucci, E.: Concordance as Evidence in the Watson for Oncology Decision-Support System.
Was ‚künstliche Intelligenz‘ ist, wird üblicherweise dadurch spezifiziert, was mit ihr angestrebt wird. Das ist nach Bringsjord und Gavindarajulu entweder eine Übereinstimmung im Denken / Handeln mit menschlicher oder mit ideal rationaler Leistung. Vgl. Bringsjord, S. und N.S. Gavindarajulu: Artificial Intelligence. Vgl. auch Heinrichs, B. et al.: Künstliche Intelligenz.
ZEKO: Stellungnahmen: Entscheidungsunterstützung ärztlicher Tätigkeit durch Künstliche Intelligenz.
Vgl. Rid, A. und D. Wendler: Use of a Patient Preference Predictor to Help Make Medical Decisions for Incapacitated Patients; dies.: Treatment Decision Making for Incapacitated Patients.
Das Beispiel findet sich ähnlich bei Earp et al.: A Personalized Predictor for Substituted Judgments in Healthcare. S. 1.
Insgesamt wird eine Akkuratheit von 68 % in den Studien festgestellt. Vgl. Shalowitz, D. et al: The Accuracy of Surrogate Decision-Makers.
Vgl. Marks M.A.Z. und H.R. Arks: Patient and Surrogate Disagreement in End-of-Life-Decisions; Fischer, J. et al: Irrelevant Interests?.
Vgl. Rid, A. und D. Wendler: Use of Patient Preference Predictor to Help Make Medical Decisions for Incapacitated Patients. S. 113.
In der Debatte um die PPPs – und wie der Ausdruck ‚Predictor‘ auch nahelegt – wird unhinterfragt davon ausgegangen, dass PPPs/P4s Präferenzen voraussagen. Die Rede von Vorhersagen, Voraussagen oder Prädiktionen ist aber insoweit irreführend, da das impliziert, dass man eine Aussage über etwas macht, das in der Zukunft geschehen wird. Da es hier aber gerade um Fälle geht, in denen die betreffenden Personen entscheidungsinkompetent sind und keine Präferenzen für die fragliche Situation ausbilden werden, ist die Rede von Vorhersagen schief. Eine mögliche abgeleitete Lesart ist es, dass die PPPs/P4s tatsächlich keine Vorhersagen machen, sondern dass das Predictor-Etikett nur methodologisch begründet ist: Man spricht lediglich von Voraussagen, weil die Akkuratheit der Systeme daran bemessen wird, ob aktuale Entscheidungen von Probanden vorhergesagt werden. Aber eigentlich wird die Akkuratheit auch hier nicht an Voraussagen bemessen, sondern an hypothetischen Vermutungen von Probanden über die Entscheidung eines anderen (vgl. Kap. 3.1). Es ist eher davon auszugehen, dass es sich um eine Ungenauigkeit handelt. Das, was PPPs machen, ist zu extrapolieren. Sie ziehen rechnerisch einen „Schluss auf einen Sachverhalt, der außerhalb eines experimentell zugänglichen Bereichs liegt, aufgrund des Verhaltens innerhalb dieses Bereichs“ (vgl. Brockhaus: Extrapolation. S. 489) Man kann solche extrapolierten Ausgaben zwar auch für Prognosen nutzen, aber im Falle der PPPs ist das eben nicht so. Hier nutzt man den Output eines PPPs, um einen gemutmaßten Willen zu bestimmen (kontrafaktisch). Wenn im Folgenden doch von Vorhersagen oder Prognosen vor allem in Zitaten die Rede ist, dann ist dies den Üblichkeiten der Debatte geschuldet und wird nicht weiter kommentiert.
Rid und Wendler sprechen hier von einem Shared-Decision-Making (SDM) zwischen Vertreter*innen und Ärzt*innen. Vgl. Rid, A. und D. Wendler: Use of Patient Preference Predictor to Help Make Medical Decisions for Incapacitated Patients. S. 109 Üblicherweise spricht man von einem SDM allerdings nur in Zusammenhang mit einer aktuellen Beteiligung der Patient*innen selbst.
Präferenzprädiktoren können auch auf anderer Basis als den soziodemographischen Merkmalen einer Person Präferenzen eruieren. Jardas et al. nennen als Möglichkeiten noch einen „autonomy algorithm“, dessen Prädiktion auf medizinisch-elektronischen Berichten basiert und einen „artificial intelligence based resuscitation algorithm“ der auf der Basis von Planungsdiskussionen im Rahmen von Vorausverfügungen Präferenzen prognostiziert. Vgl. Jardas, E. et al.: Autonomy-based criticisms of the patient preference predictor. In der philosophischen Literatur wird meist der PPP diskutiert. Vgl. auch Benzinger, L. et al.: Should Artificial Intelligence be Used to Support Clinical Ethical Decision-Making?.
Hubbard, R. und Greenblum, J.: Surrogates and Artificial Intelligence: Why AI Trumps Family. S. 3217.
Vgl. Rid, A. und Wendler, D.: Treatment Decision Making for Incapacitated Patients. S. 133 Rid und Wendler thematisieren aber auch, dass ein PPP die Zuversicht, die Angehörige evtl. beim Fällen einer Entscheidung haben, genauso gut unterminieren kann. Vgl. ebd. S. 145.
Faden, R. R. und T. L. Beauchamp: A History and Theory of Informed Consent S. 238 vgl. Beauchamp, T. L. und J. F. Childress: Principles of Biomedical Ethics. S. 102.
Vgl. Faden, R. R. und T. L. Beauchamp: A History and Theory of Informed Consent S. 243, Beauchamp, T. L. und J. F. Childress: Principles of Biomedical Ethics. S. 102.
Bei Faden, Beauchamp und Childress findet sich ein Verständnis von Intentionalität, bei der das Ziel, das man handelnd verfolgt (das ‚Warum‘ der Handlung), nicht erwähnt wird. Um Handlungen von Verhalten abzugrenzen und das, was Intentionalität ausmacht, zu erfassen, scheint das allerdings zu sparsam zu sein. Vgl. Anscombe, G.E.M.: Intention, vgl. Gethmann, C.F.: Konstruktive Ethik S. 145 ff.
Hampshire, S. und H.L.A. Hart: Decision, Intention and Certainty. S. 1 Diese Gewissheit zu haben bedeutet nicht, dass der Person der Plan explizit vor Augen steht, sondern dass sie auf Nachfrage eine Antwort geben kann.
Vgl. Faden, R.R. und T.L. Beauchamp: A History and Theory of Informed Consent S. 252.
Vgl. Ach, J.S. und B. Schöne-Seifert: Aufklären, Verstehen und Einwilligen in der Medizin: Nachfragen und Präzisierungen.
Das ist die übliche Vorgehensweise. Es gibt aber auch kritische Stimmen, die den Respekt vor der Autonomie in Fällen in denen Menschen nicht mehr entscheidungskompetent sind, nicht als vorrangig ansehen. Prominent diskutiert wird diese interessante und wichtige Thematik in der Dworkin-Dresser-Kontroverse (allerdings spezifisch für Demenz-Konstellationen). Vgl. Dworkin, R.: Life’s Dominion; Dresser, R.: Dworkin on Dementia. In diesem Artikel möchte ich die Frage nach der Relevanz des Autonomieprinzips für eine stellvertretende Entscheidung außen vorlassen. Der Einsatz von PPPs wird vor dem Hintergrund dieser normativen Weichenstellung diskutiert und daher wird diese hier vorausgesetzt.
Einer repräsentativen Umfrage zufolge haben 45 % der Menschen in Deutschland eine Patientenverfügung. Vgl. DHPV: Wie die Deutschen über das Sterben denken.
Jox, R.J.: Bewusstlos, aber autonom? S. 408. Nach geltendem Recht ist das Alter einer Verfügung allerdings kein Grund, ihre Bindungskraft in Frage zu stellen.
Buchanan, A. und D.W. Brock: Deciding for Others. S. 112 (Hervorhebung SH) Diese Idee findet sich auch in rechtsphilosophischen Auslegungen zur stellvertretenden Entscheidung in Deutschland wieder, wo es heißt: „Maßstab für den mutmaßlichen Willen ist […] wie sich der Betroffene selbst in der konkreten Situation entscheiden würde, wenn er noch einwilligungsfähig wäre und über sich selbst bestimmen könnte […].“ Gutmann, T.: Kommentar zu den §§630a‑h BGB. Rn 193.
Vgl. Rid, A. und D. Wendler: Use of Patient Preference Predictor to Help Make Medical Decisions for Incapacitated Patients; dies.: Treatment Decision Making for Incapacitated Patients; Ferrario, A. et al.: Ethics of the Algorithmic Prediction of Goal of Care Preferences.
Rid, A. und D. Wendler: Use of Patient Preference Predictor to Help Make Medical Decisions for Incapacitated Patients. S. 112.
Vgl. Tretter, M. und Samhammer, D.: For the Sake of Multifacetedness.
Vgl. Sharadin N.P.: Patient Preference Predictors and the Problem of Naked Statistical Evidence; John, S. Patient Prefence Predictors, Apt Categorization, and Respect for Autonomy; ders.: Messy Autonomy.
Earp, et al.: A Personalized Predictor for Substituted Judgments in Healthcare. S. 3.
Earp, et al.: A Personalized Predictor for Substituted Judgments in Healthcare. S. 4 Bei Earp et al. werden je nach Datenbasis für das Fine-Tuning fünf Versionen eines P4 angedacht, wobei auch zwei Versionen darunter sind, bei denen das Trainingsmaterial nicht allein von der betroffenen Person stammt, sondern auch von Stellvertreter*innen und nahestehenden Personen bzw. auf Populationsebene erhoben wird.
Vgl. Earp, et al.: A Personalized Predictor for Substituted Judgments in Healthcare. S. 7 f.
Vgl. Shepherd, V. et al.: Ethical Understandings of Proxy Decision Making for Research for Adults Lacking Capacity. Diese epistemische Problematik erkennen auch Earp et al. an. Vgl.: A Personalized Predictor for Substituted Judgments in Healthcare. S. 9.
Vgl. z. B. Suhl, J. et al.: Myth of Substituted Judgment.
Vgl. Kohn, N.: Matched Preferences and Values. S. 408.
Sharadin, N. P.: Patient Preference Predictors and the Problem of Naked Statistical Evidence. S. 860.
Vgl. Britz, G.: Einzelfallgerechtigkeit versus Generalisierung; Koch, H. Intransparente Diskriminierung durch maschinelles Lernen.
Vgl. Bender, E.M. et al. (2021) On the Dangers of Stochastic Parrots.
Vgl. Biller-Andorno, N. und Biller A.: Algorithm-Aided Prediction of Patient Preferences. S. 1481.
Vgl. Ji, Z. et al.: Survey of Hallucination in Natural Language Generation.
Vgl. OpenAI.
Grice weist darauf hin, dass man häufig etwas zu bedeuten gibt, indem man etwas ganz anderes sagt. Man spricht in diesem Zusammenhang von ‚implikieren‘ oder ‚Implikatur‘. Zur Übersicht über sogenannte Gricesche Implikaturen vgl. Kemmerling, A.: Implikatur.
Beschränkt man sich auf höchst private d. h. eigentlich nicht für andere bestimmte Aufzeichnungen wie bspw. Tagebucheinträge in der Annahme, dass sich hier mit größerer Wahrscheinlichkeit Werte und Präferenzen einer Person ermitteln ließen, dann stellt das zudem einen Eingriff in die Privatsphäre dar, den es wohl zu überdenken gilt.
D.M. MacKay macht darauf aufmerksam, dass die Vorhersage einer Entscheidung und das Treffen einer Entscheidung zwar einen gemeinsamen Bezugspunkt haben, aber dennoch voneinander zu unterscheiden sind. Vgl. MacKay, D.M.: On the Logical Indeterminacy of a Free Choice.
Vgl. Kaminski, A.: Entscheiden. S. 497 ff.
Kandul S. et al.: Explainable AI. Zur Kritik daran, auf Explainability zu setzen vgl. Rudin, C.: Stop Explaining Black Box Machine Learning Models for High Stakes Decision and Use Interpretable Models Instead. Die sehr spannende Frage, was es genau heißt von einer ‚explainable AI‘ zu sprechen, kann an dieser Stelle nicht erörtert werden. Die Forderung die Opakheit von KI aufzulösen, steht jedenfalls im Raum (vgl. Floridi, L. und J. Cowls: A Unified Framework of Five Principles for AI in Society). Der Ansatz mit Hilfe einer zusätzlichen KI zu eruieren, auf welcher Basis die in Frage stehende KI zu ihren Ergebnissen kommt, scheint ein obscurium per obscurius-Ansatz zu sein. Was hier nötig wäre, ist eine verlässliche post hoc-Interpretierbarkeit des Systems, die eine Auseinandersetzung mit einer Einschätzung durch andere erlaubt. Vgl. Ursin et al.: Levels of Explicability for Medical Artificial Intelligence.
Vgl. Zerilli, J. et al.: Transparency in Algorithmic and Human Decision-Making.
Vgl. zur praktischen Dimension des Benennens von Gründen, die einer KI nicht zu eigen ist Peters, U.: Explainable AI Lacks Regulative Reasons.
Das Beispiel findet sich ähnlich bei Kaminski, A.: Gründe geben. S. 165.
Hampshire, S. und H.L.A. Hart: Decision, Intention and Certainty. S. 2 f.
Für diesen terminologischen Vorschlag danke ich Marco Stier.
Es gibt zwar sogenannte emotionale KI, deren ‚Emotionalität‘ bleibt aber auf die kognitive Sphäre beschränkt. Diese Systeme können Emotionen erkennen und darauf reagieren, Gefühle werden aber nur simuliert. Vgl. Misselhorn, C.: Künstliche Intelligenz und Empathie. Man könnte hier einwenden, dass es bislang noch keine empfindungsfähige KI gibt, dass das aber in Zukunft machbar wäre. Obwohl ich hier äußerst skeptisch bin, gibt es – wenn eine solche Zukunftsmusik Berechtigung finden könnte – aber folgendes zu bedenken: Es ist zu fragen, ob es (moralisch) klug wäre, solche Systeme in die Welt zu bringen, würde sich doch dann das Spektrum der Entitäten noch weiter vergrößern, um die wir uns aus moralischen Gründen kümmern müssten (vgl. Misselhorn, C.: Künstliche Intelligenz und Empathie. S. 90). Wir sind aber schon jetzt diesbezüglich heillos ignorant und/oder maßlos überfordert in der moralischen Berücksichtigung der empfindungsfähigen Lebewesen (siehe unseren Umgang mit den nicht-menschlichen Tieren). Ein noch größeres moralisches Scheitern scheint vorprogrammiert zu sein, hätten wir es auch noch mit empfindungsfähigen Maschinen zu tun.
Goddard, K. et al.: Automation Bias S. 124.
Vgl. Lupton, D.: Self-Tracking. 192 f.
Das halten auch Earp et al. für einen wichtigen Schritt in der Entwicklung der P4s: „This would allow independent scrutiny by health professionals, surrogates, and family.“ Vgl. Earp, B.D. et al.: A Personalized Predictor for Substituted Judgments in Healthcare. S. 11.
Die Idee der epistemischen Verantwortung im Kontext von Systemen zur klinischen Entscheidungsunterstützung entwickeln van Baalen et al. und argumentieren, dass diese Systeme als „Clinical Reasoning Support Systems“ gedacht werden sollten, die bestimmten Anforderungen genügen müssen (Entwicklung auf der Basis relevanter Daten, erleichterte Interaktion mit dem Kliniker sowie empirische Begründung des Outputs), so dass es dem Kliniker ermöglicht wird die Ergebnisse auf Plausibilität und Anwendbarkeit zu überprüfen. Vgl. van Baalen, S. et al.: From Clinical Decision Support Systems to Clinical Reasoning Support Systems.
Earp, B.D. et al.: A Personalized Predictor for Substituted Judgments in Healthcare. S. 10 f.
Vgl. Für eine solche Kritik am PPP: John, S.D.: Messy Autonomy; Sharadin, N.P.: Patient Preference Predictors and the Problem of Naked Statistical Evidence.
Vgl. Stout, N.: A Mixed Judgment Standard for Surrogate Decision-Making.
Mackie, J.L.: Die Erfindung des moralisch Richtigen und Falschen. S. 117 Oder wie es bei Richard Hare heißt: „I am to imagine myself in his situation with his preferences.“ Vgl. Hare, R.M.: Moral Thinking. S. 94.
Vgl. Shepherd, V.: Reconceptualising ‘Good’ Proxy Decision-Making for Research.
Jardas et al.: Autonomy-Based Criticisms of the Patient Preference predictor S. 307 vgl. John, S.: Patient Preference Predictors, Apt Categorization, and Respect for Autonomy, John, S.: Messy Autonomy.
Earp, B.D.: Meta-Surrogate Decision Making and Artificial Intelligence. S. 289.
Vgl. zur These des begrifflichen Zusammenhangs: Hallich, O.: Die Rationalität der Moral. S. 353 ff; Bittner, R: Was ist eine Entscheidung?.
Bittner, R. Was ist eine Entscheidung? S. 19.

Literatur

Ach, J.S. und B. Schöne-Seifert: Aufklären, Verstehen und Einwilligen in der Medizin: Nachfragen und Präzisierungen. Brill/Mentis: Paderborn. Im Erscheinen
Anscombe, G.E.M. (1957): Intention. Harvard University Press: London
Google Scholar
Beauchamp, T. L. und J. F. Childress (2019⁸): Principles of Biomedical Ethics. Oxford University Press: New York, Oxford
Google Scholar
Bender, E.M., T. Gebru, A. McMillan-Major und S. Shmitchell (2021): On the Dangers of Stochastic Parrots: Can Large Language Models Be Too Big? FAcct’21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency: 610-623
Google Scholar
Benzinger, L., F. Ursin, W.-T. Balke, T. Kacprowski, S. Salloch (2023): Should Artificial Intelligence be Used to Support Clinical Ethical Decision-Making? BMC Medical Ethics 24: 48
Article Google Scholar
Biller-Andorno, N. und A. Biller (2019): Algorithm-Aided Prediction of Patient Preferences – An Ethics Sneak Peek. New England Journal of Medicine 318 (15): 1480-1485
Article Google Scholar
Bittner, R. (1992): Was ist eine Entscheidung? In: Ethik und Sozialwissenschaften 3: 17-44
Google Scholar
Bringsjord, S. and N.S. Govindarajulu (2022): Artificial Intelligence. The Stanford Encyclopedia of Philosophy (Fall 2022 Edition), E. N. Zalta und U. Nodelman (Hrsg.), URL = 〈https://plato.stanford.edu/archives/fall2022/entries/artificial-intelligence/〉. [03.11.23]
Brinker, T.J., A. Hekler, A.H. Enk, J. Klode, A. Hauschild, C. Berking, B. Schilling, S. Haferkamp, D. Schadendorf, S. Fröhling, J. S. Utikal, C. von Kalle (2019): A Convolutional Neural Network Trained with Dermoscopic Images Performed On Par with 145 Dermatologists in a Clinical Melanoma Image Classification Task. European Journal of Cancer 111, 148-154
Article Google Scholar
Britz, G. (2008): Einzelfallgerechtigkeit versus Generalisierung. Mohr Siebeck: Tübingen.
Google Scholar
Brockhaus (2011): Extrapolation. In: Wahrig-Burfeind, R. (Hrsg.): Wahrig Deutsches Wörterbuch. Gütersloh/München S. 489
Google Scholar
Buchanan, A. und D.W. Brock (1990): Deciding for Others. The Ethics of Surrogate Decision Making. Cambridge University Press: Cambridge.
Book Google Scholar
Burgess, M. (2018): Now DeepMind’s AI Can Spot Eye Disease Just as Your Doctor. Wired UK 13
DHPV: https://www.dhpv.de/presseinformation/wie-deutsche-ueber-das-sterben-denken.html [03.11.2023]
Dresser, R. (1995): Dworkin on Dementia. Elegant Theory, Questionable Policy. Hastings Center Reports 25 (6): 32-38
Article Google Scholar
Dworkin, R.M. (1983): Life’s Dominion. An Argument about Abortion, Euthanasia, and Individual Freedom. New York: Random House
Google Scholar
Earp, B.D. (2022): Meta-Surrogate Decision Making and Artificial Intelligence. Journal of Medical Ethics 48 (5): 287-289
Article Google Scholar
Earp, B.D., S. Porsdam Mann, J. Allen, S. Salloch, V. Suren, K. Jongsma, M. Braun, D. Wilkinson, W. Sinott-Armstrong, A. Rid, D. Wendler, J. Savulescu (2024): A Personalized Patient Preference Predictor for Substituted Judgments in Healthcare: Technically Feasible and Ethically Desirable. American Journal of Bioethics: 1‑14.
Article Google Scholar
Faden, R.R. und T.L. Beauchamp (1986): A History and Theory of Informed Consent. Oxford University Press: New York, Oxford
Google Scholar
Ferrario, A., S. Gloeckler, N. Biller-Andorno (2022): Ethics of the Algorithmic Prediction of Goal of Care Preferences: From Theory to Practice. J Med Ethics 0:1-10
Google Scholar
Fischer, J., C. Roßmeier, J. Hartmann, L. Riedl, M. Tensil, J. Diehl-Schmid, R.J. Jox (2023): Irrelevant Interests? A Qualitative Study Into How German Family Surrogates of Persons Living With Dementia Fulfill Their Legal Role as Advocates of an Advanced Directive. Gerontologist gnad119
Article Google Scholar
Floridi, L. und J. Cowls (2022): A Unified Framework of Five Principles for AI in Society. In: S. Carta (Hrsg.): Machine Learning and the City. Wiley Blackwell: Oxford: 535-545
Chapter Google Scholar
Gethmann, C.F. (2023): Konstruktive Ethik. Einführung und Grundlegung. Springer: Berlin
Book Google Scholar
Goddard, K., A. Roudsari, J.C. Wyatt (2012): Automation Bias: A Systematic Review of Frequency, Effect Meditators, and Mitigators. J Am Med Inform Assoc 19: 121-127
Article Google Scholar
Gutmann, T. (2021): Kommentar zu den §§630a‑h BGB (Behandlungsvertrag) in J. von Staudingers Kommentar zum bürgerlichen Gesetzbuch Buch 2, Recht der Schuldverhältnisse §§ 630a-630h (Behandlungsvertrag)
Google Scholar
Hallich, O. (2008): Die Rationalität der Moral. Eine sprachanalytische Grundlegung der Ethik. Mentis: Paderborn
Book Google Scholar
Hampshire, S. und H.L.A. Hart (1958): Decision, Intention and Certainty. Mind 67 (265) 1‑12
Article Google Scholar
Hare, R. (1981): Moral Thinking. Its Levels, Method, and Point. Oxford University Press: Oxford
Book Google Scholar
Heinrichs, B, J.-H. Heinrichs und M. Rüther (2022): Künstliche Intelligenz. de Gruyter: Berlin
Book Google Scholar
Hubbard, R. und J. Greenblum (2020): Surrogates and Artificial Intelligence: Why AI Trumps Family. Science and Engineering Ethics 26: 3217-3227
Article Google Scholar
Jardas, E.D. Wasserman, D. Wendler (2022): Autonomy-based criticisms of the patient preference predictor. Journal of Medical Ethics 48, 304-310
Google Scholar
Jaworska, A.: Respecting the Margins of Agency. Alzheimer’s Patients and the Capacity to Value. Philosophy & Public Affairs 28 (2): 105-138
Ji, Z., N. Lee, R. Frieske, T. Yu, D. Su, Y. Xu, E. Ishii, Y.J. Bang, A. Madotto, P. Fung (2023): Survey of Hallucination in Natural Language Generation. ACM Comput. Surv. 55 (12): 248:1-30
Article Google Scholar
John, S. (2014): Patient Preference Predictors, Apt Categorization, and Respect for Autonomy. Journal of Medicine and Philosophy 39 (2): 169-177
Article Google Scholar
John, S. (2018): Messy Autonomy: Commentary on Patient Preference Predictors and the Problem of Naked Statisitcal Evidence. Journal of Medical Ethics 44 (12): 864
Article Google Scholar
Jox, R.D. (2004): Bewusstlos, aber autonom? Ethik in der Medizin 16: 401-4014
Article Google Scholar
Kaminski, A. (2020a): Entscheiden. In: M. Heßler und K. Liggieri (Hrsg.): Technikanthropologie. Nomos: 493-501
Chapter Google Scholar
Kaminski, A. (2020b): Gründe geben. Maschinelles Lernen als Problem der Moralfähigkeit von Entscheidungen. In: K. Wiegerling (Hrsg.): Datafizierung und Big Data. Springer Nature: 151- 174
Chapter Google Scholar
Kandul, S., V. Micheli, J. Beck, M. Kneer, T. Burri, F. Fleuret, und M. Christen (2023): Explainable AI: A Review of the Empirical Literature. SSRN Electronic Journal
Article Google Scholar
Kemmerling, A. (1991): Implikatur. In: A. Stechow und D. Wunderlich (Hrsg.): Semantik – Ein internationales Handbuch der zeitgenössischen Forschung. De Gruyter: Berlin/NewYork
Google Scholar
Koch, H. (2020): Intransparente Diskriminierung durch maschinelles Lernen. Zeitschrift für Praktische Philosophie 7 (1):265-300
Article Google Scholar
Kohn, N. (2015): Matched Preferences and Values: A New Approach to Selecting Legal Surrogates 52 (2) San Diego Law Review: 399-426
Google Scholar
Lupton, D. (2021): Self-Tracking. In: M. Kennerly, S. Frederick, J.E. Abel (Hrsg.): Information: Keywords. Columbia University Press: New York Chichester, West Sussex: 187-198.
Chapter Google Scholar
MacKay, D.M. (1960): On the Logical Indeterminacy of a Free Choice. Mind 69 (273): 31-40
Article Google Scholar
Mackie, J.L. (1983): Die Erfindung des moralisch Richtigen und Falschen. Reclam: Stuttgart
Google Scholar
Marks, M.A.Z. und H.R. Arks (2008): Patient and Surrogate Disagreement in End-of-life-Decisions: can Surrogates Accurately Predict Patients’ Preferences? Medical Decision Making 28 (4): 524-531
Article Google Scholar
McDougall, R. (2019): Computer Knows Best? The Need for Value Flexibility in Medical AI. J. Med. Ethics (45): 156-160
Misselhorn, C. (2021): Künstliche Intelligenz und Empathie. Vom Leben mit Emotionserkennung, Sexrobotern und Co. Reclam: Stuttgart
Google Scholar
OpenAI (2023): https://openai.com/index/gpt-4-research/ [Zugriff 14.05.24]
Peters, U. (2023): Explainable AI Lacks Regulative Reasons: Why AI and Human Decision-Making Are Not Equally Opaque. AI and Ethics 3: 963-974
Article Google Scholar
Rid, A. und D. Wendler (2011): Use of a Patient Preference Predictor to Help Make Medical Decisions for Incapacitated Patients. Journal of Medicine and Philosophy 39: 104-129
Article Google Scholar
Rid, A. und D. Wendler (2014): Treatment Decision Making for Incapacitated Patients: Is Development and Use of a Patient Preference Predictor Feasible? Journal of Medicine and Philosophy 39: 130-152
Article Google Scholar
Rudin, C. (2019): Stop Explaining Black Box Machine Learning Models for High Stakes Decision and Use Interpretable Models Instead. Nature Machine Intelligence 1: 206-215
Article Google Scholar
Shalowitz, D., E. Garrett-Meyer, D. Wendler (2006): The Accuracy of Surrogate Decision-Makers. A Systematic Review. Archives of Internal Medicine 166: 493-497
Article Google Scholar
Sharadin, N. P. (2018): Patient Preference Predictors and the Problem of Naked Statistical Evidence. Journal of Medical Ethics 44: 857-862
Article Google Scholar
Shepherd, V. (2022): (Re‑)Conceptualising ‘Good’ Proxy Decision-Making for Research: The Implications for Proxy Consent Decision Quality. BMC Medical Ethics 23: 75
Article Google Scholar
Shepherd, V., K. Hood, M. Sheehan, R. Griffith, A. Jordan, F. Wood (2018): Ethical Understandings of Proxy Decision Making for Research for Adults Lacking Capacity: A Systematic Review (Framework Synthesis) of Empirical Research. AJOB Empirical Bioethics 9 (4): 267-286
Article Google Scholar
Stout, N. (2022): A Mixed Judgment Standard for Surrogate Decision-Making. The Journal of Medicine and Philosophy 47: 540-548
Article Google Scholar
Suhl, J., P. Simons, T. Reedy, T. Garrick (1994): Myth of Substituted Judgment. Archives of Internal Medicine 154
Article Google Scholar
Tretter, M. und D. Samhammer (2023): For the Sake of Multifacetedness. Why Artificial Intelligent Patient Preference Prediciton Systems Shouldn’t be for Next of Kin. Journal of Medical Ethics 49: 175-176
Article Google Scholar
Tupasela, A. und E. DiNucci (2020): Concordance as Evidence in the Watson for Oncology Decision Support System. AI and Society (35) 811-818
Ursin, F., F. Lindner, T. Ropinski, S. Salloch, C. Timmermann (2023): Levels of Explicability for Medical Artificial Intelligence: What Do We Normatively Need and What Can We Technically Reach? Ethik in der Medizin 35: 173-199
Article Google Scholar
vanBaalen, S., M. Boon, P. Verhoef (2021): From Clinical Decision Support to Clinical Reasoning Support Systems. Journal of Evaluation in Clinical Practice 27: 520-528
Article Google Scholar
ZEKO (2021): Entscheidungsunterstützung ärztlicher Tätigkeit durch Künstliche Intelligenz. Deutsches Ärzteblatt 118: 33-34
Google Scholar
Zerilli, J., A. Knott, J. Maclaurin, C. Gavaghan (2018): Transparency in Algorithmic and Human Decision-Making: Is There a Double Standard? Philosophy & Technology 32: 661-683
Article Google Scholar

Download references

Danksagung

Für die kritische, aber immer hilfreiche und konstruktive Diskussion vorheriger Fassungen dieses Artikels danke ich Bettina Schöne-Seifert, Marco Stier und Oliver Hallich. Den anonymen Reviewer*innen danke ich für ihre hilfreichen Kommentare.

Förderung

Dieser Artikel ist im Rahmen des von der DFG geförderten Projektes ‛Ethische und medizintheoretische Herausforderungen für die individuelle Patientendienlichkeit von Medizin im Digitalzeitalter’ entstanden.

Funding

Open Access funding enabled and organized by Projekt DEAL.

Author information

Authors and Affiliations

Institut für Ethik, Geschichte und Theorie der Medizin, Universität Münster, Von-Esmarch-Straße 62, 48149, Münster, Deutschland
Susanne Hiekel

Authors

Susanne Hiekel
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Susanne Hiekel.

Additional information

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Rights and permissions

Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.

Reprints and permissions

About this article

Cite this article

Hiekel, S. Ein kritischer Blick auf die Idee eines Patient Preference ‚Predictors‘. ZEMO (2024). https://doi.org/10.1007/s42048-024-00188-z

Download citation

Received: 20 February 2024
Accepted: 23 May 2024
Published: 19 June 2024
DOI: https://doi.org/10.1007/s42048-024-00188-z

Schlüsselwörter

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

Ein kritischer Blick auf die Idee eines Patient Preference ‚Predictors‘

Zusammenfassung

1 Einleitung

2 Hintergrund

2.1 Der normative Hintergrund

2.2 Die Idee eines (personalisierten) PPP

3 Epistemische Bedenken

3.1 Das Problem der Verlässlichkeitsurteile

3.2 Das Problem der bloßen Korrelation bei PPPs

3.3 Problem der mutmaßlich höheren Treffsicherheit des P4

3.4 Das Problem des epistemischen Zugewinns

4 Normative Bedenken

4.1 P4s als Entscheidungsersatz

4.2 P4s als Entscheidungshilfe

5 Zwei Einwände

5.1 Zwei unterschiedliche Standards

5.2 Ist es nicht wichtiger, mit hoher Wahrscheinlichkeit die richtige Präferenz zu treffen?

6 Zusammenfassung

Notes

Literatur

Danksagung

Förderung

Funding

Author information

Authors and Affiliations

Corresponding author

Additional information

Hinweis des Verlags

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Search

Navigation