Einleitung

Die Maschine als Kommunikator, Computerprogramme für die Erzeugung von Bild, Ton und Texten – kurz künstliche Intelligenz (KI) – ist gerade dabei, eine neue digitale Revolution voranzutreiben, die Maschinen befähigt, eigene Inhalte zu erstellen, mit Menschen in natürlich wirkender Weise zu kommunizieren und gewaltige Mengen an Daten zu analysieren und zu verarbeiten. Viele dieser Technologien sind, wie ChatGPT, im Internet frei zugänglich und haben die Nutzung dieser Möglichkeiten der breiten Öffentlichkeit zugänglich gemacht.

Die Technologie hinter den Sprachmodellen

Künstliche Intelligenz kann je nach Form der zu verarbeitenden Information verschiedene Wege in der Prozessierung nehmen. ChatGPT beruht aktuell in der kostenlosen Version auf dem GPT‑3.5‑Sprachmodell (Generative Pre-trained Transformer 3.5); das ist ein autoregressives Sprachmodell, dass natürlich wirkende Texte erzeugen kann. Bei autoregressiven Modellen basiert der ausgegebene Wert zu einem Zeitpunkt t0 auf einer Linearkombination von vorhergehenden gegebenen Werten (Vorwärtsprädiktion) oder auf einer Linearkombination nachfolgender Werte (Rückwärtsprädiktion). Ebenso ist eine Kombination beider (Vorwärts-Rückwärts-Prädiktion) möglich. Der gegebene Text wird in Wörter und Zeichen zerlegt; diese Bruchstücke des Textes werden Token genannt. Den Token werden dabei verschiedene Kategorien zugeordnet, und anhand ihrer Position im Satz die wahrscheinlichsten Wörter vor und nach dem Wort bestimmt. Um die Wörter dabei aber im Kontext zu erfassen, müssen ihnen für das maschinelle Lernen Vektoren zugeordnet werden (Abb. 1), Synonyme haben dabei immer gleiche Vektoren. Damit erfassen die Sprachmodelle nicht nur das gegebene Wort, sondern auch die Wörter vor und hinter dem Wort und stellen diese in Beziehung zueinander. Dass der Kontext insbesondere in der deutschen Sprache wichtig ist, lässt sich an einem Beispiel erklären: Der Fall eines Patienten kann den physischen Sturz aus einer gewissen Höhe meinen oder die andere Bedeutung haben, dass damit der gesamte Vorgang seiner Behandlung innerhalb einer Einrichtung gemeint ist. Das Sprachmodell kann also Inhalte anhand ihrer semantischen Aussagen zueinander kategorisieren und so auch erkennen, ob sie zueinander gleich, neutral oder gegensätzlich sind. Mithilfe dieser Token kann das Sprachmodell nun das wahrscheinlichste nächste Wort im Kontext aller Token berechnen. Um zu wissen, welche Wörter und Zeichen hierbei in Beziehung stehen, müssen Sprachmodelle trainiert werden. Dabei werden Petabytes an Texten auf ihre statistische Verteilung der einzelnen Token untersucht und dann diese Token miteinander in Beziehung gesetzt (Abb. 2 und 3). Am besten nachvollziehen lässt sich diese Vorhersage von passenden Wörtern durch natürliche Sprachverarbeitung („natural language processing“, NLP) bei der Autokorrektur in Suchmaschinen und bei Textnachrichtenprogrammen, die trotz Schreibfehler das richtige Wort anbieten und sogar teilweise das nächste Wort vorschlagen. Diese Analyse der Wörter eines gegebenen Textes durch immer weiter aufteilendes Kategorisieren in Token, die aus Wörtern, Silben und Zeichen bestehen, wird als tiefes Lernen („deep learning“) bezeichnet, weil die Information in immer neue Schichten aufgeteilt wird.

Abb. 1
figure 1

In einfacheren Modellen werden Wörtern (Token) diskrete Werte zugeordnet (im Beispiel in der ersten Zeile Zahlen 1–5 zu jedem Wort), das wird als „bag-of-words“ bezeichnet. In komplexeren Modellen werden den Token Vektoren zugeordnet (zweite Zeile), diese werden Embeddings genannt. In beiden Fällen werden die eingegebenen Texte durch die Algorithmen in eine computerlesbare Sprache zerlegt (Token) und dabei in ihre jeweilige Grundform gebracht, dadurch verlieren z. B. Flexionen von Verben in dieser Ebene ihre Bedeutung

Abb. 2
figure 2

Die ermittelten Vektoren beinhalten semantische Bedeutungen des Wortes. Wörter mit ähnlicher Bedeutung oder anderer semantischer Beziehung (Herz → Herzinfarkt) liegen dann im Vektorraum näher beieinander als andere Wörter (z. B. Herz und Tisch)

Abb. 3
figure 3

Wörter werden zueinander in Beziehung gesetzt, es entstehen Vektorräume mit Wörtern, die zueinander in engerer Beziehung stehen als zu anderen Wörtern, selbst wenn sie in ein ähnliches Themenfeld passen

KI im Einsatz in Klinik und Lehre

Die KI-gestützte Auswertung digitaler Daten in der Medizin ist ein wichtiges Forschungsgebiet [1,2,3] und ein stetig wachsender Markt für junge Start-ups. Ob bei der Vorhersage des Todeszeitpunktes [4], in der Dermatologie [5, 6], beim Management der Schlafapnoe [7], dem Schreiben von Arztbriefen [8] oder als Werkzeug in der Radiologie [9, 10], aktuell werden viele Anwendungsmöglichkeiten für den Einsatz von KI im klinischen Bereich untersucht und erprobt. Bei der Erstellung von Texten für Abschlussarbeiten bzw. der Kontrolle dieser Arbeiten auf durch KI erzeugte (Plagiat‑)Texte kommt wiederum KI zum Einsatz [11, 12]. Auch beim Erstellen von Erklärvideos aus Texten wird KI bereits zum Einsatz gebracht [13]. Ebenso kamen Sprachmodelle bereits bei der experimentellen Bearbeitung von Prüfungsfragen [14, 15], bei denen vorher alle Bildfragen ausgeschlossen wurden, zum Einsatz. Hierbei wurde gezeigt, dass ChatGPT diese Fragen in den meisten Fällen richtig beantworten kann. Anhand dieser Untersuchung beschrieben die Autoren Jung et al. [15] „die Fähigkeit von LLMs (großen Sprachmodellen), medizinische Daten zu strukturieren und Informationen vor dem Hintergrund der verfügbaren Literatur zu interpretieren“. Diese würde das Potenzial für die Nutzung von ChatGPT in der Medizin bergen. Sie regten außerdem an, dass „künftige Arbeiten (…) die Leistung von KI-Anwendungen bei Bildfragen sowie unterschiedlichen Fragetypen untersuchen“ sollten. Außerdem wird durch eine größere Stichprobe die Fähigkeit zur reflektierten Beantwortung der Fragen untersucht. Ferner wurde untersucht, inwiefern solche Sprachmodelle für die Erstellung von Texten für Abschlussarbeiten und in der Lehre geeignet sind, und inwiefern die Antworten von Chat GPT für die Beantwortung von medizinischen Fragen im klinischen Einsatz geeignet sein können.

Material und Methode

Die Analysen zu den Prüfungsfragen beruhen auf den bei Amboss (www.amboss.com, AMBOSS GmbH, 19.08.2023) zugänglichen Prüfungsfragen zum M2-Staatsexamen. In manchen Fällen beinhalten die Fragen dabei Abbildungen und Bilder, die für die Beantwortung der Frage notwendig oder hilfreich sein können. ChatGPT bietet keine Möglichkeit, Abbildungen in Fragen einzufügen, gleichwohl könnte hier aber ein möglicher Indikator bestehen, um die selbstreflektierte Beantwortung von Fragen zu kontrollieren: Fragen (n = 120), in denen die Abbildungen zwar enthalten, aber nicht zwingend zur Beantwortung benötigt werden, und Fragen (n = 46), in denen die Abbildungen für die Beantwortung notwendig sind, werden in die Untersuchung miteinbezogen und gesondert erfasst. Jede Frage wurde einem Fachgebiet zugeordnet. Außerdem wurde zwischen Fragen mit Quellenbezug (n = 450, z. B. Fallvignette oder Abbildung) und Fragen ohne Quellenbezug unterschieden. Die Untersuchung wurde mit ChatGPT, basierend auf GPT 3.5 (https://chat.openai.com/; Version: 03.08.2023; OpenAI), durchgeführt. Es wurden 1025 Fragen untersucht. Die Fragen wurden eingegeben und mit den Lösungen des Examens auf der Amboss-Plattform verglichen. Die Ergebnisse wurden mithilfe des Chi-Quadrat-Tests mit denen der Arbeit von Jung et al. verglichen. Die Fälle, in denen ChatGPT eine Frage, die es wegen der fehlenden Abbildung nicht richtig beantworten konnte, ablehnte oder trotzdem beantwortete, wurden erfasst. Manchmal gab ChatGPT nicht nur die Antwort, sondern auch einen Begründungstext aus. Bei falschen Antworten wurde dieser ebenfalls auf das Vorliegen von Halluzinationen untersucht. Als Halluzinationen werden erfundene Inhalte bezeichnet, die durch die KI erzeugt wurden, aber in der Realität keine Entsprechung finden.

Für die Untersuchung zur Erstellung von Lerninhalten wurde auf die Spalte „Kognitive und Methodenkompetenz – Kenntnisse“ der Musterweiterbildungsordnung der Bundesärztekammer von 2018 für die Facharztweiterbildung Anästhesiologie [11] und die Zusatzbezeichnung Notfallmedizin [18] zurückgegriffen (Tab. 1). Die Aufsätze wurden von ChatGPT ausgegeben und mittels einer 5‑gliedrigen Likert-Skala unter dem Aspekt „Richtigkeit der dargestellten Fakten“ bewertet. Hierfür wurden die Texte von 3 Untersuchern (Ärzte mit wenigstens 2 Jahren Berufserfahrung) diskutiert; die Bewertung erfolgte einstimmig. Die so ermittelten Attribute wurden dann mittels Microsoft Excel® (Version 2019, Microsoft Corporation, Redmond, USA) auf ihren Median untersucht.

Tab. 1 Auszug aus dem Lernzielkatalog der Musterweiterbildungsordnung der Bundesärztekammer von 2018 und die zu den jeweiligen Lernzielen formulierten Feinlernziele, die in dieser Arbeit untersucht wurden, mit den Ergebnissen der Bewertung durch die Untersucher von 1 (niedrigster Wert der Richtigkeit) bis 5 (höchster Wert der Richtigkeit) (Asterisk)

Außerdem wurde ChatGPT aufgefordert, Texte zu formulieren zu Feinlernzielen aller Lerninhalte der Musterweiterbildungsordnung, die auf diesen Lernzielen beruhen, aber in der Fragestellung tiefer gehen. Auch diese wurden wie die anderen Texte durch dieselben Untersucher bewertet (Tab. 1). Diese Feinlernziele richteten sich nach den Lernzielen des Kataloges, wurden aber in Erweiterung dessen zu einem hierzu passenden Thema gefordert. Sie wurden durch dieselben Ärzte einstimmig bewertet. Die Ärzte haben bereits die Zusatzweiterbildung Notfallmedizin abgeschlossen, oder sind weit fortgeschritten in ihrer Ausbildung zum Facharzt in Anästhesiologie. Die Ergebnisse beider Fragetypen wurden innerhalb der Fachgebiete mit dem Chi-Quadrat-Test auf das Vorliegen eines signifikanten Unterschieds hin untersucht.

Ergebnisse

Insgesamt wurden 1025 Fragen aus 29 Fachgebieten gestellt, davon bezogen sich 450 Fragen auf Quellen. Es wurden 69,5 % aller Fragen richtig beantwortet. Bei Fragen mit Quellenverweisen wurden 289 (64,2 %) richtig beantwortet, 140 Fragen (31,1 %) wurden falsch beantwortet, und bei 21 Fragen (4,7 %) wurde eine Beantwortung mit Verweis auf die fehlende Quelle abgelehnt. Bei den 140 Fragen konnten 126 (90 %) auch ohne Quelle allein anhand des Fragentextes richtig beantwortet werden, während bei 14 (10 %) der falsch beantworteten Fragen und 20 (95,2 %) der abgelehnten Fragen die Quelle für die Beantwortung der Frage zwingend notwendig war.

Bei 252 (86,6 %) aller falsch beantworteten Fragen wurde lediglich die falsche Antwort ausgegeben, bei 39 (13,4 %) wurde zusätzliche eine in Teilen oder komplett falsche oder widersprüchliche Begründung zur Antwort dazu ausgegeben. Hierbei wurde 15-mal eine falsche Diagnose begründet, 8‑mal wurden falsche physiologische Angaben gemacht, 5‑mal eine falsche Beratung zum ärztlichen Vorgehen gegeben und 10-mal eine falsche Therapie begründet. Während 35 (89,7 %) der Fragen lediglich falsche Begründungen angaben, wurden bei 4 Fragen (10,3 %) Sachverhalte oder Fakten halluziniert.

ChatGPT besteht in Notfall- und Intensivmedizin, fällt aber in Anästhesiologie und Rechtsmedizin durch.

In 8 Fachgebieten wurden mehr als 60 Fragen gestellt; Spitzenreiter war dabei die Innere Medizin mit 172 Fragen, gefolgt von Notfallmedizin (106), Genetik (94), Intensivmedizin (87), Neurologie (83), Anästhesiologie (69), Psychologie/Psychiatrie (67) und Rechtsmedizin (61) (Tab. 2).

Tab. 2 Die Ergebnisse der Untersuchung bei der Befragung von ChatGPT

Diese 8 Fachgebiete brachten es in der Untersuchung auf 739 Fragen; von denen wurden 67,3 % richtig und 31,4 % falsch beantwortet. Beim Rest (1,3 %) wurde eine Beantwortung abgelehnt.

Am meisten richtige Antworten gab es in der Psychologie/Psychiatrie (80,6 %), gefolgt von Intensivmedizin (77 %), Innerer Medizin (76 %), Notfallmedizin (74,5 %), Neurologie (69,9 %), Genetik (62,8 %), Anästhesiologie (56,5 %) und Rechtsmedizin (41 %).

Qualitative Auswertung der Aufsätze

Für die zwei Bereiche Anästhesiologie und Notfallmedizin wurden insgesamt 59 Aufsatzanfragen an ChatGPT gestellt (jeweils 18 für die Notfallmedizin und 11 für die Anästhesiologie zu den Lernzielen des Lernzielkataloges der Weiterbildungsordnung sowie zu den daraus abgeleiteten Feinlernzielen). Diese Aufsätze wurden nach dem Aspekt „Richtigkeit“ mit ganzzahligen Werten von 1 bis 5 durch alle Untersucher bewertet, daraus wurde dann der Durchschnitt errechnet. Der Punktwert 5 war der höchste zu erzielende und folglich 1 der niedrigste Punktwert. Für die Richtigkeit wurde bei der Anästhesiologie der Median von 3 erzielt. Im Fach Notfallmedizin lag bei der Richtigkeit der Median bei 2 (Abb. 4 und 5). Bei den Aufsätzen zu den Feinlernzielen, die sich von den Lernzielen der Weiterbildungsordnung ableiten, lag der Median in der Anästhesiologie bei 3,5 und in der Notfallmedizin bei 3. Für die Ergebnisse der Anästhesiologie lag p bei 0,384, bei der Notfallmedizin bei 0,29; die gefundenen Unterschiede waren insofern nicht signifikant.

Abb. 4
figure 4

Aufsätze zur Anästhesiologie zu den Fragen der Weiterbildungsordnung und die daraus abgeleiteten Feinlernziele

Abb. 5
figure 5

Aufsätze zur Notfallmedizin zu den Fragen der Weiterbildungsordnung und den daraus abgeleiteten Feinlernzielen

Diskussion

Die Bestehensgrenzen für die Examina wurden durch das IMPP mit 60 % [16] angegeben, und es zeigte sich, dass ChatGPT diese Schwelle bei den 1025 gestellten Fragen erfolgreich überschreiten konnte, selbst wenn die Fragen mit Bilderverweis nicht ausgeschlossen wurden. Dass ChatGPT diese Grenze erreichen würde, war nach den Untersuchungen von Kung et al. [14] und Jung et al. [15] zu erwarten. Es zeigten sich Unterschiede in den Ergebnissen nach Fachgebieten (Tab. 3). Wie viele Fragen dabei mit denen von Jung et al. übereinstimmten, ist jedoch nicht zu ermitteln.

Tab. 3 Vergleich der richtig beantworteten Fragen nach Fachgebiet zwischen den Ergebnissen von Jung et al. [15] und der aktuellen Untersuchung

Im Gegensatz zu Jung et al. konnte die KI den Anteil richtiger Fragen sogar noch erhöhen, und wenn man alle Fragen ausschließen würde, die ohne eine Abbildung nicht zu beantworten waren, steigt der Anteil richtiger Antworten sogar auf 71,1 % gegenüber 66,7 % bei Jung et al. (p < 0,01). Das zeigt, dass die Leistungsfähigkeit des Sprachmodells bereits in der kurzen Zeit seit März 2023 signifikant zugenommen hat, was an den fortwährenden Verbesserungen der Software (Updates) liegen kann. Die stetige Zunahme der Leistungsfähigkeit der zugrunde liegenden Sprachmodelle ist für die Anwendung in der Klinik und Lehre von herausragender Bedeutung und macht bereits jetzt einige Anwendung möglich, auch wenn es in erster Linie um Bildverarbeitung geht, wie etwa in der Radiologie und nicht um Texte wie bei ChatGPT. Für Anwendungen in der Lehre bedarf es nach aktuellem Stand noch der menschlichen Supervision. Es zeigte sich, dass die von ChatGPT erstellten Inhalte in mancher Hinsicht vom Stand der Wissenschaft abwichen. Besonders eindrücklich ist hierbei der Aufsatz zur transkutanen Schrittmachertherapie (Abb. 6). Hier empfahl ChatGPT das transthorakale Pacing (TT-PACE). Die Anwendung des TT-PACE erklärte ChatGPT wie folgt: „Zur Durchführung einer TT-PACE wird ein Pulsgenerator unter die Haut implantiert, der dann über eine externe Antenne mit einer Stromquelle verbunden wird.“ Dies solle den Nervus vagus stimulieren, so das Sprachmodell, um u. a. Herzrhythmusstörungen zu therapieren. Den Widerspruch zwischen der Implantation unter die Haut und einer transkutanen Stimulation artikulierte ChatGPT nicht. Bei der Recherche auf PubMed zeigten sich zum „TT-PACE“ keine Einträge, zur Nervus-vagus-Stimulation (VNS) einige Publikationen, sogar zum Einsatz bei kardiovaskulären Erkrankungen [17] – aber eben nicht zur Schrittmachertherapie. Einige Monate später gab eine neuere Version des Sprachmodells richtigerweise an, dass TT-PACE kein standardmedizinischer Begriff sei, ließ sich dann aber durch eine Suggestivfrage wieder zur Reproduktion der alten, falschen Antwort verleiten.

Abb. 6
figure 6

Der Aufsatz zur transkutanen Schrittmachertherapie ist ein Beispiel für die Probleme der KI mit Halluzination beim Einsatz in der Lehre

An anderer Stelle beschreibt ChatGPT den Transport von Notfallpatienten im Notarzteinsatzfahrzeug: „So werden beispielsweise schwerwiegende Verletzungen oder akute Erkrankungen, bei denen eine schnelle medizinische Versorgung notwendig ist, häufig mit dem Notarzteinsatzfahrzeug oder dem Rettungshubschrauber transportiert.“ Dass das Notarzteinsatzfahrzeug nicht für den Patiententransport gedacht ist, sondern dem Transport des Notarztes zum Patienten dient, gab ChatGPT nicht richtig wieder. Bei den Aufsätzen zu den Feinlernzielen konnte hierzu keine signifikante Verbesserung gefunden werden. Zwar liegt die Vermutung nahe, dass das Sprachmodell durch die konkretere Fragestellung mit mehr Informationen eine bessere Antwort generieren kann, das ist jedoch bei dem gewählten Versuchsaufbau nicht nachweisbar. Ein Grund hierfür kann die englischsprachige Lernumgebung des Sprachmodells sein, wobei die deutschen Fragen in englische Sprache übersetzt werden, hier kann es zu Unschärfen kommen, die wiederum ihrerseits zu Fehlern bei der Antwort führen können. Während die Software bei manchen Fragen den aktuellen Stand von Leitlinien weiterzugeben wusste, erklärte sie in einem Aufsatz zu einem Feinlernziel, beruhend auf dem Lernziel „geburtshilfliches Notfallmanagement“: „Eine vordere Hinterhauptslage tritt auf, wenn sich das Baby mit dem Hinterkopf nach unten, aber mit dem Gesicht nach vorne in Richtung des mütterlichen Rückens befindet. Dies ist eine ungewöhnliche Position, da normalerweise der Hinterkopf nach unten und das Gesicht zur Wirbelsäule des Babys zeigt“, der semantische Fehler in diesen Zeilen wurde durch die Software nicht zuverlässig erkannt. An anderer Stelle arbeitet die Software hingegen einen sehr schlüssigen und dem Stand der Wissenschaft entsprechenden Text aus, wie etwa bei der Wahl des Zugangs zum Gefäßsystem bei der Reanimation von Neugeborenen (Abb. 7). Dies könnte an der Menge an Quellen liegen, die hierzu in der Trainingsumgebung den richtigen Sachverhalt wiedergegeben haben. Wenn der Anteil geeigneter Quellen in der Trainingsumgebung hoch genug sein sollte, wäre es hinreichend wahrscheinlich, dass die Software entsprechende Token produziert, die in entsprechender semantischer Beziehung zueinander stehen. Welche Faktoren aber letztlich beeinflussen, wann die Sprachmodelle zu einem schlüssigen, inhaltlich korrekten Text in der Lage sind und wann nicht, ist weiterhin unklar und bedarf weiterer Untersuchungen hierzu.

Abb. 7
figure 7

Ein positives Beispiel für den Einsatz von KI-Sprachmodellen in der Lehre ist der Aufsatz über die Wahl des Kreislaufzuganges bei der Reanimation von Neugeborenen

Die Software steht dabei vor unterschiedlichen Herausforderungen. Zusätzlich zur überwiegend englischsprachigen Lernumgebung (auch wenn Open AI hier die genauen Anteile nicht veröffentlicht) wird die maximale Zeichenlänge je Antwort auf 2048 Zeichen begrenzt. Zwar kann das Sprachmodell auch längere Antworten ausgeben, in dem es diese auf mehrere Antworten aufteilt, jedoch kommt es hierbei nicht selten zu Syntaxfehlern, die den Lesefluss stören oder den ganzen Text zusammengenommen widersprüchlich erscheinen lassen. Auch ist nicht auszuschließen, dass jede gestellte Frage die nachfolgenden Fragen beeinflusst, unabhängig davon, ob für jede Frage ein neuer Chat geöffnet wird oder nicht, da die KI alle Fragen und Antworten abspeichert und die dabei erzeugten Token wiederum für Herstellung von Beziehungen heranziehen kann (Beeinflussung der Lern- und Trainingsumgebung durch die Fragen der Anwender).

Aber auch unabhängig von der Lern- und Trainingsumgebung kann ChatGPT Fehler (Halluzinationen) produzieren, und diese Halluzinationen sind weder vorhersagbar noch immer begründbar.

Autoregressive Modelle könnten anfälliger bei Aufgaben mit wenigen Begleitinformationen sein.

Die Fehleranfälligkeit war bei den Aufsätzen zu den Lernzielen (sowohl denen aus der Weiterbildungsordnung als auch zu den daraus abgeleiteten Feinlernzielen) bedeutend höher als bei den Aufsätzen zu den klinischen Fragen des Staatsexamens. Ein Grund kann hierbei in der zugrunde liegenden Autoregression liegen. Je mehr Token aus dem eingegebenen Text erzeugt werden können, desto mehr semantische Beziehungen kann das Sprachmodell für die Erzeugung des Textes nutzen. Sollte sich diese Vermutung bestätigen, wäre die Anwendung von Sprachmodellen im klinischen Rahmen dem generellen Einsatz in der Lehre schon deshalb überlegen, weil in aller Regel zu einem Patienten mehr Befunde erhoben werden (können), als bei Fragestellungen zu Lerninhalten eingebracht werden. Zwar ließe sich das durch ausreichende Begleitinformationen zur Fragestellung kompensieren, jedoch scheint der Aufwand zur Kontrolle der erstellten Texte aufgrund ihrer Länge größer im Vergleich zur Kontrolle von Diagnosen oder Therapievorschlägen von der KI. Auch ist das notwendige Maß an Zusatzinformationen aktuell nicht vorhersagbar. Das steht dem Einsatz von Sprachmodellen in der Lehre nicht im Wege, aber schmälert evtl. den Nutzen gegenüber der Arbeit eines menschlichen Dozenten, der einen Fachtext erstellt. Im klinischen Einsatz hingegen erscheint die Möglichkeit von zusätzlichen Informationen für die Frage häufiger gegeben. Dabei ist es eine wichtige Information für Behandler, welche Befunde noch fehlen, um eine Diagnose zu stützen. Der hohe Anteil an abgelehnten Fragen wegen fehlender Befunde zeigt, dass die aktuelle Version des Sprachmodells bei der Detektion solcher Situationen bereits weit fortgeschritten ist.

Insbesondere beim Einsatz in der Arbeit von Assistenzärzten können Sprachmodelle mit geeigneter Lernumgebung in Zukunft eine wichtige Unterstützung für den klinischen Alltag geben [18, 19]. Dabei ist entscheidend, dass die Lernumgebungen der Sprachmodelle optimiert werden, also auf eine adäquate Präsentation aller Patientengruppen geachtet und Quellen mit falschen Informationen aus den Lernumgebungen entfernt werden. Ebenso sollte man für die Anwendung durch deutsche Muttersprachler auch darauf achten, die Lernumgebung, wo möglich, zu einem größeren Anteil mit deutschsprachigen Quellen zu speisen. Die Priorisierung von Quellen wie medizinischen Leitlinien ist bisher nicht hinreichend berücksichtigt.

Fazit

Als besonders geeignet scheint dabei der Einsatz von KI in den Rettungsstellen und Notaufnahmen, in der Intensiv- und Notfallmedizin, wo solche Sprachmodelle die Arbeit der Assistenzärzte durch Hinweise zur weiteren Diagnostik und zu Verdachtsdiagnosen unterstützen könnten. Für den Einsatz von KI-Sprachmodellen direkt am Patienten müssen jedoch noch einige Fähigkeiten von KI-Sprachmodellen optimiert werden. Ohne ärztliche Supervision, die im Zweifelsfall auch die Verantwortung für die Ergebnisse der KI übernehmen muss, scheint der Einsatz von Sprachmodellen zum aktuellen Zeitpunkt weiterhin risikobehaftet und nicht realisierbar. Der Einsatz in der Lehre ist ebenfalls eine Option, aber Fragen an die Sprachmodelle sollten so viele Informationen wie möglich enthalten und müssen ebenso wie die Antworten auf klinische Fragen supervidiert und ggf. revidiert werden.

Folglich sehen wir vier Anforderungen an Sprachmodelle bei ihrem Einsatz in Klinik und Lehre:

  1. 1.

    Transparenz bei den Quellen, die das Sprachmodell für die Beantwortung der Frage genutzt hat.

  2. 2.

    Selbstreflexion über Informationen, die für die Beantwortung der Frage durch das Sprachmodell aktuell noch benötigt werden.

  3. 3.

    Abgleich der gegebenen Antwort mit den Empfehlungen von Leitlinien und die ständige Kontrolle auf Halluzinationen.

  4. 4.

    Für den Einsatz in deutschsprachigen Bereichen sollte eine überwiegend deutschsprachige Lernumgebung für die Sprachmodelle genutzt werden, um Fehler durch Übersetzungen zu vermeiden.