Die Real World Evidence (RWE) – die Evidenz zu kausalen Behandlungseffekten, die aus elektronischen Daten aus dem Versorgungsalltag gewonnen wird – hat bei politischen Entscheidungsträgern, Kostenträgern und Ärzteschaft große Aufmerksamkeit erlangt. RWE soll die grundlegenden Erkenntnisse über die Wirksamkeit von medizinischen Interventionen, die wir aus randomisierten kontrollierten Studien („randomized controlled trials“ [RCT]) gewinnen, ergänzen, indem sie Informationen über die Wirksamkeit in der klinischen Praxis liefert. Anstelle einer Dichotomie von RCT vs. RWE lassen sich bei RCT-Studien zunehmend pragmatische Elemente beobachten. RCT-Studien nähern sich somit allmählich den RWE-Studien an; dieser Trend lässt sich auch umgekehrt beobachten.

Warum haben wir so viel mehr Vertrauen in RCT- als in RWE-Studien? Es gibt zahlreiche Beispiele, in denen RWE-Studien in deutlichem Widerspruch zu RCT standen: Man denke nur an die Hormonersatztherapie bei postmenopausalen Frauen, für die sich später herausstellte, dass eine Hormonersatztherapie mit einem erhöhten Risiko für die koronare Herzkrankheit einherging und nicht etwa, wie zunächst postuliert, zu deren Reduzierung führte [12, 15]. Es wurde angenommen, dass eine Vitamin-E-Supplementierung vor koronarer Herzkrankheit schützt [27, 40], aber dieser Effekt konnte in einem groß angelegten RCT nicht bestätigt werden [50]. Auch die erhebliche Verringerung von Knochenbrüchen und Demenz, die in RWE-Studien mit der Einnahme von Statinen in Verbindung gebracht wurde, konnte in RCT nicht bestätigt werden [3, 13]. Die Pharmakoepidemiologie hat in den letzten zwei Dekaden erheblich Fortschritte gemacht und Techniken entwickelt, die die Validität von RWE substantiell erhöhen und Situationen identifiziert, in denen RWE unzuverlässig bleibt.

Unabhängig davon, wie Evidenz generiert wird, muss diese, um handlungsrelevant zu sein, intern valide und auf eine definierte Zielpopulation generalisierbar sein.

Real-World-Daten und ihre Verwendung in der Forschung

Typische Real-World-Datenquellen

Moderne Gesundheitssysteme generieren eine Fülle elektronisch gespeicherter Informationen zu einzelnen Patienten. Diese fortlaufenden Datenströme können über eindeutige Personenidentifikatoren longitudinal miteinander verknüpft werden. Im Gegensatz zu stark kontrollierten Forschungsdaten spiegeln diese Daten die klinische Praxis wider (Abb. 1). Viele RWE-Studien verwenden heutzutage solche Längsschnittdaten zu medizinischen Produkten, Interventionen und gesundheitsrelevanten Ereignissen, die im Versorgungsalltag erfasst werden. Warum solche Daten in der RWE-Forschung an Beliebtheit gewonnen haben, lässt sich folgendermaßen begründen:

  1. 1.

    Sie weisen meist eine höhere Repräsentativität auf, als die meisten experimentellen Studien.

  2. 2.

    Sie erfassen medizinische Eingriffe und den Arzneimitteleinsatz prospektiv, in großer Ausführlichkeit (USA, UK) und sind dabei weder auf eine Einverständniserklärung noch das Erinnerungsvermögen der Patienten angewiesen.

  3. 3.

    Sie erfordern keine Experimente am Menschen und sind schneller sowie kostengünstiger als die meisten klinischen Studien oder andere Studien, die auf der Erhebung von Primärdaten beruhen.

  4. 4.

    Die prospektive, longitudinale Erfassung von Versorgungskontakten mit dem Gesundheitssystem inklusive der Dokumentation des Datums, zu dem eine Leistung erbracht wurde, schafft Klarheit über den zeitlichen Ablauf der Versorgung. Dies stellt eine Voraussetzung für kausale Schlüsse hinsichtlich der Wirksamkeit einer Behandlung dar.

Abb. 1
figure 1

Eine Taxonomie der Daten aus dem Gesundheitswesen, die oftmals für RWE-Studien verwendet werden. RCT randomisierte kontrollierte Studie, ePA elektronische Patientenakte, NDI „national death index“, PRO „patient-reported outcomes“, RWE Real-World-Evidenz

Über die Möglichkeiten und Grenzen verschiedener Datentypen ist bereits viel geschrieben worden [11, 33]. Tab. 1 führt die wesentlichen Aspekte auf.

Tab. 1 Häufig verwendete Datenquellen aus der klinischen Praxis und einige ihrer Merkmale

Von Real-World-Daten zur RWE

Es ist unabdingbar, eine Datenquelle vollständig zu verstehen, ehe man versucht, damit Evidenz zu kausalen Behandlungseffekten zu generieren.

Der Prozess der Planung, Implementierung und Auswertung einer RWE-Studie umfasst 3 Ebenen, die gemeinsam einen sequenziellen Arbeitsablauf bilden (Abb. 2):

  1. 1.

    Auf der Designebene wird das Studiendesign präzisiert. Hierzu stellt man sich am besten die randomisierte Studie vor, die man idealerweise durchführen würde und mit Real-World-Daten nachbilden möchte (den sog. „target trial“). Dies führt häufig zu einem „New-user active-comparator“-Kohortendesign [17, 26, 30], welches sich bei der Vorhersage und Replikation von Ergebnissen aus RCT bewährt hat [6, 24, 25].

  2. 2.

    Auf der Messebene wird der longitudinale elektronische Datenstrom auf Patientenebene in Variablen umgewandelt. Anhand dieser Variablen lassen sich die Studienpopulation, der Gesundheitszustand vor der Behandlungsexposition (zur Kontrolle von Confoundern bei fehlender Randomisierung zu Baseline), der Behandlungsstatus sowie behandlungsbedingte Outcomes identifizieren.

  3. 3.

    Die Analyseebene befasst sich mit der Schätzung des kausalen Behandlungseffekts unter Berücksichtigung des Mechanismus zur Datenerhebung. Aufgrund ihrer Eignung für große sekundäre Datenbanken haben Propensity-Score-Analysen zur Ausbalancierung von Patientenmerkmalen zwischen unterschiedlichen Behandlungsgruppen an Popularität gewonnen [46]. Mit zusätzlichen Methoden können systematische Verzerrungen und differentielles Follow-up verringert werden. Zudem können weitere bekannte Biasarten wie der „immortal time bias“, eine Adjustierung kausaler Mediatoren oder umgekehrte Kausalität vermieden werden.

Abb. 2
figure 2

Von Real-World-Daten zur Real-World-Evidenz. UDI „unique device identifier“, OR Operationssaal („operation room“), Dx Diagnose, Px Prozeduren, BMI Body Mass Index, PS Propensity Score, CTMLE „collaborative targeted maximum likelihood estimation“, HDPS „High-dimensional Propensity Score“, MSM marginal structural models

In den folgenden Abschnitten werden diese drei Ebenen erläutert.

Wahl des Studiendesigns

Grundlegende Überlegungen bei der Auswahl des RWE-Studiendesigns

Die klinische Fragestellung bestimmt die Wahl des Studiendesigns. In den meisten RWE-Studien wird die Wahl des Studiendesigns zusätzlich durch den Inhalt und die Limitationen der zugrunde liegenden Datenquellen beeinflusst. Im Rahmen eines hypothetischen kontrafaktischen Experiments würde ein Patient behandelt werden und anschließend ein Eintreten oder Nichteintreten des gesundheitsbezogenen Outcomes beobachtet werden. Anschließend würde der Vorgang wiederholt werden, indem die Zeit kontrafaktisch zurückgedreht würde, der Patient jedoch unbehandelt bleiben würde bei gleichzeitiger Konstanthaltung aller anderen Faktoren (kontrafaktische Erfahrung). Dieses hypothetische Experiment würde den kausalen Zusammenhang bei diesem Patienten nachweisen.

Nachdem die Zeit in unserer Realität nicht zurückgedreht werden kann, lassen wir sie weiterlaufen und beobachten, wie Patienten episodisch exponiert und dann wieder nicht exponiert sind. Das resultierende „case-crossover design“ oder eine „self-controlled case series“ kann in Betracht gezogen werden, wenn sich der Expositionsstatus eines Patienten im Zeitverlauf ändert (Abb. 3; [21]); wenn beispielsweise bei einem Kopfschmerzmedikament, das angenommen eine kurze Wirkungsdauer hat, das interessierende Ereignis schnell eintritt (z. B. Lebertoxizität). Die meisten RWE-Studien nutzen natürlich auftretende Behandlungsunterschiede zwischen Patienten und verwenden daher ein Kohortenstudiendesign mit zeitgleicher Kontrollgruppe. Wenn die Datenerfassung zeitaufwändig oder teuer ist, können innerhalb von Kohorten effiziente Stichprobendesigns wie Case-control‑, Case-cohort- oder zweistufige Stichproben verwendet werden [30]. Unterschiede in der Arzneimittelbehandlung zwischen Patientengruppen oder übergeordneten Entitäten (d. h. zwischen Ärzten, Krankenhäusern, Krankenversicherungen, Regionen usw.) können anhand der Instrumentvariablenschätzung erschlossen werden [1].

Abb. 3
figure 3

Das Studienziel und die Unterschiede in der Therapieexposition bestimmen die Wahl des Designs. SCCS selbstkontrollierte Fallserie, CCS Fall-Kontroll-Stichprobe, CCoh Fall-Kohorten-Stichprobe, 2‑SS zweistufige Stichprobe. (Adaptiert nach Schneeweiss [30])

Die Auswahl der Vergleichsgruppe ist eine grundlegende Designentscheidung, die die klinische Interpretation erheblich beeinflusst und die Effektgröße stark verändern kann. Das Vergleichspräparat muss im klinischen Kontext relevant sein und eine praktikable Alternative zum untersuchenden Arzneimittel darstellen. Idealerweise sollte sich die Vergleichspopulation auf Patienten beschränken, die in der klinischen Praxis die gleiche Indikation aufweisen wie die Anwender des untersuchten Arzneimittels [49].

Kohortenstudien und die „Target-trial“-Denkweise zur Vermeidung von Bias

Es ist ein wertvoller didaktischer Beginn jeder RWE-Studienplanung, sich eine randomisierte Studie vorzustellen, die man durchführen würde, wenn dies logistisch und ethisch möglich wäre, und diesen „target trial“ dann zu emulieren, d. h. im Design einer RWE-Studien nachzuahmen [14]. Selbst ohne Randomisierung werden so systematische Verzerrungen durch das Studiendesign reduziert und das Design wird klarer. Diese „Target-trial“-Denkweise schafft Klarheit darüber, wann Patiencharakteristika, Exposition und Outcome im Verhältnis zum Studieneintritt gemessen werden sollten. Dies ist entscheidend, um kausale Schlüsse ziehen zu können. Es wird zudem die analytische Strategie einer „as-started“- (auch Intention-to-treat-Analyse genannt) oder einer „As-treated“-Analyse verdeutlicht. Sobald ein „target trial“ konzipiert ist, werden durch das Design der Trial-emulierenden RWE-Studie sowie die möglichen Abweichungen vom Trail potenzielle Schwächen der Datenqualität, Datenvollständigkeit und der kausalen Inferenz aufgezeigt [16].

Das Design von Trial-emulierenden RWE-Studien zeigt häufig das Spannungsverhältnis zwischen dem Ziel, hochgradig generalisierbare Ergebnisse zu generieren und der Einschränkungen, die zur Sicherstellung einer hohen Ergebnisvalidität und kausaler Schlussfolgerungen notwendig sind. Es hilft jedoch bei der Identifizierung und Vermeidung von Designschwächen, wie z. B. dem „immortal time bias“, der Adjustierung von kausalen Mediatoren und der umgekehrten Kausalität, sowie dem Umgang mit zeitlich variierenden Risikofaktoren und der vorzeitigen Entfernung von anfälligen Patienten [16].

„New-user“-Kohorte

Die Untersuchung von Personen, die eine medikamentöse Behandlung oder medizinische Intervention neu begonnen haben, hat mehrere Vorteile, insbesondere, wenn diese mit Personen verglichen werden, die eine praktikable Behandlungsalternative neu begonnen haben. Weil die Patienten in beiden Gruppen mit den entsprechenden Behandlungen neu begonnen haben („new users“), wurden sie folglich zuvor von einem Arzt untersucht, der entschieden hat, dass sie von der entsprechenden Behandlung profitieren würden. Diese Tatsache führt zu vergleichbaren Behandlungsgruppen, die sich in Bezug auf Merkmale ähneln, welche in einer gegebenen Datenquelle sowohl beobachtbar als auch nicht beobachtbar sein können [26].

Durch die klare zeitliche Abfolge, in der Confounder vor Beginn der Behandlung erfasst werden, wird der Fehler vermieden, für Behandlungsfolgen (kausale Mediatoren) zu adjustieren. Aufgrund des genau definierten Startpunkts bei „New-user“-Kohorten lässt sich zudem beurteilen, wie Risiken mit der Dauer der Behandlung variieren. Weil bei der „New-user“-Kohortenstudie das Design eines RCT im Parallelgruppendesign nachgeahmt wird, ist dieses Design für Laien leichter nachvollziehbar. In Zeiten, in der Entscheidungsträger nicht-interventionelle Studien mit erhöhter Skepsis betrachten, oft weil diese undurchdringlich erscheinen und damit die Validität der Studien schwierig zu bewerten ist, sollte dieser Vorteil nicht unterschätzt werden [22]. Beispiele solcher „New-user“-Kohortenstudien umfassen Untersuchungen zum Psychoserisiko bei Kindern und Jugendlichen, die eine Behandlung mit Stimulanzien beginnen [23] sowie zur Wirkung von Statinen auf eine Reihe von gesundheitlichen Outcomes [39].

„Active comparator“

Vergleichende Studien, die mit dem Ziel durchgeführt werden, placebokontrollierte RCT nachzuahmen, leiden häufig unter starken Selektionseffekten bei der Behandlung. Das heißt Personen, die eine Behandlung erhalten, unterscheiden sich von denjenigen Personen, die keine Behandlung erhalten, in einer Weise, die sich analytisch nur schwer vollständig erfassen und kontrollieren lässt. Starkes Confounding tritt auch auf, wenn zwei verschiedene Behandlungsmethoden verglichen werden, z. B. eine medikamentöse Behandlung gegen ein implantierbares Gerät [37]. Der Vergleich wird dadurch verzerrt, dass die gebrechlichsten Patienten sich aufgrund der Risiken nicht operieren lassen werden, obwohl diese Patienten das höchste Risiko für das gewünschte Outcome haben, was den Vergleich verzerrt. Ein Beispiel für ein erfolgreiches „New-user-active-comparator“-Design war die RWE-Studie, welche die Ergebnisse des laufenden CAROLINA-Trials bereits Monate vor dessen Abschluss vorhersagte [25].

Überlegungen zur Variablenerfassung bei der Verwendung von Sekundärdaten aus dem Gesundheitswesen

Es ist viel über Datenstandardisierung und darüber, wie die Qualität von Daten verbessert werden kann, geschrieben worden. Letztendlich laufen alle Diskussionen über die Datenqualität auf die gleiche Frage hinaus: Eignen sich die Daten zur Beantwortung dieser spezifischen Forschungsfrage? In einem doppelt randomisierten Experiment konnte gezeigt werden, dass nicht-randomisierte Studien genau wie RCT unverzerrte Schätzungen liefern können, wenn die Variablen in der zugrunde liegenden Datenbasis ausreichend abgebildet werden [38]. Selbst in einem bestimmten Therapiegebiet kann keine einzelne Datenquelle oder Standardisierungsmethode alle Fragen beantworten. Es kommt darauf an, wie die in Abb. 2 aufgeführten Expositionen, Outcomes und Confounder erfasst werden. Epidemiologische Prinzipien legen fest, welche erfassten Merkmale benötigt werden. Diese werden in Real-World-Daten nahezu niemals direkt erfasst. Darüber hinaus besteht wenig Einigkeit darüber, welcher Messgenaugigkeit ausreicht (Tab. 2).

Tab. 2 Messparameter, die die Aussagekraft von RWE(Real World Evidence)-Studien bestimmen und häufig zitierte Indikatoren für die Datenqualität sind

Bei RCT treten ähnliche Probleme auf, wobei viel Zeit und Geld aufgewendet wird um die Vollständigkeit, Genauigkeit, und Rechtzeitigkeit der Messungen zu optimieren. Es mag unmöglich sein, ganze Datenbanken für die Generierung von RWE als geeignet zu zertifizieren, aber wir können zumindest den Prozess der Datengenerierung und -kuration bis zu dem Punkt hin beleuchten, an dem die Daten für eine bestimmte Analyse verwendet werden. Dadurch kann eine Bewertung der erfassten Charakeristika erfolgen, welche wiederum die Grundlage für quantitative Biasanalysen sind [19].

Identifikation der Studienpopulation

Zur Einordnung der Generalisierbarkeit der Ergebnisse ist eine eindeutige Identifikation der Studienpopulation wichtig. Bei RWE-Studien zur Behandlung von Diabetes beginnt der Einschluss von Patienten in die Kohorten meistens mit der zu vergleichenden Behandlung. Kohortenausschlüsse erfolgen anschließend basierend auf der gewünschten Altersspanne, des Vorhandenseins bzw. der Abwesenheit bestimmter Diagnosen und dem Vorhandensein von Verlaufsindikatoren. Drei typische Indikatoren bei dem Verlauf des Diabetes sind die HbA1c-Messung, die Dauer des Diabetes und der Body Mass Index (BMI). Wenn diese Parameter nun für die Interpretation der Ergebnisse wirklich entscheidend wären, würde man eine Datenquelle wählen, in der diese erfasst werden. Häufig sind jedoch eben diese Parameter in solchen Datenquellen nicht enthalten, die groß genug sind, um aussagekräftige Rückschlüsse auf Behandlungseffekte zu ermöglichen. Es ist dann am Forschenden zu entscheiden, ob die Tatsache, dass Patienten mit einer bestimmten Behandlung begonnen haben, ausreicht, um die Patientenpopulation korrekt gemäß dem Krankheitsschweregrad zu kategorisieren, oder ob Zeit und Ressourcen aufgewendet werden sollen, um die nicht in der Datenbasis enthaltenen Parameter zu erheben. Bei RWE-Studien stehen Forschende häufig vor der Herausforderung, zwei suboptimale Optionen abwägen zu müssen, wovon dennoch eine für den Zweck einer gegebenen Studie möglicherweise besser geeignet sein mag.

Behandlungsexposition

Für RWE-Studien ist die Festlegung des Start- und Endpunktes einer interessierenden Behandlung von zentraler Bedeutung. Das Apothekenabgabedatum, welches die Einschränkung von mangelnder Präzision von Patientenangaben („recall bias“) umgeht, gilt bei der Festlegung des Beginns einer Arzneimittelexposition als zuverlässig [47]. Dies liegt daran, dass Apotheker Rezepte nur mit wenig Interpretationsspielraum erfüllen und die Erstattung durch die Krankenkasse auf Grundlage detaillierter, vollständiger und genauer elektronisch vorgelegten Abrechnungsdaten erfolgt.

Outcomes

Da in Datenbanken häufig keine detaillierten klinischen Informationen enthalten sind, müssen Forschende die möglichen Auswirkungen einer Missklassifikation des interessierenden Outcomes in Betracht ziehen. Im Allgemeinen ist ein Mangel an Spezifität als schlimmer zu werten als ein Mangel an Sensitivität. Die Schätzung des relativen Risikos wird durch eine Missklassifikation des Outcomes nicht verzerrt, wenn alle Personen ohne das Outcome korrekt als solches identifiziert werden, d. h. 100 %ige Spezifität, selbst wenn wesentlich weniger als 100 % der Patienten mit dem Outcome als solches identifiziert werden, d. h. die Sensitivität ist wesentlich geringer als 100 %, solange die Missklassifikation nicht differentiell ist, d. h. beide Gruppen sind von der Missklassifikation in gleichem Maße betroffen [28]. Studien, in welchen die Missklassifikation von Diagnosen in Abrechnungsdaten untersucht und die Krankenakten zur Bewertung als „Goldstandard“ verwendet wurde, haben ergeben, dass die Sensitivität der in Abrechnungsdaten dokumentierten Diagnosen häufig mäßig ist, ihre Spezifität hingegen sehr hoch ist [48]. Dieses Muster ergibt sich daraus, dass, wenn eine Diagnose dokumentiert, kodiert und übermittelt wurde, es sehr wahrscheinlich ist, dass diese Diagnose auch tatsächlich gestellt wurde, insbesondere in stationären Entlassungsdaten [9].

Confounder

Mögliche Störvariablen werden vor Beginn der zu untersuchenden Behandlung erfasst, um zu vermeiden, dass Variablen adjustiert werden, die die Folgen der Behandlung sind und sich kausal auf das interessierende Outcome auswirken, d. h. „causal intermediates“ oder Mediatoren [44]. Als Beispiel kann der Vergleich von zwei Antidiabetika dienen, von denen eines den Blutdruck senkt, das andere nicht. In einer Studie zur Inzidenz des Herzinfarkts würde eine Adjustierung des Blutdruckes, der nach dem Behandlungsbeginn gemessen wurde, den beobachteten Effekt des Medikaments fälschlich reduzieren, da ein erhöhter Blutdruck ein Mediator eines Herzinfarkts ist. Dahingegen ist eine Adjustierung des Blutdruckes, der vor dem Behandlungsbeginn gemessen wurde, notwendig.

Eine Herausforderung von Sekundärdaten aus dem Gesundheitswesen stellt die vollständige und akkurate Erfassung wichtiger Outcome-Prädiktoren dar. Missklassifikationen oder unbeobachtbare Confounder können zu einem residualen Confounding führen, welches im Abschnitt zur Datenanalyse thematisiert wird.

Fehlende Messwerte

Fehlende Messwerte betreffen alle in den vorangehenden Abschnitten thematisierten Aspekte der Variablenerfassung. Wenn für das Untersuchungsziel wesentliche Daten gar nicht oder nur mit erheblicher Lückenhaftigkeit oder Missklassifikation erfasst wurden, dann ist die entsprechende Datenquelle ungeeignet [8, 32]. Im Allgemeinen führen Abrechnungsdaten, die Informationen über Diagnosen und Verfahren enthalten, zu einer Missklassifikation von Informationen und nicht zu fehlenden Messwerten. Ein Nichtvorhandensein eines Diagnosekodes wird in der Regel mit dem Nichtvorhandensein der entsprechenden Krankheit gleichgesetzt. Wenn dies nicht der Wahrheit entspricht, dann wurde die entsprechende Variable zwar misklassifiziert, sie hat jedoch einen Wert. Die oben genannten Validierungsstudien quantifizieren das Ausmaß der Missklassifikation und ermöglichen eine Einschätzung, ob eine Studie noch valide durchgeführt und die Effektschätzung durch die Modellierung des potenziellen Bias korrigiert werden kann [19, 29].

In elektronischen Patientenakten werden u. a. Testwerte erfasst, die nicht einfach auf einen festgelegten Wert gesetzt werden können. Die Tatsache, dass ein bestimmter Test vom behandelnden Arzt nicht angeordnet wurde, ist an sich bereits informativ. Die daraus resultierende Strategie, einen Indikator für fehlende Variablenwerte in die Analyse mit aufzunehmen, hat sich, mit Ausnahme von Extremfällen, als nützlich erwiesen [42, 43]. Andere Strategien hierfür sind die Imputation des Mittelwerts aller beobachteten Werte oder das Ersetzen des fehlenden Werts mit dem zuletzt beobachteten Wert, die beide nicht zufriedenstellend sind, aber häufig angewendet werden [41]. Multiple Imputation, die eine Reihe beobachteter Variablen hinzuzieht, nimmt an, dass letztere mit dem fehlenden Wert assoziiert sind, eine Annahme, die häufig haltlos und empirisch nicht überprüfbar ist.

Datenanalyse

In longitudinalen Studien können eine Reihe von kausalen Parametern geschätzt werden. Im vorliegenden Beitrag werden die für RWE-Studien am relevantesten Parameter berücksichtigt. Bei der Wahl des analytischen Ansatzes muss zwangsweise ein Kompromiss zwischen der klinischen Relevanz verschiedener Zielgrößen und der Durchführbarkeit einer unverzerrten Schätzung der gewählten Zielgröße gefunden werden.

Interessierender kausaler Effekt

Der „As-treated“-Effekt

Beim „As-treated“-Effekt handelt es sich um den Behandlungseffekt einer im Rahmen der Studie zu untersuchenden Behandlung, die initiiert und weitergeführt wird. Die Beobachtungszeit der Patienten wird nach einem Abbruch der initialen Behandlung zensiert. Der numerische Wert des „As-treated“-Effekts aus einer Studie berücksichtigt dementsprechend die Dauer der Behandlungspersistenz. In den meisten Fällen ist der „As-treated“-Effekt sowohl für Patienten als auch Ärzte von großem Interesse, da er Aufschluss über den zu erwartenden Behandlungseffekt gibt, während sich der Patient tatsächlich in Behandlung befindet.

Der Effekt komplexer Behandlungsstrategien

Bei vielen chronischen Erkrankungen wird empfohlen, eine Arzneimittelbehandlung in Abhängigkeit von klinischen Merkmalen zu beginnen, zu beenden, zu wechseln oder die Dosierung zu ändern. Daher kann es im Interesse stehen, anstelle des Behandlungseffekts mit einem einzelnen Medikament, den Effekt einer longitudinalen Behandlungsstrategie zu analysieren.

Der „As-started“-Effekt

Beim „As-started“-Effekt handelt es sich um den Behandlungseffekt der initialen Behandlung, unabhängig davon, ob diese über einen bestimmten Zeitraum fortgesetzt wurde. Dies entspricht dem „Intention-to-treat“-Prinzip in RCT. Das Ausmaß des „As-started“-Effekts im Nachbeobachtungszeitraum einer pharmakoepidemiologischen Studie hängt von dem spezifischen Grad der Abweichungen der initialen Behandlung ab. Wenn Patienten eine Behandlung abbrechen, wird ihr Expositionsstatus weiterhin entsprechend der initialen Behandlungswahl kategorisiert. Diese Vorgehensweise vermeidet Schwierigkeiten, die sich aus der informativen Zensierung ergeben (d. h. Teilnehmer sind aus Gründen, die mit dem Studienergebnis zusammenhängen zensiert worden), führt aber zu einer Expositionsmissklassifikation über die Summe der Personenzeit.

Wahl der Behandlung und Confounding kausaler Behandlungseffekte

Ärzte treffen eine Behandlungswahl unter Berücksichtigung des Erkrankungsschweregrades und der zum Zeitpunkt der Verordnung verfügbaren prognostischen Informationen aus. Die Faktoren, die diese Wahl beeinflussen, variieren von Arzt zu Arzt sowie im Laufe der Zeit und umfassen häufig klinische, funktionelle oder verhaltensbezogene Patientenmerkmale, die in Datenbanken des Gesundheitswesens möglicherweise nicht vollständig erfasst werden. Wenn solche prognostischen Faktoren zwischen den behandelten Patienten und den Vergleichspatienten nicht ausgeglichen sind, kann eine fehlende statistische Kontrolle dieser Faktoren zu Verzerrungen führen. Da die Wahl der Behandlung je nach Schweregrad und Prognose der Erkrankung ein integraler Bestandteil der medizinischen Praxis ist, kann die daraus resultierende Verzerrung (Bias) sehr stark sein. Das Confounding, das durch eine selektive Behandlungswahl in der Praxis entsteht, wird manchmal spezifischer als „confounding by indication“, „confounding by contraindication“, „channeling bias“ oder „healthy user bias“ bezeichnet. All diese Bezeichnungen zielen auf dasselbe zugrundeliegende Problem ab.

Die Analyse vergleichbarer Patienten

Beschränkung auf ähnliche Patienten

Eine Vergleichbarkeit der Behandlungsgruppen in der Abwesenheit von randomisierter Behandlungseinteilung herzustellen ist ein wichtiges Ziel, das verschiedentlich angegangen werden kann. Beschränkung ist ein gängiges und wirksames Analysetool, um Behandlungsgruppen vergleichbarer zu machen, damit unbekanntes bzw. nicht gemessenes Confounding (residuales Confounding) minimiert werden kann. Einige dieser Beschränkungen liegen auf der Hand, da sie anhand expliziter Kriterien festgelegt werden: Beispielsweise die Beschränkung der Studienpopulation auf Patienten, die 65 Jahre oder älter sind und an Demenz leiden zur Untersuchung der Sicherheit von antipsychotischen Medikamenten, die zur Behandlung von Verhaltensstörungen in eben dieser Bevölkerungsgruppe eingesetzt werden. Andere Beschränkungen, wie ein Matching hinsichtlich eines zusammenfassenden Confounder-Scores (entweder eines Propensity Scores oder eines Risikoscores), werden in der Pharmakoepidemiologie häufig verwendet. Es ist wichtig, die spezifischen Gründe für die entsprechenden Beschränkungen zu verstehen, damit die Verringerung von Confounding gegen die Einschränkung der Generalisierbarkeit der Ergebnisse abgewogen werden kann [34].

Propensity-Score-Analysen

Propensity Scores (PS) können eine große Anzahl von Kovariaten effizient adjustieren, selbst wenn das zu untersuchende Outcome selten auftritt. Daher haben sich PS-Analysen als praktisches und effektives Mittel zur Adjustierung einer großen Anzahl potenzieller Confounder in Wirksamkeitsstudien basierend auf Real-World-Daten erwiesen. Sie passen zum Paradigma des „target trials“ (auf welchen bereits hingewiesen wurde), da der PS den Randomisierungsprozess auf Grundlage von Beobachtungsdaten nachbildet (emuliert). In einem „New-user“-Kohortendesign ist ein PS die geschätzte Wahrscheinlichkeit, mit Behandlung A anstelle von Behandlung B zu beginnen, in Abhängigkeit von allen Patientenmerkmalen, die vor Beginn der Behandlung beobachtet wurden. PS lassen sich mittels logistischer Regression unkompliziert schätzen und Strategien für die Auswahl der dabei einzubeziehenden Variablen wurden an anderer Stelle beschrieben [2]. Sobald ein PS auf Grundlage beobachteter Kovariaten geschätzt wurde, gibt es mehrere Möglichkeiten, ihn in einem zweiten Schritt zur Reduzierung von Confounding anzuwenden. Typische Strategien schließen die Adjustierung für Quintile oder Dezile des Scores mit oder ohne Trimming, Matching, Feinstratifizierung oder Gewichtung mit dem PS ein [17].

Im Rahmen von Kohortenstudien bietet das PS-Matching mehrere Vorteile, die den vermeintlichen Nachteil aufwiegen können, dass manchmal nicht der gesamte Datensatz genutzt wird, weil nicht alle in Frage kommenden Patienten einen vergleichbaren Match finden konnten. Das Matching schließt Patienten in den extremen PS-Bereichen aus, in denen die Behandlungswahl deutlich eingeschränkt ist, z. B. alle Patient werden mit Therapie A behandelt. Wenn solche Patienten aus der Analyse ausgeschlossen werden, wird das residuelle Confounding verringert und der Fokus auf Patienten, denen eine Behandlungswahl offen steht, erhöht die klinische Relevanz [45]. Im Gegensatz zu traditionellen Outcome-Modellen ermöglichen PS-gematchte Analysen, insbesondere das „fixed ratio matching“, dem Forschenden, die in der Studienpopulation erreichte Balanciertheit der Kovariaten nachzuweisen. Post-matching-C-Statistiken oder standardisierte Differenzen der Kovariaten haben in PS-gematchten Analysen an Popularität gewonnen [7]. In Kohortenstudien erfordert das „fixed ratio matching“, wie das häufig angewandte 1:1-PS-Matching, vereinfachte Analysen, um ein unverzerrtes Ergebnis zu erzielen. In Settings mit sehr wenigen Ereignissen kann eine feinere Stratifizierung bevorzugt werden [5].

Jegliche vor der Exposition erfassten Patientenmerkmale können als potenzielle Confounder betrachtet werden. Sofern im Falle der Verwendung von Sekundärdaten eine optimale Erfassung entsprechender Merkmale nicht möglich ist, kann durch die Erfassung und Adjustierung anhand beobachtbarer Proxies das Confounding reduziert werden. Der unbeobachtbare Confounder wird zu dem Maße adjustiert, in dem ein Proxy mit dem entsprechenden Confounder korreliert [4, 10]. Beispiele für angemessene Proxies sind die Nutzung von Sauerstoffflaschen (korreliert mit körperlicher Gebrechlichkeit), die regelmäßige Inanspruchnahme von Präventionsmaßnahmen (korreliert mit gesundheitsbewusstem Verhalten) oder die Einnahme von Medikamenten zur Senkung des Blutzuckerspiegels (korreliert mit HbA1c-Messwerten) usw. Hierdurch kann ein hochdimensionalen Kovariatenraum mit mehreren tausend Kovariaten gebildet werden, von denen einige echte Confounder sind [35]. Techniken zur Verringerung der Anzahl an Variablen reduzieren die Anzahl an Kovariaten (die möglicherweise Confounder sind) von mehreren tausend auf einige hundert Kovariaten (die mit hoher Wahrscheinlichkeit tatsächlich Confounder sind), bevor sie in das PS-Modell eingehen [18, 35, 36]. Der sich daraus resultierende hochdimensionale PS ist im Hinblick auf die Verringerung von Verzerrungen bei einer Reihe von Forschungsfragen häufig überlegen [31, 52]. Obwohl selbst eine hochdimensionale Adjustierung von Confoundern nicht mit einer Randomisierung vergleichbar ist, kann in vielen Fällen demonstriert werden, dass Kausalzusammenhänge mit Real-World-Daten identifiziert werden können.

Subgruppenanalysen und Behandlungseffektmodifikation

Große Real-World-Datenquellen erlauben, Analysen nach vielen Faktoren zu stratifizieren, die für die verschreibenden Ärzte und ihre Patienten relevant sind. Allgemeine Empfehlungen zur Untersuchung heterogener Behandlungseffekte gelten für RWE- ebenso wie für RCT-Studien [20]. Besonders problematisch bleiben Post-hoc-Tests auf Effektmodifikation, die trotz recht konservativer statistischer Tests auf Interaktion zu falsch-positiven Ergebnissen führen können. Anzeichen für eine Effektmodifikation sollten in Folgestudien basierend auf anderen Datenquellen bestätigt werden [51].

Zusammenfassung

Dieser Artikel hat das Handwerkszeug und die generellen Angehensweisen von RWE-Studien beschrieben, um eine Forschungsfrage mit kausaler Interpretation beantworten zu können. Dem zugrunde liegt ein Verständnis der biologischen Natur und der medizinischen Versorgungspraxis, die in einem abstrakten Model, dem Studiendesign und den notwendigen Messungen abgebildet und schließlich in einer statistischen Analyse zusammengefasst werden. Dies geht mit vielen Annahmen und Vereinfachungen einer komplexen Welt einher. Produzierer von Evidenz in der Medizin, experimentell genauso wie Real World und Entscheidungsträger, die gemeinsam das medizinische Versorgungsunternehmen verbessern wollen, werden sich dieser Ungewissheit bewusst sein und entsprechend abgewogen kommunizieren und handeln.

Fazit für die Praxis

  • Die Durchführung von RWE(Real World Evidence)-Studie sollte stets das Ziel verfolgen, zu kausalen Schlussfolgerungen in Bezug auf die Wirksamkeit der untersuchten Behandlung zu gelangen.

  • RWE-Studien untersuchen die Wirksamkeit von medizinischen Produkten oder Interventionen im klinischen Versorgungsalltag und stellen eine Ergänzung zur Evidenz von randomisierten Studien dar, die deren Wirksamkeit im kontrollierten Forschungssetting untersuchen.

  • Der „Target trial“-Ansatz schafft Klarheit bei der Planung und Interpretation von RWE-Studien. In Verbindung mit modernen Methoden der Epidemiologie und Biostatistik hilft dieser Ansatz außerdem, vom Untersucher verursachte Verzerrungen zu vermeiden und die Übereinstimmung von Studiendesign und Forschungsfrage sicherzustellen.

  • Die Arbeit mit Sekundärdaten aus dem Gesundheitswesen stellt eine Herausforderung hinsichtlich der Datenqualität und -vollständigkeit dar, die bei der Design- und Analysestrategie von RWE-Studien berücksichtigt werden muss.

  • Eine enge Zusammenarbeit zwischen klinischen Experten, Experten der verwendeten Datenquelle und Epidemiologen und Biostatistikern ist für den Erfolg entscheidend.