Entscheidungen im Gesundheitswesen treffen Ärzte, Angehörige der Gesundheitsfachberufe, Patienten und Kostenträger nach Abwägung von Nutzen und Schaden alternativer Behandlungsstrategien. Gemäß international anerkannten Standards erreicht der praktizierende Arzt für seine Patienten die bestmögliche Behandlung unter Anwendung der Methoden der evidenzbasierten Medizin (EbM), die sowohl seine persönlichen Erfahrungen als auch die Patientenpräferenzen und die externe Evidenz aus Studien berücksichtigen [1]. Da die individuelle klinische Erfahrung von Zufall und Bias beeinflusst wird und sie somit fehleranfällig ist, fordert auch der deutsche Gesetzgeber ein ärztliches Handeln entsprechend den Methoden der EbM (Übersicht 1).

Validität und Bias

Die Qualität einer kontrollierten Studie wird von verschiedenen Dimensionen bestimmt, die von Design, Durchführung und Analyse bis zur klinischen Relevanz und Berichtsqualität reichen. Eine wesentliche Dimension ist die Validität von Studienergebnissen [7], die aufgrund von systematischen Fehlern (auch Verzerrung oder Bias) eingeschränkt sein kann. Das Risiko für Bias lässt sich jedoch schon bei der Studienplanung und -durchführung verringern (s. unten). Zu unterscheiden sind interne und externe Validität (Übersicht 2): Die interne Validität (Ausmaß des Risikos für Bias) bedingt die externe Validität und beide die Validität weiterführender Analysen (wie z. B. im Rahmen der gesundheitsökonomischen Evaluation).

Methoden zur Verringerung von Bias und Auswirkungen von Bias in kontrollierten Studien

Zum Nachweis kausaler Zusammenhänge zwischen Intervention und Studienergebnis ist es notwendig, eine möglichst große Ähnlichkeit der Behandlungsgruppen hinsichtlich prognostisch relevanter Faktoren herzustellen, die lediglich durch eine zufällige Variabilität beeinträchtigt wird.

Selection-Bias

Um bei der Auswahl der Studienpopulation einen Selection-Bias zu vermeiden, der zu Gruppenunterschieden in wesentlichen Patientencharakteristika, wie beispielsweise dem Alter oder Erkrankungsstatus, führen kann, werden die Teilnehmer den Interventionsgruppen zufällig zugeteilt (randomisiert). Für eine erfolgreiche Randomisierung, d. h. Ähnlichkeit der zu vergleichenden Gruppen, sind drei Faktoren maßgeblich: eine ausreichend große Studienpopulation, die Wahl einer adäquaten Randomisierungsmethode (s. Anhang 1) und die Geheimhaltung des Randomisierungsschemas (verdeckte Gruppenzuteilung, englisch: Allocation concealment). Die Kenntnis des Randomisierungsplans, beispielsweise einer Zufallszahlentabelle, birgt die Gefahr einer selektiven Zuordnung von Patienten zu Behandlungsgruppen auf der Basis prognostischer Faktoren: Studienteilnehmer, die für eine Behandlung vorgesehen waren, mögen als ungeeignet erscheinen und werden zurückgewiesen, wohingegen andere vorsätzlich einer geeignet erscheinenden Gruppe zugeteilt werden [7].

Performance-Bias

Ein Performance-Bias wird durch Unterschiede in der Behandlung der Patienten zusätzlich zur Intervention und in den Rahmenbedingungen hervorgerufen, oftmals nur in einer Behandlungsgruppe. Er kann durch Verblindung des Studienpersonals reduziert werden.

Detection-Bias

Auch der Detection-Bias, der entsteht, wenn bekannt ist, welcher Behandlungsgruppe ein Patient zugeordnet ist und dies die Ergebnismessung beeinflusst, kann durch Verblindung verringert werden. Allerdings ist in vielen nicht medikamentösen Studien eine Verblindung nur schwer zu realisieren und wird entsprechend selten vorgenommen, obwohl zumindest eine verblindete Endpunkterhebung (auch Zielgrößen- oder Outcome-Erhebung) meistens möglich ist. Daraus folgt nicht zwingend ein gravierender Qualitätsmangel der Studie, jedoch können viele Endpunkte durch das Wissen um die Behandlung eines Studienteilnehmers beeinflusst werden. Folglich entsteht durch die fehlende Verblindung ein Risiko für Bias [8].

Verblindung und verdeckte Gruppenzuteilung sind unterschiedliche Aspekte, die oft miteinander verwechselt werden. Die verdeckte Gruppenzuteilung muss bereits bei der Aufnahme eines Teilnehmers in eine Studie gewährleistet sein, um einen Selection-Bias zu vermeiden. Die Verblindung muss hingegen nach der Aufnahme beginnen, um Performance- und Detection-Bias zu verringern.

Attrition-Bias

Ein Attrition-Bias entsteht durch den Studienabbruch einzelner Teilnehmer, weil dieser in der Regel nicht zufällig erfolgt und weil er bei hohen Ausfallzahlen sowie Gruppenunterschieden in der Häufigkeit von Studienabbrüchen den Effekt einer Randomisierung aufhebt. Eine Verletzung des Studienprotokolls oder ein Loss-to Follow-up können unterschiedlichste Ursachen haben, wie beispielsweise mangelnde Wirksamkeit oder schwer zu tolerierende Nebenwirkungen, aber auch Desinteresse oder Unzuverlässigkeit der Patienten. Um die potentielle Über- oder Unterschätzung eines Interventionseffektes aufgrund von Studienabbrüchen zu verringern, sollte eine Intention-to-treat-Analyse durchgeführt werden. Dazu werden zur Auswertung alle Patienten den Behandlungsgruppen zugerechnet, denen sie ursprünglich randomisiert zugeordnet waren. Zur Kompensation fehlender Messwerte von ausgeschiedenen Teilnehmern stehen verschiedene Methoden zur Verfügung [911].

Auswirkung von Bias

Eine Zusammenfassung von Daten aus sieben metaepidemiologischen Studien (Abb. 1) ergab, dass eine inadäquate oder fehlende Randomisierung zu einer Überschätzung der Behandlungseffekte um durchschnittlich 11 % führt [12]. Durch eine fehlende oder inadäquate verdeckte Gruppenzuteilung werden Behandlungseffekte um 7 %, und im Fall einer fehlenden oder inadäquaten doppelten Verblindung um 13 % überschätzt [12].

Abb. 1
figure 1

Potenzielle Überschätzung von Ergebnissen aufgrund fehlender Kontrolle von Bias. Crl Credibility interval (Glaubwürdigkeitsintervall), RCT Randomised Controlled Trial, ROR Ratio von Odds Ratios. (Quelle: mod. nach Savović et al. [12])

In einem gewissen Ausmaß hängt die Bedeutung der Verblindung für das Bias-Risiko allerdings von der Art der Untersuchungsparameter und vom Studiendesign ab. Im Fall des Endpunktes „Mortalität“ beispielsweise ist eine fehlende Verblindung mit einem deutlich geringeren Risiko für einen Bias verbunden als bei einem Endpunkt, der einen Interpretationsspielraum lässt. Ähnlich verhält es sich mit Verblindungen von medikamentösen Interventionen, die von unverwechselbaren Nebenwirkungen begleitet werden. Bei chirurgischen Interventionen ist eine doppelte Verblindung selten realisierbar, allerdings lohnt es sich, hier alle Möglichkeiten gewissenhaft zu überprüfen [7, 13]: Wenn z. B. die intraoperative Blutungsmenge untersucht werden soll, kann auch ein Operateur für diesen Endpunkt verblindet werden [14].

Ob die Endpunkterhebung subjektiven oder objektiven Einflüssen unterliegt, hat ebenfalls Auswirkungen auf das Ausmaß des Bias-Risikos. Ergebnis einer metaepidemiologischen Studie war, dass eine inadäquate oder fehlende Verdeckung der Gruppenzuteilung zu einer Überschätzung subjektiv erhobener Endpunkte (beispielsweise durch Patienten berichtete oder durch Ärzte beurteilte Endpunkte wie vaskuläre Ereignisse, Pyelonephritis oder Atemnotsyndrom) von 30 % führt, im Fall fehlender Verblindung zu einer Überschätzung von 25 % [15].

Untersuchungen zum Einfluss des Attrition-Bias sind bis dato wenig aussagekräftig und generell schwierig. Fehlen nämlich in Publikationen die Informationen darüber, warum Teilnehmer eine Studie abbrechen, oder sind die Angaben nicht nach Behandlungsgruppen differenziert, ist es weder möglich, zwischen Berichtsqualität und methodischer Qualität zu unterscheiden, noch kann die Auswirkung der Studienabbrüche auf den Endpunkt eingeschätzt werden. Darüber hinaus ist zu berücksichtigen, dass der Studienabbruch eines Teilnehmers in manchen Fällen zwingend notwendig ist, er sich in anderen Fällen aber durchaus vermeiden lässt [7].

Ein großes und viel diskutiertes Bias-Risiko birgt auch die industrielle Finanzierung von Studien. Die Autoren eines Cochrane-Review kamen zu dem Schluss, dass eine finanzielle Unterstützung durch Hersteller zu deutlich positiveren Ergebnissen hinsichtlich von Wirksamkeit und Nebenwirkungen einer Intervention führt [16]. Die Diskussion um eine Aufnahme dieses Bias in das RoB-Tool ist noch nicht abgeschlossen [17, 18].

Bewertungsinstrumente

Zur standardisierten Bewertung des Bias-Risikos steht eine Vielzahl von Instrumenten zur Verfügung, die sich im Wesentlichen drei  Kategorien zuordnen lassen: Skalen, Checklisten und Komponentensysteme [19].

Skalen

In einer Skala wird jedes Item anhand eines Scores numerisch bewertet; für eine Gesamtbewertung der Studie können die einzelnen Bewertungen zu einem Gesamt-Score addiert werden. Die einfache und dennoch quantitative Bewertung einer Studie scheint für die Anwendung einer Skala zu sprechen, allerdings wird das Verfahren durch die empirische Forschung wenig gestützt [20, 21]: Weder eine implizite Gleichgewichtung aller Items noch eine explizit unterschiedliche Gewichtung einzelner Items konnte bisher gerechtfertigt werden. Darüber hinaus dienen Skalen oft der Bewertung von Aspekten, die eher auf die Berichtsqualität, ethische Probleme oder statistische Verfahren bezogen sind als auf das Risiko für Bias [21]. Zum Teil fehlen auch für die Bewertung wichtige Domänen, wie die verdeckte Gruppenzuteilung im Fall des bekannten Jadad-Score [22]. Ferner berichten Jüni et al. 1999 über substanzielle Unterschiede in den Ergebnissen von Metaanalysen, die auf die Verwendung unterschiedlicher Skalen zurückzuführen waren [21]. Zwar deuten Untersuchungen darauf hin, dass der Einsatz von Skalensystemen in systematischen Reviews zurückgeht [23, 24], aber noch ist deren Anwendung so verbreitet, dass auch in der aktuellen Version des Cochrane Handbook for Systematic Reviews of Interventions ausdrücklich davon abgeraten wird [6].

Checklisten

Checklisten bestehen aus mindestens zweizu bewertenden Items. Sie können sowohl qualitative Bewertungen von einzelnen Items als auch qualitative Bewertungen der ganzen Studie enthalten. Meistens beinhalten sie weit mehr als eine Abfrage von Aspekten zur Bewertung des Bias-Risikos, wie z. B. das Auflisten von Ein- und Ausschlusskriterien oder die Beurteilung der Angemessenheit von Fallzahlplanung oder Ergebnispräsentation [24].

Komponentensysteme

In Komponentensystemen kann ein Bias-Risiko für die verschiedenen Dimensionen separat dargestellt werden. So wird der unterschiedlichen Bedeutung einzelner Aspekte für bestimmte Studiendesigns, Interventionen oder Untersuchungsparameter Rechnung getragen (s. oben, unten und Anhang) [7].

Allen Instrumenten ist gemeinsam, dass sie keine exakte Messung, sondern eine Einschätzung und Bewertung des Bias-Risikos darstellen, die eine subjektive Komponente beinhalten.

Das Risk-of-Bias-Tool der Cochrane Collaboration

Das RoB-Tool der Cochrane Collaboration ist ein Komponentensystem, dessen einzelne Bewertungskriterien auf der Grundlage theoretischer und empirischer Forschungsergebnisse sowie von ausführlichen Diskussionen unter Methodikern im Bereich der klinischen Forschung ausgewählt wurden [25]. Es setzt sich aus sieben Domänen zusammen, die zum Teil bereits dargestellt wurden (s. oben): Generierung der Randomisierungssequenz, verdeckte Gruppenzuteilung, Verblindung von Teilnehmern und Studienpersonal, Verblindung der Endpunkterhebung, unvollständige Daten zu Endpunkten, selektives Berichten und andere Ursachen für Bias.

Selektives Berichten zu Endpunkten wird auch als Outcome-Reporting-Bias bezeichnet. Es resultiert daraus, dass vorzugsweise positive und signifikante Ergebnisse berichtet werden. Die Motive hierfür können Interessen von Editoren, Studienautoren oder Herstellern sein. Ein solcher Bias kann zu einer Überschätzung der Wirksamkeit von Interventionen führen.

Andere Ursachen für Bias können beispielsweise Abweichungen vom Studienprotokoll sein, die nicht die klinische Praxis widerspiegeln. Hierzu zählen z. B. eine übertriebene Post-hoc-Dosiserhöhung, eine Intervention vor Randomisierung der Teilnehmer mit Auswirkungen auf die nachfolgende Intervention, der Einsatz eines unempfindlichen Messinstrumentes, das zur Unterschätzung sowohl von Nutzen als auch Schaden der Intervention führt, und letztendlich auch Betrug [6].

Für jede Domäne und Studie ist eine Beurteilung mit „geringes Risiko für Bias“, „hohes Risiko für Bias“ oder „unklares Risiko für Bias“ erforderlich. Darüber hinaus können die Aspekte „Verblindung von Teilnehmern und Studienpersonal“, „Verblindung der Endpunkterhebung“ und „unvollständige Daten zu Endpunkten“ separat für einzelne oder zusammengefasste Endpunkte bewertet werden, wenn dies aufschlussreich ist oder die Ergebnisse für einen Endpunkt zu unterschiedlichen Zeitpunkten ermittelt wurden. Für die Domäne „andere Ursachen für Bias“ wird eine Gesamtbeurteilung empfohlen [6] (zum unterschiedlichen Verzerrungspotenzial subjektiv und objektiv erhobener Endpunkte s. oben). Werden in einer Publikation relevante Einzelheiten zur Einschätzung von Bias nicht ausreichend dargestellt, muss die Beurteilung des Bias-Risikos „unklar“ lauten [8].

Transparent werden die Bewertungen dadurch, dass jede Entscheidung durch ein Zitat aus dem Publikationstext oder durch einen Kommentar zu belegen ist. Es wird empfohlen, die Bewertungen der einzelnen Domänen je Studie in einer „Bias-Risiko-Tabelle“ darzustellen und auf detaillierte Angaben im Text zu verzichten (s. Anhang, Tab. 8.5.c). Zusätzlich verhilft die für das Tool vorgesehene graphische Darstellung zu einem Überblick über das gesamte Verzerrungspotential. Die Assoziation mit einer Verkehrsampel sorgt für weltweite Verständlichkeit (Abb. 2). Weiterführende Angaben sind dem Cochrane Handbook for Systematic Reviews of Interventions in den Abschn. 8.6 bis 8.17 zu entnehmen [6].

Abb. 2
figure 2

Risiko für Bias in fiktiven Studien

Berichtsqualität versus interne Validität

Zur klaren Abgrenzung zwischen Mängeln in der Berichtsqualität und tatsächlichen methodischen Schwächen von Studien startete eine Gruppe von Herausgebern wissenschaftlicher Zeitschriften, klinischen Forschern, Epidemiologen und Methodikern zu Beginn der 1990er-Jahre eine Initiative zur Verbesserung der Qualität von Berichten zu randomisierten kontrollierten Studien. Ergebnis war das CONSORT (Consolidated Standards of Reporting Trials)-Statement, eine Leitlinie für die Berichterstattung, die 1996 erstmals veröffentlicht und 2010 überarbeitet wurde [26]. Sie enthält eine Checkliste mit 25 Items zu wesentlichen Informationen, die in Publikationen über randomisierte Studien enthalten sein sollten, sowie das Modell eines Flussdiagramms, in dem Informationen über die Anzahl von Patienten in vier Stadien einer klinischen Studie abgebildet sind. Bereits wenige Jahre nach Veröffentlichung des CONSORT-Statements nahm die Anzahl unklarer Berichte in drei hochrangigen Zeitschriften (British Medical Journal, Journal of the American Medical Association, The Lancet), die die obligatorische Verwendung der Checkliste vorsehen, signifikant ab [27].

Weitere Orientierungshilfen für Autoren, Herausgeber und Gutachter wurden in der Folge für unterschiedlichste Studientypen publiziert. Sie sind auf den Internetseiten des EQUATOR-Netzwerks abrufbar (http://www.equator-network.org/). Diese Checklisten tragen zu einer transparenteren Berichterstattung bei, die für Entscheidungsträger von großem Nutzen sein kann [28]. Aufgrund ihres unkritischen Gebrauchs muss jedoch entschieden darauf hingewiesen werden, dass Checklisten keinen Ersatz für Bewertungsinstrumente darstellen [29].

Schlussfolgerung und Ausblick

Unter den Bewertungsinstrumenten für kontrollierte Studien fällt das RoB-Tool der Cochrane Collaboration durch eine hohe Transparenz, Erfassung der wesentlichen Bias-Arten, gute Handhabung mit lediglich sieben Items und die weltweit verständliche graphische Ergebnisdarstellung auf. Hartling et al. [30] kamen in ihrer Untersuchung der Reliabilität allerdings zu dem Ergebnis, dass Unterschiede in den Bewertungen des Bias-Risikos auf Unterschiede in der Interpretation des Instruments zurückzuführen waren. Ihrer Einschätzung nach besteht Bedarf für eine Überarbeitung der Erläuterungen zur Anwendung des Instruments, die detaillierter formuliert werden sollten. Dem trägt die Cochrane Collaboration durch fortlaufende Diskussionen über die Methodik und regelmäßige Aktualisierung Rechnung.

Die vorliegende deutsche Fassung des RoB-Tools basiert auf einer von den drei deutschsprachigen Cochrane-Zentren konsentierten Übersetzung. Zur Verbesserung der Sprachgenauigkeit und Verständlichkeit für Leser außerhalb von Expertenkreisen wurde diese von einem unabhängigen Anbieter ins Englische zurückübersetzt. Die Zusammenführung der Erstübersetzung, konsentierten Fassung und Rückübersetzung zu einer endgültigen Version ist an die Methoden von Beaton et al. [31] angelehnt. Ziel der Übersetzung ist es, das Bewertungsinstrument der Cochrane Collaboration auf Deutsch verfügbar zu machen. Die mangelnde Berücksichtigung der Qualität von Evidenz hat bei Expertenempfehlungen in der Vergangenheit zu groben Fehlern mit schwerwiegenden Folgen geführt. Zum Beispiel wurde im Fall der Hormonersatztherapie auf der Basis von Beobachtungsstudien mit inkonsistenten Ergebnissen fälschlicherweise davon ausgegangen, dass sie das Risiko für kardiovaskuläre Ereignisse reduzieren würde. Eine Dekade lang wurden viele postmenopausale Frauen falsch behandelt, bis in zwei randomisierten Studien gezeigt wurde, dass die Hormonersatztherapie nicht zu einer entsprechenden Risikoreduktion führt, sondern das Risiko für kardiovaskuläre Ereignisse möglicherweise sogar erhöht [3234]. Als Beitrag zu einer rationalen Entscheidungsfindung in der klinischen Praxis und im Gesundheitswesen [35] ist ein weit verbreitetes Verständnis des Konzepts und der Methoden der EbM wünschenswert.

Anhang

Deutsche Übersetzung des Risk-of-Bias (RoB)-Tool (Kap. 8.5 aus dem Cochrane Handbook for Systematic Reviews of Interventions, Version 5.1.0).