Für die Überprüfung einer wissenschaftlichen Fragestellung werden neben Metaanalysen prospektive randomisiert-kontrollierte Studien (RCT) als Goldstandard angesehen. Durch die Randomisierung (zufällige Zuordnung in eine Behandlungsgruppe) soll eine Selektionsverzerrung vermieden werden. Darüber hinaus hat sich bei Arzneimittelstudien v. a. das Intention-to-treat(ITT)-Prinzip als maßgebliche statistische Analyse von klinischen RCTs durchgesetzt. Hierbei wird der Patient in die Studie aufgenommen, einem Studienarm randomisiert zugeordnet und immer für diesen Studienarm analysiert, auch wenn er im Verlauf der Studie in einen anderen Studienarm wechselt („cross-over“). Wie sinnvoll ist das ITT-Prinzip in der Orthopädie? Was ITT ist, welche Alternativen es gibt und welche Rolle sog. Sensitivitätsanalysen bei RCTs spielen, soll nachfolgend erläutert werden.

Nach dem ITT-Prinzip müssen alle Patienten so ausgewertet werden, wie sie randomisiert wurden, ganz gleich, was mit ihnen im Studienverlauf geschehen ist (z. B. falsch randomisiert, „cross-over“, d. h. Wechsel der Behandlungsgruppe, oder Therapieabbruch). Das ITT-Prinzip bietet durch Einschluss von Teilnehmern, die gewisse Anforderungen nicht erfüllen, ein reales, aber eher konservatives Szenario und entspricht somit am ehesten dem klinischen Alltag. Vermeidbar sind Randomisierungsverstöße durch gute Planung des Studienprotokolls und durch vollständige Datenerfassung während der Studiendurchführung und nicht erst durch die Datenauswertung am Ende.

Primäranalyse

Folgende Gründe sprechen für eine Primäranalyse nach dem ITT-Prinzip:

  • Durch die Beibehaltung der zufälligen Behandlungsgruppeneinteilung bleibt die Vergleichbarkeit der Patienten erhalten.

  • Dadurch bleibt auch die Patientenanzahl und somit die a priori erfolgte Fallzahlkalkulation für die Mindestanzahl der Patienten in jedem Studienarm (Power der Studie) für die statistische Auswertung erhalten.

  • Bei Studien, die erklären wollen, welche der Behandlungsmethoden in der Praxis/Realität besser ist, kann eine Effektüberschätzung der einen von der anderen Behandlungsmethode vermieden werden.

Gegen eine Primäranalyse sprechen folgende Gründe:

  • Bei Studien, die erklären wollen, warum die eine oder andere Behandlungsmethode besser ist, kann es zu einer Effektunterschätzung der einen von der anderen Behandlungsmethode kommen.

    • Alternative: Per-protocol(PP)-Prinzip

      Im Gegensatz zum ITT-Prinzip werden beim PP-Prinzip Teilnehmer, die gegen das Protokoll verstoßen, von der Analyse ausgeschlossen. Dadurch bietet dieses Prinzip ein ideales Szenario, somit kann durch diese Analyse eher ein Therapieeffekt gezeigt werden. Auch bei Äquivalenzstudien (zur Überprüfung, ob für 2 Methoden vergleichbare Ergebnisse zu erzielen sind) bzw. Nicht-Unterlegenheitsstudien („non-inferiority“; zur Überprüfung, ob eine Methode einer Vergleichsmethode nicht unterlegen ist) wird das Ergebnis durch die Anwendung des ITT-Prinzips eher unter- als überschätzt.

  • Nebenwirkungen (Häufigkeit und Schweregrad) einer bestimmten Behandlung können nicht eindeutig zugeordnet werden.

    • Alternative: As-treated(AT)-Prinzip

      Beim AT-Prinzip werden Patienten nach der Behandlung analysiert, die sie tatsächlich erhalten haben. Bei diesem Prinzip wird im Gegensatz zum ITT-und PP-Prinzip die ursprüngliche Randomisierung nicht beachtet. Auch das AT-Prinzip, wie das PP-Prinzip, neigt im Gegensatz zur ITT-Analyse, zur Überschätzung der Behandlungseffekte. Nichtsdestotrotz sollte bei einer Studie mit einer hohen Cross-over-Rate eine zusätzliche Analyse nach dem AT-Prinzip durchgeführt werden.

Am folgenden, fiktiven orthopädischen Beispiel sollen die 3 Prinzipien erörtert werden (Tab. 1). In diesem Fall handelt es sich um eine RCT, die das Therapieergebnis („gut“ und „schlecht“) nach 2 Jahren zwischen einer konservativen und einer arthroskopischen Behandlungsgruppe vergleichen soll. Generell zeigt sich, dass mehr Patienten (30,0 %), die initial konservativ therapiert wurden, in die arthroskopischen Behandlungsgruppe gewechselt sind als umgekehrt (3,8 %). Die Analyse nach dem ITT-Prinzip, die diese Patienten („cross-overs“) nach initialer Randomisierung zuordnet, zeigt den geringsten Unterschied zwischen Arthroskopie gegenüber dem konservativen Vorgehen (21,2 % Differenz). In der Analyse nach dem PP-Prinzip werden diese Patienten wegen Protokollverletzung nicht berücksichtigt, somit zeigt sich ein Vorteil (guter Outcome) der arthroskopischen Behandlungsgruppe. Die Analyse nach dem AT-Prinzip zeigt ebenfalls einen Unterschied zugunsten der Arthroskopie, da sie die Mehrheit der Cross-over-Patienten mit gutem Outcome der arthroskopischen Behandlungsgruppe zuordnet sind. Anhand dieses Beispiels sieht man, dass das ITT-Prinzip im Gegensatz zum PP- und AT-Prinzip zur Unterschätzung des Behandlungseffekts der arthroskopischen Behandlungsgruppe neigt.

Tab. 1 Vergleich zwischen „intention-to-treat“ (ITT), „per protocol“ (PP) und „as treated“ (AT) an einem fiktiven Beispiel und bezogen auf ein gutes Outcome

Die Debatte über den universellen Einsatz des ITT-Prinzips haben Sackett und Gent [1] bereits 1979 gestartet. Ihrer Ansicht nach ist die starre Anwendung des ITT-Prinzips in allen Studien, unabhängig von theoretischen oder experimentellen Gründen, gerechtfertigt. Sie schlugen daher vor, dass die Wahl des Prinzips von den a priori festgelegten Zielen der Studien abhängig sein sollte. Demnach sollte für pragmatische RCTs [2], die auf Entscheidungsfindung („Welche der Behandlungen ist besser?“ – Nutzen der Behandlung in der Praxis) abzielen, das ITT-Prinzip als Primärprinzip gewählt werden. Erklärende RCTs, die auf eine Erklärungsfindung („Warum ist eine der Behandlungen besser?“ – Auswirkung der Behandlung) abzielen, sollten sich hingegen auf das AT-Prinzip mit der Voraussetzung der doppelten Verblindung (Untersucher, Patient) stützen.

Stellt man sich die entscheidungsfindende Frage: „Welche der beiden Behandlungsgruppen ist generell besser?“ und führt eine ITT-Analyse durch, dann könnte sich z. B. ein ähnlicher Behandlungseffekt zwischen den Behandlungsgruppen zeigen. Das kann etwa dadurch zustande gekommen sein, dass einige Patienten von der konservativen Behandlungsgruppe es vorgezogen haben, nach kurzer Zeit arthroskopisch therapiert zu werden und die konservative Behandlung nicht beendet haben („cross-over“). Praxisrelevant ist hier der Fakt des „cross-over“. Wenn mehrere RCTs zu einem Thema nach der ITT-Analyse der Behandlungseffekt zwar die Ebenbürtigkeit der konservativen und operativen Behandlung zeigten, aber viele Patienten im Verlauf die operative Behandlung bevorzugten – also aus dem konservativen in den operativen Studienarm wechselten („cross-over“), dann wird der Orthopäde ggf. gleich die operative Behandlung empfehlen, denn ein konservativer Behandlungsversuch scheint kaum Sinn zu machen. Beispielsweise auch dann nicht, wenn bei der AT- oder PP-Analyse ein besserer Behandlungseffekt mit der konservativen Methode detektiert wurde. Wenn aber die Hauptfrage darin besteht, wie gut der Behandlungseffekt zwischen Behandlungsgruppen ist (erklärende Frage), wird eine AT- oder PP-Analyse der bessere Ansatz sein.

Eine wichtige Frage hierbei ist, ob traditionelle klinisch orientierte RCTs in der Orthopädie und besonders in der Arthroskopie als entscheidungsfindend oder als erklärend anzusehen sind? Insbesondere für Fragen, wie z. B. zum „Effekt der arthroskopischen Behandlung von Meniskusrissen in jungen Patienten“ lässt sich leicht argumentieren, dass die Frage nach der besseren Behandlung prinzipiell nicht zulässig ist, da die Behandlungsstrategien nicht äquivalent sind. In solch einem Fall sollte man zunächst herausfinden, warum bei einigen Patienten die eine Therapie besser wirkt als bei anderen. Operationen unterscheiden sich – auch für ein und dieselbe Diagnose – gerade auch, wenn verschiedene Operateure, wie z. B. in Multizenterstudien, involviert sind. Dies steht im Gegensatz zu internistisch-pharmazeutischen Studien, in denen industriell gefertigte Arzneimittel mit genauer Dosierung (z. B. in Tablettenform) dazu führen, dass jeder Patient die identische Therapie erhält.

Die gewählte Primäranalyse sollte als vollständige Versuchsstrategie betrachtet werden

Um auf das beschriebene Beispiel zurückzukommen: Es scheint, dass Patienten, die zunächst für die Arthroskopie randomisiert, aber konservativ behandelt wurden, erheblich schlechtere Ergebnisse haben (27,6 % statt 4 %) und Patienten, die primär arthroskopisch behandelt wurden, erheblich bessere Ergebnisse haben als Patienten, die primär konservativ behandelt wurden. Es ist möglich, dass ein wesentlicher Entscheidungsfaktor, der eine bessere Stratifizierung der Behandlungsgruppe zuließe, in der Randomisierung nicht berücksichtigt wurde. In einem solchen Fall könnte man argumentieren, dass die Frage „Welche Behandlung ist generell besser?“ gar nicht gestellt werden kann, da die eigentliche Patientengruppe nicht optimal zu definieren ist. Die Gefahr ist, dass ITT-Analysen in Situationen, die als Entscheidungsfindung beschrieben werden, falsch dargestellt werden. In dem obigen Fall wäre eine mögliche Aussage, dass eine arthroskopische Behandlung schlechter ist als eine konservative Behandlung. Eine andere und wahrscheinlich ausgewogenere Aussage wäre, dass eine randomisierte Patientenbehandlung zwischen diesen beiden Behandlungsansätzen bei den meisten Patienten zu keinem substanziellen Unterschied in den Resultaten führt. Allerdings gibt es Patienten, bei denen eine konservative anstelle einer arthroskopischen Behandlung durchgeführt wurde, die bedeutend schlechter abschnitten. Man könnte und sollte daher als Fazit der Studie festhalten, dass es bei Anwendung der Studienkriterien keine großen Unterschiede gibt, dass allerdings eine Gruppe von Patienten möglicherweise schlechtere Ergebnisse hat, wenn sie eine konservative statt einer arthroskopischen Behandlung erhält. Der Grund dafür muss erforscht werden – es könnte am Placebo-Effekt liegen, es könnte allerdings auch andere Gründe haben.

Generell sollte die gewählte Primäranalyse (ITT, AT oder PP) als vollständige Versuchsstrategie für das Studiendesign, die -durchführung und -analyse betrachtet werden und nicht nur als Ansatz für die Analyse. Es ist jedoch auch wichtig zu beachten, dass die Glaubwürdigkeit von Studienergebnissen maßgeblich von den verwendeten Analysemethoden oder Modellen sowie ihren entsprechenden Annahmen abhängt. Daher spielt das Studiendesign nicht nur in der Planung eine wichtige Rolle. Die genaue Beschreibung der Studie ist auch für die Interpretation und Beurteilungen von Publikationen ein wesentlicher Bestandteil. Neben der eigentlichen statistischen Auswertung zur Überprüfung der Hypothesen (Annahmen) sollten bereits in der Vorbereitung statistische Verfahren im Studienprotokoll berücksichtigt werden, die ein späteres Abweichen vom oft sehr strengen Studienprotokoll einer RCT vermeiden. Hierzu zählen Sensitivitätsanalysen. In einer Sensitivitätsanalyse werden die Auswirkungen verschiedener Faktoren auf das Endergebnis einer RCT untersucht. Demnach spielen sie eine entscheidende Rolle bei der Beurteilung der Robustheit der Primäranalyse von Ergebnissen oder Schlussfolgerungen in klinischen Studien. Sie sind eine wichtige Methode, um die Auswirkungen oder Einflüsse wichtiger Annahmen oder Abweichungen auf die allgemeinen Schlussfolgerungen einer Studie zu bewerten. Sensitivitätsanalysen sollten a priori geplant werden, können aber erst nach Erhalt der Daten durchgeführt werden. Nichtsdestoweniger können erhebliche Abweichungen minimiert werden, wenn bereits in der Protokollplanung die im Folgenden aufgeführten Punkte bedacht werden.

Werden sich die Ergebnisse ändern, wenn …

  • bestimmte Definitionen (z. B. Grenzwerte) verändert werden?

  • die Analysemethode (z. B.bezüglich Normalverteilung) verändert wird?

  • fehlende Daten berücksichtigt werden?

  • Ausreißer ein-/ausgeschlossen werden?

  • man sich Untergruppen von Patienten ansieht?

Kann es zu unterschiedlichen Schlussfolgerungen kommen durch …

  • fehlenden Daten?

  • Protokollabweichungen?

Dies bedeutet in der Praxis, dass im vor Versuchsbeginn fertiggestellten Studienprotokoll die Primäranalyse (z. B. ITT) und die nach Beendigung der Studien durchzuführenden Sensitivitätsanalysen (z. B. AT und PP) festgelegt werden. Durch Sensitivitätsanalysen [3] werden die Auswirkungen der Änderungen bzw. der Protokollabweichungen bezüglich der o. g. Punkte auf die beobachteten Ergebnisse getestet. Wenn die Ergebnisse nach Durchführung von Sensitivitätsanalysen mit denen aus der Primäranalyse übereinstimmen und zu ähnlichen Schlussfolgerungen über den Behandlungseffekt führen, dann kann man davon ausgehen, dass die zugrunde liegenden Faktoren keinen oder nur geringen Einfluss auf die primären Schlussfolgerungen hatten und somit als robust bezeichnet werden können. Sollte es Diskrepanzen zwischen bei der Sensitivitätsanalyse geben, beispielsweise zwischen der Primäranalyse (z. B. nach dem ITT-Prinzip) und der AT-Analyse, dann werden die Ergebnisse nach der Primäranalyse dargestellt, aber die Diskrepanz und damit die fehlende Robustheit der Daten muss in der Diskussion erläutert werden. Aufgrund deren Wichtigkeit sollten Sensitivitätsanalysen standardmäßig verwendet und berichtet werden. Zu den Optionen der Sensitivitätsanalysen bzgl. Protokollabweichungen zählen die statistische Auswertung nach dem ITT- (wenn nicht als Primäranalyse angewendet), PP- und AT-Prinzip. Bei Studien, die v. a. Nebenwirkungen bestimmter Therapien untersuchen und bei denen man mit hohen Cross-over-Raten rechnet (dies oftmals der Fall, wenn operative und konservative Therapien verglichen werden), ist zusätzlich zur statistischen Auswertung nach dem ITT-Prinzip auch die Auswertung nach AT-Prinzip sinnvoll. Es ist zu beachten, dass eine Auswertung nach dem ITT-Prinzip keine Sensitivitätsanalyse für fehlende Daten oder Ausreißer darstellt.

Diskussion

A priori sollte man sich bei einer RCT für die Primäranalyse entscheiden (ITT, AT oder PP). Zusätzlich sollte man jedoch die Daten nach Studienende auch nach den anderen beiden Prinzipien analysieren, weil damit die Robustheit der Aussage bestätigt oder widerlegt werden kann. Es ist allerdings wichtig, die Fragestellung so klar wie möglich hinsichtlich ihrer Validität zu hinterfragen. Insbesondere, wenn operative und nichtoperative Behandlungsstrategien erforscht werden, ist es wichtig, dass die Patientengruppen gut definiert werden. Sollte diese Definition schwierig oder sehr lückenhaft sein (z. B. aufgrund von unklaren Diagnosen wie Knieschmerz), dann handelt es sich weniger um die entscheidungsfindende Frage „Welche Behandlung ist generell vorzuziehen?“, sondern vielmehr um die erklärungsfindende Frage: „Welche Behandlung wirkt bei welchen Patienten besser?“ Die statistische Analyse muss dieser Fragestellung angepasst werden. Des Weiteren, wenn auch derzeit oft nicht durchgeführt oder in der Literatur berichtet, sollten primäre Schlussfolgerungen mittels Sensitivitätsanalysen überprüft werden, um die Robustheit der Ergebnisse zu gewähren.

Tipps

  • Wenn die Studie nach dem ITT-Prinzip primär durchgeführt wurde, sollte das im Methoden- oder Ergebnisteil angeführt sein. Zumindest sollte es im Studienprotokoll (oft extra publiziert) angegeben sein.

  • Wenn keine ITT-Analyse gemacht wurde und auch keine Ausreißer oder „cross-overs“ aufgetreten sind, sollte es bzgl. Robustheit kein Problem geben.

  • Wenn es zu Drop-outs oder „cross-overs“ kam und keine ITT-Analyse durchgeführt wurde, wird dies normalerweise in der Diskussion als erhebliche Schwäche (Limitation) erwähnt, und es besteht die Gefahr, dass die Ergebnisse nicht so robust sind, wie sie erscheinen.

  • Wenn die Forscher behaupten, eine ITT-Analyse durchgeführt zu haben, ist dies eine Stärke, insbesondere, wenn sie tatsächlich beschreiben, wie sie angewendet wurde. Beachten Sie jedoch, dass inkorrekte ITT-Analysen nicht hilfreich sind, da es statistische Möglichkeiten gibt, die Ergebnisse genauer zu untersuchen, um festzustellen, ob die Analyse ordnungsgemäß angewendet wurde.

Fazit für die Praxis

Für den Studien-Planer:

  • Genaue Planung (v. a. der Ein‑/Ausschlusskriterien)

  • Präzise Überlegung, welche Primäranalyse (ITT, PP oder AT) für die Fragestellung am aussagekräftigsten ist

  • RCTs sollten immer Sensitivitätsanalysen berücksichtigen

    • Analyse nach allen 3 Prinzipien (ITT, PP, AT) zur Überprüfung der Robustheit der Daten

    • Bezüglich fehlender Daten, Ausreißer …

Für den Studien-Leser:

  • Ist die Schlussfolgerung der Studie möglicherweise durch nicht berücksichtigte Faktoren wie hohe Drop-out-Raten, hoher „cross-over“, Ausreißer, fehlende Daten oder Protokollverletzungen beeinflusst?

  • Wurden Sensitivitätsanalysen durchgeführt und wurden deren Ergebnisse berichtet?