Hintergrund

Mit der Schlagzeile „Retire statistical significance“ haben Amrhein et al. in Nature dazu aufgerufen, sich vom Konzept der statistischen Signifikanz in der Medizin zu verabschieden [3]. Unterstützt durch ein Editorial [9] und Unterschriften von mehr als 800 Wissenschaftlern hat diese Arbeit eine rege Diskussion ausgelöst [13, 16, 18,19,20].

Worum geht es und warum diese Aufregung? Handelt es sich nicht um eine Problematik, die in den vergangenen 50 Jahren immer wieder kritisch diskutiert wurde [10, 11, 15, 17, 23]? Die statistische Signifikanz ist ein Konzept, das uns in der Situation der Unsicherheit Hilfestellung geben soll. Empirische Forschungsergebnisse repräsentieren immer nur einen Ausschnitt aus der Wirklichkeit und sind unter ganz bestimmten Bedingungen entstanden. Die Signifikanztestung hat die einzige Aufgabe, uns Orientierung bei der Bewertung der Ergebnisse zu geben. Verwendet wird die statistische Signifikanz hingegen sehr oft, um Ja/nein-Entscheidungen abzuleiten, selbst wenn bei geringfügig anderen Ergebnissen die gegenteilige Entscheidung gefällt worden wäre. Unter/über einer bestimmten Signifikanzschwelle werden Ergebnisse als bestätigt/abgelehnt angesehen.

Die Kritik am Konzept

Amrhein et al. erinnern an zwei wesentliche Punkte: erstens, dass ein p-Wert von >0,05 für ein Studienergebnis oder ein Konfidenzintervall, das die Eins einschließt, nicht bedeutet, dass kein Unterschied bzw. keine Assoziation bestünde. Sondern nur, dass diese Assoziation nicht gezeigt werden konnte. Zweitens, dass bei identischen Effektmaßen zweier Studien, wie in Abb. 1 mit einer jeweiligen Hazard Ratio von 1,5 dargestellt, unterschiedliche Konfidenzintervalle der Studien – eines schließt die Eins ein und das andere nicht – keine einander widersprechenden Ergebnisse darstellen [3]. Dies kann aus statistischer und inhaltlicher Perspektive nur unterstützt werden. Die Liste falscher Interpretationen statistisch signifikanter Ergebnisse ließe sich leicht erweitern; Greenland et al. haben hierzu 25 gängige Fehlinterpretationen zusammengetragen [12]. In Tab. 1 sind weitere mögliche Stolpersteine bei der Interpretation von p-Werten erwähnt.

Abb. 1
figure 1

Hazard Ratios, Konfidenzintervalle und p-Werte aus zwei Studien. (Angelehnt an Amrhein et al. [3])

Tab. 1 Aussagekraft des p-Wertes und Erklärungen zur Verwendung des p-Wertes in verschiedenen Kontexten

Entgegen dieser häufigen Kritik ist die gelebte wissenschaftliche Praxis anders, und darauf zielen die Autoren ab. p-Werte werden u. a. zu Hunderten [4] in Publikationen verwendet und für dichotomisierte Entscheidungen herangezogen. Das Konzept statistischer Signifikanz, zu dem neben p-Werten mittelbar auch die Fehler 1. und 2. Art sowie Konfidenzintervalle für Effekte gehören, wird falsch verwendet und falsch verstanden. Die Frage, ob Unterschiede zwischen zwei Gruppen klinisch relevant sind, wird oftmals gar nicht gestellt. Es manifestiert sich hier ein naiver Umgang mit Signifikanz und wissenschaftlicher Unsicherheit.

Den Autoren ist zuzustimmen, dass die starre Fixierung auf p-Werte die Unsicherheit außen vor lässt, unter der Studienergebnisse entstehen. Ungenaue, unzureichende Daten oder selektive Studienpopulationen tragen u. a. zur Unsicherheit der Ergebnisse bei. Eine Bewertung dieser muss über p-Werte hinaus in einem elaborierten Umgang mit statistischer Unsicherheit erfolgen. Hierzu gehört z. B., ein Ergebnis mit verschiedenen Methoden zu prüfen, Sensitivitätsanalysen durchzuführen und an jeder Stelle nach der klinischen Relevanz zu fragen. Dies gilt ganz besonders für nicht randomisierte Studiendesigns, wo wir mit einer Vielzahl von Verzerrungsfaktoren umgehen müssen. Wasserstein et al. fassen dies unter dem sehr passenden Akronym ATOM zusammen: Akzeptanz der Unsicherheit („Accept uncertainty“), Sorgfalt („be Thoughtful“), Aufgeschlossenheit („Open“) und Zurückhaltung („Modest“) [28] sollten bei der Interpretation von Studienergebnissen vorliegen.

Ersetzbarkeit des Konzepts

Aber kann der falsche Gebrauch eines Konzepts als Begründung dafür dienen, es komplett über Bord zu werfen? Dies scheint uns im Moment zumindest fraglich. Ein universales und unter Methodikern konsentiertes besseres Konzept existiert nicht [28]. Alternativen wie die 2. Generation von p-Werten [6], die Bayes-Faktor-Schranke [5] und einige weitere [28] bedürfen höheren methodischen Verständnisses. Manche dieser Alternativen benötigen weitere Annahmen. Ioannidis schlägt z. B. die Bestimmung des positiv prädiktiven Wertes eines Studienergebnisses vor [17]. Hierfür wird allerdings eine Annahme zum Verhältnis „wahrer“ zu „nicht-wahrer“ Ergebnisse und zum potenziellen Bias der Studie benötigt [17]. Andere Ansätze [8] sind momentan in gängiger Software zur statistischen Modellierung nicht so implementiert, dass Nicht-Programmierer sie einsetzen könnten. Werden sie eingesetzt, so ist die Gefahr der falschen Anwendung bei diesen komplexeren Verfahren eher als höher einzuschätzen als bei dem eigentlich trivialen Konzept der statistischen Signifikanz mit p-Werten und Konfidenzintervallen.

Der Kontext der Anwendung ist entscheidend

Die Verwendung statistischer Tests und das Testen von Hypothesen erfolgen u. a. in verschiedenen Stadien klinischer oder epidemiologischer Studien. Sind die Studien präklinisch, werden sie mit Routinedaten durchgeführt oder liegt ein Beobachtungsdesign zugrunde, so sind sie eher explorativ. Diese Studien sind unverzichtbar für das Generieren von Hypothesen [26], die dann in gut geplanten konfirmatorischen Studien wie randomisierten klinischen Versuchen überprüft werden können. Letztere werden exklusiv zur Untersuchung bestimmter Hypothesen geplant und durchgeführt.

Diese unterschiedlichen Anwendungsbereiche des statistischen Testens diskutieren Amrhein et al. [3] unzureichend und fordern eine globale Abschaffung des Konzepts. Uns erscheint es dagegen durchaus legitim, in einer explorativen Analyse einer Beobachtungsstudie mit vielen möglichen Einflussfaktoren auch einen statistisch nicht signifikanten Zusammenhang zu beschreiben. Ebenso ist bei der statistischen Modellierung die Wahl der am besten zu den Daten passenden Verteilungsform, z. B. negativ-binomial vs. Poisson-Verteilung, basierend auf dem p-Wert eines Likelihood-Ratio-Tests, hinreichend. Für den Fall der klinischen Prüfstudie allerdings, die für einen Effektivitätsparameter als primären Endpunkt geplant wurde, ist es keine gute wissenschaftliche Praxis, die Risikoerhöhung eines Therapiearms um 50 % (Abb. 1, Studie 1) auf fehlende statistische Signifikanz zu reduzieren, nur weil der p-Wert >0,05 ist. Die Evidenz für das Nichtvorliegen einer Risikoerhöhung kann nicht allein vom p-Wert abgeleitet werden. Altman fasste dies in den Worten zusammen: „die Abwesenheit von Evidenz“ (für einen Effekt, durch p-Werte abgeleitet) „ist keine Evidenz für Abwesenheit“ eines Effekts [1]. Korrekt wäre in der oben erwähnten Studie die Schlussfolgerung, dass sie für diesen Endpunkt nicht geplant wurde und diesbezüglich keine ausreichende statistische Power aufweist und dass die beobachtete Risikoerhöhung, insofern sie sich auf einen klinisch bedeutsamen Endpunkt bezieht, einer weiteren Überprüfung in adäquat geplanten Studien bedarf.

Mehr Verzerrung und weniger Transparenz

Letzteres Beispiel veranschaulicht zugleich einen wesentlichen Vorteil des Konzepts statistischer Signifikanz: Eine inkorrekte Interpretation ist für den Leser oder Zuhörer zumeist transparent. Wenn Effektstärken, Konfidenzintervalle und p-Werte gemeinsam dargestellt werden, können die Schlussfolgerungen hinterfragt werden. Dieses Merkmal des Konzepts der statistischen Signifikanz ist vor dem Hintergrund zunehmender Ergebnisse aus Messverfahren wie „next-generation-sequencing“ oder Machine-learning-Modellen hoch zu bewerten, da ihre Generierung und Fehleranfälligkeit für Leser weitgehend intransparent sind [7, 22, 25].

Die komplette Abschaffung der Signifikanztestung würde der willkürlichen Interpretation von Studienergebnissen Tür und Tor öffnen [16]. Vor allem, weil ein gutes Studiendesign verlangt, dass die Kriterien für einen relevanten Unterschied vorab und nicht nach Datenlage festgelegt werden. Dies führt uns zurück zu Grundprinzipien wissenschaftlicher Arbeit wie in der „Guten Epidemiologischen Praxis“ beschrieben [14]. Die Diskussion kann daher nicht sein, ob, sondern wie getestet wird und wie die Ergebnisse interpretiert werden.

In diesem Zusammenhang muss die Forderung nach der vollständigen Publikation auch nichtsignifikanter Ergebnisse unterstrichen werden. Wenn Metaanalysen nicht durch den Publikationsbias (also die bevorzugte Publikation signifikanter Ergebnisse) verzerrt sind, können fälschliche Schlussfolgerungen einzelner Studien in einem globaleren Kontext bewertet und in einer Gesamtbewertung evtl. korrigiert werden. Dies gilt nicht nur für Ergebnisse klinischer Studien, sondern auch für präklinische Studien, wo oftmals sehr viele verschiedene Biomarker geprüft werden und ohne Korrektur für multiples Testen leicht falsch positive oder falsch negative Ergebnisse entstehen [24].

Fazit

Die Forderung nach der Abschaffung des Konzepts statistischer Signifikanz ist derzeit mangels Alternativen und aufgrund unzureichender Differenzierung des Anwendungskontextes überzogen. p-Werte werden nicht nur zur Prüfung von Gruppenunterschieden in klinischen Prüfungen herangezogen, sondern auch in explorativen Studien, bei der Wahl eines statistischen Modells oder in Sensitivitätsanalysen zur Bewertung verschiedener Modellannahmen. Wir gehen davon aus, dass dies auch den Autoren bewusst ist. Sie schreiben selbst, dass sie kein Verbot von p-Werten und Konfidenzintervallen fordern. Worauf sie eigentlich hinweisen, ist der falsche Gebrauch und die kritiklose Handhabung der statistischen Signifikanz in vielen Studien, und hier ist ihnen uneingeschränkt zuzustimmen.

Eine Handreichung zur Interpretation von Ergebnissen wissenschaftlicher Publikationen, ähnlich der von Lyderson [21], wäre ein konstruktiverer Umgang mit der Problematik als die Abschaffung der Signifikanztestung. Denkbar wäre es, Leitlinien wie STROBE [27] oder CONSORT [2] um Checklisten zum Umgang mit statistischem Testen zu ergänzen. Greenland et al. haben nicht nur eine Liste möglicher Fehlinterpretationen, sondern auch Hinweise zur richtigen Interpretation vorgelegt [12]. Auch die Kollegen um Wasserstein et al. fordern mehr Hilfestellung zur richtigen Anwendung und weniger Verbote („‚Don’t‘ is not enough“) [28]. Auch wir erachten dies nicht nur für die Autoren von wissenschaftlichen Publikationen, sondern auch für deren Reviewer als hilfreich.