1 Einleitung

Die letzten Jahre haben die Forderung nach einer „evidenzbasierten Praxis“ in der Pädagogik (Tooley und Darby 1998; Coe 1999) und eine „empirische Wende“ der deutschen Bildungspolitik und Bildungsforschung (Buchhaas-Birkholz 2009) erlebt. Robert E. Slavin (2002) geht so weit, die Evidenzbasierung mit einer „wissenschaftlichen Revolution“ zu vergleichen, die andere Disziplinen bereits vor mehr als 100 Jahren vollzogen hätten.

Im Zuge dessen kommt es in der Bildungsforschung zu einer immer größeren Zahl von quantitativen Forschungsarbeiten. Diese folgen häufig dem Muster von Null-Hypothesen Signifikanztests; etwa bei Interventionsstudien im Kontroll- bzw. Vergleichsgruppendesign.Footnote 1

Gleichzeitig war und ist diese (quantitativ-)empirische Ausrichtung von einem kritischen Diskurs begleitet; siehe etwa Baumert und Tillmann (2016) und Ahrbeck et al. (2016).

Diese Debatte zu den konzeptionellen Grundlagen halten wir für äußerst wichtig – sie soll aber an dieser Stelle nicht weitergeführt werden. Stattdessen wollen wir die Diskussion um die Evidenzbasierung mit dem (etwas) weniger ideologisierten Problemkomplex der statistischen Methodik verknüpfen.

Seit vielen Jahrzehnten gibt es eine anhaltende Diskussion über das methodische Vorgehen und die Ergebnisinterpretation von (Null‑)Hypothesen Signifikanztests (siehe etwa: Nickerson (2000); Ziliak und McCloskey (2008); Kline (2013); Lakens (2019).). Das Ziel dieser Arbeit ist es, die Grundlagen dieser Debatte zu beleuchten und sie stärker in die Bildungsforschung zu tragen. Angesichts des erheblichen Aufschwungs der empirischen Bildungsforschung in den letzten Jahren und der damit verbundenen Hoffnung auf steuerungsrelevantes Wissen halten wir diese Debatte für besonders wichtig (vgl. Nagengast und Rose (2018, S. 686)).

Zusätzliche Aktualität hat dieser Diskurs durch die sog. „Replikationskrise“ gewonnen. Dieser Begriff – ursprünglich für die Psychologie geprägt – ist in der Zwischenzeit zum Synonym dafür geworden, dass sich in immer mehr hypothesentestenden Wissenschaften zahlreiche Forschungsergebnisse nicht replizieren lassen (Pashler und Wagenmakers 2012; Makel und Plucker 2014; Open Science Coll. 2015).

Noch früher erregte ein Beitrag von John P. A. Ioannidis Aufsehen. Dieser profilierte Vertreter der evidenzbasierten Medizin veröffentlichte bereits 2005 eine Arbeit mit dem provokanten Titel „Why Most Published Research Findings Are False“ (Ioannidis 2005). Dort führt Ioannidis im Kern den (eigentlich recht banalen) Nachweis, dass die Wahrscheinlichkeit für korrekte (positive) Forschungsergebnisse in den hypothesentestenden Wissenschaften nicht nur von der Irrtumswahrscheinlichkeiten abhängt, sondern natürlich auch von der Rate der „korrekten“ Forschungshypothesen (d. h. der sog. Prävalenz bzw. Vortestwahrscheinlichkeit).

Nimmt man z. B. an, dass 10% der (Forschungs‑)Hypothesen zutreffen, die statistische Teststärke („power“) den für viele psychologische Studien typischen Wert von \(1-\beta\approx\) 50% hat und auf einem Signifikanzniveau von 5% getestet wird, werden ca. \(50\%\) der „statistisch signifikanten“ Ergebnisse falsch sein (sog. false discovery rate).Footnote 2

Vor diesem Hintergrund ging die American Statistical Association schließlich sogar so weit, den Verzicht auf die Verwendung des Begriffs „statistisch signifikant“ zu empfehlen (Wasserstein et al. 2019). Dabei zielt sie nicht auf eine bloße Sprachregelung, sondern sieht die Notwendigkeit, die Methodik der wissenschaftlichen Datenanalyse und Ergebniskommunikation grundlegend zu reformieren.

Nach einer knappen Rekapitulation des gewöhnlichen Hypothesentests (Abschn. 2.1) und seiner Geschichte (2.2) behandeln wir einige Fehlinterpretationen des dabei gewonnenen \(p\)-Werts (2.3) und die daraus folgenden unerwünschten Konsequenzen (2.4). In Abschn. 3 diskutieren wir, welche Alternativen zum Standardverfahren sich bieten. Mit der Bayesschen Statistik betrachten wir einen dieser Vorschläge in Abschn. 3.1 etwas genauer. Mit einer knappen Zusammenfassung und einigen praktischen Hinweisen für eine bessere statistische Praxis schließen wir in Abschn. 4.

2 Geschichte, Probleme und Praxis des Hypothesentests

2.1 Das Standardverfahren des Null-Hypothesen Signifikanztests

Bevor wir das Standardverfahren des Null-Hypothesen Signifikanztests diskutieren, müssen wir eine knappe Bemerkung zum Wahrscheinlichkeitsbegriff vorausschicken. In der üblichen (frequentistischen) Auffassung ist die Wahrscheinlichkeit eines Ereignisses \(A\) mit der relativen Häufigkeit seines Auftretens verknüpft. Dies setzt also einen (zumindest hypothetisch) beliebig oft wiederholbaren Prozess voraus, der verschiedene Ausgänge haben kann (und im interessanten Fall auch hat). Die relative Häufigkeit des Auftretens von \(A\) bei \(n\) Ereignissen (\(h_{n}(A)=\frac{n(A)}{n}\)) ist ein Schätzwert für seine Wahrscheinlichkeit. Die Genauigkeit dieser Schätzung wächst nach Wahrscheinlichkeit mit zunehmendem Wert von \(n\).Footnote 3

Diese frequentistische Deutung stellt den Standard in der angewandten statistischen Literatur dar, etwa Bortz und Döring (2006) oder das monumentale Werk von Sachs (2004).Footnote 4 Aus ihr folgt, dass Wahrscheinlichkeiten nur für die Werte von „Zufallsvariablen“ erklärt sind – und nicht etwa für „Hypothesen“. Nach dieser frequentistischen Auffassung von Wahrscheinlichkeit sind Hypothesen (etwa: „Intervention A ist wirksamer als Intervention B“, oder auch „Es gibt eine durch Menschen verursachte Klimakrise“) entweder wahr oder falsch. Da sie keinem wiederholbaren Prozess zugeordnet werden können, sind Wahrscheinlichkeitsaussagen hier nicht bloß falsch, sondern sinnlos. Diese Eigenschaft hat für das Testen von Hypothesen in der frequentistischen Statistik offensichtlich wichtige Auswirkungen. Wenden wir uns nun dem „Standardverfahren“ des Hypothesentests zu, wie es in der gängigen Literatur (etwa Bortz und Döring (2006)) eingeführt wird.

Für die Anwendung einer statistischen Methode zum Test einer Hypothese muss zunächst ein Kennwert identifiziert werden, der die hypothesenrelevanten Informationen zusammenfasst. Möchte man etwa die erhöhte Lernwirksamkeit einer Intervention im Vergleich zu einer konventionell unterrichteten Vergleichsgruppe überprüfen, kann man sich für die Differenz der Mittelwerte \(\mu_{i}\) eines Wissenstests zwischen den beiden Gruppen interessieren.

Die sog. Null-Hypothese (\(H_{0}\)) formuliert in der Regel die Annahme, dass die Intervention ohne Effekt ist (\(\mu_{1}=\mu_{2}\)). Die alternative Hypothese (\(\mu_{1}\neq\mu_{2}\) bzw. \(\mu_{1}> \mu_{2}\)) wird als \(H_{1}\) bezeichnet. Um die Null-Hypothese zu testen, untersucht man eine Stichprobe mit \(n_{1}\) bzw. \(n_{2}\) Teilnehmenden und betrachtet die folgende Zufallsvariable (in üblicher Notation):

$$\begin{aligned}T=\frac{\overline{X}_{1}-\overline{X}_{2}}{S_{(\overline{X}_{1}-\overline{X}_{2})}}.\end{aligned}$$
(1)

Unter bestimmten Bedingungen (etwa der Varianzgleichheit)Footnote 5 und bei Zutreffen der Null-Hypothese folgt diese Variable der Student-\(t\)-Verteilung (mit \(n_{1}+n_{2}-2\) Freiheitsgraden).

Ergibt die Untersuchung für die Mittelwertdifferenz den Ausfall \(t\), berechnet sich der zugehörige \(p\)-Wert als \(p=P(|T|\geq t)\). Es handelt sich also um die Wahrscheinlichkeit, das beobachtete Datum (oder noch extremere) zu erhalten, unter Vorraussetzung der Nullhypothese.

Gilt nun \(p<0,05\) (bzw. \(p<0,01\)) spricht man von einem „statistisch signifikanten“ (bzw. „sehr signifikanten“) Ergebnis, bei dem die Stichprobe schlecht mit der Null-Hypothese verträglich ist. In diesem Fall wird \(H_{0}\) abgelehnt und die Alternativhypothese akzeptiert (Bortz und Döring 2006, S. 494). Dort lesen wir ferner über den \(p\)-Wert:

Diese Wahrscheinlichkeit heißt Irrtumswahrscheinlichkeit (als diejenige Wahrscheinlichkeit, mit der wir uns irren würden, wenn wir die \(H_{0}\) fälschlicherweise zugunsten von \(H_{1}\) verwerfen). (Bortz und Döring 2006, S. 494)

Hier wird der \(p\)-Wert also ausdrücklich mit der Wahrscheinlichkeit identifiziert, einen sog. \(\alpha\)-Fehler zu begehen. Die ebenfalls wichtige Wahrscheinlichkeit dafür, die Null-Hypothese irrtümlich nicht zu verwerfen, wird üblicher Weise mit \(\beta\) bezeichnet. Diese beiden Varianten werden auch Fehler 1. und 2. Art genannt.

2.2 Zur Geschichte des Standard-Signifikanztests

Das Standardverfahren des Null-Hypothesen Signifikanztests kombiniert Verfahren und Begriffe, die ab der 1920er und 30er Jahre innerhalb der frequentistischen Statistik von Ronald A. Fisher sowie Jerzy Neyman und Egon Pearson entwickelt wurden. Auf Fisher geht etwa die Popularisierung des \(p\)-Wertes zurück (Fisher 1925).

Kurioser Weise wurde das Konzept einer alternativen Hypothese \(H_{1}\) sowie die Unterscheidung von \(\alpha\)- und \(\beta\)-Fehlern von Neyman und Pearson (1933) in Abgrenzung zu Fishers Methodologie entwickelt. Bei diesem Verfahren wird zudem darauf verzichtet, auf der Grundlage eines einzelnen Experiments auf die Gültigkeit bzw. Plausibilität einer Hypothese zu schließen. Stattdessen ist das „Signifikanzniveau“ \(\alpha\) gar keine Eigenschaft der Daten, sondern des Versuchsdesigns. Anstatt (wie Fisher) auf ein „induktives Schließen“ im Einzelfall zielen Neyman und Pearson auf eine „Handlung“, die auf lange Sicht (d. h. im frequentistischen Sinne) vorher festgelegte geringe Fehlerraten \(\alpha\) und \(\beta\) aufweist (Gigerenzer et al. 1989, Kap. 3.4).

Man erkennt deutlich den Unterschied zwischen dem \(p\)-Wert (gewonnen aus einer einzelnen Stichprobe von Werten einer Zufallsvariablen und für die Evidenz gegen eine einschlägige Nullhypothese verwandt) und dem \(\alpha\)-Niveau (einem im Untersuchungsdesign festgelegten Fehler-Niveau, das seine frequentistische Bedeutung erst bei häufiger Wiederholung des Testverfahrens erhält). Die im vorangegangenen Abschnitt zitierte Bemerkung aus Bortz und Döring (2006, S. 494) enthält nun eine typische Gleichsetzung bzw. Verwechslung beider Größen. Hier wird (wie in zahlreichen Lehrbüchern, vgl. die Analyse von Hubbard und Bayarri (2003)) der \(p\)-Wert gleichzeitig als Evidenz aus der Einzelmessung und als (quasi experimentelle) Fehlerrate \(\alpha\) aufgefasst.

Zahlreiche Autor*innen haben darauf hingewiesen, dass diese inkohärente Kombination von Ideen rivalisierender Statistik-Schulen zu den Missverständnissen beigetragen hat, welche die Interpretation des \(p\)-Wertes begleiten (Gigerenzer et al. 1989; Goodman 1993; Lehmann 1993). Gigerenzer et al. (2004) bezeichnen das routinemäßige Testen der Null-Hypothese als „Null Ritual“ und formulieren sarkastisch:

[…] (T)he null ritual originated neither from Fisher nor from any other renowned statistician and does not exist in statistics proper. It was instead fabricated in the minds of statistical textbook writers in psychology and education.

Wenden wir uns nun also der Frage zu, welche Bedeutung der \(p\)-Wert hat und welche weiteren Interpretationen unzulässig sind.

2.3 Was bedeutet der \(p\)-Wert (nicht)?

Über die tatsächliche Bedeutung des \(p\)-Wertes lässt sich wenig sagen, das über seine technische Definition hinausgeht. Es handelt sich schlicht um die Wahrscheinlichkeit dafür, die beobachteten Daten oder noch extremere Ausfälle (\(D\)) zu messen, gegeben die Null-Hypothese (\(H_{0}\)). Symbolisch ausgedrückt:Footnote 6

$$\begin{aligned}p=P(D|H_{0}).\end{aligned}$$
(2)

Diese Kenngröße quantifiziert die Verträglichkeit der Daten mit der Null-Hypothese. Jede Interpretation des \(p\)-Wertes muss dabei berücksichtigen, dass die Gültigkeit von \(H_{0}\) bei seiner Berechnung vorausgesetzt wurde, sowie, dass es sich um eine „Datenwahrscheinlichkeit“ (und keine „Hypothesenwahrscheinlichkeit“) handelt.

Betont werden sollte jedoch, dass der \(p\)-Wert diese Bedeutung nur besitzt, falls alle Voraussetzungen für seine Berechnung erfüllt sind. Dazu zählen an erster Stelle die Bedingungen für die Anwendung des zugrunde gelegten statistischen Modells, die Randomisierung der Stichprobe, die score Reliabilität, die Validität der Konstrukte etc. (Kline 2013, S. 13f). In der Praxis werden diese Voraussetzungen nie streng erfüllt sein, woraus bereits eine gewisse Variabilität des \(p\)-Wertes folgt.Footnote 7

Wenden wir uns nun der Frage zu, welche irrigen Annahmen sich mit der Bedeutung des \(p\)-Werts verbinden. In der Literatur finden sich zahlreiche Listen mit verbreiteten Missverständnissen. Goodman (2008) identifiziert ein „dreckiges Dutzend“ solcher Fehlschlüsse, und Kline (2013, S. 95) spielt auf die Großwildjagd an, wenn er seine Liste „the big five“ nennt. Unsere Aufzählung trifft hier eine Auswahl, die wir scherzhaft die „fantastischen Vier“ nennen wollen:

  1. 1.

    Der inverse-Wahrscheinlichkeits-Fehlschluss:\(p<0,05\) bedeutet, dass \({H_{0}}\) weniger als 5% Wahrscheinlichkeit besitzt, wahr zu sein.“ Da \(p\) jedoch unter der Annahme berechnet wurde, dass \(H_{0}\) wahr ist, kann es nicht gleichzeitig die Wahrscheinlichkeit dafür sein, dass \(H_{0}\) wahr ist. Der Fehler dieser Interpretation lässt sich auch wie folgt erläutern: Diese Deutung identifiziert den \(p\)-Wert mit der Wahrscheinlichkeit \(P(H_{0}|D)\). Im Vergleich zu Gl. 2 haben hier die Daten \(D\) und \(H_{0}\) die Plätze getauscht (hier auch „invertieren“ genannt). Aus zwei Gründen ist dies inkorrekt. Zum einen lehrt der Satz von Bayes, dass \(P(A|B)\neq P(B|A)\) gilt. Zum anderen können innerhalb der frequentistischen Statistik keine Wahrscheinlichkeitsaussagen über das Zutreffen von Hypothesen getroffen werden.

  2. 2.

    Der Zufall-Wahrscheinlichkeits-Fehlschluss:\(p<0,05\) bedeutet, dass die Wahrscheinlichkeit des Messergebnisses, bloßer Zufall zu sein, weniger als 5% beträgt.“ Die nachvollziehbare Intuition hinter diesem Fehlschluss lautet, dass unter der verbreiteten Null-Hypothese („kein Effekt“) jeder Unterschied lediglich dem Stichprobenfehler (vulgo: dem „Zufall“) geschuldet ist. Bei der \(p\)-Wert Berechnung wird \(H_{0}\) (d. h. eine zufällige Verursachung) jedoch vorausgesetzt. Wollte man tatsächlich quantifizieren, wie verträglich der Ausgang mit der Annahme einer zufälligen Verursachung ist, müsste man deshalb erneut die Hypothesenwahrscheinlichkeit \(P(H_{0}|D)\) berechnen. Es handelt sich hier also um eine Variante des Fehlschlusses zur inversen Wahrscheinlichkeit (Carver 1978).Footnote 8

  3. 3.

    Der \(\alpha\)-Fehler-Fehlschluss:\(p<0,05\) bedeutet, dass die Wahrscheinlichkeit, \(H_{0}\) in einer Studie irrtümlich zu verwerfen (also einen \(\alpha\)-Fehler zu begehen), kleiner als 5% ist.“Zu diesem Missverständnis wird man aufgrund der formalen Ähnlichkeit zwischen \(p\)-Wert und \(\alpha\)-Niveau eingeladen. In Abschn. 2.2 haben wir bereits auf den Unterschied dieser beiden Größen hingewiesen. An dieser Stelle kann jedoch auch wie folgt argumentiert werden: Eine solcher Wahrscheinlichkeitsaussage über einen „Fehler 1. Art“ wäre eine Aussage darüber, ob \(H_{0}\) wahr ist, denn nur dann begeht man ja einen solchen Irrtum. Es handelt sich also erneut um eine Variante des Fehlschlusses zur inversen Wahrscheinlichkeit.

  4. 4.

    Der Replikations-Fehlschluss:\(p<0,05\) bedeutet, dass die Wahrscheinlichkeit, ein solches Ergebnis nicht replizieren zu können, bei unter 5% liegt.“ Hier wird also die Wahrscheinlichkeit der erfolglosen Replikation mit \(p\) identifiziert. Dies stellt eine Wahrscheinlichkeitsaussage für das Auftreten von bestimmten Daten dar – ohne jedoch an die Bedingung „\(H_{0}\) ist gültig“ geknüpft zu sein. Diese Interpretation kann also ebenfalls nicht zutreffen, obwohl tatsächlich unter bestimmten Modellannahmen ein indirekter Zusammenhang zwischen \(p\)-Wert, anderen Kenngrößen und der Replikationswahrscheinlichkeit formuliert werden kann (Greenwald et al. 1996).

Interessanterweise führen also all diese Fehlschlüsse zu einer Überschätzung der Aussagekraft des \(p\)-Werts. Wie verbreitet sind diese Missverständnisse, und welche Folgen haben sie? Wenden wir uns zunächst der ersten Frage zu. Eine Reihe von empirischen (sic) Untersuchungen habe diese Frage untersucht und sind zu einheitlichen Ergebnissen gelangt. So haben z. B. Haller und Krauss (2001) an sechs deutschen Universitäten eine Umfrage unter Studierenden und Lehrenden in der Psychologie durchgeführt. Sie haben gefunden, dass fast alle der befragten fortgeschrittenen Studierenden einer falschen \(p\)-Wert Interpretation anhängen, während bei den befragten Lehrpersonen immer noch 80-90% eine unzutreffende Interpretation vertraten (siehe dazu auch Gigerenzer et al. (2004)). Es kann kaum bezweifelt werden, dass solche Untersuchungen in der Bildungsforschung zu ähnlichen Ergebnissen führen würden.

So findet man in einem aktuellen Lehrbuch zu Forschungsmethoden der Naturwissenschaftsdidaktik zum Begriff „Signifikanz“ folgenden Eintrag im Glossar:

Ein Ergebnis ist statistisch signifikant (bedeutsam), wenn die Wahrscheinlichkeit, dass es zufällig zustande gekommen ist, klein ist. Das Signifikanzniveau muss definiert werden. Häufig gelten Aussagen, bei denen mit einem Signifikanztest eine Irrtumswahrscheinlichkeit unter 5% gefunden wird, als signifikant. Krüger, Parchmann und Schecker (2014, S. 403)

Die irreführende Gleichsetzung von „statistisch signifikant“ mit „bedeutsam“ wird hier explizit vorgenommen (vgl. Abschn. 2.4). Die Formulierung von der Wahrscheinlichkeit eines „zufälligen Zustandekommens“ legt nahe, dass hier der „ Zufall-Wahrscheinlichkeits-Fehlschluss“ vorliegt (Punkt 2 in der Liste von Abschn. 2.3). Die Sprechweise von der „Irrtumswahrscheinlichkeit“ verleitet ebenfalls zu dem „\(\alpha\)-Fehler-Fehlschluss“ (Punkt 3 in der Liste).

Lehrbücher zur Statistik und Datenauswertung gehen auf die Problematik der \(p\)-Werte meist nur recht oberflächlich oder gar nicht ein. Das bereits zitierte Werk von Bortz und Döring (2006) streift diese Debatte und erwähnt die Forderung von Kline (2013) (Bortz und Döring beziehen sich auf die 1. Auflage von 2004), den Begriff „statistisch signifikant“ nicht mehr zu verwenden. Ihre Replik ist entwaffnend:

Auch wenn wir diese harsche Kritik im Wesentlichen nachvollziehen können, wird der Begriff der statistischen Signifikanz in diesem Buch nicht gestrichen, zumal so manche Human- oder Sozialwissenschaftler froh sind, diesen Begriff überhaupt erst einmal richtig verstanden zu haben.

Ihre Position sei stattdessen, den traditionellen Signifikanztest durch Betrachtungen von Teststärke, Effektgröße und Konfidenzintervalle zu ergänzen (ibid. S. 601).

Dabei ist auch für diese Kenngrößen die Interpretation problematisch (siehe Abschn. 3.1.2 für eine Diskussion von Vertrauensintervallen). Zahlreiche empirische Studien in der Bildungsforschung berechnen z. B. Cohens \(d\) als Maß für die Effektstärke und folgen der Konvention, nach der die Werte von \(0,2\), \(0,5\) und \(0,8\) zwischen kleinen, mittleren und großen Effekten unterscheiden. Dabei weisen auch die vielzitierten Bortz und Döring (2006, S. 626) darauf hin, dass es sich dabei lediglich um eine grobe Orientierungshilfe handelt, die dem jeweiligen Forschungsfeld angepasst werden muss. In Bakker et al. (2019) haben Mathematikdidaktiker*innen eine Liste von zwölf Hinweisen formuliert, die bei der Einschätzung von Effektstärkemaßen beachtet werden sollten. Der einfache Schluss vom numerischen Wert von z. B. \(d_{\mathrm{Cohen}}\) auf die inhaltliche „Stärke“ des Effekts ist nicht zu rechtfertigen.Footnote 9

2.4 Konsequenzen aus der Fehlinterpretation des \(p\)-Wertes

Unterliegen Autor*innen von quantitativen empirischen Studien einem oder mehreren der oben diskutierten Missverständnisse, setzt dies natürlich nicht automatisch den Wert ihrer Arbeit herab. Allerdings haben unter anderem Loftus (1996), Sedlmeier (1996) und Gigerenzer et al. (2004) die Frage aufgeworfen, in welchem Sinne die Fokussierung auf das Testen (und Verwerfen) von Null-Hypothesen zu einer unerwünschten Engführung von Forschungsprogrammen führen kann. Diesen Gefahren wollen wir uns nun zuwenden.

2.4.1 Die Verwechslung von „statistisch signifikant“ und „bedeutsam“

Ein Ergebnis mit \(p<0,05\) „statistisch signifikant“ zu nennen, folgt einer bloßen Konvention. Die Attraktivität der Formulierung rührt wohl auch daher, dass im alltäglichen Sprachgebrauch „signifikant“ mit „wesentlich“, „bedeutsam“ oder „wichtig“ konnotiert. Diese Identifikation ist jedoch ungerechtfertigt, denn die Relevanz eines Resultats hängt ganz wesentlich auch von anderen Faktoren ab. Einige davon lassen sich vielleicht sogar quantifizieren (etwa durch die Effektstärke). Andere können gar nicht durch statistische Kenngrößen ausgedrückt werden. Mit anderen Worten: „statistisch signifikant“ und „wissenschaftlich signifikant“ sind zwei unterschiedliche Kategorien.

Die Tatsache, dass nicht-signifikante Ergebnisse eine geringere Veröffentlichungswahrscheinlichkeit haben (Rosenthal 1979), schafft zudem unerwünschte Forschungsanreize. Auf diese Weise wird provoziert, Freiheiten in der Auswahl von Analyseverfahren so zu nutzen, dass ein signifikanter \(p\)-Wert erreicht wird. Die Grenze zum wissenschaftlichen Fehlverhalten ist hier fließend (Head et al. 2015). Werden solche Ergebnisse schließlich in Metaanalysen kombiniert, führt dies zu einer systematischen Überschätzung der Effektstärke (Simonsohn et al. 2014). Dabei werden gerade Metaanalysen als probates Mittel angesehen, die Ergebnisse kleinerer Studien zu einem aussagekräftigeren Resultat zu bündeln.

2.4.2 Stagnation in der Theorieentwicklung und Vernachlässigung von Kontext

Gigerenzer (1998) hat darauf hingewiesen, dass ritualisiertes Testen (und Ablehnen) von Null-Hypothesen einer Vernachlässigung der Theorieentwicklung Vorschub leisten kann. Dominiert das skizzierte Standardverfahren, reichen bereits relativ unspezifische Hypothesen für die Gewinnung von (lediglich) „statistisch signifikanten“ und damit insinuiert bedeutsamen Resultaten.

Goodman (1999, S. 1001) sieht ebenfalls eine Entwicklung zur Verarmung des Diskurses. Er berichtet von der Tendenz, dass Veröffentlichungen mit großen randomisierten und kontrollierten Studien in der Medizin den Forschungsstand kaum diskutieren. Er vermutet eine Ursache in dem Missverständnis, auf der Grundlage einzelner Studien bereits Aussagen mit geringer Fehlerwahrscheinlichkeit gewinnen zu können.

2.4.3 Das geringe Ansehen von Replikationsstudien

Unterliegt man dem „ Replikations-Fehlschluss“, erscheint die Wiederholung einer Studie wenig sinnvoll oder notwendig. Dies könnte eine zusätzliche Erklärung für deren geringe Anzahl sein Kline (2013, S. 269).

Makel und Plucker (2014) haben ca. 160.000 Veröffentlichungen von 100 führenden Zeitschriften in den Erziehungswissenschaften seit 1990 analysiert. Lediglich 0,13% dieser Arbeiten haben eine Replikationsstudie zum Gegenstand.

Interessant ist hier natürlich die Frage, ob sich ebenfalls eine „Replikationskrise“ zeigt (siehe Abschn. 1). Die zitierte Arbeit von Makel und Plucker (2014) findet in den Erziehungswissenschaften, dass 67% der Untersuchungen den ursprünglichen Befund replizieren können. Dies ist eine viel höhere Rate als im medizinischen Forschungsfeld und in Teilen der Psychologie (Open Science Coll. 2015). Makel und Plucker (2014) bemerken jedoch, dass häufig die selben Autor*innen an einer Replikation beteiligt sind, die bereits die ursprüngliche Studie veröffentlicht haben. Betrachtet man lediglich Replikationen von anderen Autor*innen, sinkt die Quote der erfolgreichen Replikationen auf 54% – weit entfernt von einer (naiv angenommen) Replikationswahrscheinlichkeit von 95%.

3 Konsequenzen für die wissenschaftliche Praxis

Die Hoffnung, dass Mechanismen der wissenschaftlichen Selbstkorrektur die oben geschilderten Probleme (zumindest mittel- oder langfristig) lösen, scheint trügerisch (Pashler und Harris 2012; Ioannidis 2012). In der Psychologie werden stattdessen Reformen der wissenschaftlichen Praxis auf vielen Ebenen diskutiert (Pashler und Wagenmakers 2012). Die Open Science Collaboration stellt eine solche Initiative dar. Sie koordiniert Replikationsstudien und setzt sich für die Veröffentlichung der Rohdaten und Analyseprotokollen empirischer Untersuchungen ein (Carpenter 2012). Auf diese Weise werden empirische Befunde nachvollziehbarer und die Gefahr des wissenschaftlichen Fehlverhaltens geringer. Das Dokument „A Manifesto for reproducible science“ enthält ebenfalls zahlreiche Reformvorschläge. Einige Stichworte sind hier: Ausbildung, Anreizsysteme und peer review (Munafò et al. 2017).

Vor dem Hintergrund unserer Ausführungen erscheint es geboten, die Praxis der Datenauswertung und die Kommunikation der Resultate zu reformieren. Genau in diese Richtung zielt die Empfehlung der American Statistical Association, den Begriff „statistisch signifikant“ nicht mehr zu verwenden (Wasserstein et al. 2019). Sie erläutern:

For example, no \(p\)-value can reveal the plausibility, presence, truth, or importance of an association or effect. Therefore, a label of statistical significance does not mean or imply that an association or effect is highly probable, real, true, or important. Nor does a label of statistical nonsignificance lead to the association or effect being improbable, absent, false, or unimportant. Yet the dichotomization into „significant“ and „not significant“ is taken as an imprimatur of authority on these characteristics.

Offensichtlich geht es den Autor*innen dabei nicht um eine bloße Redeweise. Vielmehr weisen Wasserstein et al. (2019) darauf hin, dass die daraus abgeleitete Unterscheidung in „relevante“ und „irrelevante“ Ergebnisse zu einer fehlerhaften Veröffentlichungspraxis führt. Die Darstellung des Forschungsstandes, etwa in Übersichtsartikeln, wird auf diese Weise stark verzerrt. Mit drastischen Worten resümieren sie:

For the integrity of scientific publishing and research dissemination, therefore, whether a \(p\)-value passes any arbitrary threshold should not be considered at all when deciding which results to present or highlight.

Bei all dem stellt sich jedoch die Frage, welche konkreten Alternativen sich zur Bewertung von Hypothesen bieten. Die Arbeit von Wasserstein et al. (2019) ist das Editorial zu einem Sonderheft der Zeitschrift The American Statistician, das sich genau dieser Frage widmet. Es enthält 43 Beiträge, deren Gemeinsamkeit unter anderem darin liegt, auf das Fehlen einer „Patentlösung“ für dieses Problem hinzuweisen. Kein mechanisch anwendbares Schlussverfahren kann die inhaltliche – und damit immer auch subjektive – Auseinandersetzung mit dem Forschungsgegenstand ersetzen.

Unstrittig ist jedoch die Notwendigkeit einer ausreichenden Teststärke \(1-\beta\), da Effekte sonst systematisch überschätzt werden (Colquhoun 2014). Zahlreiche Arbeiten des Sonderhefts propagieren zudem die Bayessche Statistik als alternativen Theorierahmen, der in zahlreichen Forschungsbereichen bereits gut etabliert ist.

Diesen Ansatz wollen wir im Folgenden etwas genauer erläutern. Auch hier gilt natürlich, dass er nicht als neues „Standardverfahren“ aufgefasst werden sollte. Unsere Darstellung der Bayesschen Statistik hat die zusätzliche Funktion, die konzeptionellen Besonderheiten bzw. Schwierigkeiten der frequentistischen Statistik noch einmal von einer anderen Seite zu beleuchten.

3.1 Anmerkungen zur Bayesschen Alternative

Wir haben gesehen, dass fast sämtliche Fehlinterpretationen des \(p\)-Wertes ihre Wurzel darin haben, irrtümlich einer Hypothese eine Wahrscheinlichkeit zuschreiben zu wollen – und diese Wahrscheinlichkeit gar mit \(1-p\) (für die Alternative) zu quantifizieren. Selbstverständlich soll Forschung zu Urteilen über die Plausibilität bzw. fast sichere Gültigkeit von Aussagen führen. Aber dazu ist das schematische Hypothesentesten innerhalb des frequentistischen Paradigmas für sich allein genommen zu schwach.

Aus Arbeiten von Harold Jeffreys, Richard Cox und Edwin Jaynes (sowie auf der Grundlage anderer konzeptioneller Vorarbeiten) hat sich seit den 1950er Jahren ein alternativer Theorierahmen entwickelt, die sog. „Bayessche Statistik“. In ihr quantifiziert die Wahrscheinlichkeit den „Grad einer Plausibilität“. Der Slogan in der englischen Fachliteratur lautet „probability is degree of belief“ bzw. „ degree of plausibility“ (Jaynes 2003, S. 17). In diesem Sinne vereinbart also der „Bayesianer“:Footnote 10

\(P(A)=\) Grad der Überzeugung, dass das Ereignis \(A\) eintritt

Dieser subjektivistische Wahrscheinlichkeitsbegriff ist (im Gegensatz zum frequentistischen Begriff) nicht an einen wiederholbaren Vorgang geknüpft und kann auch auf Hypothesen angewendet werden. Er bleibt jedoch völlig akademisch, solange man keine Berechnungsvorschrift für diese Wahrscheinlichkeit kennt. Tatsächlich kann in Abwesenheit von Kontextwissen bzw. von Beobachtungen, über deren Ausgang die Hypothese eine Aussage trifft, ihr „Plausibilitätsgrad“ lediglich geraten werden. In Anwesenheit von Daten oder sonstigem Hintergrundwissen kann die Berechnung dieser Wahrscheinlichkeit jedoch als Problem der bedingten Wahrscheinlichkeit aufgefasst werden. Zu ihrer Bestimmung verwendet man also den Satz von Bayes:

$$\begin{aligned}P(A|B)=\frac{P(B|A)\cdot P(A)}{P(B)}=\frac{P(B|A)\cdot P(A)}{\sum_{i}P(B|A_{i})P(A_{i})}.\end{aligned}$$
(3)

Die zweite Formulierung nutzt aus, dass für eine disjunkte Zerlegung \(A_{i}\) des Ergebnisraums \(\Omega\) die Beziehung \(P(B)=\sum_{i}P(B|A_{i})P(A_{i})\) gilt. Für unseren Fall gilt dann („\(H\)“ bezeichnet hier die Hypothese, über die mit Hilfe der „Daten“ eine Aussage getroffen werden soll):

$$\begin{aligned}\underbrace{P(H|\text{Daten})}_{\text{A-posteriori-Wkt.}}\propto\underbrace{P(\text{Daten}|H)}_{\textit{Likelihood}}\cdot\underbrace{P(H)}_{\text{A-priori-Wkt.}}\end{aligned}$$
(4)

Die linke Seite der Gleichung wird A‑posteriori Wahrscheinlichkeit genannt und setzt sich aus der Likelihood der konventionellen Statistik \(P(\text{Daten}|H)\)Footnote 11 und der A‑priori-Wahrscheinlichkeit (in der englischsprachigen Literatur als prior bezeichnet) \(P(H)\) zusammen. Letztere repräsentiert die Kenntnis vor der Messung. In diesem Konzept wird also formalisiert, wie neue Informationen den Kenntnisstand modifizieren.Footnote 12

Das Theorem von Bayes und die subjektivistische Interpretation von Wahrscheinlichkeit sind also unmittelbar miteinander verknüpft, da, im Gegensatz zur frequentistischen Deutung, hier keine „Berechnungsvorschrift“ für Wahrscheinlichkeiten unmittelbar aus der Interpretation folgt. Dies erklärt den Namen „Bayessche Statistik“, obwohl bedingte Wahrscheinlichkeiten und der Satz von Bayes natürlich ebenfalls etablierte Inhalte der konventionellen (d. h. frequentistischen) Statistik darstellen.Footnote 13

Offensichtlich kann unsere Darstellung der Bayesschen Statistik nur sehr skizzenhaft sein, und wir verweisen etwa auf Tschirk (2019) für eine systematische Behandlung. Eine glänzende Einführung bieten auch die kommentierte Leseliste von Etz et al. (2018) sowie Gelman et al. (2014). Ein Softwarepaket, das auch Bayessche Verfahren unterstützt, wurde an der Universität Amsterdam entwickelt: https://jasp-stats.org/.

3.1.1 Der Hypothesentest in der Bayesschen Statistik

Unter der Annahme, dass der \(p\)-Wert einer Irrtumswahrscheinlichkeit entspricht (in Abschn. 2.3 als „\(\alpha\)-Fehler-Fehlschluss bezeichnet“), wird man zu der Vorstellung verleitet, dass bei einem „statistisch signifikanten“ Ergebnis mindestens eine \(19:1\) Wahrscheinlichkeit für die Richtigkeit der alternativen Hypothese im Vergleich zur Null-Hypothese besteht. Warum dies unzutreffend ist, haben wir bereits ausführlich begründet. Innerhalb der Bayesschen Statistik kann eine solche Quote \(P(H_{1}|D):P(H_{0}|D)\) jedoch direkt angegeben werden:

$$\begin{aligned}\underbrace{\frac{P(H_{1}|D)}{P(H_{0}|D)}}_{\text{A-posteriori Quote}}=\underbrace{\frac{P(D|H_{1})}{P(D|H_{0})}}_{\text{Bayes-Faktor}}\cdot\underbrace{\frac{P(H_{1})}{P(H_{0})}}_{\text{A-priori Quote}}.\end{aligned}$$
(5)

Ein solches Verhältnis zu betrachten kann unter Umständen auch inhaltlich sinnvoller sein. Schließlich mögen im Einzelfall die Daten weder durch \(H_{0}\) noch durch \(H_{1}\) beschreibbar sein.

Das in Gl. 5 auftretende Verhältnis der Likelihoods der Daten unter der Bedingung von \(H_{1}\) bzw. \(H_{0}\) wird auch als Bayes-Faktor (BF\({}_{10}\), sprich „BF Eins Null“, da die mit „1“ indizierten Größen im Zähler auftreten) bezeichnet.

Von der knappen Notation lasse man sich aber nicht täuschen: Die Berechnung des Zählers von BF\({}_{10}\) (\(P(D|H_{1})\)) ist i. allg. aufwendig und mehrdeutig, wenn die Alternativhypothese die unspezifische Form \(\mu_{1}-\mu_{2}\neq 0\) hat (Kass und Raftery 1995). In diesem Fall muss schließlich eine Verteilung der Modellparameter angenommen werden.Footnote 14 Dies entspricht der Wahl einer A‑priori-Wahrscheinlichkeitsverteilung für \(H_{1}\). Dennoch konnten Bayarri et al. (2016) zeigen, in welchem Sinne diese Größe auch eine rein frequentistische Interpretation besitzt. Auf diese Weise ist die Verwendung des Bayes-Faktors auch im Rahmen der frequentistischen Statistik akzeptabel und liefert ein alternatives „Evidenzmaß“ für die Entscheidung, seine Vorannahmen über die Hypothesen im Licht der Daten zu revidieren.Footnote 15 Bei einem Wert \(<1\) drückt der Bayes-Faktor \(\text{BF}_{10}\) Evidenz zugunsten der Null-Hypothese aus.

Die Berechnung des Bayes-Faktors bleibt allerdings aus den angedeuteten Gründen aufwendig (Kass und Raftery 1995), und dies stellt vermutlich ein ganz praktisches Hemmnis für seine weitere Verbreitung dar. Es gibt jedoch die Möglichkeit, aus dem \(p\)-Wert der konventionellen Statistik obere Schranken für den Bayes-Faktor abzuleiten (Held und Ott 2018).

Thomas J. Faulkenberry hat ein besonders einfaches Näherungsverfahren für ANOVA und \(t\)-Test Anwendungen entwickelt, das auf dem Bayesian Information Criterion (Raftery 1995) basiert. Als Anwendung diskutiert Faulkenberry (2018) eine Studie, bei der die Wirkung von Koffein auf die Merkfähigkeit untersucht wurde. Versuchs- und (Placebo behandelte) Kontrollgruppe bestanden aus zusammen \(n=73\) Probanden. Der \(t\)-Test ergab hier \(t(71)=2,0\), was (zweiseitig) einem Wert von \(p=0,049\) entspricht. Auf dieser Grundlage kann also eine „signifikante“ Wirkung von Koffein behauptet werden. Die Näherungsformel für den Bayes-Faktor ergibt jedoch (Faulkenberry 2018, S. 38):

$$\begin{aligned}\text{BF}_{10}\approx\sqrt{\frac{\left(1+\frac{t^{2}}{n-2}\right)^{n}}{n}}\approx 0,87\end{aligned}$$
(6)

Ein Bayes-Faktor BF\({}_{10}<1\) liefert jedoch keinen Hinweis gegen, sondern ganz im Gegenteil für die Null-Hypothese. Dieses Resultat kann intuitiv verstanden werden, obwohl es in der Literatur als „Lindley Paradoxie“ bezeichnet wird (Lindley 1957). Falls die \(p\)-Wert-Verteilung unter der alternativen Hypothese bei kleinen \(p\)-Werten (\(p\ll 0,05\)) konzentriert ist, ist die Wahrscheinlichkeit für \(p\approx 0,05\) bei Zutreffen der Null-Hypothese größer als bei Zutreffen von \(H_{1}\). Der Bayes-Faktor analysiert genau dieses Verhältnis, während der \(p\)-Wert des konventionellen Tests nur von der Null-Hypothese abhängt. Dieses Beispiel illustriert somit ein weiteres Problem bei der Interpretation des \(p\)-Werts.

In der Regel führt die Bayes-Faktor Analyse jedoch lediglich zu einer konservativeren Einschätzung der jeweiligen „Evidenz“ für die Ablehnung der Null-Hypothese. Aus dieser Tatsache könnte also gefolgert werden, dass eine Absenkung der Signifikanzschwelle bereits einen wertvollen Beitrag zu einer verbesserten statistischen Praxis liefere. In der Tat ist dieser Vorschlag in der Vergangenheit immer wieder diskutiert worden. Zuletzt haben Benjamin et al. (2018) die Forderung der Herabsetzung der Signifikanz-Schwelle auf \(p<0,005\) erhoben. Diese Forderung bedeutet im Übrigen nicht, dass die Ergebnisse identischer Studiendesigns nur strenger bewertet werden. Die Herabsetzung der Signifikanzschwelle bei unveränderter Stichprobengröße führt nämlich zu einer drastischen Reduzierung der Teststärke. Soll diese konstant gehalten werden, muss der Stichprobenumfang beträchtlich vergrößert werden – im konkreten Bsp. um ca. 70%. In Trafimow et al. (2018) findet sich Kritik an diesem Vorschlag.

Man beachte zudem, dass für die Angabe des Verhältnisses der A‑posteriori-Wahrscheinlichkeiten von \(H_{1}\) und \(H_{0}\) (also innerhalb der Bayesschen Statistik) der Bayes-Faktor mit dem Verhältnis der A‑priori-Wahrscheinlichkeiten multipliziert werden muss. Mit anderen Worten: Der gesamte Kontext, vorherige Studienergebnisse und theoretische Argumente müssen immer in die Bewertung der Daten einfließen.

3.1.2 Bayessche und frequentistische Vertrauensintervalle

In der Literatur findet sich häufig der Hinweis, dass die Angabe von Vertrauens- bzw. Konfidenzintervallen einen wichtigen Beitrag zur Verbesserung der statistischen Praxis darstelle. Aber auch die Interpretation von derartigen Intervallen ist in der frequentistischen Statistik nicht frei von Missverständnissen.

Weit verbreitet ist etwa die Vorstellung, das Konfidenzniveau gebe die Wahrscheinlichkeit dafür an, dass sich der Wert des untersuchten Parameters innerhalb des beobachteten Konfidenzintervalls befindet (Hoekstra et al. 2014). In der frequentistischen Statistik lässt sich jedoch eine solche Wahrscheinlichkeitsaussage gar nicht formulieren, da der Parameter (eine unbekannte Größe mit festem Wert) keine Zufallsvariable ist. Deshalb sagt ein Vertrauensintervall auf z. B. dem \(95\%\)-Niveau auch nicht, dass \(95\%\) der zukünftigen Messungen des Parameters in das beobachtete Intervall fallen (Morey et al. 2016). Was das Konfidenzniveau stattdessen angibt, ist die Rate, mit der bei zukünftigen Messungen die dann berechneten Vertrauensintervalle den unbekannten Wert des Parameters enthalten. Die Wurzeln dieses Missverständnisses sind also dieselben, die bereits die \(p\)-Wert Interpretation beim Null-Hypothesen Signifikanztest erschwert haben.

Es gibt jedoch eine naheliegende Bayessche Version der Intervallschätzer, die als credential intervals bezeichnet werden (ebenfalls gebräuchliche Bezeichnungen sind credibility interval oder credible interval). Im Rahmen der A‑posteriori-Verteilung kann man Intervalle bilden, auf die eine gewisse Wahrscheinlichkeit entfällt (etwa in der Form eines highest density interval). Die oben erwähnten Interpretationen, die bei frequentistischen Vertrauensintervallen nicht zutreffen, sind bei Bayesschen credential intervals also gerade zulässig. Eine genauere Darstellung findet man bei Tschirk (2019, Kap. 7.2) und Jaynes (1976).

Wir schlagen zwar vor, die Bayessche Alternative stärker zu berücksichtigen, wollen aber nicht verhehlen, dass Fehlinterpretationen auch in diesem Rahmen auftreten (Hoijtink et al. 2016; Herrera-Bennett et al. 2020). Ebenfalls sei angemerkt, dass einige Vertreter der Bayesschen Schule durch ihre Verbissenheit der Sache nicht unbedingt gedient haben (siehe hierzu etwa Jaynes (1976)).

4 Zusammenfassung

Das Paradigma der „Evidenzbasierung“ in den Bildungswissenschaften verlangt empirische Wirksamkeitsnachweise für Programme und Interventionen. Studien im Kontrollgruppendesign (experimentell oder quasi-experimentell) stellen vor allem im Bereich der Unterrichts- und Lehr-Lern-Forschung die Methode der Wahl dar (Nagengast und Rose 2018, S. 675f). Der in diesen Designs gewonnene \(p\)-Wert eines Null-Hypothesen Signifikanztests ist jedoch ein wenig geeignetes und dazu mit fehlerhaften Interpretationen behaftetes Maß für diese „Evidenz“.

Problematische Eigenschaften des Null-Hypothesen Signifikanztests sind seit langem bekannt, haben jedoch durch die sog. „Replikationskrise“ eine erneute Aufmerksamkeit erfahren. Diese Krise hat in der gängigen Praxis der Datenanalyse sicherlich eine Ursache, aber diese Praxis muss in einem größeren Zusammenhang gesehen werden. Zahlreiche Reformvorschläge zielen deshalb auf die institutionelle Verfasstheit des gesamten Wissenschaftssystems (Munafò et al. 2017).

Einige Maßnahmen sind jedoch unmittelbar umsetzbar. Wir schließen uns gerne der Empfehlung an, den Begriff „statistisch signifikant“ nicht mehr zu verwenden (Wasserstein et al. 2019), da er zu einer unangemessenen Dichotomiserung der Forschungsergebnisse führt. Aus den Befunden leitet sich ebenfalls die Forderung ab, zumindest zentrale Resultate zum Gegenstand von Replikationsstudien zu machen. Wir glauben ebenfalls, dass der Bayessche Theorierahmen eine sinnvolle Ergänzung des Methodenrepertoires der quantitativen empirischen Bildungsforschung darstellt.

In erster Linie verstehen wir diese Arbeit jedoch als Beitrag zu einer hoffentlich breiten Diskussion zur weiteren Steigerung der Qualität in der Bildungsforschung.