Advertisement

Notfall + Rettungsmedizin

, Volume 21, Issue 3, pp 232–234 | Cite as

Der Schluss von der Stichprobe auf die Grundgesamtheit

Folge 6
Statistik
  • 221 Downloads

Generalizing the conclusion from a sample to the population

Part 6

In dieser Serie sind bisher erschienen:

  • Die Bedeutung der Statistik für die klinische Forschung. Folge 1 (2014) Notfall Rettungsmed 17:682–683

  • Randomisierte Therapiestudien. Folge 2 (2015) Notfall Rettungsmed 18:618–620

  • Datenaufbereitung, Häufigkeiten und statistische Kenngrößen. Folge 3 (2016) Notfall Rettungsmed 19:598–600

  • Graphische Darstellungen. Folge 4 (2017) Notfall Rettungsmed 20:355–358

  • Einfache Tests, die jeder kennen sollte. Folge 5 (2017). Notfall Rettungsmed 2017 20:688–690

Grenzen der deskriptiven Statistik

In den Artikeln 3 und 4 dieser Serie wurde dargelegt, wie sich charakteristische Eigenschaften einer Datenreihe mit Methoden der deskriptiven Statistik quantifizieren oder graphisch veranschaulichen lassen. Wenn – wie in der randomisierten Studie von Schmittner et al. [1] – zwei Gruppen verglichen werden (spinaler Sattelblock [SSB] vs. totale intravenöse Anästhesie [TIVA]), bietet es sich an, statistische Kenngrößen (etwa Mittelwerte oder Häufigkeiten) für beide Subgruppen separat zu berechnen und in graphischen Darstellungen (etwa Box-and-Whisker-Plots) die Unterschiede visualisierbar zu machen.

Diese ersten Betrachtungen liefern wichtige Hinweise zu folgenden Fragen: Sind die beiden Gruppen strukturgleich? Oder anders formuliert: Hat die Randomisierung funktioniert? Dies ist eine grundlegende Voraussetzung zur Beantwortung der Fragestellung, die der Studie zugrunde liegt: Unterscheiden sich die Gruppen bezüglich ihrer Zielgrößen? Welche Schlussfolgerungen sind daraus zu ziehen? Allerdings können mit Methoden der deskriptiven Statistik die oben aufgeworfenen Fragen nicht zufriedenstellend beantwortet werden. Letztlich stehen ja nur die Daten zweier Stichproben zur Verfügung. Die Ergebnisse betreffen im strengen Sinne nur die Patienten, die an der Studie teilgenommen haben, und sagen per se nichts darüber aus, ob und inwieweit sie verallgemeinerbar sind.

In Tab. 1 sind einige Merkmale separat für beide Gruppen dargestellt. Bezüglich der Merkmale Geschlecht, Alter und BMI (Body Mass Index) sind keine gravierenden Gruppenunterschiede erkennbar. Betrachten wir nun die Hauptzielgröße, nämlich den Bedarf an Schmerzmitteln. Die Gegenüberstellung des Bedarfs der beiden Gruppen (31 % und 58 %) gibt zur Vermutung Anlass, dass der Schmerzmittelbedarf in der SSB-Gruppe geringer ist als bei der TIVA-Therapie. Beide Stichproben haben mit \(n=101\) bzw. \(n=100\) eine ansehnliche Größe. Das stärkt das Vertrauen in die Güte der Schätzungen und verleitet uns zur Annahme, dass bei der SSB-Therapie tatsächlich weniger Schmerzmittel benötigt werden. Allerdings ist einschränkend hinzuzufügen: Diese Schätzungen beinhalten eine gewisse Unsicherheit. Nicht in allen Fällen wird es einfach sein, zu entscheiden, ob ein Gruppenunterschied nur zufällig bedingt ist oder ob er darüber hinaus eine tiefere Bedeutung hat. Bei einer Wiederholung der Studie unter annähernd gleichen Bedingungen würden sich höchstwahrscheinlich andere Häufigkeiten und ein Unterschied in einer andren Größenordnung ergeben.
Tab. 1

Vergleich von 2 Therapiegruppen aus der Studie von Schmittner et al. (Nach Schmittner et al. [1])

Merkmal

Kenngrößen

SSB

n = 101

TIVA

n = 100

Differenz

SSB − TIVA

Geschlecht

Häufigkeit Männer

62 (61,4 %)

72 (72,0 %)

−10,6 %

[−23,6 %; +2,3 %]

Alter in Jahren

Mittelwert ± Standardabweichung

47,9 ± 13,4

47,8 ± 13,7

0,12

[−3,98; +4,19]

BMI in kg/m2

Mittelwert ± Standardabweichung

27,1 ± 4,5

26,5 ± 5,2

0,51

[−0,90; +1,91]

Bedarf an Schmerzmitteln

Häufigkeit

31 (30,7 %)

58 (58,0 %)

27,3 %

[14,1 %; 40,5 %]

Zeit im Aufwachraum

Median,

Spannweite

5 (1–45)

44 (4–148)

39

VAS bei Verlassen des Aufwachraums

Median,

Spannweite

0 (0–9)

3 (0–9)

3

Bei den Differenzen sind 95 %-Konfidenzintervalle angegeben

BMI Body Mass Index, SSB spinaler Sattelblock, TIVA totale intravenöse Anästhesie, VAS visuelle Analogskala

Nun drängt sich die Frage auf: Inwieweit lassen sich diese Ergebnisse verallgemeinern? Welche Voraussetzungen sind dabei zu beachten und mit welchen Einschränkungen ist dies möglich? Antwort auf derlei Fragen findet man mit den Methoden der induktiven Statistik.

Bedeutung von Konfidenzintervallen

Ein Konfidenzintervall ist für die Beurteilung der Güte einer Schätzung sehr nützlich. Es wird nach einem bestimmten mathematischen Algorithmus konstruiert. Dieser gewährleistet, dass mit einer bestimmten, vorab festgelegten Wahrscheinlichkeit (meist 95 %) ein Konfidenzintervall entsteht, das den unbekannten (den „wahren Wert“) überdeckt. Das bedeutet aber auch: Mit einer Irrtumswahrscheinlichkeit von maximal \(\upalpha =5\,\%\) werden die Stichprobendaten zu einem Konfidenzintervall führen, das „daneben liegt“ und den unbekannten Parameter nicht beinhaltet.

Aufgrund der Stichprobendaten wurde ein Schmerzmittelbedarf von 30,7 % in der SSB-Gruppe ermittelt. Das dazugehörende 95 %-Konfidenzintervall lautet: [21,9 %; 40,7 %]. Bei der TIVA-Gruppe liegt der Schmerzmittelbedarf bei 58,0 % mit einem Konfidenzintervall von [47,7 %; 67,8 %]. Diese Intervalle erlauben eine realistischere Einschätzung als einzelne Punktschätzer. Sie zeigen deutlich, dass die Stichprobenschätzungen unpräzise sind (die „wahren Werte“ können bis zu 10 % höher oder niedriger sein als die jeweiligen Punktschätzungen). Andererseits berechtigen sie zur Annahme, dass der Schmerzmittelbedarf in der SSB-Gruppe tatsächlich geringer ist als in der TIVA-Gruppe (aufgrund der Tatsache, dass sich die Konfidenzintervalle nicht überlappen). Ein Blick auf die Intervallgrenzen legt den Schluss nahe, dass weniger als die Hälfte der SSB-Patienten Schmerzmittel benötigt, während in der TIVA-Gruppe damit zu rechnen ist, dass die Hälfte bis zwei Drittel aller Patienten Schmerzmittel beansprucht. Diese Überlegungen zeigen, dass ein Konfidenzintervall wesentlich mehr Informationen beinhaltet als ein einfacher Punktschätzer.

Interpretation eines Konfidenzintervalls

Noch einige Bemerkungen zur Interpretation von Konfidenzintervallen:
  • Je schmaler ein Konfidenzintervall ist, desto präziser ist die Schätzung.

  • Je höher der Stichprobenumfang, desto schmaler wird das Intervall. Ein hoher Stichprobenumfang wird also „belohnt“.

  • Bei quantitativen Daten (aus denen ein Mittelwert berechnet wird) spielt die Standardabweichung eine wichtige Rolle: Je weniger die Daten streuen, desto schmaler wird das Intervall.

  • Die Breite hängt außerdem von der Irrtumswahrscheinlichkeit ab. Üblich sind Konfidenzintervalle mit einem 95 %-Konfidenzniveau. Bei besonderen Fragestellungen oder speziellen Studiendesigns werden 99 %- oder 90 %-Intervalle angegeben (die Irrtumswahrscheinlichkeiten betragen dementsprechend \(\upalpha =1\,\%\) bzw. \(\upalpha =10\,\%\)). Je höher die Irrtumswahrscheinlichkeit, desto schmaler ist das Intervall. Oder anders formuliert: Eine hohe Sicherheit geht mit einer geringeren Präzision einher. Das sei an einem einfachen Beispiel erläutert: Die Aussage „Morgen wird es um 12 Uhr regnen“ ist sehr präzise, aber relativ unsicher. Dagegen ist der Satz „Morgen wird es irgendwann zwischen 8 und 20 Uhr einmal regnen“ sehr vage und unpräzise, andererseits wesentlich sicherer.

In Tab. 2 sind Beispielrechnungen für unterschiedliche Irrtumswahrscheinlichkeiten und für drei Fallzahlen aufgeführt. Jedem dieser Intervalle liegt eine Schätzung des Schmerzmittelbedarfs von exakt 58,0 % zugrunde.
Tab. 2

Konfidenzintervalle für unterschiedliche Fallzahlen und Irrtumswahrscheinlichkeiten (bezogen auf Schmerzmittelbedarf in der TIVA-Gruppe 58,0 %)

 

Konfidenzniveau

(%)

Irrtumswahrscheinlichkeit

(%)

Konfidenzintervall

(%)

Breite

n = 50

90

α = 10

[45,4; 69,9]

0,245

95

α = 10

[43,2; 71,8]

0,286

99

α = 1

[39,0, 75,5]

0,365

n = 100

90

α = 10

[49,3; 66,4]

0,171

95

α = 5

[47,7; 67,8]

0,201

99

α = 1

[44,7; 70,6]

0,259

n = 400

90

α = 10

[53,8; 62,1]

0,083

95

α = 5

[53,0; 62,9]

0,099

99

α = 1

[51,5; 64,4]

0,129

Abschließende Bemerkungen

Leistungsfähige Statistikprogramme ermöglichen die Berechnung eines Konfidenzintervalls für diverse Kenngrößen (Mittelwerte, Wahrscheinlichkeiten, Korrelationskoeffizienten, Odds Ratios u. a.). Die zugrunde liegenden mathematischen Algorithmen sind in der Regel recht komplex. Der Anwender eines Statistikprogramms muss diese jedoch nicht im Detail verstehen. Er muss lediglich in der Lage sein, ein Konfidenzintervall sinnvoll zu interpretieren.

Bei der Anwendung einer Statistiksoftware ist zu beachten, dass häufig approximative Intervallgrenzen berechnet werden. Vor allem bei kleinen Fallzahlen ist es jedoch sinnvoller, „exakte“ Intervalle zu ermitteln. Diese sind meist breiter als die „approximativen“ Intervalle und beanspruchen mehr Rechenzeit – dafür sind sie verlässlicher. Außerdem sei erwähnt, dass nicht für alle Kenngrößen die Berechnung eines Konfidenzintervalls auf einfache Art möglich ist. So wird beispielsweise beim Median (der ja auf Rangzahlen basiert) in der Regel kein Konfidenzintervall präsentiert!

In Tab. 1 sind die Differenzen „SSB − TIVA“ und – falls möglich – die dazugehörenden 95 %-Konfidenzintervalle angegeben. Die Konfidenzintervalle der ersten drei Merkmale (Geschlecht, Alter und BMI) beinhalten die 0. Das zeigt, dass kein Unterschied zwischen den beiden Gruppen nachweisbar ist. Dazu passen auch die p-Werte der Tests (p = 0,1105, p = 0,9580 bzw. p = 0,4791 für die Merkmale Geschlecht, Alter und BMI), die alle über 0,05 liegen und demzufolge keinen signifikanten Unterschied erkennen lassen (s. Artikel 4).

Dagegen ist bei der Differenz des Schmerzmittelbedarfs die 0 nicht im Intervall enthalten; beide Intervallgrenzen sind positiv. Dies zeigt deutlich, dass der Schmerzmittelbedarf in der SBA-Gruppe höher ist als in der TIVA-Gruppe. Dazu passt auch das Ergebnis des χ2-Tests aus Artikel 4. Der p-Wert (p < 0,0001) zeigt deutlich, dass ein signifikanter Unterschied nachweisbar ist – vorbehaltlich einer minimalen Irrtumswahrscheinlichkeit. Die Größenordnung des Unterschieds kann jedoch nicht exakt angegeben werden – aufgrund des Konfidenzintervalls erscheinen alle Werte zwischen 14 % und 40 % realistisch zu sein.

Zusammenfassend lässt sich konstatieren: Konfidenzintervalle ermöglichen einem Forscher oder dem Leser einer Publikation weit besser als ein einzelner Punktschätzer eine Beurteilung, ob und inwieweit die Größenordnung einer Differenz klinisch relevant oder akademisch brisant ist und welche Konsequenzen daraus zu ziehen sind.

Statistische Tests und Konfidenzintervalle gehören zusammen: Während ein Konfidenzintervall die Güte einer Schätzung beschreibt, ermöglicht das Ergebnis eines statistischen Tests (der p-Wert) eine Aussage darüber, ob und vorbehaltlich welcher Irrtumswahrscheinlichkeit ein Unterschied oder ein Zusammenhang angenommen werden kann. Der p-Wert entscheidet darüber, ob ein Testergebnis als signifikant bezeichnet wird oder nicht. Das sollte keinesfalls dazu verleiten, die Qualität einer Studie und die Relevanz des nachgewiesen Effekts allein basierend auf dem p-Wert zu beurteilen. Die Größe des Effekts und das dazugehörende Konfidenzintervall sind dabei mindestens genauso wichtig!

Notes

Einhaltung ethischer Richtlinien

Interessenkonflikt

C. Weiß gibt an, dass kein Interessenkonflikt besteht.

Das Studienvorhaben wurde von einer Ethikkommission begutachtet.

Literatur

  1. 1.
    Schmittner MD, Schreiber H, Janke A, Weiss C, Blunk J, Bussen DG, Luecke T (2010) Randomized clinical trial of perianal surgery performed under spinal saddle block versus total intravenous anaesthesia. Br J Surg 97:12–20CrossRefPubMedGoogle Scholar

Copyright information

© Springer Medizin Verlag GmbH, ein Teil von Springer Nature 2018

Authors and Affiliations

  1. 1.Abteilung für Medizinische StatistikBiomathematik und InformationsverarbeitungMannheimDeutschland

Personalised recommendations