Studien und statistische Ergebnisse in der Forensik
- 289 Downloads
Zusammenfassung
Hintergrund
Die Anforderungen an statistische Methoden in forensischen Studien unterscheiden sich mitunter von denen in klinischen Studien sowohl hinsichtlich häufig verwendeter Verfahren als auch festgelegter Grenzen zu verbleibenden Unsicherheiten in der Aussagekraft der Ergebnisse.
Ziel der Arbeit
Dieser Beitrag beschreibt auftretende Probleme und wiederkehrende Schwachpunkte in häufig verwendeten Studien-Settings mit forensischen Fragestellungen und bietet – an Beispielen illustriert – Lösungsvorschläge an.
Material und Methoden
Verschiedene Ansätze sowohl zu korrekter Planung und statistischer Auswertung von forensischen Studien also auch zu Interpretation und Reporting von Ergebnissen in forensischen Studien werden präsentiert.
Ergebnisse und Schlussfolgerungen
Verwendet man Statistik als wissenschaftliches Beurteilungsinstrument, ist vorab die Frage zu klären, ob die geplante Studie einen rein deskriptiven, evtl. zusätzlich explorativen oder primär konfirmatorischen Charakter besitzen soll. Von dieser Entscheidung hängt das Anforderungsprofil statistischer Methoden ab. Bei konfirmatorischen Studien können konkrete Hypothesen vor der Studiendurchführung formuliert werden; diese dienen als Grundlage der Fallzahlplanung. Ziel deskriptiver oder explorativer Studien ist, anhand der Studienergebnisse Hypothesen für weiterführende Studien zu gewinnen. Bei der Analyse von forensischen Studien ergibt sich häufig die Problematik der Multiplizität, wenn an gleichem Untersuchungsmaterial verschiedene Hypothesen überprüft und mehrere inhaltlich zusammenhängende statistische Testverfahren parallel durchgeführt werden. Hierbei sollten statistische Verfahren der multiplen Testtheorie angewandt werden, um z. B. Fehlerraten bezüglich des mehrfachen Testens zu adjustieren und fehlerhafte Schlussfolgerungen zu vermeiden. Oft werden in forensischen Publikationen Studienergebnisse ausschließlich mithilfe des p-Werts berichtet. Hilfreich zur Bewertung der statistischen Plausibilität eines Effekts ist die zusätzliche Angabe von Konfidenzintervallen.
Schlüsselwörter
Statistische Verfahren Fallzahlkalkulation Studienmerkmale Power EffektstärkeStatistical results in forensic studies
Abstract
Background
Statistical methods used in forensic studies can differ from those used in clinical studies in terms of procedures commonly employed as well as predefined limits to the remaining uncertainties concerning the validity of the results.
Objectives
This article describes the problems arising and recurrent weaknesses found in commonly used forensic study settings and provides suggestions for solutions which are illustrated by practical examples.
Material and methods
Various approaches to the correct planning and statistical evaluation of forensic studies as well as to interpretation and reporting of results are presented.
Results and conclusion
If statistics are to be used as a scientific instrument for assessment, the character of the intended study, e.g. plain descriptive, additionally explorative or primarily confirmatory, has to be clarified in advance in order to decide on the optimal choice of statistical methods employed. Whereas confirmatory studies necessitate a hypothesis as a basis of sample size estimation, studies based on descriptive and explorative statistics are intended to yield data that may be used at the hypothesis formulation stage of further studies. Studies in a forensic context frequently suffer from the problem of multiplicity as a result of testing too many coherent hypotheses in a given sample and can be avoided by using statistical procedures based on the multiple test theory, e.g. to adjust errors due to multiple testing and thus avoid false conclusions. A common phenomenon in published forensic studies is the exclusive use of p-values, whereas the plausibility of a statistical effect would be illustrated better by additionally providing confidence intervals.
Keywords
Statistics Study characteristics Sample size calculation Power Effect sizeNotes
Einhaltung ethischer Richtlinien
Interessenkonflikt
F. Ramsthaler, C.G. Birngruber, M. Kettner, M.A. Verhoff und I. Burkholder geben an, dass kein Interessenkonflikt besteht.
Dieser Beitrag beinhaltet keine Studien an Menschen oder Tieren.
Literatur
- 1.Altman DG (1980) Statistics and ethics in medical research, misuse of statistics is unethical. BMJ 281:1182–1184CrossRefPubMedCentralPubMedGoogle Scholar
- 2.Altman DG (1991) Practical Statistics for medical research. Chapman and Hall, LondonGoogle Scholar
- 3.Bättig D (2015) Angewandte Datenanalyse. Der Bayes’sche Weg. Springer, HeidelbergGoogle Scholar
- 4.Blakesley RE, Mazumdar S, Dew MA, Houck PR, Tang G, Reynolds CF, Butters MA (2009) Comparisons of methods for multiple hypothesis testing in Neuropsychological Research. Neuropsychology 23:255–264Google Scholar
- 5.Bland JM, Altman DG (1995) Multiple significance tests. BMJ 310:170CrossRefPubMedCentralPubMedGoogle Scholar
- 6.Cohen J (1988) Statistical power analysis for the behavioral sciences. Lawrence Erlbaum Associates, HilldaleGoogle Scholar
- 7.Cohen J (1994) The Earth is round (p < 0,05). Am Psychol 49:997–1003CrossRefGoogle Scholar
- 8.Cohen J (1992) A power primer. Psychol Bull 112:155–159CrossRefPubMedGoogle Scholar
- 9.Edler L, Burkholder I (2013) Prinzipien der Viszeralchirurgie. In: Siewert JR, Rothmund M, Schumpelick V (Hrsg) Praxis der Viszeralchirurgie, Springer, HeidelbergGoogle Scholar
- 10.Eng J (2003) Sample size estimation: how many individuals should be studied? Radiology 227:309–913CrossRefPubMedGoogle Scholar
- 11.Friede T, Kieser M (2006) Sample size recalculation in internal pilot study designs: a review. Biom J 48:537–555CrossRefPubMedGoogle Scholar
- 12.Genz A, Bretz F (1999) Numerical computation of multivariate t–probabilities with application to power calculation of multiple contrasts. J Stat Comput Simul 63 361–378CrossRefGoogle Scholar
- 13.Hochberg Y, Benjamini Y (1990) More powerful procedures for multiple significance testing. Stat Med 9:811–818CrossRefPubMedGoogle Scholar
- 14.Hoenig JM, Heisey DM (2001) The abuse of power. The pervasive fallacy of power calculations for data analysis. Am Stat 55:19–24CrossRefGoogle Scholar
- 15.Hommel G (1989) A comparison of two modified Bonferroni procedures. Biometrika 76:624–625CrossRefGoogle Scholar
- 16.Hommel G, Bernhard G (1999) Bonferroni procedures for logically related hypotheses. J Stat Plan Inference 82:119–128CrossRefGoogle Scholar
- 17.Kragh T, Holley S, Krichhoff S, Fischer F, Grupe G, Graw M (2011) Forensisch-anthropometrischer Methodenvergleich. Reliabilität eines bildgebenden Verfahrens. Rechtsmedizin 21:445–451CrossRefGoogle Scholar
- 18.Lange S, Bender R (2007) Was ist ein Signifikanztest? Dtsch Med Wochenschr 132:e19–21CrossRefPubMedGoogle Scholar
- 19.Pigeot I (2000) Basic concepts of multiple tests – a survey. Stat Pap 41 3–36CrossRefGoogle Scholar
- 20.Pocock SJ (1997) Clinical trials with multiple outcomes: a statistical perspective on their design, analysis, and interpretation. Control Clin Trials 18:530–545CrossRefPubMedGoogle Scholar
- 21.du Prel J-B, Hommel G, Röhrig B, Blettner M (2009) Konfidenzintervall oder pWert? Teil 4 der Serie zur Bewertung wissenschaftlicher Publikationen. Dtsch Arztebl 106:335–339Google Scholar
- 22.Ramsthaler F, Verhoff MA (2014) Statistische Bewertung neuer Methoden in der forensischen Anthropologie. Rechtsmedizin 24:172–178CrossRefGoogle Scholar
- 23.Ramsthaler F, Burkholder, Verhoff MA, Kettner M (2013) Fallzahlberechnungen in forensisch anthropologischen Studien. Rechtsmedizin 23:100–107Google Scholar
- 24.Röhrig B, du Prel JB, Bletter M (2009) Studiendesigns in der medizinischen Forschung. Dtsch Ärztebl 106:184–189Google Scholar
- 25.Röhrig B, du Prel JB, Wachtlin D, Kwiecien R, Bletter M (2010) Fallzahlplanung in klinischen Studien. Dtsch Ärztebl 107:552–556Google Scholar
- 26.Simes RJ (1986) An improved Bonferroni procedure for multiple tests of significance. Biometrika 73:751–754CrossRefGoogle Scholar
- 27.Wright SP (1992) Adjusted P-values for simultaneous inference. Biometrics 48:1005–1013CrossRefGoogle Scholar