Rechtsmedizin

, Volume 26, Issue 1, pp 12–21 | Cite as

Studien und statistische Ergebnisse in der Forensik

Schwachpunkte in Planung, Auswertung, Interpretation und Reporting
  • F. Ramsthaler
  • C. G. Birngruber
  • M. Kettner
  • M. A. Verhoff
  • I. Burkholder
Übersichten
  • 289 Downloads

Zusammenfassung

Hintergrund

Die Anforderungen an statistische Methoden in forensischen Studien unterscheiden sich mitunter von denen in klinischen Studien sowohl hinsichtlich häufig verwendeter Verfahren als auch festgelegter Grenzen zu verbleibenden Unsicherheiten in der Aussagekraft der Ergebnisse.

Ziel der Arbeit

Dieser Beitrag beschreibt auftretende Probleme und wiederkehrende Schwachpunkte in häufig verwendeten Studien-Settings mit forensischen Fragestellungen und bietet – an Beispielen illustriert – Lösungsvorschläge an.

Material und Methoden

Verschiedene Ansätze sowohl zu korrekter Planung und statistischer Auswertung von forensischen Studien also auch zu Interpretation und Reporting von Ergebnissen in forensischen Studien werden präsentiert.

Ergebnisse und Schlussfolgerungen

Verwendet man Statistik als wissenschaftliches Beurteilungsinstrument, ist vorab die Frage zu klären, ob die geplante Studie einen rein deskriptiven, evtl. zusätzlich explorativen oder primär konfirmatorischen Charakter besitzen soll. Von dieser Entscheidung hängt das Anforderungsprofil statistischer Methoden ab. Bei konfirmatorischen Studien können konkrete Hypothesen vor der Studiendurchführung formuliert werden; diese dienen als Grundlage der Fallzahlplanung. Ziel deskriptiver oder explorativer Studien ist, anhand der Studienergebnisse Hypothesen für weiterführende Studien zu gewinnen. Bei der Analyse von forensischen Studien ergibt sich häufig die Problematik der Multiplizität, wenn an gleichem Untersuchungsmaterial verschiedene Hypothesen überprüft und mehrere inhaltlich zusammenhängende statistische Testverfahren parallel durchgeführt werden. Hierbei sollten statistische Verfahren der multiplen Testtheorie angewandt werden, um z. B. Fehlerraten bezüglich des mehrfachen Testens zu adjustieren und fehlerhafte Schlussfolgerungen zu vermeiden. Oft werden in forensischen Publikationen Studienergebnisse ausschließlich mithilfe des p-Werts berichtet. Hilfreich zur Bewertung der statistischen Plausibilität eines Effekts ist die zusätzliche Angabe von Konfidenzintervallen.

Schlüsselwörter

Statistische Verfahren Fallzahlkalkulation Studienmerkmale Power Effektstärke 

Statistical results in forensic studies

Pitfalls in planning, evaluation, interpretation and reporting

Abstract

Background

Statistical methods used in forensic studies can differ from those used in clinical studies in terms of procedures commonly employed as well as predefined limits to the remaining uncertainties concerning the validity of the results.

Objectives

This article describes the problems arising and recurrent weaknesses found in commonly used forensic study settings and provides suggestions for solutions which are illustrated by practical examples.

Material and methods

Various approaches to the correct planning and statistical evaluation of forensic studies as well as to interpretation and reporting of results are presented.

Results and conclusion

If statistics are to be used as a scientific instrument for assessment, the character of the intended study, e.g. plain descriptive, additionally explorative or primarily confirmatory, has to be clarified in advance in order to decide on the optimal choice of statistical methods employed. Whereas confirmatory studies necessitate a hypothesis as a basis of sample size estimation, studies based on descriptive and explorative statistics are intended to yield data that may be used at the hypothesis formulation stage of further studies. Studies in a forensic context frequently suffer from the problem of multiplicity as a result of testing too many coherent hypotheses in a given sample and can be avoided by using statistical procedures based on the multiple test theory, e.g. to adjust errors due to multiple testing and thus avoid false conclusions. A common phenomenon in published forensic studies is the exclusive use of p-values, whereas the plausibility of a statistical effect would be illustrated better by additionally providing confidence intervals.

Keywords

Statistics Study characteristics Sample size calculation Power Effect size 

Notes

Einhaltung ethischer Richtlinien

Interessenkonflikt

F. Ramsthaler, C.G. Birngruber, M. Kettner, M.A. Verhoff und I. Burkholder geben an, dass kein Interessenkonflikt besteht.

Dieser Beitrag beinhaltet keine Studien an Menschen oder Tieren.

Literatur

  1. 1.
    Altman DG (1980) Statistics and ethics in medical research, misuse of statistics is unethical. BMJ 281:1182–1184CrossRefPubMedCentralPubMedGoogle Scholar
  2. 2.
    Altman DG (1991) Practical Statistics for medical research. Chapman and Hall, LondonGoogle Scholar
  3. 3.
    Bättig D (2015) Angewandte Datenanalyse. Der Bayes’sche Weg. Springer, HeidelbergGoogle Scholar
  4. 4.
    Blakesley RE, Mazumdar S, Dew MA, Houck PR, Tang G, Reynolds CF, Butters MA (2009) Comparisons of methods for multiple hypothesis testing in Neuropsychological Research. Neuropsychology 23:255–264Google Scholar
  5. 5.
    Bland JM, Altman DG (1995) Multiple significance tests. BMJ 310:170CrossRefPubMedCentralPubMedGoogle Scholar
  6. 6.
    Cohen J (1988) Statistical power analysis for the behavioral sciences. Lawrence Erlbaum Associates, HilldaleGoogle Scholar
  7. 7.
    Cohen J (1994) The Earth is round (p < 0,05). Am Psychol 49:997–1003CrossRefGoogle Scholar
  8. 8.
    Cohen J (1992) A power primer. Psychol Bull 112:155–159CrossRefPubMedGoogle Scholar
  9. 9.
    Edler L, Burkholder I (2013) Prinzipien der Viszeralchirurgie. In: Siewert JR, Rothmund M, Schumpelick V (Hrsg) Praxis der Viszeralchirurgie, Springer, HeidelbergGoogle Scholar
  10. 10.
    Eng J (2003) Sample size estimation: how many individuals should be studied? Radiology 227:309–913CrossRefPubMedGoogle Scholar
  11. 11.
    Friede T, Kieser M (2006) Sample size recalculation in internal pilot study designs: a review. Biom J 48:537–555CrossRefPubMedGoogle Scholar
  12. 12.
    Genz A, Bretz F (1999) Numerical computation of multivariate t–probabilities with application to power calculation of multiple contrasts. J Stat Comput Simul 63 361–378CrossRefGoogle Scholar
  13. 13.
    Hochberg Y, Benjamini Y (1990) More powerful procedures for multiple significance testing. Stat Med 9:811–818CrossRefPubMedGoogle Scholar
  14. 14.
    Hoenig JM, Heisey DM (2001) The abuse of power. The pervasive fallacy of power calculations for data analysis. Am Stat 55:19–24CrossRefGoogle Scholar
  15. 15.
    Hommel G (1989) A comparison of two modified Bonferroni procedures. Biometrika 76:624–625CrossRefGoogle Scholar
  16. 16.
    Hommel G, Bernhard G (1999) Bonferroni procedures for logically related hypotheses. J Stat Plan Inference 82:119–128CrossRefGoogle Scholar
  17. 17.
    Kragh T, Holley S, Krichhoff S, Fischer F, Grupe G, Graw M (2011) Forensisch-anthropometrischer Methodenvergleich. Reliabilität eines bildgebenden Verfahrens. Rechtsmedizin 21:445–451CrossRefGoogle Scholar
  18. 18.
    Lange S, Bender R (2007) Was ist ein Signifikanztest? Dtsch Med Wochenschr 132:e19–21CrossRefPubMedGoogle Scholar
  19. 19.
    Pigeot I (2000) Basic concepts of multiple tests – a survey. Stat Pap 41 3–36CrossRefGoogle Scholar
  20. 20.
    Pocock SJ (1997) Clinical trials with multiple outcomes: a statistical perspective on their design, analysis, and interpretation. Control Clin Trials 18:530–545CrossRefPubMedGoogle Scholar
  21. 21.
    du Prel J-B, Hommel G, Röhrig B, Blettner M (2009) Konfidenzintervall oder pWert? Teil 4 der Serie zur Bewertung wissenschaftlicher Publikationen. Dtsch Arztebl 106:335–339Google Scholar
  22. 22.
    Ramsthaler F, Verhoff MA (2014) Statistische Bewertung neuer Methoden in der forensischen Anthropologie. Rechtsmedizin 24:172–178CrossRefGoogle Scholar
  23. 23.
    Ramsthaler F, Burkholder, Verhoff MA, Kettner M (2013) Fallzahlberechnungen in forensisch anthropologischen Studien. Rechtsmedizin 23:100–107Google Scholar
  24. 24.
    Röhrig B, du Prel JB, Bletter M (2009) Studiendesigns in der medizinischen Forschung. Dtsch Ärztebl 106:184–189Google Scholar
  25. 25.
    Röhrig B, du Prel JB, Wachtlin D, Kwiecien R, Bletter M (2010) Fallzahlplanung in klinischen Studien. Dtsch Ärztebl 107:552–556Google Scholar
  26. 26.
    Simes RJ (1986) An improved Bonferroni procedure for multiple tests of significance. Biometrika 73:751–754CrossRefGoogle Scholar
  27. 27.
    Wright SP (1992) Adjusted P-values for simultaneous inference. Biometrics 48:1005–1013CrossRefGoogle Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2016

Authors and Affiliations

  • F. Ramsthaler
    • 1
  • C. G. Birngruber
    • 2
  • M. Kettner
    • 3
  • M. A. Verhoff
    • 3
  • I. Burkholder
    • 4
  1. 1.Institut für RechtsmedizinUniversität des SaarlandesHomburgDeutschland
  2. 2.Institut für RechtsmedizinUniversität GießenGießenDeutschland
  3. 3.Institut für RechtsmedizinUniversität Frankfurt a. M.Frankfurt a. M.Deutschland
  4. 4.Department für Pflege und GesundheitHochschule für Technik und Wirtschaft des SaarlandesSaarbrückenDeutschland

Personalised recommendations