Merkmalsextraktion aus klinischen Routinedaten mittels Text-Mining

Extraction of features from clinical routine data using text mining

Zusammenfassung

Hintergrund

Anti-VEGF-Medikamente prägen heute die Therapie von Makulaerkrankungen. In diesem Zusammenhang wird eine Fülle zusätzlicher Daten erhoben. Damit ließen sich Behandlungsverläufe besser verstehen und vorhersagen. Allerdings sind diese Informationen meist nur in freitextlicher Form verfügbar.

Ziel der Arbeit

Wie weit auswertbare Information aus Kliniktexten automatisch gewonnen werden kann, sollte in einer retrospektiven Studie analysiert werden. Ziel war die Einschätzung der Eignung eines zu diesem Zweck parametrierten Text-Mining-Verfahrens.

Material und Methoden

Es standen Daten zu 3683 Patienten zur Verfügung, davon 40.485 Arztbriefe. Für einen Teil waren die interessierenden Daten (Visus, Tensio und Begleitdiagnosen) auch strukturiert erfasst worden und konnten so als Goldstandard für die Textanalyse dienen. Diese wurde mit dem System Averbis Health Discovery durchgeführt. Zur Optimierung auf die Extraktionsaufgabe wurde dieses mit Regelwissen sowie mit einem deutschsprachigen Fachvokabular für die internationale Medizinterminologie SNOMED CT angereichert.

Ergebnisse

Die Übereinstimmung der Datenextrakte mit den strukturierten Datenbankeinträgen wird durch den F1-Wert beschrieben. Hierbei ergab sich eine Übereinstimmung von 94,7 % für den Visus, 98,3 % für die Tensio und 94,7 % für begleitende Diagnosen. Die manuelle Analyse nicht übereinstimmender Fälle zeigte zur Hälfte, dass Textinhalte aus verschiedenen Gründen von Datenbankinhalten abwichen. Nach einer daraus berechneten Adjustierung lagen die F1-Werte noch 1–3 % über den zuvor ermittelten Werten.

Diskussion

Für den betrachteten Arztbriefkorpus und die beschriebene Fragestellung sind Text-Mining-Verfahren sehr gut geeignet, um Inhalte zur weiteren Auswertung strukturiert aus Kliniktexten zu extrahieren.

Abstract

Background

Anti-VEGF drugs are currently used to treat macular diseases. This has led to a wealth of additional data, which could help understand and predict treatment courses; however, this information is usually only available in free text form.

Objective

A retrospective study was designed to analyze how far interpretable information can be obtained from clinical texts by automated extraction. The aim was to assess the suitability of a text mining method that was customized for this purpose.

Material and methods

Data on 3683 patients were available, including 40,485 discharge letters. Some of the data of interest, e.g. visual acuity (VA), intraocular pressure (IOP) and accompanying diagnoses, were not only recorded textually but also entered in a database and could thus serve as a gold standard for text analysis. The text was analyzed using the Averbis Health Discovery text mining platform. To optimize the extraction task, rule knowledge and a German language technical vocabulary linked to the international medical terminology standard systematized nomenclature of medicine (SNOMED CT) was manually added.

Results

The correspondence between extracted data and the structured database entries is described by the F1 value. There was agreement of 94.7% for VA, 98.3% for IOP and 94.7% for the accompanying diagnoses. Manual analysis of noncorresponding cases showed that in 50% text content did not match the database content for various reasons. After an adjustment, F1 values 1–3% above the previously determined values were obtained.

Conclusion

Text mining procedures are very well suited for the considered discharge letter corpus and the problem described in order to extract contents from clinical texts in a structured manner for further evaluation.

This is a preview of subscription content, access via your institution.

Abb. 1
Abb. 2
Abb. 3
Abb. 4
Abb. 5

Notes

  1. 1.

    http://topos.averbis.de/.

  2. 2.

    Die Terminologie steht auf den Seiten der Averbis GmbH (Freiburg, Deutschland) kostenfrei zum Download zur Verfügung: https://topos.averbis.de/.

  3. 3.

    https://health-discovery.io.

  4. 4.

    Auf Wunsch kann ein Zugang zu einer webbasierten Averbis Health Discovery-Instanz eingerichtet werden, worin dann die TOPOS-Extraktionspipeline getestet werden kann.

  5. 5.

    Über die Averbis-Homepage kostenlos verfügbar.

Literatur

  1. 1.

    Griffon N, Charlet J, Darmoni SJ (2014) Managing free text for secondary use of health data. Yearb Med Inform 9:167–169

    CAS  Article  Google Scholar 

  2. 2.

    Schlegel DR, Ficheur G (2017) Secondary use of patient data: review of the literature published in 2016. Yearb Med Inform 26(1):68–71

    CAS  Article  Google Scholar 

  3. 3.

    Safran C, Bloomrosen M, Hammond WE, Labkoff S, Markel-Fox S, Tang PC et al (2007) Toward a national framework for the secondary use of health data: an American Medical Informatics Association White Paper. J Am Med Inform Assoc 14(1):1–9

    Article  Google Scholar 

  4. 4.

    Wang Y, Wang L, Rastegar-Mojarad M, Moon S, Shen F, Afzal N et al (2018) Clinical information extraction applications: a literature review. J Biomed Inform 77:34–49

    Article  Google Scholar 

  5. 5.

    Böhringer D, Lang SJ, Daniel MC, Lapp T, Reinhard T (2019) Automatisierte Zuordnung von ICD- und Alpha-ID-Codes zu „Real-World“-Arztbriefdiagnosen durch die „word2vec“-Methode. Klin Monbl Augenheilkd 236(12):1413–1417

    Article  Google Scholar 

  6. 6.

    Névéol A, Dalianis H, Velupillai S, Savova G, Zweigenbaum P (2018) Clinical natural language processing in languages other than English: opportunities and challenges. J Biomed Semantics 9(1):12

    Article  Google Scholar 

  7. 7.

    Bodenreider O, Cornet R, Vreeman DJ (2018) Recent developments in clinical terminologies – SNOMED CT, LOINC, and Rxnorm. Yearb Med Inform 27(1):129–139

    Article  Google Scholar 

  8. 8.

    Pokora RM, Le Cornet L, Daumke P, Mildenberger P, Zeeb H, Blettner M (2020) Validation of Semantic Analyses of Unstructured Medical Data for Research Purposes. Gesundheitswesen 82(S02):S158–S164

  9. 9.

    Kluegl P, Toepfer M, Beck PD, Fette G, Puppe F (2016) UIMA Ruta: rapid development of rule-based information extraction applications. Nat Lang Eng 22(1):1–40

    Article  Google Scholar 

  10. 10.

    Beurteilung eines binären Klassifikators. Wikipedia. https://de.wikipedia.org/wiki/Beurteilung_eines_binären_Klassifikators. Letzter Zugriff 30. Jan. 2020

  11. 11.

    Wenzel M, Dick HB, Scharrer A, Schayan K, Reinhard T (2018) Umfrage von BDOC, BVA, DGII und DOG zur ambulanten und stationären Intraokularchirurgie: Ergebnisse für das Jahr 2017. Ophthalmo-Chirurgie 30:255–266

    Google Scholar 

  12. 12.

    Li JQ, Welchowski T, Schmid M, Mauschitz MM, Holz FG, Finger RP (2019) Prevalence and incidence of age-related macular degeneration in Europe: a systematic review and meta-analysis. Br J Ophthalmol. https://doi.org/10.1136/bjophthalmol-2019-314422

    Article  PubMed  PubMed Central  Google Scholar 

  13. 13.

    O’Mara-Eves A, Thomas J, McNaught J, Miwa M, Ananiadou S (2015) Using text mining for study identification in systematic reviews: a systematic review of current approaches. Syst Rev 4:5

    Article  Google Scholar 

  14. 14.

    Willett DL, Kannan V, Chu L, Buchanan JR, Velasco FT, Clark JD et al (2018) SNOMED CT concept hierarchies for sharing definitions of clinical conditions using electronic health record data. Appl Clin Inform 9(3):667–682

    Article  Google Scholar 

  15. 15.

    Hashemian Nik D, Kasáč Z, Goda Z, Semlitsch A, Schulz S (2019) Building an experimental German user interface terminology linked to SNOMED CT. Stud Health Technol Inform 264:153–157

    PubMed  Google Scholar 

  16. 16.

    Shen F, Zhao Y, Wang L, Mojarad MR, Wang Y, Liu S et al (2019) Rare disease knowledge enrichment through a  data-driven approach. BMC Med Inform Decis Mak 19(1):32

    Article  Google Scholar 

Download references

Danksagung

TOPOs wurde vom BMBF (Bundesministerium für Bildung und Forschung) im Rahmen des Förderschwerpunktes „Digitale Gesundheitsversorgung“ gefördert.

Author information

Affiliations

Authors

Corresponding author

Correspondence to Philipp Daumke.

Ethics declarations

Interessenkonflikt

A. Grandjean und S. Schulz stehen in einem Beschäftigungsverhältnis zur Fa. Averbis GmbH, die das in der Studie verwendete System Health Discovery entwickelt und vertreibt. P. Daumke ist geschäftsführender Gesellschafter der Averbis GmbH. B. Grundel, M.‑A. Bernardeau, H. Langner, C. Schmidt, D. Böhringer, M. Ritter, P. Rosenthal und A. Stahl geben an, dass kein Interessenkonflikt besteht.

Für die Studie kamen ausschließlich anonymisierte Klinikdaten zur Anwendung, sodass nach geltendem Recht kein Votum einer Ethikkommission erforderlich war. Für die Vollständigkeit der manuell durchgeführten Anonymisierung verbürgen sich die klinischen Projektpartner.

Additional information

Die Autoren Philipp Daumke und Andreas Stahl haben zu gleichen Teilen zum Manuskript beigetragen.

Rights and permissions

Reprints and Permissions

About this article

Verify currency and authenticity via CrossMark

Cite this article

Grundel, B., Bernardeau, MA., Langner, H. et al. Merkmalsextraktion aus klinischen Routinedaten mittels Text-Mining. Ophthalmologe 118, 264–272 (2021). https://doi.org/10.1007/s00347-020-01177-4

Download citation

Schlüsselwörter

  • Makuladegeneration
  • Verarbeitung natürlicher Sprache
  • SNOMED CT
  • Elektronische Patientenakten
  • Klinische Entscheidungsunterstützung

Keywords

  • Macular degeneration
  • Natural language processing
  • Systematized nomenclature of medicine
  • Electronic health records
  • Decision support systems