Skip to main content

Big Data, medizinische Sprache und biomedizinische Ordnungssysteme

Big data, medical language and biomedical terminology systems

Zusammenfassung

Eine Vielzahl umfangreicher begrifflicher Ordnungssysteme wie Thesauren, Klassifikationen, Nomenklaturen und Ontologien unterstützt die Informations- und Wissensverarbeitung in Gesundheitsversorgung und biomedizinischer Forschung. Dennoch ist nach wie vor die menschliche Sprache in Form individuell verfasster Texte primärer Träger von Information – sowohl bei der Beschreibung von Krankheits- oder Behandlungsverläufen in elektronischen Krankenakten als auch bei der Beschreibung biomedizinischer Forschungsergebnisse in wissenschaftlichen Publikationen. Im Zusammenhang mit der Big-Data-Diskussion stellen wir die These auf, dass die Abstraktion von der Vielgestaltigkeit natürlichsprachlicher Äußerungen hin zu strukturierter und semantisch normalisierter Information den Einsatz von statistischen Methoden der Wissensakquisition aus textuellen Forschungs-/Behandlungsdaten erleichtert. Dazu können Technologien zur computergestützten Verarbeitung menschlicher Sprache eingesetzt werden. Diese sind zunehmend in der Lage, medizinische Texte mit Kodes aus biomedizinischen Ordnungssystemen zu annotieren. Allerdings hängt dies in hohem Maße von linguistischen und terminologischen Ressourcen ab. Die Erstellung und Pflege solcher Ressourcen ist arbeitsintensiv. Es gibt schlüssige Hinweise darauf, dass auch hierfür Big-Data-Methoden unterstützend eingesetzt werden können. Beispiele sind das Erlernen von hierarchischen Beziehungen, die Gruppierung synonymer Terme in Konzepte und die Disambiguierung von Homonymen. Auch wenn bisher keine empirischen Daten vorliegen, erscheint die Kombination von natürlichsprachlichen Technologien, semantischen Ressourcen und Big-Data-Analytics vielversprechend.

Abstract

A variety of rich terminology systems, such as thesauri, classifications, nomenclatures and ontologies support information and knowledge processing in health care and biomedical research. Nevertheless, human language, manifested as individually written texts, persists as the primary carrier of information, in the description of disease courses or treatment episodes in electronic medical records, and in the description of biomedical research in scientific publications. In the context of the discussion about big data in biomedicine, we hypothesize that the abstraction of the individuality of natural language utterances into structured and semantically normalized information facilitates the use of statistical data analytics to distil new knowledge out of textual data from biomedical research and clinical routine. Computerized human language technologies are constantly evolving and are increasingly ready to annotate narratives with codes from biomedical terminology. However, this depends heavily on linguistic and terminological resources. The creation and maintenance of such resources is labor-intensive. Nevertheless, it is sensible to assume that big data methods can be used to support this process. Examples include the learning of hierarchical relationships, the grouping of synonymous terms into concepts and the disambiguation of homonyms. Although clear evidence is still lacking, the combination of natural language technologies, semantic resources, and big data analytics is promising.

This is a preview of subscription content, access via your institution.

Notes

  1. „Ärzte“ = „‘Ärztinnen und Ärzte“. Zur Optimierung des Leseflusses wird auf gendergerechte Formulierungen verzichtet.

  2. In diesem Artikel werden wir unter dem Schlagwort „Biomedizin“ die medizinbezogene Forschung sowie die Bereiche Krankheitsversorgung und Gesundheitspflege einschließlich Public Health subsumieren. Es entspricht somit dem Gegenstandsbereich, der von der Fachdisziplin Biomedical Informatics [5] erfasst wird.

Literatur

  1. Mayer-Schönberger V (2015) Big Data: Eine Revolution, die unser Leben verändern wird. Bundesgesundheitsbl Gesundheitsforsch Gesundheitsschutz 58(7)

  2. Bellazzi R (2014) Big data and biomedical informatics: a challenging opportunity. Yearb Med Inform 9(1):8–13

  3. Blum K, Müller U (2003) Dokumentationsaufwand im Ärztlichen Dienst der Krankenhäuser. Repräsentativerhebung des Deutschen Krankenhausinstituts. Krankenhaus 7:544–548

  4. Murdoch TB, Detsky AS (2013) The inevitable application of big data to health care. JAMA 309(13):1351–1352

  5. Shortliffe EH (2010) Biomedical informatics in the education of physicians. JAMA 304(11):1227–1228.

  6. Börsenverein des Deutschen Buchhandels. Buch- und Titelproduktion. http://www.boersenverein-bayern.de/de/186340 Letzter Zugriff: 9.Juni 2015

  7. Daumke P, Schulz S, Müller ML, Dzeyk W, Prinzen L, Pacheco EJ, Cancian PS, Nohama P, Markó K (2010) Subword-based semantic retrieval of clinical and bibliographic documents. Methods Inf Med 49(2):141–147

  8. Griffon N, Charlet J, Darmoni SJ (2014) Managing free text for secondary use of health data. Yearb Med Inform 9(1):167–169

  9. William H (2009) Information retrieval: a health and biomedical perspective, 3. Aufl. Springer, New York

  10. Carstensen KU, Ebert C, Ebert C, Jekat S, Klabunde R, Langer H (2009) Computerlinguistik und Sprachtechnologie, 3. Aufl. Springer Spektrum, Berlin

  11. Ananiadou S, McNaught J (2006) Text mining for biology and biomedicine. Artech House, Norwood

  12. Nadkarni PM, Ohno-Machado L, Chapman WW (2011) Natural language processing: an introduction. J Am Med Inform Assoc 18(5):544–551

  13. Meystre SM, Savova GK, Kipper-Schuler KC, Hurdle JF (2008) Extracting information from textual documents in the electronic health record: a review of recent research. Natural language processing and its future in medicine. IMIA Yearb Med Inform 47(Suppl 1):128–144

  14. TExt Retrieval Conference (TREC). http://trec.nist.gov/ Letzter Zugriff: 9.Juni 2015

  15. i2b2. https://www.i2b2.org/NLP/ Letzter Zugriff: 9.Juni 2015

  16. UIMA. http://uima.apache.org/ Letzter Zugriff: 9.Juni 2015

  17. OpenNLP. http://opennlp.apache.org/ Letzter Zugriff: 9.Juni 2015

  18. Hadoop. http://hadoop.apache.org/ Letzter Zugriff: 9.Juni 2015

  19. Mahout. http://mahout.apache.org/ Letzter Zugriff: 9.Juni 2015

  20. National Library of Medicine. MetaMap. http://metamap.nlm.nih.gov/ Letzter Zugriff: 9.Juni 2015

  21. Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC, Chute CG (2010) Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. J Am Med Infrom Assoc 17:507–513

  22. CTakes. http://ctakes.apache.org/ Letzter Zugriff: 9.Juni 2015

  23. Jain NL, Knirsch CA, Friedman C, et al. Identification of suspected tuberculosis patients based on natural language processing of chest radiograph reports. Proc AMIA Annu Fall Symp 1996;542–546

  24. HITEX. https://www.i2b2.org/software/projects/hitex/hitex_manual.html Letzter Zugriff: 9.Juni 2015

  25. The MedKAP Pipeline. http://ohnlp.sourceforge.net/MedKATp/ Letzter Zugriff: 9.Juni 2015

  26. International Classification of Diseases. http://www.who.int/classifications/icd/en/ Letzter Zugriff: 9.Juni 2015

  27. Medical Subject Headings. http://www.nlm.nih.gov/mesh/ Letzter Zugriff: 9.Juni 2015

  28. Keizer NF de, Abu-Hanna A, Zwetsloot-Schonk JH (2000) Understanding terminological systems. I: terminology and typology. Methods Inf Med 39(1):16–21

  29. Ingenerf J, Giere W (1998) Concept-oriented standardization and statistics-oriented classification: continuing the classification versus nomenclature controversy. Methods Inf Med 37(4–5):527–539

  30. Freitas F, Schulz S, Moraes E (2009) Survey of current terminologies and ontologies in biology and medicine. RECIIS – Rev Electron J Commun Inf Innov Health 3(1):7–18

  31. Nelson SJ, Powell T, Humphreys LB (1990) The Unified Medical Language System (UMLS) of the National Library of Medicine. J Am Med Rec Assoc 61:40–42 (2006)

  32. Unified Medical Language System. http://www.nlm.nih.gov/research/umls/knowledge_sources/metathesaurus/ Letzter Zugriff: 9.Juni 2015

  33. Whetzel PL, Noy NF, Shah NH, Alexander PR, Nyulas C, Tudorache T, Musen MA (2011) BioPortal: enhanced functionality via new web services from the National Center for Biomedical Ontology to access and use ontologies in software applications. Nucleic Acids Res 39(Web Server issue):W541–W545

  34. MedDRA. Medical Dictionary for Regulatory Activities. http://www.meddra.org Letzter Zugriff: 9.Juni 2015

  35. Operationen- und Prozedurenschlüssel (OPS). https://www.dimdi.de/static/de/klassi/ops/index.htm Letzter Zugriff: 9.Juni 2015

  36. Cornet R, Keizer N de (2008) Forty years of SNOMED: a literature review. BMC Med Inform Decis Mak 8(Suppl 1):S2

  37. Terminologia Anatomica. http://www.unifr.ch/ifaa/Public/EntryPage/HomePublic.html Letzter Zugriff: 9.Juni 2015

  38. Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, OBI Consortium, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N, Whetzel PL, Lewis S (2007) The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration. Nat Biotechnol 25(11):1251–1255

  39. SNOMED CT. http://www.ihtsdo.org/snomed-ct Letzter Zugriff: 9.Juni 2015

  40. Rossi Mori A, Consorti F (1998) Exploiting the terminological approach from CEN/TC251 and GALEN to support semantic interoperability of healthcare record systems. Int J Med Inform 48(1–3):111–124

  41. Klein GO, Smith B (2010) Concept systems and ontologies: recommendations for basic terminology. Trans Jpn Soc Artif Intell 25(3):433–441

  42. Smith B, Kusnierczyk W, Schober D, Ceusters W (2006) Towards a reference terminology for ontology research and development in the biomedical domain. In: Bodenreider O (Hrsg) Proceedings of the second international workshop on formal biomedical knowledge representation: „Biomedical Ontology in Action“ (KR-MED 2006), Bd 222. CEUR Workshop Proceedings, S 57–65. http://ceur-ws.org/Vol-222/krmed2006-p07.pdf Letzter Zugriff: 9. Juni 2015

  43. Pigliucci M (2009) The end of theory in science? EMBO Rep 10(6):534

  44. Brin S, Page L (1998) The anatomy of a large-scale hypertextual Web search engine. Computer networks and ISDN systems 30(1-7):107–117

  45. Knowledge Graph. https://www.google.com/intl/de/search/about/insidesearch/features/search/knowledge.html Letzter Zugriff: 9.Juni 2015

  46. Manning C, Schütze H (1999) Foundations of Statistical Natural Language Processing. MIT Press, Cambridge

  47. Maedche A, Staab S (2001) Ontology Learning for the Semantic Web. IEEE Intelligent Systems 16(2):72–79

  48. Wong W, Liu W, Bennamoun M (2012) Ontology learning from text: a look back and into the future. ACM Computing Surveys (CSUR) 44(4): Art. 20

  49. Medelyan O, Witten IH, Divoli A, Broekstra J (2013) Automatic construction of lexicons, taxonomies, ontologies, and other knowledge structures. WIREs Data Mining Knowl Discov doi:10.1002/widm.1097 Letzter Zugriff: 9. Juni 2015

  50. Lehmann J, Völker J (Hrsg) (2014) Perspectives on ontology learning. Akademische Verlagsgesellschaft AKA, Heidelberg. http://jens-lehmann.org/files/2014/perspectives_on_ontology_learning.pdf Letzter Zugriff: 9.Juni 2015

  51. Hearst MA (1992) Automatic acquisition of hyponyms from large text corpora. In: Association for Computational Linguistics (Hrsg) COLING ’92 Proceedings of the 14th international conference on computational linguistics.Vol. 2. ACM Digital Library, Stroudsburg, PA, S. 539–545

  52. Keller F, Lapata M, Ourioupina O (2002) Using the web to overcome data sparseness. In: Association for Computational Linguistics (Hrsg) Proceedings of the ACL-02 conference on empirical methods in natural language processing. Vol. 10. ACM Digital Library, Stroudsburg, PA, S. 230–237.

  53. Kilgarriff A, Grefenstette G (2003) Introduction to the special issue on the web as corpus. Computational linguistics 29(3):333–347

  54. Kreuzthaler M, Schulz S (2012) Metonymies in medical terminologies. A SNOMED CT case study. AMIA Annu Symp Proc 2012:463–446

  55. Sánchez D, Isern D (2011) Automatic extraction of acronym definitions from the Web. Appl Intell 34:311–327

  56. Plas L van der, Tiedemann J (2010) Finding medical term variations using parallel corpora and distributional similarity. In: Oltramary A et al (Hrsg) Proceedings of the 6th workshop on ontologies and lexical resources. Chinese Information Processing Society of China, Beijing, S. 28–37

  57. Senellart P, Blondel VD (2003) Automatic discovery of similar words. In: Berry, MW (Hrsg.) Survey of Text Mining II. Clustering, Classification, and Retrieval. Springer, London.http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.93.3898. Zugegriffen: 9. Juni. 2015

  58. Deerwester SC, Dumais ST, Landauer TK, Furnas GW, Harshman RA (1990) Indexing by latent semantic analysis. J Am Soc Inform Sci 41(6):391–407

  59. Deléger L, Merkel M, Zweigenbaum P (2009) Translating medical terminologies through word alignment in parallel text corpora. J Biomed Inform 42:692–701

  60. Andrade D, Tsuchida M, Onishi T, Ishikawa K (2013) Synonym acquisition using bilingual comparable corpora. In: Asian Federation of Natural Language Processing (Hrsg) International Joint Conference on Natural Language Processing (IJCNLP’13).. ACL Anthology. http://www.aclweb.org/anthology/I/I13/I13-1150.pdf Letzter Zugriff: 9.Juni 2015

  61. Martin-Sanchez F, Verspoor K (2014) Big data in medicine is driving big changes. Yearb Med Inform 9(1):14–20

  62. Blair DR, Lyttle CS, Mortensen JM et al (2013) A nondegenerate code of deleterious variants in Mendelian loci contributes to complex disease risk. Cell 155(1):70–80

  63. Hübner U, Prokosch HU, Breil B (2014) Medizinische Informatik in der digitalen Gesellschaft: Im Spannungsfeld vielfältiger Aufgaben. Dtsch Arztebl 111(48):A-2102

Download references

Author information

Affiliations

Authors

Corresponding author

Correspondence to Stefan Schulz.

Ethics declarations

Interessenkonflikt

Stefan Schulz und P. López García geben an, dass kein Interessenkonflikt besteht.

Dieser Beitrag beinhaltet keine Studien an Menschen oder Tieren.

Rights and permissions

Reprints and Permissions

About this article

Verify currency and authenticity via CrossMark

Cite this article

Schulz, S., López-García, P. Big Data, medizinische Sprache und biomedizinische Ordnungssysteme. Bundesgesundheitsbl. 58, 844–852 (2015). https://doi.org/10.1007/s00103-015-2190-x

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s00103-015-2190-x

Schlüsselwörter

  • Biomedizinische Terminologie
  • Computergestützte Verarbeitung menschlicher Sprache
  • Ontologie
  • Big Data
  • Elektronische Krankenakten

Keywords

  • Biomedical terminology
  • Natural language processing
  • Ontology
  • Big data
  • Electronic health records