Datenbank-Spektrum

, Volume 15, Issue 1, pp 49–55 | Cite as

„im Zentrum eines Netzes [...] geistiger Fäden“. Erschließung und Erforschung thematischer Zusammenhänge in heterogenen Briefkorpora

  • Vera Hildenbrandt
  • Roland S. Kamzelak
  • Paul Molitor
  • Jörg Ritter
SCHWERPUNKTBEITRAG

Zusammenfassung

In diesem Beitrag stellen wir einen semi-automatischen Ansatz zur Unterstützung der kollaborativ und disloziert vorgenommenen Verschlagwortung heterogener Briefkorpora vor und diskutieren Vor- und Nachteile, insbesondere in Bezug auf die Qualität der Verschlagwortung einerseits und auf den Aufwand händischer Nachbesserung andererseits. Die rein manuelle Verschlagwortung kann durch die automatische Extraktion vermeintlich sinntragender Stichwörter unterstützt werden. Dies erfolgt in der einfachsten Variante durch die Berechnung von normierten Vorkommens- und inversen Dokumenthäufigkeiten. In unserem Beitrag gehen wir dieser Idee nach und diskutieren eine Verschlagwortung durch automatische, rein quantitative Stichwortextraktion mit anschließender semi-automatischer Zuordnung der Schlagwörter zu Stichwörtern. Durch Anpassung der automatischen Stichwortextraktion an das gegebene Briefkorpus lässt sich der Ansatz qualitativ verbessern. So können in dem von uns betrachteten Briefkorpus bekannte Eigennamen (von Personen, Orten, Werken, Körperschaften und Periodika) ausgeblendet werden. Die Zuordnung der Schlagwörter zu Stichwörtern kann durch interaktive Werkzeuge erleichtert werden. Darüber hinaus führt die Einbindung von Thesauri zu einer weiteren Erleichterung bei der manuellen Bestimmung der Schlagwörter und deren Verknüpfung untereinander.

Schlüsselwörter

Briefkorpus Exil Exilbrief Exil-Thesaurus Exilontologie Indexierung Interaktiv Korrespondenz Stichwortextraktion Verschlagwortung Visualisierung 

References

  1. 1.
    Blei DM (2012) Probabilistic topic models. Commun\remove{ications of the} ACM 55(4):77–84Google Scholar
  2. 2.
    Gießler A, Ritter J, Molitor P, Andert M, Kösser S, Leipold A (2014) A user-friendly lemmatization and morphological annotation of early new high German manuscripts. In Digital Humanities, DH2014Google Scholar
  3. 3.
    Hildenbrandt V, Kamzelak RS (2014) „im Exil erweitert sich die Welt“. Neue Zugangswege zu Korrespondenzen durch Visualisierung. edition 28 (2014), S 175-192Google Scholar
  4. 4.
    Mann G (1975) Der Brief in der Weltliteratur. Jahrbuch der Deutschen Akademie für Sprache und Dichtung, Jahrestagung in Darmstadt, S 77–106Google Scholar
  5. 5.
    Manning CD, Raghavan P, Schütze H (2009) An introduction to information retrieval. Cambridge Universi\remove{y}ty Press\add{, Cambridge}Google Scholar
  6. 6.
    Naber D (2005) OpenThesaurus: ein offenes deutsches Wortnetz. In Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen: Beiträge zur GLDV-Tagung. Frankfurt: Peter-Lang-VerlagGoogle Scholar
  7. 7.
    Schmid H (1994) Probabilistic part-of-speech tagging using decision trees. In Proceedings of international conference on new methods in language processing, S 44–49Google Scholar
  8. 8.
    Schmid H (1999) Improvements in part-of-speech tagging with an application to German. In: Armstrong S, Church K, Isabelle P, Manzi S, Tzoukermann E, Yarowsky D (eds) Natural language processing using very large corpora, vol 11 of Text, speech and language processing, Kluwer Academic Publishers, Dordrecht, S 13–26Google Scholar
  9. 9.
    {TEI} - Text Encoding Initiative (1988) Internet: http://www.tei-c.org/index.xml. Zugegriffen: 24. Sept. 2014
  10. 10.
    Toutanova K, Klein D, Manning C, Singer Y (2003) Feature-rich part-of-speech tagging with a cyclic dependency network. In Proceedings of HLT-NAACL, S 252–259Google Scholar
  11. 11.
    Uschtrin S (2010) Die Kunst des Indexierens. Interview mit Jochen Fassbender. Federwelt 4:4–10. http://www.d-indexer.org/ress/bibl/Uschtrin_Interview_Federwelt83.pdf. Zugegriffen: 12. Okt. 2014
  12. 12.
    Vedder U (2010) Chance auf Verlangsamung? Was Briefe waren und werden können. Forschung und Lehre 9:636–637Google Scholar
  13. 13.
    Wortschatz-Portal der Universität Leipzig (1998) Internet: http://wortschatz.uni-leipzig.de/ Zugegriffen: 12. Okt. 2014
  14. 14.
    www.exilnetz33.de (2013) Zugegriffen: 11. Okt. 2014

Copyright information

© Springer-Verlag Berlin Heidelberg 2015

Authors and Affiliations

  • Vera Hildenbrandt
    • 1
  • Roland S. Kamzelak
    • 2
  • Paul Molitor
    • 3
  • Jörg Ritter
    • 3
  1. 1.Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahrenin den GeisteswissenschaftenTrierDeutschland
  2. 2.Deutsches Literaturarchiv MarbachMarbachDeutschland
  3. 3.Institut für InformatikUniversität Halle-WittenbergHalleDeutschland

Personalised recommendations