Skip to main content

„im Zentrum eines Netzes [...] geistiger Fäden“. Erschließung und Erforschung thematischer Zusammenhänge in heterogenen Briefkorpora

Zusammenfassung

In diesem Beitrag stellen wir einen semi-automatischen Ansatz zur Unterstützung der kollaborativ und disloziert vorgenommenen Verschlagwortung heterogener Briefkorpora vor und diskutieren Vor- und Nachteile, insbesondere in Bezug auf die Qualität der Verschlagwortung einerseits und auf den Aufwand händischer Nachbesserung andererseits. Die rein manuelle Verschlagwortung kann durch die automatische Extraktion vermeintlich sinntragender Stichwörter unterstützt werden. Dies erfolgt in der einfachsten Variante durch die Berechnung von normierten Vorkommens- und inversen Dokumenthäufigkeiten. In unserem Beitrag gehen wir dieser Idee nach und diskutieren eine Verschlagwortung durch automatische, rein quantitative Stichwortextraktion mit anschließender semi-automatischer Zuordnung der Schlagwörter zu Stichwörtern. Durch Anpassung der automatischen Stichwortextraktion an das gegebene Briefkorpus lässt sich der Ansatz qualitativ verbessern. So können in dem von uns betrachteten Briefkorpus bekannte Eigennamen (von Personen, Orten, Werken, Körperschaften und Periodika) ausgeblendet werden. Die Zuordnung der Schlagwörter zu Stichwörtern kann durch interaktive Werkzeuge erleichtert werden. Darüber hinaus führt die Einbindung von Thesauri zu einer weiteren Erleichterung bei der manuellen Bestimmung der Schlagwörter und deren Verknüpfung untereinander.

This is a preview of subscription content, access via your institution.

Fig. 1

Notes

  1. Bei einem Regest handelt es sich um eine inhaltliche Zusammenfassung eines Briefes, die zum Beispiel dann Anwendung findet, wenn der vollständige Brief aus rechtlichen Gründen (Persönlichkeitsrechte, Urheberrechte) nicht verwendet werden darf.

  2. Durch Kommentare überbrücken Editioren die zeitliche, kulturelle und geistige Distanz zwischen Text und Leser und schaffen so die Voraussetzungen für das Verständnis der Texte, die sich als historische Phänomene zeitgenössischen Lesern manches Mal nicht unmittelbar erschließen.

  3. Zum Auffinden der Synonyme eines Wortes kann auf entsprechende Schnittstellen zugegriffen werden, wie sie beispielsweise durch das Wortschatz-Portal der Universität Leipzig [13] oder des OpenThesaurus [6] angeboten werden.

  4. Synonyme verhalten sich in der Regel nicht ‚symmetrisch‛.

  5. Das Briefmanuskript liegt in der Monacensia in München, Signatur KM B 246.

  6. Das erste Heft der ab September 1933 erscheinenden Zeitschrift löste eine heftige Debatte unter den Exilautoren aus. Einige Autoren, darunter Thomas Mann, Stefan Zweig, Alfred Döblin verweigerten die Mitarbeit an der „Sammlung“ bzw. distanzierten sich im Nachhinein von dem Heft, da es ihnen zu politisch erschien und sie Repressalien fürchteten.

References

  1. Blei DM (2012) Probabilistic topic models. Commun\remove{ications of the} ACM 55(4):77–84

  2. Gießler A, Ritter J, Molitor P, Andert M, Kösser S, Leipold A (2014) A user-friendly lemmatization and morphological annotation of early new high German manuscripts. In Digital Humanities, DH2014

  3. Hildenbrandt V, Kamzelak RS (2014) „im Exil erweitert sich die Welt“. Neue Zugangswege zu Korrespondenzen durch Visualisierung. edition 28 (2014), S 175-192

  4. Mann G (1975) Der Brief in der Weltliteratur. Jahrbuch der Deutschen Akademie für Sprache und Dichtung, Jahrestagung in Darmstadt, S 77–106

  5. Manning CD, Raghavan P, Schütze H (2009) An introduction to information retrieval. Cambridge Universi\remove{y}ty Press\add{, Cambridge}

  6. Naber D (2005) OpenThesaurus: ein offenes deutsches Wortnetz. In Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen: Beiträge zur GLDV-Tagung. Frankfurt: Peter-Lang-Verlag

  7. Schmid H (1994) Probabilistic part-of-speech tagging using decision trees. In Proceedings of international conference on new methods in language processing, S 44–49

  8. Schmid H (1999) Improvements in part-of-speech tagging with an application to German. In: Armstrong S, Church K, Isabelle P, Manzi S, Tzoukermann E, Yarowsky D (eds) Natural language processing using very large corpora, vol 11 of Text, speech and language processing, Kluwer Academic Publishers, Dordrecht, S 13–26

  9. {TEI} - Text Encoding Initiative (1988) Internet: http://www.tei-c.org/index.xml. Zugegriffen: 24. Sept. 2014

  10. Toutanova K, Klein D, Manning C, Singer Y (2003) Feature-rich part-of-speech tagging with a cyclic dependency network. In Proceedings of HLT-NAACL, S 252–259

  11. Uschtrin S (2010) Die Kunst des Indexierens. Interview mit Jochen Fassbender. Federwelt 4:4–10. http://www.d-indexer.org/ress/bibl/Uschtrin_Interview_Federwelt83.pdf. Zugegriffen: 12. Okt. 2014

  12. Vedder U (2010) Chance auf Verlangsamung? Was Briefe waren und werden können. Forschung und Lehre 9:636–637

  13. Wortschatz-Portal der Universität Leipzig (1998) Internet: http://wortschatz.uni-leipzig.de/ Zugegriffen: 12. Okt. 2014

  14. www.exilnetz33.de (2013) Zugegriffen: 11. Okt. 2014

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Paul Molitor.

Additional information

Das Projekt „Vernetzte Korrespondenzen. Erforschung und Visualisierung sozialer, räumlicher, zeitlicher und thematischer Netze in Briefkorpora“ wird im Rahmen des Programms „eHumanities“ (Bekanntmachung 16466 vom 24.5.2011) des Bundesministeriums für Bildung und Forschung (BMBF-Projektkürzel: 01UG1354) gefördert.

Rights and permissions

Reprints and Permissions

About this article

Verify currency and authenticity via CrossMark

Cite this article

Hildenbrandt, V., Kamzelak, R., Molitor, P. et al. „im Zentrum eines Netzes [...] geistiger Fäden“. Erschließung und Erforschung thematischer Zusammenhänge in heterogenen Briefkorpora. Datenbank Spektrum 15, 49–55 (2015). https://doi.org/10.1007/s13222-014-0177-7

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s13222-014-0177-7

Schlüsselwörter

  • Briefkorpus
  • Exil
  • Exilbrief
  • Exil-Thesaurus
  • Exilontologie
  • Indexierung
  • Interaktiv
  • Korrespondenz
  • Stichwortextraktion
  • Verschlagwortung
  • Visualisierung