Skip to main content

Quantitative Semantik

  • 239 Accesses

Part of the Digitale Literaturwissenschaft book series (DL)

Zusammenfassung

In diesem Kapitel beschäftigen wir uns mit einem Bereich der Textanalyse, bei dem die Rollenverteilung zwischen Mensch und Maschine nicht den im Digitalzeitalter oft kultivierten Klischees entspricht. Dem Klischee nach wird der Mensch in seiner Leistungsfähigkeit überall vom Computer übertroffen, weil dieser einfach immer um ein Vielfaches schneller ist und unendlich viel mehr verarbeiten kann. Für Daten stimmt das zweifellos, und im Denken der Informatik sind Texte auch nichts anderes als Daten, mit denen sich etwas schlechter rechnen lässt, solange sie unstrukturiert sind.

This is a preview of subscription content, access via your institution.

Buying options

eBook
USD   24.99
Price excludes VAT (USA)
  • ISBN: 978-3-662-63663-3
  • Instant PDF download
  • Readable on all devices
  • Own it forever
  • Exclusive offer for individuals only
  • Tax calculation will be finalised during checkout
Softcover Book
USD   34.99
Price excludes VAT (USA)
Abb. 6.1
Abb. 6.2
Abb. 6.3
Abb. 6.4
Abb. 6.5
Abb. 6.6
Abb. 6.7
Abb. 6.8
Abb. 6.9
Abb. 6.10
Abb. 6.11
Abb. 6.12
Abb. 6.13
Abb. 6.14
Abb. 6.15
Abb. 6.16
Abb. 6.17

Notes

  1. 1.

    Dass die regex-basierte Ausmerzung der Schreibweisenunterschiede mit sehr hohen bzw. sehr niedrigen Zeta-Scores andere Unterschiede ‚nachrücken‘ lässt, mussten wir in Kauf nehmen. Die Argumente gegen eine automatische Normalisierung (cf. oben, Anm. 7, Kap. 3) schienen uns schwerwiegender.

  2. 2.

    Gefördert von der VolkswagenStiftung 2017–2021 unter der Projektnummer A119360.

  3. 3.

    Die Idee verdanke ich Steffen Martus, der im Rahmen des DFG-Schwerpunktprogramms „Computational Literary Studies“ die Stellen-Präferenz von Laien und Wissenschaftlern vergleicht.

  4. 4.

    Um Fehler zu vermeiden, haben wir diese Namensliste mit einer von der Universität Leipzig erstellten Liste der 10.000 häufigsten Wörter des Deutschen abgeglichen. Wenn beispielsweise das automatische NER „Sturm“ als einen Namen erkennt, weil „Herr“ davorsteht, die Leipziger Liste aber das Wort „Sturm“ führt, bleibt es im Korpus erhalten.

  5. 5.

    Über eine Schleife werden alle der jeweils 100 Topics miteinander verglichen, indem Topic für Topic (t) nach der größtmöglichen Überlappung zwischen den Topic-Wörtern von Modell 1 (M) mit jenen von Modell 2 (M') gesucht wird. Wenn einem Topic aus Modell 1 bereits eines aus Modell 2 zugeordnet oder ein Topic aus Modell 2 schon an ein anderes aus Modell 1 ‚vergeben‘ ist, wird überprüft, mit welchem Ähnlichkeitskonkurrenten jeweils tatsächlich die meisten Überlappungen bestehen. Addiert man sämtliche Überlappungen und teilt diese durch das Produkt aus der Gesamtzahl der Topics \(\left( K \right)\) und der Anzahl der Topic-Wörter \(\left( N \right)\), erhält man einen Wert für die topic keywords stability \(\left( {S_{k} } \right)\). Die Multiplikation mit 100 zeigt uns, welcher Anteil der Topic-Wörter stabil ist:

    $$ S_{k} \, = \,\frac{{\sum\nolimits_{t}^{K} | \max \,M \cap M' |}}{K * N} * 100 $$
  6. 6.

    Beispielsweise Topic N. 36 aus dem Topic Model zum Romankorpus Goethezeit: deine-laß-weißt-höre-sollst-usw.

  7. 7.

    Kap. 5, S. 77.

  8. 8.

    Friederike Helene Ungers Julchen Grüntal schildert ausführlich, wie das passive Weiblichkeitsideal Rousseaus zum Bildungskanon junger Frauen um 1800 gehörte. Dabei werden auch Stimmen gegen den Trend dieses Jahrhundertromans laut. ‚Julchen‘ erhält das Buch von ihrer Freundin Mariane mit den Worten zurück: „Deine Heloise ist unleidlich. Tugend und Liebe, und Liebe und Tugend, das einem die Ohren weh tun! Hier ist sie zurück.“ (Unger 1991b, S. 1–318).

  9. 9.

    Cf. Kap. 5, S. 98–106.

  10. 10.

    Die Idee wurde von Anastasia Glawion entwickelt und umgesetzt.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Thomas Weitin .

Rights and permissions

Reprints and Permissions

Copyright information

© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer-Verlag GmbH, DE, ein Teil von Springer Nature

About this chapter

Verify currency and authenticity via CrossMark

Cite this chapter

Weitin, T. (2021). Quantitative Semantik. In: Digitale Literaturgeschichte. Digitale Literaturwissenschaft. J.B. Metzler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-63663-3_6

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-63663-3_6

  • Published:

  • Publisher Name: J.B. Metzler, Berlin, Heidelberg

  • Print ISBN: 978-3-662-63662-6

  • Online ISBN: 978-3-662-63663-3

  • eBook Packages: J.B. Metzler Humanities (German Language)