Skip to main content

Textklassifikation durch maschinelles Lernen

  • 228 Accesses

Part of the Digitale Literaturwissenschaft book series (DL)

Zusammenfassung

In diesem Kapitel werden wir thematisch bei der Sache bleiben, aber eine neue Art von Verfahren zur digitalen Textanalyse einführen. In unseren bisherigen Experimenten haben wir auf der Basis textstatistischer Daten Ähnlichkeitsmodelle errechnet und das Gruppierungsverhalten von Texten in unterschiedlichen Korpuszusammenhängen untersucht. Wir haben verschiedene Parameter manipuliert, um zu sehen, wie sich die Ergebnisse dadurch verändern.

This is a preview of subscription content, access via your institution.

Buying options

eBook
USD   24.99
Price excludes VAT (USA)
  • ISBN: 978-3-662-63663-3
  • Instant PDF download
  • Readable on all devices
  • Own it forever
  • Exclusive offer for individuals only
  • Tax calculation will be finalised during checkout
Softcover Book
USD   34.99
Price excludes VAT (USA)
Abb. 5.1
Abb. 5.2

Notes

  1. 1.

    Darauf hat mich Judith Brottrager unter Verweis auf Blakey aufmerksam gemacht (Blakey 1939, S. 158, 164).

  2. 2.

    Cf. Gottfried August Pietzsch: Gustav redlich, oder der Prediger, wie er seyn sollte (1800); George Dyer: Der Prediger wie er seyn sollte, oder Leben Robert Robertsons (Übers. aus dem Englischen, 1800); Johann Jacob Brückner: Friedrich von Lichtenstein, oder der Patriot wie er seyn sollte (1802); Johann Adolph Liebner: Der reinliche Jüngling, wie er seyn sollte (1800); unbekannte/r Autor/in: Der Koch wie er seyn sollte, oder Handbuch für angehende Köche und Herrschaften, die sich Köche und Köchinnen halten (1802); Karl Heinrich Ludwig Pölitz: Heinrich von Feldheim, oder der Offizier wie er seyn sollte. Ein Beitrag zur militairischen Pädagogik (1807); Karl Heinrich Heidenreich: Der Privaterzieher in Familien, wie er seyn soll. Entwurf eines Instituts zur Bildung künftiger Hofmeister (1800).

  3. 3.

    „Juste ciel que tu es devenue savante! Je ne melerai jamais a la venir, a te donner quelques conseils sur la lecture, car tu sais plus que moi. […] Malgré cela j’ai encore quelques remarques a faire. Tu veux dire que le Pitaval instrouit. Bon je le concede, mais ce n’est pas toi, qu’il pourra instrouire, ce sera un homme, qui reflechit sur ces matieres, sur ces evenements, qui en pourroit tirer du profit.“ (Goethe an Cornelia Goethe, 27. September 1766)

  4. 4.

    Johanna Schopenhauer an Geheimrat … in Leipzig, 2. Dezember 1821: „Die Zeiten, wo man für Frauen wie für Kinder eigene Bücher schreiben durfte, sind längst vorüber. Der weibliche Geist ergreift jetzt jede Blume im Gebiet der schönen Literatur […].“ (Schopenhauer 1986, S. 415 f.)

  5. 5.

    Cf. oben S. 71.

  6. 6.

    Wir geben hier den standardisierten Bewertungsmaßen entsprechend zusätzlich noch den mittleren F1-Score für die Experimente an, einen Wert, der precision und recall kombiniert (cf. Shung 2020). Precision sagt uns bei einer Klassifikation, wie präzise unser Algorithmus gearbeitet hat, das heißt, wie viele der einer Klasse zugeordneten Elemente dieser Klasse tatsächlich angehören. Am recall können wir die Sensitivität der Klassifikation ablesen. Der Wert gibt an, wie viele der einer Klasse insgesamt angehörenden Elemente unsere Klassifikation hat finden können. Die Kombination beider Werte (F1) hilft uns dabei, die Qualität der automatischen Klassifikation einzuschätzen (He und Ma 2013, 192 f.). Der von uns erreichte Wert von 94 % ist zufriedenstellend.

  7. 7.

    Die verwendeten Aufteilungen in Trainings- und Testdaten stehen auch auf GitHub zur Verfügung: https://github.com/thomasweitin/Digitale_Literaturgeschichte/tree/master/corpora/Romankorpus_Classifier.

  8. 8.

    Für die hier vorgenommene automatische Klassifikation würde ich das tatsächlich vertreten. Aber Algorithmen per se für vorurteilsfrei zu halten, wäre naiv. Die Debatten über algorithmischen Rassismus etwa beschäftigen die Wissenschaft derzeit sehr (cf. Benjamin 2019; Ledford 2019).

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Thomas Weitin .

Rights and permissions

Reprints and Permissions

Copyright information

© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer-Verlag GmbH, DE, ein Teil von Springer Nature

About this chapter

Verify currency and authenticity via CrossMark

Cite this chapter

Weitin, T. (2021). Textklassifikation durch maschinelles Lernen. In: Digitale Literaturgeschichte. Digitale Literaturwissenschaft. J.B. Metzler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-63663-3_5

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-63663-3_5

  • Published:

  • Publisher Name: J.B. Metzler, Berlin, Heidelberg

  • Print ISBN: 978-3-662-63662-6

  • Online ISBN: 978-3-662-63663-3

  • eBook Packages: J.B. Metzler Humanities (German Language)