Die zentrale digitale Methode, die in dieser Arbeit angewendet wird, ist Named Entity Recognition (NER). Mit Hilfe dieses computerlinguistischen Verfahrens werden in der Regel klar benennbare Einheiten, wie z. B. Eigennamen, in Texten erkannt und annotiert (Schumacher, 2018a, §1). Die am häufigsten in NER-Tools implementierten Annotationskategorien sind Personen, Orte und Organisationen. Zum Einsatz kommt die frei verwendbare Software Stanford Named Entity Recognizer (StanfordNER) (Finkel et al., 2005), die auf einer Implementierung von Conditional Random Field (CRF) Algorithmen (vgl. Sutton and McCallum, 2010) beruht (Manning et al., 2014). Dabei handelt es sich um vektorbasierte Vorhersagealgorithmen, die auf Basis eines Machine-Learning-Prozesses aufgrund bestimmter Kontextinformationen im Text Annotationskategorien erlernen können (mehr dazu in Abschnitt 5.1). Diese Kernmethode wurde, wenn nötig, durch andere digitale Methoden ergänzt. Wie bereits erwähnt, wurde eine relationale Graphdatenbank in Neo4J angelegt, um Raummetaphern in die Analyse einbeziehen zu können. Um die Ergebnisse der automatischen Raumannotation auswerten und visualisieren zu können, wurde die Annotationssoftware CATMAFootnote 1 (Meister et al., 2018 und Gius et al., 2022) genutzt. Die Abfrageergebnisse dieses Tools wurden wiederum überführt in die Netzwerkanalysesoftware Gephi (Bastian et al., 2022), um zu untersuchen, inwiefern die Raumkategorien zusammen wirken. Auch das Topic-Modeling-Tool DARIAH TopicsExplorer (Simmler et al., 2019) wurde eingesetzt, um die Analyse der Annotationsdaten zu ergänzen. Insgesamt liegt der Studie also ein Mixed-Methods-Ansatz zu Grunde, der die Methoden der digitalen Annotation (vgl. Jacke, 2018), der Named Entity Recognition (vgl. Schumacher, 2018a), der Netzwerkanalyse (vgl. Schumacher, 2018b), des Topic Modelings (vgl. Horstmann, 2018) und der Metadatenauswertung mit Hilfe relationaler Datenbanken umfasst.

Das Machine-Learning-Verfahren NER umfasst eine Reihe von Arbeitsschritten, für die unterschiedliche Parameter von Bedeutung sind, die in diesem und im folgenden Kapitel 6 genauer betrachtet werden. Im Fokus stehen zuerst die Grundlagen der Methode und die in dieser Arbeit eingesetzte Variante der NER mittels Conditional Random Fields Algorithmen (s.o.). Um die Idee der auf Wort- und Kontexteigenschaften beruhenden Erkennung bestimmter Kategorien umzusetzen, können diverse Features definiert werden, die beim Machine Learning berücksichtigt werden. Dabei handelt es sich um Worteigenschaften der Wörter, die in eine Annotationskategorie fallen, wie die Kombination bestimmter Buchstaben (oder auch Prä- und Suffixe) oder häufig vor oder nach einem Objekt einer Kategorie stehende Wörter. Die Bedeutung der Features für NER und die Wahl der in dieser Studie eingesetzten Feature-Kombination wird in Abschnitt 5.2 beschrieben und begründet. Die grundsätzliche Beschaffenheit der implementierten Algorithmen und die definierten Features bilden zusammen das Machine-Learning-Tool, also die Basis des Lernprozesses des Computers. Im nächsten Schritt kann dieser Lernprozess, das sogenannte Training, begonnen werden. Dazu müssen Trainingsdaten erstellt werden, eine kritische Masse von Beispielannotationen, aus denen mit Hilfe der CRF-Algorithmen und anhand der Features die Annotationskategorien erlernt werden. Ergebnis des Lernprozesses ist ein CRF-Classifier. In diesem Classifier sind die Regelmäßigkeiten, die bei der Auswertung der Beispielannotationen erkannt wurden, festgelegt. Zur Umsetzung der automatischen Erkennung der Wörter, die in eine der NER-Annotationskategorien fallen, sind sowohl das Tool als Basis der Erkennung als auch ein Classifier für die spezifischen Annotationskategorien notwendig. Nach Abschluss des Trainings folgt ein Schritt, bei dem die Ergebnisse der automatischen Annotation getestet werden. Wieder werden manuell Beispielannotationen erstellt, die dann mittels Tool und Classifier mit der automatischen Annotation abgeglichen werden. Zur Bewertung werden drei Kennzahlen errechnet: Precision, Recall und F1-Score. Mit Precision wird berechnet, wieviel Prozent der annotierten Wörter korrekt annotiert wurden (vgl. Powers, 2020, 38). Recall setzt den Anteil der annotierten Wörter ins Verhältnis zur Anzahl aller Wörter im Text, die in die Annotationskategorie(n) fallen (vgl. Powers, 2020, 38). Precision gibt also einen Eindruck davon, wie viel dessen, was annotiert wurde, korrekt ist (Genauigkeit), während Recall zeigt, wie viel von dem, was hätte annotiert werden sollen, tatsächlich annotiert wurde (Vollständigkeit). Der F1-Score ist ein mathematischer Wert, der die beiden Kennzahlen in angemessener Weise zusammenfasst (Mikheev et al., 1999, 2). Wie diese Tests bei derzeit als State of the Art geltenden Tools ausfallen und inwiefern eine Domänenadaption für die Literaturwissenschaft bereits ähnliche Resultate erbringen konnte, wird in Abschnitt 5.2 herausgearbeitet.

Mit Hilfe von StanfordNER wurden bereits linguistische Modelle für die deutsche Sprache trainiert, die die zentralen NER-Kategorien Personen, Orte und Organisationen umfassen. Bis heute können diese Modelle als State of the Art bezeichnet werden, da sie mit 80 % F1-Score sehr gute Ergebnisse in der Erkennung erreichen (vgl. Faruqui and Padó, 2010; Hänig et al., 2014, 113). Darüber hinaus bietet StanfordNER eine einfach bedienbare graphische Benutzeroberfläche, was die Nachnutzung des hier entwickelten Raum-Classifiers erleichtert. Conditional Random Fields sind zwar nicht die einzigen Algorithmen, die in NER Tools zum Einsatz kommen können, die Wahl fiel hier aber dennoch auf eine Software mit CRF-Classifiern, da diese durch ihre Kontextsensitivität besonders gut auch auf Gegenstände angewendet werden können, die über die klassischen Named Entities hinausgehen.Footnote 2 Die Vor- und Nachteile dieser Wahl werden in Form einer Ausführlichen Methodenkritik in Abschnitt 5.3 diskutiert.

1 Grundlagen der Named Entity Recognition

Named Entity Recognition gehört zum Methodenkomplex des Natural Language Processings (NLP) und wird häufig als wichtige Vorbereitung anderer Aufgaben beschrieben (vgl. dazu z. B. Mikheev et al., 1999, 1; Faruqui and Padó, 2010, 1; Marrero et al., 2013, 482; Weber and Pötzl, 2014, 158). Dazu gehört z. B. die automatische Informationsextraktion oder Übersetzung (vgl. Faruqui and Padó, 2010, 1; Marrero et al., 2013, 482;). Obwohl er bereits 1996 zum ersten Mal verwendet wurde, ist der Begriff der Named Entity nach wie vor unterspezifiziert (Marrero et al., 2013, 482). Erklärungsansätze reichen von der sehr unspezifischen Aufzählung von Beispielen (Weber and Pötzl, 2014, 158) bis hin zu einer engen Definition als Einheit aus einem Objekt und dessen (möglichst) einzigartigem Bezeichner (Marrero et al., 2013, 484). Vielen in der Computerlinguistik entwickelten und eingesetzten NER-Classifiern scheint eine solche, enge Definition von Named Entities inhärent zu sein, da meist nur Referenzen berücksichtigt werden, die mit Hilfe eines Eigennamens erzeugt werden (Kuhn, 2018, 26). Dieser Arbeit liegt die weitgehend anerkannte, aber über den Fokus auf Eigennamen hinausgehende, Beschreibung von Named Entity Recognition als Mittel, um sowohl bekannte als auch unbekannte Objekte bekannter Hierarchien in unbekannten Texten ausfindig zu machen, zu Grunde (Marrero et al., 2013, 484). Außerdem wird hier berücksichtigt, dass das Einsatzgebiet der Methode immer auch die Kategorienfindung mitbestimmt und auf die jeweilige Domäne angepasst werden sollte (vgl. Marrero et al., 2013, 487; Kuhn, 2018, 12 und 21). Obwohl beim Vergleich gängiger Tools auffällt, dass Personen, Orte und Organisationen die typischsten Kategorien der Named Entity Recognition sind (Mikheev et al., 1999, 1; Marrero et al., 2013, 484–485), gibt es auch solche, die sich auf eine oder wenige Kategorien beziehen (z. B. das NER-Modell für literarische Figuren von Jannidis et al., 2015) und solche, die die Methode dahingehend ausreizen, dass sie möglichst viele Kategorien automatisch annotieren lassen. Marrero et al. (2013, 485) berichten von Tools mit 39 und 45 Kategorien. Auch stark domänenspezifische NER-Systeme, z. B. zur Erkennung medizinischer Fachtermini für Krankheiten, wurden entwickelt und eingesetzt (Jiang et al., 2016, 21; Kuhn, 2018, 33). Die Diskussion über definitorische Grundlagen der NER und die unterschiedlichen Modelle, die bereits implementiert wurden, lässt den Schluss zu, dass die Methode sehr anpassbar ist und darum gut auf andere Zusammenhänge übertragen werden kann.

Grundsätzlich kann die Aufgabe von Named-Entity-Recognition-Software als zweischrittig verstanden werden. Zunächst muss das Tool grundsätzlich diejenigen Objekte identifizieren, die der vordefinierten Oberkategorie entsprechen (z. B. Named Entities) (Sutton and McCallum, 2007, 5). Dann müssen all diese Funde nach Art klassifiziert werden (z. B. Personen, Orte, Organisationen (Sutton and McCallum, 2007, 5). Die Erkennung erlernt das Tool in einem Machine-Learning-Training, bei dem die vordefinierten Features mit dem Trainingskorpus abgeglichen werden, in denen die vorkommenden Entitäten als solche und nach Art markiert und klassifiziert wurden (Schumacher, 2018a, §20). Das Problem dabei ist, dass selbst in großen Traingskorpora nie alle möglichen Bezeichnungen von Named Entities vorkommen können (Sutton and Mccallum, 2007, 5). Auch die Verwendung umfangreicher Listen (Gazetteers) z. B. gängiger Vornamen oder geographischer Orte hat sich als nicht erschöpfend erwiesen (Mikheev et al., 1999, 2). Darum muss die Software die Zugehörigkeit zu einer Objektklasse möglichst allein aus dem Kontext eines Wortes schließen (Sutton and Mccallum, 2007, 5). Der große Vorteil der kontextbezogenen Erkennung ist, dass gleiche Wörter ggf. unterschiedlichen Kategorien zugeordnet werden können (Mikheev et al., 1999, 1). So kann ein System durch Kontextinformationen z. B. die Stadt Paris von dem Paris der antiken Mythologie unterscheiden, der durch seine Liebe zur schönen Helena Troja ins Verderben stürzte. Die Erkennung kann entweder rein auf der Wortebene stattfinden oder es können auch die Objektklassen (Entity-Labels) der umliegenden Wörter mit einbezogen werden (Sutton and McCallum, 2007, 5). Dabei sind sowohl Positiv- als auch Negativwerte, also Entity-Labels ebenso wie die Kennzeichnung als nicht relevantes Objekt, für die Erkennung von Bedeutung. Es hat sich sogar gezeigt, dass es gewinnbringend sein kann, Kategorien in das Training einzubeziehen, die gar nicht vorkommen, da auch die Negativauszeichnung für diese Kategorien die Erkennungsgenauigkeit der anderen erhöhen kann (Sutton and McCallum, 2007, 23). Auf dieser Erkenntnis aufbauend wurden bei der vorliegenden Studie zunächst Raummetaphern in den Trainingsprozess einbezogen. Später hat sich gezeigt, dass es für diese Untersuchung kaum einen Vorteil gegenüber einem Kategoriensystem ohne Raummetaphern bietet, da – im Gegensatz zu einer nicht vorkommenden Kategorie – die Erkennungsgenauigkeit der Kategorie „Raummetapher“ in den unterschiedlichen Tests extrem stark schwankt und darum schwer kontrollierbar ist (vgl. Kapitel 6).

1.1 Conditional Random Fields (CRF)

Den Kern des hier angewendeten StanfordNER-Tools bildet eine Implementierung von Conditional-Random-Field-Algorithmen (CRF-Algorithmen). Dabei handelt es sich um vektorbasierte Vorhersagealgorithmen, die unterschiedliche, voneinander abhängige Variablen berücksichtigen können (Sutton and McCallum, 2010, 1). Die Basis bildet ein konditionales Sequenzmodell (Finkel et al., 2005, 3), in dem die einzelnen Objekte in Abhängigkeit zueinander gedacht werden. Zu den linearen und damit offensichtlichen Eigenschaften, wie z. B. der Position eines Wortes zwischen zwei anderen, werden weitere, versteckte Eigenschaften (Finkel et al., 2005, 3), wie z. B. die Zugehörigkeit zu einer Objektklasse, angenommen. Diese Eigenschaften sind beobachtbar (Finkel et al., 2005, 3) und können mit Hilfe von Hinweisen identifiziert werden. Zur Identifizierung werden Hinweiskombinationen mit Wahrscheinlichkeiten (Finkel et al., 2005, 3) verknüpft, die letztendlich die Vorhersage der Zugehörigkeit eines Wortes zu einer Objektklasse ermöglichen. Als Features werden die Merkmale bezeichnet, anhand derer Wörter klassifiziert werden können. Dies können orthografische Eigenschaften sein wie z. B. Präfixe und Suffixe oder auch die Position eines Wortes im Satzumfeld oder aber die Tatsache, ob dieses Wort auf einer Liste vordefinierter Ausdrücke steht (Sutton and McCallum, 2010, 1). Die Schwierigkeit bei der technischen Umsetzung besteht darin, dass sich komplexe Feature-Kombinationen und gegenseitige Abhängigkeiten ergeben (Sutton and McCallum, 2010, 1). Dieser Schwierigkeit begegnen CRF-Implementierungen, indem sie zur Klassifizierung unterschiedliche graphische Modelle nutzen (Sutton and McCallum, 2010, 2). Dabei handelt es sich um eine Kombination linearer Modelle, die die Wort-Nachbarschaft berücksichtigen, wie z. B. das versteckte Markov-Modell oder das Modell linearer Ketten (Sutton and McCallum, 2010, 8–9 und 18), mit solchen, die zahlreiche Features eines Wortes mit einbeziehen, wie z. B. das Naive-Bayes-Modell (Sutton and McCallum, 2010, 10). Dabei können nicht nur Wörter im direkten Umfeld des jeweils betrachteten mit einbezogen werden, sondern auch solche, die an einer weit entfernten Position im Text stehen, die aber trotzdem Ähnlichkeiten zum betrachteten Wort zeigen (Sutton and McCallum, 2007, 2) nennen z. B. sog. skip-chain-Modelle und (Finkel et al., 2005, 1) Gibbs Sampling. Jedes Wort wird als Teil eines komplexen semantischen Feldes verstanden, in dem es Beziehungen zu anderen Wörtern im Text und zu (eigenen und fremden) Wort-Eigenschaften hat (Sutton and McCallum, 2010, 16).

1.2 NER als Preprocessing und als Unterstützung des hermeneutischen Prozesses

Wie in Abschnitt 5.1.1 bereits erwähnt, wird linguistische NER meist als Preprocessing-Methode klassifiziert, die bereits mit hoher Präzision mit Hilfe von out-of-the-box-Tools genutzt werden kann. Dass NER bereits auf einem hohen Niveau funktioniert, liegt daran, dass in unterschiedlichen Studien zahlreiche Features und Feature-Kombinationen getestet wurden. Bevor in Abschnitt 5.2 beschrieben wird, wie der Feature-Begriff in der NER-Forschung verstanden wird, welche Features getestet wurden, was derzeitig als State of the Art bezeichnet wird und was bei Adaptionen an die deutsche Sprache und die Domäne der Literatur berücksichtigt werden muss, soll hier ergänzend betrachtet werden, welche Chancen die Methode der digitalen Vorhersage birgt, wenn sie nicht nur als Preprocessing verstanden wird.

Die meisten Forschungslinien, in denen NER eine Rolle spielt, haben gemeinsam, dass sie die automatische Erkennung bestimmter sprachlicher Objektklassen optimieren. Das Ziel ist eine vollautomatisierte Annotation dieser Objektklassen in unbekannten Texten. Dies entspricht einem Preprocessing, das geisteswissenschaftlich Forschenden einen Analyseschritt komplett abnimmt. Während des Machine-Learning-Trainings in dieser Untersuchung zeigte sich allerdings, dass die Methode auch anders fruchtbar gemacht werden kann.Footnote 3 Abgesehen davon, dass die CRF-Algorithmen nicht nur zur Annotation von Named Entities im engeren Sinne genutzt werden können, fiel auf, dass der Trainingsprozess an sich zur Schärfung des entwickelten Raummodells beitragen konnte. Die auf Basis der Forschungsliteratur entwickelten Kategorien von Raumdarstellungen können im hermeneutischen Sinne als Vorannahmen betrachtet werden. Diese werden bei der Annotation der Trainingskorpora auf den Text übertragen. Die Erkennungsraten geben Hinweise auf die Präzision der genutzten Kategorien, das Modell wird nachgeschärft, die Annotation der Trainingskorpora überarbeitet und das daraus entstehende CRF-Modell erneut getestet. Bessere oder schlechtere Erkennungsraten geben erneut Hinweise auf den Erfolg der Nachschärfung und das Modell kann bei Bedarf weiter überarbeitet werden. So entsteht ein iterativer Prozess, der dem hermeneutisch-zirkulären Prinzip stark ähnelt und der produktiv für den Erkenntnisgewinn genutzt werden kann. Die Methode wird hier also nicht nur zum Preprocessing genutzt, sondern als ein Kernbestandteil des Forschungsprozesses (ähnlich wie auch in Bögel et al., 2015, passim insbes. 27 und Gius und Jacke, 2015, passim beschrieben).

2 Features

Als Features werden charakteristische Eigenschaften von Wörtern verstanden, die so operationalisiert werden können, dass sie mithilfe von Algorithmen regelbasiert klassifiziert werden können (Sharnagat, 2014, 9–10). Insgesamt können vier Feature-Klassen unterschieden werden:

  1. 1.

    vektorbasierte Features (mathematische Abstraktionen des Texts),

  2. 2.

    wortbasierte Features (Worteigenschaften),

  3. 3.

    Listenfeatures (Verzeichnisse, Lexika),

  4. 4.

    Dokument- oder Korpusfeatures (Worthäufigkeiten, typischer Wortgebrauch) (Li et al., 2020, 4).

Bei der NER werden oft mehrere Regeln zusammen betrachtet und nur bestimmte Kombinationen von Eigenschaften führen letztendlich zur Annotation (Sharnagat, 2014, 9–10). Zwar wird durchaus darauf hingewiesen, dass sorgsame Feature-Auswahl für NER-Systeme, die überwachtes maschinelles Lernen nutzen, erfolgskritisch sein kann (Li et al., 2020, 4), bisher gibt es aber nur wenige Studien, die für die deutsche Sprache und die Domäne der deutschsprachigen Literatur Feature-Kombinationen testen (dazu gehört z. B. Jannidis et al., 2015). Für Kategorien des Raumes in literarischen Texten wurden solche Tests bisher nicht durchgeführt. Da eine technische Testreihe nicht im Fokus dieser Studie steht, kann dies auch hier nicht geleistet werden. Als Feature-Kombination wird darum die 15 Features umfassende Standard-Konfiguration des StanfordNER übernommen. Die genaue Feature-Kombination kann in der Properties-Datei (Raum.prop) im GitHub-Repository des Raum-Classifiers (Schumacher, 2021c) eingesehen werden. Eine Aufschlüsselung der Features findet sich in der StanfordNER-Feature-Factory unter https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/ie/NERFeatureFactory.html [9.6.2021].

3 State of the art und Domänenadaption

Bei der Bewertung von Named-Entity-Recognition-Tools und -Modellen ist zu berücksichtigen, dass den Berechnungen von Erkennungsraten unterschiedliche Parameter zu Grunde liegen können (Marrero et al., 2013, 487–488). Diese können entweder auf den Annotationsprozess vor dem Training zurückzuführen sein, bei dem unterschiedliche Annotationsguidelines verwendet werden können (ebd.). Oder sie werden nach dem Trainingsprozess als Basis der Berechnung selbst festgelegt. Ein grundlegender Unterschied ist z. B., ob nur exakte Übereinstimmungen als korrekte Erkennungen gewertet werden oder ob auch teilweise Übereinstimmungen positiv bewertet werden (Marrero et al., 2013, 487–488; Li et al., 2020, 3–4).

Die Erkennungsgenauigkeit wird üblicherweise in Precision, Recall und F1-Score angegeben (Mikheev et al., 1999, 2). In Rückbezug auf (Sutton and McCallum, 2007, 28) wird hier folgende Token-basierte Variante der Formeln genutzt:

$$\begin{aligned} P(recision)= \frac{Anzahl\ der\ korrekt\ markierten\ Tokens}{Anzahl\ der\ markierten\ Tokens} \end{aligned}$$
(5.1)
$$\begin{aligned} R(ecall)= \frac{Anzahl\ der\ korrekt\ markierten\ Tokens}{Anzahl\ aller\ der\ Kategorie\ zugehoerigen\ Tokens} \end{aligned}$$
(5.2)
$$\begin{aligned} F1(-Score)= (2xPxR) / (P+R) \end{aligned}$$
(5.3)

Die besten NER-Tools für die englische Sprache erreichen Werte von 97 % Precision und 96 % Recall (Marrero et al., 2013, 490–492). Die 16 Systeme, die beim Shared Task zur Entwicklung sprachunabhängiger NER bei der CoNLL03 (Conference on Computational Natural Language Learning 2003) entstanden sind, zeigen Durchschnittserkennungsraten zwischen 60 und 90 % (Marrero et al., 2013, 490–492). StanfordNER zeigte in mehreren Tests eine gute Performanz. Aber, wie Marrero et al. (2013) nachweisen, werden in Tests nicht unbedingt standardisierte Erfüllungskriterien berücksichtigt. In Bezug auf Content Validity, also die Frage, ob die für die Tests genutzten Einheiten die Domäne angemessen repräsentieren, halten sie fest, dass NER Tools suggerieren, dass sie für alle möglichen Kontexte genutzt werden können (Marrero et al., 2013). Trainiert und getestet wurden sie aber nur mit wenigen Kategorien und in einer einzigen Textdomäne (der journalistischen) (Marrero et al., 2013). Als schwächsten Punkt der NER bezeichnen die Autoren die externe Validität also das Kriterium der Übertragbarkeit auf andere Anwendungsbereiche (Marrero et al., 2013). Sie stellen fest, dass die Dokumente, die zur Entwicklung von NER Tools genutzt werden nicht in einem Prozess zusammengestellt wurden, der Zufälligkeit einbezieht (Marrero et al., 2013). Die NER Korpora sind oft klein und unausgewogen. Als Beispiel nennen Marrero et al. ein System von 2005, das auf einem Trainingskorpus von nicht mehr als 50.000 Tokens aus unterschiedlichen, aber allesamt journalistischen, Genres basiert. Sie berichten von Performanzverlusten von 20–40 % bei der Übertragung auf eine andere Domäne (Marrero et al., 2013, 490–492). Aber nicht nur die Texte, auch die Kategorien können stark nach Domäne variieren (Marrero et al., 2013, 489). Statt also Tools generisch zu nutzen, kann es von Vorteil sein, mit eigenen Modellen NER für vollkommen andere Kategorien zu verwenden (Marrero et al., 2013, 489). Dabei sollte allerdings berücksichtigt werden, dass bei Weitem nicht für jede Domäne bereits annotierte Trainingskorpora vorhanden sind und dass selbst annotierte Trainingsdaten häufig zu hochspezifischen Modellen führen, die nicht unbedingt nachgenutzt werden können (Marrero et al., 2013, 489).

NER für die deutsche Sprache

Die deutsche Sprache stand bisher vergleichsweise selten im Fokus von NER-Projekten (Weber and Pötzl, 2014, 158). Eines der ersten frei verfügbaren NER-Modelle für die deutsche Sprache wurde 2010 von Faruqui und Padó vorgestellt. Es wurde mit einem Trainingskorpus von rund 220.000 Tokens erstellt, was in etwa dem Umfang des für das englische Modell verwendeten Trainingskorpus entsprach. Faruqui und Padó nutzten das CoNLL 2003 Korpus, das aus insgesamt 553 Dokumenten besteht. Da es wie oben erwähnt etwa 220.000 Tokens umfasst (was sie als eher kleines Trainingskorpus einstufen), beinhaltet es ca. 400 Tokens / Dokument im Trainingskorpus. Die Testsets umfassten 155 bzw. 201 Dokumente und waren etwa 55.000 Tokens lang, umfassten also etwa 350 bzw. 270 Tokens / Dokument (Faruqui and Padó, 2010, 1–2). Der Recall-Wert lag hier nur bei 64 %, was zeigt, dass sprachspezifische Besonderheiten wie z. B. morphologische Komplexität oder die Verwendung von Groß- und Kleinschreibung sich direkt auf die trainierten Modelle auswirken (vgl. Faruqui and Padó, 2010, 1; Weber and Pötzl, 2014, 158). Mit Hilfe von semantischer Generalisierung gelang es Faruqui und Padó, ihr Modell für die deutsche Sprache so weit zu verbessern, dass es am Ende eine Erkennungsrate von 79,8 % F1-Score erreichte (Faruqui and Padó, 2010, 1–2). Da der Vergleich mit anderen Modellen zeigt, dass nur ein weiteres System eine ähnlich gute Performanz erreicht (um 1 % besser bei der Kategorie „Person“), und zwar das auf dem Parser SynCoP beruhende System von Didakowski et al. (2007), legten diese Modelle für lange Zeit den State of the Art fest.

Im Jahr 2014 wurde mit GermEval eine Shared Task ausgerufen, die zum Ziel hatte, Named Entity Recognition für die deutsche Sprache weiter zu verbessern. Da das am besten abschneidende System hier mit eigenen Testdaten nur 73,26 % erreichte, mit den offiziellen GermEval-Testdaten sogar nur 54,55 % (Weber and Pötzl, 2014, 160–161), wurde allerdings keine Verbesserung gegenüber Faruqui und Padó oder Didakowski et al. erreicht. Erst neueste Studien zur Kombination von CRF-Implementierungen mit Word2Vec erhöhen den State of the Art auf eine Performanz von rund 85 % F1-Score (erreicht mit CoNLL-Vergleichsdaten aus der journalistischen Domäne) (Wiedemann et al., 2018, 6).

Bei der Durchsicht der unterschiedlichen Tooltests fallen zwei Dinge auf. Zunächst einmal hat NER für die deutsche Sprache ohne Word2Vec-Einbezug selten höhere Gesamtwerte erzielt als die Modelle von Faruqui und Padó und Didakowski et al. mit rund 80 % F1-Score. Die vergleichenden Tooltests zeigen aber häufig nicht nur die Gesamterkennungsraten, sondern auch die für einzelne Kategorien. Diese zeigen, dass die Kategorie „Person“ die besten Einzelerkennungsraten erreicht und häufig rund 10 % höhere F1-Scores erreicht als die anderen Kategorien (Faruqui and Padó, 2010, 4).

Für die vorliegende Studie sind neben den Versuchen der Adaption und Entwicklung von NER-Systemen für die deutsche Sprache vor allem auch die Anpassungsbemühungen an die Domäne der literarischen Texte von Bedeutung. Grundsätzlich sollte berücksichtigt werden, dass in der Computerlinguistik bereits etablierte Modelle vor dem Einsatz in der Literaturwissenschaft meist stark überarbeitet und angepasst werden müssen (Kuhn, 2018, 12). Dennoch wird NER durchaus auch mit Hilfe von off-the-shelf-Tools eingesetzt (vgl. Vala et al., 2015). Bisher wurde NER z. B. bereits recht häufig im Zusammenhang mit netzwerkanalytischen Ansätzen genutzt (Vala et al., 2015, 769–770). Wallace verwendete die Methode, um sich narrativen Strukturen in einem Erzähltext zu nähern (vgl. Wallace, 2012). Auch im Zusammenhang mit der Analyse stereotyper Genderdarstellungen und -bewertungen hat sich die Methode als fruchtbar erwiesen, wenn auch hier nur in Kombination mit dem Training eines eigenen Modells (vgl. Schumacher und Flüh, 2020). Neben den eher inhaltlich ausgerichteten Analysen wurden auch bereits erste Trainingskorpora für literaturwissenschaftliche NER publiziert. Für englischsprachige Literatur wurde im Jahr 2019 ein Datenset mit sechs Entity-Kategorien bereitgestellt (vgl. Bamman et al., 2019). Für die deutsche Sprache wurde mit dem DROC (Deutsches Roman Korpus) 2017 annotiertes Trainingsmaterial publiziert, das derzeit für die NER allerdings nur Annotationen der Kategorie „Person“ bzw. „Figur“ aufweist (vgl. Horstmann, 2019) und keine für Raum.

Im Jahr 2007 stellten Borin et al. ein NER-System für schwedischsprachige Literatur des 19. Jahrhundert vor, das sehr gute Erkennungsraten von 89,6–92,8 % F1-Score erreichte (Borin et al., 2007, 7). Für die Kategorie „Location“ waren diese Werte mit 80,5–86,4 % etwas niedriger (Borin et al., 2007, 7). Interessant ist hier auch, dass dieses NER-System ohne Machine-Learning-Komponente auskommt und stattdessen mit einer selbst erstellten Grammatik operiert, die aus Identifikation von regelhaften Hinweisen auf Named Entities, Listenabgleich, Berücksichtigung semantischer Ähnlichkeiten, Informationsdisambiguation und Fehleranalyse beruht (Borin et al., 2007, 3–6). Hier werden außerdem recht viele Named-Entity-Kategorien einbezogen, nämlich acht, die außerdem mit Unterkategorien (insgesamt 57) versehen sind (Borin et al., 2007, 3). Mit LitNER wurde für die englische Literatur auch ein NER-System entwickelt, dass allerdings ausschließlich auf nicht-überwachten Machine-Learning-Techniken beruht (Brooke et al., 2016). Beide Ansätze sind auf die vorliegende Analyse nicht übertragbar, da hier gerade der Prozess des überwachten Lernens in den Mittelpunkt gerückt und für die Interpretation von Kategorien der Darstellung von Raum in der Literatur genutzt wird.

Im Jahre 2015 haben Jannidis et al. das Modell von Faruqui und Padó für deutschsprachige literarische Texte getestet und festgestellt, dass es lediglich einen F1-Score von 31 % erreicht Jannidis et al., 2015, 1–2). Damit ist eine Verringerung von rund 48 % gegenüber dem F1-Score der Ursprungsdomäne zu verzeichnen. Jannidis et al. haben, wie bereits erwähnt, daraufhin die Domänenadaption für die Kategorie der Figur in literarischen Texten vorangetrieben und unterschiedliche Feature-Kombinationen getestet (vgl. Jannidis et al., 2015). Basis der Tests (Trainingsdaten und Testdaten) waren das CoNLL Zeitungskorpus von 2003, ein Romankorpus bestehend aus 130 Sätzen aus 50 Romanen und einer Größe von 140.000 Tokens und einem Romankorpus aus 85 Romanen mit einem Umfang von 265.000 Tokens (Jannidis et al., 2015, 2–3). Für unüberwachte Lernverfahren wurde ein nicht-annotiertes Zeitungskorpus und ein nicht-annotiertes Romankorpus aus 60 Romanen verwendet. Es wurden sechs Basis-Features in unterschiedlichen Kombinationen mit sieben weiteren Features getestet. Die höchste Verbesserung ergab sich durch das Hinzufügen eines Word2Vec-Features (Jannidis et al., 2015, 2–3). Mit der besten Feature-Kombination wurde eine Precision von 94,86 %, ein Recall von 85,6 % und ein F1-Score von 89,98 % bei cross-Validierung (Jannidis et al., 2015, 2–3) und rund 83 % beim leave-one-out-Testverfahren (mehr über die unterschiedlichen Testverfahren in Abschnitt 6.1.2) erreicht (Jannidis et al., 2015, 5).

Damit gibt es ein performantes NER-System für deutschsprachige Erzählliteratur, das eine Kategorie abdeckt und den State of the Art auf 83 % bei leave-one-out-Testverfahren festlegt. NER kann damit allerdings nicht als gelöstes Problem für die Domäne der deutschsprachigen Literatur betrachtet werden. Da aber Systeme wie StanfordNER so konzipiert wurden, dass sie anpassbar sind, können sie zur Adaption weiterer Named-Entity-Kategorien genutzt werden. Dabei ist allerdings zu berücksichtigen, dass wahrscheinlich mittelgroße bis große annotierte Korpora erst noch erstellt werden müssen (Marrero et al., 2013, 494). Neben der Domänenadaption können Verfahren der intensiven Nachanalyse dabei helfen, die automatische Erkennung für die Literaturwissenschaft fruchtbar zu machen (Kuhn, 2018, 28).

4 Methodenkritik

Machine-Learning-Methoden können die literaturwissenschaftliche Annotation in mehrfacher Hinsicht voranbringen. Ein fertig trainiertes Tool kann zu enormer Zeitersparnis führen und ermöglicht es darum häufig, größere Textmengen zu berücksichtigen. Außerdem kann ein reflektierter Machine-Learning-Prozess sehr zur Erstellung, Überarbeitung und Schärfung von Kategorien und Kategoriensystemen beitragen. Aber die Methode weist auch einige Mängel auf, die nicht nur benannt sein sollen, sondern im Verlauf der hier dokumentierten Studie auch laufend mitgedacht und berücksichtigt werden.

4.1 Problematik der suggerierten Objektivität

NER ist eine Technik, die aus vielen bis sehr vielen Daten lernt, bestimmte Kategorien in Texten zu erkennen, die nicht im Trainingsmaterial enthalten sind und die auf Worteigenschaften basierende Features vergleicht und auswertet, um auf dieser Basis Vorhersagen darüber treffen zu können, welche Wörter in diese Kategorie fallen. Diese Charakteristik des Machine Learnings führt dazu, dass Implementierungen dieser Art den Eindruck vermitteln, vom Menschen unabhängig, selbsttätig und damit rein maschinell und objektiv zu funktionieren. Aber dieser Eindruck täuscht. Zwar wird im bereits beschriebenen Operationalisierungsprozess tatsächlich der Versuch unternommen, Kategorien möglichst klar zu fassen und zu beschreiben, Features ganz klar zu definieren und damit die Variablen genau zu kontrollieren. Das ändert aber nichts daran, dass dieser Prozess in hohem Maße von Interpretationen abhängt. Die Auswahl der Trainingsdaten beruht ebenso auf Interpretation wie die der Kategorien. Auch was genau in diese Kategorien fällt und darum in der Vorbereitung des Trainingsprozesses auf bestimmte Weise annotiert wird, ist subjektiv und interpretationsbedingt. Dass in der Tat der gesamte Modellierungsprozess digitaler Studien ein subjektiver ist, stellt auch Piper seinen Distant-Reading-Analysen Enumerations voran (Piper, 2018, 11–12). Auf ähnliche Weise legt auch Dobson die Subjektivität des digital-geisteswissenschaftlichen Forschungsprozesses seinen Ausführungen in Critical Digital Humanities zu Grunde (Dobson, 2019, 20). Selbst wenn dieser Prozess intersubjektiv oder gar projektübergreifend durchgeführt wird (wie z. B. in der Shared Task von Willand, Gius und Reiter 2019), ist das Ergebnis nicht objektiv, sondern basiert auf Interpretationen. Die Beteiligung menschlicher Individuen am Trainingsprozess kann aber immerhin durch Kooperationen diversifiziert und somit ein Schritt in Richtung Überindividualität gemacht werden. Annotieren zwei oder mehr Personen ein Korpus, so kann die Übereinstimmung auf Grundlage eines Inter-Annotator-Agreements (mehr dazu in Abschnitt 6.3) berechnet und die Annotation weiter verfeinert werden.

In dieser Studie ist das allerdings aufgrund des Forschungssettings als Einzelstudie weitgehend unmöglich. Darum soll an dieser Stelle betont werden, dass die Methode des maschinellen Lernens nicht nur nicht objektiv ist, sondern, dass sie in dieser Arbeit höchst subjektiv eingesetzt wird. Da aber viele literaturwissenschaftliche Methoden interpretativ sind und trotzdem verwertbare und belastbare Erkenntnisse hervorbringen, wird die mangelnde Objektivität hier zwar berücksichtigt, sie führt aber nicht dazu, die bereits beschriebenen Vorteile der Methode auszuhebeln.

4.2 Problematik der unausgewogenen Ausgangsdaten

Eine ähnliche Problematik ist die mangelnde Repräsentativität der Datenbasis. Da hier mit literarhistorischen und zeitgenössischen Texten gearbeitet wird, die in digitaler Form vorliegen müssen, ist die Auswahl der Primärtexte von vornherein begrenzt. Bei den Texten aus dem 18.–20. Jahrhundert handelt es sich zum großen Teil um kanonisierte Werke. Es sind also Texte, die von Kritik, Wissenschaft, Literaturbetrieb, Bildungseinrichtungen und ähnlichen Instanzen als so bedeutsam eingestuft wurden, dass sie ihren Weg in den literarischen Kanon gefunden haben. Diese Auswahl kann keinesfalls als repräsentativ für die Literaturproduktion einer bestimmten Zeit betrachtet werden. Hinzu kommt, dass die Datenbasis hier im Vergleich zu anderen Projekten, in denen Machine Learning zum Einsatz kommt, sehr klein ist. Hier kommen neben der begrenzten Textauswahl auch Aspekte der Performanz der eingesetzten Tools und Analysemethoden zum Tragen. Auch wenn hier das Kernkorpus nur 100 Texte umfasst, so sind die darin automatisch eingefügten Annotationen bereits so zahlreich, dass das eingesetzte Auswertungs- und Visualisierungstool CATMA an seine Grenzen stößt. Noch entscheidender ist aber, dass die Menge der Daten bereits so umfangreich ist, dass die Ergebnisse nur noch wenige besondere Phänomene zeigen. Da hier aber nicht nur Gemeinsamkeiten, sondern auch Unterschiede und Besonderheiten der vier Teilkorpora und deren literarhistorische Entwicklungen gezeigt werden sollen, hat sich die Größe der Datenbasis im Hinblick auf das Ziel dieser Studie als angemessen erwiesen. Dabei muss natürlich stets berücksichtigt werden, dass es sich nicht um eine repräsentative Auswahl handelt und dass sich in dieser Auswahl eine Reihe versteckter Vorannahmen verbirgt, die nicht alle bewusst gemacht und kontrolliert werden können. Im Hinblick auf die Zusammenstellung wurde durch die Wahl eines Zufallssystems allerdings der Versuch unternommen, zumindest an dieser Stelle keine weitere subjektive Verzerrung hinzuzufügen.

4.3 Problematik der Binarität

Ein in methodischer Hinsicht zentrales und grundlegendes Problem der literaturwissenschaftlichen Verwendung von Machine-Learning-Methoden und insbesondere der NER, ist, dass die hier verwendeten Kategorien binär im Hinblick auf die Zugehörigkeit angelegt sind. Das heißt, dass die Grundannahme lautet: Entweder etwas (ein Wort, eine Phrase, ein Absatz) fällt in eine der NER-Kategorien oder nicht. Nun sind aber literarische Texte bis hin zu ihren kleinsten Einheiten ambivalent oder sogar mehrdeutig. Dass ein literaturwissenschaftliches Phänomen eindeutig in eine Kategorie und nicht gleichzeitig noch mindestens in eine andere fällt, ist eher selten. In der hier dokumentierten Studie hat sich die Problematik der binären Kategorienzuordnung sehr deutlich gezeigt. Schon während des iterativen Trainingsprozesses des CRF-Modells, das im folgenden Kapitel beschrieben wird, traten häufig Momente ein, in denen ich die bisherige Kategorienzuordnung plötzlich hinterfragt und dann manchmal umorganisiert habe, sodass die Annotation von neuem beginnen musste. Am Ende war die sehr genaue Erstellung von Annotationsguidelines mit bestimmten Festsetzungen der hier gewählte Weg, um trotzdem zu einem relativ klar definierten Kategoriensystem zu kommen. Doch auch wenn die Höherordnung einzelner Kategorien über andere und die damit verbundene Wenn-dann-Logik „wenn ein Wort in diese Kategorie fallen kann, ist das wichtiger als die zusätzliche Zugehörigkeit zu einer anderen“, eine praktikable Strategie ist, so löst sie die in den Texten, manchmal in einzelnen Wörtern, angelegten Mehrdeutigkeiten nicht auf. Um diese besser einschätzen zu können, wurde ein Test zum Inter-Annotator-Agreement mit zwei voneinander unabhängig annotierenden LiteraturwissenschaftlerinnenFootnote 4 durchgeführt (vgl. Abschnitt 6.3). Auch bei dieser Problematik ist der einzig gangbare Weg die Reflexion und Bewusstmachung, dass am Ende von mit Machine Learning unterstützten literaturwissenschaftlichen Studien nur eine von mehreren möglichen Lesarten steht.