1 Einleitung

Zum Verhältnis der hermeneutischen und der quantitativen Literaturwissenschaften besteht eine Reihe von Argumentationsmustern, nach denen die letzteren von Fall zu Fall als Retter, Herausforderer, Sargnagel oder Ergänzung der ersteren gesehen werden. Alle diese Argumentationsmuster haben ihren Charme und ihre Schattenseiten, ihre Berechtigung und ihre Grenzen. In der Tat entscheidet sich die Frage nach dem Verhältnis von hermeneutischen und quantitativen Verfahren in den Literaturwissenschaften nicht ein für alle Mal. Ihre Beantwortung hängt jeweils davon ab, welche Gruppe von Methoden und Verfahren aus dem reichen Fundus der quantitativen Literaturwissenschaften gerade infrage steht und auf welchem Stand der Entwicklung sich diese befindet.

Der vorliegende Beitrag behandelt einen spezifischen Bereich der Literaturwissenschaften: den der Zuschreibung von Bedeutung zu Wörtern und der Interpretation von literarischen Texten. Im Gegensatz zu anderen Teilbereichen der Literaturwissenschaften, in denen digitale Methoden und Verfahren mittlerweile als gut etablierte, wenn nicht gar dominante Teile des Methodenrepertoires verstanden werden können ‒ man denke an die Editionswissenschaften (die sich mit der Repräsentation textueller Phänomene befassen) oder die Autorschaftsattribution (die sich mit der lexikalischen und stilistischen Ähnlichkeit von Texten befasst) ‒, ist die Interpretation von Texten ein Bereich, der die Herausforderung durch quantitative Verfahren lange Zeit erfolgreich abwehren konnte. In diesem Bereich schien bisher nur ein arbeitsteiliges Verhältnis denkbar, bei dem digitale Methoden und Tools die Suche in Texten und die Exploration von Texten erleichtern, aber der Beitrag der Forschenden unabdingbar bleibt, wenn es darum geht, Texten Bedeutung zuzuschreiben und kontextabhängige Interpretationen anzubieten.

Auch wenn die Geschichte der quantitativen Semantik weit zurückreicht,Footnote 1 so haben sich doch in den letzten fünf bis zehn Jahren neue statistische Zugänge zu Bedeutung in Texten in einer äußerst dynamischen Weise entwickelt. Dazu gehören unter anderem das Topic ModelingFootnote 2 und die Sentiment-Analyse.Footnote 3 Außerdem gilt dies für den großen Bereich der Vektorensemantik,Footnote 4 in den auch die hier verhandelten Word Embedding Models (im Folgenden WEM) fallen. Für den teils spektakulären Aufschwung dieser Methoden sind mehrere Entwicklungen entscheidend gewesen: erstens massive Digitalisierungsaktivitäten und das ubiquitär gewordene Internet, durch die mehr und mehr umfangreiche Textdaten entstehen und verfügbar sind,Footnote 5 zweitens die Tatsache, dass auch die verfügbare Rechenleistung massiv angestiegen ist und insbesondere die parallele Ausführung von Matrizenoperationen, wie sie für massiv iterative Verfahren wie neuronale Netze wichtig sind, durch die Verfügbarkeit darauf spezialisierter, leistungsfähiger Grafikkarten auch ohne aufwendige Cluster-Architekturen möglich geworden ist. Und drittens das ausgeprägte Interesse nicht nur der akademischen Forschung, sondern auch der datenorientierten digitalen Großkonzerne, die in die Entwicklung entsprechender Methoden investieren. Gleichzeitig sind neue theoretische Einsichten in Modelle der mentalen Repräsentation konzeptueller BedeutungFootnote 6 und Arbeiten zur Beziehung zwischen der schwer fassbaren lexikalischen Bedeutung und der mathematisch gut greifbaren Geometrie erschienen.Footnote 7 Zudem haben die neuen semantischen Technologien in Anwendungsbereichen wie der kognitiven Psychologie (u. a. bspw. Language Acquisition) oder dem Natural Language Processing (Machine Translation, Chat-Systeme) bereits erstaunliche Fortschritte ermöglicht. Aus diesem Grund stellt sich die Frage derzeit erneut: Sind quantitative Ansätze zu textueller Semantik im Begriff, die Rolle des Herausforderers etablierter Methoden der Textinterpretation in den Literaturwissenschaften einzunehmen?

Es ist nicht möglich, im Rahmen eines Einzelbeitrags alle Methoden der quantitativen Semantik zu diskutieren, die für diese Fragestellung relevant wären. Der vorliegende Beitrag konzentriert sich daher auf eine derzeit besonders aktuelle Variante der Vektorensemantik, die WEM oder auch Distributional Semantic Models, die in verschiedenen Varianten und Implementierungen vorliegen. Während die klassische Vektorensemantik auf einer Term-Dokument-Matrix operiert und in erster Linie Aufgaben wie das Retrieval, die Klassifikation oder das Clustering von Dokumenten ermöglicht, beziehen sich WEM auf eine Term-Kontext-Matrix, wobei der Kontext nicht ein ganzes Dokument, sondern ein bestimmtes Fenster um das Zielwort herum ist. Sie erlauben es entsprechend, die Ähnlichkeit von Einzelwörtern zu ermitteln und darauf aufbauende Tasks wie Klassifikation oder Clustering, die Disambiguierung von Wortbedeutungen, die Bildung von Thesauri oder Query Expansion zu ermöglichen.Footnote 8

Die Ziele des vorliegenden Beitrags sind, einige Grundprinzipien von WEM darzustellen, einen orientierenden Überblick über aktuelle Anwendungsszenarien in den digitalen Literaturwissenschaften anzubieten und über die Implikationen dieser Methoden für die Literaturwissenschaften der Zukunft nachzudenken. Der Beitrag wird daher, erstens, die konzeptionellen und statistischen Grundlagen von WEM skizzieren. Zweitens werden einige grundlegenden Abfragemechanismen solcher Modelle aufgezeigt. Drittens werden einige Anwendungsbereiche von WEM im Dienste anderer quantitativer Verfahren der Textanalyse erläutert. Schließlich werden mehrere eigenständige Anwendungsbereiche von WEM für Fragestellungen aus den Literaturwissenschaften dargestellt, bevor ein Fazit erfolgt.

2 Was sind Word Embedding Models (WEM)?

Die Annahme, die der Vektorensemantik allgemein ebenso wie den Word Embedding Models zugrunde liegt, ist die sogenannte Distributional Hypothesis, der zufolge Wörter, die in ähnlichen Kontexten erscheinen, auch eine ähnliche Bedeutung (und ggf. ähnliche morpho-syntaktische Funktion) haben. Diese Annahme steht im Gegensatz zu formalen und referenziellen Theorien der Wortsemantik, die annehmen, dass die Bedeutung eines Wortes von seinem abstrakten oder konkreten Referenten abhängt. Dieses Prinzip der distributionellen Semantik wurde schon in den 1950er Jahren formuliertFootnote 9 und ihre konkrete Nutzung für die kognitive Psychologie und quantitative Semantik mindestens seit den späten 1980er Jahren exploriert.Footnote 10 Zu den wichtigsten frühen methodischen Ansätzen zählen hier die Arbeiten von Gerald Salton u. a. (1975) zum Vector Space Model für die Repräsentationen von Dokumenten und Queries im Information Retrieval,Footnote 11 von Rumelhart und McClelland (1986) zum Parallel Distributed ProcessingFootnote 12 sowie die von Deerwester u. a. 1990 entwickelte Latent Semantic Analysis (LSA).Footnote 13 Letztere beruht auf einer Methode aus der Matrizenrechnung, der sogenannten Singular Value Decomposition (SVD), um Kookkurrenzen von Wörtern zu berechnen.Footnote 14 Landauer u. a. schreiben:

Latent Semantic Analysis (LSA) is a theory and method for extracting and representing the contextual-usage meaning of words by statistical computations applied to a large corpus of text (Landauer and Dumais, 1997). The underlying idea is that the aggregate of all the word contexts in which a given word does and does not appear provides a set of mutual constraints that largely determines the similarity of meaning of words and sets of words to each other. The adequacy of LSA’s reflection of human knowledge has been established in a variety of ways.Footnote 15

Frühe Anwendungsszenarien der LSA und ähnlicher Verfahren kamen insbesondere aus der kognitiven PsychologieFootnote 16 und dem Information Retrieval. Heute ist LSA nicht nur als eine wegweisende Methode der Vektorsemantik zu verstehen, sondern auch als Vorläufer des äußerst populären Topic Modelings (bzw. einer seiner Varianten, der Latent Dirichlet Allocation oder LDA).

Die WEM erfuhren 2013 einen weiteren, entscheidenden technischen Durchbruch mit einem Vorschlag von Mikolov u. a.,Footnote 17 wie WEM auch auf der Grundlage sehr umfangreicher Textdatensätze effizient ermittelt werden können: das sogenannte word2vec-Verfahren zur Transformation von Wörtern zu Vektoren. Aufbauend auf Erfahrungen mit verschiedenen Varianten neuronaler Netze, schlagen Mikolov u. a. zwei Verfahren vor, die beide neuronale Netze einsetzen, dabei aber Modellarchitekturen verwenden, die durch einige vereinfachende Annahmen weniger komplex und rechenintensiv als vorige Architekturen sind.Footnote 18 Zugleich, so das Ziel von Mikolov u. a., sollte die Qualität der resultierenden WEM nicht nur gleich bleiben, sondern auch noch gesteigert werden können, zumindest unter der Voraussetzung, dass auch entsprechend umfangreiche Textdaten für das Training vorhanden sind. Diese beiden Architekturen nennen die Autoren CBOW (Continuous Bag-of-Words) und Skip-Gram. Weitere derzeit viel genutzte Architekturen sind u. a. GloVeFootnote 19, FasttextFootnote 20 und SVD-PPMIFootnote 21.

Stellvertretend für die genannten Verfahren soll hier das CBOW-Verfahren in seinen Grundzügen vorgestellt werden. Wie auch bei dem Skip-Gram-Verfahren wird hier ein einfaches neuronales Netzwerk mit drei Schichten eingesetzt: einem Input Layer, einem Projektionslayer und einem Output Layer. Das Netzwerk wird trainiert, indem nach und nach Trainingsdaten präsentiert werden, wobei ein Satzfragment nach dem anderen als Input dient. Aufgabe des Netzwerkes ist es im Falle der CBOW-Architektur, auf der Grundlage von jedem der Kontextwörter (in einem Fenster von beispielsweise drei Wörtern vor und nach dem Zielwort) jeweils das Zielwort vorherzusagen. Das Netzwerk bekommt also Satzfragmente präsentiert, in denen das zentrale Zielwort fehlt. Ein Satz aus Georges Perecs La Vie mode d’emploi (Das Leben Gebrauchsanweisung) lautet beispielsweise: „Morellet hatte ein Zimmer unter den Dächern, im achten Stock.“

Aus diesem Satz lassen sich unter anderem die Inputfragmente in Tab. 1 ableiten, wobei das jeweilige Zielwort in der Mitte der Sequenz ausgelassen wird.

Tab. 1 Kontextwörter und Zielwort in der CBOW-Architektur

Ein wichtiger Vorteil einer solchen Architektur ist, dass die Trainingsdaten (Kontextwörter als Input und korrekte Antwort) unmittelbar und automatisch aus den Textdaten abgeleitet werden können, ohne dass eine manuelle Annotation der Zielwörter notwendig ist. So kann, das Vorhandensein ausreichender Mengen an Text vorausgesetzt, leicht das notwendige, sehr umfangreiche Trainingsmaterial eingesetzt werden.

Der Input Layer repräsentiert nun nach und nach jeweils die Kontextwörter, wobei die Repräsentation nach dem Prinzip eines One-Hot Vectors geschieht, d. h. als ein Vektor, in dem jede Position einem Wort im Gesamtvokabular entspricht, und das Wort kodiert wird, indem nur die eine ihm entsprechende Position im Vektor den Wert 1 bekommt, während alle anderen 0 erhalten. Der Output Layer kodiert die Vorhersage des Zielworts durch das Netzwerk, indem jedes Wort im Vektor des Gesamtvokabulars einen Wert zwischen 0 und 1 zugeordnet bekommt, der seiner Wahrscheinlichkeit im gegebenen Kontext entspricht. Im Falle des Inputs „Morellet hatte ein … unter den Dächern“ werden mehrere Wörter ähnliche Wahrscheinlichkeiten haben, denn es könnte sich ja hier aufgrund des inhaltlichen und grammatikalischen Kontextes nicht nur um ein Zimmer (wie hier tatsächlich der Fall), sondern beispielsweise auch um ein Appartement oder ein Labor handeln. Weil das Netzwerk sehr viele solcher und ähnlicher Satzfragmente präsentiert bekommt, lernt es aber sowohl, welches Wort für jeden Kontext die wahrscheinlichste Variante ist, als auch, welche Wörter in ähnlichen Kontexten ähnliche Wahrscheinlichkeiten haben.

Zugleich entsteht in dem Projection Layer eine Repräsentation der Zielwörter. (Diese ist wesentlich wichtiger als der eigentlich gelernte Task, der, für sich genommen, nur wenige konkrete Anwendungsszenarien unterstützt, wie beispielsweise die automatische Korrektur von durch OCR ermitteltem Text.) Der Projection Layer vermittelt zwischen Input Layer und Output Layer und repräsentiert jedes Wort des Vokabulars in einem gemeinsamen Vektorraum. Sie wird mit zufälligen Werten initialisiert und dann durch das Zusammenspiel einer Optimierungsfunktion mit den Trainingsdaten iterativ verbessert. Wörter, die in ähnlichen Kontexten vorkommen können, müssen sich morpho-syntaktisch und semantisch ähnlich sein, weil sie in ähnliche Leerstellen ‚passen‘ müssen. Aufgrund der Anforderung, dass sie in ähnlichen Kontexten ähnliche Wahrscheinlichkeiten haben, ähnelt sich schließlich auch ihre Repräsentation in der Projection Layer. Anders als Input Layer und Output Layer, deren Dimensionalität dem Umfang des Vokabulars (also der Anzahl der unterschiedlichen Wörter) in den Trainingsdaten entspricht, hat der Projection Layer in der Regel eine weit geringere Dimensionalität. Üblich ist für die Anzahl der Dimensionen eines WEM-Modells zwischen 100 und mehreren Hundert. Es ergibt sich also für den Projection Layer eine Matrix der Form ‚Vokabular x Dimensionen‘. Gegenüber den hochdimensionalen, überwiegend mit ‚0‘ besetzten Kontextvektoren, die daher auch als Sparse Representation bezeichnet werden, ist diese Projection Layer ein Vektorraum, in dem jedes Wort des Vokabulars einen je unterschiedlichen Wert in jeder der vergleichsweise wenigen Dimensionen hat. Daher spricht man auch von einer Dense Vector Representation.

Der wesentliche Unterschied zwischen der CBOW-Architektur und der ebenfalls von Mikolov u. a. vorgeschlagenen Skip-Gram-Architektur ist folgender: In der CBOW-Architektur werden Kontextwörter präsentiert, und es sollen Wahrscheinlichkeiten für die Leerstelle in ihrem Zentrum vorhergesagt werden, während bei der Skip-Gram-Architektur umgekehrt ein Zielwort präsentiert wird und die Wahrscheinlichkeiten der Kontextwörter vorhergesagt werden sollen. Das Ergebnis, der Projection Layer, ist aber vergleichbar. Beide Verfahren haben etwas unterschiedliche Eigenschaften, was die Sensitivität für morphologische, syntaktische und semantische Ähnlichkeit von Wörtern angeht und was die Qualität der resultierenden Word Embeddings für verschiedene Aufgaben wie semantische Ähnlichkeit, Analogiebildungs-Tasks oder morphologische Ableitungs-Tasks betrifft. Und auch die jeweils verwendeten Optimierungsverfahren und andere Parameter (wie bspw. die Größe des Kontextfensters, die Anzahl der Dimensionen des Projection Layers und natürlich die Menge des Trainingsmaterials) können sich auf die spezifischen Eigenschaften eines resultierenden WEM auswirken.Footnote 22 Generell kann man dennoch festhalten, dass man in einem solchen Modell sowohl den Grad der räumlichen Nähe als auch die räumlichen Beziehungen zwischen Wörtern nutzen kann, um Informationen über die semantische Ähnlichkeit oder die semantischen und morpho-syntaktischen Beziehungen zwischen Wörtern zu ermitteln. Dabei wird die semantische Ähnlichkeit zweier Wörter in der Regel als die Cosinus-Distanz zwischen den beiden Vektoren der Wörter im WEM gemessen,Footnote 23 auch wenn selbstverständlich auch andere Distanz- bzw. Ähnlichkeitsmaße denkbar sind.

Dabei ist das Verfahren nicht prinzipiell auf die Modellierung von Einzelwörtern begrenzt. Einige interessante Erweiterungen des Verfahrens betreffen vielmehr die Modellierung nicht nur von Einzelwörtern, sondern auch von Wortverbindungen („Los Angeles“, „New York Times“), Phrasen und idiomatischen Ausdrücken („take it easy“, „bite the dust“) oder auch von größeren Einheiten bzw. umgekehrt die Berücksichtigung kleinerer Einheiten als Wörter (bspw. Morpheme). Im Folgenden werden jedoch nur Modelle auf der Ebene von Einzelwörtern eine Rolle spielen.

3 Grundlegende Abfragemöglichkeiten von WEM

Die folgende DarstellungFootnote 24 einiger Einsatzmöglichkeiten von WEM greift auf zwei Modelle zurück: Das eine wurde auf der Grundlage von 1200 französischen Romanen (erschienen zwischen 1900 und 2010) erstellt, das andere auf der Grundlage der vollständigen französischen Wikipedia.Footnote 25 Um den Einfluss der Morphosyntax zumindest zu reduzieren, sind die beiden hier verwendeten Modelle einerseits mit lemmatisierten Wortformen berechnet worden; andererseits ist die Information über die Wortart jedem Lemma mitgegeben worden. (Für einige Details zu den verwendeten Texten und den wesentlichen Parametern der Modelle siehe die Hinweise im Anhang.)

Es ist nicht trivial, sich einen Eindruck von einem Word Embedding Model zu machen, in dem jedes Wort aus einem Vektor mehrerer Hundert Dimensionen besteht. Ein mögliches Vorgehen ist, bestimmte Teilmengen des Gesamtvokabulars zu selektieren und diese in zwei Dimensionen zu visualisieren. Abb. 1 zeigt eine solche Darstellung, wobei hier die 5800 häufigsten Substantive im Wikipedia-Modell von den 300 Dimensionen des Modells auf zwei Dimensionen projiziert wurden, wofür eine spezifische Methode der Dimensionalitätsreduktion eingesetzt wurde (t-SNE).Footnote 26 Es sind hier Gruppen oder Cluster von Wörtern erkennbar, und bei näherer Betrachtung zeigt sich, dass diese Gruppen jeweils aus semantisch verwandten Wörtern bestehen. Einige dieser Gruppen wurden in der Abbildung manuell mit einem Label versehen. Das Label ‚music‘ (rechts unten) benennt beispielsweise eine Gruppe, in der die folgenden Wörter vorkommen: „bassiste“, „trompettiste“, „instrumentaliste“, „percussionniste“, „répertoire“, „chanteur“, „improvisation“, „musicologue“, „musique“, „fanfare“ und einige mehr.

Abb. 1
figure 1

Projektion eines Teils eines Word Embedding Models auf zwei DimensionenFootnote

5800 häufigste Substantive, Wikipedia-Modell. Bildlizenz: Creative Commons Attribution International 4.0 (CC-BY).

Aufgrund des schieren Umfangs eines solchen WEM, sowohl was die Anzahl der Wörter als auch die Anzahl der Dimensionen angeht, bleibt ein solcher Ansatz aber unbefriedigend. Zudem werden so nur die Ähnlichkeitsbeziehungen im zweidimensionalen Raum sichtbar, der ja aufgrund einer massiven Dimensionalitätsreduktion und damit unter Informationsverlust entstanden ist, nicht aber die eigentlich im vieldimensionalen Raum gegebenen Näheverhältnisse. Einen besseren Eindruck von einem WEM bekommt man, indem man verschiedene, grundlegende Abfragen vornimmt. Es folgt daher nun die Illustration einiger solcher Abfragemöglichkeiten, bevor auf weiterführende und inhaltlich komplexere Anwendungsbereiche für Fragestellungen aus den Digitalen Literaturwissenschaften eingegangen wird.

3.1 Ähnlichkeit von Wörtern

Ein WEM kodiert, wie bereits dargelegt, die räumlichen Beziehungen von Wörtern in einem vieldimensionalen Vektorraum. Die übliche Interpretation der räumlichen Nähe ist dabei semantische Ähnlichkeit, wobei berücksichtigt werden sollte, dass auch morpho-syntaktische Ähnlichkeit eine wichtige Rolle spielen kann.

Abb. 2 zeigt eine abstrakte, vereinfachte Repräsentation von Wörtern in einem solchen Vektorraum. Die Abbildung illustriert die Idee, dass sich Wörter mit besonders ähnlichen Bedeutungen besonders nahe stehen werden: Ananas und Mango befinden sich nahe beieinander, weil es sich jeweils um essbares Obst handelt; das Gleiche gilt für Aubergine und Tomate, weil es sich jeweils um Gemüse handelt. Während sich also verschiedene Obstsorten sehr nahestehen und verschiedene Gemüse ebenfalls, befindet sich zwischen der Gruppe der Obstsorten und der Gruppe der Gemüse eine etwas größere Distanz. Zugleich teilen sich die Obstsorten und Gemüse auch wiederum einen gemeinsamen Bereich des Vektorraums, denn es handelt sich ja in allen Fällen um Lebensmittel. In einem wirklichen WEM hat ein solcher Vektorraum wie erwähnt nicht wie hier nur drei, sondern mindestens 50 bis mehrere Hundert Dimensionen. Und natürlich sind nicht nur vier Wörter in ihm verortet, sondern der größte Teil des in einer Textsammlung vorfindbaren Vokabulars, das leicht in einer Größenordnung von mehreren zehntausend Wörtern liegen kann.

Abb. 2
figure 2

Räumliche Nähe und semantische Ähnlichkeit im Vektorraum (illustratives, künstliches Beispiel)Footnote

Bildlizenz: Creative Commons Attribution International 4.0 (CC-BY).

Das Prinzip, dass räumliche Nähe als Indikator für semantische Ähnlichkeit gilt, kann zunächst einmal dafür eingesetzt werden, um die einem bestimmten Suchbegriff nächsten – also semantisch ähnlichsten – Begriffe zu finden. Dies wird nun an realen Suchabfragen in dem WEM gezeigt, das auf der französischen Wikipedia basiert. Der folgende Output ergibt sich bei Verwendung des Wikipedia-Modells, wenn man nach den zehn Wörtern fragt, die dem Substantiv „poésie“ (dt. Dichtung) am ähnlichsten sind:

Abfrage: „[poésie_nom, 10]“

Ergebnis: {"poétique_adj" : 0.841208, "poème_nom" : 0.789321, "prose_nom" : 0.732649, "littérature_nom" : 0.714615, "poète_nom" : 0.703788, "poétique_nom" : 0.701020, "poésie_nam" : 0.700259, "anthologie_nom" : 0.695312, "littéraire_adj" : 0.654449, "sonnet_nom" : 0.650843}

Die Werte liegen grundsätzlich zwischen -1 (geringste Nähe bzw. geringste semantische Ähnlichkeit) und 1 (größte Nähe bzw. größte semantische Ähnlichkeit). Wir sehen hier, dass „poétique“ und „poème“ dem Suchwort „poésie“ dem Modell zufolge semantisch am ähnlichsten sind, was natürlich ebenso einleuchtend wie trivial ist. Interessant, und ein erster Hinweis auch auf mögliche Komplikationen mit einem solchen Modell, ist die Tatsache, dass auch „prose“ einen sehr hohen Ähnlichkeitswert zu „poétique“ hat. Das mag daran liegen, dass der Ausdruck „prose poétique“ sehr häufig in der Wikipedia vorkommt oder dass die beiden Begriffe schlicht oft gemeinsam verwendet werden; es wird jedoch deutlich, dass hier die Tatsache, dass „prose“ und „poésie“ in vielen Kontexten als Gegensätze verstanden werden, nicht eindeutig ablesbar wird. Im Kontext einer thematisch äußerst breit gefassten französischen Enzyklopädie sind Prosa und Poesie sich semantisch sehr nahe, im spezifischen Kontext des Redens über literarische Texte mag das anders sein. Jedes WEM, so zeigt sich hier bereits, spiegelt die Verhältnisse wider, die im jeweils zugrundeliegenden Textmaterial vorliegen.

Eine weitere Abfragemöglichkeit, die ebenfalls auf der Äquivalenz von räumlicher Nähe und semantischer Ähnlichkeit beruht, ist die Abfrage, wie ähnlich sich zwei Suchbegriffe sind. Als Beispiel sollen hier zwei Abfragen gegenübergestellt werden, einerseits die Ähnlichkeit von „poésie“ und „littérature“, andererseits diejenige von „prose“ und „littérature“.

Abfrage: „['prose_nom', 'littérature_nom']“

Ergebnis: 0.511518681366

Abfrage: „['poésie_nom', 'littérature_nom']“

Ergebnis: 0.714615326722

Hier zeigt das Ergebnis, dass sich offenbar Dichtung und Literatur semantisch ähnlicher sind als Prosa und Literatur – was einleuchtet, wenn man bedenkt, dass nur wenig Dichtung als nicht-literarisch, dagegen sehr viel Prosa als nicht-literarisch gilt.

3.2 Umgang mit Mehrdeutigkeit: Disambiguierung

Schon bei der Ähnlichkeitssuche wird deutlich, dass der wesentliche Gedanke bei Abfragen auf WEM ist, dass sich semantische Relationen in mathematische Basisoperationen übersetzen lassen. Ein weiteres eindrückliches Beispiel hierfür ist auch das Phänomen der Disambiguierung von mehrdeutigen Wörtern.Footnote 29

Zur Veranschaulichung soll hier das Wort „morceau“ dienen, das im Französischen sowohl ein Musikstück als auch ein Fragment eines Objektes bezeichnet. Nutzt man eine einfache Abfrage nach den Worten, die „morceau“ ähnlich sind, erhält man im Fall des Wikipedia-Modells eine Wortliste, die ganz auf die musikalische Bedeutung fokussiert ist.

Abfrage: „[positive = 'morceau_nom']“

Ergebnis: {"chanson_nom" : 0.651456, "intro_nom" : 0.612073, "sample_nom" : 0.605997, "album_nom" : 0.590941, "remix_nom" : 0.588218}

Formuliert man allerdings „V(morceau) − V(chanson)“, subtrahiert also gewissermaßen vom Vektor für „morceau“ den Vektor für das ähnlichste Wort mit musikalischem Wortsinn, erhält man Wortlisten, die nur Wörter beinhalten, die dem anderen, nicht-musikalischen Wortsinn entsprechen:

Abfrage: „[positive = 'morceau_nom', negative = 'chanson_nom']“

Ergebnis: {"lamelle_nom" : 0.389208, "fragment_nom" : 0.379389, "découpe_nom" : 0.377873, "copeau_nom" : 0.349306, "clou_nom" : 0.330705, "débris_nom" : 0.330573}

Die kontextabhängige Modellierung von Wortbedeutung in WEM ist ebenfalls Gegenstand der Forschung.Footnote 30

3.3 Analogiebeziehungen

Über die einfachen Ähnlichkeitsbeziehungen und die Disambiguierung durch Subtraktion hinaus konnte gezeigt werden, dass WEM auch in erstaunlich präziser Weise Analogiebeziehungen kodieren. Damit ist gemeint, dass in einem WEM nicht nur die räumliche Nähe zwischen Wörtern informationstragend ist, sondern auch die relative Position von Wörtern zueinander relevante Informationen kodiert, nämlich Bedeutungsrelationen. An einem Beispiel aufgezeigt: Richtung und Länge der Linie, die von „pommier“ (‚Apfelbaum‘) zu „pomme“ führt, sind nahezu identisch zu Richtung und Länge der Linie, die von „poirier“ (‚Birnbaum‘) zu „poire“ (‚Birne‘) führt oder von „cerisier“ (‚Kirschbaum‘) zu „cerise“ (‚Kirsche‘). Das bedeutet, dass diese Linie die Relation „Baum / Frucht“ kodiert. Abb. 3 illustriert das Prinzip dieser Analogiebeziehung.

Abb. 3
figure 3

Illustration der Analogiebeziehungen im Vektorraum des WEMFootnote

Bildlizenz: Creative Commons Attribution International 4.0 (CC-BY).

In gleicher Weise funktioniert diese Analogiebeziehung auch für derivationelle Phänomene, beispielsweise sind Richtung und Länge der Linie, die von „gehen“ zu „er ging“ führt, nahezu identisch für alle anderen Grundformen von Verben und ihre Ableitung in der dritten Person Singular der einfachen Vergangenheit. Dabei ist ein solcher Vektor nicht mit einer der Dimensionen im WEM identisch (das würde voraussetzen, dass jede Dimension von vorneherein sinntragend ist und es nur eine fest begrenzte Zahl von semantischen Relationen geben kann), sondern seine Richtung ist als eine gewichtete Kombination aller Dimensionen des Vektorraums zu verstehen.

Auf der mathematischen Ebene entspricht der Analogierelation eine Kombination von Addition und Subtraktion von Vektoren, beispielsweise: „V(pommier) + V(cerise) − V(pomme) = V(cerisier)“. Formuliert man im französischen Wikipedia-Modell die entsprechende Abfrage, erhält man in der Tat das der Analogie entsprechende Ergebnis:

Abfrage: „[positive = ['pommier_nom', 'cerise_nom'], negative = ['pomme_nom']]“

Ergebnis: {"cerisier_nom" : 0.545, "prunier_nom" : 0.514, "aubépine_nom" : 0.498, "prunus_nom" : 0.496, "sorbier_nom" : 0.494}

Hier erhält man also das richtige Ergebnis: „cerisier“ (‚Kirschbaum‘) ist mit knappem Abstand das am nächsten liegende Wort. In der gleichen Weise funktionieren auch die in diesem Kontext häufig erwähnten Abfragen, die sich auf die Hauptstädte verschiedener Länder beziehen.

So einfach die bisher illustrierten Abfragemöglichkeiten erscheinen mögen, so mächtig sind sie, wenn man sie in übergeordneten Kontexten nutzt, um sprachliche Kompetenz zu modellieren und auf diese Weise in automatische Verarbeitungsroutinen zu integrieren, die dadurch nicht mehr darauf beschränkt sind, nur auf der Textoberfläche zu operieren, obwohl sie ohne unmittelbaren menschlichen Input ablaufen. Dies wird sich in den nächsten beiden Abschnitten zeigen.

4 WEM als Komponenten in übergeordneten Analyseverfahren

Im Folgenden werden zwei Anwendungsfelder für WEM dargestellt, in denen diese Modelle gewissermaßen als Hilfstechnologie für andere, quantitative Methoden der Analyse literarischer Texte dienen: Erstens kann man die Messung der Ähnlichkeit von Wörtern nutzen, um die Kohärenz von Topics zu messen, wie sie beim einleitend bereits erwähnten Topic Modeling entstehen. Zweitens kann man ein WEM dazu nutzen, um ein Sentiment-Lexikon für die Sentiment-Analyse zu erstellen (oder ein vorhandenes Lexikon zu erweitern oder zu modifizieren), indem man die Achse der negativen oder positiven Polarität im WEM ermittelt. (Im nachfolgenden Abschnitt werden dann Verfahren erläutert, mit denen direkt genuine Fragestellungen der Digitalen Literaturwissenschaften bearbeitet werden können.)

4.1 WEM als Grundlage für Maße der Topic-Kohärenz

Topic Modeling ist eine unüberwachte Methode der quantitativen Textanalyse, die dafür verwendet wird, latente semantische Strukturen in umfangreichen Textsammlungen zu entdecken, ohne dass dabei lexikalische Ressourcen wie beispielsweise elektronische Wörterbücher notwendig sind.Footnote 32 Auf einer technischen Ebene ist ein ‚Topic‘ als Wahrscheinlichkeitsverteilung von Wörtern und ein ‚Dokument‘ als Wahrscheinlichkeitsverteilung von Topics repräsentiert. In der Praxis werden einzelne Wörter mit den höchsten Wahrscheinlichkeitswerten in einem Topic als in der einen oder anderen Weise semantisch verbunden verstanden, wobei die gemeinsame semantische Basis eines Topics bei der Modellierung von literarischen Texten ein abstraktes Thema, aber auch ein Setting, ein erzählerisches Motiv, eine soziale Gruppe oder ein Set rhetorischer oder argumentativer Verfahren sein kann.

Dies bedeutet, dass Topic Modeling selbst ein wichtiger Teil des Methodenrepertoires der quantitativen Semantik ist, weil es den Zugang zu den allgemeinen Themen und Motiven einer Textsammlung erlaubt. Allerdings haben WEM auch noch eine spezifischere Rolle in diesem Zusammenhang zu spielen. In der Tat liegt eine der Herausforderungen des Topic Modelings darin, Wege zur Evaluation von Topic Models zu finden, die mit bestimmten Parametern und bestimmten Textdaten erstellt wurden. Ein wichtiger Teilaspekt der Modellqualität von Topic Models ist dabei die Topic-Kohärenz.Footnote 33 Und WEM können für die Evaluation der Topic-Kohärenz eingesetzt werden. Der Vorteil gegenüber intrinsischen Maßen liegt darin, dass hier wirklich neue Information für die Evaluation genutzt wird; und der Vorteil gegenüber manch anderen externen Verfahren liegt darin, dass für eine bestimmte Sprache, Epoche und/oder Gattung ein angemessenes Messverfahren eingesetzt werden kann, ohne dass spezielle Sprachressourcen dafür notwendig sind, allerdings unter der (nicht unproblematischen) Voraussetzung, dass für die Epoche und Gattung ausreichende Textmengen für das Training eines WEM zur Verfügung stehen.

Das Verfahren beruht auf dem schlichten Prinzip, dass für jeden Topic die wichtigsten n Wörter ausgewählt werden und die durchschnittliche Nähe der Wörter zueinander mit einem WEM berechnet wird. Daraus ergibt sich dann für jeden Topic ein Kohärenz-Score. Durchschnitt und Verteilung dieser einzelnen Kohärenz-Scores kann man als Indikatoren für die Kohärenz des Topic-Modells insgesamt interpretieren.

Rang

Score

Topic-Wörter

1

0,519

Père mère enfant fille fils sœur frère maman maison famille oncle parents

2

0,435

Roi duc reine prince princesse palais royal garde empereur souverain seigneur fils

19

0,290

Table manger verre boire vin cuisine bon servir bouteille eau assiette repas

20

0,289

Porte pièce maison fenêtre mur escalier ouvrir chambre entrer étage couloir main

64

0,218

Dragon démon sorcier mage magie fois mort monde nouveau pouvoir talari passer

65

0,217

Rue maison passer porte ville regarder place café gens odeur manger sentir

97

0,151

Citoyen main ami voix porte soldat entendre ordre mouron rue air nom

98

0,150

Jeune falloir devenir manière statue dan géant nath finir peur odeur ville

Die vorstehende Tabelle zeigt einen Ausschnitt der Ergebnisse, die auf der Grundlage des französischen Wikipedia-Modells für ein Topic Model des französischen Romans des 20. Jahrhunderts berechnet wurden. Gezeigt werden Rang und Wert des Topics nach seiner WEM-basierten Kohärenz und die 12 wichtigsten Wörter des Topics, die in die Bewertung eingeflossen sind. Eine formale Evaluation dieses Verfahrens steht noch aus, die bisherigen Ergebnisse können aber zumindest als vielversprechend gelten.

4.2 WEM für die Sentiment-Analyse

Die Sentiment-Analyse ist eine Methode der Textanalyse, mit der ein besonders schwer fassbarer Aspekt der Bedeutung von Sätzen oder Texten erhoben werden kann, nämlich die mehr oder weniger positive oder negative Einstellung, die in ihnen jeweils zum Ausdruck kommt.Footnote 34 Diese Art der Textanalyse wird vielfältig genutzt, um große Mengen von Produkt-Rezensionen oder Einträge in den sozialen Medien zu untersuchen. Die Sentiment-Analyse wird jedoch auch für die Analyse literarischer Texte verwendet, insbesondere von Erzähltexten.Footnote 35 Um eine solche Analyse durchführen zu können, ist ein sogenanntes Sentiment-Lexikon nützlich bzw. für diktionärbasierte Verfahren unerlässlich. Ein solches Lexikon beinhaltet (im einfachsten Fall) Einträge für einzelne Wörter und assoziiert jedes Wort mit einem bestimmten positiven oder negativen Wert, der ausdrückt, wie ausgeprägt positiv oder negativ ein Begriff ist. Beispielsweise würde das Wort „schön“ einen stark positiven Wert zugeordnet bekommen, das Wort „schrecklich“ einen deutlich negativen Wert, und ein Wort wie „blau“ vielleicht einen neutralen oder leicht positiven Wert.

Die Herausforderung, wenn man diese Art von Analysen auf historische Texte anwenden möchte, liegt darin, dass es für frühere Epochen in der Regel keine angemessenen Sentiment-Lexika gibt. ‚Angemessen‘ bedeutet in diesem Zusammenhang, dass die Polaritäts-Werte nicht von der Verwendung oder dem Verständnis der Wörter im 21. Jahrhundert abgeleitet sind, sondern korrekt wiedergeben, wie das Wort in der jeweiligen Epoche von den Lesern wahrgenommen wurde. Gewichtige Hindernisse hierfür sind nicht nur, dass die manuelle Annotation von Wörtern mit Polaritätswerten aufwendige experimentelle Setups erfordert, sondern vor allem auch, dass für historische Epochen keine authentischen Sprecher befragt werden können.

Mit einem WEM des Vokabulars einer historischen Textsammlung ist es aber möglich, automatisch positive oder negative Werte für Wörter aus ihrer Position im Vektorraum abzuleiten. Man benötigt hierfür lediglich eine kleine Anzahl an unstrittig deutlich positiven und deutlich negativen Ausgangswörtern (in der Wahl dieser Ausgangswörter liegt zugegebenermaßen auch die methodologische Crux und potenzielle Schwäche des Verfahrens). Mithilfe dieser Ausgangswörter lässt sich eine Achse durch den vieldimensionalen Vektorraum spannen, die der Polarität entspricht. Die Position der Wörter im Vokabular relativ zu dieser Achse lässt sich dann messen und dafür nutzen, um einem Wort einen mehr oder weniger ausgeprägten positiven oder negativen Wert zuzuordnen.

Bei der Beispielanalyse waren positive Ausgangswörter hier „excellent“, „remarquable“, „exceptionnel“, „étonnant“, „extraordinaire“ und „admirable“; negative Ausgangswörter waren „horrible“, „épouvantable“, „effroyable“ und „affreux“. Bemerkenswert sind hingegen die Wörter auf den jeweils nachfolgenden Rängen, die in der folgenden Tabelle dargestellt sind und die ganz zweifelsfrei deutlich positive bzw. negative Wörter sind. Ohne nennenswerten manuellen Annotationsaufwand wurden in diesem Fall 1000 Adjektive automatisch mit solchen Polaritätswerten ausgezeichnet. Die folgende Tabelle zeigt einen Ausschnitt der Ergebnisse (die jeweils 10 Wörter mit den extremsten Werten):

Polarität

Wort

Polarität

Wort

0,467

0,407

0,405

0,380

0,370

0,356

0,346

0,334

0,307

0,307

remarquable_adj

admirable_adj

exceptionnel_adj

incomparable_adj

étonnant_adj

merveilleux_adj

superbe_adj

excellent_adj

magnifique_adj

charmant_adj

 − 0,385

 − 0,388

 − 0,393

 − 0,409

 − 0,443

 − 0,466

 − 0,490

 − 0,503

 − 0,506

 − 0,515

sinistre_adj

terrible_adj

ignoble_adj

hideux_adj

abominable_adj

effroyable_adj

épouvantable_adj

affreux_adj

horrible_adj

atroce_adj

Mithilfe dieser Art von Polaritätstabellen lässt sich nun jeder beliebige Satz durchgehen und für jedes Inhaltswort, das in der Tabelle vorhanden ist, der Sentiment-Wert nachschlagen. In einem zweiten Schritt kann man dann Durchschnittswerte für jeden Satz oder Absatz bilden und feststellen, ob es sich um eine insgesamt eher positive oder negative Passage handelt. Die folgenden drei (erfundenen) Sätze sind mit authentischen, mit dem Wikipedia-Modell erstellten Sentiment-Tabellen annotiert worden:

  • „L’homme poussa un cri épouvantable avant de mourir.“ (‚Der Mann stieß einen schrecklichen Schrei aus, bevor er starb.‘) = > −0,17

  • „La gracieuse virtuosité des artistes faisait son bonheur.“ (‚Die grazile Virtuosität der Künstler machte ihn glücklich.‘) = > + 0,18

  • „Dans la salle était une vieille chaise en bois vert.“ (‚In dem Raum befand sich ein alter Stuhl aus grünem Holz.‘) = > 0,02

Neben der hier gezeigten Generierung eines völlig neuen Sentiment-Lexikons hat das Verfahren vor allem in zwei davon leicht abweichenden Szenarien Potenzial: Erstens lassen sich auf diese Weise vorhandene, häufig nicht sehr umfangreiche Sentiment-Lexika datengetrieben erweitern, d. h. um weitere Wörter mit Polaritätswerten ergänzen. Hier ist durch den möglichen Abgleich mit vorhandenen Polaritätswerten für einen substanziellen Teil des Vokabulars mit einer besonders hohen Güte der Ergebnisse zu rechnen. Zweitens lassen sich vorhandene Lexika auf historischer Datengrundlage auf eine andere Epoche anpassen, indem die vorhandenen Werte durch datengetrieben ermittelte Werte modifiziert werden.Footnote 36

5 Eigenständige Methoden auf Grundlage von WEM

Zuletzt sollen nun noch ebenfalls unter Nutzung basaler Abfragemöglichkeiten solcher WEM, aber über die im letzten Abschnitt beschriebenen Hilfsfunktionen hinausgehende, stärker autonome Anwendungsgebiete thematisiert werden. Hier geht es nun auch darum Fragen zu bearbeiten, die bis in die jüngste Zeit der ureigenen Domäne der literaturwissenschaftlichen Interpretation zugeordnet worden sind. Protagonisten solcher Arbeiten, die WEM aktuell für geisteswissenschaftliche und insbesondere ideengeschichtliche und literaturhistorische Fragestellungen einsetzen, sind Ben Schmid und Ryan Heuser.Footnote 37

5.1 Semantische Dimensionen (Generalisierung der Polaritätsanalyse)

Das Prinzip, nach dem die Polarität von Begriffen für die Sentiment-Analyse funktioniert, kann man jenseits der spezifischen Dichotomie positiv/negativ generalisieren. Auf diese Weise lässt sich ein weiterer Anwendungsbereich der WEM für die Literatur- und Ideengeschichte erschließen. Hier wird die konzeptuelle Achse nicht nur im Sinne der positiven oder negativen Polarität durch den Vektorraum gezogen, sondern auch im Sinne bestimmter semantischer Oppositionen. Ryan Heuser spricht hier von „axes of meaning“ und nutzt sie für die ideengeschichtliche Analyse des Schrifttums des englischen achtzehnten Jahrhunderts, indem er historisch abgesicherte Dichotomien wie „abstract vs. concrete“ oder „simplicity vs. refinement“ unter Verwendung von WEM analysiert.Footnote 38 In einem weiteren Schritt lassen sich nach diesem Prinzip darüber hinaus nicht nur eindimensionale, sondern auch zweidimensionale semantische Räume definieren, also zwei solche semantische Achsen ziehen. Dies erlaubt es dann, Wörter in einem zweidimensionalen Raum zu lokalisieren und Zusammenhänge zwischen den beiden semantischen Dimensionen zu explorieren, wie sie sich in einer bestimmten Textsammlung zeigen.

Abb. 4 zeigt eine solche Visualisierung unter Nutzung des Roman-Modells, wobei die horizontale Achse der positiven/negativen Polarität entspricht, die vertikale Achse aber der Dichotomie Traum/Realität. Zwar zeigt sich hier keine deutliche Korrelation zwischen den beiden Achsen, wie sie Ryan Heuser beispielsweise im 18. Jahrhundert für „virtue“ und „simplicity“ festgestellt hat. Von besonderem Interesse sind dort aber auch diejenigen Wörter, die dieser Korrelation widerstreben: So gilt „science“ dem englischen achtzehnten Jahrhundert offenbar als eine raffinierte Tugend, „murder“ hingegen als ein eher einfaches Laster. Die Darstellung zum französischen Roman des 20. Jahrhunderts erlaubt ebenfalls einen Blick in die Zusammenhänge der beiden semantischen Dimensionen; bei ähnlicher Polarität unterscheiden sich so bestimmte Wörter in Bezug auf das Ausmaß ihrer Assoziation mit Traum oder Realität: so für positive Polarität „extase“ (‚Extase‘) und „foi“ (‚Glaube‘) oder für negative Polarität „souffrance“ (‚Leiden‘) und „malheur“ (‚Unglück‘). Nicht vergessen werden sollte bei der Betrachtung solcher Darstellungen, dass sie nicht zeitgenössische Sprachkompetenz modellieren, sondern die konzeptuelle Struktur einer spezifischen literarischen Gattung, hier des Romans des 20. Jahrhunderts. Die gleiche Analyse, berechnet für das Wikipedia-Modell oder für Texte aus der Aufklärung, würde deutlich andere Ergebnisse zeigen.

Abb. 4
figure 4

Wörter in den Dimensionen negativ/positiv (horizontale Achse) und Traum/Realität (vertikale Achse) im Roman-ModellFootnote

Bildlizenz: Creative Commons Attribution International 4.0 (CC-BY).

5.2 Konzeptuelle Strukturen literarischer Gattungen

Eine solche vergleichende Perspektive nimmt die folgende Analyse ein. Hier geht es darum, die latente, konzeptuelle Struktur einer literarischen Domäne, beispielsweise einer bestimmten Gattung in einer bestimmten Epoche, vergleichend zu explorieren. Im vorliegenden Setup werden hierfür zwei WEM miteinander verglichen: einerseits das Wikipedia-Modell (als Vertreter aktueller sachbezogener Textsorten), andererseits das Roman-Modell (als Vertreter einer spezifischen literarischen Gattung, allerdings hier ohne präzise chronologische Eingrenzung). Das Roman-Modell nicht nur für sich stehend zu explorieren (unter anderem mit den im Abschn. 3 dargelegten Abfrageverfahren), sondern es hier mit einem weiteren Modell zu kontrastieren, macht die latente konzeptuelle Struktur der Gattung deutlich sichtbar.

Abb. 5 zeigt die 15 Wörter, die dem Wort „sens“ (‚Sinn‘, ‚Bedeutung‘) im Roman-Modell und im Wikipedia-Modell am ähnlichsten sind. Die Worte in der Mitte (rot) teilen beide Modelle, die außen liegenden Worte (türkis) hingegen sind jeweils nur im einen oder anderen Modell unter den ähnlichsten 15 Wörtern vertreten. Was hier deutlich wird, ist das sehr systematische konzeptuelle System der Wikipedia, das mit „sens“ wichtige Konzepte wie ‚Definition‘, ‚Etymologie‘ und ‚Denotation‘‘ verbindet. Im Gegensatz dazu stehen im Romanmodell Begriffe im Vordergrund, die „Sinn“ mit menschlicher Kognition und menschlichem Handeln verbinden, so ‚Bewusstsein‘, ‚Instinkt‘ und ‚Geist‘.

Abb. 5
figure 5

Vergleichendes konzeptuelles Netzwerk für das Wort „sens“ (‚Bedeutung‘) in den auf der Wikipedia und der Romansammlung beruhenden ModellenFootnote

Bildlizenz: Creative Commons Attribution International 4.0 (CC-BY).

5.3 Die Entwicklung von Wortbedeutungen nachvollziehen

Ein weiterer Anwendungsbereich von Word Embedding Models liegt im Bereich der historischen Semantik und der Ideengeschichte. Hier haben Hamilton u. a. eine Methodik vorgeschlagen, mit der semantischer Wandel daran ablesbar wird, wie sich ein Begriff nach und nach von verwandten Begriffen entfernt, um sich anderen Begriffen anzunähern.Footnote 41 Dies kann man im Sinne der distributionellen Semantik als Hinweis auf die semantische Dissoziation des Begriffs von den Bedeutungskomponenten der ersten Gruppe und als eine Assoziation mit denjenigen der zweiten Gruppe verstehen.

Auch Ryan Heuser nutzt diese Methodik, um eine Reihe von Hypothesen zur Ideengeschichte des 18. Jahrhunderts von Reinhart Koselleck und Raymond Williams zu überprüfen.Footnote 42 Er kann beispielsweise zeigen, dass das Wort „industry“ zwischen 1700 und 1800 seinen Abstand zu bestimmten Worten vergrößert, darunter „skill“, „dexterity“ und „prudence“. Gleichzeitig verringert sich der Abstand von „industry“ zu bestimmten anderen Worten, darunter „agriculture“, „manufacture“, „idleness“, „sobriety“. In anderen Worten: Es bestätigt sich hier datenbasiert, dass die Bedeutung von „industry“ sich von der persönlichen Kompetenz und Betriebsamkeit weg und zur mechanisierten Großproduktion hin entwickelt.

6 Fazit

In den vorangegangenen Abschnitten sind einfache Abfragemöglichkeiten von WEM, der Einsatz von WEM als unterstützende Technologien in bestimmten Analyseverfahren und die unmittelbare Nutzung von WEM für Fragestellungen aus den digitalen Literaturwissenschaften thematisiert worden. Methodisch spannend daran ist vor allem, wie weitreichende Anwendungen auch auf der Grundlage relativ basal erscheinender Abfragen möglich werden, wenn man nur eine geeignete Operationalisierung der jeweils infrage stehenden Problemstellung findet. Nun ist es jedoch an der Zeit, zur eingangs formulierten Fragestellung zurückzukehren und eine kritische Einschätzung dazu zu formulieren, ob mit den WEM und weiteren aktuellen semantischen Technologien die etablierte hermeneutisch vorgehende Literaturinterpretation tatsächlich ernsthaft herausgefordert ist.

Trotz des meines Erachtens erheblichen und nachweislichen Potenzials dieser Methoden scheint es offensichtlich, dass dies zumindest derzeit aus mehreren Gründen noch nicht der Fall ist; Gründen allerdings, die nicht unbedingt als grundsätzliche Hindernisse zu verstehen sind, sondern die sich in den nächsten Jahren mit Sicherheit deutlich verringern werden. Zu diesen Hindernissen gehört zunächst, dass schlicht noch sehr wenig Erfahrungen mit der Anwendung von WEM für die digitalen Literaturwissenschaften vorliegen, nämlich – streng genommen – nur die Arbeiten von Ryan Heuser, die zudem noch nicht in ausführliche formale Publikationen gemündet sind. Dies wird sich, das hat die deutliche Präsenz des Themas auf den Digital Humanities Conferences 2017 in Montréal oder 2018 in Mexico City gezeigt, in den nächsten Jahren zweifellos ändern. Hier zeichnet sich ab, dass WEM nicht nur für sich genommen ein spannendes Betätigungsfeld für die angewandte Informatik sind, sondern auch ein wesentlicher Baustein im Methodenrepertoire der digitalen Geistes- und Literaturwissenschaften sein können, beispielsweise im Kontext von Methoden wie dem Topic Modeling, der Sentiment-Analyse oder für Verfahren der korpusbasierten Ideengeschichte. Wenn vorhandene Hypothesen auf breiter Datengrundlage überprüft und ggf. auch nuanciert oder infrage gestellt werden können, wie dies bereits der Fall ist, dann ist es nicht mehr weit, bis die Methoden auch helfen werden, neue verlässliche Erkenntnisse zutage zu fördern.

Ein weiteres, sicherlich weniger leicht zu behebendes Hindernis ist die derzeit mangelnde Integration von WEM und den Möglichkeiten, die sie mit sich bringen, mit anderen vorhandenen Technologien. WEM erlauben zwar mit bisher ungekannter Präzision einen Zugang zu semantischen und morpho-syntaktischen Ähnlichkeitsbeziehungen zwischen Einzelwörtern, und es lassen sich auf dieser Grundlage eine Reihe von Analyseverfahren aufbauen, die beim Umgang mit lexikalischer und textueller Bedeutung nützlich sind. Aber WEM sind prinzipiell relationale Systeme, die Beziehungen zwischen Wörtern, aber nicht explizit Bedeutungen von Wörtern kodieren. Zudem gilt, dass die Modellierung semantischer Kompetenz, wie sie WEM leisten, erst mit der Modellierung anderer sprachlicher Bereiche, wie der syntaktischen Sprachkompetenz, verbunden werden muss, damit es möglich wird, mit computergestützten Systemen den propositionalen Inhalt einzelner Sätze in sinnvoller und gewinnbringender Weise zu modellieren. Erst dann wird man an die Integration von historischem, kulturellem und ästhetischem Kontextwissen denken können, um einzelnen Sätzen oder längeren Passagen eine in einem solchen Kontext adäquate Bedeutung automatisch zuschreiben zu können. Anders ausgedrückt: Auch wenn WEM unbestrittenes Potenzial für die Digitalen Literaturwissenschaften besitzen, sind sie derzeit noch weit davon entfernt, die Position und Kompetenz der hermeneutischen Textinterpretation herauszufordern.

Ergänzung 2021

Welche für die Computational Literary Studies (CLS) besonders relevanten, neueren Entwicklungen hat es im Bereich Word Embedding Models seit 2017 gegeben? Und führen diese Entwicklungen zu einer gegenüber dem Fazit des damaligen Beitrags veränderten Einschätzung der Rolle von Word Embedding Models in den digitalen Geisteswissenschaften?

Zunächst kann man feststellen, dass die Vielfalt der verfügbaren Embeddings in den letzten fünf Jahren weiter deutlich angestiegen ist. Über die im Beitrag erwähnten, Wort-basierten Varianten von Word2Vec, wie GloVe und FastText hinaus, wurden auch die von den Embeddings repräsentierten Einheiten vielfältiger: So gibt es mittlerweile auch Embeddings für andere Einheiten, die sowohl kleiner (N-Gramme oder Buchstaben) als auch größer als das Wort (Phrasen, Sätze, Absätze oder Dokumente) sein können.

Auch die den Embeddings zugrunde liegenden Korpora sind weiter deutlich gewachsen: Während das ursprüngliche Word2Vec-Modell 2013 mit 1,6 Mrd. Wörtern trainiert wurde, werden neuere Sprachmodelle wie beispielsweise GPT-3 mit bis zu 500 Mrd. Wörtern trainiert und haben auch wesentlich mehr Dimensionen und Parameter als frühere Modelle.Footnote 43 Dies schlägt sich deutlich in der Performanz und Flexibilität der Modelle nieder, hat aber durchaus auch nachteilige Konsequenzen.Footnote 44

Die wichtigste konzeptuelle Neuerung ist aber wohl der neue Typus der “deep, contextualized” Embeddings. Dieser Typus ist “deep”, insofern er auf einer größeren Anzahl verdeckter Schichten in der Architektur des neuronalen Netzes beruht (während das klassische Word2Vec mit nur einer verdeckten Schicht als “shallow” beschrieben werden kann). Und dieser neue Typus ist “contextualized”, weil nicht mehr jede unterschiedliche Wortform nur einen für alle Vorkommen im Korpus geltenden, einheitlichen Vektor hat, wie dies bei Word2Vec der Fall ist. Vielmehr wird der Vektor jedes einzelnen Wortes in Abhängigkeit des jeweiligen Kontextes individuell angepasst. Dadurch können nicht nur die unterschiedlichen Bedeutung von Homographen oder von polysemen Wörtern differenziert werden, sondern es können auch vom individuellen Kontext abhängige Interpretationen beispielsweise von Pronomina oder Bedeutungsnuancen beliebiger Wörter differenziert kodiert werden.

Die ersten solchen kontextualisierten Embeddings wurden noch mit sequenziellen Trainingsmechanismen trainiert, zumeist mit Recurrent Neural Networks wie den LSTMs (Long-Short-Term-Memory), allerdings in einem bidirektionalen Modus, der es besser erlaubte, kontextabhängige Repräsentationen zu ermitteln. Eine weitere entscheidende Neuerung war dann, dies durch nicht-sequentielle Mechanismen zu ersetzen, wie es von Google mit dem Transformer-basierten Modell BERT erstmals vorgeschlagen wurde.Footnote 45 Dabei kommt der sogenannte “Attention”-Mechanismus zum Einsatz, bei dem der gesamte Satzkontext auf einmal, aber pro Token mit unterschiedlichen Gewichten, für die Repräsentation der Tokens genutzt wird.Footnote 46 Das Modell wird mit zwei Tasks trainiert: dem bekannten Wortvorhersage-Task und der Aufgabe festzulegen, welcher Satz auf welchen vorigen Satz folgt. Mit diesem Verfahren können auch über größere Abstände vorhandene Abhängigkeiten zwischen Wörtern und Sätzen besser und vor allem durch Parallelisierung effizienter (und damit auch auf der Grundlage größerer Mengen an Trainingsdaten) modelliert werden. In der Summe führen diese Neuerungen zu wesentlichen Verbesserungen in der Performance dieser kontextualisierten Embeddings in einer großen Bandbreite von Tasks: sowohl für relative generische Standard-Tasks (wie POS-Tagging oder Named Entity Recognition) als auch für komplexere Aufgaben (wie Question Answering oder maschinelle Übersetzung).Footnote 47

Sind diese neuen, kontextualisierten Embeddings aber auch tatsächlich für die CLS relevant und leisten sie hier mehr oder Anderes als die klassischen Word Embeddings? Ted Underwood ist mit guten Gründen skeptisch, wenn es um eine Aufgabe wie die Klassifikation umfangreicher literarischer Texte nach ihrem Genre geht.Footnote 48 Andere Anwendungen, die von der Information über Beziehungen zwischen Wörtern in Texteinheiten von der Größenordnung eines Absatzes profitieren, scheinen besser geeignet. In der Tat gibt es entsprechende Anwendungen auch bereits in den CLS: Beispiele sind die Identifikation von Ereignissen in fiktionaler Prosa oder die Erkennung direkter Rede in mehrsprachigen literarischen Romankorpora.Footnote 49 Die Interpretation literarischer Werke werden auch die kontextualisierten Word Embeddings nicht übernehmen; aber sie werden bei vielfältigen Fragestellungen in den CLS einen wichtigen Beitrag dazu leisten, unseren Zugriff auf umfangreiche Textbestände zunehmend nuanciert zu gestalten.

Eine letzte Entwicklung sei noch genannt: So ist der Einsatz von BERT und Deep Learning allgemein seit 2017 auch für digitale Geisteswissenschaftler:innen einfacher geworden, beispielsweise durch die Entwicklung von Keras, einem Python-Interface für das Machine-Learning-Framework Tensorflow.Footnote 50