Empirie – Beschreibung – Interpretation. Über den Platz von Computermodellen in den hermeneutisch-historisch orientierten Literaturwissenschaften

Kuhn, Jonas

doi:10.1007/978-3-476-05886-7_4

Jonas Kuhn²

Part of the book series: Germanistische Symposien ((GERMSYMP))

2141 Accesses

Zusammenfassung

Ausgangspunkt für diesen Artikel sind die Vorannahmen, die für einen Text erfüllt sein müssen, damit datenbasierte Textanalysemodelle aus der Computerlinguistik methodisch zuverlässig auf ihn angewandt werden können. Der Artikel stellt die Frage, inwieweit die empirisch-korpusbasierte Methodik unter diesen Annahmen Befunde zu interpretationsrelevanten Eigenschaften literarischer Texte liefern und damit einen Beitrag zu Kernfragen einer hermeneutisch-historisch orientierten Literaturwissenschaft leisten kann. Von besonderer Bedeutung ist die methodische Vorannahme, dass die Trainingsdaten, auf deren Basis die Modellparameter abgeschätzt werden, in den relevanten Eigenschaften repräsentativ seien für die Texte, die im Zentrum der eigentlichen Untersuchung stehen. Dies scheint zunächst das Spektrum der erzielbaren Befunde auf deskriptive Untersuchungskategorien zu beschränken, für die eine robuste Operationalisierung möglich ist. Interpretationsrelevanten Texteigenschaften scheinen sich dem Zugang zu entziehen. Der Artikel regt jedoch an, eine alternative Praxis für die Anwendung von Computermodellen zu explorieren, bei der über deskriptive Standardkategorien hinaus untersuchungsspezifische Analysekategorien aus einer bestimmten Fragestellung heraus entwickelt und komputationell modelliert werden können. Basierend auf einem Vorverständnis im Sinne einer hermeneutisch geprägten Arbeitspraxis können so auch interpretationsrelevante Texteigenschaften in die Modellierung einbezogen werden. Zur Absicherung der methodischen Validität der Befunde muss das Forschungsteam bei diesem Vorgehen seine Modelle anhand geeigneter, sorgfältig annotierter Referenzdatensätze selbst kalibrieren und die zu erwartende Vorhersagegenauigkeit abschätzen.

You have full access to this open access chapter, Download chapter PDF

Systematische Grundlagen der literaturwissenschaftlichen Wertanalyse – mit einer Beispielanalyse zu Schillers „Verbrecher aus verlorener Ehre“

Die Komplexität des Druckreglers – Anwendung eines textgrammatischen Analysemodells für komplexe Texte

Textanalyse/Dokumentenanalyse

Im Zuge der Positionsbestimmung und Entfaltung der Digitalen Literaturwissenschaft wird – jenseits der Unterstützung konventioneller Arbeitspraktiken mit digitalen Hilfsmitteln – über statistische Verfahren diskutiert und mit Werkzeugen experimentiert, die literaturwissenschaftlich relevante Texteigenschaften in einem größeren Untersuchungskorpus erfassen, beispielsweise zu Autorstil und Gattungsmerkmalen.^{Footnote 1}

Mit sprach- und textanalytischen Werkzeugen werden wichtige Inhaltselemente wie Figurenerwähnungen^{Footnote 2} oder Figurenrede^{Footnote 3} automatisch extrahiert, um etwa ein sogenanntes Distant Reading zu ermöglichen: Beispielsweise können Texteigenschaften durch Netzwerkanalysen^{Footnote 4} oder einen Vergleich der Figuren-Charakterisierung innerhalb der Figurenrede^{Footnote 5} über größere Textmengen aggregiert werden. Häufig werden hierfür korpusbasierte Computermodelle eingesetzt, die mithilfe von maschinellen Lernverfahren für die Vorhersage von Textinstanzen ‚trainiert‘ werden, auf die z. B. eine (operationalisierte) narratologische Analysekategorie zutrifft. Es gibt eine wachsende Zahl von Beispielen für komputationell anspruchsvolle Modellierungen, die auf großen Korpora von literarischen Texten entwickelt und angewendet wurden – wie beispielsweise die Modelle von David Bamman und Kollegen zu Figurentypen in englischsprachigen Romanen, für die statistischen Modelle auf über 15.000 Romanen trainiert wurden.^{Footnote 6} Innerhalb der breiteren literaturwissenschaftlichen Fachdiskussion scheinen solche Ansätze jedoch bislang (noch?) keine zentrale Rolle zu spielen.

Es mangelt nicht an neueren Diskussionsbeiträgen zum vielschichtigen Spannungsverhältnis zwischen der Digitalen Literaturwissenschaft (bzw. Digital Humanities) und der etablierten Literaturwissenschaft,^{Footnote 7} in dem sich unterschiedliche Erklärungen dafür ausmachen lassen, weshalb die komputationellen Methoden und Werkzeuge nicht zu einem rasanten Umdenken in großen Teilen des Gesamtfeldes führen – starkes Gewicht hat hier neben wissenschaftssoziologischen Gegebenheiten immer wieder die Abwägung zwischen Aufwand (Einarbeitung in die Methodik und Operationalisierung relevanter Analysekategorien) und dem zu erwartenden – nicht-trivialen – Ertrag;^{Footnote 8} im Einzelfall mag diese Abwägung häufig berechtigterweise gegen den Einsatz von Computermodellen sprechen. Das Argument mit der vielleicht breitesten Akzeptanz für Computermodelle liegt auf der anderen Seite in deren Reliabilität, die es erlaubt, für beliebig große Textsammlungen strikt vergleichbare Analyseergebnisse zu erzeugen. So können Frequenzmuster bis in subtile Details erfasst werden, welche für menschliche Leser nicht unverzerrt (reliably oder ‚reliabel‘) wahrnehmbar sind, da deren Aufmerksamkeit durch inhaltliche Aspekte überlagert wird – die Erfolgsgeschichte stilometrischer Verfahren unterstreicht dies. Dank ihrer Reliabilität können Computeranalysen darüber hinaus auch der Problematik von Bestätigungsfehlern (dem Confirmation Bias) entgegengestellt werden, also der kognitionspsychologisch erklärbaren Tendenz, bei einer manuellen Textanalyse verstärkt diejenigen Eigenschaften zu sehen, die die eigene Hypothese bestätigen.^{Footnote 9}

In dem vorliegenden Beitrag will und kann ich als Computerlinguist (mit einer Bereitschaft, das computerlinguistische Modell- und Methodeninventar jederzeit zu erweitern oder zu ergänzen, um Fragestellungen aus einem grundsätzlich anderen disziplinären Kontext gerecht zu werden) nicht eine weitere umfassende Beleuchtung des Spannungsfeldes beisteuern. Ich will jedoch im ersten Teil (Abschn. 1.1–1.4) auf einen Aspekt der empirisch-korpusbasierten Methodik abheben, der in der Tat Zweifel daran zu begründen scheint, dass sich diese Methodik in ihrer etablierten Form in den Kern der hermeneutisch-historisch orientierten Literaturwissenschaft – die Textinterpretation – integrieren lässt. Es handelt sich um Fragen der (statistischen) Repräsentativität der Daten, auf deren Grundlage Modellparameter für zukünftige Vorhersagen abgeschätzt werden: Sind diese sogenannten ‚Trainingsdaten‘ – hier also die Texte, deren relevante Eigenschaften exemplarisch von Hand annotiert werden – repräsentativ in Bezug auf die ‚Anwendungstexte‘, d. h. diejenigen Texte, die im Zentrum der eigentlichen Untersuchung stehen? Gewisse inhärente Repräsentativitätsannahmen, die beim Einsatz von Analysemodellen für linguistische Fragen oder Inhaltsrecherchen auf Gebrauchstexten unproblematisch sind, stoßen bei interpretationsrelevanten Eigenschaften literarischer Texte an ihre Grenzen.

Im zweiten Teil (Abschn. 2.1–2.4) argumentiere ich, dass es zwei mögliche Reaktionen gibt, mit diesem methodischen Einwand umzugehen: Die naheliegende, die ich eine ‚defensive Replik‘ nenne, besteht darin, für den Anwendungsbereich der statistischen Methoden nur solche Texte und Texteigenschaften zu wählen, für die die Repräsentativitätsfrage weitgehend unstrittig ist. Damit wird in Kauf genommen, dass möglicherweise nur ein mittelbarer Beitrag zu Fragen der literarischen Textinterpretation geleistet werden kann (andererseits erschließen sich mit einem korpusorientierten Vorgehen neuartige Fragen, die für eine systematische, historisch orientierte Literaturwissenschaft von großem Interesse sind). Zur Sinnhaftigkeit dieses Vorgehens, das ich in Abschn. 2.1 skizziere, scheint in der Community der Digitalen Literaturwissenschaft weitgehender Konsens zu bestehen.

Alternativ könnte auf den methodischen Einwand jedoch, wie ich in Abschn. 2.2 argumentiere, ‚offensiv‘ reagiert werden, indem der empirische Ausschnitt, für den ein Vorhersagemodell abgeschätzt wird, enger gefasst wird. Nicht intersubjektiv unstrittige Analysekategorien werden modelliert, sondern solche, für die sich unter bestimmten Annahmen eine systematische Beispielannotation spezifizieren lässt – möglicherweise teils subjektiv (etwa wenn ein Typus von impliziten Textaussagen nach einer plausiblen Lesart entsprechend dem subjektiven Leseverständnis systematisch ergänzt werden). Indem man den Fokus auf indirekte empirische Implikationen legt, die sich aus begründeten theoretischen Konzepten ableiten, können korpusbasierte Experimente mit Computermodellen eine empirisch gestützte Auseinandersetzung mit Hypothesen erlauben, die abstraktere Eigenschaften berühren.

Um diesen Gedanken zu konkretisieren, skizziere ich in Abschn. 2.3 einen korpusbasierten Experimentaufbau, der interpretationsabhängige Texteigenschaften als Zielkategorie für statistische Klassifikationsmodelle ansetzt – nämlich einen Aspekt der subjektiven Perspektivierung von Figuren in Erzähltexten. Den Experimentaufbau habe ich für eine Reihe von Texten aus dem Werk Arthur Schnitzlers in einer Pilotstudie umgesetzt, sodass zur Verfügung stehende methodische Möglichkeiten ‚durchgespielt‘ werden können. Gleichwohl muss der Nachweis einer tatsächlichen – hoffentlich gewinnbringenden – Integration in hermeneutische Fragestellungen sicherlich noch erbracht werden.

1 Empirisch-korpusbasierte Methoden und die Interpretation von Texten

1.1 Hintergrund: Empirisch-korpusbasierte Methoden

Text-basierte Explorations- und Analysewerkzeuge lassen sich in vielfältiger Weise für die Aufbereitung und Erschließung digital verfügbarer Texte und ganzer Korpora einsetzen. Einem Einsatz als heuristische Komponente innerhalb einer hermeneutisch-literaturwissenschaftlichen Arbeitspraxis stehen grundsätzlich wenige Beschränkungen entgegen – etwa einem Topic-Modell als tentativer Themenfilter beim Distant Reading über ein Korpus, mit dem der Blick auf Einzeltexte bzw. Textpassagen gelenkt wird, die anschließend einem Close Reading unterzogen werden. Die nachgeordnete Feinanalyse stellt ein methodenkritisches Vorgehen sicher; eventuelle Fehlannahmen bei der Werkzeuganwendung treten hier zutage.

In diesem Beitrag gehe ich jedoch davon aus, dass es innerhalb der Digitalen Literaturwissenschaft ein methodenorientiertes Teilgebiet gibt – vielleicht die Computational Literary Studies –, dessen Anspruch und Selbstverständnis über diesen rein heuristisch-explorativen Werkzeugeinsatz hinausgehen: Der Einsatz eines Computermodells soll Ergebnisse erzeugen, die sich direkt in eine Argumentation einfügen lassen – naheliegend sind quantitative Befunde zu Texteigenschaften, die eine studienrelevante These untermauern. Nicht zuletzt um der Gefahr einer Pseudo-Objektivität zu entgehen, muss die Validität der eingesetzten Modelle stets kritisch geprüft werden – besteht doch aufgrund des zumeist komplexen Zusammenspiels verschiedener Analyseebenen ein Risiko von Scheineffekten (so können etwa Unterschiede in der quantitativen Verteilung eines Schlüsselbegriffs zwischen zwei Korpora ihre Ursache in trivialen orthographischen Besonderheiten haben, mögen aber zu einer inhaltlich begründeten Fehlinterpretation einladen).

1.1.1 Statistische Modellierung in der Korpuslinguistik und Computerlinguistik

Die werkzeugbasierte Korpuslinguistik und die Computerlinguistik^{Footnote 10} arbeiten üblicherweise mit einer Evaluierungsmethodik, die es erlaubt, die Fehlerwahrscheinlichkeit einer Werkzeugkette abzuschätzen, um so die Verlässlichkeit eines Analyseschrittes zu belegen, der beispielsweise Textinstanzen nach einer theoretisch fundierten und empirisch operationalisierten Taxonomie kategorisiert. Wenn etwa anhand eines manuell annotierten Testkorpus nachgewiesen werden konnte, dass ein automatischer Part-of-Speech Tagger Wortarten mit einer Genauigkeit von über 90 % erkennt, ist es legitim, Schlüsse aus automatisch ermittelten Häufigkeitsunterschieden im Gebrauch von Adjektiven zu ziehen, die jenseits der Fehlerwahrscheinlichkeit liegen.

Allerdings basiert die Methodik auf Annahmen zu statistischen Eigenschaften der Korpus-daten – insbesondere zum Verhältnis zwischen den Evaluationsdaten und den ‚Anwendungsdaten‘ –, die möglicherweise nicht in jedem Szenario erfüllt sind. Üblich ist der Aufbau eines Basiskorpus, das die Gesamtheit der möglichen Beobachtungen approximiert, aus dem zufällig eine Auswahl von Instanzen gezogen wird, für das dann mehrere geschulte Annotierende unabhängig voneinander die kontextangemessene Zielkategorie von Hand zuweisen. Hierfür muss eine Operationalisierung der Analysekategorien vorliegen, die intersubjektiv nachvollziehbare Entscheidungen ermöglicht. Nach einem Abgleich der Ergebnisse aus der Mehrfachannotation (bei dem konfligierende Analysen entsprechend einem definierten Protokoll aufgelöst werden) kann eine sogenannte Gold-Standard-Annotation erzeugt werden, die im weiteren Verlauf näherungsweise als empirische Referenz (Ground Truth) betrachtet wird.

Auf einem Teil des Gold-Standard-annotierten Referenzkorpus kann schließlich mit überwachten Lernverfahren ein automatisches Klassifikationsmodell ‚trainiert‘ werden, das aus den Eigenschaften der beobachteten Daten und der statistischen Verteilung eine Funktion induziert, die auch für neue Daten eine Vorhersage der jeweils wahrscheinlichsten Zielkategorie erlaubt. Eine zentrale Annahme besteht darin, dass die Daten im Anwendungsfall derselben Grundgesamtheit entspringen wie die ‚Trainingsdaten‘. Bei komplexen Aufgaben wird der Klassifikator nie perfekt sein. Das Fehlerrisiko kann jedoch statistisch eingegrenzt werden, wenn ein Teil der Gold-Standard-Daten zu Testzwecken aus dem Training herausgelassen wird.

Da gerade in der (Computer-)Linguistik die Erstellung von Gold-Standard-Annotationen für anspruchsvolle Analyseaufgaben sehr aufwendig ist (und die meisten Induktionsverfahren eine vergleichsweise große Menge von Trainingsdaten benötigen, um robuste Vorhersage zu liefern), widmet sich ein wichtiger Zweig der angewandten Forschung zu maschinellen Verfahren sogenannten Domänenadaptionstechniken:^{Footnote 11} Liegen für das gewünschte Untersuchungskorpus keine – oder nur unzureichend umfangreiche – Gold-Standard-Annotationen vor, werden hierbei andere Korpora für das Training eines Ausgangsmodells herangezogen, die hinreichend ähnlich sind. Die resultierenden Modellparameter werden anschließend mit speziellen Verfahren für die Anwendung auf das eigentliche Zielkorpus angepasst. Für eine Validitätsprüfung des resultierenden adaptierten Klassifikators muss bei der Domänenadaption ein Ausschnitt des Zielkorpus als Testdatensatz manuell annotiert werden.^{Footnote 12}

1.1.2 Sind die methodischen Annahmen im literaturwissenschaftlichen Kontext erfüllt?

Generell kann die geschilderte methodische Praxis auf den Einsatz von Computermodellen in literaturwissenschaftlichen Studien übertragen werden – nicht selten kommen existierende sprachtechnologische Modelle oder Modellkomponenten als Basis für ein literaturwissenschaftlich motiviertes Analysemodell infrage (so kann etwa ein generisches Modell für die Erkennung von Eigennamen in Texten die Basis für die Figurenerkennung in Erzähltexten darstellen, evtl. in Kombination mit einem Koreferenzauflösungsverfahren^{Footnote 13}). Wie aus den jeweils angerissenen Annahmen zum Status des Basiskorpus, der manuellen Annotation usf. hervorgeht, liegt dem Arbeitsablauf jedoch ein bestimmtes wissenschaftstheoretisches Bezugssystem zugrunde: die Analyse oder Annotation eines Texts mit dem Ziel, seinen Teilinstanzen bestimmte Kategorien zuzuweisen, wird im Grunde als ein Experiment betrachtet, für das unter gleichen Kontextbedingungen reproduzierbare Ergebnisse angenommen werden. Diesem naturwissenschaftlich geprägten Bezugssystem mag sich nicht unbedingt jede Hermeneutikerin oder jeder Hermeneutiker anschließen. Allerdings dürfte einleuchtend sein, dass für einen fundierten Einsatz einer algorithmischen Komponente mit bestimmten Ein- und Ausgabestrukturen deren Repräsentativität geklärt sein muss.

Wenn man sich den eben angesprochenen grundsätzlichen Bedenken nicht anschließt (und davon wird nachfolgend ausgegangen), muss also weiterhin geprüft werden, inwiefern die methodischen Arbeitshypothesen bei einem literarischen Gegenstand und literaturwissenschaftlichen Analysezielen tragfähig sind. Hierbei geht es nicht darum, ob sämtliche methodisch motivierten Annahmen zum Untersuchungsszenario faktisch immer erfüllt sind – im Zuge einer theoriegeleiteten wissenschaftlichen Agenda wird es in vielen Fächern als legitim angesehen, idealisierende Annahmen zu machen, sofern argumentiert werden kann, dass der Zugang zur Empirie dadurch grosso modo unverfälscht bleibt –, wenn etwa für bestimmte Experimente in der Mechanik bewusst die Reibung ignoriert wird. Es reicht dann also, wenn geringfügige Abweichungen von den Annahmen ohne Einfluss auf wesentliche Aspekte der Fragestellung sind – wobei Einigkeit in der Community darüber bestehen muss, welcher Abstraktionsschritt die Idealisierung trägt.^{Footnote 14}

Will man nun den korpusbasierten statistischen Analyseansatz innerhalb der hermeneutisch-literaturwissenschaftlichen Praxis anwenden, gibt es nach meinem – in vieler Hinsicht sicherlich unvollständigen – Verständnis mehrere Punkte, in denen man sich davon überzeugen muss, dass die geschilderten methodischen Annahmen in ausreichendem Maße erfüllt sind. Auf zwei Punkte will ich ausführlicher eingehen: zum einen auf die Repräsentativitätsannahme, u. a. in der Beziehung zwischen dem Basiskorpus und einzelnen Untersuchungsgegenständen (dazu Abschn. 1.3), zum anderen die Möglichkeit der Festlegung auf eine Referenzlösung (Ground Truth) für zentrale Analysekategorien (Abschn. 1.4).

1.2 Repräsentativität der Korpusauswahl

Bereits das Auswahlprinzip für die Zusammenstellung des Basiskorpus, das als Approximation der theoretisch anzunehmenden Grundgesamtheit von möglichen Texten^{Footnote 15} fungiert, ist im literarischen Kontext nicht unproblematisch. Auf den ersten Blick erscheint dieser Punkt für die Literaturwissenschaft nicht stärker virulent als für die Linguistik und Sprachtechnologie, die sich seit Jahrzehnten mit pragmatischen Lösungen behelfen: Für sehr wenige Sprachen liegen ausreichend große balancierte Korpora vor (bei denen der Versuch gemacht wird, die relative Verteilung von Quellen für Sprachinput, denen Muttersprachler ausgesetzt sind, zu spiegeln). Stattdessen werden notgedrungen zumeist die Korpora genutzt, die in der jeweiligen Untersuchungssprache eben verfügbar sind, nicht selten (möglichst große) Zeitungskorpora. Empirische Aussagen können dann nicht über den gesamten Sprachgebrauch gemacht werden, sondern nur relativ zum realen Basiskorpus. Eine solche Vorauswahl ist für die (Computer-)Linguistik unter der idealisierenden Annahme tragbar, dass die Verteilung von strukturellen grammatischen Phänomenen weitgehend unabhängig von Gattungsspezifika bzw. der Inhaltsdomäne etc. ist. Dies ist oft nicht der Fall – z. B. sind direkte Fragesätze in Zeitungstexten stark unterrepräsentiert (was in der Praxis dazu führt, dass Syntax-Parser, die auf Standardkorpora trainiert wurden, bei Fragen tendenziell mehr Fehler machen). Für viele Untersuchungen zu grammatikinternen Interaktionen – etwa zwischen unterschiedlichen Auslösern für Wortstellungspräferenzen (Subjekt-Präzedenz vs. Präzedenz von Pronomina gegenüber vollen Phrasen) – kann jedoch ein beliebiger Sprachausschnitt eine durchaus verwertbare empirische Grundlage liefern: Da sich die (Computer-)Linguistik mit Regularitäten in der Sprache als ein System befasst, das (einer linguistischen Grundannahme nach) jeder Textproduktion und -perzeption zugrunde liegt, sind die Hürden der Basiskorpuskonstruktion in der Praxis nicht allzu hoch, und verfügbare Korpora lassen sich zumeist für sehr viele unterschiedliche Studien nutzen. Aus diesem Zusammenhang folgt auch, dass Modelle, die aus einem Ausschnitt des Basiskorpus entwickelt wurden, bei der Anwendung auf völlig neue Sätze der fraglichen Sprache in aller Regel zu halbwegs robusten Analyseergebnissen führen – dank der grammatisch-strukturellen Verwandtschaft.

Auf literaturwissenschaftliche Untersuchungen übertragen, könnte für oberflächennahe Texteigenschaften in Korpora, die eine sehr große Zahl von ganzen Texten enthalten, langfristig möglicherweise eine ähnliche Praxis etabliert werden.^{Footnote 16} Für typische komplexere Analysefragen jedoch, die für einen konkreten literarischen Text oder ein kleines Korpus zu bearbeiten sind, scheint die Bezugsdimension zu einem relevanten Vergleichskorpus von Studie zu Studie stark zu variieren: Soll betrachtet werden, inwiefern der Text zeitgenössische Gattungskonventionen (bzw. den Kanon) widerspiegelt und wo er sie durchbricht? Versucht eine produktionsästhetische Studie zur empirischen Untermauerung eines Interpretationsansatzes Tendenzen in Briefen und Tagebucheinträgen der Autorin oder des Autors zu finden? Können intertextuelle Bezüge zu Texten anderer Autorinnen und Autoren, teilweise aus ganz anderen Epochen, sichtbar gemacht werden? In jedem Fall ist das Auswahlprinzip zur Zusammenstellung eines geeigneten Basiskorpus ein grundsätzlich anderes. Diese Vielfalt erschwert nicht nur ganz praktisch die Übertragbarkeit von (in aller Regel aufwändig erstellten) Korpusressourcen – die jeweils unterschiedlich gelagerten Prinzipien dürften auch häufig den Einsatz bekannter Modellierungsverfahren verhindern. Prinzipiell wäre es denkbar (und forschungsökonomisch effizient), dass über mehrere Arbeitsgruppen zur Digitalen Literaturwissenschaft hinweg eine Abstimmung der Agenda zu Korpusarbeiten und der Modellierung von Analyseaufgaben stattfindet, sodass Synergie-Effekte ausgenutzt werden können.^{Footnote 17} Dies läuft allerdings der etablierten Publikationspraxis und dem Originalitätsgedanken entgegen und könnte daher eher ein Ziel für einen langfristigen Prozess des Wandels sein.

Setzt man vor dem Hintergrund der zuletzt diskutierten Überlegungen Aufwand und Ertrag für den Einsatz von anspruchsvollen korpusbasierten Methoden in Relation – für Analysen, die einen Kernbeitrag zu einer relevanten Leitfrage leisten können –, könnten auf absehbare Zeit konventionelle Praktiken häufig noch den Vorzug erhalten.

In jedem Fall scheint sich die Konstellation aus Gegenständen und typischen Fragestellungen in den Literaturwissenschaften so darzustellen, dass es (noch?) unrealistisch ist, ein Korpus für die studienübergreifende Unterstützung von ‚tieferen‘ Analysefragen zusammenzustellen. Der repräsentative Charakter, den bei linguistischen Untersuchungen ein klug gewähltes sprachspezifisches Textkorpus für sehr viele Analysefragen bietet, lässt sich durch ein generisches Korpus mit literaturwissenschaftlicher Breite sicherlich nur in geringerem Maß erreichen. Hierzu müsste der jeweils untersuchte Textgegenstand unter der idealisierenden Annahme betrachtet werden, dass er zu der angenommenen Grundgesamtheit gehört, die durch das Korpus von Anfang an approximiert wurde. Dies läuft jedoch einer verbreiteten literaturwissenschaftlichen Grundmotivation entgegen, nach der durch originelle Schritte der Textanalyse das Singuläre herauszuarbeiten ist, das einen Text auszeichnet, und textspezifischen ästhetischen Aspekten gerecht zu werden.^{Footnote 18} Für eine Vielzahl von Studien muss also auf absehbare Zeit in einen fragespezifisch motivierten Korpusaufbau investiert werden.

1.3 Die Möglichkeit einer Gold-Standard-Annotation für zentrale Analysekategorien

Die geschilderte Problematik der Repräsentativität von vorhandenen Korpora für diese oder jene Kombination aus Gegenstand und Fragestellung ist im Grunde auf eine Abwägung von Aufwand und Ertrag zurückzuführen: Auch für einen sehr spezifischen Blickwinkel könnte prinzipiell ein repräsentatives Korpus konstruiert werden. Aus nachvollziehbaren Gründen wird sich dies jedoch nicht (rasch) zur Standardpraxis in der Breite des Fachs entwickeln – liegen doch andere anerkannte Argumentationsmuster vor, mit denen Thesen zum relevanten Kontextbezug eines Texts begründet werden können. Nun kommen wir zu einer grundlegenderen Problematik: Ist die Notwendigkeit einer Festlegung von Referenzlösungen im Gold Standard (evtl. für Trainingsdaten, in jedem Fall aber für die Modellvalidierung) mit dem Selbstverständnis eines hermeneutischen Ansatzes in der Literaturwissenschaft vereinbar? Auf welcher Basis soll die Entscheidung für eine intersubjektiv akzeptierte, ‚korrekte‘ Annotation gefällt werden, wenn unterschiedliche Textinterpretationen zu konkurrierenden Ergebnissen führen? Ich will hier nicht die Debatte zum Status der Polyvalenz-These (dass die Vieldeutigkeit ein zentrales – vielleicht konstitutives – Merkmal literarischer Texte sei) nachvollziehen^{Footnote 19} – dazu fehlt mir auch die literaturwissenschaftliche Kompetenz. Es lohnt sich jedoch, die Dimensionen der Interpretationsproblematik abzustecken, um zu verstehen, für welche Art von analytischer Fragestellung welcher Ansatz systematisch-strukturell geeignet ist.^{Footnote 20} Insofern sich die Digitale Literaturwissenschaft geeigneter Analysemodelle aus der Computerlinguistik bedienen kann, bietet sich wiederum ein knapper Vergleich mit der Annotationspraxis für die linguistische Textanalyse an.

Nicht wenige Analyseentscheidungen, die bei einer linguistischen Korpusannotation gefällt werden müssen, erfordern eine (linguistische) Interpretation des Satzes im gegebenen Kontext, sprich eine Rekonstruktion der Inferenzschritte, die zur Zuweisung der nächstliegenden kontextangemessenen Bedeutung des Satzes führen. Dies trifft – zunächst vielleicht überraschend – nicht nur für lexikalisch-semantische und satz-semantische Entscheidungen zu (etwa: welche Lesart von ‚einstellen‘ ist gemeint? „Maschinen einstellen“/„Lehrer einstellen“), sondern auch für rein grammatische Annotationen: Um Subjekt- und Objektstatus in einem Satz wie

1.
Diese Einschätzung teilt die Opposition nicht.

zuweisen zu können, genügt es nicht, die Kasusmarkierung zu überprüfen (die Formen sind synkretistisch), und die Wortstellung gibt im Deutschen nicht den Ausschlag. Fehlt Wissen zum Interpretationskontext, kann dies zu Fehlanalysen auf der grammatischen Ebene führen: Nehmen wir an, wir wüssten nicht, dass Mangusten eine Marderart sind, sondern wir wären der Annahme, es handele sich um Insekten. Dann würden wir in folgendem Satz Subjekt und Objekt vermutlich falsch zuordnen:

2.
Auch die große Kröte erwischte die Manguste nach geduldigem Lauern.

Linguistische Annotationsaufgaben bewegen sich also immer im Spannungsfeld von unterschiedlichen Interpretationen. Die beiden angeführten Satzbeispiele sind grammatisch gesehen ambig (man spricht von ‚globaler‘ Ambiguität, da jeweils die ‚lokale‘ Nominativ/Akkusativ-Ambiguität der beiden Nominalphrasen auch im globalen Satzzusammenhang nicht grammatisch aufgelöst wird, wie dies sonst zumeist der Fall ist). Es wäre denkbar, solche Sätze bei der Gold-Standard-Annotation für die Analysen von grammatischen Relationen als ‚unaufgelöst ambig‘ zu markieren (in der Grammatiktheorie wird hierfür das Konzept der ‚Unterspezifikation‘ verwendet). Dann würde die Annotation nicht durch außergrammatische Informationen ‚kontaminiert‘.

Die übliche Annotationspraxis erfordert jedoch bei strukturell ambigen Instanzen eine Entscheidung – auf Basis des semantischen (und ggf. pragmatischen) Verständnisses. Dies ist sinnvoll, da die überwiegende Zahl von globalen Ambiguitäten von kompetenten Sprechern/Hörern überhaupt nicht wahrgenommen wird – das semantische Mitlesen können wir nicht abschalten (strukturelle Ambiguitäten wie in Beispiel (1) dürften die meisten Leser bei der inhaltlichen Lektüre übersehen^{Footnote 21}). Und da die Interaktion zwischen unterschiedlichen Granularitätsebenen (lexikalische Semantik, syntaktische Struktur, semantische Skopusentscheidungen, Informationsstruktur im Sinn von Fokus/Hintergrundgliederung) sehr komplex ist, wäre eine Spezifikation sämtlicher Umstände, unter denen Ambiguitäten explizit markiert werden sollen, sehr kompliziert und dürfte in der Praxis zu recht arbiträren Einschätzungen führen. Die Aufforderung an die Annotierenden, die im Kontext jeweils plausible Interpretation zugrunde zu legen und danach alle Teilentscheidungen aufzulösen, ist hingegen simpel und robust. Der wahrscheinlich größte Vorteil liegt wohl darin, dass die entstehende Gold-Standard-Annotation als Basis für Analyseentscheidungen auf sehr vielen Ebenen herangezogen werden kann. So können morphologische Annotationen innerhalb einer komplexen syntaktischen Struktur extrahiert werden, um einen morphologisch angereicherten Part-of-Speech Tagger zu trainieren, der innerhalb von lokal ambigen Phrasen ggf. lexikalisch-semantische Tendenzen berücksichtigt (der also in einem Satzanfang „Diese Einschätzung teilt …“ bereits ein Akkusativobjekt vermutet, obgleich der Tagger keine vollständige syntaktische Struktur aufbaut).

Die Praxis der erzwungenen (kontextgebundenen) Disambiguierung stößt in zwei Situationen an Grenzen: zum einen bei Sprachspielen, die die Ambiguität auf die Ebene des Bewussten ziehen, wie folgender Verwechslungswitz auf Basis der lexikalischen Ambiguität von „Schale“:

3.
Eine Frau kommt zum Arzt und sagt: „Mein Kind hat eine Apfelsine mit der Schale gegessen, ist das schlimm?“

Darauf der Arzt: „Wenn die Schale nicht gespritzt war, ist das halb so wild.“

Die Frau: „Gespritzt? Die Schale war aus Porzellan!“^{Footnote 22}

In üblichen Korpora, die für linguistische und sprachtechnologische Zwecke eingesetzt werden, kommen solche Sprachspiele in verschwindend geringer Zahl vor. (Wobei die erzwungene Disambiguierung wohl korrekterweise den Zeitpunkt der Pointe vorhersagen würde: Es würde im ersten Satz die naheliegende Interpretation – des Arztes – annotiert, die erst im letzten Satz scheitert; die Auflösung der Pointe aufgrund der alternativen Interpretation kann jedoch aus der Annotation nicht rekonstruiert werden).

Die zweite problematische Situation tritt dann ein, wenn unterschiedliche Annotierende bei der kontextgebundenen Interpretation zu unterschiedlichen Ergebnissen kommen, die jedoch orthogonal zur eigentlichen Annotationsaufgabe stehen und daher nicht explizit in der Annotation dokumentiert werden. Dies kann – selten – zu irreführenden Effekten führen. Glauben bei der Annotation von Beispiel (2) etwa drei von vier Annotierenden fälschlich, dass Mangusten kleine Insekten sind, könnten sich Fehler in das Gold-Standard-Korpus einschleichen, die das oben angedeutete ‚vorausahnende‘ Verhalten von Modellen beeinträchtigen könnten. Diese Möglichkeit führt jedoch im üblichen Rahmen einer linguistischen Annotation zu keinen systematischen Problemen: Die Aufgabe der grammatischen Kernannotation greift auf die Sprachkompetenz zu, und der interpretationsrelevante Disambiguierungshintergrund beschränkt sich bei den üblicherweise annotierten Texten auf das Allgemeinwissen von Zeitungslesenden o. ä. In Einzelfällen werden Annotationsfehler auftreten; diese sind jedoch nicht systematisch verteilt und führen daher höchstwahrscheinlich zu keiner Verfälschung bei der Modellentwicklung oder -validierung. Mit anderen Worten: Für die linguistische Annotation gewährleistet ein Bezug auf muttersprachliche Sprachkompetenz in Kombination mit Inferenzen aufgrund von Allgemeinwissen eine robuste Basis für intersubjektiv stabile, voll disambiguierte Annotationen.

1.4 Literaturwissenschaftliche Interpretation und intersubjektive Annotation

Kommen wir nun zum literaturwissenschaftlichen Rahmen. Über die linguistischen Analysefragen hinaus werden hier beispielsweise Analysekategorien aus der narratologischen Beschreibung relevant. Die zu annotierenden Texte sind literarische Texte. Wie verändert sich die systematisch-strukturelle Ausprägung der Annotationsaufgabe? Zu der Ebene der oben (und in der linguistischen Literatur) so genannten linguistischen Interpretation tritt die Ebene der literaturwissenschaftlichen Interpretation hinzu. Folgt man der Terminologie eines Eric D. Hirsch Jr., kommt zur inhaltlichen Bedeutungsebene des Texts (Meaning) seine (mögliche) Bedeutung im Sinne von Bedeutsamkeit (Significance) hinzu.^{Footnote 23}

Die Frage, ob sich der Blick auf die inhaltliche Bedeutungsebene gegenüber der bisherigen, linguistischen Betrachtung im Rahmen der Korpusannotation für Literaturstudien verschieben kann bzw. muss, wird uns weiter unten eingehender beschäftigen (Abschn. 2.3). Fürs Erste ist festzustellen, dass für Analyseentscheidungen, die in engem Zusammenhang mit der Ebene der literaturwissenschaftlichen Interpretation stehen, ohne weitere Qualifizierung keine intersubjektiv stabile Annotation zu erwarten ist. Dies betrifft etwa die Fragen, ob eine Schlüsselszene im Text allegorisch ist, was die psychologische Deutung einer bestimmten Wendung ist, worauf der intertextuelle Bezug zu einem Text anspielt usw. Auch ohne die stärkeren Implikationen der Polyvalenz-These ist unstrittig, dass für denselben Text – abhängig vom als relevant betrachteten Kontext – mehrere divergierende literaturwissenschaftliche Interpretationen nebeneinander stehen können (häufig eingebettet in unterschiedliche literarische Interpretationstheorien). Es erscheint auch nicht realistisch, Annotierende in den Richtlinien (Guidelines) eine kompakte Charakterisierung des relevanten Interpretationskontexts an die Hand zu geben, der in der Mehrzahl der Fälle zu einer intersubjektiven Konvergenz führte. (Und selbst wenn dies für bestimmte, stark formalisierte Interpretationskontexte möglich wäre, wären die entstehenden Annotationen für andere Kontexte von sehr eingeschränktem Wert.) Ein Einsatz der etablierten Korpusannotationspraxis, die auf überindividuelle Konvergenz abzielt, kommt also auf oberster Ebene der Literaturinterpretation nicht infrage.

Wie verhält es sich aber mit weniger komplexen Entscheidungen bei der Analyse von literarischen Texten? Kann hier durch Parallelannotation ein intersubjektiver Konsens ermittelt werden und dann für (das Training und) die Validierung von Vorhersagemodellen herangezogen werden? Hierzu müssen wir die Interaktion zwischen Analyseentscheidungen auf verschiedenen Abstraktionsebenen betrachten. Gibt es den Effekt eines ‚Ausstrahlens‘ von tieferen Entscheidungen auf solche, die näher an der Oberfläche sind – so wie wir es in der Diskussion der Beispiele (1) und (2) bei der Abhängigkeit von strukturellen Disambiguierungsentscheidungen zur Satzstruktur von der inhaltlichen (linguistischen) Bedeutung beobachtet haben? Selbstverständlich lässt sich dieser Effekt auch beim Zusammenspiel von Literaturinterpretation und deskriptiven Kategorien der Textanalyse nicht abstreiten. Man wird einen Text tendenziell so lesen, dass Passagen, die einen Interpretationsspielraum (im Kleinen) offen lassen, konsistent mit einer sehr weitgehenden, komplexen Interpretation ‚ausgefüllt‘ werden.

Ein dankbares Beispiel für die Manifestation von weitreichenden interpretatorischen Thesen in minimalen sprachlichen Differenzierungen ist sicherlich die Rezeption von Christoph Ransmayrs Roman Die letzte Welt,^{Footnote 24} der schildert, wie Ovids Freund Cotta diesen – Publius Ovidius Naso – in seinem Exil am Schwarzen Meer aufzufinden versucht, aber nur vielfältige Spuren Ovids findet. Im Verlauf des Romans scheint Cotta sich mehr und mehr mit Naso zu identifizieren. In einer Rezension in DIE ZEIT beobachtet Volker Hage dazu:

4.
Zweimal läßt der Autor Cotta auf den Spuren Nasos ins Gebirge gehen. „Hier war Naso gegangen: Das war Nasos Weg.“ So heißt es beim ersten Mal. Beim zweiten Mal, am Ende des Romans, eine minimale Verschiebung: „Hier war Naso gegangen; dies war Nasos Weg.“ Ganz unauffällig, fast zu überlesen: eine Ineinssetzung – die Figuren fallen zusammen.

Ist Cotta Naso geworden? War sein Weg, den wir verfolgt haben, auch der des Dichters? Cotta, oder wer es ist, sucht einen letzten Stoffetzen: den mit seinem eigenen Namen. Er selbst ist Bestandteil jener Geschichte geworden, die es nur noch in Fragmenten gibt, die sich in einer leeren, letzten Welt verlieren. Wie mögen die zwei Silben, die auf dieser Fahne stehen, lauten? Cotta? Naso? Oder vielleicht Christoph?

Dieses Rätsel läßt Christoph Ransmayr offen.^{Footnote 25}

Die Referenz der Demonstrativpronomina das und dies (welche zunächst auf der rein inhaltlichen Bedeutungsebene [= Hirschs Meaning] verortet ist) ist also mit weitreichenden Fragen der Interpretation verbunden.^{Footnote 26}

Durch die unbestritten vorhandenen, Ebenen übergreifenden Abhängigkeiten ‚sickert‘ der Einwand gegen die Möglichkeit einer intersubjektiv tragbaren Annotation von der Ebene der abstrakten Literaturinterpretation hinunter auf einzelne textanalytische Entscheidungen, soweit sie interpretationsrelevant sind. Es kann nicht ausgeschlossen werden, dass zwei Annotierende, die unterschiedliche Gesamtinterpretationen im Kopf haben, allein aus diesem Grund gegenläufige Annotationsentscheidungen vornehmen, und dies konterkariert die Brauchbarkeit der Annotation als Gold-Standard.

Augenscheinlich resultiert also das Dilemma, dass nur für solche Analysekategorien eine valide komputationelle Modellierungspraxis etabliert werden kann, deren Wertebereich in keinem direkten Bezug zu Fragen der literaturwissenschaftlichen Interpretation steht. Dies wäre freilich eine Rechtfertigung für ein eher peripheres Interesse an den neuen Methoden innerhalb des etablierten Faches.

2 Reaktionen auf die methodischen Einwände

2.1 ‚Defensive‘ Reaktionen

Methodischen Einwänden, laut denen die übliche Praxis der korpusbasierten Entwicklung und Validierung von Computermodellen bei typischen literaturwissenschaftlichen Konstellationen von Untersuchungsgegenstand und Fragestellung an Grenzen stoße, lässt sich aus Sicht der Digitalen Literaturwissenschaft in mindestens zweierlei Weise begegnen: Der erste Typ von Replik, den ich hier (wertungsfrei) ‚defensiv‘ nenne, anerkennt die Problematik eines Ausstrahlens zugrunde liegender literaturwissenschaftlicher Interpretationsansätze auf eine Reihe von Textanalyseaufgaben (für die damit die datengeleitete Standardmethodik der Modellierung nicht infrage kommt), verweist jedoch darauf, dass es eine Vielzahl von deskriptiven Analysekategorien gibt, die sich unabhängig von der Textinterpretation operationalisieren lassen – beispielsweise ‚stabile‘ oberflächennahe narratologische Analysekategorien^{Footnote 27} oder Texteigenschaften, die sich aus Metadaten zum Text ableiten (wie Autorenschaft, Erscheinungsdatum etc.). Eine systematisierte Modellierungspraxis ermöglicht die Validierung von Analyseinstrumenten und eine Skalierung des Volumens von Text(en), die auf derartige deskriptive Texteigenschaften untersucht werden können. Je breiter die zukünftige Basis derartiger Operationalisierungen und, wo robust möglich, Vorhersagemodelle, desto vielseitiger die Möglichkeiten von differenzierten quantitativen Betrachtungen auf größeren literaturwissenschaftlichen Korpora. Wie bereits die Ergebnisse der letzten Jahre andeuten (mit dem Paradebeispiel stilometrischer Untersuchungen zu Autorschaft und darüber hinaus zu feineren Differenzierungen), dürfte sich das Spektrum der Fragestellungen, die sich fundiert bearbeiten lassen, spürbar erweitern – teilweise sicherlich in Richtungen, die noch nicht absehbar sind. Der Einschränkung auf deskriptive Kategorien, die in keinem unmittelbaren Zusammenhang zur Textinterpretation stehen, wird also wettgemacht (a) durch die Skalierung der Analysemöglichkeit auf ungleich größere Textmengen, die valide und ‚reliabel‘ analysiert werden können, und (b) durch die Möglichkeit der systematischen Kombination von, für sich genommen, wenig komplexen Filtern, die schnell zu nicht-trivialen Beobachtungen auf dem Untersuchungskorpus führen können und so die etablierte Praxis der historisch fundierten Literaturwissenschaft um wertvolle Instrumente erweitern.^{Footnote 28} Nicht zuletzt dürfte der Bedarf an operationalisierten Kriterien für Analyseentscheidungen mittelfristig die Auseinandersetzung mit der Begriffsbildung für zentrale Konzepte (wie Gattungsbegriffe, den Status von Kanones etc.) im Kernfach beleben.^{Footnote 29}

Sicherlich sind auf dem Wege der vielfältigen denkbaren ‚defensiven‘ Reaktionen auf den methodischen Einwand erhebliche methodische Fortschritte zu erwarten (die den Charakter der Digitalen Literaturwissenschaft stark prägen dürften). Dennoch werde ich in Abschn. 2.2 argumentieren, dass es eine alternative ‚offensivere‘ Reaktionsmöglichkeit gibt, die parallel dazu verfolgt werden könnte. Als Motivation könnten zwei Überlegungen dazu angeführt werden, weshalb die defensive Reaktion nicht ganz unproblematisch ist.

Zum einen ist die Ausarbeitung von konsensfähigen deskriptiven Analysekategorien (und insbesondere die Annotation einer nennenswerten Auswahl von Texten) mühsam und womöglich innerhalb der Literaturwissenschaft mit unzureichendem Renommee^{Footnote 30} verbunden – nicht zuletzt angesichts des nur mittelbaren Beitrags zum eigentlichen Erkenntnisinteresse der literarischen Interpretation, wenn man der ‚defensiven‘ Positionierung folgt. Allerdings ist diesem Punkt entgegenzusetzen, dass gerade für die Entwicklung von robusten Computermodellen eine möglichst breite Auseinandersetzung mit dem mühsamen Teil des Unterfangens förderlich ist.^{Footnote 31} Mittelfristig ist zu hoffen, dass auch im literaturwissenschaftlichen Kernfach die Anerkennung für die zeitaufwändige Methodenentwicklung wächst – und für die damit einhergehenden Veränderungen der Arbeitspraxis (bspw. die fast zwingend erforderliche Teambildung, die zu Publikationen in Co-Autorenschaft führt usf.). Ein Meilenstein dürfte sein, dass ein Beitrag als uneingeschränkt originell anerkannt wird, wenn dieser wesentliche Innovationen in eingesetzten Modellen bzw. Verfahren vorschlägt und experimentell anhand eines literarischen Textkorpus (oder auch eines Einzeltexts) validiert – auch wenn zu keinem literarischen Gegenstand eine neue Fragestellung aufgeworfen bzw. beantwortet wird. Das erhebliche Analysepotenzial, das in der korpusorientierten Praxis auch für literaturhistorische und hermeneutische Arbeiten liegt (das grundsätzlich sicherlich von wenigen infrage gestellt wird), dürfte sich mit einem erweiterten Originalitätsbegriff wesentlich dynamischer entwickeln lassen.

Eine zweite Problematik scheint mir in der Grenzbestimmung für deskriptive Analysekategorien zu liegen: Wo liegt die Schwelle der literaturwissenschaftlichen Interpretation, wie weit reicht der Skopus von intersubjektiv reproduzierbaren Kategorien einer professionellen literarischen Beschreibung von Texteigenschaften, für die eine weitgehende Unabhängigkeit von Rezeptionskontext und theoretischem Rahmen angesetzt werden kann? Will man sich nicht auf unstrittige Konzepte wie Metadaten zum Text beschränken, begibt man sich schnell auf literaturtheoretisch umstrittenes Terrain.

Eine naheliegende Strategie für das Erreichen intersubjektiver Übereinstimmung in der Annotation wäre, sich grundsätzlich auf formal-strukturelle Texteigenschaften zu beschränken (in der Annahme, diese wären unabhängig von jedem Interpretationsaspekt). Die Diskussion in Abschn. 1.4 (im Zusammenhang mit den Beispielen 1 und 2) hat jedoch gezeigt, dass bereits für unverdächtige strukturelle Kategorisierungen wie zur Satzgliedfunktion ein ‚Durchsickern‘ von Interpretationsunterscheidungen stattfinden kann. Bei der Annotation jegliche Inferenzen aus einem semantischen und pragmatischen Textverständnis auszublenden, scheint also kontraproduktiv.

Aus computerlinguistischer Sicht naheliegend wäre es, im Anschluss an Hirsch^{Footnote 32} eine weitestgehend stabile inhaltliche Bedeutungsebene (Meaning) anzusetzen – in Abgrenzung von der Bedeutung des literarischen Texts im Sinne von Bedeutsamkeit (Significance), welche der literarischen Interpretation vorbehalten bleibt. Wie allerdings Jannidis u. a. historisch-systematisch darlegen,^{Footnote 33} läuft bereits die Festlegung auf eine fixe inhaltliche Textbedeutung den Idealen eines hermeneutischen Ansatzes entgegen. Möglicherweise lässt sich aber das prinzipielle Problem aus der praktischen Operationalisierung heraushalten, indem als abstrahierendes Konstrukt bei der Annotation das referenzielle Inhaltsverständnis eines prototypischen Lesers bzw. einer prototypischen Leserin^{Footnote 34} angesetzt wird (die – in Anlehnung an das linguistische Konstrukt des kompetenten Muttersprachlers/der Muttersprachlerin – all jene Inferenzen ziehen, die aus dem kulturellen Allgemeinwissen und dem aufgebauten textuellen Kontext naheliegend sind). Abgesehen von Sonderfällen (wie vielleicht postmodernen Texten, die bewusst mit naheliegenden Inferenzen spielen) könnte ein solcher Ansatz – unter einer Gegenwartsperspektive^{Footnote 35} auf die Textrezeption – zu hoher intersubjektiver Übereinstimmung führen, ohne für die darunter liegende Ebene der literarischen Interpretation unerwünschte Vorentscheidungen zu treffen.^{Footnote 36}

Als Illustration mag eine Passage aus Mark Twains Huckleberry Finn dienen, in der die Erzählung mit der Ironie spielt, die sich daraus ergibt, dass sich in dieser Szene Huckleberry Finn und Tom Sawyer verkleidet haben: Tom als sein Halbbruder Sid und Huck als Tom. Huck schildert als Ich-Erzähler, wie er verkleidet als Tom in Uncle Silas hineinläuft, nachdem er gerade versucht hat, den Doktor zu Hilfe in ihr Versteck zu holen, weil Tom eine Kugel ins Bein bekommen hat:^{Footnote 37}

5.
I […] went for the doctor’s house, but they told me he’d gone away […] and warn’t back yet. Well, thinks I, that looks powerful bad for Tom, […]. So away I shoved, and turned the corner, and nearly rammed my head into Uncle Silas’s stomach! He says:

„Why, Tom! Where you been all this time, you rascal?“

„I hain’t been nowheres,“ I says, „only just hunting for [Jim] – me and Sid.“

„Why, where ever did you go?“ he says. „Your aunt’s been mighty uneasy.“

„She needn’t“ I says, „because we was all right. We followed the men and the dogs [...]. Sid’s at the post-office to see what he can hear, and I’m a-branching out to get something to eat for us, and then we’re going home.“

So then we went to the post-office to get „Sid“; but just as I suspicioned, he warn’t there [...].^{Footnote 38}

Die Frage der Referenz der Namen „Tom“ und „Sid“ im Erzählertext vs. in der wörtlichen Rede ist, technisch gesehen, komplex und hängt in hohem Maß von den Inferenzen ab, die auf Basis der inhaltlichen Textbedeutung vollzogen werden müssen. Gleichwohl dürften Leser, die sprachlich in der Lage sind, der Texthandlung zu folgen, das ironische Spiel mit der Referenz ohne Mühe nachvollziehen können – wie auch den Grund für die Verwendung von Anführungszeichen im letzten Satz, nämlich um im Erzählertext an das Referenzsystem des Dialogs anzuschließen. Nichts spricht gegen die Erwartung einer intersubjektiv stabilen Annotation der Zusammenhänge auf unterschiedlichen Erzählebenen bzw. Wahrnehmungswelten, und eine entsprechende Annotation scheint mir für keine denkbare literarische Interpretation vorentscheidend.^{Footnote 39}

Für die Möglichkeit intersubjektiv stabiler Annotationen von komplexeren Texteigenschaften sprechen auch die positiven Erfahrungen, die das Hamburg-Heidelberger literaturwissenschaftliche Annotationsprojekt heureCLÉA^{Footnote 40} im Umgang mit der Frage der Polyvalenz gesammelt hat: In einem zyklischen Prozess zur Verfeinerung von Annotationsrichtlinien gelang es hier, zu Annotationsentscheidungen, für die der Eindruck nicht zu vermeidender individueller Divergenzen naheliegt, einen intersubjektiven Konsens herbeizuführen, nötigenfalls durch Verwendung von Hilfskategorien.^{Footnote 41}

2.2 Computermodelle in der hermeneutischen Praxis? Die ‚offensive‘ Replik

Obgleich die Vermeidung von unmittelbar interpretationsabhängigen Analysekategorien eine gut handhabbare Arbeitspraxis garantiert, kann man die Frage stellen, ob die Anwendungsbedingungen für Computermodelle in den Literaturwissenschaften wirklich erzwingen, dass die Modelle jeglichen Aspekt der Interpretation – auch innerhalb eines hermeneutisch orientierten Selbstverständnisses – ausblenden. Eine offensivere Replik auf die naheliegenden Einwände erscheint möglich.

Defensiv erscheint zunächst auch Willard McCartys Grundhaltung, wenn dieser die Modelle der Digital Humanities (bzw. des Humanities Computing) als für sich jeweils unzulängliche Vehikel auf dem Weg zu einer tieferen Erkenntnis darstellt.^{Footnote 42} Der Anspruch, mit Modellvarianten eine Empirie vorherzusagen, die unabhängig vom wissenschaftlichen Betrachter besteht, wird negiert. Welche andere Rolle kommt einem Modell aber im Erkenntnisprozess zu? Wir können davon ausgehen, dass sich der interpretierende (digitale) Literaturwissenschaftler oder die Literaturwissenschaftlerin bei der Konzeption des Modells davon überzeugt hat, dass dieses ein gewisses komplexes Zusammenspiel von Texteigenschaften so gut erfasst, dass es Positivbeispiele für einen Interpretationsansatz von Negativbeispielen besser abgrenzt als andere denkbare Modelle (Baselines) – jeweils für einen gegebenen Ausschnitt an Texten und relativ zum für relevant erachteten Kontext. (So mag bspw. für die rezeptionsästhetische Untersuchung eines bestimmten literarischen Kerntexts ein Untersuchungskorpus von Texten zugrunde gelegt werden, die in der nachfolgenden Epoche entstanden sind. Die Korpusanalyse soll klären, ob und in welchen Texten sich die Rezeption des Kerntexts in Form von Textmerkmalen niedergeschlagen hat. Anhand von Texten, zu denen eine Auseinandersetzung der Autorin mit dem Kerntext durch bekannte Fakten nachgewiesen ist, könnte nun ein Modell so eingestellt werden, dass es tendenziell in der Lage ist, zwischen direkten Einflüssen und zufälligen sprachlichen Ähnlichkeiten zu unterscheiden.) Wird nun ein solches Modell auf einige neue Texte angewendet, welchen Status haben dann die Modellvorhersagen? Wenn sie ausschließlich als Heuristik für die Auswahl derjenigen Texte dienten, die anschließend einer konventionellen Feinstudie, also dem Close Reading, unterzogen würden, so hätten empirische Implikationen des Modells in der Tat keinen Einfluss auf den Kern des Erkenntnisprozesses. Wenn McCarty jedoch von einer sukzessiven Verbesserung der (global zwar unzulänglichen) Vehikel ausgeht, heißt dies doch, dass die Modelle bei einer kontrastiven Betrachtung sehr wohl der Bewertung unterschiedlicher Interpretationswege dienen können.^{Footnote 43} In die Beurteilung, ob ein weiterer analytischer Schritt ein Fortschritt auf dem Weg zu einer tieferen Erkenntnis ist oder nicht, fließt in diesem Fall die Vorhersage des Modells ein.

Der Anspruch an die Validität^{Footnote 44} eines solchen Modells muss also sein, dass es in den gewählten Parametrisierungen hinsichtlich der aktuell betrachteten Fragestellung mit den interpretatorischen Vorannahmen kompatibel ist und dass die Texte, auf die das Modell angewendet wird, sich in relevanten Eigenschaften in die angenommene Grundgesamtheit einfügen.

Die ‚offensive‘ Replik auf den methodischen Einwand zum Verhältnis zwischen literaturwissenschaftlicher Interpretation und den Ansprüchen einer operationalisierten Annotationspraxis mit entsprechenden Repräsentativitätsannahmen des Gold-Standard-Korpus besteht genau in einer Verschiebung des Datenspektrums, auf das die etablierte korpusorientierte Praxis angewendet wird: Der Validitätsanspruch relativ zu einer intersubjektiv stabilen Zielkategorisierung als Referenz (aus dem sich empirische Implikationen ableiten lassen) wird ersetzt durch den Anspruch, eine möglicherweise subjektiv charakterisierte Zielkategorisierung systematisch zu erfassen und relativ hierzu ein reproduzierbares Vorhersageverhalten auf neuen Daten zu erhalten (für welche eine Zugehörigkeit zur angenommenen Grundgesamtheit unterstellt wird).

Auf diese Weise wird es m. E. möglich, Computermodelle in die Abwägung von textanalytischen Alternativen einzubeziehen, die mit Fragen der literaturwissenschaftlichen Interpretation in Zusammenhang stehen. Zunächst soll das Vorgehen jedoch anhand eines Beispiels konkretisiert werden.

2.3 Beispiel: Korpusbasierte Modellierung interpretationsgebundener Analysekategorien

Grundsätzlich wäre denkbar, mit Computermodellen zu arbeiten, die Zielkategorien einer literarischen Interpretation direkt modellieren. Dies würde einen recht engen interpretationstheoretischen Rahmen voraussetzen (möglicherweise literatursoziologisch, rezeptionshistorisch etc.), innerhalb dessen Hypothesen zu sinnvollen Interpretationen einiger Zieltexte aufgestellt und mittels eines statistischen Modells überprüft werden, das auf einem mit entsprechenden Interpretationskategorien annotierten Korpus trainiert wurde. Hier erscheint jedoch eine sehr voraussetzungsreiche und zeitaufwendige Annotation unvermeidlich.

Mir erscheint daher zumindest kurzfristig ein Ansatz attraktiver, der weder direkt auf Zielkategorien der literarischen Interpretation zielt noch sich mit intersubjektiv stabilen deskriptiven Analysekategorien begnügt. Stattdessen bezieht er in der Mitte des Spektrums solche Kategorien der Textanalyse (etwa der narratologischen Textanalyse) ein, die mit interpretatorischen Entscheidungen verwoben sind. Die Etablierung eines studienunabhängigen intersubjektiven Gold-Standards ist damit ausgeschlossen, dennoch kann über die unterschiedlichen Textinstanzen bzw. ein ganzes Korpus hinweg ein systematisch ‚reliables‘ Analyseverhalten angestrebt werden, wie es mit einem Computermodell erzielbar ist.

Als Beispielaufgabe soll hier die Frage der subjektiven Perspektivierung von Figuren in Erzählungen dienen, durchgeführt für eine Reihe von Erzähltexten Arthur Schnitzlers in der dritten Person. Darunter sind Texte, in denen die gesamte Erzählung an die Wahrnehmung einer Figur gebunden ist: Frau Berta Garlan (1900) und Casanovas Heimfahrt (1918) (jeweils konsistent aus der Wahrnehmungswelt der Titelfigur erzählt, wobei die explizite Attribution von Wahrnehmungs-, Gedanken- oder Trauminhalten durch die Erzählerinstanz mit Passagen der erlebten Rede changieren). In der Novellette Die Toten schweigen (1897) kontrastiert der zweite Teil mit seiner Innensicht der verheirateten Emma formal deutlich mit dem ersten Teil, der eingangs überwiegend den Blickwinkel von Emmas Liebhaber Franz einnimmt. In dem anschließenden langen Dialog sieht Aurnhammer die Inszenierung einer gemeinsamen Perspektive.^{Footnote 45} Die Erzählung im Roman Der Weg ins Freie (1907) folgt überwiegend der Wahrnehmung des Opernkomponisten Baron Georg von Wergenthin, enthält jedoch auch einige Passagen, die aus der subjektiven Perspektive anderer Figuren geschildert sind.

Charakteristisch für Schnitzlers Erzählstil sind lange Passagen der Innensicht einer Figur, häufig mit umfangreichen Rückblenden, innerhalb derer etwa auch der Hintergrund einer zweiten Figur aus dem subjektiven Blickwinkel der ersten charakterisiert werden kann. Ein Beispiel ist folgende Passage aus dem Weg ins Freie, in der die Erzählung Georg von Wergenthins Gedanken folgt und wir – gewissermaßen aus zweiter Hand – eine Schilderung zur Vergangenheit des jüdischen Schriftstellers Heinrich Bermann erhalten, mit dem Georg von Wergenthin befreundet ist. Das subjektive Element der Perspektive Georgs wird erst wieder gegen Ende der Passage deutlich, nachdem zwischenzeitlich die Tatsache leicht in Vergessenheit geraten konnte, dass wir es mit einer „gefärbten“ Schilderung zu tun haben:

6.
Georg bummelte langsam gegen die Stadt zu. Er überlegte, ob er ins Kaffeehaus gehen sollte. Er hatte keine rechte Lust dazu. […] auf Leo Golowskis Kommen war nur selten zu rechnen; und die andern jungen Leute […] lockten ihn nicht eben an, […]. Im ganzen fand er den Ton der jungen Leute untereinander bald zu intim, bald zu fremd […]. [W]ährend er selbst nach wie vor sich ziemlich zurückhaltend verhalten und insbesondere über seine Beziehungen zu Frauen jede Andeutung vermieden, hatte ihm Heinrich nicht nur von der fernen Geliebten erzählt, […] sondern auch von der Kinder- und Knabenzeit in der kleinen böhmischen Provinzstadt, wo er vor dreißig Jahren zur Welt gekommen war. Sonderbar und zuweilen fast peinlich erschien Georg der wie aus Zärtlichkeit und Widerwillen, aus Gefühlen von Anhänglichkeit und von Losgerissensein gemischte Ton, in dem Heinrich von den Seinen, insbesondere von dem kranken Vater sprach, der in jener kleinen Stadt Advokat, und eine Zeitlang Reichsratsabgeordneter gewesen war. Ja, er schien sogar ein wenig stolz darauf zu sein, daß er als Zwanzigjähriger schon dem allzu Vertrauensseligen sein Schicksal vorausgesagt hatte, genau so wie es sich später erfüllen sollte: nach einer kurzen Epoche der Beliebtheit und des Erfolgs hatte das Anwachsen der antisemitischen Bewegung ihn aus der deutsch-liberalen Partei gedrängt, die meisten Freunde hatten ihn verlassen und verraten […]. Heinrich, dem die Phrasen des Vaters von Deutschtum, Freiheit, Fortschritt in all ihrer Ehrlichkeit immer gegen den Strich gegangen waren, hatte dem Niedergang des alternden Mannes anfangs wie mit Schadenfreude zugesehen; allmählich erst […] stellte bei dem Sohne sich ein verspätetes Mitleid ein. […] Seine ersten künstlerischen Erfolge fanden in dem verdüsterten Hause der Heimat kein Echo mehr. Dem Vater nahte unter schweren Zeichen der Wahnsinn, und der Mutter […] versank nun […] die ganze Welt. […] Auch von andern Verwandten erzählte Heinrich, deren er aus früherer Zeit sich erinnerte, und ein teils lächerlicher, teils rührender Zug fromm beschränkter alter Juden und Jüdinnen schwebte an Georg vorüber, wie Gestalten einer andern Welt.^{Footnote 46}

Formal sind Schilderungen wie die zu Heinrichs Hintergrund bisweilen ununterscheidbar von denkbaren Einschüben der Erzählerinstanz, welche die interne Fokalisierung des Protagonisten (hier Georg) unterbrechen könnten – eventuell mag sogar der Eindruck eines Sprungs in der internen Fokalisierung entstehen, hier etwa auf Heinrich.Die Fortführung gegen Ende der zitierten Passage zeigt jedoch (wie in vielen solchen Fällen bei Schnitzler) im Nachhinein, dass wir in der Tat Georgs Wahrnehmung der Schilderungen Heinrichs ihm gegenüber – oder genauer Georgs Erinnerung an diese Schilderungen, die ihm durch den Kopf gehen, während er durch die Stadt bummelt – mit ihm teilen.

Es finden sich immer wieder Passagen (wie folgende Szene in Kap. 3 im Zusammenhang mit einer Radtour), in denen Gedanken und Ansichten einer Figur geschildert werden – hier sind es Gedanken Heinrichs –, für die sich jedoch bei genauerer Betrachtung erweist (oder richtiger: für die aus weitergehenden Betrachtungen die Interpretation nahe liegt), dass dies nicht aus einer wirklichen Innensicht heraus geschieht:

7.
Heinrich nickte. […]

Er versank für eine Weile in Nachdenken, schob sein Rad in leichten, ungeduldigen Stößen vorwärts und war gleich wieder um ein paar Schritte voraus. Dann begann er wieder von seiner Septemberreise zu sprechen. Beinahe mit Ergriffenheit dachte er an sie zurück. Alleinsein, Fremde, Bewegung, war es nicht ein dreifaches Glück, das er genossen? „Was für ein Gefühl von innerer Freiheit mich damals durchfloß“, sagte er, „kann ich Ihnen kaum beschreiben.“ [...].

Georg empfand stets eine gewisse Verlegenheit, wenn Heinrich pathetisch wurde. „Jetzt könnte man vielleicht wieder fahren“, sagte er, und sie schwangen sich auf die Räder.^{Footnote 47}

Vielmehr werden uns die Gedanken Heinrichs aus der Sicht einer anderen Figur vermittelt (hier wieder Georg) – Heinrich hat sie also Georg gegenüber geäußert (selbst wenn der Akt der Äußerung nicht explizit ist – wie hier für den Satz „Beinahe mit Ergriffenheit dachte er an sie zurück.“ und den nachfolgenden Gedanken, bei dem es sich gewissermaßen um erlebte Rede aus zweiter Hand handelt).

Sprachlich finden sich Indikatoren für diese vermittelte Sicht: Zum Inhalt des Nachdenkens Heinrichs (zu Beginn von Passage [7]) erfahren wir zunächst nichts, stattdessen werden Heinrichs Handlungen aus der Außensicht beschrieben (Schieben des Rads), mit deiktischen Bestimmungen relativ zu Georgs Perspektive („ein paar Schritte voraus“). Erst nachdem explizit erwähnt wird, dass Heinrich zu sprechen beginnt, erfahren wir etwas über den Inhalt seiner Gedanken. Nach einer längeren Passage wörtlicher Rede unterstützt die Schilderung von Georgs Verlegenheit wiederum im Nachhinein, dass wir Heinrichs Gedanken von Georgs Warte aus gehört haben.

Die sprachlichen Charakteristika für die mittelbare Fokalisierung Heinrichs (in [7], via Georg) stehen in klarem Kontrast zu Passagen einer internen Fokalisierung, für die folgendes Beispiel typisch ist: Die engmaschige Erwähnung von klar perspektivierten Sinneswahrnehmungen fällt auf.

8.
Vom Turm der Michaelerkirche schlug es neun, als Georg vor dem Kaffeehaus stand. An einem Fenster, das der Vorhang nicht verhüllte, sah er den Kritiker Rapp sitzen, einen Stoß von Zeitungen vor sich auf dem Tisch. Eben hatte er den Zwicker von der Nase genommen, putzte ihn, und so sah das blasse, sonst so hämisch-kluge Gesicht, mit den stumpfen Augen wie tot aus. Ihm gegenüber, mit ins Leere gehenden Gesten, saß der Dichter Gleißner, im Glanze seiner falschen Eleganz, mir einer ungeheuern, schwarzen Krawatte, darin ein roter Stein funkelte. Als Georg, ohne ihre Stimmen zu hören, nur die Lippen der beiden sich bewegen und ihre Blicke hin- und hergehen sah, faßte er es kaum, wie sie es ertragen konnten in dieser Wolke von Haß sich eine Viertelstunde lang gegenüber zu sitzen.^{Footnote 48}

Schnitzlers Erzählstil eignet sich sehr gut, um die Idee einer teilweise interpretationsgebundenen Modellspezifikation zu illustrieren. Die zuletzt geschilderten Beobachtungen sind in der Zusammenschau plausibel; formal finden sich jedoch keine zwingenden Indikatoren. Im Gegenteil, im Werk einer anderen Autorin oder eines anderen Autors wäre es möglicherweise naheliegend, die Folge „Dann begann er wieder von seiner Septemberreise zu sprechen. Beinahe mit Ergriffenheit dachte er an sie zurück.“ (aus Kap. 7) als interne Fokalisierung zu interpretieren.

Eine detaillierte narratologische Annotation längerer Textpassagen, die den Zusammenhängen gerecht wird, wäre sehr aufwendig. Wahrnehmungsebenen und Erzählebenen müssten mit Fragen der Fokalisierung in Beziehung gesetzt werden. Intersubjektive Übereinstimmung in allen wesentlichen Fällen zu erreichen, scheint zudem unwahrscheinlich, da Einzelinstanzen Interpretationsspielraum lassen (selbst wenn eine einheitliche Gesamttendenz festgelegt werden könnte). Für bestimmte weitergehende Fragen, die Schnitzlers Erzählstil betreffen (etwa zu dessen Entwicklung, zu eventuellen intertextuellen Einflüssen^{Footnote 49} o.ä.) oder für die interpretationsunterstützende Analyse einzelner Texte könnte jedoch ein ‚flacherer‘ Analyseansatz bereits gewinnbringend sein, der sich auf Grundlage des Leseeindrucks recht zügig annotieren lässt.

2.3.1 Kategorisierungsentscheidung und Merkmale für überwachtes Training

Mit dieser Motivation kann mit Blick auf die genannten Schnitzler-Texte eine Ad-hoc-Charakterisierung einer interpretationsrelevanten Teilfrage vorgenommen werden: Die Analyseaufgabe wird zugespitzt auf einen studienspezifischen Aspekt der subjektiven Perspektivierung von Figuren in einer heterodiegetischen Erzählung. Diese lässt sich – in enger Anlehnung an das Konzept des subjektiven Point of View, dessen Fortentwicklung im Verlauf von Erzähltexten Wiebe^{Footnote 50} mit einem detaillierten algorithmischen Ansatz modelliert – fassen als eine einfache binäre Klassifikationsaufgabe. Jeder textuellen Erwähnung einer Figur (in Kap. 6 etwa „Georg – er – er – […] Heinrich – er – dem kranken Vater – er – dem allzu Vertrauensseligen“) ist dabei einer von zwei möglichen Zuständen zuzuordnen: (a) die erwähnte Figur wird (an genau dieser Textstelle) als Träger bzw. Trägerin der subjektiven Perspektive verstanden oder (b) dies ist nicht der Fall – d. h. die Erwähnung wird dann entweder verstanden als eingebettet in die subjektive Wahrnehmungswelt oder Binnenerzählung einer anderen Figur, oder als Gegenstand einer externen Fokalisierung oder Nullfokalisierung durch die Erzählerinstanz. Im Folgenden werde ich die Kontexte, die einen Leser zur Annahme von Zustand (a) bewegen,^{Footnote 51} kurz mit dem Begriff ‚interne Fokalisierung‘ bezeichnen – auch wenn im Einzelfall nicht notwendigerweise eine Standarddefinition dieser narratologischen Beschreibungskategorie zutrifft, die auf Genettes^{Footnote 52} Begriff der Fokalisierung zurückgeht.

Diese sehr zielgerichtete Unterscheidung wird kombiniert mit einer umfassenden computerlinguistischen Analyse der Texte, die für quantitative Studien oder für überwachtes maschinelles Lernverfahren reiche Merkmalsrepräsentationen beisteuern. Für die Analyse wurden die englischen Übersetzungen der Texte verwendet.^{Footnote 53} In einem ersten Schritt wird wörtliche Rede aus den Texten herausgefiltert (da diese orthogonal zu eventuellen Fokalisierungen im Erzähltext liegt). Der verbleibende Erzählertext wird mit den computerlinguistischen Standardwerkzeugen aus der Stanford CoreNLP Suite^{Footnote 54} analysiert, u. a. auf Ebene von Wortarten und Satzsyntax; Eigennamen werden erkannt, und zuletzt wird eine Koreferenzanalyse vorgenommen, die alle Erwähnungen von referenziellen Ausdrücken (Eigennamen und Pronomina, aber auch definite Nominalphrasen wie „the boy“) zueinander in Beziehung gesetzt, um die Ketten von Ausdrücken zu bestimmen, die auf dieselbe Entität referieren. Die englischen Übersetzungen der Schnitzler-Texte lassen sich recht robust analysieren. Für die Hauptfiguren führt die Koreferenzanalyse zu einem erstaunlich guten Ergebnis.

Wichtige sprachliche Indizien für interne Fokalisierung liegen in den semantischen Klassen der Verben,^{Footnote 55} als deren Subjekt (oder Objekt) die Figuren fungieren; hinzu kommt die Frage nach Tempus und Aspekt (Rückblenden, also Plusquamperfekt-Passagen, sind ein starker Indikator), ob eine modale Einbettung (etwa unter dem Auxiliar „could“ oder unter „seemed to“) vorliegt und welche adverbialen Bestimmungen Verwendung finden (Negation, Satzadverbien wie „apparently“ etc.).

Um dem hohen Maß an Kontextabhängigkeit der Fokalisierungsinterpretation gerecht zu werden, das oben diskutiert wurde, wird neben dem eigentlichen referenziellen Ausdruck, der zu klassifizieren ist (eine bestimmte Instanz von ‚Georg‘ oder ‚er‘ etc.), ein Fenster von referenziellen Ausdrücken in seinem Vor- und Nachkontext in Betracht gezogen, einschließlich der Information, ob es sich laut automatischer Analyse um einen koreferenten Ausdruck handelt oder nicht. So kann die Tendenz erfasst werden, dass nach einer Verwendung einer Figurenreferenz als Subjekt eines Wahrnehmungsverbs weitere Erwähnungen eher auf interne Fokalisierungen hindeuten.

Zuletzt werden, den Beobachtungen von Brooke u. a. folgend,^{Footnote 56} lexikalische Stilprofile im Kontext der Figurenausdrücke erhoben. Brooke u. a. konnten in Erzählungen Virginia Woolfs und James Joyces eine fein differenzierte stilistische Unterscheidung der freien indirekten Rede unterschiedlicher Figuren nachweisen. Die sechsdimensionalen Profilvektoren, die sie auf dem gutenberg-Korpus induziert haben, stehen innerhalb der GutenTag-Werkzeugsuite^{Footnote 57} zur Verfügung.

All diese Merkmale sind nur Indizien, maschinelle Lernverfahren können jedoch Generalisierungen zu typischen Konstellationen (die teils sicherlich autorenspezifisch sind) aus den Daten induzieren. Indem neben den oberflächlichen Merkmalen auch relevante grammatische Kategorien bereitgestellt werden, reicht im günstigen Fall bereits eine verhältnismäßig kleine Menge von Beispielen dafür aus, die stärksten Muster aufzugreifen (die komplexen und subtilen Interaktionen zwischen Sprach- und Textebenen würden sonst eine sehr große Menge von relativ homogenen Trainingsdaten erforderlich machen).

2.3.2 Annotation und Analysemöglichkeiten

Da die eigentliche Analyseaufgabe auf eine partiell interpretationsabhängige binäre Entscheidung reduziert wurde (hinter der selbstverständlich komplexe Zusammenhänge stehen, die in jedem Einzelfall durch eine komplexere narratologische Analyse tiefer zu durchdringen wären), ist eine sehr zügige Annotation von Beispieldaten möglich. In wenigen Stunden konnten so über 1000 Einzelinstanzen von Personenreferenzen innerhalb der Figurenrede annotiert werden (als (a) intern oder (b) nicht intern fokalisiert).

Im Rahmen dieser experimentellen Studie wurde bewusst ein subjektiver Annotationsansatz gewählt: Ich habe die Textpassagen unter der Hypothese gelesen, dass Schnitzler eine interne Fokalisierung forciert und wir auch in langen Analepsen jeweils die übergeordnete Innensicht der Figur erleben, die die Passage eröffnet. Wo immer sprachliche Mittel erzwingen, dass die Innensicht zu einer anderen Figur wandert, wurde dies konsequent annotiert – Instanzen jedoch, die sprachlich einen Interpretationsspielraum boten, wurden entsprechend der Hypothese markiert.^{Footnote 58}

Das Vorgehen ist also zwar subjektiv, aber systematisch. Es bedient sich des in Abschn. 1.1 angeführten Gedankens einer bewussten idealisierenden Annahme: Obgleich ohne Zweifel weitere narratologisch relevante Faktoren im Spiel sind, wird der Blick auf eine für zentral gehaltene Dichotomie gelenkt (das Experiment ignoriert gewissermaßen das Pendant der Reibung in einem Experiment in der Mechanik, da laut Annahmen andere Effekte dominieren).

Die idealisierende Abstraktion lässt sich nicht rein empirisch verteidigen. Sie wird stets aus Überlegungen motiviert sein, die mit einer Interpretationshypothese zusammenhängen – idealerweise speist sie sich aus einer bereits verschiedentlich abgesicherten Theorie und einem etablierten Konsens über sinnvolle Abstraktionen. Indem jedoch hypothesengesteuerte Annotationen an realen Textdaten vorgenommen werden, wird es möglich, Implikationen dieser Hypothesen empirisch auf Korpusdaten hin zu überprüfen.^{Footnote 59}

2.4 Perspektiven zum Einsatz von interpretatorisch gefärbten Vorhersagemodellen

Mit der Annotation erschließen sich eine Reihe von Szenarien für den Einsatz von Computermodellen: Auf den handannotierten Beispielen kann zunächst mit überwachten Lernverfahren ein Klassifikator trainiert werden. Durch Anwendung auf nicht annotierte Textpassagen können – evtl. auf nach Figuren vorgefilterten Daten – rasch Bereiche ausfindig gemacht werden, für die bestimmte Fokalisierungsmuster vorhergesagt werden.

Beispielsweise kann ein Vorhersagemodell, das auf Passagen aus dem Der Weg ins Freie (für die Figuren Georg und Heinrich) sowie aus Frau Berta Garlan trainiert wurde, auf Passagen im Der Weg ins Freie angewandt werden, in denen Georgs Geliebte Anna Rosner präsent ist. Bei der Lektüre wird schnell deutlich, dass im gesamten Roman der Erzähler Annas Innensicht so gut wie nie einnimmt.^{Footnote 60}

Zu den Passagen, für die das Modell eine Häufung von vermuteter interner Fokalisierung ausgibt, gehört (9a); die Passage (9b) ist ein Beispiel für eine geringe Wahrscheinlichkeit für interne Fokalisierung.

9.
1. a)
  She had for the first time in her life the infallible feeling that there was a man in the world who could do anything he liked with her.^{Footnote 61}
2. b)
  Anna had given herself to him without indicating by a word, a look or gesture that so far as she was concerned, what was practically a new chapter in her life was now beginning.^{Footnote 62}

Neben solchen sehr ermutigenden Instanzen kommt es selbstverständlich auch zu wenig nachvollziehbaren Vorhersagen – die Klassifikationsaufgabe ist sehr subtil, sodass bei der eher kleinen Zahl von Trainingsdaten noch kein sehr robustes Ergebnis erzielt wird. Als ein Filter könnte die Vorhersage jedoch einen Explorationsprozess unterstützen.

Von größerem Belang für das hier vorgeschlagene Vorgehen sind allerdings systematische Untersuchungen, welche die Vorhersagen der Modelle gar nicht für eine automatische Analyse von Texten einsetzen. Stattdessen kann versucht werden, aus dem Generalisierungsverhalten der Modelle empirisch fundierte Rückschlüsse zu ziehen auf die Tragfähigkeit der eigenen Hypothesen zur Konzeptualisierung einer Analyseidee (hier zur internen Fokalisierung bei Schnitzler).

Tab. 1 zeigt beispielsweise den Vergleich von Trainingsexperimenten mit unterschiedlichen Kombinationen von Trainings- und Testdaten (A bis C), wobei zudem zwei unterschiedliche maschinelle Lernverfahren zur Anwendung kommen ([i] Logistic Regression und [ii] Gaussian Naive Bayes).^{Footnote 63} Für jedes Experiment werden Evaluationsergebnisse auf manuell annotierten Testdaten gelistet, nach den beiden Zielklassen (‚intern fokalisiert‘ vs. ‚nicht intern fokalisiert‘) aufgeteilt, mit Precision (Treffgenauigkeit der Vorhersage), Recall (Fähigkeit, alle Instanzen zu finden), einem Mittelwert daraus (F-Score) sowie der Genauigkeit der Gesamtvorhersage (Accuracy). Eine Precision von 0,77 des Modells für interne Fokalisierung in Szenario (A)/(i) sagt uns beispielsweise, dass es bei 77 % der Figurenerwähnungen, für die das Modell als positive Instanzen vorhergesagt hat, eine Übereinstimmung mit der manuellen Vergleichsannotation gab; der Recall von 0,71 besagt, dass 71 % der manuell als intern fokalisierten Instanzen auch vom Modell als solche erkannt wurden. Der Accuracy-Wert 0,78 sagt aus, dass von allen Vorhersagen (also den positiven und den negativen Fällen) 78 % in der gleichen Kategorie landen wie die manuelle Annotation.

Tab. 1 Experimente zum überwachten Training von verschiedenen Klassifikatoren auf unterschiedlichen Konstellationen von Trainings- und Testdaten

Full size table

Das Szenario A suggeriert, dass die Modellierung der Aufgabe einen relativ effektiven Grad der Abstraktion erreicht: Das Modell, das auf Beispielen in Schnitzlers Der Weg ins Freie trainiert wurde, erzielt auch auf bei der Anwendung auf Textsintanzen aus Frau Berta Garlan relativ ordentliche Vorhersageergebnisse: Accuracy 0,78 (allerdings gelingt dies mit dem Gaussian-Naive-Bayes-Ansatz (ii) wesentlich schlechter – 0,67 – als mit Logistic Regression (i)). Die Ergebnisse in Szenario B (in dem die Menge der nutzbaren Trainingsdaten geringer ist als in A, da die Testdaten ausgeklammert bleiben) ist beim Verfahren i) etwas schwächer als bei A; beim Verfahren ii) verhält es sich umgekehrt.

In Szenario C werden ‚gemischte‘ Trainingsdaten aus den beiden Texten verwendet, und mit Verfahren (i) kann so eine Verbesserung der Vorhersagegenauigkeit gegenüber B erreicht werden (Accuracy 0,79 gegenüber 0,75). Dies deutet auf eine verhältnismäßige Homogenität der Datenlage hin. Allerdings zeigt die Abhängigkeit von der Wahl des Verfahrens (für Verfahren (ii) ist die Mischung der Daten nachteilig), dass derartige Schlussfolgerungen einer zusätzlichen Absicherung bedürfen.

Um zu beurteilen, welche sprachlichen Merkmale bei der Induktion des Klassifikatorverhaltens eine Rolle spielen, können Vergleichsexperimente durchgeführt werden, in denen bestimmte Lernmerkmale ausblendet werden (ein sogenanntes Feature-Ablation-Experiment). Tab. 2 zeigt eine Wiederholung der hellgrünen Zellen aus Tab. 1, die mit einem Experiment kontrastiert werden (rötlich), in dem die verfügbaren Merkmale reduziert waren: Die oben erwähnten Merkmale, die auf lexikalischen und strukturellen Analysen basieren, tragen also – zumindest für dieses Szenario – zur Generalisierungskapazität bei.^{Footnote 64}

Tab. 2 Experimente zur Rolle der Merkmale beim Lernen (Feature-Ablation)

Full size table

Zuletzt sei eine naheliegende Erweiterung des Analyseskopus erwähnt, die hier ebenfalls nur in Form einer knappen Pilotstudie angedeutet werden kann, die aber von großem Wert für hypothesengeleitete Untersuchungen zu interpretationsrelevanten Eigenschaften sein dürfte: Die bisher gezeigten Analysen basierten auf manuell annotierten Textinstanzen. Trotz der Möglichkeit eines verhältnismäßig zügigen Fortschreitens bei der Annotation bleibt damit die erreichbare Datenmenge beschränkt (oder es muss ein großer Annotationsaufwand betrieben werden).

Wenn wir jedoch von Texten ausgehen, die narratologisch einem sehr homogenen Muster folgen – wie im Untersuchungskorpus Frau Berta Garlan und Casanovas Heimfahrt –, so könnten wir hier die idealisierende Annahme ansetzen, dass schlichtweg alle Vorkommen der jeweiligen Titelfigur in die Kategorie ‚intern fokalisiert‘ fallen – und entsprechend jede andere Figur in die Kategorie ‚nicht intern fokalisiert‘. Auf Basis der automatischen Koreferenzresolution lässt sich so mit sehr geringem Aufwand eine große Menge von quasi-annotierten Trainingsdaten erzeugen. Dies kann einerseits aus Sicht der Vorhersageoptimierung von Interesse sein – es lassen sich möglicherweise robustere Vorhersagemodelle trainieren, da viele relevante Muster erst mit größeren Datenmengen ins Blickfeld wandern. Im Kontext dieses Beitrags ergibt sich jedoch wiederum eine literaturanalytische Perspektive, auf die ich gleich zu sprechen komme.

Zunächst sei das Verfahren anhand des Beispielkorpus illustriert. Tab. 3 wiederholt erneut die Ergebnisse für Szenario C aus Tab. 1. Daneben wird nun ein neues Szenario (D) gestellt, bei dem die Zahl der Trainingsinstanzen von 1.034 auf 3.476 erhöht wird, indem für jeweils ein Kapitel aus Frau Berta Garlan und Casanovas Heimfahrt eine automatische Annotation nach dem geschilderten Schema hinzugefügt wurde.

Tab. 3 Experimente zur Verwendung von ‚quasi-annotierten‘ Trainingsdaten

Full size table

Der Vergleich der Analysequalität zeigt in diesem Fall, dass die Accuracy konstant bleibt – sprich, die zusätzlichen Daten schaden nicht der mittleren Vorhersagegenauigkeit, erhöhen sie aber auch nicht. Die klassenspezifische Evaluation zeigt eine Verschiebung im Vorhersageverhalten: Die nicht fokalisierten Instanzen werden genauer erkannt (Precision), und mehr Zielinstanzen dieser Art werden entdeckt (Recall); dies jedoch auf Kosten des Recalls bei den intern fokalisierten Instanzen. Dieses Verhalten überrascht wenig, wenn man sich klar macht, dass die synthetischen Daten wesentlich mehr Instanzen vom Typ ‚nicht fokalisiert‘ enthalten. Ein feingliedrigeres Vorgehen ist für die Zukunft jedoch ohne Weiteres denkbar.

Nun abschließend zu den interpretationsrelevanten Anwendungsmöglichkeiten der (interpretatorisch motivierten) synthetischen Annotation: Abseits einer möglichen Verbesserung der Robustheit dürften die zuletzt diskutierten Möglichkeiten eines hypothesengesteuerten Textvergleichs an Attraktivität gewinnen, wenn für sie nicht jeder Text mit einer manuellen Referenzannotation versehen werden muss. Sofern das Modellverhalten anhand einiger sorgfältig annotierter Referenzdatensätze kalibriert wurde, erscheint es durchaus denkbar, dass dann eine kontrastive Textanalyse verschiedener Vergleichsgegenstände unter idealisierenden Annahmen zur Homogenität gemacht werden.^{Footnote 65}

Das Vorgehen bei der Erstellung einer quasi-manuellen Annotation muss dabei nicht der Intuition des oder der Experimentierenden folgen, sondern kann auch Thesen aus der Forschungsliteratur aufnehmen und gewissermaßen auf den Prüfstand stellen. So lässt sich für Die Toten schweigen mit geringem Aufwand eine synthetische Referenzannotation erstellen, die der oben angeführten Analyse Aurnhammers^{Footnote 66} folgt und den zweiten Teil komplett aus der Perspektive Emmas fokalisiert.

Nicht zuletzt ließen sich auch intertextuelle Bezüge grundsätzlich mit dem angedeuteten Verfahren in die Betrachtung einbeziehen. Aurnhammer verweist beispielsweise auf die Parallelen zwischen Die Toten schweigen und Gustave Flauberts Madame Bovary. Letzterer Text konnte mit wenig Aufwand in das Untersuchungskorpus aufgenommen werden (für komparatistische Untersuchungen von Texten der Weltliteratur kann sich der Weg über die englische Übersetzung in gutenberg.org gelegentlich als hilfreich erweisen). Allerdings scheint mir bei der Ausweitung des Korpus auch Vorsicht geboten: Die überraschend ‚glatten‘ Übergänge bei der Arbeit mit den Schnitzler-Texten sind sicherlich dem hohen Grad an stilistischer Homogenität zu verdanken, die allzu eklatante Verletzungen der Repräsentativitätsannahmen in den statistischen Modellierungsverfahren verhindern. Es wird eine Daueraufgabe bleiben, die Bedingungen jeder Verallgemeinerung von Modellen und Methoden auf weitere Gegenstände kritisch zu reflektieren und forschungsstrategische Idealisierungen regelmäßig zu überprüfen.

3 Schluss

Dieser Artikel ging aus von Überlegungen zu den zumeist impliziten Annahmen über die Anwendungsbedingungen von prädiktiven Computermodellen für Aspekte der Textanalyse: Ein Modell oder Werkzeug, das bei der Überprüfung manuell annotierter Testdaten eine ordentliche Vorhersagequalität erreicht, kann im tatsächlichen Anwendungskontext dann als belastbar betrachtet werden, wenn i) Test- und Anwendungstexte als Stichprobe aus derselben Grundgesamtheit betrachtet werden können und ii) die Zielannotation so operationalisiert ist, dass auf dieser Grundgesamtheit intersubjektiv stabile Ergebnisse erzielt werden. Ein methodologisch reflektiertes Vorgehen muss entsprechend kritisch mit der studienspezifischen Datenlage umgehen, und gerade bei literaturwissenschaftlich anspruchsvollen Untersuchungen kann nicht davon ausgegangen werden, dass verfügbare Werkzeuge bzw. verwandte Korpusressourcen ohne größeren Aufwand für die eigenen Analyseziele genutzt werden können. Ein unreflektierter Werkzeugeinsatz kann leicht zu unzulässigen Schlussfolgerungen führen.

In der Community der Digitalen Literaturwissenschaft besteht allerdings ein Problembewusstsein, und es wird weitgehend eine Strategie verfolgt, die ich als ‚defensive‘ Reaktion auf die Methodenproblematik bezeichnet habe: Korpusannotationen und Analysemodelle werden vordringlich für solche Analysefragen vorangetrieben, für die verlässliche Ergebnisse erzielt werden können, für die jedoch die empirische Basis erst breiter erschlossen werden muss. Fragen, die von unmittelbarer Relevanz für literarische Interpretation sind, werden damit bewusst tendenziell zurückgestellt, da einem methodisch sauberen Vorgehen – zurecht – der Vorrang eingeräumt wird.

In den letzten Abschnitten dieses Beitrags habe ich in Ergänzung zum defensiven Vorgehen ‚offensivere‘ Einsatzformen von korpusbasierten Computermodellen diskutiert – ohne damit suggerieren zu wollen, dass der Weg über die sorgfältige Ausarbeitung von umfassend annotierten Textkorpora ersetzt werden könnte oder sollte. Um innerhalb einer anspruchsvollen Textanalyse empirisch gestützte Argumente zu einem längeren Text oder einem gesamten (Teil-)Korpus anzuführen, deren Analysekategorien nicht interpretationsunabhängig operationalisierbar sind, können prädiktive Computermodelle eine wichtige Funktion erfüllen: Anhand einiger charakteristischer Texte bzw. Textausschnitte können Trainingsinstanzen für eine (partiell subjektive) Analysekategorie bestimmt werden. Ein Computermodell, das auf den entsprechenden Daten trainiert wird und (günstigenfalls^{Footnote 67}) eventuelle Ebenen übergreifende Muster erfassen kann, lässt sich anschließend auf andere Texte und Textausschnitte anwenden. Die entstehenden modellbasierten Analyseergebnisse können beispielsweise mit einer interpretierenden Lektüre des Zieltextes durch professionelle Lesende verglichen werden und erlauben so vielfältige Rückschlüsse über die Natur eventueller Textunterschiede.

Die Anwendung eines trainierten Modells dürfte dabei in den wenigsten Fällen dem eigentlichen Selbstzweck einer automatischen Kategorisierungsvorhersage folgen – gewissermaßen als Ersatz für die eigene Lektüre. Die Vorhersagegenauigkeit wird angesichts der subtilen Unterscheidungen kaum ein Niveau erreichen, das hierfür befriedigend wäre. Modellierungsexperimente und der Abgleich mit manuellen Annotation könnten aber durchaus einen Platz in der Praxis der Entwicklung von literaturwissenschaftlichen Konzepten und Theorien finden: Mit dem Vergleich unterschiedlicher Modelle hinsichtlich ihrer Annotationsvorhersagen kann die Adäquatheit bzw. der heuristische Wert verschiedener theoretischer Konstrukte (und deren Operationalisierung im Rahmen der Textanalyse) überprüft werden. Und dies in einer Weise, die einen sehr problematischen Bias des bzw. der Betrachtenden umgeht, indem die systematischen Aspekte einer interpretationsabhängigen Analyseentscheidung im Computermodell gekapselt werden.

Notes

1.
Justine Kao/Daniel Jurafsky, „A Computational Analysis of Style, Affect, and Imagery in Contemporary Poetry“, in: Proceedings of the Workshop on Computational Linguistics for Literature (Conference of the North American Chapter of the Association for Computational Linguistics. Human Language Technologies, NAACL-HLT), Montréal 2012, 8–17; Fotis Jannidis/Gerhard Lauer, „Burrows’s Delta and Its Use in German Literary History“, in: Matt Erlin/Lynne Tatlock (Hg.), Distant Readings. Topologies of German Culture in the Long Nineteenth Century, Rochester 2014, 29–54.
2.
Hardik Vala/David Jurgens/Andrew Piper u. a., „Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized. On the difficulty of detecting characters in literary texts“, in: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, hg. von Association for Computational Linguistics, Lissabon 2015; Fotis Jannidis/Markus Krug/Isabella Reger u. a., Automatische Erkennung von Figuren in deutschsprachigen Romanen. Digital Humanities im deutschsprachigen Raum (DHd), Graz 2015.
3.
David K. Elson/Kathleen R. McKeown, „Automatic attribution of quoted speech in literary narrative“, in: Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI'10) 2010, AAAI Press, 1013–1019.
4.
David K. Elson/Nicholas Dames/Kathleen R. McKeown, „Extracting social networks from literary fiction“, in: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, ACL’10, Stroudsburg, PA, 2010, 138–147; Franco Moretti, „Network Theory, Plot Analysis“, in: Stanford Literary Lab Pamphlets 2 (Mai 2011), http://litlab.stanford.edu/LiteraryLabPamphlet2.pdf (letzter Aufruf 22.09.2018); Peer Trilcke, „Social Network Analysis (SNA) als Methode einer textempirischen Literaturwissenschaft“, in: Philip Ajouri/Katja Mellmann/Christoph Rauen (Hg.), Empirie in der Literaturwissenschaft, Münster 2013, 201–247.
5.
Julian Brooke/Adam Hammond/Graeme Hirst, „Using Models of Lexical Style to Quantify Free Indirect Discourse in Modernist Fiction“, in: Digital Scholarship in the Humanities, 2016, https://doi.org/10.1093/llc/fqv072.
6.
U. a. in David Bamman/Ted Underwood/Noah A. Smith, „A Bayesian Mixed Effects Model of Literary Character“, in: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, MD, 2014, 370–379.
7.
Bspw. Trilcke (Anm. 4); Thomas Weitin, „Digitale Literaturwissenschaft“, in: Deutsche Vierteljahresschrift für Literaturwissenschaft und Geistesgeschichte 89/4 (2015), Sonderheft: Zur Lage der Literaturwissenschaft. Aktuelle Bestandsaufnahmen und Perspektiven, 651–656; Friedrich M. Dimpel, „Der Computerphilologe als Interpret – ein Teilzeit-Empiriker?“, Jan Borkowski/Stefan Descher/Felicitas Ferder u. a., Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis, Münster 2015, 339–359; Marcus Willand, „Hermeneutische Interpretation und digitale Analyse. Eine Verhältnisbestimmung“, in: Luisa Banki/Michael Scheffel (Hg.), Lektüren. Positionen zeitgenössischer Philologie, Trier 2017, 77–100.
8.
Trilcke führt dies für die literaturwissenschaftliche Netzwerkanalyse aus (Anm. 4), 203–208.
9.
Vgl. Weitin (Anm. 7), 655. Die Gefahr eines umgekehrten Bias, der bei einer aggregierenden Darstellung von Analyseergebnissen für sehr viele Texte den Blick übermäßig stark auf Ausreißer lenkt, spricht Willand (Anm. 7), 85, an.
10.
Eine eingehende Diskussion der Korpus-Annotationsmethodologie in einem sprachtechnologischen Kontext findet sich bspw. in Eduard Hovy/Julia Lavid, „Towards a ‚science‘ of corpus annotation. A new methodological challenge for corpus linguistics“, in: International Journal of Translation 22/1 2010, 13–36.
11.
Der Terminus ‚Domäne‘ wird in diesem Zusammenhang gerne in einem weiten Sinn in Bezug auf alle Eigenschaften interpretiert, in denen das Korpus der Anwendungstexte von dem der Entwicklungstexte abweicht, also neben der inhaltlichen Domäne, in denen sich die Texte bewegen, auch Textgenre, Stilebene und sogar Sprachstadium u. a. Eigenschaften (vgl. auch Jonas Kuhn/André Blessing, „Die Exploration biographischer Textsammlungen mit computerlinguistischen Werkzeugen – methodische Überlegungen zur Übertragung komplexer Analyseketten in den Digital Humanities“, in: Ágoston Z. Bernád/Christine Gruber/Maximilian Kaiser (Hg.), Europa baut auf Biographien. Aspekte, Bausteine, Normen und Standards für eine europäische Biographik, Wien 2018, 225–257).
12.
Das skizzierte Vorgehen betrifft überwachte Lernverfahren; daneben können Analysemodelle regelbasiert erstellt werden, oder es können unüberwachte Lernverfahren eingesetzt werden, die Muster in der Datengrundlage automatisch erfassen. Auch in diesen Fällen muss für eine methodisch fundierte Modellanwendung eine Validierung anhand von operationalisierten Zielkategorien durchgeführt werden – ein repräsentatives Evaluationskorpus mit Gold-Standard-Annotation muss also unabhängig vom Modellierungsverfahren vorliegen bzw. zur Absicherung der Validität erzeugt werden.
13.
Einschränkungen werden in Jannidis u. a. (Anm. 2) diskutiert.
14.
Dies lässt sich freilich nicht unabhängig von spezifischen theoretischen Vorannahmen beurteilen. Die Arbeitspraxis der modernen Linguistik kennt bspw. sehr weitreichende Idealisierungen – vor allem zu theoretischen Konstrukten, die nicht direkt empirisch beobachtet werden können (und hierzu gehören bereits zentrale grammatische Beschreibungskategorien wie der Begriff des Subjekts oder die Struktureinheit eines Wortes). Zu deren arbeitspraktischer Legitimation gehört es in der Regel, dass mehrere unabhängige operationalisierte empirische Tests zu einer konsistenten Kategorisierung führen müssen. Zwar ist und war die Frage, wie weit theoriespezifische Annahmen im Rahmen dieser Praxis gehen dürfen, Gegenstand vehementer disziplininterner Auseinandersetzungen (bspw. die Kritik an Aspekten der theoretischen Ansätze von Noam Chomsky – etwa der Annahme von nicht direkt beobachtbaren Transformationsoperationen, vgl. u. a. Joan Bresnan, Lexical-Functional Syntax, Oxford 2001). Auf höheren Abstraktionsebenen besteht jedoch weitestgehend Konsens, dass idealisierte Konstrukte einem systematischen Zugang zur Empirie zuträglich sind.
15.
Es mag zunächst fraglich erscheinen, ob für literaturwissenschaftliche Untersuchungen überhaupt ein Ansatz gewählt werden sollte, der mit inferenzieller Statistik arbeitet und die vorhandenen Texte als Stichprobe aus einer größeren Grundgesamtheit betrachtet. Dieses Vorgehen ist für die Linguistik angemessen, welche das Sprachsystem modelliert, das nicht nur die tatsächlich realisierten Äußerungen umfasst: Kompetente Muttersprachler sind in der Lage, die Grammatikalität bzw. die möglichen Bedeutungen von denkbaren, jedoch nie realisierten Äußerungen zu beurteilen. Die Aufgabe der Literaturwissenschaft beschränkt sich jedoch auf die Betrachtung von realen Texten. Daher könnte man annehmen, dass es ausreicht, mit Verfahren der deskriptiven Statistik zu arbeiten – also keine Grundgesamtheit hypothetisch möglicher Texte anzusetzen. Aus verschiedenen Gründen ist es jedoch in Teilbereichen der Digitalen Literaturwissenschaft sinnvoll, den konzeptionellen Rahmen der inferenziellen Statistik zu verwenden. Zu direkt messbaren Eigenschaften der untersuchten Texte (etwa der Länge in Druckseiten, Kapiteln oder Zeichen) oder manuellen Annotationen können selbstverständlich deskriptive Statistiken berechnet werden. Wenn jedoch ein Werkzeug eingesetzt wird (etwa bereits ein einfaches Regelsystem zur Bestimmung von Satzgrenzen oder anspruchsvollere linguistische oder analysespezifische Werkzeuge), kann eine Qualitätsüberprüfung in der Regel nur anhand von Stichproben vorgenommen werden, und die Frage wird virulent, wie stark die Texte im Anwendungsfall variieren. Darüber hinaus kann es auch trotz eines fixen Korpus (eventuell sogar der vollständigen Überlieferung aus einer Epoche) sinnvoll sein, Entwicklungen mit Hilfe von Modellen der inferenziellen Statistik zu modellieren. Wenn etwa die Hypothese geprüft werden soll, dass sich ein Autor mit einem Text zu einem bekannten Stoff vom Epochenstil absetzt, kann mit einem inferenziell-statistischen Ansatz viel feingliedriger zwischen einem hypothetischen stilkonformen Text zu diesem Stoff und dem tatsächlich entstandenen Text verglichen werden. Nicht zuletzt spricht die Möglichkeit, dass verschollene Texte wiederentdeckt werden, Nachahmungen zu überprüfen sind oder im Rahmen der empirischen Rezeptionsforschung Varianten von Texten synthetisiert werden können, dafür, dass die Annahme eines prinzipiell unendlichen Raums möglicher Texte auch in Teilen der Literaturwissenschaft sinnvoll sein kann.
16.
Ein funktionierendes Beispiel für eine ergiebige Abstraktion über sehr heterogene Textsammlungen hinweg sind stilometrische Verfahren wie John Burrows’s „‚Delta‘. A Measure of Stylistic Difference and a Guide to Likely Autorship“, in: Literary and Linguistic Computing 17 (2002), 267–287. Mit ihnen wird wie in der Linguistik eine systematische Ebene erreicht (in diesem Fall die relative Verteilung der häufigsten Wortformen im Stil eines Autors – also eine Beobachtung auf der Meta-Textebene), die robust messbar und auf neue Texte (oder Text/Autor-Paare) übertragbar ist.
17.
Überlegungen zu einem entsprechenden Umgang mit der Problematik der Zeitplanung bei Digital Humanities-Projekten (dem Scheduling Problem) diskutiere ich in Jonas Kuhn, „Computational text analysis within the Humanities. How to combine working practices from the contributing fields?“, Language Resources and Evaluation, im Erscheinen.
18.
Was hingegen praktikabel erscheint, ist eine differenzielle Bestimmung der Dimensionen, in denen ein gegebener Text ‚Ausreißer‘ gegenüber Mustern darstellt, die im Korpus manifest sind. Vgl. auch die Diskussion von Ausreißern bei der Interpretation von Visualisierungen bei Willand (Anm. 7), 85. Ein entsprechendes Computermodell schiene mir jedoch eher den Charakter eines peripheren Explorationswerkzeugs zu haben.
19.
Jannidis argumentiert überzeugend gegen ein Verständnis der Polyvalenz-These, nach dem es unmöglich sei, zwischen zwei konkurrierenden Textinterpretationen argumentativ zu unterscheiden, vgl. Fotis Jannidis, „Polyvalenz – Konvention – Autonomie“, in: Ders./Gerhard Lauer/Matías Martínez u. a. (Hg.), Regeln der Bedeutung. Zur Theorie der Bedeutung literarischer Texte, Berlin/New York 2003, 305–328. Die Festlegung einer Gold-Standard-Lösung für interpretationsrelevante Analyseentscheidungen in einem Referenzkorpus ginge jedoch einen Schritt weiter, indem diese ein für alle Mal eine Variante zur Referenz erhebt (zumindest, wenn zur Annotationsentscheidung nicht die Relevanzkriterien abgelegt werden, die genau zu diesem Schluss geführt haben – was im größeren Stil wohl nicht praktikabel wäre).
20.
An anderer Stelle habe ich vor dem Hintergrund der Diskussion zur Annotationspraxis in Computerlinguistik und (Digitaler) Literaturwissenschaft bereits ähnliche Überlegungen angestellt, vgl. dazu Adam Hammond/Julian Brooke/Graeme Hirst, „A tale of two cultures: bringing literary analysis and computational linguistics together“, in: Proceedings of the NAACL 13 Workshop on Computational Linguistics for Literature, Atlanta, GA, 2013, 1–8; Jonas Kuhn, „Computerlinguistische Textanalyse in der Literaturwissenschaft? – oder: ‚The Importance of Being Earnest‘ bei quantitativen Untersuchungen“, in: Andrea Albrecht/Sandra Richter/Marcel Lepper (Hg.), Quantitative Verfahren in der Literaturwissenschaft. Von einer Scientia Quantitatis zu den Digital Humanities, Berlin/Boston 2018, 11–44.
21.
Der Satz in dieser Klammer ist ein weiteres Beispiel.
22.
Wikipedia, http://de.wikipedia.org/wiki/Verwechslungswitz (letzter Aufruf 22.09.2017).
23.
Vgl. Eric D. Hirsch Jr., Validity in Interpretation, Yale 1967. Unter Significance fasst Hirsch sehr breit die Beziehung zwischen der inhaltlichen Bedeutung des Textes und einer Person oder einer Konzeption, einer Situation „or indeed anything imaginable“ (ebd., 8).
24.
Christoph Ransmayr, Die letzte Welt, Roman, mit einem Ovidischen Repertoire, Nördlingen 1988.
25.
Volker Hage, „Mein Name sei Ovid. Ein großer Roman. Christoph Ransmayrs ‚Die letzte Welt‘“, in: DIE ZEIT 41 (1988), http://www.zeit.de/1988/41/mein-name-sei-ovid/ (letzter Aufruf 22.09.2017).
26.
Wollte man entsprechende Unterscheidungen als relevante Texteigenschaften annotieren, müsste das Beschreibungsinventar, wie zur Charakterisierung der Verwechslung im Witz (3), natürlich in der Lage sein, eine vorhandene Mehrdeutigkeit zu charakterisieren.
27.
Vgl. die Annotations-Guidelines aus dem heureCLÉA-Projekt: Evelyn Gius/Janina Jacke, Zur Annotation narratologischer Kategorien der Zeit. Guidelines zur Nutzung des CATMA-Tagsets, Version 2, Hamburg, November 2016.
28.
Im Zusammenhang einer Diskussion des Stellenwerts der Narratologie (als eine Form der deskriptiven Textanalyse) kommen bspw. auch Kindt und Müller – trotz der Überzeugung, dass sich diese „weder für die Fundierung noch für die Falsifikation oder Evaluation von Interpretationen [eignet]“ – zu dem Schluss, dass sie ein unverzichtbares „heuristisches Potenzial“ für die Interpretation hat, vgl. Tom Kindt/Hans-Harald Müller, „Wieviel Interpretation enthalten Beschreibungen? Überlegungen zu einer umstrittenen Unterscheidung am Beispiel der Narratologie“, in: Jannidis/Lauer/Martínez u. a. (Anm. 19), 286–304, hier: 301.
29.
So weist Fotis Jannidis in Vorträgen gern darauf hin, dass ein korpusorientiertes Vorgehen in der Praxis der Digitalen Literaturwissenschaft sehr deutlich vor Augen führt, an welchen Stellen Konzepte präzisiert werden müssen, für die konventionell ein weitgehender Konsens angenommen wurde.
30.
Unglücklich ist insbesondere, dass im Zuge einer systematischen Entwicklung von Kategorien und der Analysepraxis idealerweise bekannte Texte entlang der gängigen Interpretationen ‚deskriptiv durchanalysiert‘ werden müssten, dass gerade dies jedoch mangels Originalität wenig Anerkennung finden dürfte.
31.
Das Stuttgarter Zentrum für reflektierte Textanalyse (CRETA) hat sich daher die interdisziplinäre Methodenentwicklung zur Aufgabe gemacht. Schnell treten Herausforderungen zutage, die sich aus den Anforderungen der textwissenschaftlichen Disziplinen für die komputationelle Analyse über etablierte Verfahren aus der Computerlinguistik und Sprachtechnologie ergeben.
32.
Vgl. Anm. XX.
33.
Vgl. Fotis Jannidis/Gerhard Lauer/Matías Martínez u. a., „Der Bedeutungsbegriff in der Literaturwissenschaft. Eine historische und systematische Skizze“, in: Dies. (Anm. 19), 3–32.
34.
Inwieweit eine Beschränkung auf die referenzielle Bedeutungsebene effektiv möglich wäre, ist freilich eine Frage, die in der Praxis erprobt werden müsste. Die Vielschichtigkeit der Debatte um geeignete Lesermodelle auf Interpretationsebene lässt vermuten, dass jenseits dieser referenziellen Ebene ein Konsens nur schwer vorstellbar wäre.
35.
Der Versuch, das Verständnis prototypischer Lesender unter einer diachronischen Herangehensweise historisch zu rekonstruieren, wäre problematisch – ein Ergebnis der Diskussion in der Villa Vigoni. Das Hintergrundwissen muss unvollständig bleiben, und gerade durch die vielfältigen Inferenzen, die in das Textverständnis eingehen, ist es sehr schwierig auszuschließen, dass Annahmen und Konventionen aus der Gegenwartsperspektive trotz guter Schulung der Annotierenden zu einer Verzerrung führen.
36.
Hier mag auch ein Blick auf die Praxis der Korpusannotation in der Linguistik und den daraus resultierenden Computermodellierungen ermutigend sein: Die umfassendsten Aktivitäten zur syntaktische Annotation eines englischsprachigen Korpus (der Penn Treebank) fanden 1989–1996 im theoretischen Rahmen der Chomsky’schen Transformationsgrammatik statt, die außerhalb einer Kern-Community hoch umstritten war und bis heute ist. Theoriespezifische Annotationsentscheidungen lassen sich jedoch leicht aus dem Korpus herausfiltern; Analyseentscheidungen, die unabhängig vom theoretischen Rahmen von deskriptivem Wert sind, überwiegen bei Weitem. Und so dient das Korpus bis heute als die Basis für Computermodellierung einer deskriptiven syntaktischen Analyse, sei es in einem theoretisch agnostischen Kontext oder im Rahmen bestimmter Theorien – sogar für vehement konkurrierende Theorien, da eine systematische Übersetzung der Annotationen für die allermeisten Fälle möglich ist.
37.
In der deutschen Übersetzung von Henny Koch lautet die Passage:
Vom Doktor war weit und breit nichts zu sehen. So renn’ ich denn zu seinem Haus und höre, daß er in der Nacht gerufen worden und seitdem nicht wieder heimgekommen sei. Armer Tom, denk’ ich, da sieht’s bös aus, und setz’ mich wieder in Trab, und wie ich um die nächste Ecke biege, renn’ ich mit dem Kopf beinah auf Onkel Silas’ Magen. Er ruft: ‚Junge, Tom, wo habt ihr denn gesteckt all die Zeit, Bengel, he?‘ ‚Ich – ich hab’ gar nicht gesteckt‘, stotter’ ich, ‚Sid und ich sind nur immer hinter [Jim] hergewesen.‘ ‚Ja, aber wo denn in aller Welt, wo habt ihr ihn denn gesucht? Eure Tante ist in schöner Angst und Aufregung euretwegen!‘ ‚Das braucht sie gar nicht zu sein‘, sag’ ich, ‚uns ist nichts passiert. Wir liefen hinter den Männern und den Hunden drein, […] und nun ist Sid zur Post, um zu sehen, ob er nichts erfahren könne, und ich wollte eben sehen, ob sich was zu essen auftreiben ließe, und dann wären wir heimgekommen.‘ Wir gingen also zur Post, um nach Sid zu sehen, aber der war natürlich nicht dort.
Siehe Mark Twain, Huckleberry Finns Abenteuer und Fahrten, München 1962 [engl., USA, 1885), Kap. 32, verfügbar über gutenberg.spiegel.de.
38.
Die Passage ist Teil von Kap. 41 in der Ausgabe, die sich in gutenberg.org findet: Mark Twain, Adventures of Huckleberry Finn (Tom Sawyer’s Comrade), New York 1885.
39.
Die Frage, wie die unterschiedlichen Referenzebenen effektiv annotiert werden können, ist nicht ganz einfach, und in jedem Fall sind derartige Verwechslungsspiele für eine automatische Koreferenz-Analyse sicherlich schwierig. Beides ist jedoch unabhängig von der These, dass das Konstrukt einer stabilen inhaltlichen Textebene für das Gros literarischer Texte eine sinnvolle Abstraktion ist.
40.
heureCLÉA, http://www.heureclea.de (letzter Aufruf 22.09.2017); eine Kooperation zwischen einer literaturwissenschaftlichen Arbeitsgruppe (unter Leitung von Jan Christoph Meister) und einer Informatikgruppe (geleitet von Michael Gertz).
41.
Vgl. Gius/Jacke (Anm. 27).
42.
Willard McCarty, Humanities Computing, London 2005.
43.
Die Rolle der Computermodelle fügt sich damit ein in die Argumentation aus Jannidis (Anm. 19) zum Umgang mit der These der Polyvalenz von Literatur, in der er darauf verweist, dass die These keinesfalls in Widerspruch zur Zielsetzung stehe, unter den konkurrierenden Interpretationen die besten zu identifizieren (für Jannidis diejenigen, die die „für einen Leser durch die Lektüre eines Textes manifest gewordenen Informationen“ besser als andere erfassen).
44.
Aus Sicht eines rein hermeneutischen Vorgehens könnte man fragen, weshalb eine Validitätsforderung für Modelle aufgestellt wird, welche im Erkenntnisprozess überwiegend heuristischen Charakter haben sollen – zumal gerne auf die Generierung von neuen Perspektiven nach dem ‚Serendipitätsprinzip‘ verwiesen wird, das heißt, dass die Betrachtung von Vorhersageergebnissen den Blick auf Unerwartetes lenkt und so neue Erkenntnisse befruchtet (vgl. z. B. Dimpel [Anm. 7], 354). Die entscheidende Frage bei den Anforderungen an das Modell scheint mir zu sein, ob ein rein zufälliger Effekt für akzeptabel erachtet würde (wie man ihn ja mit Zufallskomponenten erzeugen könnte und wie er in der digitalen Kunst zum Einsatz kommt). Unter einem wissenschaftlichen Anspruch würde dies sicherlich verneint. Wenn aber ein Modell eine (eventuell noch intuitiv bzw. vortheoretisch gefasste) Regularität erfassen soll, bindet man sich methodisch an die Randbedingungen, nach denen die Modelle operieren; sprich, mindestens implizit wird man bei der Modellanwendung ein Mindestmaß an reproduzierbarem Verhalten entsprechend der eigenen Abstraktionen erwarten. In der Arbeit mit Computermodellen und -werkzeugen bei geisteswissenschaftlichen Gegenständen kommt unabhängig von dieser Überlegung hinzu, dass deren Anwendung in einer Studie (eventuell zu Unrecht) ein Maß an Objektivität suggeriert, das Rechenschaft über die Rahmenbedingungen abzulegen gebietet. Ein nachträgliches Aufdecken von Verletzungen zentraler Modellierungsannahmen kann einen eigentlich vielversprechenden arbeitspraktischen Ansatz in Misskredit bringen.
45.
Achim Aurnhammer, Arthur Schnitzlers intertextuelles Erzählen, Berlin/Boston 2013, 33.
46.
Die Seitenzählung folgt: Arthur Schnitzler, Gesammelte Werke. Die erzählenden Schriften, 2 Bde., Band 1: Der Weg ins Freie, Frankfurt a. M. 1961, Kap. 2, 706 ff. Eine elektronische Fassung ist verfügbar über zeno.org/.
47.
Ebd., 712.
48.
Ebd., 708.
49.
Hierzu stellt Achim Aurnhammer detaillierte Untersuchungen an (vgl. Anm. 45).
50.
Janyce M. Wiebe, „Tracking point of view in narrative“, in: Computational Linguistics 20/2 (1994), 233–287.
51.
Die Unterscheidung lässt sich recht gut durch Texterweiterungstests operationalisieren. Eine Figurenerwähnung wird vom Leser als Träger der subjektiven Perspektive empfunden, wenn beim Lesen ein Zusatz „Er/sie erinnerte sich in diesem Augenblick an [keine] ähnliche(n) Situationen/Ereignisse.“ als bruchlos wahrgenommen würde. Dieser Zusatz könnte bspw. für die Erwähnung von ‚Maria‘ im zweiten Satz der hypothetischen Passage (i) „Karl rannte zu Marias Haus und klopfte an die Tür. Maria machte sofort auf.“ getestet werden. Im Kontext der beiden Sätze in (i) würde „Sie erinnerte sich in diesem Augenblick an eine ähnliche Situation letztes Jahr.“ für die meisten Leser einen unnatürlichen Bruch hervorrufen; naheliegend erscheint es, die subjektive Perspektive bei Karl zu sehen. Anders wäre die Wahrnehmung, wenn es noch vor Passage (i) hieße: „Maria blickte sorgenvoll aus dem Fenster. Plötzlich sah sie eine Gestalt die Straße herauf laufen. Das musste Karl sein.“
52.
Gérard Genette, Figures III, Paris 1972.
53.
Von gutenberg.org. Die Robustheit der computerlinguistischen Analyse, insbes. für die Koreferenz-Erkennung, ist größer und die eingesetzte stilistische Wortliste ist nur für das Englische verfügbar. Mit der Verwendung von englischen Übersetzungen kann jedoch durchaus die Durchführung von komparatistischen Untersuchungen erleichtert werden. Bspw. konnte auch Gustave Flauberts Madame Bovary (1856) in englischer Übersetzung in die Sammlung integriert werden. Aurnhammer (Anm. 45) diskutiert die intertextuellen Bezüge von Schnitzlers Die Toten schweigen zu Madame Bovary.
54.
Stanford CoreNLP – Natural language software (letzter Aufruf 22.09.2017).
55.
Hier kann für das Englische die umfassende Verbtaxonomie in VerbNet genutzt werden, mit Zugriff über den Unified Verb Index, https://verbs.colorado.edu/verb-index/ (letzter Aufruf 22.09.2017).
56.
Vgl. Anm. 5.
57.
GutenTag, http://www.cs.toronto.edu/~jbrooke/gutentag/ (letzter Aufruf 22.09.2017); darin built_in_lexicons/sixstyleplus.txt. Ich danke Julian Brooke für diesen Hinweis.
58.
An dieser Stelle sollte deutlich werden, dass eine andere Annotationsstrategie möglich gewesen wären – bspw. hätte man in Beispiel (7), das ‚eingebettet‘ erlebte Rede einer weiteren Figur enthält, diesen Fokalisierungsaspekt annotieren können.
59.
Das Beispiel der Annotation einer narratologischen Kategorie (Fokalisierung/subjektive Figurenperspektive), deren Zuweisung relativ stark mit dem Leseverständnis von impliziten Textmerkmalen zusammenhängt, habe ich aus der Überlegung heraus gewählt, dass hier das oben diskutierte ‚Durchsickern‘ von weitergehenden interpretatorischen Annahmen sicherlich deutlich zutage tritt. Gleichwohl unterstützt die Modellierung ‚nur‘ eine narratologische Textanalyse, es wird hier keine Hypothese zur Textinterpretation insgesamt modelliert. Diskussionen in der Villa Vigoni und im Nachgang haben mir vor Augen geführt, dass aus literaturwissenschaftlicher Sicht durch den narratologischen Charakter meines Beispiels das beabsichtigte ‚offensive‘ Vordringen in Bereiche der hermeneutischen Textinterpretation für manchen nach wie vor nur eingeschränkt exemplifiziert wird. Man hätte sicherlich die Modellierung von wesentlich weitergehenden Hypothesen zur Textinterpretation experimentell angehen können. Andererseits dürfte deutlich werden, dass bei der Textanalyse ein Kontinuum der Interpretationsabhängigkeit besteht. Sofern es gelingt, eine literaturwissenschaftliche Praxis zu etablieren, die auch in ‚tieferen‘ Bereichen dieses Kontinuums Annotationsverfahren und Computermodelle gewinnbringend einsetzt, würde ich dies für einen wichtigen Durchbruch erachten. Das sukzessive Erschließen von mehr und mehr interpretationsabhängigen Analysekategorien erscheint zudem aus Sicht der systematischen Operationalisierung und des Korpusaufbau strategisch sinnvoll.
60.
So ist auf der Wikipedia-Seite zum Der Weg ins Freie notiert (ohne Belege): „Schnitzler erlaubt das Denken nur Georg, dessen Freund Heinrich in Ausnahmefällen und Anna fast gar nicht.“ (Wikipedia. Die freie Enzyklopädie, https://de.wikipedia.org/wiki/Der_Weg_ins_Freie [letzter Aufruf 22.09.2017]).
61.
Die Passage befindet sich am Ende von Kap. 2: Schnitzler (Anm. 46), 710: „[…] zum erstenmal in ihrem Leben mit dem untrüglichen Gefühl, daß es einen Menschen auf der Welt gab, der aus ihr machen konnte, was ihm beliebte.“
62.
Anfang des dritten Kapitels, vgl. Schnitzler (Anm. 46), 711: „Anna hatte sich ihm gegeben, ohne mit einem Wort, einem Blick, einer Gebärde anzudeuten, daß nun für sie gewissermaßen ein neues Kapitel ihres Lebens anfing.“
63.
Für die eigentlichen Lernexperimente wurde die Python-Bibliothek scikit-learn verwendet (http://scikit-learn.org [letzter Aufruf 22.09.2017]), die systematische Vergleiche dieser Art relativ einfach macht.
64.
Dies ist in der Tat nicht in allen Szenarien der Fall. Eine differenziertere Untersuchung wäre nötig, um ein genaueres Verständnis zur Rolle der unterschiedlichen Merkmalsklassen zu entwickeln.
65.
Der hier propagierte strategische Einsatz von idealisierenden Annahmen, die den typischen Fall verallgemeinern und damit einen (vorläufigen) systematischeren Zugang zur Empirie erschließen sollen, kann (muss eventuell sogar) zu einem Zwischenstadium in der Modellbildung führen, das aus der Warte eines historisch-hermeneutischen Vorgehens den Vorwurf der ‚Unterkomplexität‘ auf sich ziehen könnte. Da jedoch Computermodelle für einen seriösen Einsatz laufend in ihrer technischen Parametrisierung kalibriert werden müssen, scheint mir ein solches Vorgehen unumgänglich. Für eine systematische Weiterentwicklung der formal-komputationellen Modellierungsoptionen schiene ein Baukasten von für sich gesehen jeweils ‚unterkomplexen‘ Theoriemodulen die besten Voraussetzungen zu bieten.
66.
Vgl. Anm. 45.
67.
Um das skizzierte Vorgehen in einer methodologisch reflektierten Form umzusetzen, müssen sicherlich noch Evaluationsverfahren ausgearbeitet werden, mit denen sich die Experimentatoren ein präziseres Bild von der Verlässlichkeit der trainierten Modelle verschaffen können.

Literatur

Sämtliche digitalen Referenzen wurden letztmalig am 22.09.2017 eingesehen.
Google Scholar
Aurnhammer, Achim, Arthur Schnitzlers intertextuelles Erzählen, Berlin/Boston 2013.
Google Scholar
Bamman, David/Underwood, Ted/Smith, Noah A., „A Bayesian Mixed Effects Model of Literary Character“, in: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 370–379, Baltimore, MD, 2014.
Google Scholar
Bresnan, Joan, Lexical-Functional Syntax, Oxford 2001.
Google Scholar
Brooke, Julian/Hammond, Adam/Hirst, Graeme, Using Models of Lexical Style to Quantify Free Indirect Discourse in Modernist Fiction. Digital Scholarship in the Humanities, 2016, DOI https://doi.org/10.1093/llc/fqv072.
Burrows, John, „‚Delta‘. A Measure of Stylistic Difference and a Guide to Likely Autorship“, in: Literary and Linguistic Computing 17 (2002), 267–287.
Google Scholar
Dimpel, Friedrich M., „Der Computerphilologe als Interpret – ein Teilzeit-Empiriker?“, in: Jan Borkowski/Stefan Descher/Felicitas Ferder u. a., Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis, Münster 2015, 339–359.
Google Scholar
Elson, David K./McKeown, Kathleen R., „Automatic attribution of quoted speech in literary narrative“, in: Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI'10), Palo Alto 2010, 1013–1019.
Google Scholar
Elson, David K./Dames, Nicholas/R. McKeown, Kathleen, „Extracting social networks from literary fiction“, in: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, ACL ’10, Stroudsburg, PA, 2010, 138–147.
Google Scholar
Genette, Gérard, Figures III, Paris 1972.
Google Scholar
Gius, Evelyn/Jacke, Janina, Zur Annotation narratologischer Kategorien der Zeit. Guidelines zur Nutzung des CATMA-Tagsets, Version 2, Hamburg, November 2016.
Google Scholar
Hage, Volker, „Mein Name sei Ovid. Ein großer Roman. Christoph Ransmayrs ‚Die letzte Welt’“, in: DIE ZEIT 41 (1988), http://www.zeit.de/1988/41/mein-name-sei-ovid/.
Hammond, Adam/Brooke, Julian/Hirst, Graeme, „A tale of two cultures: bringing literary analysis and computational linguistics together“, in: Proceedings of the NAACL 13 Workshop on Computational Linguistics for Literature, Atlanta, GA, 2013, 1–8.
Google Scholar
Hirsch, Eric D. Jr., Validity in Interpretation, Yale 1967.
Google Scholar
Hovy, Eduard/Lavid, Julia, „Towards a ‚science‘ of corpus annotation. A new methodological challenge for corpus linguistics“, in: International Journal of Translation 22/1 (2010), 13–36.
Google Scholar
Jannidis, Fotis/Lauer, Gerhard/Martínez, Matías u. a., „Der Bedeutungsbegriff in der Literaturwissenschaft. Eine historische und systematische Skizze“, in: Dies. (Hg.), Regeln der Bedeutung. Zur Theorie der Bedeutung literarischer Texte, Berlin/New York 2003, 3–32.
Google Scholar
Jannidis, Fotis, „Polyvalenz – Konvention – Autonomie“, in: Ders./Gerhard Lauer/Matías Martínez u. a. (Hg.), Regeln der Bedeutung. Zur Theorie der Bedeutung literarischer Texte, Berlin/New York 2003, 305–328.
Google Scholar
Jannidis, Fotis/Lauer, Gerhard, „Burrows’s Delta and Its Use in German Literary History“, in: Matt Erlin/Lynne Tatlock (Hg.), Distant Readings. Topologies of German Culture in the Long Nineteenth Century, Rochester 2014, 29–54.
Google Scholar
Jannidis, Fotis/Krug, Markus/Reger, Isabella u. a., Automatische Erkennung von Figuren in deutschsprachigen Romanen. Digital Humanities im deutschsprachigen Raum (DHd), Graz 2015, URN nbn:de:bvb:20-opus-143332.
Google Scholar
Jannidis, Fotis/Lauer, Gerhard/Martínez, Matías u. a. (Hg.), Regeln der Bedeutung. Zur Theorie der Bedeutung literarischer Texte, Berlin/New York 2003.
Google Scholar
Kao, Justine/Jurafsky, Daniel, „A Computational Analysis of Style, Affect, and Imagery in Contemporary Poetry“, in: Proceedings of the Workshop on Computational Linguistics for Literature (Conference of the North American Chapter of the Association for Computational Linguistics. Human Language Technologies, NAACL-HLT), Montréal 2012, 8–17.
Google Scholar
Kindt, Tom/Müller, Hans-Harald, „Wieviel Interpretation enthalten Beschreibungen? Überlegungen zu einer umstrittenen Unterscheidung am Beispiel der Narratologie“, in: Fotis Jannidis/Gerhard Lauer/Matías Martínez u. a., Regeln der Bedeutung. Zur Theorie der Bedeutung literarischer Texte, Berlin/New York 2003, 286–304.
Google Scholar
Kuhn, Jonas: „Computerlinguistische Textanalyse in der Literaturwissenschaft? – oder: ‚The Importance of Being Earnest‘ bei quantitativen Untersuchungen“, in: Andrea Albrecht/Sandra Richter/Marcel Lepper u.a., Quantitative Verfahren in der Literaturwissenschaft. Von einer Scientia Quantitatis zu den Digital Humanities, Berlin/Boston 2018, 11–44.
Google Scholar
Kuhn, Jonas, „Computational text analysis within the Humanities. How to combine working practices from the contributing fields?“, in: Language Resources and Evaluation (June 2019), DOI https://doi.org/10.1007/s10579-019-09459-3.
Kuhn, Jonas/Blessing, André, „Die Exploration biographischer Textsammlungen mit computerlinguistischen Werkzeugen – methodische Überlegungen zur Übertragung komplexer Analyseketten in den Digital Humanities“, in: Ágoston Z. Bernád/Christine Gruber/Maximilian Kaiser (Hg.), Europa baut auf Biographien. Aspekte, Bausteine, Normen und Standards für eine europäische Biographik, Wien 2018, 225–257.
Google Scholar
McCarty, Willard, Humanities Computing, London 2005.
Google Scholar
Moretti, Franco, „Network Theory, Plot Analysis“, in: Stanford Literary Lab Pamphlets 2 (Mai 2011), http://litlab.stanford.edu/LiteraryLabPamphlet2.pdf.
Ransmayr, Christoph, Die letzte Welt, Roman, mit einem Ovidischen Repertoire, Nördlingen 1988.
Google Scholar
Schnitzler, Arthur, Gesammelte Werke. Die erzählenden Schriften, 2 Bde., Band 1: Der Weg ins Freie, Frankfurt a. M. 1961.
Google Scholar
Trilcke, Peer, „Social Network Analysis (SNA) als Methode einer textempirischen Literaturwissenschaft“, in: Philip Ajouri/Katja Mellmann/Christoph Rauen (Hg.), Empirie in der Literaturwissenschaft, Münster 2013, 201–247.
Google Scholar
Twain, Mark, Adventures of Huckleberry Finn (Tom Sawyer’s Comrade), New York 1885.
Google Scholar
Twain, Mark, Huckleberry Finns Abenteuer und Fahrten, München 1962 [engl., USA, 1885].
Google Scholar
Vala, Hardik/Jurgens, David/Piper, Andrew u. a., „Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized. On the difficulty of detecting characters in literary texts“, in: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, hg. von Association for Computational Linguistics, Lissabon 2015.
Google Scholar
Weitin, Thomas, „Digitale Literaturwissenschaft“, in: Deutsche Vierteljahresschrift für Literaturwissenschaft und Geistesgeschichte 89/4 (2015), Sonderheft: Zur Lage der Literaturwissenschaft. Aktuelle Bestandsaufnahmen und Perspektiven, 651–656.
Google Scholar
Wiebe, Janyce M., „Tracking point of view in narrative“, in: Computational Linguistics 20/2 (1994), 233–287.
Google Scholar
Willand, Marcus, „Hermeneutische Interpretation und digitale Analyse. Eine Verhältnisbestimmung“, in: Luisa Banki/Michael Scheffel (Hg.), Lektüren. Positionen zeitgenössischer Philologie, Trier 2017, 77–100.
Google Scholar

Online-Ressourcen

Wikipedia, Verwechslungswitz, http://de.wikipedia.org/wiki/Verwechslungswitz.
Stanford CoreNLP – Natural language software, https://stanfordnlp.github.io/CoreNLP/.
Unified Verb Index, https://verbs.colorado.edu/verb-index/.
GutenTag, www.cs.toronto.edu/~jbrooke/gutentag/.
Wikipedia. Die freie Enzyklopädie, Der Weg ins Freie, https://de.wikipedia.org/wiki/Der_Weg_ins_Freie.
scikit-learn, http://scikit-learn.org.
Project Gutenberg, http://www.gutenberg.org/.
Stanford CoreNLP – Natural language software, https://stanfordnlp.github.io/CoreNLP/.

Download references

Danksagung

Die Arbeiten zu diesem Beitrag wurden teilweise vom deutschen Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Projekts CRETA (Centrum für reflektierte Textanalyse) gefördert. Ich bin sehr dankbar dafür, dass ich am DFG-Symposium „Digitale Literaturwissenschaft“ 2017 in der Villa Vigoni teilnehmen konnte, und danke der DFG und den Organisatoren herzlich dafür. Ein herzlicher Dank geht auch an alle Beteiligten für die Diskussionen. Besonders danken für Kommentare, Hinweise und Anregungen zum Methodendiskurs, den dieser Artikel berührt, möchte ich Janina Jacke, Fotis Jannidis, Jan Christoph Meister, Axel Pichler, Nils Reiter und Marcus Willand.

Author information

Authors and Affiliations

Universität Stuttgart, Stuttgart, Deutschland
Jonas Kuhn

Authors

Jonas Kuhn
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Jonas Kuhn .

Editor information

Editors and Affiliations

Universität Würzburg, Würzburg, Deutschland
Fotis Jannidis

Rights and permissions

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Kuhn, J. (2022). Empirie – Beschreibung – Interpretation. Über den Platz von Computermodellen in den hermeneutisch-historisch orientierten Literaturwissenschaften. In: Jannidis, F. (eds) Digitale Literaturwissenschaft. Germanistische Symposien. J.B. Metzler, Stuttgart. https://doi.org/10.1007/978-3-476-05886-7_4

Download citation

DOI: https://doi.org/10.1007/978-3-476-05886-7_4
Published: 01 March 2023
Publisher Name: J.B. Metzler, Stuttgart
Print ISBN: 978-3-476-05885-0
Online ISBN: 978-3-476-05886-7
eBook Packages: J.B. Metzler Humanities (German Language)

Publish with us

Policies and ethics

Empirie – Beschreibung – Interpretation. Über den Platz von Computermodellen in den hermeneutisch-historisch orientierten Literaturwissenschaften

Zusammenfassung

Similar content being viewed by others

Systematische Grundlagen der literaturwissenschaftlichen Wertanalyse – mit einer Beispielanalyse zu Schillers „Verbrecher aus verlorener Ehre“

Die Komplexität des Druckreglers – Anwendung eines textgrammatischen Analysemodells für komplexe Texte

Textanalyse/Dokumentenanalyse

1 Empirisch-korpusbasierte Methoden und die Interpretation von Texten

1.1 Hintergrund: Empirisch-korpusbasierte Methoden

1.1.1 Statistische Modellierung in der Korpuslinguistik und Computerlinguistik

1.1.2 Sind die methodischen Annahmen im literaturwissenschaftlichen Kontext erfüllt?

1.2 Repräsentativität der Korpusauswahl

1.3 Die Möglichkeit einer Gold-Standard-Annotation für zentrale Analysekategorien

1.4 Literaturwissenschaftliche Interpretation und intersubjektive Annotation

2 Reaktionen auf die methodischen Einwände

2.1 ‚Defensive‘ Reaktionen

2.2 Computermodelle in der hermeneutischen Praxis? Die ‚offensive‘ Replik

2.3 Beispiel: Korpusbasierte Modellierung interpretationsgebundener Analysekategorien

2.3.1 Kategorisierungsentscheidung und Merkmale für überwachtes Training

2.3.2 Annotation und Analysemöglichkeiten

2.4 Perspektiven zum Einsatz von interpretatorisch gefärbten Vorhersagemodellen

3 Schluss

Notes

Literatur

Online-Ressourcen

Danksagung

Author information

Authors and Affiliations

Corresponding author

Editor information

Editors and Affiliations

Rights and permissions

Copyright information

About this chapter

Cite this chapter

Download citation

Publish with us

Navigation

Empirie – Beschreibung – Interpretation. Über den Platz von Computermodellen in den hermeneutisch-historisch orientierten Literaturwissenschaften

Zusammenfassung

Similar content being viewed by others

Systematische Grundlagen der literaturwissenschaftlichen Wertanalyse – mit einer Beispielanalyse zu Schillers „Verbrecher aus verlorener Ehre“

Die Komplexität des Druckreglers – Anwendung eines textgrammatischen Analysemodells für komplexe Texte

Textanalyse/Dokumentenanalyse

1 Empirisch-korpusbasierte Methoden und die Interpretation von Texten

1.1 Hintergrund: Empirisch-korpusbasierte Methoden

1.1.1 Statistische Modellierung in der Korpuslinguistik und Computerlinguistik

1.1.2 Sind die methodischen Annahmen im literaturwissenschaftlichen Kontext erfüllt?

1.2 Repräsentativität der Korpusauswahl

1.3 Die Möglichkeit einer Gold-Standard-Annotation für zentrale Analysekategorien

1.4 Literaturwissenschaftliche Interpretation und intersubjektive Annotation

2 Reaktionen auf die methodischen Einwände

2.1 ‚Defensive‘ Reaktionen

2.2 Computermodelle in der hermeneutischen Praxis? Die ‚offensive‘ Replik

2.3 Beispiel: Korpusbasierte Modellierung interpretationsgebundener Analysekategorien

2.3.1 Kategorisierungsentscheidung und Merkmale für überwachtes Training

2.3.2 Annotation und Analysemöglichkeiten

2.4 Perspektiven zum Einsatz von interpretatorisch gefärbten Vorhersagemodellen

3 Schluss

Notes

Literatur

Online-Ressourcen

Danksagung

Author information

Authors and Affiliations

Corresponding author

Editor information

Editors and Affiliations

Rights and permissions

Copyright information

About this chapter

Cite this chapter

Download citation

Share this chapter

Publish with us

Search

Navigation