Im Zuge der Positionsbestimmung und Entfaltung der Digitalen Literaturwissenschaft wird – jenseits der Unterstützung konventioneller Arbeitspraktiken mit digitalen Hilfsmitteln – über statistische Verfahren diskutiert und mit Werkzeugen experimentiert, die literaturwissenschaftlich relevante Texteigenschaften in einem größeren Untersuchungskorpus erfassen, beispielsweise zu Autorstil und Gattungsmerkmalen.Footnote 1

Mit sprach- und textanalytischen Werkzeugen werden wichtige Inhaltselemente wie FigurenerwähnungenFootnote 2 oder FigurenredeFootnote 3 automatisch extrahiert, um etwa ein sogenanntes Distant Reading zu ermöglichen: Beispielsweise können Texteigenschaften durch NetzwerkanalysenFootnote 4 oder einen Vergleich der Figuren-Charakterisierung innerhalb der FigurenredeFootnote 5 über größere Textmengen aggregiert werden. Häufig werden hierfür korpusbasierte Computermodelle eingesetzt, die mithilfe von maschinellen Lernverfahren für die Vorhersage von Textinstanzen ‚trainiert‘ werden, auf die z. B. eine (operationalisierte) narratologische Analysekategorie zutrifft. Es gibt eine wachsende Zahl von Beispielen für komputationell anspruchsvolle Modellierungen, die auf großen Korpora von literarischen Texten entwickelt und angewendet wurden – wie beispielsweise die Modelle von David Bamman und Kollegen zu Figurentypen in englischsprachigen Romanen, für die statistischen Modelle auf über 15.000 Romanen trainiert wurden.Footnote 6 Innerhalb der breiteren literaturwissenschaftlichen Fachdiskussion scheinen solche Ansätze jedoch bislang (noch?) keine zentrale Rolle zu spielen.

Es mangelt nicht an neueren Diskussionsbeiträgen zum vielschichtigen Spannungsverhältnis zwischen der Digitalen Literaturwissenschaft (bzw. Digital Humanities) und der etablierten Literaturwissenschaft,Footnote 7 in dem sich unterschiedliche Erklärungen dafür ausmachen lassen, weshalb die komputationellen Methoden und Werkzeuge nicht zu einem rasanten Umdenken in großen Teilen des Gesamtfeldes führen – starkes Gewicht hat hier neben wissenschaftssoziologischen Gegebenheiten immer wieder die Abwägung zwischen Aufwand (Einarbeitung in die Methodik und Operationalisierung relevanter Analysekategorien) und dem zu erwartenden – nicht-trivialen – Ertrag;Footnote 8 im Einzelfall mag diese Abwägung häufig berechtigterweise gegen den Einsatz von Computermodellen sprechen. Das Argument mit der vielleicht breitesten Akzeptanz für Computermodelle liegt auf der anderen Seite in deren Reliabilität, die es erlaubt, für beliebig große Textsammlungen strikt vergleichbare Analyseergebnisse zu erzeugen. So können Frequenzmuster bis in subtile Details erfasst werden, welche für menschliche Leser nicht unverzerrt (reliably oder ‚reliabel‘) wahrnehmbar sind, da deren Aufmerksamkeit durch inhaltliche Aspekte überlagert wird – die Erfolgsgeschichte stilometrischer Verfahren unterstreicht dies. Dank ihrer Reliabilität können Computeranalysen darüber hinaus auch der Problematik von Bestätigungsfehlern (dem Confirmation Bias) entgegengestellt werden, also der kognitionspsychologisch erklärbaren Tendenz, bei einer manuellen Textanalyse verstärkt diejenigen Eigenschaften zu sehen, die die eigene Hypothese bestätigen.Footnote 9

In dem vorliegenden Beitrag will und kann ich als Computerlinguist (mit einer Bereitschaft, das computerlinguistische Modell- und Methodeninventar jederzeit zu erweitern oder zu ergänzen, um Fragestellungen aus einem grundsätzlich anderen disziplinären Kontext gerecht zu werden) nicht eine weitere umfassende Beleuchtung des Spannungsfeldes beisteuern. Ich will jedoch im ersten Teil (Abschn. 1.11.4) auf einen Aspekt der empirisch-korpusbasierten Methodik abheben, der in der Tat Zweifel daran zu begründen scheint, dass sich diese Methodik in ihrer etablierten Form in den Kern der hermeneutisch-historisch orientierten Literaturwissenschaft – die Textinterpretation – integrieren lässt. Es handelt sich um Fragen der (statistischen) Repräsentativität der Daten, auf deren Grundlage Modellparameter für zukünftige Vorhersagen abgeschätzt werden: Sind diese sogenannten ‚Trainingsdaten‘ – hier also die Texte, deren relevante Eigenschaften exemplarisch von Hand annotiert werden – repräsentativ in Bezug auf die ‚Anwendungstexte‘, d. h. diejenigen Texte, die im Zentrum der eigentlichen Untersuchung stehen? Gewisse inhärente Repräsentativitätsannahmen, die beim Einsatz von Analysemodellen für linguistische Fragen oder Inhaltsrecherchen auf Gebrauchstexten unproblematisch sind, stoßen bei interpretationsrelevanten Eigenschaften literarischer Texte an ihre Grenzen.

Im zweiten Teil (Abschn. 2.12.4) argumentiere ich, dass es zwei mögliche Reaktionen gibt, mit diesem methodischen Einwand umzugehen: Die naheliegende, die ich eine ‚defensive Replik‘ nenne, besteht darin, für den Anwendungsbereich der statistischen Methoden nur solche Texte und Texteigenschaften zu wählen, für die die Repräsentativitätsfrage weitgehend unstrittig ist. Damit wird in Kauf genommen, dass möglicherweise nur ein mittelbarer Beitrag zu Fragen der literarischen Textinterpretation geleistet werden kann (andererseits erschließen sich mit einem korpusorientierten Vorgehen neuartige Fragen, die für eine systematische, historisch orientierte Literaturwissenschaft von großem Interesse sind). Zur Sinnhaftigkeit dieses Vorgehens, das ich in Abschn. 2.1 skizziere, scheint in der Community der Digitalen Literaturwissenschaft weitgehender Konsens zu bestehen.

Alternativ könnte auf den methodischen Einwand jedoch, wie ich in Abschn. 2.2 argumentiere, ‚offensiv‘ reagiert werden, indem der empirische Ausschnitt, für den ein Vorhersagemodell abgeschätzt wird, enger gefasst wird. Nicht intersubjektiv unstrittige Analysekategorien werden modelliert, sondern solche, für die sich unter bestimmten Annahmen eine systematische Beispielannotation spezifizieren lässt – möglicherweise teils subjektiv (etwa wenn ein Typus von impliziten Textaussagen nach einer plausiblen Lesart entsprechend dem subjektiven Leseverständnis systematisch ergänzt werden). Indem man den Fokus auf indirekte empirische Implikationen legt, die sich aus begründeten theoretischen Konzepten ableiten, können korpusbasierte Experimente mit Computermodellen eine empirisch gestützte Auseinandersetzung mit Hypothesen erlauben, die abstraktere Eigenschaften berühren.

Um diesen Gedanken zu konkretisieren, skizziere ich in Abschn. 2.3 einen korpusbasierten Experimentaufbau, der interpretationsabhängige Texteigenschaften als Zielkategorie für statistische Klassifikationsmodelle ansetzt – nämlich einen Aspekt der subjektiven Perspektivierung von Figuren in Erzähltexten. Den Experimentaufbau habe ich für eine Reihe von Texten aus dem Werk Arthur Schnitzlers in einer Pilotstudie umgesetzt, sodass zur Verfügung stehende methodische Möglichkeiten ‚durchgespielt‘ werden können. Gleichwohl muss der Nachweis einer tatsächlichen – hoffentlich gewinnbringenden – Integration in hermeneutische Fragestellungen sicherlich noch erbracht werden.

1 Empirisch-korpusbasierte Methoden und die Interpretation von Texten

1.1 Hintergrund: Empirisch-korpusbasierte Methoden

Text-basierte Explorations- und Analysewerkzeuge lassen sich in vielfältiger Weise für die Aufbereitung und Erschließung digital verfügbarer Texte und ganzer Korpora einsetzen. Einem Einsatz als heuristische Komponente innerhalb einer hermeneutisch-literaturwissenschaftlichen Arbeitspraxis stehen grundsätzlich wenige Beschränkungen entgegen – etwa einem Topic-Modell als tentativer Themenfilter beim Distant Reading über ein Korpus, mit dem der Blick auf Einzeltexte bzw. Textpassagen gelenkt wird, die anschließend einem Close Reading unterzogen werden. Die nachgeordnete Feinanalyse stellt ein methodenkritisches Vorgehen sicher; eventuelle Fehlannahmen bei der Werkzeuganwendung treten hier zutage.

In diesem Beitrag gehe ich jedoch davon aus, dass es innerhalb der Digitalen Literaturwissenschaft ein methodenorientiertes Teilgebiet gibt – vielleicht die Computational Literary Studies –, dessen Anspruch und Selbstverständnis über diesen rein heuristisch-explorativen Werkzeugeinsatz hinausgehen: Der Einsatz eines Computermodells soll Ergebnisse erzeugen, die sich direkt in eine Argumentation einfügen lassen – naheliegend sind quantitative Befunde zu Texteigenschaften, die eine studienrelevante These untermauern. Nicht zuletzt um der Gefahr einer Pseudo-Objektivität zu entgehen, muss die Validität der eingesetzten Modelle stets kritisch geprüft werden – besteht doch aufgrund des zumeist komplexen Zusammenspiels verschiedener Analyseebenen ein Risiko von Scheineffekten (so können etwa Unterschiede in der quantitativen Verteilung eines Schlüsselbegriffs zwischen zwei Korpora ihre Ursache in trivialen orthographischen Besonderheiten haben, mögen aber zu einer inhaltlich begründeten Fehlinterpretation einladen).

1.1.1 Statistische Modellierung in der Korpuslinguistik und Computerlinguistik

Die werkzeugbasierte Korpuslinguistik und die ComputerlinguistikFootnote 10 arbeiten üblicherweise mit einer Evaluierungsmethodik, die es erlaubt, die Fehlerwahrscheinlichkeit einer Werkzeugkette abzuschätzen, um so die Verlässlichkeit eines Analyseschrittes zu belegen, der beispielsweise Textinstanzen nach einer theoretisch fundierten und empirisch operationalisierten Taxonomie kategorisiert. Wenn etwa anhand eines manuell annotierten Testkorpus nachgewiesen werden konnte, dass ein automatischer Part-of-Speech Tagger Wortarten mit einer Genauigkeit von über 90 % erkennt, ist es legitim, Schlüsse aus automatisch ermittelten Häufigkeitsunterschieden im Gebrauch von Adjektiven zu ziehen, die jenseits der Fehlerwahrscheinlichkeit liegen.

Allerdings basiert die Methodik auf Annahmen zu statistischen Eigenschaften der Korpus-daten – insbesondere zum Verhältnis zwischen den Evaluationsdaten und den ‚Anwendungsdaten‘ –, die möglicherweise nicht in jedem Szenario erfüllt sind. Üblich ist der Aufbau eines Basiskorpus, das die Gesamtheit der möglichen Beobachtungen approximiert, aus dem zufällig eine Auswahl von Instanzen gezogen wird, für das dann mehrere geschulte Annotierende unabhängig voneinander die kontextangemessene Zielkategorie von Hand zuweisen. Hierfür muss eine Operationalisierung der Analysekategorien vorliegen, die intersubjektiv nachvollziehbare Entscheidungen ermöglicht. Nach einem Abgleich der Ergebnisse aus der Mehrfachannotation (bei dem konfligierende Analysen entsprechend einem definierten Protokoll aufgelöst werden) kann eine sogenannte Gold-Standard-Annotation erzeugt werden, die im weiteren Verlauf näherungsweise als empirische Referenz (Ground Truth) betrachtet wird.

Auf einem Teil des Gold-Standard-annotierten Referenzkorpus kann schließlich mit überwachten Lernverfahren ein automatisches Klassifikationsmodell ‚trainiert‘ werden, das aus den Eigenschaften der beobachteten Daten und der statistischen Verteilung eine Funktion induziert, die auch für neue Daten eine Vorhersage der jeweils wahrscheinlichsten Zielkategorie erlaubt. Eine zentrale Annahme besteht darin, dass die Daten im Anwendungsfall derselben Grundgesamtheit entspringen wie die ‚Trainingsdaten‘. Bei komplexen Aufgaben wird der Klassifikator nie perfekt sein. Das Fehlerrisiko kann jedoch statistisch eingegrenzt werden, wenn ein Teil der Gold-Standard-Daten zu Testzwecken aus dem Training herausgelassen wird.

Da gerade in der (Computer-)Linguistik die Erstellung von Gold-Standard-Annotationen für anspruchsvolle Analyseaufgaben sehr aufwendig ist (und die meisten Induktionsverfahren eine vergleichsweise große Menge von Trainingsdaten benötigen, um robuste Vorhersage zu liefern), widmet sich ein wichtiger Zweig der angewandten Forschung zu maschinellen Verfahren sogenannten Domänenadaptionstechniken:Footnote 11 Liegen für das gewünschte Untersuchungskorpus keine – oder nur unzureichend umfangreiche – Gold-Standard-Annotationen vor, werden hierbei andere Korpora für das Training eines Ausgangsmodells herangezogen, die hinreichend ähnlich sind. Die resultierenden Modellparameter werden anschließend mit speziellen Verfahren für die Anwendung auf das eigentliche Zielkorpus angepasst. Für eine Validitätsprüfung des resultierenden adaptierten Klassifikators muss bei der Domänenadaption ein Ausschnitt des Zielkorpus als Testdatensatz manuell annotiert werden.Footnote 12

1.1.2 Sind die methodischen Annahmen im literaturwissenschaftlichen Kontext erfüllt?

Generell kann die geschilderte methodische Praxis auf den Einsatz von Computermodellen in literaturwissenschaftlichen Studien übertragen werden – nicht selten kommen existierende sprachtechnologische Modelle oder Modellkomponenten als Basis für ein literaturwissenschaftlich motiviertes Analysemodell infrage (so kann etwa ein generisches Modell für die Erkennung von Eigennamen in Texten die Basis für die Figurenerkennung in Erzähltexten darstellen, evtl. in Kombination mit einem KoreferenzauflösungsverfahrenFootnote 13). Wie aus den jeweils angerissenen Annahmen zum Status des Basiskorpus, der manuellen Annotation usf. hervorgeht, liegt dem Arbeitsablauf jedoch ein bestimmtes wissenschaftstheoretisches Bezugssystem zugrunde: die Analyse oder Annotation eines Texts mit dem Ziel, seinen Teilinstanzen bestimmte Kategorien zuzuweisen, wird im Grunde als ein Experiment betrachtet, für das unter gleichen Kontextbedingungen reproduzierbare Ergebnisse angenommen werden. Diesem naturwissenschaftlich geprägten Bezugssystem mag sich nicht unbedingt jede Hermeneutikerin oder jeder Hermeneutiker anschließen. Allerdings dürfte einleuchtend sein, dass für einen fundierten Einsatz einer algorithmischen Komponente mit bestimmten Ein- und Ausgabestrukturen deren Repräsentativität geklärt sein muss.

Wenn man sich den eben angesprochenen grundsätzlichen Bedenken nicht anschließt (und davon wird nachfolgend ausgegangen), muss also weiterhin geprüft werden, inwiefern die methodischen Arbeitshypothesen bei einem literarischen Gegenstand und literaturwissenschaftlichen Analysezielen tragfähig sind. Hierbei geht es nicht darum, ob sämtliche methodisch motivierten Annahmen zum Untersuchungsszenario faktisch immer erfüllt sind – im Zuge einer theoriegeleiteten wissenschaftlichen Agenda wird es in vielen Fächern als legitim angesehen, idealisierende Annahmen zu machen, sofern argumentiert werden kann, dass der Zugang zur Empirie dadurch grosso modo unverfälscht bleibt –, wenn etwa für bestimmte Experimente in der Mechanik bewusst die Reibung ignoriert wird. Es reicht dann also, wenn geringfügige Abweichungen von den Annahmen ohne Einfluss auf wesentliche Aspekte der Fragestellung sind – wobei Einigkeit in der Community darüber bestehen muss, welcher Abstraktionsschritt die Idealisierung trägt.Footnote 14

Will man nun den korpusbasierten statistischen Analyseansatz innerhalb der hermeneutisch-literaturwissenschaftlichen Praxis anwenden, gibt es nach meinem – in vieler Hinsicht sicherlich unvollständigen – Verständnis mehrere Punkte, in denen man sich davon überzeugen muss, dass die geschilderten methodischen Annahmen in ausreichendem Maße erfüllt sind. Auf zwei Punkte will ich ausführlicher eingehen: zum einen auf die Repräsentativitätsannahme, u. a. in der Beziehung zwischen dem Basiskorpus und einzelnen Untersuchungsgegenständen (dazu Abschn. 1.3), zum anderen die Möglichkeit der Festlegung auf eine Referenzlösung (Ground Truth) für zentrale Analysekategorien (Abschn. 1.4).

1.2 Repräsentativität der Korpusauswahl

Bereits das Auswahlprinzip für die Zusammenstellung des Basiskorpus, das als Approximation der theoretisch anzunehmenden Grundgesamtheit von möglichen TextenFootnote 15 fungiert, ist im literarischen Kontext nicht unproblematisch. Auf den ersten Blick erscheint dieser Punkt für die Literaturwissenschaft nicht stärker virulent als für die Linguistik und Sprachtechnologie, die sich seit Jahrzehnten mit pragmatischen Lösungen behelfen: Für sehr wenige Sprachen liegen ausreichend große balancierte Korpora vor (bei denen der Versuch gemacht wird, die relative Verteilung von Quellen für Sprachinput, denen Muttersprachler ausgesetzt sind, zu spiegeln). Stattdessen werden notgedrungen zumeist die Korpora genutzt, die in der jeweiligen Untersuchungssprache eben verfügbar sind, nicht selten (möglichst große) Zeitungskorpora. Empirische Aussagen können dann nicht über den gesamten Sprachgebrauch gemacht werden, sondern nur relativ zum realen Basiskorpus. Eine solche Vorauswahl ist für die (Computer-)Linguistik unter der idealisierenden Annahme tragbar, dass die Verteilung von strukturellen grammatischen Phänomenen weitgehend unabhängig von Gattungsspezifika bzw. der Inhaltsdomäne etc. ist. Dies ist oft nicht der Fall – z. B. sind direkte Fragesätze in Zeitungstexten stark unterrepräsentiert (was in der Praxis dazu führt, dass Syntax-Parser, die auf Standardkorpora trainiert wurden, bei Fragen tendenziell mehr Fehler machen). Für viele Untersuchungen zu grammatikinternen Interaktionen – etwa zwischen unterschiedlichen Auslösern für Wortstellungspräferenzen (Subjekt-Präzedenz vs. Präzedenz von Pronomina gegenüber vollen Phrasen) – kann jedoch ein beliebiger Sprachausschnitt eine durchaus verwertbare empirische Grundlage liefern: Da sich die (Computer-)Linguistik mit Regularitäten in der Sprache als ein System befasst, das (einer linguistischen Grundannahme nach) jeder Textproduktion und -perzeption zugrunde liegt, sind die Hürden der Basiskorpuskonstruktion in der Praxis nicht allzu hoch, und verfügbare Korpora lassen sich zumeist für sehr viele unterschiedliche Studien nutzen. Aus diesem Zusammenhang folgt auch, dass Modelle, die aus einem Ausschnitt des Basiskorpus entwickelt wurden, bei der Anwendung auf völlig neue Sätze der fraglichen Sprache in aller Regel zu halbwegs robusten Analyseergebnissen führen – dank der grammatisch-strukturellen Verwandtschaft.

Auf literaturwissenschaftliche Untersuchungen übertragen, könnte für oberflächennahe Texteigenschaften in Korpora, die eine sehr große Zahl von ganzen Texten enthalten, langfristig möglicherweise eine ähnliche Praxis etabliert werden.Footnote 16 Für typische komplexere Analysefragen jedoch, die für einen konkreten literarischen Text oder ein kleines Korpus zu bearbeiten sind, scheint die Bezugsdimension zu einem relevanten Vergleichskorpus von Studie zu Studie stark zu variieren: Soll betrachtet werden, inwiefern der Text zeitgenössische Gattungskonventionen (bzw. den Kanon) widerspiegelt und wo er sie durchbricht? Versucht eine produktionsästhetische Studie zur empirischen Untermauerung eines Interpretationsansatzes Tendenzen in Briefen und Tagebucheinträgen der Autorin oder des Autors zu finden? Können intertextuelle Bezüge zu Texten anderer Autorinnen und Autoren, teilweise aus ganz anderen Epochen, sichtbar gemacht werden? In jedem Fall ist das Auswahlprinzip zur Zusammenstellung eines geeigneten Basiskorpus ein grundsätzlich anderes. Diese Vielfalt erschwert nicht nur ganz praktisch die Übertragbarkeit von (in aller Regel aufwändig erstellten) Korpusressourcen – die jeweils unterschiedlich gelagerten Prinzipien dürften auch häufig den Einsatz bekannter Modellierungsverfahren verhindern. Prinzipiell wäre es denkbar (und forschungsökonomisch effizient), dass über mehrere Arbeitsgruppen zur Digitalen Literaturwissenschaft hinweg eine Abstimmung der Agenda zu Korpusarbeiten und der Modellierung von Analyseaufgaben stattfindet, sodass Synergie-Effekte ausgenutzt werden können.Footnote 17 Dies läuft allerdings der etablierten Publikationspraxis und dem Originalitätsgedanken entgegen und könnte daher eher ein Ziel für einen langfristigen Prozess des Wandels sein.

Setzt man vor dem Hintergrund der zuletzt diskutierten Überlegungen Aufwand und Ertrag für den Einsatz von anspruchsvollen korpusbasierten Methoden in Relation – für Analysen, die einen Kernbeitrag zu einer relevanten Leitfrage leisten können –, könnten auf absehbare Zeit konventionelle Praktiken häufig noch den Vorzug erhalten.

In jedem Fall scheint sich die Konstellation aus Gegenständen und typischen Fragestellungen in den Literaturwissenschaften so darzustellen, dass es (noch?) unrealistisch ist, ein Korpus für die studienübergreifende Unterstützung von ‚tieferen‘ Analysefragen zusammenzustellen. Der repräsentative Charakter, den bei linguistischen Untersuchungen ein klug gewähltes sprachspezifisches Textkorpus für sehr viele Analysefragen bietet, lässt sich durch ein generisches Korpus mit literaturwissenschaftlicher Breite sicherlich nur in geringerem Maß erreichen. Hierzu müsste der jeweils untersuchte Textgegenstand unter der idealisierenden Annahme betrachtet werden, dass er zu der angenommenen Grundgesamtheit gehört, die durch das Korpus von Anfang an approximiert wurde. Dies läuft jedoch einer verbreiteten literaturwissenschaftlichen Grundmotivation entgegen, nach der durch originelle Schritte der Textanalyse das Singuläre herauszuarbeiten ist, das einen Text auszeichnet, und textspezifischen ästhetischen Aspekten gerecht zu werden.Footnote 18 Für eine Vielzahl von Studien muss also auf absehbare Zeit in einen fragespezifisch motivierten Korpusaufbau investiert werden.

1.3 Die Möglichkeit einer Gold-Standard-Annotation für zentrale Analysekategorien

Die geschilderte Problematik der Repräsentativität von vorhandenen Korpora für diese oder jene Kombination aus Gegenstand und Fragestellung ist im Grunde auf eine Abwägung von Aufwand und Ertrag zurückzuführen: Auch für einen sehr spezifischen Blickwinkel könnte prinzipiell ein repräsentatives Korpus konstruiert werden. Aus nachvollziehbaren Gründen wird sich dies jedoch nicht (rasch) zur Standardpraxis in der Breite des Fachs entwickeln – liegen doch andere anerkannte Argumentationsmuster vor, mit denen Thesen zum relevanten Kontextbezug eines Texts begründet werden können. Nun kommen wir zu einer grundlegenderen Problematik: Ist die Notwendigkeit einer Festlegung von Referenzlösungen im Gold Standard (evtl. für Trainingsdaten, in jedem Fall aber für die Modellvalidierung) mit dem Selbstverständnis eines hermeneutischen Ansatzes in der Literaturwissenschaft vereinbar? Auf welcher Basis soll die Entscheidung für eine intersubjektiv akzeptierte, ‚korrekte‘ Annotation gefällt werden, wenn unterschiedliche Textinterpretationen zu konkurrierenden Ergebnissen führen? Ich will hier nicht die Debatte zum Status der Polyvalenz-These (dass die Vieldeutigkeit ein zentrales – vielleicht konstitutives – Merkmal literarischer Texte sei) nachvollziehenFootnote 19 – dazu fehlt mir auch die literaturwissenschaftliche Kompetenz. Es lohnt sich jedoch, die Dimensionen der Interpretationsproblematik abzustecken, um zu verstehen, für welche Art von analytischer Fragestellung welcher Ansatz systematisch-strukturell geeignet ist.Footnote 20 Insofern sich die Digitale Literaturwissenschaft geeigneter Analysemodelle aus der Computerlinguistik bedienen kann, bietet sich wiederum ein knapper Vergleich mit der Annotationspraxis für die linguistische Textanalyse an.

Nicht wenige Analyseentscheidungen, die bei einer linguistischen Korpusannotation gefällt werden müssen, erfordern eine (linguistische) Interpretation des Satzes im gegebenen Kontext, sprich eine Rekonstruktion der Inferenzschritte, die zur Zuweisung der nächstliegenden kontextangemessenen Bedeutung des Satzes führen. Dies trifft – zunächst vielleicht überraschend – nicht nur für lexikalisch-semantische und satz-semantische Entscheidungen zu (etwa: welche Lesart von ‚einstellen‘ ist gemeint? „Maschinen einstellen“/„Lehrer einstellen“), sondern auch für rein grammatische Annotationen: Um Subjekt- und Objektstatus in einem Satz wie

  1. 1.

    Diese Einschätzung teilt die Opposition nicht.

zuweisen zu können, genügt es nicht, die Kasusmarkierung zu überprüfen (die Formen sind synkretistisch), und die Wortstellung gibt im Deutschen nicht den Ausschlag. Fehlt Wissen zum Interpretationskontext, kann dies zu Fehlanalysen auf der grammatischen Ebene führen: Nehmen wir an, wir wüssten nicht, dass Mangusten eine Marderart sind, sondern wir wären der Annahme, es handele sich um Insekten. Dann würden wir in folgendem Satz Subjekt und Objekt vermutlich falsch zuordnen:

  1. 2.

    Auch die große Kröte erwischte die Manguste nach geduldigem Lauern.

Linguistische Annotationsaufgaben bewegen sich also immer im Spannungsfeld von unterschiedlichen Interpretationen. Die beiden angeführten Satzbeispiele sind grammatisch gesehen ambig (man spricht von ‚globaler‘ Ambiguität, da jeweils die ‚lokale‘ Nominativ/Akkusativ-Ambiguität der beiden Nominalphrasen auch im globalen Satzzusammenhang nicht grammatisch aufgelöst wird, wie dies sonst zumeist der Fall ist). Es wäre denkbar, solche Sätze bei der Gold-Standard-Annotation für die Analysen von grammatischen Relationen als ‚unaufgelöst ambig‘ zu markieren (in der Grammatiktheorie wird hierfür das Konzept der ‚Unterspezifikation‘ verwendet). Dann würde die Annotation nicht durch außergrammatische Informationen ‚kontaminiert‘.

Die übliche Annotationspraxis erfordert jedoch bei strukturell ambigen Instanzen eine Entscheidung – auf Basis des semantischen (und ggf. pragmatischen) Verständnisses. Dies ist sinnvoll, da die überwiegende Zahl von globalen Ambiguitäten von kompetenten Sprechern/Hörern überhaupt nicht wahrgenommen wird – das semantische Mitlesen können wir nicht abschalten (strukturelle Ambiguitäten wie in Beispiel (1) dürften die meisten Leser bei der inhaltlichen Lektüre übersehenFootnote 21). Und da die Interaktion zwischen unterschiedlichen Granularitätsebenen (lexikalische Semantik, syntaktische Struktur, semantische Skopusentscheidungen, Informationsstruktur im Sinn von Fokus/Hintergrundgliederung) sehr komplex ist, wäre eine Spezifikation sämtlicher Umstände, unter denen Ambiguitäten explizit markiert werden sollen, sehr kompliziert und dürfte in der Praxis zu recht arbiträren Einschätzungen führen. Die Aufforderung an die Annotierenden, die im Kontext jeweils plausible Interpretation zugrunde zu legen und danach alle Teilentscheidungen aufzulösen, ist hingegen simpel und robust. Der wahrscheinlich größte Vorteil liegt wohl darin, dass die entstehende Gold-Standard-Annotation als Basis für Analyseentscheidungen auf sehr vielen Ebenen herangezogen werden kann. So können morphologische Annotationen innerhalb einer komplexen syntaktischen Struktur extrahiert werden, um einen morphologisch angereicherten Part-of-Speech Tagger zu trainieren, der innerhalb von lokal ambigen Phrasen ggf. lexikalisch-semantische Tendenzen berücksichtigt (der also in einem Satzanfang „Diese Einschätzung teilt …“ bereits ein Akkusativobjekt vermutet, obgleich der Tagger keine vollständige syntaktische Struktur aufbaut).

Die Praxis der erzwungenen (kontextgebundenen) Disambiguierung stößt in zwei Situationen an Grenzen: zum einen bei Sprachspielen, die die Ambiguität auf die Ebene des Bewussten ziehen, wie folgender Verwechslungswitz auf Basis der lexikalischen Ambiguität von „Schale“:

  1. 3.

    Eine Frau kommt zum Arzt und sagt: „Mein Kind hat eine Apfelsine mit der Schale gegessen, ist das schlimm?“

    Darauf der Arzt: „Wenn die Schale nicht gespritzt war, ist das halb so wild.“

    Die Frau: „Gespritzt? Die Schale war aus Porzellan!“Footnote 22

In üblichen Korpora, die für linguistische und sprachtechnologische Zwecke eingesetzt werden, kommen solche Sprachspiele in verschwindend geringer Zahl vor. (Wobei die erzwungene Disambiguierung wohl korrekterweise den Zeitpunkt der Pointe vorhersagen würde: Es würde im ersten Satz die naheliegende Interpretation – des Arztes – annotiert, die erst im letzten Satz scheitert; die Auflösung der Pointe aufgrund der alternativen Interpretation kann jedoch aus der Annotation nicht rekonstruiert werden).

Die zweite problematische Situation tritt dann ein, wenn unterschiedliche Annotierende bei der kontextgebundenen Interpretation zu unterschiedlichen Ergebnissen kommen, die jedoch orthogonal zur eigentlichen Annotationsaufgabe stehen und daher nicht explizit in der Annotation dokumentiert werden. Dies kann – selten – zu irreführenden Effekten führen. Glauben bei der Annotation von Beispiel (2) etwa drei von vier Annotierenden fälschlich, dass Mangusten kleine Insekten sind, könnten sich Fehler in das Gold-Standard-Korpus einschleichen, die das oben angedeutete ‚vorausahnende‘ Verhalten von Modellen beeinträchtigen könnten. Diese Möglichkeit führt jedoch im üblichen Rahmen einer linguistischen Annotation zu keinen systematischen Problemen: Die Aufgabe der grammatischen Kernannotation greift auf die Sprachkompetenz zu, und der interpretationsrelevante Disambiguierungshintergrund beschränkt sich bei den üblicherweise annotierten Texten auf das Allgemeinwissen von Zeitungslesenden o. ä. In Einzelfällen werden Annotationsfehler auftreten; diese sind jedoch nicht systematisch verteilt und führen daher höchstwahrscheinlich zu keiner Verfälschung bei der Modellentwicklung oder -validierung. Mit anderen Worten: Für die linguistische Annotation gewährleistet ein Bezug auf muttersprachliche Sprachkompetenz in Kombination mit Inferenzen aufgrund von Allgemeinwissen eine robuste Basis für intersubjektiv stabile, voll disambiguierte Annotationen.

1.4 Literaturwissenschaftliche Interpretation und intersubjektive Annotation

Kommen wir nun zum literaturwissenschaftlichen Rahmen. Über die linguistischen Analysefragen hinaus werden hier beispielsweise Analysekategorien aus der narratologischen Beschreibung relevant. Die zu annotierenden Texte sind literarische Texte. Wie verändert sich die systematisch-strukturelle Ausprägung der Annotationsaufgabe? Zu der Ebene der oben (und in der linguistischen Literatur) so genannten linguistischen Interpretation tritt die Ebene der literaturwissenschaftlichen Interpretation hinzu. Folgt man der Terminologie eines Eric D. Hirsch Jr., kommt zur inhaltlichen Bedeutungsebene des Texts (Meaning) seine (mögliche) Bedeutung im Sinne von Bedeutsamkeit (Significance) hinzu.Footnote 23

Die Frage, ob sich der Blick auf die inhaltliche Bedeutungsebene gegenüber der bisherigen, linguistischen Betrachtung im Rahmen der Korpusannotation für Literaturstudien verschieben kann bzw. muss, wird uns weiter unten eingehender beschäftigen (Abschn. 2.3). Fürs Erste ist festzustellen, dass für Analyseentscheidungen, die in engem Zusammenhang mit der Ebene der literaturwissenschaftlichen Interpretation stehen, ohne weitere Qualifizierung keine intersubjektiv stabile Annotation zu erwarten ist. Dies betrifft etwa die Fragen, ob eine Schlüsselszene im Text allegorisch ist, was die psychologische Deutung einer bestimmten Wendung ist, worauf der intertextuelle Bezug zu einem Text anspielt usw. Auch ohne die stärkeren Implikationen der Polyvalenz-These ist unstrittig, dass für denselben Text – abhängig vom als relevant betrachteten Kontext – mehrere divergierende literaturwissenschaftliche Interpretationen nebeneinander stehen können (häufig eingebettet in unterschiedliche literarische Interpretationstheorien). Es erscheint auch nicht realistisch, Annotierende in den Richtlinien (Guidelines) eine kompakte Charakterisierung des relevanten Interpretationskontexts an die Hand zu geben, der in der Mehrzahl der Fälle zu einer intersubjektiven Konvergenz führte. (Und selbst wenn dies für bestimmte, stark formalisierte Interpretationskontexte möglich wäre, wären die entstehenden Annotationen für andere Kontexte von sehr eingeschränktem Wert.) Ein Einsatz der etablierten Korpusannotationspraxis, die auf überindividuelle Konvergenz abzielt, kommt also auf oberster Ebene der Literaturinterpretation nicht infrage.

Wie verhält es sich aber mit weniger komplexen Entscheidungen bei der Analyse von literarischen Texten? Kann hier durch Parallelannotation ein intersubjektiver Konsens ermittelt werden und dann für (das Training und) die Validierung von Vorhersagemodellen herangezogen werden? Hierzu müssen wir die Interaktion zwischen Analyseentscheidungen auf verschiedenen Abstraktionsebenen betrachten. Gibt es den Effekt eines ‚Ausstrahlens‘ von tieferen Entscheidungen auf solche, die näher an der Oberfläche sind – so wie wir es in der Diskussion der Beispiele (1) und (2) bei der Abhängigkeit von strukturellen Disambiguierungsentscheidungen zur Satzstruktur von der inhaltlichen (linguistischen) Bedeutung beobachtet haben? Selbstverständlich lässt sich dieser Effekt auch beim Zusammenspiel von Literaturinterpretation und deskriptiven Kategorien der Textanalyse nicht abstreiten. Man wird einen Text tendenziell so lesen, dass Passagen, die einen Interpretationsspielraum (im Kleinen) offen lassen, konsistent mit einer sehr weitgehenden, komplexen Interpretation ‚ausgefüllt‘ werden.

Ein dankbares Beispiel für die Manifestation von weitreichenden interpretatorischen Thesen in minimalen sprachlichen Differenzierungen ist sicherlich die Rezeption von Christoph Ransmayrs Roman Die letzte Welt,Footnote 24 der schildert, wie Ovids Freund Cotta diesen – Publius Ovidius Naso – in seinem Exil am Schwarzen Meer aufzufinden versucht, aber nur vielfältige Spuren Ovids findet. Im Verlauf des Romans scheint Cotta sich mehr und mehr mit Naso zu identifizieren. In einer Rezension in DIE ZEIT beobachtet Volker Hage dazu:

  1. 4.

    Zweimal läßt der Autor Cotta auf den Spuren Nasos ins Gebirge gehen. „Hier war Naso gegangen: Das war Nasos Weg.“ So heißt es beim ersten Mal. Beim zweiten Mal, am Ende des Romans, eine minimale Verschiebung: „Hier war Naso gegangen; dies war Nasos Weg.“ Ganz unauffällig, fast zu überlesen: eine Ineinssetzung – die Figuren fallen zusammen.

    Ist Cotta Naso geworden? War sein Weg, den wir verfolgt haben, auch der des Dichters? Cotta, oder wer es ist, sucht einen letzten Stoffetzen: den mit seinem eigenen Namen. Er selbst ist Bestandteil jener Geschichte geworden, die es nur noch in Fragmenten gibt, die sich in einer leeren, letzten Welt verlieren. Wie mögen die zwei Silben, die auf dieser Fahne stehen, lauten? Cotta? Naso? Oder vielleicht Christoph?

    Dieses Rätsel läßt Christoph Ransmayr offen.Footnote 25

Die Referenz der Demonstrativpronomina das und dies (welche zunächst auf der rein inhaltlichen Bedeutungsebene [= Hirschs Meaning] verortet ist) ist also mit weitreichenden Fragen der Interpretation verbunden.Footnote 26

Durch die unbestritten vorhandenen, Ebenen übergreifenden Abhängigkeiten ‚sickert‘ der Einwand gegen die Möglichkeit einer intersubjektiv tragbaren Annotation von der Ebene der abstrakten Literaturinterpretation hinunter auf einzelne textanalytische Entscheidungen, soweit sie interpretationsrelevant sind. Es kann nicht ausgeschlossen werden, dass zwei Annotierende, die unterschiedliche Gesamtinterpretationen im Kopf haben, allein aus diesem Grund gegenläufige Annotationsentscheidungen vornehmen, und dies konterkariert die Brauchbarkeit der Annotation als Gold-Standard.

Augenscheinlich resultiert also das Dilemma, dass nur für solche Analysekategorien eine valide komputationelle Modellierungspraxis etabliert werden kann, deren Wertebereich in keinem direkten Bezug zu Fragen der literaturwissenschaftlichen Interpretation steht. Dies wäre freilich eine Rechtfertigung für ein eher peripheres Interesse an den neuen Methoden innerhalb des etablierten Faches.

2 Reaktionen auf die methodischen Einwände

2.1 ‚Defensive‘ Reaktionen

Methodischen Einwänden, laut denen die übliche Praxis der korpusbasierten Entwicklung und Validierung von Computermodellen bei typischen literaturwissenschaftlichen Konstellationen von Untersuchungsgegenstand und Fragestellung an Grenzen stoße, lässt sich aus Sicht der Digitalen Literaturwissenschaft in mindestens zweierlei Weise begegnen: Der erste Typ von Replik, den ich hier (wertungsfrei) ‚defensiv‘ nenne, anerkennt die Problematik eines Ausstrahlens zugrunde liegender literaturwissenschaftlicher Interpretationsansätze auf eine Reihe von Textanalyseaufgaben (für die damit die datengeleitete Standardmethodik der Modellierung nicht infrage kommt), verweist jedoch darauf, dass es eine Vielzahl von deskriptiven Analysekategorien gibt, die sich unabhängig von der Textinterpretation operationalisieren lassen – beispielsweise ‚stabile‘ oberflächennahe narratologische AnalysekategorienFootnote 27 oder Texteigenschaften, die sich aus Metadaten zum Text ableiten (wie Autorenschaft, Erscheinungsdatum etc.). Eine systematisierte Modellierungspraxis ermöglicht die Validierung von Analyseinstrumenten und eine Skalierung des Volumens von Text(en), die auf derartige deskriptive Texteigenschaften untersucht werden können. Je breiter die zukünftige Basis derartiger Operationalisierungen und, wo robust möglich, Vorhersagemodelle, desto vielseitiger die Möglichkeiten von differenzierten quantitativen Betrachtungen auf größeren literaturwissenschaftlichen Korpora. Wie bereits die Ergebnisse der letzten Jahre andeuten (mit dem Paradebeispiel stilometrischer Untersuchungen zu Autorschaft und darüber hinaus zu feineren Differenzierungen), dürfte sich das Spektrum der Fragestellungen, die sich fundiert bearbeiten lassen, spürbar erweitern – teilweise sicherlich in Richtungen, die noch nicht absehbar sind. Der Einschränkung auf deskriptive Kategorien, die in keinem unmittelbaren Zusammenhang zur Textinterpretation stehen, wird also wettgemacht (a) durch die Skalierung der Analysemöglichkeit auf ungleich größere Textmengen, die valide und ‚reliabel‘ analysiert werden können, und (b) durch die Möglichkeit der systematischen Kombination von, für sich genommen, wenig komplexen Filtern, die schnell zu nicht-trivialen Beobachtungen auf dem Untersuchungskorpus führen können und so die etablierte Praxis der historisch fundierten Literaturwissenschaft um wertvolle Instrumente erweitern.Footnote 28 Nicht zuletzt dürfte der Bedarf an operationalisierten Kriterien für Analyseentscheidungen mittelfristig die Auseinandersetzung mit der Begriffsbildung für zentrale Konzepte (wie Gattungsbegriffe, den Status von Kanones etc.) im Kernfach beleben.Footnote 29

Sicherlich sind auf dem Wege der vielfältigen denkbaren ‚defensiven‘ Reaktionen auf den methodischen Einwand erhebliche methodische Fortschritte zu erwarten (die den Charakter der Digitalen Literaturwissenschaft stark prägen dürften). Dennoch werde ich in Abschn. 2.2 argumentieren, dass es eine alternative ‚offensivere‘ Reaktionsmöglichkeit gibt, die parallel dazu verfolgt werden könnte. Als Motivation könnten zwei Überlegungen dazu angeführt werden, weshalb die defensive Reaktion nicht ganz unproblematisch ist.

Zum einen ist die Ausarbeitung von konsensfähigen deskriptiven Analysekategorien (und insbesondere die Annotation einer nennenswerten Auswahl von Texten) mühsam und womöglich innerhalb der Literaturwissenschaft mit unzureichendem RenommeeFootnote 30 verbunden – nicht zuletzt angesichts des nur mittelbaren Beitrags zum eigentlichen Erkenntnisinteresse der literarischen Interpretation, wenn man der ‚defensiven‘ Positionierung folgt. Allerdings ist diesem Punkt entgegenzusetzen, dass gerade für die Entwicklung von robusten Computermodellen eine möglichst breite Auseinandersetzung mit dem mühsamen Teil des Unterfangens förderlich ist.Footnote 31 Mittelfristig ist zu hoffen, dass auch im literaturwissenschaftlichen Kernfach die Anerkennung für die zeitaufwändige Methodenentwicklung wächst – und für die damit einhergehenden Veränderungen der Arbeitspraxis (bspw. die fast zwingend erforderliche Teambildung, die zu Publikationen in Co-Autorenschaft führt usf.). Ein Meilenstein dürfte sein, dass ein Beitrag als uneingeschränkt originell anerkannt wird, wenn dieser wesentliche Innovationen in eingesetzten Modellen bzw. Verfahren vorschlägt und experimentell anhand eines literarischen Textkorpus (oder auch eines Einzeltexts) validiert – auch wenn zu keinem literarischen Gegenstand eine neue Fragestellung aufgeworfen bzw. beantwortet wird. Das erhebliche Analysepotenzial, das in der korpusorientierten Praxis auch für literaturhistorische und hermeneutische Arbeiten liegt (das grundsätzlich sicherlich von wenigen infrage gestellt wird), dürfte sich mit einem erweiterten Originalitätsbegriff wesentlich dynamischer entwickeln lassen.

Eine zweite Problematik scheint mir in der Grenzbestimmung für deskriptive Analysekategorien zu liegen: Wo liegt die Schwelle der literaturwissenschaftlichen Interpretation, wie weit reicht der Skopus von intersubjektiv reproduzierbaren Kategorien einer professionellen literarischen Beschreibung von Texteigenschaften, für die eine weitgehende Unabhängigkeit von Rezeptionskontext und theoretischem Rahmen angesetzt werden kann? Will man sich nicht auf unstrittige Konzepte wie Metadaten zum Text beschränken, begibt man sich schnell auf literaturtheoretisch umstrittenes Terrain.

Eine naheliegende Strategie für das Erreichen intersubjektiver Übereinstimmung in der Annotation wäre, sich grundsätzlich auf formal-strukturelle Texteigenschaften zu beschränken (in der Annahme, diese wären unabhängig von jedem Interpretationsaspekt). Die Diskussion in Abschn. 1.4 (im Zusammenhang mit den Beispielen 1 und 2) hat jedoch gezeigt, dass bereits für unverdächtige strukturelle Kategorisierungen wie zur Satzgliedfunktion ein ‚Durchsickern‘ von Interpretationsunterscheidungen stattfinden kann. Bei der Annotation jegliche Inferenzen aus einem semantischen und pragmatischen Textverständnis auszublenden, scheint also kontraproduktiv.

Aus computerlinguistischer Sicht naheliegend wäre es, im Anschluss an HirschFootnote 32 eine weitestgehend stabile inhaltliche Bedeutungsebene (Meaning) anzusetzen – in Abgrenzung von der Bedeutung des literarischen Texts im Sinne von Bedeutsamkeit (Significance), welche der literarischen Interpretation vorbehalten bleibt. Wie allerdings Jannidis u. a. historisch-systematisch darlegen,Footnote 33 läuft bereits die Festlegung auf eine fixe inhaltliche Textbedeutung den Idealen eines hermeneutischen Ansatzes entgegen. Möglicherweise lässt sich aber das prinzipielle Problem aus der praktischen Operationalisierung heraushalten, indem als abstrahierendes Konstrukt bei der Annotation das referenzielle Inhaltsverständnis eines prototypischen Lesers bzw. einer prototypischen LeserinFootnote 34 angesetzt wird (die – in Anlehnung an das linguistische Konstrukt des kompetenten Muttersprachlers/der Muttersprachlerin – all jene Inferenzen ziehen, die aus dem kulturellen Allgemeinwissen und dem aufgebauten textuellen Kontext naheliegend sind). Abgesehen von Sonderfällen (wie vielleicht postmodernen Texten, die bewusst mit naheliegenden Inferenzen spielen) könnte ein solcher Ansatz – unter einer GegenwartsperspektiveFootnote 35 auf die Textrezeption – zu hoher intersubjektiver Übereinstimmung führen, ohne für die darunter liegende Ebene der literarischen Interpretation unerwünschte Vorentscheidungen zu treffen.Footnote 36

Als Illustration mag eine Passage aus Mark Twains Huckleberry Finn dienen, in der die Erzählung mit der Ironie spielt, die sich daraus ergibt, dass sich in dieser Szene Huckleberry Finn und Tom Sawyer verkleidet haben: Tom als sein Halbbruder Sid und Huck als Tom. Huck schildert als Ich-Erzähler, wie er verkleidet als Tom in Uncle Silas hineinläuft, nachdem er gerade versucht hat, den Doktor zu Hilfe in ihr Versteck zu holen, weil Tom eine Kugel ins Bein bekommen hat:Footnote 37

  1. 5.

    I […] went for the doctor’s house, but they told me he’d gone away […] and warn’t back yet. Well, thinks I, that looks powerful bad for Tom, […]. So away I shoved, and turned the corner, and nearly rammed my head into Uncle Silas’s stomach! He says:

    „Why, Tom! Where you been all this time, you rascal?“

    „I hain’t been nowheres,“ I says, „only just hunting for [Jim] – me and Sid.“

    „Why, where ever did you go?“ he says. „Your aunt’s been mighty uneasy.“

    „She needn’t“ I says, „because we was all right. We followed the men and the dogs [...]. Sid’s at the post-office to see what he can hear, and I’m a-branching out to get something to eat for us, and then we’re going home.“

    So then we went to the post-office to get „Sid“; but just as I suspicioned, he warn’t there [...].Footnote 38

Die Frage der Referenz der Namen „Tom“ und „Sid“ im Erzählertext vs. in der wörtlichen Rede ist, technisch gesehen, komplex und hängt in hohem Maß von den Inferenzen ab, die auf Basis der inhaltlichen Textbedeutung vollzogen werden müssen. Gleichwohl dürften Leser, die sprachlich in der Lage sind, der Texthandlung zu folgen, das ironische Spiel mit der Referenz ohne Mühe nachvollziehen können – wie auch den Grund für die Verwendung von Anführungszeichen im letzten Satz, nämlich um im Erzählertext an das Referenzsystem des Dialogs anzuschließen. Nichts spricht gegen die Erwartung einer intersubjektiv stabilen Annotation der Zusammenhänge auf unterschiedlichen Erzählebenen bzw. Wahrnehmungswelten, und eine entsprechende Annotation scheint mir für keine denkbare literarische Interpretation vorentscheidend.Footnote 39

Für die Möglichkeit intersubjektiv stabiler Annotationen von komplexeren Texteigenschaften sprechen auch die positiven Erfahrungen, die das Hamburg-Heidelberger literaturwissenschaftliche Annotationsprojekt heureCLÉAFootnote 40 im Umgang mit der Frage der Polyvalenz gesammelt hat: In einem zyklischen Prozess zur Verfeinerung von Annotationsrichtlinien gelang es hier, zu Annotationsentscheidungen, für die der Eindruck nicht zu vermeidender individueller Divergenzen naheliegt, einen intersubjektiven Konsens herbeizuführen, nötigenfalls durch Verwendung von Hilfskategorien.Footnote 41

2.2 Computermodelle in der hermeneutischen Praxis? Die ‚offensive‘ Replik

Obgleich die Vermeidung von unmittelbar interpretationsabhängigen Analysekategorien eine gut handhabbare Arbeitspraxis garantiert, kann man die Frage stellen, ob die Anwendungsbedingungen für Computermodelle in den Literaturwissenschaften wirklich erzwingen, dass die Modelle jeglichen Aspekt der Interpretation – auch innerhalb eines hermeneutisch orientierten Selbstverständnisses – ausblenden. Eine offensivere Replik auf die naheliegenden Einwände erscheint möglich.

Defensiv erscheint zunächst auch Willard McCartys Grundhaltung, wenn dieser die Modelle der Digital Humanities (bzw. des Humanities Computing) als für sich jeweils unzulängliche Vehikel auf dem Weg zu einer tieferen Erkenntnis darstellt.Footnote 42 Der Anspruch, mit Modellvarianten eine Empirie vorherzusagen, die unabhängig vom wissenschaftlichen Betrachter besteht, wird negiert. Welche andere Rolle kommt einem Modell aber im Erkenntnisprozess zu? Wir können davon ausgehen, dass sich der interpretierende (digitale) Literaturwissenschaftler oder die Literaturwissenschaftlerin bei der Konzeption des Modells davon überzeugt hat, dass dieses ein gewisses komplexes Zusammenspiel von Texteigenschaften so gut erfasst, dass es Positivbeispiele für einen Interpretationsansatz von Negativbeispielen besser abgrenzt als andere denkbare Modelle (Baselines) – jeweils für einen gegebenen Ausschnitt an Texten und relativ zum für relevant erachteten Kontext. (So mag bspw. für die rezeptionsästhetische Untersuchung eines bestimmten literarischen Kerntexts ein Untersuchungskorpus von Texten zugrunde gelegt werden, die in der nachfolgenden Epoche entstanden sind. Die Korpusanalyse soll klären, ob und in welchen Texten sich die Rezeption des Kerntexts in Form von Textmerkmalen niedergeschlagen hat. Anhand von Texten, zu denen eine Auseinandersetzung der Autorin mit dem Kerntext durch bekannte Fakten nachgewiesen ist, könnte nun ein Modell so eingestellt werden, dass es tendenziell in der Lage ist, zwischen direkten Einflüssen und zufälligen sprachlichen Ähnlichkeiten zu unterscheiden.) Wird nun ein solches Modell auf einige neue Texte angewendet, welchen Status haben dann die Modellvorhersagen? Wenn sie ausschließlich als Heuristik für die Auswahl derjenigen Texte dienten, die anschließend einer konventionellen Feinstudie, also dem Close Reading, unterzogen würden, so hätten empirische Implikationen des Modells in der Tat keinen Einfluss auf den Kern des Erkenntnisprozesses. Wenn McCarty jedoch von einer sukzessiven Verbesserung der (global zwar unzulänglichen) Vehikel ausgeht, heißt dies doch, dass die Modelle bei einer kontrastiven Betrachtung sehr wohl der Bewertung unterschiedlicher Interpretationswege dienen können.Footnote 43 In die Beurteilung, ob ein weiterer analytischer Schritt ein Fortschritt auf dem Weg zu einer tieferen Erkenntnis ist oder nicht, fließt in diesem Fall die Vorhersage des Modells ein.

Der Anspruch an die ValiditätFootnote 44 eines solchen Modells muss also sein, dass es in den gewählten Parametrisierungen hinsichtlich der aktuell betrachteten Fragestellung mit den interpretatorischen Vorannahmen kompatibel ist und dass die Texte, auf die das Modell angewendet wird, sich in relevanten Eigenschaften in die angenommene Grundgesamtheit einfügen.

Die ‚offensive‘ Replik auf den methodischen Einwand zum Verhältnis zwischen literaturwissenschaftlicher Interpretation und den Ansprüchen einer operationalisierten Annotationspraxis mit entsprechenden Repräsentativitätsannahmen des Gold-Standard-Korpus besteht genau in einer Verschiebung des Datenspektrums, auf das die etablierte korpusorientierte Praxis angewendet wird: Der Validitätsanspruch relativ zu einer intersubjektiv stabilen Zielkategorisierung als Referenz (aus dem sich empirische Implikationen ableiten lassen) wird ersetzt durch den Anspruch, eine möglicherweise subjektiv charakterisierte Zielkategorisierung systematisch zu erfassen und relativ hierzu ein reproduzierbares Vorhersageverhalten auf neuen Daten zu erhalten (für welche eine Zugehörigkeit zur angenommenen Grundgesamtheit unterstellt wird).

Auf diese Weise wird es m. E. möglich, Computermodelle in die Abwägung von textanalytischen Alternativen einzubeziehen, die mit Fragen der literaturwissenschaftlichen Interpretation in Zusammenhang stehen. Zunächst soll das Vorgehen jedoch anhand eines Beispiels konkretisiert werden.

2.3 Beispiel: Korpusbasierte Modellierung interpretationsgebundener Analysekategorien

Grundsätzlich wäre denkbar, mit Computermodellen zu arbeiten, die Zielkategorien einer literarischen Interpretation direkt modellieren. Dies würde einen recht engen interpretationstheoretischen Rahmen voraussetzen (möglicherweise literatursoziologisch, rezeptionshistorisch etc.), innerhalb dessen Hypothesen zu sinnvollen Interpretationen einiger Zieltexte aufgestellt und mittels eines statistischen Modells überprüft werden, das auf einem mit entsprechenden Interpretationskategorien annotierten Korpus trainiert wurde. Hier erscheint jedoch eine sehr voraussetzungsreiche und zeitaufwendige Annotation unvermeidlich.

Mir erscheint daher zumindest kurzfristig ein Ansatz attraktiver, der weder direkt auf Zielkategorien der literarischen Interpretation zielt noch sich mit intersubjektiv stabilen deskriptiven Analysekategorien begnügt. Stattdessen bezieht er in der Mitte des Spektrums solche Kategorien der Textanalyse (etwa der narratologischen Textanalyse) ein, die mit interpretatorischen Entscheidungen verwoben sind. Die Etablierung eines studienunabhängigen intersubjektiven Gold-Standards ist damit ausgeschlossen, dennoch kann über die unterschiedlichen Textinstanzen bzw. ein ganzes Korpus hinweg ein systematisch ‚reliables‘ Analyseverhalten angestrebt werden, wie es mit einem Computermodell erzielbar ist.

Als Beispielaufgabe soll hier die Frage der subjektiven Perspektivierung von Figuren in Erzählungen dienen, durchgeführt für eine Reihe von Erzähltexten Arthur Schnitzlers in der dritten Person. Darunter sind Texte, in denen die gesamte Erzählung an die Wahrnehmung einer Figur gebunden ist: Frau Berta Garlan (1900) und Casanovas Heimfahrt (1918) (jeweils konsistent aus der Wahrnehmungswelt der Titelfigur erzählt, wobei die explizite Attribution von Wahrnehmungs-, Gedanken- oder Trauminhalten durch die Erzählerinstanz mit Passagen der erlebten Rede changieren). In der Novellette Die Toten schweigen (1897) kontrastiert der zweite Teil mit seiner Innensicht der verheirateten Emma formal deutlich mit dem ersten Teil, der eingangs überwiegend den Blickwinkel von Emmas Liebhaber Franz einnimmt. In dem anschließenden langen Dialog sieht Aurnhammer die Inszenierung einer gemeinsamen Perspektive.Footnote 45 Die Erzählung im Roman Der Weg ins Freie (1907) folgt überwiegend der Wahrnehmung des Opernkomponisten Baron Georg von Wergenthin, enthält jedoch auch einige Passagen, die aus der subjektiven Perspektive anderer Figuren geschildert sind.

Charakteristisch für Schnitzlers Erzählstil sind lange Passagen der Innensicht einer Figur, häufig mit umfangreichen Rückblenden, innerhalb derer etwa auch der Hintergrund einer zweiten Figur aus dem subjektiven Blickwinkel der ersten charakterisiert werden kann. Ein Beispiel ist folgende Passage aus dem Weg ins Freie, in der die Erzählung Georg von Wergenthins Gedanken folgt und wir – gewissermaßen aus zweiter Hand – eine Schilderung zur Vergangenheit des jüdischen Schriftstellers Heinrich Bermann erhalten, mit dem Georg von Wergenthin befreundet ist. Das subjektive Element der Perspektive Georgs wird erst wieder gegen Ende der Passage deutlich, nachdem zwischenzeitlich die Tatsache leicht in Vergessenheit geraten konnte, dass wir es mit einer „gefärbten“ Schilderung zu tun haben:

  1. 6.

    Georg bummelte langsam gegen die Stadt zu. Er überlegte, ob er ins Kaffeehaus gehen sollte. Er hatte keine rechte Lust dazu. […] auf Leo Golowskis Kommen war nur selten zu rechnen; und die andern jungen Leute […] lockten ihn nicht eben an, […]. Im ganzen fand er den Ton der jungen Leute untereinander bald zu intim, bald zu fremd […]. [W]ährend er selbst nach wie vor sich ziemlich zurückhaltend verhalten und insbesondere über seine Beziehungen zu Frauen jede Andeutung vermieden, hatte ihm Heinrich nicht nur von der fernen Geliebten erzählt, […] sondern auch von der Kinder- und Knabenzeit in der kleinen böhmischen Provinzstadt, wo er vor dreißig Jahren zur Welt gekommen war. Sonderbar und zuweilen fast peinlich erschien Georg der wie aus Zärtlichkeit und Widerwillen, aus Gefühlen von Anhänglichkeit und von Losgerissensein gemischte Ton, in dem Heinrich von den Seinen, insbesondere von dem kranken Vater sprach, der in jener kleinen Stadt Advokat, und eine Zeitlang Reichsratsabgeordneter gewesen war. Ja, er schien sogar ein wenig stolz darauf zu sein, daß er als Zwanzigjähriger schon dem allzu Vertrauensseligen sein Schicksal vorausgesagt hatte, genau so wie es sich später erfüllen sollte: nach einer kurzen Epoche der Beliebtheit und des Erfolgs hatte das Anwachsen der antisemitischen Bewegung ihn aus der deutsch-liberalen Partei gedrängt, die meisten Freunde hatten ihn verlassen und verraten […]. Heinrich, dem die Phrasen des Vaters von Deutschtum, Freiheit, Fortschritt in all ihrer Ehrlichkeit immer gegen den Strich gegangen waren, hatte dem Niedergang des alternden Mannes anfangs wie mit Schadenfreude zugesehen; allmählich erst […] stellte bei dem Sohne sich ein verspätetes Mitleid ein. […] Seine ersten künstlerischen Erfolge fanden in dem verdüsterten Hause der Heimat kein Echo mehr. Dem Vater nahte unter schweren Zeichen der Wahnsinn, und der Mutter […] versank nun […] die ganze Welt. […] Auch von andern Verwandten erzählte Heinrich, deren er aus früherer Zeit sich erinnerte, und ein teils lächerlicher, teils rührender Zug fromm beschränkter alter Juden und Jüdinnen schwebte an Georg vorüber, wie Gestalten einer andern Welt.Footnote 46

Formal sind Schilderungen wie die zu Heinrichs Hintergrund bisweilen ununterscheidbar von denkbaren Einschüben der Erzählerinstanz, welche die interne Fokalisierung des Protagonisten (hier Georg) unterbrechen könnten – eventuell mag sogar der Eindruck eines Sprungs in der internen Fokalisierung entstehen, hier etwa auf Heinrich.Die Fortführung gegen Ende der zitierten Passage zeigt jedoch (wie in vielen solchen Fällen bei Schnitzler) im Nachhinein, dass wir in der Tat Georgs Wahrnehmung der Schilderungen Heinrichs ihm gegenüber – oder genauer Georgs Erinnerung an diese Schilderungen, die ihm durch den Kopf gehen, während er durch die Stadt bummelt – mit ihm teilen.

Es finden sich immer wieder Passagen (wie folgende Szene in Kap. 3 im Zusammenhang mit einer Radtour), in denen Gedanken und Ansichten einer Figur geschildert werden – hier sind es Gedanken Heinrichs –, für die sich jedoch bei genauerer Betrachtung erweist (oder richtiger: für die aus weitergehenden Betrachtungen die Interpretation nahe liegt), dass dies nicht aus einer wirklichen Innensicht heraus geschieht:

  1. 7.

    Heinrich nickte. […]

    Er versank für eine Weile in Nachdenken, schob sein Rad in leichten, ungeduldigen Stößen vorwärts und war gleich wieder um ein paar Schritte voraus. Dann begann er wieder von seiner Septemberreise zu sprechen. Beinahe mit Ergriffenheit dachte er an sie zurück. Alleinsein, Fremde, Bewegung, war es nicht ein dreifaches Glück, das er genossen? „Was für ein Gefühl von innerer Freiheit mich damals durchfloß“, sagte er, „kann ich Ihnen kaum beschreiben.“ [...].

    Georg empfand stets eine gewisse Verlegenheit, wenn Heinrich pathetisch wurde. „Jetzt könnte man vielleicht wieder fahren“, sagte er, und sie schwangen sich auf die Räder.Footnote 47

Vielmehr werden uns die Gedanken Heinrichs aus der Sicht einer anderen Figur vermittelt (hier wieder Georg) – Heinrich hat sie also Georg gegenüber geäußert (selbst wenn der Akt der Äußerung nicht explizit ist – wie hier für den Satz „Beinahe mit Ergriffenheit dachte er an sie zurück.“ und den nachfolgenden Gedanken, bei dem es sich gewissermaßen um erlebte Rede aus zweiter Hand handelt).

Sprachlich finden sich Indikatoren für diese vermittelte Sicht: Zum Inhalt des Nachdenkens Heinrichs (zu Beginn von Passage [7]) erfahren wir zunächst nichts, stattdessen werden Heinrichs Handlungen aus der Außensicht beschrieben (Schieben des Rads), mit deiktischen Bestimmungen relativ zu Georgs Perspektive („ein paar Schritte voraus“). Erst nachdem explizit erwähnt wird, dass Heinrich zu sprechen beginnt, erfahren wir etwas über den Inhalt seiner Gedanken. Nach einer längeren Passage wörtlicher Rede unterstützt die Schilderung von Georgs Verlegenheit wiederum im Nachhinein, dass wir Heinrichs Gedanken von Georgs Warte aus gehört haben.

Die sprachlichen Charakteristika für die mittelbare Fokalisierung Heinrichs (in [7], via Georg) stehen in klarem Kontrast zu Passagen einer internen Fokalisierung, für die folgendes Beispiel typisch ist: Die engmaschige Erwähnung von klar perspektivierten Sinneswahrnehmungen fällt auf.

  1. 8.

    Vom Turm der Michaelerkirche schlug es neun, als Georg vor dem Kaffeehaus stand. An einem Fenster, das der Vorhang nicht verhüllte, sah er den Kritiker Rapp sitzen, einen Stoß von Zeitungen vor sich auf dem Tisch. Eben hatte er den Zwicker von der Nase genommen, putzte ihn, und so sah das blasse, sonst so hämisch-kluge Gesicht, mit den stumpfen Augen wie tot aus. Ihm gegenüber, mit ins Leere gehenden Gesten, saß der Dichter Gleißner, im Glanze seiner falschen Eleganz, mir einer ungeheuern, schwarzen Krawatte, darin ein roter Stein funkelte. Als Georg, ohne ihre Stimmen zu hören, nur die Lippen der beiden sich bewegen und ihre Blicke hin- und hergehen sah, faßte er es kaum, wie sie es ertragen konnten in dieser Wolke von Haß sich eine Viertelstunde lang gegenüber zu sitzen.Footnote 48

Schnitzlers Erzählstil eignet sich sehr gut, um die Idee einer teilweise interpretationsgebundenen Modellspezifikation zu illustrieren. Die zuletzt geschilderten Beobachtungen sind in der Zusammenschau plausibel; formal finden sich jedoch keine zwingenden Indikatoren. Im Gegenteil, im Werk einer anderen Autorin oder eines anderen Autors wäre es möglicherweise naheliegend, die Folge „Dann begann er wieder von seiner Septemberreise zu sprechen. Beinahe mit Ergriffenheit dachte er an sie zurück.“ (aus Kap. 7) als interne Fokalisierung zu interpretieren.

Eine detaillierte narratologische Annotation längerer Textpassagen, die den Zusammenhängen gerecht wird, wäre sehr aufwendig. Wahrnehmungsebenen und Erzählebenen müssten mit Fragen der Fokalisierung in Beziehung gesetzt werden. Intersubjektive Übereinstimmung in allen wesentlichen Fällen zu erreichen, scheint zudem unwahrscheinlich, da Einzelinstanzen Interpretationsspielraum lassen (selbst wenn eine einheitliche Gesamttendenz festgelegt werden könnte). Für bestimmte weitergehende Fragen, die Schnitzlers Erzählstil betreffen (etwa zu dessen Entwicklung, zu eventuellen intertextuellen EinflüssenFootnote 49 o.ä.) oder für die interpretationsunterstützende Analyse einzelner Texte könnte jedoch ein ‚flacherer‘ Analyseansatz bereits gewinnbringend sein, der sich auf Grundlage des Leseeindrucks recht zügig annotieren lässt.

2.3.1 Kategorisierungsentscheidung und Merkmale für überwachtes Training

Mit dieser Motivation kann mit Blick auf die genannten Schnitzler-Texte eine Ad-hoc-Charakterisierung einer interpretationsrelevanten Teilfrage vorgenommen werden: Die Analyseaufgabe wird zugespitzt auf einen studienspezifischen Aspekt der subjektiven Perspektivierung von Figuren in einer heterodiegetischen Erzählung. Diese lässt sich – in enger Anlehnung an das Konzept des subjektiven Point of View, dessen Fortentwicklung im Verlauf von Erzähltexten WiebeFootnote 50 mit einem detaillierten algorithmischen Ansatz modelliert – fassen als eine einfache binäre Klassifikationsaufgabe. Jeder textuellen Erwähnung einer Figur (in Kap. 6 etwa „Georg – er – er – […] Heinrich – er – dem kranken Vater – er – dem allzu Vertrauensseligen“) ist dabei einer von zwei möglichen Zuständen zuzuordnen: (a) die erwähnte Figur wird (an genau dieser Textstelle) als Träger bzw. Trägerin der subjektiven Perspektive verstanden oder (b) dies ist nicht der Fall – d. h. die Erwähnung wird dann entweder verstanden als eingebettet in die subjektive Wahrnehmungswelt oder Binnenerzählung einer anderen Figur, oder als Gegenstand einer externen Fokalisierung oder Nullfokalisierung durch die Erzählerinstanz. Im Folgenden werde ich die Kontexte, die einen Leser zur Annahme von Zustand (a) bewegen,Footnote 51 kurz mit dem Begriff ‚interne Fokalisierung‘ bezeichnen – auch wenn im Einzelfall nicht notwendigerweise eine Standarddefinition dieser narratologischen Beschreibungskategorie zutrifft, die auf GenettesFootnote 52 Begriff der Fokalisierung zurückgeht.

Diese sehr zielgerichtete Unterscheidung wird kombiniert mit einer umfassenden computerlinguistischen Analyse der Texte, die für quantitative Studien oder für überwachtes maschinelles Lernverfahren reiche Merkmalsrepräsentationen beisteuern. Für die Analyse wurden die englischen Übersetzungen der Texte verwendet.Footnote 53 In einem ersten Schritt wird wörtliche Rede aus den Texten herausgefiltert (da diese orthogonal zu eventuellen Fokalisierungen im Erzähltext liegt). Der verbleibende Erzählertext wird mit den computerlinguistischen Standardwerkzeugen aus der Stanford CoreNLP SuiteFootnote 54 analysiert, u. a. auf Ebene von Wortarten und Satzsyntax; Eigennamen werden erkannt, und zuletzt wird eine Koreferenzanalyse vorgenommen, die alle Erwähnungen von referenziellen Ausdrücken (Eigennamen und Pronomina, aber auch definite Nominalphrasen wie „the boy“) zueinander in Beziehung gesetzt, um die Ketten von Ausdrücken zu bestimmen, die auf dieselbe Entität referieren. Die englischen Übersetzungen der Schnitzler-Texte lassen sich recht robust analysieren. Für die Hauptfiguren führt die Koreferenzanalyse zu einem erstaunlich guten Ergebnis.

Wichtige sprachliche Indizien für interne Fokalisierung liegen in den semantischen Klassen der Verben,Footnote 55 als deren Subjekt (oder Objekt) die Figuren fungieren; hinzu kommt die Frage nach Tempus und Aspekt (Rückblenden, also Plusquamperfekt-Passagen, sind ein starker Indikator), ob eine modale Einbettung (etwa unter dem Auxiliar „could“ oder unter „seemed to“) vorliegt und welche adverbialen Bestimmungen Verwendung finden (Negation, Satzadverbien wie „apparently“ etc.).

Um dem hohen Maß an Kontextabhängigkeit der Fokalisierungsinterpretation gerecht zu werden, das oben diskutiert wurde, wird neben dem eigentlichen referenziellen Ausdruck, der zu klassifizieren ist (eine bestimmte Instanz von ‚Georg‘ oder ‚er‘ etc.), ein Fenster von referenziellen Ausdrücken in seinem Vor- und Nachkontext in Betracht gezogen, einschließlich der Information, ob es sich laut automatischer Analyse um einen koreferenten Ausdruck handelt oder nicht. So kann die Tendenz erfasst werden, dass nach einer Verwendung einer Figurenreferenz als Subjekt eines Wahrnehmungsverbs weitere Erwähnungen eher auf interne Fokalisierungen hindeuten.

Zuletzt werden, den Beobachtungen von Brooke u. a. folgend,Footnote 56 lexikalische Stilprofile im Kontext der Figurenausdrücke erhoben. Brooke u. a. konnten in Erzählungen Virginia Woolfs und James Joyces eine fein differenzierte stilistische Unterscheidung der freien indirekten Rede unterschiedlicher Figuren nachweisen. Die sechsdimensionalen Profilvektoren, die sie auf dem gutenberg-Korpus induziert haben, stehen innerhalb der GutenTag-WerkzeugsuiteFootnote 57 zur Verfügung.

All diese Merkmale sind nur Indizien, maschinelle Lernverfahren können jedoch Generalisierungen zu typischen Konstellationen (die teils sicherlich autorenspezifisch sind) aus den Daten induzieren. Indem neben den oberflächlichen Merkmalen auch relevante grammatische Kategorien bereitgestellt werden, reicht im günstigen Fall bereits eine verhältnismäßig kleine Menge von Beispielen dafür aus, die stärksten Muster aufzugreifen (die komplexen und subtilen Interaktionen zwischen Sprach- und Textebenen würden sonst eine sehr große Menge von relativ homogenen Trainingsdaten erforderlich machen).

2.3.2 Annotation und Analysemöglichkeiten

Da die eigentliche Analyseaufgabe auf eine partiell interpretationsabhängige binäre Entscheidung reduziert wurde (hinter der selbstverständlich komplexe Zusammenhänge stehen, die in jedem Einzelfall durch eine komplexere narratologische Analyse tiefer zu durchdringen wären), ist eine sehr zügige Annotation von Beispieldaten möglich. In wenigen Stunden konnten so über 1000 Einzelinstanzen von Personenreferenzen innerhalb der Figurenrede annotiert werden (als (a) intern oder (b) nicht intern fokalisiert).

Im Rahmen dieser experimentellen Studie wurde bewusst ein subjektiver Annotationsansatz gewählt: Ich habe die Textpassagen unter der Hypothese gelesen, dass Schnitzler eine interne Fokalisierung forciert und wir auch in langen Analepsen jeweils die übergeordnete Innensicht der Figur erleben, die die Passage eröffnet. Wo immer sprachliche Mittel erzwingen, dass die Innensicht zu einer anderen Figur wandert, wurde dies konsequent annotiert – Instanzen jedoch, die sprachlich einen Interpretationsspielraum boten, wurden entsprechend der Hypothese markiert.Footnote 58

Das Vorgehen ist also zwar subjektiv, aber systematisch. Es bedient sich des in Abschn. 1.1 angeführten Gedankens einer bewussten idealisierenden Annahme: Obgleich ohne Zweifel weitere narratologisch relevante Faktoren im Spiel sind, wird der Blick auf eine für zentral gehaltene Dichotomie gelenkt (das Experiment ignoriert gewissermaßen das Pendant der Reibung in einem Experiment in der Mechanik, da laut Annahmen andere Effekte dominieren).

Die idealisierende Abstraktion lässt sich nicht rein empirisch verteidigen. Sie wird stets aus Überlegungen motiviert sein, die mit einer Interpretationshypothese zusammenhängen – idealerweise speist sie sich aus einer bereits verschiedentlich abgesicherten Theorie und einem etablierten Konsens über sinnvolle Abstraktionen. Indem jedoch hypothesengesteuerte Annotationen an realen Textdaten vorgenommen werden, wird es möglich, Implikationen dieser Hypothesen empirisch auf Korpusdaten hin zu überprüfen.Footnote 59

2.4 Perspektiven zum Einsatz von interpretatorisch gefärbten Vorhersagemodellen

Mit der Annotation erschließen sich eine Reihe von Szenarien für den Einsatz von Computermodellen: Auf den handannotierten Beispielen kann zunächst mit überwachten Lernverfahren ein Klassifikator trainiert werden. Durch Anwendung auf nicht annotierte Textpassagen können – evtl. auf nach Figuren vorgefilterten Daten – rasch Bereiche ausfindig gemacht werden, für die bestimmte Fokalisierungsmuster vorhergesagt werden.

Beispielsweise kann ein Vorhersagemodell, das auf Passagen aus dem Der Weg ins Freie (für die Figuren Georg und Heinrich) sowie aus Frau Berta Garlan trainiert wurde, auf Passagen im Der Weg ins Freie angewandt werden, in denen Georgs Geliebte Anna Rosner präsent ist. Bei der Lektüre wird schnell deutlich, dass im gesamten Roman der Erzähler Annas Innensicht so gut wie nie einnimmt.Footnote 60

Zu den Passagen, für die das Modell eine Häufung von vermuteter interner Fokalisierung ausgibt, gehört (9a); die Passage (9b) ist ein Beispiel für eine geringe Wahrscheinlichkeit für interne Fokalisierung.

  1. 9.
    1. a)

      She had for the first time in her life the infallible feeling that there was a man in the world who could do anything he liked with her.Footnote 61

    2. b)

      Anna had given herself to him without indicating by a word, a look or gesture that so far as she was concerned, what was practically a new chapter in her life was now beginning.Footnote 62

Neben solchen sehr ermutigenden Instanzen kommt es selbstverständlich auch zu wenig nachvollziehbaren Vorhersagen – die Klassifikationsaufgabe ist sehr subtil, sodass bei der eher kleinen Zahl von Trainingsdaten noch kein sehr robustes Ergebnis erzielt wird. Als ein Filter könnte die Vorhersage jedoch einen Explorationsprozess unterstützen.

Von größerem Belang für das hier vorgeschlagene Vorgehen sind allerdings systematische Untersuchungen, welche die Vorhersagen der Modelle gar nicht für eine automatische Analyse von Texten einsetzen. Stattdessen kann versucht werden, aus dem Generalisierungsverhalten der Modelle empirisch fundierte Rückschlüsse zu ziehen auf die Tragfähigkeit der eigenen Hypothesen zur Konzeptualisierung einer Analyseidee (hier zur internen Fokalisierung bei Schnitzler).

Tab. 1 zeigt beispielsweise den Vergleich von Trainingsexperimenten mit unterschiedlichen Kombinationen von Trainings- und Testdaten (A bis C), wobei zudem zwei unterschiedliche maschinelle Lernverfahren zur Anwendung kommen ([i] Logistic Regression und [ii] Gaussian Naive Bayes).Footnote 63 Für jedes Experiment werden Evaluationsergebnisse auf manuell annotierten Testdaten gelistet, nach den beiden Zielklassen (‚intern fokalisiert‘ vs. ‚nicht intern fokalisiert‘) aufgeteilt, mit Precision (Treffgenauigkeit der Vorhersage), Recall (Fähigkeit, alle Instanzen zu finden), einem Mittelwert daraus (F-Score) sowie der Genauigkeit der Gesamtvorhersage (Accuracy). Eine Precision von 0,77 des Modells für interne Fokalisierung in Szenario (A)/(i) sagt uns beispielsweise, dass es bei 77 % der Figurenerwähnungen, für die das Modell als positive Instanzen vorhergesagt hat, eine Übereinstimmung mit der manuellen Vergleichsannotation gab; der Recall von 0,71 besagt, dass 71 % der manuell als intern fokalisierten Instanzen auch vom Modell als solche erkannt wurden. Der Accuracy-Wert 0,78 sagt aus, dass von allen Vorhersagen (also den positiven und den negativen Fällen) 78 % in der gleichen Kategorie landen wie die manuelle Annotation.

Tab. 1 Experimente zum überwachten Training von verschiedenen Klassifikatoren auf unterschiedlichen Konstellationen von Trainings- und Testdaten

Das Szenario A suggeriert, dass die Modellierung der Aufgabe einen relativ effektiven Grad der Abstraktion erreicht: Das Modell, das auf Beispielen in Schnitzlers Der Weg ins Freie trainiert wurde, erzielt auch auf bei der Anwendung auf Textsintanzen aus Frau Berta Garlan relativ ordentliche Vorhersageergebnisse: Accuracy 0,78 (allerdings gelingt dies mit dem Gaussian-Naive-Bayes-Ansatz (ii) wesentlich schlechter – 0,67 – als mit Logistic Regression (i)). Die Ergebnisse in Szenario B (in dem die Menge der nutzbaren Trainingsdaten geringer ist als in A, da die Testdaten ausgeklammert bleiben) ist beim Verfahren i) etwas schwächer als bei A; beim Verfahren ii) verhält es sich umgekehrt.

In Szenario C werden ‚gemischte‘ Trainingsdaten aus den beiden Texten verwendet, und mit Verfahren (i) kann so eine Verbesserung der Vorhersagegenauigkeit gegenüber B erreicht werden (Accuracy 0,79 gegenüber 0,75). Dies deutet auf eine verhältnismäßige Homogenität der Datenlage hin. Allerdings zeigt die Abhängigkeit von der Wahl des Verfahrens (für Verfahren (ii) ist die Mischung der Daten nachteilig), dass derartige Schlussfolgerungen einer zusätzlichen Absicherung bedürfen.

Um zu beurteilen, welche sprachlichen Merkmale bei der Induktion des Klassifikatorverhaltens eine Rolle spielen, können Vergleichsexperimente durchgeführt werden, in denen bestimmte Lernmerkmale ausblendet werden (ein sogenanntes Feature-Ablation-Experiment). Tab. 2 zeigt eine Wiederholung der hellgrünen Zellen aus Tab. 1, die mit einem Experiment kontrastiert werden (rötlich), in dem die verfügbaren Merkmale reduziert waren: Die oben erwähnten Merkmale, die auf lexikalischen und strukturellen Analysen basieren, tragen also – zumindest für dieses Szenario – zur Generalisierungskapazität bei.Footnote 64

Tab. 2 Experimente zur Rolle der Merkmale beim Lernen (Feature-Ablation)

Zuletzt sei eine naheliegende Erweiterung des Analyseskopus erwähnt, die hier ebenfalls nur in Form einer knappen Pilotstudie angedeutet werden kann, die aber von großem Wert für hypothesengeleitete Untersuchungen zu interpretationsrelevanten Eigenschaften sein dürfte: Die bisher gezeigten Analysen basierten auf manuell annotierten Textinstanzen. Trotz der Möglichkeit eines verhältnismäßig zügigen Fortschreitens bei der Annotation bleibt damit die erreichbare Datenmenge beschränkt (oder es muss ein großer Annotationsaufwand betrieben werden).

Wenn wir jedoch von Texten ausgehen, die narratologisch einem sehr homogenen Muster folgen – wie im Untersuchungskorpus Frau Berta Garlan und Casanovas Heimfahrt –, so könnten wir hier die idealisierende Annahme ansetzen, dass schlichtweg alle Vorkommen der jeweiligen Titelfigur in die Kategorie ‚intern fokalisiert‘ fallen – und entsprechend jede andere Figur in die Kategorie ‚nicht intern fokalisiert‘. Auf Basis der automatischen Koreferenzresolution lässt sich so mit sehr geringem Aufwand eine große Menge von quasi-annotierten Trainingsdaten erzeugen. Dies kann einerseits aus Sicht der Vorhersageoptimierung von Interesse sein – es lassen sich möglicherweise robustere Vorhersagemodelle trainieren, da viele relevante Muster erst mit größeren Datenmengen ins Blickfeld wandern. Im Kontext dieses Beitrags ergibt sich jedoch wiederum eine literaturanalytische Perspektive, auf die ich gleich zu sprechen komme.

Zunächst sei das Verfahren anhand des Beispielkorpus illustriert. Tab. 3 wiederholt erneut die Ergebnisse für Szenario C aus Tab. 1. Daneben wird nun ein neues Szenario (D) gestellt, bei dem die Zahl der Trainingsinstanzen von 1.034 auf 3.476 erhöht wird, indem für jeweils ein Kapitel aus Frau Berta Garlan und Casanovas Heimfahrt eine automatische Annotation nach dem geschilderten Schema hinzugefügt wurde.

Tab. 3 Experimente zur Verwendung von ‚quasi-annotierten‘ Trainingsdaten

Der Vergleich der Analysequalität zeigt in diesem Fall, dass die Accuracy konstant bleibt – sprich, die zusätzlichen Daten schaden nicht der mittleren Vorhersagegenauigkeit, erhöhen sie aber auch nicht. Die klassenspezifische Evaluation zeigt eine Verschiebung im Vorhersageverhalten: Die nicht fokalisierten Instanzen werden genauer erkannt (Precision), und mehr Zielinstanzen dieser Art werden entdeckt (Recall); dies jedoch auf Kosten des Recalls bei den intern fokalisierten Instanzen. Dieses Verhalten überrascht wenig, wenn man sich klar macht, dass die synthetischen Daten wesentlich mehr Instanzen vom Typ ‚nicht fokalisiert‘ enthalten. Ein feingliedrigeres Vorgehen ist für die Zukunft jedoch ohne Weiteres denkbar.

Nun abschließend zu den interpretationsrelevanten Anwendungsmöglichkeiten der (interpretatorisch motivierten) synthetischen Annotation: Abseits einer möglichen Verbesserung der Robustheit dürften die zuletzt diskutierten Möglichkeiten eines hypothesengesteuerten Textvergleichs an Attraktivität gewinnen, wenn für sie nicht jeder Text mit einer manuellen Referenzannotation versehen werden muss. Sofern das Modellverhalten anhand einiger sorgfältig annotierter Referenzdatensätze kalibriert wurde, erscheint es durchaus denkbar, dass dann eine kontrastive Textanalyse verschiedener Vergleichsgegenstände unter idealisierenden Annahmen zur Homogenität gemacht werden.Footnote 65

Das Vorgehen bei der Erstellung einer quasi-manuellen Annotation muss dabei nicht der Intuition des oder der Experimentierenden folgen, sondern kann auch Thesen aus der Forschungsliteratur aufnehmen und gewissermaßen auf den Prüfstand stellen. So lässt sich für Die Toten schweigen mit geringem Aufwand eine synthetische Referenzannotation erstellen, die der oben angeführten Analyse AurnhammersFootnote 66 folgt und den zweiten Teil komplett aus der Perspektive Emmas fokalisiert.

Nicht zuletzt ließen sich auch intertextuelle Bezüge grundsätzlich mit dem angedeuteten Verfahren in die Betrachtung einbeziehen. Aurnhammer verweist beispielsweise auf die Parallelen zwischen Die Toten schweigen und Gustave Flauberts Madame Bovary. Letzterer Text konnte mit wenig Aufwand in das Untersuchungskorpus aufgenommen werden (für komparatistische Untersuchungen von Texten der Weltliteratur kann sich der Weg über die englische Übersetzung in gutenberg.org gelegentlich als hilfreich erweisen). Allerdings scheint mir bei der Ausweitung des Korpus auch Vorsicht geboten: Die überraschend ‚glatten‘ Übergänge bei der Arbeit mit den Schnitzler-Texten sind sicherlich dem hohen Grad an stilistischer Homogenität zu verdanken, die allzu eklatante Verletzungen der Repräsentativitätsannahmen in den statistischen Modellierungsverfahren verhindern. Es wird eine Daueraufgabe bleiben, die Bedingungen jeder Verallgemeinerung von Modellen und Methoden auf weitere Gegenstände kritisch zu reflektieren und forschungsstrategische Idealisierungen regelmäßig zu überprüfen.

3 Schluss

Dieser Artikel ging aus von Überlegungen zu den zumeist impliziten Annahmen über die Anwendungsbedingungen von prädiktiven Computermodellen für Aspekte der Textanalyse: Ein Modell oder Werkzeug, das bei der Überprüfung manuell annotierter Testdaten eine ordentliche Vorhersagequalität erreicht, kann im tatsächlichen Anwendungskontext dann als belastbar betrachtet werden, wenn i) Test- und Anwendungstexte als Stichprobe aus derselben Grundgesamtheit betrachtet werden können und ii) die Zielannotation so operationalisiert ist, dass auf dieser Grundgesamtheit intersubjektiv stabile Ergebnisse erzielt werden. Ein methodologisch reflektiertes Vorgehen muss entsprechend kritisch mit der studienspezifischen Datenlage umgehen, und gerade bei literaturwissenschaftlich anspruchsvollen Untersuchungen kann nicht davon ausgegangen werden, dass verfügbare Werkzeuge bzw. verwandte Korpusressourcen ohne größeren Aufwand für die eigenen Analyseziele genutzt werden können. Ein unreflektierter Werkzeugeinsatz kann leicht zu unzulässigen Schlussfolgerungen führen.

In der Community der Digitalen Literaturwissenschaft besteht allerdings ein Problembewusstsein, und es wird weitgehend eine Strategie verfolgt, die ich als ‚defensive‘ Reaktion auf die Methodenproblematik bezeichnet habe: Korpusannotationen und Analysemodelle werden vordringlich für solche Analysefragen vorangetrieben, für die verlässliche Ergebnisse erzielt werden können, für die jedoch die empirische Basis erst breiter erschlossen werden muss. Fragen, die von unmittelbarer Relevanz für literarische Interpretation sind, werden damit bewusst tendenziell zurückgestellt, da einem methodisch sauberen Vorgehen – zurecht – der Vorrang eingeräumt wird.

In den letzten Abschnitten dieses Beitrags habe ich in Ergänzung zum defensiven Vorgehen ‚offensivere‘ Einsatzformen von korpusbasierten Computermodellen diskutiert – ohne damit suggerieren zu wollen, dass der Weg über die sorgfältige Ausarbeitung von umfassend annotierten Textkorpora ersetzt werden könnte oder sollte. Um innerhalb einer anspruchsvollen Textanalyse empirisch gestützte Argumente zu einem längeren Text oder einem gesamten (Teil-)Korpus anzuführen, deren Analysekategorien nicht interpretationsunabhängig operationalisierbar sind, können prädiktive Computermodelle eine wichtige Funktion erfüllen: Anhand einiger charakteristischer Texte bzw. Textausschnitte können Trainingsinstanzen für eine (partiell subjektive) Analysekategorie bestimmt werden. Ein Computermodell, das auf den entsprechenden Daten trainiert wird und (günstigenfallsFootnote 67) eventuelle Ebenen übergreifende Muster erfassen kann, lässt sich anschließend auf andere Texte und Textausschnitte anwenden. Die entstehenden modellbasierten Analyseergebnisse können beispielsweise mit einer interpretierenden Lektüre des Zieltextes durch professionelle Lesende verglichen werden und erlauben so vielfältige Rückschlüsse über die Natur eventueller Textunterschiede.

Die Anwendung eines trainierten Modells dürfte dabei in den wenigsten Fällen dem eigentlichen Selbstzweck einer automatischen Kategorisierungsvorhersage folgen – gewissermaßen als Ersatz für die eigene Lektüre. Die Vorhersagegenauigkeit wird angesichts der subtilen Unterscheidungen kaum ein Niveau erreichen, das hierfür befriedigend wäre. Modellierungsexperimente und der Abgleich mit manuellen Annotation könnten aber durchaus einen Platz in der Praxis der Entwicklung von literaturwissenschaftlichen Konzepten und Theorien finden: Mit dem Vergleich unterschiedlicher Modelle hinsichtlich ihrer Annotationsvorhersagen kann die Adäquatheit bzw. der heuristische Wert verschiedener theoretischer Konstrukte (und deren Operationalisierung im Rahmen der Textanalyse) überprüft werden. Und dies in einer Weise, die einen sehr problematischen Bias des bzw. der Betrachtenden umgeht, indem die systematischen Aspekte einer interpretationsabhängigen Analyseentscheidung im Computermodell gekapselt werden.