Ausgangspunkt dieser Arbeit war die Frage, wie die Darstellung von Raum in literarischen Texten in einem quantitativen Ansatz untersucht werden könnte. Bisher wurde ein Teilaspekt dieser Fragestellung beantwortet: Mit Hilfe eines theoriebasierten Raum-Classifiers zur automatischen (Vor-)Annotation literarischer Texte können Einstiegspunkte in die Interpretation literarischer Raumdarstellung gefunden werden und es können übergeordnete Perspektiven auf das gesamte Kernkorpus, die Teilkorpora oder Einzeltexte eröffnet werden. Nun soll eine weitere Möglichkeit, Raumdarstellung in literarischen Texten untersuch- und messbar zu machen, betrachtet werden. Im Folgenden ist dokumentiert, wie der Raum-Classifier, bzw. dessen automatisierte Annotationen, dazu dienen können, einen Raum-Index-Wert (RIW) pro Text zu ermitteln, um den Anteil der Raumdarstellungen der Romane miteinander vergleichen zu können. Auch hier wird eine diachrone Perspektive eröffnet. Wird das gesamte, im Raum-Classifier implementierte, Raummodell angewendet, so wird das Ergebnis zeigen, wie hoch der Anteil der Darstellung von Raum in Texten ist, wenn ein relativ weit gefasster Raumbegriff zu Grunde gelegt wird. Nun kann das in dieser Studie entwickelte theoriebasierte fuzzy-set-Modell aber durchaus variabel genutzt werden. Es können alle sechs Raumkategorien zu einem weiten Raumbegriff zusammengefasst werden, wie bei der Ermittlung des RIW pro Text der Fall. Es können aber auch Unterkategorien zusammengefügt werden. Die Beispielanalyse in Abschnitt 8.1.1 mündete in die These, dass der Raum, der in literarischen Texten dargestellt wird, hauptsächlich relational ist. Soll nun für den relationalen Raum ebenfalls ein Index erstellt werden, so können die beiden relational angelegten Kategorien „Relation“ und „relationale Verben“ zusammengefasst werden. Wie auch beim RIW werden beim Relationen-Index-Wert (RelIW) die Relationen zu 100 % mit einberechnet, die relationalen Verben aber nur zu 80 %, da diese häufig mehr als nur Rauminformationen vermitteln. Eine Einzelkategorie, die sich eignet, um einen Indexwert für einen engen Raumbegriff zu errechnen, ist die der Orte. Darum wurden hier pro Text auch noch je ein Orts-Index-Wert (OIW) errechnet, der den Raum-Anteil zeigt, den die Romane erreichen, wenn ein enger Raum-Begriff angenommen wird.Footnote 1

Mit diesen drei Werten kann die gesamte Darstellung von Raum der Erzähltexte, die unterliegende Netzwerkstruktur räumlicher Relationen und das Setting erfasst werden. In der Literaturwissenschaft wurde aber auch herausgearbeitet, dass (implizite) Rauminformationen auf thematischer Ebene literarisch bedeutsam sind. Darum werden auch die Anteile von Raumthemen in den Texten mit Hilfe eines Indexwertes (ThIW) berechnet. Da die Wörter, die als Raumthemen zugehörig annotiert wurden oft implizit räumlich sind und noch einige weitere Aspekte beinhalten, werden sie – ebenso wie bei der Berechnung des RIWs – nur zu 70 % in die Rechnung einbezogen. Diese 70 % aller als Raumthema annotierten Wörter werden dann durch die Gesamtwortzahl eines Textes gerechnet.

Auf diese Weise wird gezeigt, dass das Modell genutzt werden kann, um anteilig Raumdarstellung zu berechnen für:

  1. 1.

    Einen weiten und komplexen Raumbegriff.

  2. 2.

    Einen relationalen Raumbegriff, der sich aus zwei Unterkategorien des fuzzy-set-Raummodells ergibt.

  3. 3.

    Einen engen Raumbegriff, der hauptsächlich auf das Setting von Romanen ausgerichtet ist und explizite Ortsnennungen als Indikatoren annimmt.

  4. 4.

    Raumthemen, die häufig über implizit räumliche Wörter aufgerufen werden.

Damit werden hier die Kategorien der Raumhinweise und Raumbeschreibungen nur im Zusammenhang mit dem weiten Raumbegriff mit einbezogen. Das liegt zum einen daran, dass mit weiteren Indexwerten keine neue methodische Variante mehr aufgezeigt werden kann. Zum anderen sind diese Kategorien aber auch diejenigen, die in den Tests des Raum-Classifiers mit durchschnittlich 71,7 % und 59,8 % noch die schlechtesten Ergebnisse gezeigt haben. Im Umkehrschluss wären hier also die am wenigsten belastbaren Einsichten zu erwarten. Darum werden für Raumhinweise und Raumbeschreibungen keine weiteren Indexwerte eingeführt.

Betrachtet man zunächst die Raum-Index-Werte (RIWs) im gesamten Kernkorpus, so wird eine diachrone Entwicklung deutlich. Die RIWs der Texte steigen minimal an (vgl. Abbildung 9.1).

Abbildung 9.1
figure 1

Raum-Index-Werte (RIWs) im gesamten Kernkorpus

Die Mittelwerte der einzelnen Teilkorpora bestätigen diesen ersten Eindruck. Im Teilkorpus des 18. Jahrhunderts liegt der RIW durchschnittlich bei 9,88. Das heißt, dass im Schnitt rund 10 % des Wortmaterials der Romane Rauminformationen referenzieren. Die Standardabweichung beträgt in diesem Teilkorpus 1,92. Die meisten der Raumwerte bewegen sich also in einem Bereich zwischen 7,96 und 11,8. Im zweiten Teilkorpus liegt der durchschnittliche RIW bei 12,37, der Raumanteil pro Roman beträgt also im Schnitt rund 12 %. Die Standardabweichung ist hier aber mit 2,21 etwas höher. Es gibt also mehr Varianz. Die meisten RIWs liegen hier in einem Bereich zwischen 10,16 und 14,58. Im 20. Jahrhundert ist der RIW-Durchschnitt 13,12. Die Standardabweichung geht vom 19. zum 20. Jahrhundert leicht zurück und liegt nun bei 1,87. Der Normalbereich für RIWs ist also 11,25–14,99. Im 21. Jahrhundert schließlich bleibt der durchschnittliche RIW auf gleichem Niveau bei 13,12, die Standardabweichung ist mit 1,99 ebenfalls sehr ähnlich wie im 20. Jahrhundert. Es entsteht der Eindruck, dass sich der Anteil der Raumdarstellungen über die Jahrhunderte einpendelt. Im 18. Jahrhundert ist der RIW meist vergleichsweise gering, im 19. Jahrhundert beginnt eine Tendenz zu vermehrter Raumdarstellung, aber es gibt hier auch noch mehr Schwankungen. Einige Romane haben hier bereits sehr hohe RIWs, andere bleiben auf dem Stand des 18. Jahrhunderts. Ab Beginn des 20. Jahrhunderts fängt dann eine Konsolidierungsphase an. Heute nimmt Raumdarstellung in der Literatur also buchstäblich mehr Raum ein als noch im 18. Jahrhundert und hat sich als konstante Größe von rund 13 % des Wortmaterials etabliert.

Abbildung 9.2
figure 2

Relationen-Index-Werte (RelIWs) im gesamten Kernkorpus

Wie wichtig die relationalen Raumkategorien für dieses Modell sind, zeigt sich, wenn Relationen und relationale Verben zusammen betrachtet werden. Darum gleicht sich auch die diachrone Entwicklung ziemlich stark (vgl. Abbildung 9.2.)Footnote 2 Im 18. Jahrhundert liegt der RelIW durchschnittlich bei 6,31 % und die Standardabweichung beträgt hier 1,39. Zum 19. Jahrhundert nehmen die RelIWs durchschnittlich um rund 2 % zu und der Mittelwert erhöht sich auf 8,07. Die Standardabweichung ist mit 1,38 beinahe gleich. Der Anstieg des mittleren RelIWs vom 19. zum 20. Jahrhundert ist dann sehr gering, der Durchschnittswert steigt auf 8,48, die Standardabweichung bleibt mit 1,18 auf einem ähnlichen Niveau, sinkt aber leicht ab. Im 21. Jahrhundert ist der durchschnittliche RelIW dann fast gleich und beträgt 8,28. Die Standardabweichung liegt hier bei 1,64, steigt also wieder leicht an und zeigt eine leicht erhöhte Varianz der Werte. Insgesamt ergibt sich ein relativ konstantes Bild: Räumliche Relationen machen in der Literatur des 18.–21. Jahrhunderts zwischen 6 und 8,5 % des Textes aus. Sie sind ein entscheidender Faktor der literarischen Raumdarstellung und prägen diese maßgeblich. Darum verwundert die starke Ähnlichkeit der Visualisierung der RelIWs zu der der RIWs auch nicht. Auffallend ist hier, dass die Konsolidierung bereits zwischen dem 18. und 19. Jahrhundert einsetzt also etwa 100 Jahre vor der des RIWs. Dies könnte einerseits darauf zurückzuführen sein, dass ein relativer Raumbegriff sich zu dieser Zeit ausgebildet und verfestigt hat. Es zeigt aber auch, dass Relationen eine wichtige Konstante in der Referenzierung von Raum sind und dass diese Konstante für die Literatur über die Jahrhunderte hinweg etwa gleich bedeutsam bleibt.

Abbildung 9.3
figure 3

Orts-Index-Werte (OIWs) im gesamten Kernkorpus

Ein leicht verändertes Bild ergibt sich, wenn man von einem engen Raumbegriff ausgeht und nur die Ortsannotationen in Relation zur Gesamtlänge der Erzähltexte setzt. Auf diese Weise erhält man einen Orts-Index-Wert pro Text und kann diese miteinander vergleichen. Die diachrone Entwicklung kann wie in Abbildung 9.3 visualisiert werden. Auch hier sind die Werte im 18. Jahrhundert am niedrigsten. Sie liegen zwischen 0,82 und 2,46 % und der Durchschnittswert bei 1,47. Die Standardabweichung beträgt hier 0,38. Im 19. Jahrhundert zeigen sich wieder die größten Schwankungen. Hier liegen die Werte zwischen 0,79 und 3,36 %. Der Mittelwert ist 1,91 und die Standardabweichung beträgt 0,57. Der durchschnittliche OIW steigt also vom 18. zum 19. Jahrhundert an. Im 20. Jahrhundert liegt der OI-Mittelwert bei 1,97, also in etwa auf gleicher Höhe wie im 19. Jahrhundert. Die Standardabweichung ist mit 0,42 etwas niedriger, d.h. die Varianz ist geringer als im 19. Jahrhundert. Tatsächlich liegen die Werte hier zwischen 1,27 und 2,81 %. Im 21. Jahrhundert liegen die Extremwerte bei 1,2 und 2,65. Der Durchschnittswert ist 1,99 also geringfügig höher als im 20. Jahrhundert. Die Standardabweichung sinkt weiter leicht auf 0,36. Wir haben also auch hier einen deutlichen Anstieg vom 18. zum 19. Jahrhundert, dann eine ganz leichte Steigung bis zur Gegenwart. Die Varianz ist im 19. Jahrhundert am höchsten, ebenso wie bei den RIWs. Auch hier setzt die Konsolidierung im 20. Jahrhundert ein und die OIWs haben sich in der zeitgenössischen Literatur auf rund 2 % eingependelt. Das heißt also, dass im Schnitt heute rund 2 % eines Romans aus Referenzierungen von Orten besteht. Anders als bei den RIWs, bei denen Ambiguitäten und Mehrdeutigkeiten mit einbezogen werden, haben wir bei den OIWs eine rein auf Wortvorkommen basierende Berechnung. Von den 100 Texten des Kernkorpus gibt es keinen einzigen, in dem nicht mindestens 0,82 % der Wörter Ortsnennungen sind. Ein Blick auf die absoluten Zahlen der Ortsannotationen zeigt, dass der Text mit den wenigsten Ortsannotationen, Ehrmanns Nina’s Briefe an ihren Geliebten, immer noch 364 Ortsnennungen bei 46.363 Wörtern Gesamtlänge beinhaltet. Erzähltexte ohne Raumdarstellungen oder auch nur ohne Ortsnennungen kommen in dieser Stichprobe nicht vor.

Nun wurde mit dem gesamten Raum-Kategorien-System ein sehr weiter Raumbegriff betrachtet und mit der Orts-Kategorie ein sehr enger. Gegen Ersteres könnte argumentiert werden, dass der Einbezug von impliziten Raumkategorien, die vielleicht literaturwissenschaftlich gar nicht einheitlich als solche interpretiert würden, den relativ hohen Anteil von Raumdarstellungen in Literatur von durchschnittlich 13 % im gesamten Kernkorpus erklärt. Gegen die Berechnung von Orts-Index-Werten könnte eingewendet werden, dass hier eine Kategorie betrachtet wird, die hauptsächlich zum Setting der Romane beiträgt, also weniger im Vordergrund der Erzähltexte steht. Darum wird nun als letztes noch ein Indexwert für Raumthemen eingeführt.

Die Kategorie der Raumthemen beruht in besonderem Maße auf der literaturwissenschaftlichen Forschung zur Darstellung von Raum, da sie bereits recht umfassend dargestellt und definiert wurde. Gleichzeitig handelt es sich aber um eine Kategorie, die nur zum Teil an Indikatoren im Text festzumachen ist. Objekte, die in der Literaturwissenschaft, z. B. als zur Grenzthematik gehörend, ausgemacht wurden, wie z. B. Wände, Türen und Fenster, tragen nicht nur zu dieser Thematik bei, sondern illustrieren auch das Setting eines Romans. Darum wird, analog zur Berechnung der RIWs, auch hier ein pauschaler prozentualer Anteil von 70 % angenommen, der zeigt, dass hier die Mehrdeutigkeit der Wort-Indikatoren im Text einbezogen wurde. So wurde also für jeden Text im Kernkorpus die Anzahl der zu Raumthemen beitragenden Wörter mal 0,7 gerechnet und das Ergebnis durch die Gesamtwortzahl des Textes dividiert.

Abbildung 9.4
figure 4

Raumthemen-Index-Werte (ThIWs) im gesamten Kernkorpus

Wie Abbildung 9.4 zeigt, verläuft die Entwicklung der Raumthemen im Kernkorpus wieder ähnlich. Insgesamt ist der Anteil von Raumthemen pro Text zwar gering und bewegt sich konstant unter einem Prozent. Aber auch hier ist wieder eine minimal steigende Entwicklung zu erkennen. Im ersten Teilkorpus machen Raumthemen durchschnittlich 0,27 % eines Romans aus. Die Standardabweichung liegt hier bei 0,08. Die Streuung ist also relativ gering. Im 19. Jahrhundert liegt der Durchschnitt der ThIWs bei 0,34 % und die Standardabweichung bei 0,11. Hier ist der Anteil, den Raumthemen an einem Roman im Schnitt haben, etwas höher als zuvor, aber die Varianz ist auch höher. Es gibt stärkere Schwankungen zwischen dem niedrigsten und dem höchsten Wert. Vom 19. zum 20. Jahrhundert erhöht sich der durchschnittliche ThIW nur leicht auf 0,35. Dafür geht die Standardabweichung hier aber zurück auf 0,08, was zeigt, dass sich die Varianz verringert. Im 21. Jahrhundert liegt der durchschnittliche ThIW schließlich bei 0,4 und die Standardabweichung bei 0,11. Sowohl der Durchschnittswert als auch die Standardabweichung werden im vierten Teilkorpus aber entscheidend dadurch beeinflusst, dass es mit Weins Lazyboy einen Ausreißer-Text gibt, in dem Raumthemen 0,84 % des Romans ausmachen. Nähme man diesen Text aus der Rechnung heraus, so läge der durchschnittliche ThIW bei 0,38 und die Standardabweichung bei 0,07. Wieder kann festgestellt werden, dass die Bedeutung von raumbezogenen Thematiken vom 18. Jahrhundert bis zur Gegenwartsliteratur wenn auch nur minimal zunimmt. Es fällt auch auf, dass es selbst bei dieser impliziteren Raumkategorie keinen Text mit einem Wert von 0 gibt. Es kommen also in jedem der 100 Romane des Kernkorpus Raumthemen vor.

Dass die vier Indexwerte grundsätzlich unterschiedliche Größenordnungen einnehmen, zeigt Abbildung 9.5. Während Raumthemen durchschnittlich weniger als 0,5 % eines Romans ausmachen (nämlich 0,34 %), sind rund 2 % eines Romans im Schnitt Ortsnennungen. Die Darstellung des relationalen Raums macht rund 8 % von Romanen aus. Geht man von einem komplexen, relativ weit gefassten literarischen System der Raumdarstellungen aus, so nimmt dies in der Regel etwa 13 % eines Erzähltextes ein.

Abbildung 9.5
figure 5

ThIWs, OIWs, RelIWs und RIWs im gesamten Kernkorpus

In Abschnitt 6.3 wurden die Tests des Raum-Classifiers ausführlich ausgewertet. An dieser Stelle wird nun erneut relevant, wie zuverlässig die Ergebnisse der automatischen Annotation in Bezug auf die einzelnen Korpora sind. Mit dem RIW werden alle Raumkategorien mit einbezogen, das heißt, hier gibt es eine gewisse Varianz in der Erkennungsgenauigkeit der Kategorien, die sich allerdings nicht für die einzelnen Korpora spezifizieren lässt. Das heißt, dass z. B. im 18. Jahrhundert nicht generell alle Raumkategorien schlechter erkannt werden (was zu einer Verzerrung der RIWs führen könnte, sodass eine Entwicklung angenommen werden könnte, die in Wahrheit nur eine Inkonsistenz der Erkennungsgenauigkeit ist). Mit den relationalen Kategorien, Orten und Raumthemen wurden hier ergänzend vier Kategorien ausgewählt, die eine vergleichsweise hohe durchschnittliche Erkennungsgenauigkeit zwischen rund 74 und 80 % erreichen. In den acht untersuchten Testtexten sind allerdings erhebliche Schwankungen erkennbar. Die mit Abstand größte Schwankung weist die Kategorie der Raumbeschreibungen auf, die bei Andreas-Salomé Ruth (19. Jahrhundert) rund 82 % F1-Score erreicht, bei Huber Luise (18. Jahrhundert) aber nur 42 %. Die kleinste Varianz gibt es mit einer maximalen Differenz von 14 % zwischen Schiller Der Geisterseher und Huber Luise (beides 18. Jahrhundert). Ebenso wie bei den Testtexten kann also die Genauigkeit der Erkennung auch bei den Texten des Kernkorpus pro Kategorie erheblich schwanken. Um einen Hinweis darauf zu bekommen, wie belastbar die hier beobachteten Phänomene trotz dieser Schwankungen sind, wurde eine zweite Analyse zur Cross-Validierung herangezogen. Bei dieser wurde mit einer Vorversion des Tools, das insgesamt eine durchschnittliche Erkennungsgenauigkeit von 74,77 % erreicht, also etwa ein Prozent geringer als bei der Endversion, die komplette Auswertung, die in den Kapiteln 8 und 9 dokumentiert ist, noch einmal wiederholt. In Abschnitt 8.2.3 wurde bereits erwähnt, dass mit Hilfe dieser zweiten Analyse festgestellt werden konnte, dass die Annotationszahlen der weniger häufig annotierten Wörter zum Teil ausreichend stark abweichen können, um das Ranking leicht zu verändern. Bei der Berechnung der Indexwerte konnte mit Hilfe dieser zweiten Analyse beobachtet werden, dass die Annotationswerte der einzelnen Kategorien nach verwendetem Tool zwar erheblich abweichen können, drei Aspekte führen aber dazu, dass diese Form der Auswertung vergleichsweise stabil bleibt. Zunächst einmal sind – zumindest beim RIW – die Werte der Einzelkategorien nur ein Teil des betrachteten Gesamtgefüges und fallen darum nicht zu sehr ins Gewicht. Außerdem werden diese Werte normalisiert, indem sie in Relation zur Gesamtwortzahl der Romane gesetzt werden. Schließlich werden die einzelnen Werte nicht einzeln, sondern im Gesamtgefüge des Kernkorpus angeschaut. Die beobachteten Trends können also durchaus als stabil angesehen werden. Auch die Dopplung eines Textes im Kernkorpus mit Trainingsmaterial hat sich während der Analysen nicht als Störfaktor erwiesen. Der zur Beobachtung von eventuellen Verzerrungen eingefügte Text Hyperion Fragment von Hölderlin hat sich während der Auswertung weder bei der Betrachtung der Indexwerte noch bei der Interpretation der Annotationsdaten als auffällig hervor getan.

Ergänzend zu den beispielhaften Analyseansätzen, die vom Distant-Reading ausgehen, dann in die Korpora hereinzoomen und schließlich einzelne Kontexte genauer fokussieren, wurde hier noch ein mathematisch-statistischer Ansatz entwickelt, der das Kernkorpus ausschließlich aus der Distanz betrachtet. Dadurch treten diachrone Entwicklungen besonders gut hervor. Die Berechnung von Indexwerten hat den großen Vorteil, dass dadurch ein Eindruck gewonnen werden kann, wie wichtig die Darstellung von Raum in literarischen Texten ist. Die Indikatoren literarischer Raumdarstellung werden zu einer messbaren Größe zusammengerechnet. Gleichzeitig sagen die einzelnen Raum-Index-Werte für sich genommen nur sehr wenig aus. Erst im Vergleich mit anderen Texten, Durchschnittswerten und Standardabweichungen wird klar, ob ein Text durch besonders ausführliche Raumdarstellungen hervorsticht. Wenn die hier betrachtete Stichprobe mit 100 Texten insgesamt auch relativ klein ist, so trägt diese Studie doch dazu bei, Vergleichswerte zu verzeichnen, die bei Anschlussuntersuchungen herangezogen werden können, um Gegenstände literaturwissenschaftlicher Raumforschung abzugleichen und einordnen zu können.