1 Mediävistische Korpusprobleme

Diese Studie nimmt Spezifika von korpushermeneutischen Herausforderungen bei mittelhochdeutschen Texten in den Blick. Neben den Problemen, die auch in den neueren Philologien bestehen, weisen in der Mediävistik vier Problemfelder eine besondere Brisanz auf. Erstens wäre zu bedenken, welcher Text, welche Ausgabe oder gar welche Transkription welcher Handschrift in ein Korpus aufgenommen werden sollte, da oft eine erhebliche Varianz zwischen den Handschriften besteht. Zudem liegen mitunter viele Jahre zwischen der Textentstehung und der Überlieferung, in Extremfällen sogar Jahrhunderte: So sind der Erec, die Kudrun und der Mauritius von Craun nur im Ambraser Heldenbuch vollständig bzw. nahezu vollständig überliefert. Das Ambraser Heldenbuch ist am Anfang des 16. Jahrhunderts entstanden, doch die genannten Texte stammen aus dem ausgehenden 12. bzw. 13. Jahrhundert.

Auf dieses Problemfeld wird hier nicht weiter eingegangen, da digital arbeitende Mediävist*innen sich in der Regel glücklich schätzen dürfen, wenn überhaupt eine Textfassung auch digital verfügbar ist: Die unzureichende Verfügbarkeit digitaler Texte und Editionen – das zweite Problemfeld – stellt leider noch immer ein virulentes Hindernis für eine mediävistische Korpushermeneutik dar. Der dritte Problembereich liegt in der Varianz der nicht-normierten Graphie, der vierte in der eingeschränkten Verfügbarkeit von Tools und Ressourcen zur automatischen Textanalyse. Im zweiten Teil des Aufsatzes wird anhand der Sentimentanalyse exemplarisch vorgeführt, wie eine mediävistische Korpushermeneutik angesichts solcher Problemlagen dennoch Fortschritte erzielen kann.

1.1 Problemfeld: Unzureichende Verfügbarkeit digitaler Texte

Noch vor gut 20 Jahren war es ausgesprochen mühevoll, digitale Texte zu besorgen: Um das schmale Korpus für meine Dissertation (Dimpel 2004) zusammenzustellen, habe ich zahllose Stunden mit dem Scannen und Korrigieren von OCR-Fehlern zugebracht. Zwar gab es damals durchaus bereits viele digitale Texte – bspw. in den Wörterbuchprojekten in Trier und in der Mittelhochdeutschen Begriffsdatenbank in Salzburg. Doch frei zugänglich waren sie nicht, als Student*in oder Doktorand*in hat man sich nicht unbedingt getraut, um die Texte zu bitten. Viele Editionen wurden etwa mit Tustep (https://www.tustep.uni-tuebingen.de) digital angefertigt, doch nur in seltensten Ausnahmefällen wurden die Editionsdaten veröffentlicht. In den letzten Jahren wurde bei einigen Editionen eine Weboberfläche geschaffen, doch vielfach kann man darin die Texte nur abschnittsweise ansehenFootnote 1 und nicht vollständig herunterladen.

Mit der Zugänglichkeit ist es seitdem etwas besser geworden.Footnote 2 Allmählich spricht sich herum, dass die freundlichen Kolleg*innen von der Mittelhochdeutschen Begriffsdatenbank (MHDBDB, http://mhdbdb.sbg.ac.at) seit einigen Jahren die Texte, die in Salzburg vorhanden sind, gern für Forschungszwecke bereitstellen; in Arbeit ist derzeit ein groß angelegter Relaunch mit zahlreichen Download-Optionen (vgl. Zeppezauer-Wachauer 2022). Dieser Politikwechsel ist ein wichtiger Meilenstein für die mediävistische Literaturanalyse: Dank Katharina Zeppezauer-Wachauer, Alan van Beek und Peter Hinkelmanns kann man erstmals von einer mediävistischen Korpusanalyse sprechen. Auch wenn allein das neugermanistische Prosa-Korpus im Textgrid-Repository (https://textgridrep.org) knapp fünfzigmal so groß ist, sind in der MHDBDB doch immerhin 666 Texte mit 9,3 Millionen Token vorhanden. Damit ist nun auch für mittelhochdeutsche Texte endlich eine Arbeitsgrundlage vorhanden, auch wenn hier nicht in allen Fällen die optimalen und aktuellsten Ausgaben zu finden sind.

Inzwischen hat die DFG eine digitale Publikation bei Editionen zur Soll-Bestimmung gemacht,Footnote 3 auch wenn eine Muss-Bestimmung ohne Schlupflöcher angebracht wäre. Wenn Editionsdaten auch tatsächlich digital zugänglich wären, könnten digital arbeitende Literaturwissenschaftler*innen Ressourcen in ganz anderer Weise nutzen.

Dazu kommt ein weiteres Problem: Sonja Glauch hat darauf hingewiesen, dass Editionen nur so lange existieren, »wie sich jemand aktiv um die Softwarebausteine der Funktionsschicht kümmert, plus schätzungsweise fünf bis fünfzehn Jahre.« (Glauch 2022, S. 73) Viele Editionsprojekte verfügen über eigene Web-Oberflächen mit editionsspezifischen Zusatzfunktionen. Allerdings werden diese Oberflächen nach dem Auslaufen der Projekte nicht immer weiter gepflegt. Wenn etwa am Webserver ein Update bei der PHP-Version erfolgt, ist unter Umständen ein Zugriff auf die Edition nicht mehr möglich. Im schlimmsten Fall ist die digitale Edition für die Öffentlichkeit verloren.Footnote 4

Auch wenn man sich lange Zeit allein durch den Einsatz von XML und TEI erhofft hat, dass solche Daten eine sehr lange Zeit nachnutzbar sind, mangelt es doch oft an der Dokumentation der Editionsstrukturen. Selbst für digital erfahrene User kann es Monate dauern, komplexe TEI-Daten nutzbar zu machen:Footnote 5 Die Existenz von TEI-Daten allein gewährleistet nicht, dass eine Edition auch tatsächlich für primär philologisch orientierte Forscher*innen nutzbar ist, selbst wenn sie als Download verfügbar sein sollten.Footnote 6

1.2 Problemfeld: Nicht-normierte Graphie im Mittelhochdeutschen

Das mittelhochdeutsche Wort juncvrouwen findet man in vielen graphischen Varianten vor – bereits mein NormalisierungswörterbuchFootnote 7 enthält derzeit 68 Varianten:

iucvrowen iuncfrauwen iuncfrawen iuncfrouvon iuncfrouwen iuncfrovgen iuncfrovwen iuncfrowen iunchfrawen iunchfrovwen iunchfrowen iunchurovwen iunchvrovwen iuncurouwen iuncurovwen iuncurowen iuncvrouwen iuncvrouwyn iuncvrovwen iuncvrowen iuncvrowyn iuncwrowen iuncwrowwen iunfrowen iung vrowen iungfrawen iungfrovwen iungfrowen iungurowen iungvrowen iunk frouuon iunkfrouuon iunkfrouvon iunwrowen iuoncfrouowen iuoncfrouwen iuoncfrwoen ivncfrauwen ivncfrouwen ivncfroven ivncfrovn ivncfrovwen ivncfrowen ivnchfroven ivnchfrovwen ivnchfrowen ivnchfrown ivnchvrovwen ivncvrouwen ivncvrowen ivnkfrouuon ivnuronwin ivnwrowin jucfrauwen juncfroiwen juncfrouwen juncfrovwen junckfrauen junckfrauwen juncvrowen juncvrowin jungfrowen jungkfrawen junkfrawen junkfrouwen juoncfrauowen jvncfrawen uinc frouwen

Diese Varianz könnte dazu führen, dass die Verteilung der häufigsten Wörter im Korpus eine völlig andere ist als im Neuhochdeutschen. Bekanntlich machen recht wenige sehr häufige Types einen Großteil der Token aus. Nach dem Häufigkeitswörterbuch von Kaeding (1897), das auf 11 Millionen Token aus Texten um 1900 beruht, decken bereits 207 Types 54,4 % aller Wortformen im Korpus ab (König 2004, S. 114 f.; vgl. auch Kaeding 1897). Angesichts der vogelwilden Schreibung bei juncvrouwen läge die Vermutung nahe, dass im Mittelhochdeutschen die häufigsten 207 Types eine niedrigere Prozentzahl der Token abdecken. Eine rasche Analyse der gesamten MHDBDB-Texte zeigt allerdings, dass die häufigsten 207 Types auch hier 53,9 % der Token ausmachen. Aus dem Textgrid-Prosakorpus habe ich via Zufallsgenerator ein neuhochdeutsches Korpus mit gleichem Umfang erstellt: Dort entsprechen 207 Types 55,1 % der Token. Auch sonst sind die Abweichungen bei den häufigeren Wortformen gering. Bei den Hapax legomena (nur einmal vorkommenden Wortformen) gibt es größere Unterschiede. In der MHDBDB sind unter Hapax legomena nur wenige Lemmata. Ganz überwiegend handelt es sich um graphische Varianten von Wortformen, die bereits weiter oben in der Häufigkeitsliste vorkommen (Tabelle 1).

Tab. 1 Type-Token-Verteilungen in der MhdBDB und einem gleichlangen Textgrid-Auszug

Für diese Ähnlichkeit könnten drei Aspekte wichtig sein: Erstens liegt ein Teil der Texte in der MHDBDB in normalisierten Ausgaben vor. Zweitens findet man auch im Textgrid-Auszug Abweichungen von einer standardisierten Graphie, da sich dort Texte vom Beginn des Buchdrucks bis ins 20. Jahrhundert finden.Footnote 8 Drittens sind in der Entwicklung zum Neuhochdeutschen hin deutlich weniger mittelhochdeutsche Wörter verschwunden, als neue Wörter dazugekommen sind.

Betrachtet man nur die 10.000 häufigsten Types, findet man deutlich weniger Graphie-Varianten – zu juncvrouwen etwa nur 6 Varianten statt 68 Varianten im Normalisierungswörterbuch, bei vrouwe bleiben immerhin 11 Varianten statt 63. Dass bei den häufigeren Wortformen die mittelhochdeutsche Vokabular-Verteilung nicht grundlegend andersartig ist, könnte ein Grund dafür sein, dass Analyseverfahren wie etwa Burrows’ Delta, mit dem man Texte etwa nach Autorschaft kategorisieren kann, auch im Mittelhochdeutschen funktionieren (Dimpel 2018).

Wenn man zwei Texte mit statistischen Methoden vergleicht, von denen im ersten Text die Wortform juncvrouwen 20 Mal vorkommt, im zweiten Text fehlt diese Wortform jedoch, dafür kommt je 10 Mal iucvrowen und iuncfrauwen vor, wird ein Vergleichstool, das einen Zeichen-für-Zeichen-Vergleich durchführt, hinsichtlich dieses Parameters eine Abweichung statt einer Identität feststellen, auch wenn diese Unterschiede womöglich nur auf den Präferenzen der Abschreiber beruhen. Das erschwert nicht nur Autorschaftsstudien, sondern auch Studien zur literarischen Analyse, wenn beispielsweise danach gefragt wird, ob im Kontext von juncvrouwen besonders häufig bestimmte axiologisch relevante Vokabeln wie werdekeit, kluocheit, triuwe oder überhaupt semantisch interessantes Vokabular beispielsweise im Kontext von Figurenreferenzen analysiert werden soll.

Um solche Probleme abzumildern, habe ich ein Normalisierungswörterbuch zusammengestellt. Es beruht auf manueller Zuordnung von Most-Frequent-Words durch studentische Hilfskräfte, auf Daten des Erlanger Lyrik-Projektes (https://www.ldm-digital.de) und auf Daten des Referenzkorpus Mittelhochdeutsch (https://www.linguistics.rub.de/remf). Problematisch ist, dass das Referenzkorpus Mittelhochdeutsch anders normalisiert, als es sonst bei im Standardwörterbuch von Matthias Lexer oder in der Standardgrammatik Paul/Wiehl/Grosse üblich ist, so dass sich im Normalisierungswörterbuch zahlreiche normalisierte Formen finden, die man intuitiv nicht als konventionell normalisiertes Mittelhochdeutsch betrachten würde.Footnote 9

Es gibt viele ambige Wortform-Varianten, die in einem Kontext zu Lemma A und in anderem Kontext zu Lemma B oder C gehören; im Normalisierungswörterbuch wird jedoch nur eine Normalform zugeordnet; angestrebt wurde, die häufigste Normalform zuzuordnen. Damit ist das Normalisierungswörterbuch vollständig ungeeignet etwa zur Normalisierung von Editionen. Mit seiner Hilfe kann aber dort die Erfolgsquote enorm verbessert werden, wo es darum geht, zu statistischen Zwecken Daten zu vergleichen – wie bei Studien zur Autorschaftsattribution (vgl. Büttner et al. 2017, S. 10–21). Immerhin können wir inzwischen vorrechnen, dass Konrad von Würzburg mit hoher Wahrscheinlichkeit der Autor der ›Halben Birne‹ ist (Dimpel et al. 2019) und dass die Nürnberger Weingrüße mit hoher Wahrscheinlichkeit Rosenplüts Feder entstammen (Dimpel/Wagner 2022).

Trotzdem muss man dabei weiterhin mit vielen ungenauen Zuordnungen leben. In einer Welt, die aus Sicht der digitalen Literaturanalyse eine ideale Welt wäre, würde sich die Altgermanistik auf ein einheitliches Set an Normalisierungsregeln einigen und konsequent bei allen Editionen zumindest zusätzlich zu den Transkriptionen und anderen Textfassungen auch eine digitale Fassung in einer einheitlichen Standardgraphie anbieten. Hier wäre dann auch eine kontextsensitive Disambiguierung von nicht-normalisierten Wortformen vorhanden, die über das Normalisierungswörterbuch nicht realisiert wird.

1.3 Problemfeld: Leistungsschwächere Tools und weniger Ressourcen

Weitere Probleme bringen fehlende oder leistungsschwächere Tools und Ressourcen mit sich. Ohne weitere Voraussetzungen ist es möglich, Studien auf Vokabularbasis vorzunehmen. Dazu gehören neben stylometrischen Zugriffen (vgl. etwa Kestemont 2018; Viehhauser 2015) auch Studien zum Topic Modelling (Viehhauser 2017) oder Studien zur Netzwerkanalyse auf Basis des nicht weiterverarbeiteten Wortmaterials.Footnote 10 Neugermanisten*innen oder Computerlinguist*innen allerdings verfügen schon länger über Part-of-Speech-Tagger und über Tools zur Erkennung von Figurenreferenzen,Footnote 11 so dass Studien zur digitalen Literaturanalyse auch mit solchen Daten operieren können. Mithin ist die Zahl der vorhandenen Tools für Sprachanalyse sehr viel größer; dort, wo es für das Mittelhochdeutsche ähnliche Tools gibt, erreichen die Tools beim Mittelhochdeutschen nicht die gleichen Erfolgsquoten wie bei neueren Sprachen. Eine automatische Erkennung von Referenzen auf Figuren schien lange außer Reichweite zu sein, inzwischen gibt auf diesem Gebiet jedoch Erfolge in Stuttgart.Footnote 12

Die mittelhochdeutschen Wörterbücher in Trier sind seit gut 20 Jahren online. Neu ist, dass man über eine Web-Schnittstelle Abfragen vornehmen kann (Burch 2022, S. 103–106). Eigentlich würde man sich wünschen, dass die vollständigen XML-Daten der Wörterbücher veröffentlicht werden, so dass man diese Daten ohne Umwege und ohne Einschränkungen in eigene Analyse-Pipelines integrieren kann.

Eine automatische Erkennung von Part-of-Speech-Daten schien lange ein Traum zu sein. Nun gibt es erste Mittelhochdeutsch-Modelle für den TreeTagger in Stuttgart (Echelmeyer et al. 2017), für den Spacy-Tagger ein Modell von Peter Hinkelmanns (Hinkelmanns 2021) und ein Modell von Helmut Schmid für den RNN-Tagger, das bei Wortart 96 %, bei der Morphologie 89,5 % und bei der Lemmatisierung 91,9 % erreicht.Footnote 13 Auch wenn bei den Tools und Ressourcen weiterhin ein enormer Vorsprung bei den neueren Sprachen besteht, der auch damit zusammenhängen könnte, dass Informatiker*innen und Computerlinguist*innen oft zu neueren Sprachstufen einen engeren Bezug haben als zu älteren Sprachstufen, stehen inzwischen doch zumindest einige wenige der ganz elementaren Tools zur Verfügung.

2 Das Sentimentwörterbuch SentiMhd

Als exemplarische Anwendung korpushermeneutischer Modellierungen stelle ich im zweiten Teil dieses Beitrags das Sentimentwörterbuch SentiMhd vor – soweit ich weiß, handelt es sich um das erste Sentimentwörterbuch für das Mittelhochdeutsche.

Mit SentiMhd wird es möglich, auch in großen Korpora, bei denen das »too-big-to-read«-ArgumentFootnote 14 relevant wird, Vokabular zu finden und auszuwerten, das als positiv oder negativ eingestuft wird – es geht also um Wertungen und Emotionen. In der Sentiment-Forschung zu neueren Sprachen gibt es zahlreiche Studien; neben wörterbuchbasierten Ansätzen wird dort mit maschinellem Lernen, neuronalen Netzen und mit Word-Embeddings gearbeitet. Einen guten Forschungsüberblick geben Kim und Klinger.Footnote 15 Für das Mittelhochdeutsche steht sinnvollerweise ein wörterbuchbasierter Ansatz am Anfang, weil einerseits zunächst erprobt werden muss, ob eine Sentimentanalyse hier überhaupt erfolgsversprechend ist und andererseits haben wir hier den Nachteil, dass für das Trainieren von Sprachmodellen etwa für Word-Embeddings kein vergleichbar großes mittelhochdeutsches Korpus verfügbar ist.

2.1 Annotation, Annotationsregeln und Inter-Annotator-Agreement

Ob ein Wort oder ein Satz positiv oder negativ zu bewerten ist, ist eine Frage der Wahrnehmung, also subjektiv. Eine Person mag das Wort »Stolz« als positiv, eine zweite als neutral und eine dritte als negativ einordnen; vor allem aber wird die Einordnung kontextabhängig unterschiedlich ausfallen. Zunächst soll daher überprüft werden, inwieweit zwei Personen unabhängig zu einer gleichen Einstufung gelangen.

Dazu habe ich ein Korpus aus wertungsreichen Passagen aus Nibelungenlied, Erec, Iwein, Tristan und Gregorius mit 3.860 Wortformen und 580 Versen zusammengestellt. Die Annotationsregeln besagen, dass nur bei klarer positiver oder negativer Orientierung annotiert werden soll. Entscheidend ist die Wortbedeutung im aktuellen Kontext. Allerdings sollte auch bedacht werden, ob diese Wortbedeutung nur hier singulär positiv oder negativ ist; im Fall einer exzeptionell seltenen Bedeutung sollte das Wort eher neutral (ohne Annotation) bleiben.

Probleme entstehen etwa durch Negation oder Konjunktiv-2: Wortformen, die in anderem Kontext häufiger eine gegenteilige Orientierung aufweisen dürften, werden mit einem Polaritätsumkehr-Tag bedacht – ein Beispiel: niemen was ir gram+#Negation. Hier bedeutet das »+«, dass es um eine positive Aussage geht, »#Negation« bedeutet jedoch, dass gram andernorts negativ ist und hier aufgrund der Negation positiv wird. Bei einem Satz wie »Nun endet unser Leid« würde »Leid« mit »+#Sonstiges« annotiert, da die Polarität durch »endet« verändert wird.

Bestimmte Wortgruppen (vrouwe, ritter, künec, grôz, …) werden nicht annotiert, Kampf-Vokabular ebenfalls nicht – wenn der Held etwa zuschlägt, ist es etwas Anderes, als wenn ein Opponent zuschlägt, zudem gibt es auch böse Damen oder Könige. Bei Polyvalenzverdacht oder Polysemie wird eher nicht annotiert – wirde kann oft auch als Flexionsform zu werden gebraucht werden und wäre dann neutral, während wirde zu neuhochdeutsch »Würde« positiv einzustufen wäre. Im Zweifelsfall sollen falsche Wertattributionen vermieden werden.

Annotiert wurde das Evaluierungskorpus von zwei promovierten Altgermanisten mit über 30 Semestern Lehrerfahrung.Footnote 16 Einige eindeutige Verstöße gegen die Annotationsregeln und Flüchtigkeitsfehler wurden berichtigt (etwa vergessene Polaritätsumkehr-Tags). Die Annotatoren haben 380 bzw. 363 positive und 266 bzw. 274 negative Tags vergeben.

Sichtet man die Abweichungen zwischen beiden Annotatoren, zeigen sich Differenzen, die auf unterschiedlichen Interpretationen beruhen. Hier einige Beispiele aus dem Erec, bei denen das fragliche Wort von einem Annotator als negativ und vom anderen Annotator als neutral eingestuft wurde: 2933 wante zuo gemache; 2946 diz [der Kirchgang] was sîn meistiu arbeit; 2984 ein wandelunge an im geschach. Dass es zu solchen Abweichungen kommt, ist recht verständlich: Ist gemache (nhd. »Bequemlichkeit«) nur im Erec negativ, sonst aber eher nicht? arbeit heißt Mühe oder Qual, aber ist das hier negativ, gerade dann, wenn man den Vers als ironisch auffasst? Ist eine wandelunge (nhd. »Änderung«) auch per se etwas Schlechtes? Bei diesen Beispielen treten aufgrund der mehrdeutigen bzw. interpretationsbedürftigen Textinformationen hermeneutische Differenzen der Annotatoren zu Tage, die zugleich eine Grenze für automatische Annotationen markieren dürfte.

Gemessen wird, inwieweit die Annotatoren übereinstimmende Ergebnisse erzielen: das Inter-Annotator-Agreement. Dafür wird wie üblich Cohens Kappa verwendet, bei dem der Wert 1 eine vollständige Übereinstimmung anzeigt – ein kaum erreichbarer Wert, wenn es um Annotationen zu interpretationsabhängigen Phänomenen geht. Kappa erreicht jedoch den recht guten Wert 0,84.Footnote 17

2.2 Wörterbuch-Experimente

Das Vorbild für meine Wörterbuch-Experimente ist das Leipziger SentiWS von Robert Remus, Uwe Quasthoff und Gerhard Heyer, die ein englisches Sentiment-Wörterbuch automatisch ins Neuhochdeutsche übersetzt und grundlegend manuell nachbearbeitet haben.Footnote 18 Mit Hilfe der PMI-Methode (dazu unten mehr) erhalten die Wörterbucheinträge dort je nach ihrer Nähe zu positiven oder negativen Leitwörtern wie »gut« oder »böse« einen positiven oder negativen Score.

Um SentiMhd zu erstellen, habe ich vier Experimente durchgeführt: Den Versuch einer automatischen Übersetzung mit Nachbearbeitung, zweitens eine manuelle Wörterbucherstellung und schließlich zwei verschieden große Wörterbücher, die auf der PMI-Methode beruhen.

2.2.1 Experiment 1: Automatische Übertragung von SentiWS mittels Trierer BMZ-API

Auch wenn man bei automatischen Übersetzungsversuchen skeptisch sein darf, wollte ich die neue Web-Schnittstelle (API) der Trierer Wörterbücher (vgl. Burch 2022, S. 103–106) testen und versuchsweise das neuhochdeutsche SentiWS ins Mittelhochdeutsche (Mhd.) übersetzen. Über die Schnittstelle zu dem mhd. Wörterbuch von Benecke/Müller/Zarncke (http://woerterbuchnetz.de/BMZ) wurden Angaben zu Bedeutungen und Wortarten heruntergeladen und auf Übereinstimmung mit dem neuhochdeutschen SentiWS überprüft. Vorläufig berücksichtigt wurde das mhd. Lemma dann, wenn ein Wort aus SentiWS in den Bedeutungsangaben zu diesem Lemma gefunden wurde.

Die manuelle Nachbearbeitung hat sich als zeitaufwendig erwiesen – auch, weil in dem Wörterbuch aus dem 19. Jhd. die Graphie abweicht, etwa bei »Sanftmuth«. Deshalb habe ich sämtliche Types in allen Bedeutungsangaben mit einem Rechtschreibprogramm geprüft und eine Korrekturliste erstellt. Probleme gibt es u. a. dadurch, dass in den Wörterbuch-Bedeutungsangaben umschreibende Formulierungen oder gar Erläuterungen durch Antonyme stehen, so dass auch falsche Zuordnungen generiert werden.Footnote 19 Die Ergebnislisten werden deshalb mit automatischen Verfahren (etwa: Ist ein Lemma zugleich als positiv und negativ eingestuft?) und manuell geprüft. Insgesamt werden deutlich größere Listen erzeugt als im neuhochdeutschen SentiWS. Manuell wird mit einer zurückhaltenden policy aussortiert; das bedeutet, es werden nur Lemmata entfernt, die eindeutig als nicht positiv oder als nicht negativ eingestuft werden. Übrig bleiben in Experiment 1 immerhin 2.663 positive und 2.924 negative Lemmata.

2.2.2 Experiment 2: ›Manuelles Wörterbuch‹

Für das manuelle Wörterbuch habe ich alle Types aus der gesamten MHDBDB mit einer Häufigkeit von >20 (etwas über 20.000 Types) manuell gesichtet und ggf. mit einer positiven oder negativen Zuordnung annotiert. Types, die sich durch mein Normalisierungswörterbuch oder durch mein VollformenwörterbuchFootnote 20 auf eine Normal- bzw. Grundform zurückführen lassen, werden aus ökonomischen Gründen gruppiert.Footnote 21 Hier wird konkordant zu den Annotationsregeln bei der manuellen Annotation eine strenge policy verfolgt: es werden also nur Wortformen gewählt, die ich klar als positiv oder negativ einschätze. Es verbleiben 1.705 Einträge zzgl. Flexionsformen (1.095 positive / 610 negative).

2.2.3 Experiment 3: ›Kleines PMI-Wörterbuch‹

Wie beim neuhochdeutschen SentiWSFootnote 22 wird die Pointwise-Mutual-Information-Methode (PMI) verwendet, bei der die Semantische Orientierung (SO) einer Wortform im Kontext von Leitwörtern (wie »gut«, »schön«, »schlecht«, »böse«) berechnet wird. Ein Wort erhält dann einen höheren positiven SO-Wert, wenn es häufig kurz vor oder kurz nach einem positiven Leitwort auftritt. Wenn es häufig kurz vor oder kurz nach einem negativen Leitwort auftritt, erhält es einen negativen SO-Wert.Footnote 23

In der Regel liefert die PMI-Methode plausible Ergebnisse, auch wenn es vereinzelt Überraschungen gibt: freude wird als leicht negativ eingestuft, andere Schreib- und Flexionsformen wie vreude sind aber wie erwartet positiv. Wortformen, die im manuellen Wörterbuch gegenpolig annotiert sind, werden nur bei einer deutlich problematischen Zuordnung aussortiert oder, wie bei freude, umgepolt und der SO-Wert wird auf 0,1 (bzw. ggf. auf -0,1) korrigiert. Berechnet werden hier die SO-Werte nur für die Einträge im manuellen Wörterbuch. Das kleine PMI-Wörterbuch ist also eine Teilmenge des manuellen Wörterbuchs. Enthalten sind hier 434 positive und 195 negative Einträge.

2.2.4 Experiment 4: ›Großes PMI-Wörterbuch‹

Hier werden zusätzlich auch SO-Werte für die 20.000 häufigsten Types der Mittelhochdeutschen Begriffsdatenbank einbezogen. Das PMI-Verfahren kann also mit einem kleinen Set, das auf manueller Selektion basiert (Experiment 3), und mit einem großen Set (Experiment 4) in zwei Konstellationen evaluiert werden. Manuell aussortiert habe ich hier wie auch schon bei Experiment 3 mit einer zurückhaltenden policy – ich sortiere nur klar falsche oder klar neutrale Wortformen aus. Es bleiben 1.446 positive und 597 negative Einträge.Footnote 24

2.3 Evaluation der Wörterbuch-Experimente

Das Evaluationskorpus wird automatisch auf Basis der Wörterbücher annotiert und mit den manuellen Annotationen verglichen. Für alle vier Sentiment-Wörterbücher wird die mittlere Übereinstimmung zu den beiden menschlichen Annotatoren (A1, A2) berechnet. Das übliche Maß hierfür ist der F1-Wert, der Precision und Recall kombiniert. Ein F1-Wert von 1 zeigt eine vollständige Übereinstimmung an, der Wert 0 zeigt eine vollständig fehlende Übereinstimmung an. Die rechte Spalte zeigt den Mittelwert (MW) beider F1-Werte.

Bei der automatischen Annotation erfolgt der Abgleich mit dem Wörterbuch nicht nur über die (ggf. flektierte) Wortform im Text, sondern auch über das Lemma, das vom Mittelhochdeutsch-Modell zum RNN-Tagger von Helmut Schmid (Schmid 2019) ausgegeben wird (Spalte 2), so dass sowohl nicht-normalisierte Formen als auch Flexionsformen zugeordnet werden können. In Tabelle 2 kann man etwa bei dem fett-kursiv markierten kleinen PMI-Wörterbuch sehen, dass der Einsatz des RNN-Taggers zu einer erheblichen Verbesserung führt.

Tab. 2 Evaluation: F1-Werte der wörterbuchbasierten Annotation

Weniger erfolgreich war mein Versuch, Flexionsformen mit einem regelbasiert erzeugten Vollformenwörterbuch (Dimpel 2017, S. 100 f.) zu erfassen, das nicht manuell korrigiert ist. Die Regeln sind dort für einen maximalen Recall formuliert, sie produzieren dabei auch viele Wortformen, die nicht vorkommen. Beim großen PMI-Wörterbuch werden die F1-Werte schlechter, wenn man zusätzlich zum RNN-Abgleich auch das Vollformenwörterbuch einbezieht; bei SentiMhd und bei den späteren Textanalysen beschränke ich mich daher auf den RNN-Abgleich.

Der Versuch mit der automatischen Übersetzung führt zu desaströsen F1-Werten. Die PMI-Wörterbücher liefern weniger gute Werte als das manuell erstellte Wörterbuch. Die Probleme bei der PMI-Implementierung und bei der Übersetzung beruhen zum Teil auch auf Schwierigkeiten der Normalisierung und der Flexionsformgenerierung. Bei den besseren Werten des manuellen Wörterbuchs ist einschränkend zu bedenken, dass die Annotationsregeln sowohl bei der Wörterbucherstellung als auch bei der manuellen Annotation verwendet wurden, so dass eine gewisse Zirkularität im Spiel ist.Footnote 25 Allerdings geht in das Wörterbuch bei ambigen Wörtern die mutmaßlich überwiegende Wortbedeutung ein; im Evaluierungskorpus wurde bei der manuellen Annotation meist die Bedeutung im jeweiligen Kontext erfasst.

Für das neue Wörterbuch »SentiMhd«, das für Textanalysen weiterverwendet wird, verwende ich nach der Evaluierung der vier Experimente als Basis das manuelle Wörterbuch, das jedoch um 200 Wortformen aus dem großen PMI-Wörterbuch mit sehr hohen Scores erweitert wird. Zwar ergeben sich beim Evaluationskorpus keine weiteren Verbesserungen durch diese Erweiterung, doch lässt der größere Umfang bei größeren Korpora einen höheren Recall erwarten.Footnote 26

»SentiMhd« ist im Dariah-Repository zugänglich: https://doi.org/10.20375/0000-0010-05bb-6.

Wenn man die Problemfälle mit Konjunktiv‑2, Negation oder semantischer Polaritätsumkehr ignoriert (also Wortformen übergeht, die bei der manuellen Annotation mit dem Polaritätsumkehr-Tag versehen wurden), ergibt sich sogar ein F1-Mittelwert von 0,82 – solche Tags sind jedoch beim Einsatz bei nicht annotierten Texten nicht vorhanden. Auf Grundlage der Daten des RNN-Taggers kann man immerhin ermitteln, ob Konjunktiv‑2 oder Negation vorliegt. Wenn man in diesen Fällen eine gegenteilige Polarität zuweist, werden die F1-Werte jedoch schlechter. Der mittlere F1-Wert steigt jedoch auf 0,74, wenn Zeilen mit Konjunktiv‑2 übersprungen werden und wenn ein Wort, das unmittelbar auf eine Negation folgt, übersprungen wird.Footnote 27 Dieses Verfahren wird auch für die weitere Textanalyse verwendet.

2.4 Sentimentanalyse und Hermeneutik

Mit Hilfe von SentiMhd wird der Iwein mit positiven und negativen Tags automatisch annotiert, dabei werden wieder die Lemmatisierungsinformationen von Schmids RNN-Tagger-Modell verwendet. Segmentweise wird gezählt, wie viele positive und negative Tags vorhanden sind. Damit sei eine Annäherung (zum Begriff Moretti 2013, S. 2–5) an die Frage modelliert, inwieweit man von einer positiven oder negativen Stimmung im Segment sprechen kann. Tatsächlich gemessen werden natürlich nur Wortokkurrenzen aus SentiMhd; selbstverständlich kann keine fehlerfreie und eine objektivierbare Sentiment-Zuordnung erfolgen. Bei einer großen Zahl von Annotationen ist immerhin zu hoffen, dass Fehler oder ambige Bedeutungen statistisch nicht dominant werden.

Die Ergebnisdaten können vor dem Hintergrund von konventionellen hermeneutischen Überlegungen studiert werden – etwa in Hinblick auf die Frage, ob die digitalen Daten plausibel sind. Wenn überraschende Befunde vorliegen, wird man nach den Ursachen fragen: Neben einer begrenzten Präzision von digitalen Modellierungen können solche Daten auch Anlass sein, bisherige hermeneutische Befunde nochmals zu durchdenken und auf hermeneutischem Weg zu überlegen, ob auch alternative Erklärungsmöglichkeiten möglich sind. Zudem können überraschende digitale Befunde Phänomene sichtbar machen, die bislang nicht aufgefallen sind bzw. nach denen nicht gesucht wurde (Serendipitätseffekte). Kurzschlüsse von digitalen Befunden auf Thesen, die narratologische oder hermeneutische Überlegungen zum Gegenstand haben, müssen jedoch vermieden werden. Zwar können sich digitale und hermeneutische Erkenntnisse durchaus gegenseitig plausibilisieren. Man wird aber kaum je davon sprechen können, dass ein digitaler Befund die Gültigkeit einer These, die durch eine konventionelle Interpretation zustande gekommen ist, beweisen kann.Footnote 28

2.4.1 Erste Anwendungen

Ein höherer positiv-negativ-Quotient und somit ein höherer Datenpunkt in Abbildung 1 indiziert – unter den eben genannten Einschränkungen – eine positivere Stimmung. Die schwarze Linie repräsentiert den Quotienten für alle Sentimentwörter. Da ich aus einem anderen Projekt über Annotationen zu FigurenreferenzenFootnote 29 verfüge, können figurenspezifische Quotienten erhoben werden.Footnote 30 Damit wird modellierbar, inwieweit Figuren eher im Kontext von positiven oder negativen Wortformen vorkommen – gleichsam eine Annäherung an hermeneutische Aussagen zu der Frage, ob eine Figur in einer bestimmten Passage von einer eher positiven oder eher negativen Stimmung umgeben ist. Solche Aussagen sind jedoch freilich durch die hier vorliegende Modellierung limitiert.

Abb. 1
figure 1

Sentimentwörter im Iwein.

In der farbigen Online-Version des Beitrags unter https://doi.org/10.1007/s41244-024-00339-0 sind die Figurenlinien besser zu erkennen

Der Quotient unterschreitet den Wert 1 nur selten. Bei dem Wert 1 wären ebenso viele positive wie negative Sentimentwörter vorhanden. Allerdings sind in SentiMhd 1,86 Mal so viele positive wie negative Wortformen enthalten, daher wird die Neutrallinie bei 1,86 als untere graue Linie eingezeichnet. Die obere graue Linie bei 1,92 zeigt den Mittelwert des Quotienten im gesamten Iwein.

Wer den Iwein kennt, wird das eher positive Vokabular im Segment »Hochzeit« für erwartbar halten. Man könnte aber annehmen, dass die negative Stimmung bei der »Krise« noch deutlicher ausfallen müsste. Hier zeigt sich der Vorteil von figurenspezifischen Auswertungen: Wenn man den Sentiment-Werten folgt, ist die Krise offenbar stark auf Iwein und relativ stark auf Iweins Ehefrau Laudine bezogen, während die Zofe Lunete weniger betroffen ist. Auch der schwarze Durchschnittswert liegt deutlich über Iweins und Laudines Wert.

Im Segment »Aliers« stehen Iweins Höchstwerte – hier gelingen seine Aktionen problemlos. Dagegen unterschreiten die Tiefstwerte im Segment »Lunete_1« noch die niedrigen Werte im Segment »Krise«, es gibt also ausweislich des Sentiment-Modells zwei Tiefpunkte. In diesem Segment wird darüber berichtet, dass Lunete hingerichtet werden soll, weil sie Iwein zur Landesherrschaft verholfen hat. Die Existenz eines zweiten Tiefpunkts ist deshalb interessant, weil die Forschung vielfach einen doppelten Kursus ansetzt, bei dem der erste Kursus vom zweiten Kursus von »der« Krise abgetrennt wird.Footnote 31 Selbst Ludger Lieb, der ein Strukturmodell vorlegt, das vom Mainstream abweicht, spricht im Singular von einer Katastrophe (Lieb 2020, S. 88). Danach führt, so Lieb (2020, S. 86), die Aventiurefahrt »den Protagonisten vom Tiefpunkt über mehrere Stationen langsam wieder bis zu einem zweiten Höhepunkt, der den ersten übertrifft«. In einer Skizze zeichnet Lieb eine linear ansteigende Linie vom Tiefpunkt (hier: Segment »Krise«) zum Romanende – allerdings unter der Achsenbeschriftung »Ehre-Schande«.Footnote 32 Nach dem Sentiment-Modell erfährt die Krise jedoch eine Wiederholung, als auch Lunete in den Strudel von Iweins Versagen gerät.

Auch wenn der doppelte Kursus nach Hugo Kuhn jenseits von Ludger Liebs Nuancierungen gemäß der Communis Opinio als das grundlegende arthurische Strukturmuster (zumindest aber für Erec und Iwein) gelten kann, sei angemerkt, dass es sich bei diesem Strukturmuster ebenso um eine Abstrahierung und um eine Modellierung handelt, die nicht etwa selbst den Texten als Entität inhärent wäre. Solche Parallelen zwischen digitalen Modellierungen und strukturalistischen oder bzw. und hermeneutischen Modellierungen werden bisweilen übersehen, wenn gegen digital erhobene Daten der Einwand erhoben wird, dass in einer Studie das Zielphänomen selbst gar nicht direkt und unmittelbar gemessen wird.

Am Ende des Sentiment-Diagramms für den Iwein steht kein neuer Höhepunkt: Iwein erreicht in acht anderen Segmenten höhere Werte als im Schlusssegment – ein Happy End kann also anhand der Sentiment-Daten nicht nachvollzogen werden. Dieser Befund lässt sich jedoch im Sinne einer Kontrollpeilung gut mit Interpretationen in Verbindung bringen, die von einem harten Iwein-Schluss ausgehen: Laudine nimmt Iwein, ihren früheren Mann, nur widerwillig und nur deshalb wieder auf, weil sie auf die listige Eidforderung ihrer Zofe Lunete hereingefallen ist und nicht eidbrüchig werden will. Zwei verschiedene Iwein-Schlüsse sind überliefert: In der Mehrheit der Handschriften konstatiert Laudine nach Iweins Kniefall nur, dass sie Iwein aufgrund des Eides wieder aufnehmen muss; in einigen wenigen Handschriften stehen Zusatzverse, in denen Laudine ebenfalls vor Iwein auf die Knie fällt und sein Leid bedauert (vgl. Schröder 1997; Hausmann 2001).

Abschließend wird sicherheitshalber, um abschätzen zu können, ob Schieflagen vorhanden sind, die darauf beruhen, dass womöglich nur sehr wenige Sentiment-Wörter oder nur sehr wenige Figurenreferenzen in einem Segment vorkommen, in Abbildung 2 ausgegeben, wie viele Kookkurrenzen von Figurenreferenzen und Sentiment-Wörtern pro Figurenreferenz in welchem Segment vorhanden sind:

Abb. 2
figure 2

Kookkurrenzen von Figurenreferenzen und Sentimentwörtern pro Figurenreferenz

Da erwartbar ist, dass Hauptfiguren häufiger als Nebenfiguren genannt werden, wird hier anstelle von absoluten Zahlen der Quotient gewählt. Der Mittelwert für alle Figuren in allen Segmenten liegt bei 1,1, die Verteilung von Figurenreferenzen und Sentiment-Wörtern ist also nicht allzu asymmetrisch.

Da auch zu Tristan, Partonopier und Mauritius von Craun annotierte Figurenreferenzen zu den Hauptfiguren, Opponent*innen und Zofen vorliegen, ist eine Auswertung zu diesen Figurentypen möglich. Abbildung 3 zeigt, dass die männlichen Hauptfiguren deutlich positiver kontextualisiert sind als die weiblichen – in diesen vier Texten geht es auch um Probleme der Hauptfigur mit seiner Partnerin. Die Zofen, die dem Titelhelden beistehen, erreichen ebenso positive Werte wie die Titelhelden, während die Opponent*innen erwartungsgemäß negativere Werte erhalten.

Abb. 3
figure 3

Figurentypen

Interessant ist die Binnendifferenzierung bei den Opponent*innen in Abbildung 4: Tristan und Partonopier neigen insgesamt eher zu positivem Vokabular,Footnote 33 hier gibt es selbst bei den Opponent*innen etwas mehr positive als negative Sentimentwörter im Figurenkontext. Zudem haben Partonopiers Mutter und König Marke als nahe Angehörige der Hauptfigur ebenso einen Sonderstatus unter den Opponent*innen wie Sorgnagiur, der sich nach dem Verrat von Mareis freiwillig in die Gefangenschaft von Partonopiers Partei gibt. Dagegen finden sich im Iwein bei klaren Gegenspielern wie Askalon deutlich negativere Werte.

Abb. 4
figure 4

Opponent*innen

3 Vier Textsorten in zehn Segmenten

Zum Abschluss noch ein exemplarischer Makro-Blick auf vier Textsorten in jeweils zehn Segmenten (Abb. 5, 6, 7 und 8).

Abb. 5
figure 5

1. Klassische höfische Romane

Abb. 6
figure 6

2. Nachklassische höfische Romane

Abb. 7
figure 7

3. Heldenepik

Abb. 8
figure 8

4. Religiöse Versdichtung

Bei nur zehn gleichlangen Segmenten bleiben feinere Informationen auf Kosten der Übersichtlichkeit auf der Strecke; die Kappungsgrenze wurde hier aufgrund hoher Werte auf 6 angehoben. Bei den klassischen höfischen Romanen gibt es mit Ausnahme von Tristan und Iwein zum Romanende wieder einen Anstieg der Werte; im Parzival wird im letzten Buch nochmals das Leid von Anfortas thematisiert (vgl. Dimpel 2023). Bei Erec und Iwein lässt sich die Krise ausmachen (zur doppelten Krise im Iwein vgl. oben). Bei Parzival und Tristan ist noch die Existenz der Elternvorgeschichte zu bedenken.

Bei den nachklassischen höfischen Romanen weisen die Linien nach dem Anfangssegment zunächst nach unten; zum Schluss ist zumindest bei Lanzelet, Gauriel und Daniel ein Anstieg sichtbar, der noch deutlicher ausfällt als bei den klassischen höfischen Romanen – womöglich ein Indikator für ein ausgeprägtes Happy End. Beim Partonopier ist allerdings das Ende nicht überliefert. Im Wigalois kommt mit dem Namur-Feldzug nach der Befreiung von Korntin eine neue Problemlage ins Spiel.

In der Heldenepik ist mit Ausnahme der Kudrun, die eher ein Operettenende aufweist, am Ende erwartungsgemäß eine Entwicklung zu negativerem Vokabular zu sehen. Überraschend ist die in weiten Teilen hohe Linie des Nibelungenliedes und ihre partielle Konvergenz mit der Linie zu Dietrichs Flucht.

Bei der religiösen Versdichtung fällt der Guote Gerhart auf: Der Titel ist Programm – zumindest für das Sentiment-Vokabular. Im Engelhard fällt das Opfer der Söhne in das letzte Segment; das Wunder am Textende nimmt wenig Raum ein; das Happy End ist beispielweise in einer Darstellung mit 40 Segmenten besser sichtbar, für die hier kein Raum ist – ähnlich im Gregorius.

Eine Gliederung mit 40 Segmenten wird hier noch zum nachklassischen höfischen Roman gezeigt:

Lanzelet jagt, so Kragl (2009, S. 552), von einem Höhepunkt zum nächsten; in Abbildung 9 erreicht er zwölf Mal Werte um 6 und darüber; nach dem Guoten Gerhard weist er insgesamt die zweithöchsten Sentiment-Werte auf. Die Tiefpunkte – hier mit Pfeilen markiert – lassen sich ebenfalls gut nachvollziehen: Segment S8 enthält den Kampf gegen Linier, S15 den Umkehrzauber von schâtel le mort, in S31 erklären sich Erec und Walwein bereit, sich zu Malduc in Gefangenschaft zu begeben. Im ebenfalls mit Pfeil markierten Segment S36 wird Lanzelet nach der Heimkehr nach Genewis nun auch die Herrschaft in Dodone angetragen, hier erreicht Lanzelet einen Quotienten von 13,2.

Abb. 9
figure 9

Nachklassische höfische Romane in 40 Segmenten

Die exemplarische Analyse von vier Textsorten soll künftig durch die Untersuchung von größeren Korpora fortgeführt werden, um etwa Sonderfälle wie den Guoten Gerhart (vgl. Abbildung 10) klarer innerhalb der Textsorte verorten zu können. Dabei sollen auch Studien zu weiteren Fragestellungen folgen; weiterhin ist zu prüfen, ob mit Hilfe von Word-Embedding-Verfahren die Probleme mit Negationen, Konjunktiv‑2 und semantischen Polaritätsveränderungen besser gelöst werden können.

Abb. 10
figure 10

Gesamtübersicht Sentiment-Werte zu 20 Texten

Die Ergebnisse der Sentimentanalyse dürfen aus literaturwissenschaftlicher Sicht als plausibel gelten – die Relativierung des Happy Ends im Iwein fällt sogar deutlicher aus, als ich angenommen hätte. Traditionelle hermeneutische Befunde können in diesem Fall mit korpushermeneutischen Befunden in Einklang gebracht werden. Insoweit mit der Beobachtung eines zweiten Tiefpunkts im Iwein die Doppelweg-Struktur hinterfragt werden kann, bei der konventionell nur eine Krise angenommen wird, ist diese Beobachtung doch auch anschlussfähig an narratologische Überlegungen, die Lunete eine zentralere Rolle zuschreiben als Iweins Ehefrau Laudine (Dimpel 2011, S. 203–228).

Die Experimente zur Sentimentanalyse dürfen zugleich als ein Versuch gelten, den Problemen einer mediävistischen Korpushermeneutik zu begegnen, die im ersten Abschnitt ausgeführt wurden: Die unzureichende Verfügbarkeit digitaler Texte hat sich durch die open-text-policy der Mittelhochdeutschen Begriffsdatenbank in den letzten Jahren erheblich verbessert, auch wenn noch immer viele Texte nicht oder nicht in aktuellen Ausgaben digital frei verfügbar sind. Probleme der ›wilden‹ mittelhochdeutschen Graphie lassen sich durch ein Normalisierungswörterbuch oder durch Schmids RNN-Tagger zumindest teilweise kompensieren. Das Problem der eingeschränkten Verfügbarkeit von Tools und Ressourcen zur automatischen Textanalyse wird, so ist zu hoffen, mit weiteren Forschungsfortschritten allmählich gemildert; mit SentiMhd steht dem Fach nunmehr auch eine Ressource zur Sentimentanalyse des Mittelhochdeutschen mit einer Creative-Commons-Lizenz zur Nachnutzung und Optimierung bereit.