Nur wahrscheinlich oder schon plausibel?

Aufgrund der Vagheit und Mehrdeutigkeit von Sprache lassen sich Bedeutungsbildungsprozesse nur schwer formalisieren: Die Zuschreibung von Bedeutung vollzieht sich nicht nur unter Berücksichtigung der Textoberfläche, sondern auch unter der Heranziehung von unterschiedlichsten Ko- und Kontexten, die in ihrer Vielfalt schwer vorhersagbar und zu systematisieren sind. Quantitative Methoden zur Textanalyse eignen sich daher eher zur Exploration als zur Validierung und müssen in den meisten Fällen durch qualitative und interpretative Methoden ergänzt werden. Dennoch bleiben sie nicht bloßes Hilfsmittel, sondern können entscheidend zum hermeneutischen Prozess beitragen und diesen prägen. Anhand eines Beispiels aus der mittelalterlichen deutschen Literatur, der lyrischen Untergattung des Tagelieds, soll gezeigt werden, wie Verfahren der Wahrscheinlichkeitsberechnung und der diagrammatischen Visualisierung, die etwa beim Topic Modelling zum Einsatz gebracht werden können, überraschend gut geeignet sind, beispielsweise Mehrdeutigkeiten in der Gattungszuweisung von Texten sichtbar zu machen und typologische Zugänge zu Gattungsfragen abzubilden. Gerade die explorative Methode liefert damit einen Beitrag zur hermeneutischen Gegenstandskonstitution.

Abstract

Due to the vagueness and ambiguity of language, meaning formation processes are difficult to formalize: The attribution of meaning takes place not only by considering the surface of the text, but also by drawing on contexts that are difficult to predict in their diversity. Quantitative methods of text analysis are therefore more suitable for exploration than for validation and must in most cases be supplemented by qualitative and interpretative methods. Nevertheless, they do not remain mere tools, but can make a decisive contribution to the hermeneutic process and shape this process. Using an example from medieval German literature, the lyrical subgenre of the Tagelied, it will be shown how methods of probability calculation and diagrammatic visualization, which can be used in topic modelling, for example, are surprisingly well suited to making generic ambiguities visible and mapping typological approaches to questions of genre. The explorative method thus is able to make a significant contribution to the hermeneutic constitution of the object.

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

1 Vorbetrachtung: Warum die Bedeutung von literarischen Texten nicht einfach formalisiert werden kann

Die Vorstellung, dass der Einsatz von digitalen Methoden zur Textanalyse immer auch durch eine qualitative, interpretierende Auswertung der quantitativ gewonnenen Belege zu ergänzen ist, dürfte in vielen Feldern der Digital Humanities auf Zustimmung stoßen.^{Footnote 1} Dies gilt insbesondere für die digitale Literaturwissenschaft, wo solche Mixed-methods-Ansätze etwa in einschlägig bekannten Konzepten wie dem Scalable Reading ihren terminologischen Ausdruck gefunden haben.^{Footnote 2} Die Notwendigkeit hierfür ergibt sich schon aus der potentiellen Mehrdeutigkeit und der oftmals bloß impliziten Bedeutungserzeugung natürlicher Sprachen. Dass das Thema insbesondere für die Literaturwissenschaft von Relevanz ist, ergibt sich darüberhinausgehend daraus, dass literarische bzw. ästhetisch geformte Texte von Mehrdeutigkeit und Implikationen vermehrt Gebrauch machen dürften.

Da aber Mehrdeutigkeit selbst ein schillernder Begriff ist, möchte ich den Sachverhalt zunächst noch mit einem eigenen, anekdotischen Beispiel verdeutlichen. Ausgangspunkt dafür ist ein von mir en passant und nur flüchtig wahrgenommenes Plakat einer Impfkampagne, das mit dem Slogan Hilft einfach für diese Impfung wirbt. Beim ersten Wahrnehmen legte dieser Satz bei mir ein Verständnis nahe, bei dem das Wort einfach als bekräftigende Modalpartikel aufgefasst wird (etwa im Sinn von die Impfung hilft schlicht und einfach). Sozusagen beim zweiten Hinsehen regte sich bei mir jedoch der Verdacht, dass der Satz - hier - eventuell auch in der Bedeutung die Impfung hilft auf einfache Weise verstanden werden könnte; und schließlich, dass sogar beide Bedeutungen gleichzeitig hervorgerufen werden sollten.

Den Ausgangspunkt dieser Wahrnehmung von Doppeldeutigkeit bietet in diesem Beispiel also die grundlegende Ambiguität von einfach: Das Wort kann als Modalpartikel oder als Adverb verstanden werden.^{Footnote 3} Zumindest für mein Sprachgefühl hat sich diese Doppeldeutigkeit im vorliegenden Satzzusammenhang (der ja zunächst den ersten weitergehenden Hinweis auf die Bedeutung gibt) jedoch zunächst nicht aufgedrängt, da mir die erste Bedeutung sozusagen ›normal‹ erschien. Dieses ›Normal‹-Erscheinen spiegelt sich möglicherweise in einer allgemeinen statistischen Verteilung der Wortkombination hilft und einfach wider und man könnte auch sagen, dass diese Bedeutungsschicht stärker manifest ist als die zweite Deutungsebene.^{Footnote 4} Die Präferenz für eine der beiden Deutungen ist aber jedenfalls vom Kontext beeinflusst: Ein Blick auf das restliche Plakat hätte vermutlich Klärung gebracht, ob mit dem Satz nicht doch die Impfung hilft auf einfache Art gemeint oder zumindest mitgemeint war. Letztlich auf die Idee dieser Deutung hat mich vermutlich ohnedies nur mein Vorwissen über die Textsorte Werbung gebracht, die sehr oft mit Wortspielen und Ambiguitäten arbeitet.

Daraus ergibt sich: Die Doppeldeutigkeit ist also grundsätzlich im Satz angelegt, ob ich sie mitdenken kann oder sogar soll, wird vom Kontext bis zu einem gewissen Grad restringiert. Dieser Kontext kann aber auch (aus unterschiedlichen Gründen) fehlen: Da ich den Rest des Plakats aufgrund der Flüchtigkeit der Begegnung beispielsweise nicht gelesen habe, lässt sich der Fall für mich nicht mehr rekonstruieren. Der Text wirkt für mich doppeldeutig und ich habe gewisse Hinweise dafür, die das plausibel machen (z. B. meine Gattungserfahrung), kann dies aber nicht mit Sicherheit (und ohne eine Art ›interpretatorischem Akt‹) sagen. Hätte ich den Kontext jedoch gelesen oder würde z. B. den oder die Urheber:in kennen, wüsste ich vermutlich, ob der Text doppeldeutig gemeint war, der Text wäre dann sozusagen eindeutig doppeldeutig oder eindeutig eben nicht. Selbst im letzten Fall kann ich mich jedoch immer noch über diese Festlegung auch hinwegsetzen, ich könnte den Text weiterhin als doppeldeutig lesen, auch wenn er von den Autor:innen nicht so intendiert war. Dies würde zwar die Autor:innen-Intention nicht treffen, aber das Bedeutungspotential des Textes ausnutzen und dabei dem Text zumindest nicht in einer solchen Weise unrecht tun wie dies beispielsweise eine Lektüre täte, die behaupten würde, dass es in diesem Text gar nicht um Impfung ginge.

Die Unsicherheit über die Bedeutung bzw. die Möglichkeit, eventuell beide Bedeutungen offen zu lassen, ergibt sich im vorliegenden Fall auch durch die schriftliche Form des Textes: Spricht man den Satz laut, so legt bereits die Betonung (entweder auf hilft oder auf einfach) nahe, ob einfach als Modalpartikel oder als Adverb aufgefasst werden soll. Auch diese Information fehlt mir im vorliegenden Fall; und die Möglichkeit, diese Information in der schriftlichen Form zu verschleiern, kann wieder von den Autor:innen bewusst eingesetzt worden sein.

Nun handelt es sich bei meinem Textbeispiel nicht um Literatur, sondern um Werbung, doch ist diese Textsorte bekanntermaßen in der Ausnutzung der poetischen Funktion der Sprache Literatur durchaus ähnlich (Jakobson 2007). Andere Textsorten werden den Verdacht der Doppeldeutigkeit wohl deutlich weniger wecken. Eine Gebrauchsanweisung ist beispielsweise auf Eindeutigkeit angelegt, da sie ja den Nachvollzug der Handlung ermöglichen soll. Zwar könnte man durchaus auch auf die Idee kommen, eine Gebrauchsanweisung sozusagen ›gegen den Strich‹ als eine Art Literatur zu lesen, vermutlich werden sich aber trotzdem weniger Anknüpfungspunkte an das Konstatieren von Doppeldeutigkeiten finden lassen als das bei stärker ästhetisch geprägten Texten der Fall ist.^{Footnote 5} Literarische Texte sind ja (zumindest im engeren Sinn) keine Gebrauchsanweisungen, sie sagen sozusagen nicht direkt, was sie meinen, sondern, natürlich etwas pauschal gesprochen, auf Umwegen.^{Footnote 6} Wenn dies nicht so wäre, könnten viele literarische Texte kürzer, thesenhafter und damit vielleicht auch ›platter‹ ausfallen.

Ein weiteres, nun sozusagen aus der Realwelt der Literaturwissenschaft stammendes Beispiel mag das noch weiter verdeutlichen: Im Prolog des höfischen Romans Parzival entwirft Wolfram von Eschenbach im berühmten Elsterngleichnis einen gemischten Menschentyp, der sich offensichtlich der klaren Festlegung als schwarz oder weiß entzieht (und daher wie die Elstern eben schwarz und weiß gefärbt ist).

gesmaehet unde gezieret

ist, swâ sich parrieret

unverzaget mannes muot,

als agelstern varwe tuot.

der mac dennoch wesen geil:

wand an im sint beidiu teil,

des himels und der helle.

der unstaete geselle

hât die swarzen varwe gar,

und wirt och nâch der vinster var:

sô habet sich an die blanken

der mit staeten gedanken (1,3–1,14)^{Footnote 7}

Erweisen sich schon die genauen Bezüge in der engeren Textstelle als nicht so leicht auflösbar (wie verhält sich z. B. der gemischte Typ genau in Hinblick auf die Beständigkeit), so wird der Text erst recht zur interpretatorischen Großaufgabe, wenn man zu bestimmen versucht, wie sich diese programmatisch ausnehmende Textstelle zum Rest des Romans verhält (vgl. zur umfangreichen Forschungsdiskussion beispielsweise Brackert 2000 und Schirok 2011). So tritt etwa im Text Parzivals Halbbruder Feirefiz auf, der aufgrund seiner mütterlich-orientalischen und seiner väterlich-europäischen Abstammung eine schwarz-weiß gemischte Hautfarbe hat (vgl. Parzival 57, 15–18). Aufgrund dieser auffälligen Ähnlichkeit liegt es nahe, die Eingangsverse irgendwie mit Feirefiz in Verbindung zu bringen, ganz genau geht dieser Konnex aber nicht auf (Feirefiz erscheint z. B. kaum stärker als charakterlich gemischter Menschentyp ausgeprägt als andere Figuren) und der Text erteilt auch keine direkte Auskunft darüber, wie diese Verbindung zu denken ist (etwa indem klar gesagt würde, dass Feirefiz Prototyp des gemischten Menschentyps aus dem Prolog sein soll). Der Text bietet damit keine eindeutigen Kontexte, um die Frage ein für alle Mal entscheiden zu können, ob und inwieweit sich der Prolog auf Feirefiz beziehen soll oder nicht, zudem könnten uns heutigen Rezipient:innen zeitbedingt Kontextinformationen fehlen, die den Zeitgenossen noch zur Verfügung standen (etwa das Wissen um Konventionen der Prologgestaltung oder den Stellenwert von assoziativen Verknüpfungen). Auch der Autor lässt sich nicht mehr daraufhin befragen, ›wie es gemeint war‹ (wenn man dies überhaupt für relevant oder beobachtbar hielte); betrachtet man andere programmatisch wirkende Textpassagen, die etwa das Ideal eines dynamischen, mit Brüchen rechnenden Verstehensprozesses als Rezeptionshaltung entwerfen (vgl. zusammenfassend Bumke 1997, S. 167–171), dann erscheint es vielleicht gar nicht unplausibel, dass durchaus intentional eine Beziehung hergestellt werden sollte, die aber bewusst so gestaltet wurde, dass sie nicht in allen Punkten aufgeht. Aber auch dies ist natürlich Interpretationssache. Schlussendlich lassen sich einige Kontexte heranziehen, die zwar nicht gleichwertig, aber mehr oder weniger plausibel sind und dies auch in unterschiedlichem Maße hinsichtlich unterschiedlicher Lektüreintentionen sein können.

Meine beiden Beispiele versammeln sicherlich Altbekanntes, sie sollen aber einmal mehr verdeutlichen, dass digitale Analysen nicht ohne qualitative, interpretatorische Ergänzungen auskommen können. Bedeutung ergibt sich nicht einfach aus einem Text, sondern wird ihm beigemessen, dabei können zwar wohl nicht alle, aber doch sehr vielfältige Kontexte und Bestände an Hintergrundwissen berücksichtigt werden, die sich in ihrer Vielfalt nicht vollständig formal modellieren lassen. Das Heranziehen dieser Kontexte kann dabei mehr oder weniger plausibel erscheinen (vgl. zur Plausibilität als Beurteilungskriterium von Interpretationen Winko 2015).

2 Exploration und Hermeneutik – das mittelhochdeutsche Tagelied als Beispiel

2.1 Ausgangslage

Korpusbasierte Untersuchungen sind also wohl notgedrungen durch hermeneutische Zugänge zu ergänzen, gleichwohl können sie natürlich zum hermeneutischen Prozess beitragen. Einen Hinweis darauf bietet etwa das oben angeführte Beispiel aus dem Parzival, bei der sich der Verdacht eines zu interpretierenden Zusammenhangs zwischen Prolog und Figur ja durch eine Isotopie eingestellt hat, nämlich durch die in beiden Fällen erfolgende Erwähnung eines zwischen Schwarz und Weiß gemischten Zustandes. Auch Interpretationen setzen auf gegebenen Texteigenschaften und Strukturmustern auf, die sich z. B. durch Ähnlichkeiten und Kontraste einstellen. Digitale Methoden bieten nun die Möglichkeit, solche Strukturmuster in einer umfassenderen Weise aufzuspüren, z. B. in größeren Textkorpora, die von Einzelforscher:innen nicht mehr überblickt werden können. Dennoch scheinen mir die oben gezeigten Beispiele nahe zu legen, dass das Potential der digitalen Methoden weniger in der statistischen Validierung literaturwissenschaftlicher Thesen liegt, sondern sich eher in der Exploration entfaltet. Diese Exploration kann aber, so möchte ich im Folgenden anhand einiger Beispiele zeigen, durchaus neue Perspektiven auf hermeneutische Prozesse öffnen.

Meine Beispiele stammen dabei aus der mittelalterlichen deutschen Literatur, die aufgrund ihrer sprachlichen Verfasstheit und ihres Abstands zum modernen Literaturbetrieb vor besondere Herausforderungen bei der digitalen Analyse stellt: So sind etwa die mittelhochdeutschen und frühneuhochdeutschen Sprachstufen durch starke dialektale und zeitliche Varianz in der Schreibung geprägt, zudem reflektieren die schriftliche Zeugnisse eine zumindest partiell mündliche Textpraxis, die offenbar weniger stark durch poetologische Vorgaben vereinheitlicht ist als dies bei Texten der heutigen Zeit der Fall ist.

Diese weniger festgefügten Vorgaben betreffen zum Beispiel die Vorstellungen von Gattungen, die, als Einzeltext-übergreifende Kategorie, zu den bevorzugten Analysegegenständen digitaler Korpusanalysen gehören: Es gibt für die volkssprachige mittelalterliche Literatur keine normativen oder auch nur deskriptiven Gattungspoetiken, die Konventionen der Gattungen ergeben sich vor allem aus der Gebrauchssituation der Texte (Grubmüller 1999, S. 195).

Trotzdem – oder gerade deswegen – lassen sich Genres identifizieren, die sehr wohl ein ausgeprägtes sprachliches Profil auf der Textoberfläche zeigen und somit auch für den Computer erfassbar werden (vgl. Viehhauser 2017). Dies betrifft z. B. den Minnesang, also die mittelalterliche Spielart der Liebeslyrik, der sehr stark durch seine Ausgangskonstellation geprägt ist: Ein Sänger beklagt seine unerhörte Liebe zu einer Dame, die dem Schema gemäß nie erfüllt werden kann – was den Sänger letztlich dazu veranlasst, seine Situation im Sang zu reflektieren, wodurch sich das Sänger-Ich in der Doppelformel ich minne – ich singe konstatiert (vgl. zusammenfassend Kellner/Reichlin/Rudolph 2021). Diese Ausgangssituation bildet sich dementsprechend auch sehr klar an der Textoberfläche ab: Es überwiegen Ich-Aussagen, weshalb die entsprechenden Formen des Personalpronomens die häufigsten Wörter sind, ein Umstand, der sich auch gut quantitativ ausdrücken lässt. Noch dazu unterscheidet sich der Minnesang gerade dadurch besonders deutlich von anderen Formen mittelalterlichen Literatur, bei denen Ich-Aussagen eine geringere Rolle spielen als etwa in heutiger Literatur (so sind beispielsweise Ich-Erzählungen in der mittelhochdeutschen Literatur nicht üblich, Glauch 2010). Die Gattung bietet deshalb in ihrer Differenzqualität besonders gute Grundlagen für digitale Korpusanalysen.

Diese klare Unterscheidbarkeit setzt sich zudem auch in manchen Untergattungen des Sangs fort, etwa im Tagelied, das zwar auf der höfischen Minnekonzeption aufsetzt und daher der Minnelyrik zurechenbar ist, diese aber auf andere Weise verarbeitet: Statt um die in Ich-Form vorgebrachte Reflexion über die unerfüllte Liebe wird narrativ von einem Liebespaar erzählt, das die Nacht heimlich miteinander verbracht hat. Aufgrund der für den Minnesang konstitutiven Illegitimität ihrer Liebesbeziehung muss sich das Liebespaar jedoch am Morgen trennen, was erneut zur Klage führt (Mohr 2021, S. 534–535). Die Konstellation folgt damit einem in vielen Literaturen der Welt weit verbreiteten Schema (das seine berühmteste Ausprägung wohl in Shakespeares Romeo und Julia gefunden hat) und weicht von der üblichen Ausgangssituation des Minnesangs insbesondere insofern ab, als vom – zwar nur zeitlich begrenzten, aber doch – geglückten Vollzug der Liebesbeziehung berichtet wird. Davon kann aber offensichtlich nicht in der Ich-Form, sondern nur in der distanzierenden Er-Form erzählt werden, der Sänger darf sich nicht selbst rühmen, sondern weist den Liebeserfolg einem meist unkonkret bleibenden Ritter zu – und darin liegt nun ein wieder über das Personalpronomen nachzeichenbares Differenzkriterium zum Rest-Minnesang.

2.2 Kontrastive Analyse mittels TF/IDF

Dass die Untergattung jedoch nicht nur durch den Wechsel vom Ich zum Er identifizierbar wird, sondern auch durch ein offensichtlich recht festgefügtes Vokabular, kann durch eine kontrastive Analyse der Worthäufigkeiten mittels des im Information Retrieval gut eingeführten TF/IDF-Maßes deutlich gemacht werden (Spärck Jones 1972; vgl. Jurafsky/Martin 2023, S. 113–116).

Dem TF/IDF-Maß liegt der für viele digitale Analysen übliche Analogieschluss von der Häufigkeit eines Wortes auf dessen Bedeutsamkeit zu Grunde: Je öfter ein Wort im Text vorkommt, desto eher dürfte es sich für diesen Text als wichtig erweisen. Schon diese Annahme ist natürlich nicht voraussetzungsfrei, im Sinne des in der Theoriediskussion der Digital Humanities viel besprochenen Modellierungsansatzes (Flanders/Jannidis 2018) handelt es sich bei ihr um eine Vereinfachung, die aus pragmatischen Gründen getroffen wird. Modelle sind (etwa nach Stachowiak 1973) immer Abbilder der Wirklichkeit, die diese Wirklichkeit aber immer nur reduzierend wiedergeben, um einen bestimmten (Erkenntnis‑)Zweck zu erreichen. Mit digitalen Mitteln lässt sich Bedeutung (nicht zuletzt aufgrund der oben angesprochenen Mehrdeutigkeiten und Vagheiten der Sprache) nicht direkt beobachten, daher dient die Wortfrequenz als Indikator, der auf Bedeutungsphänomene hinweisen soll. Wie gut diese Voraussage zutrifft, bleibt daher Interpretationssache.

TF/IDF greift jedoch nicht nur wie ganz grundlegende Wortstatistiken auf die Wortfrequenzen zurück, sondern setzt diese in Relation zur sonstigen Auftrittswahrscheinlichkeit eines Wortes: Die Token Frequency (TF) eines Dokuments aus einem Korpus wird durch die Inverse Document Frequency (IDF) geteilt, also die Häufigkeit, mit der das Wort in allen anderen Dokumenten des Korpus auftritt. Dadurch rücken solche Wörter in den Vordergrund, die für das eine Dokument im Vergleich zu den anderen besonders charakteristisch und damit aussagekräftig erscheinen.

Abbildungen 1 und 2 zeigen nun eine Gegenüberstellung eines Teilkorpus mit Tageliedern und sonstigen Minneliedern. Die Wordcloud-Visualisierung zeigt die Wörter in den jeweiligen Teil-Korpora mit den höchsten TF/IDF-Scores, die Schriftgröße ist proportional zu diesem Maß.

Im Tagelied-Korpus (Abb. 1) scheinen diese Wörter stark mit der Figur des Wächters verknüpft, der insbesondere für die deutsche Ausprägung des Tagelieds typisch ist (vgl. Mohr 2021, S. 537). Der Wächter ist eine Art Bindeglied zwischen dem Liebespaar und der Gesellschaft, er weckt das Paar am Morgen und drängt zum Aufbruch. Neben den explizit auf die Figur verweisenden Formen wahtære und wahtærs dürften auch das horn und die Verben warne und rief auf den Wächter verweisen. Ganz sicher ist dies aber nicht, da die Warnung etwa auch durch einen Teil des Liebespaars erfolgen kann. Hier wäre die quantitative Analyse also bereits durch den Blick auf die Einzelstellen zu ergänzen.

Während der Befund also für die Wordcloud der Tagelieder literaturwissenschaftlich stimmig, aber gerade dadurch nicht besonders überraschend erscheint, liefert der Blick auf die Wordcloud zum Kontrastkorpus (alle Minnelieder, die nicht Tagelieder sind) einige vielleicht nicht ganz so selbstverständlichen Ergebnisse (Abb. 2). Zwar erscheint in der Wordcloud dienen, was man sozusagen als Gegenbegriff zur Tagelied-Situation interpretieren könnte (da dort der minne-Dienst ja schon absolviert wurde und partiell erfolgreich war), bei den anderen Begriffen würde bei einer konventionellen Lektüre aber vermutlich weniger auffallen, dass sie im Rest-Korpus im Vergleich zum Tageliedkorpus überrepräsentiert sind. Lachen, guoten, lop und wohl auch rôt dürften auf die Motivik des Frauenpreis verweisen, die wohl durchaus auch im Tagelied erscheinen könnte, dort aber offensichtlich nicht so exzessiv genutzt wird. Auch Natur-bezogene Begriffe wie walt und (im weiteren Sinn) winter wären mit der Tageliedsituation nicht unvereinbar, erscheinen aber nicht so häufig wie im Restkorpus. Dort lassen sie sich vermutlich mit dem Topos des Natureingangs in Zusammenhang bringen (der Sänger entwirft ein Bild der Jahreszeit und setzt sein Leid in Relation etwa zum erfreulichen Sommer oder dem beschwerlichen Winter), der sich insbesondere in der späten Minnesangproduktion einer besonderen Beliebtheit erfreut hat (zusammenfassend Lieb 2021; quantifizierend Viehhauser 2017).

Die Auswertungen legen also den Verdacht nahe, dass die Ausprägung bestimmter Minnelieder oder Minnesangphasen das Bild von der Gattung ›an sich‹ (das ja ohnedies nur eine analytische Konstruktion sein kann) dominieren. Für eine reflektierte Korpushermeneutik ist es daher nötig, sich einen Überblick über die zugrundeliegenden Korpora zu verschaffen. Diese stellen gerade bei mittelalterlicher Literatur vor besondere Herausforderungen, da aufgrund der besonderen Überlieferungssituation die Korpuszusammensetzung ohnedies immer nur selektiv erscheint: Mittelalterliche Texte sind durch immer wieder neu kopierte handschriftliche Abschriften erhalten, von denen viele im Überlieferungsprozess verloren gegangen sind. Minnelieder waren zudem für den mündlichen Vortrag gedacht, was sich auf deren Überlieferung ausgewirkt haben dürfte: Unser Bild von der Minnesangproduktion ist jedenfalls von drei Haupthandschriften geprägt, die zeitlich vermutlich ca. 100 Jahre nach der Entstehung der Lieder anzusiedeln und damit in ganz unterschiedliche Entstehungskontexte einzuordnen sind (Holznagel 2021). Die Menge der erhaltenen Texte ist (in Vergleich zu modernen Textkorpora) relativ gering, das hier verwendete Tageliedkorpus besteht etwa aus gerade Mal 52 Liedern mit 11.882 Tokens. Dem stehen 1011 Nicht-Tagelieder mit insgesamt 241.330 Token gegenüber.^{Footnote 8}

Damit statistische Methoden überhaupt greifen können, werden große Textmengen benötigt. Daher fällt es schwer, Texte aus dem Korpus auszuschließen, um dieses etwa repräsentativer zu gestalten. Wie gering die Anzahl der Belege sind, die etwa den in Abb. 1 und 2 gezeigten Auswertungen zugrunde liegen, wird erst mit einem genaueren Blick auf die Einzelstellen deutlich: Insgesamt kommt das in der TF/IDF-Darstellung am stärksten vertretene und durchaus charakteristisch wirkende Wort warne im Tageliedkorpus nur siebenmal vor. Obwohl die TF/IDF-Analyse also auf den ersten Blick ein stimmiges Bild bietet, erscheint es sinnvoll, dieses nicht als ›gegeben‹ hinzunehmen, sondern durch genauere, interpretative Textlektüren zu ergänzen.

Eine kontrastive Analyse von Gattungen und Untergattungen wie die hier gezeigte kommt zudem nicht ohne Vorannahmen hinsichtlich ihrer Kategorien aus: Im – ohnedies eingeschränkten - Gesamtkorpus habe ich nur Minnelieder berücksichtigt, nicht etwa den auch zur Lyrik gehörenden Sangspruch, der sich durch eine grundlegend andere Konstellation (der Sangspruch bietet in erster Linie lehrhafte Dichtung und politische Stellungnahmen) und auch stilistische Merkmale (die Ich-Form ist weit weniger dominant als bei der Minnelyrik) auszeichnet. Dennoch gibt es Lieder, die im Übergangsbereich der beiden Gattungen liegen (vgl. hierzu in Auswahl Tervooren 2000; Egidi 2002; Brem 2003; Klein et al. 2008; Egidi 2021). Die Entscheidung, ob diese in ein Korpus des Minnesangs aufgenommen werden oder nicht, ist also bis zu einem gewissen Grad Ermessenssache.^{Footnote 9}

Ebenso habe ich bereits im Vorhinein festgelegt, welche Lieder zur Gattung des Tagelieds gehören. Zwar ist die Tagelied-Situation derart festgefügt, dass dieses Sujet einen gewissen generischen Zusammenhalt gewährt, doch führt auch hier die Formenvielfalt zu Ausfransungen der Gattung an den Rändern. Auch das Tagelied ist daher als Gattungsform beschrieben worden, die sich durch ›Familienähnlichkeit‹ prototypentheoretisch charakterisieren lässt: Neben typischen Vertretern der Gattung gibt es weniger typische, bei denen die Zugehörigkeit zur Gattung fraglich wird (Hamm 2010). Bei der Vorauswahl gibt es dementsprechend ebenfalls Interpretationsspielraum.^{Footnote 10}

2.3 Topic Modeling

Wollte man nun einen solchen die Kategorien vorwegnehmenden Zugang vermeiden und auf diese Weise versuchen, die hermeneutische Vorarbeit und entsprechende Voreingenommenheiten einzusparen, ließe sich am ehesten auf unüberwachte Machine-Learning-Verfahren zurückgreifen. Diese bauen per Definition nicht auf vorausgehende Kategorisierungen und Klassifikationen auf, sondern zielen auf die selbständige Erkennung von Strukturen und Clustern durch den Computer ab.

Das wohl bekannteste dieser Verfahren, das in den Digital Humanities von Gebrauch ist, ist das so genannte Topic Modeling (Blei/Ng/Jordan 2003; vgl. den Überblick bei Horstmann 2018). Dieses Verfahren setzt auf dem Theoriegebäude der distributionellen Semantik auf, wonach sich die Bedeutung eines Wortes nicht aus sich selbst ergibt, sondern aus dem Kontext, in dem es erscheint. Das klassische Beispiel hierfür bietet das ambige Wort Bank, das, wenn es beispielsweise in einem Text mit anderen Begriffen aus der Finanzwelt erscheint, mit hoher Wahrscheinlichkeit in seiner Bedeutung als Finanzinstitut aufzufassen sein wird, im Kontext von Naturbegriffen eher als Parkbank. Zudem lässt sich an das Beispiel vom Beginn erinnern: Die Phrase hilft einfach dürfte mit höherer Wahrscheinlichkeit auf die Verwendung von einfach als Modalpartikel denn als Adverb hinweisen, für eine letztgültige Entscheidung ist jedoch nicht genügend Kontext vorhanden.^{Footnote 11}

Beim Topic Modeling wird die Kontextabhängigkeit von Bedeutungen insofern ausgenutzt, als vom überzufällig häufigen gemeinsamen Auftreten von Wörtern auf latent zugrundeliegende Variablen dieser Häufigkeitsverteilung geschlossen wird, die sich als Topic bzw. im weitesten Sinne als Themen interpretieren lassen.^{Footnote 12} Begegnen also etwa in einem Text häufig gemeinsam die Ausdrücke Schiff, Fisch, Netz oder Angel so wäre die Annahme des Algorithmus, dass die Wörter ein gemeinsames Topic bilden. Wie dieses Topic benannt werden soll (denkbar wäre z. B. Fischerei), kann jedoch der Computer nicht selbst entscheiden, sondern bleibt der menschlichen Interpretation überlassen. Auch die Anzahl der Topics, die der Computer identifizieren soll, muss vom menschlichen Benutzer festgelegt werden.

Diese Methode kann nun auch auf das Minnesang-Korpus angewendet werden. Für meine Analyse habe ich auf die LatentDirichletAllocation-Funktion des scikit-learn-Packages für Python zurückgegriffen (Pedregosa et al. 2011) und den Computer 15 Topics berechnen lassen.^{Footnote 13}

Tabelle 1 zeigt die für die fünfzehn Topics wichtigsten Wörter.^{Footnote 14} Neben ein paar generischen, aber wenig aussagekräftigen Topics, die bei einer solchen Analyse üblicherweise auftreten, finden sich nun in der Tat einige aufschlussreiche Themencluster. So erscheinen in Topic 1 mit tac und tage Schlüsselbegriffe für das Tagelied-Sujet.

Tab. 1 Die zehn wichtigsten Wörter für jedes Topic des Minnesang-Modells

Full size table

Auf dieser Basis ist es nun möglich, diejenigen Lieder zu bestimmen, für die der Computer einen hohen Anteil am Topic 1 ausgemacht hat; in weiterer Folge lässt sich daraus die Annahme treffen, dass diese Lieder Tagelieder sein sollten.

Tabelle 2 zeigt die dreißig Texte mit den höchsten Scores für Topic 1. Jenen Liedern, die ich (mit Knoop 1976) in der TF/IDF-Analyse dem Tageliedkorpus zugerechnet habe, ist die Buchstabenfolge TL vorangestellt. Lieder, die keine Tagelieder sind (oder sein sollten), tragen das Kürzel NT. Es zeigt sich, dass tatsächlich viele der mit TL gekennzeichneten Lieder in der Liste erscheinen, allerdings auch immer wieder Texte aus dem NT-Korpus. Einmal mehr muss die Analyse also durch die qualitative Beurteilung der Einzelbelege ergänzt werden.

Tab. 2 Die dreißig Texte mit dem höchsten Anteil an Topic 1

Full size table

Diese macht nun aber ersichtlich, dass sich die Einsprengsel von Liedern des NT-Teilkorpus gar nicht in dem Ausmaß auf Defizite des maschinellen Verfahrens zurückgeführt werden müssen, wie ein erster Blick auf die Ergebnisliste befürchten lässt. Lied 5 von Günther von dem Forste beispielsweise, das die Rangliste als dem NT-Korpus zugehöriges Lied überraschend anführt, ist nämlich bereits einer der generischen Grenzfälle, die oben angesprochen wurden. Knoop hatte die Aufnahme des Liedes in seine Liste der Tagelieder zunächst erwogen, den Text aber sozusagen in einem zweiten Durchgang durch das Material nachträglich ausgeschlossen: Das Lied nimmt nämlich sehr wohl von einer Tageliedsituation von Ritter und Dame, die nach einer Liebesnacht Abschied nehmen müssen, seinen Ausgang, dieses Setting wird aber in dem in jeder Hinsicht ungewöhnlichen Lied (es umfasst – untypischerweise für den Minnesang – nicht weniger als 23 Strophen) in einem umfangreichen Liebesdialog des scheidenden Liebespaars eingebettet und scheint in diesen Dialog regelrecht aufzugehen. Der ausschweifende Dialog konterkariert geradezu die normalerweise durch das Drängen zum Aufbruch geprägte flüchtige Tageliedsituation, diese wird generisch überformt.

Der nächste vermeintlich falsch eingeordnete Text, der in der Rangliste erscheint, ist Lied 6 von Reinmar. Hierbei handelt es sich jedoch um ein in der Forschung einschlägig bekanntes ›Anti-Tagelied‹, das sozusagen als radikale Form der Varianz des Grundmotivs die Gattungsform ins andere Extrem auslotet: In dem Lied beklagt das Ich nämlich, dass es sich bedauerlicherweise noch nie im Morgengrauen von einer Frau habe trennen müssen (Mohr 2021, S. 537; zur Tradition dieser Form des Gegentyps Müller 1971). Schließlich könnte auch das ebenfalls weit oben platzierte NT-Lied 59 von Walther einen solchen Gegentyp darstellen, es geht ebenfalls von einer Tageliedsituation aus, scheint aber »möglicherweise in ironischer Brechung, die gattungskonstituierenden Merkmale geradezu überzuerfüllen« (Mohr, S. 537) und wurde daher in der Forschung fallweise als Parodie des Gattungstypus angesehen.

2.4 Spatiale Typologien

Die nähere qualitative Hinsicht zeigt also, dass die maschinelle Analyse keinesfalls versagt hat, sondern auch solche Texte zu finden in Stande ist, die sich am Rande der Gattung bewegen. Gerade Beispiele wie diese haben in der konventionellen Forschung etwa Hamm (2010) dazu geführt, ein prototypensemantisches Modell als geeigneter für die Charakterisierung der Gattungsdynamiken des Tageliedes anzusehen als eine Kategorisierung mit festen Grenzen. An die Stelle von binären Ja-Nein-Entscheidungen, ob ein Lied zur Gattung des Tageliedes gehört, treten damit graduelle Einschätzungen:

»Graduelle Typikalität ist also die Maßeinheit, nach der sich die Zugehörigkeit eines Exemplars zu einer Kategorie bestimmt. Die Prototypentheorie ist insofern eine Theorie des ›mehr oder weniger‹. Die Frage nach der Zugehörigkeit zu einer Kategorie ist nicht mit ja oder nein zu beantworten: Es gibt typische und weniger typische Exemplare.« (Hamm 2010, S. 277).

Wie die Beispiele oben gezeigt haben, eignet sich aber nun überraschenderweise gerade der Computer trotz seiner im Digitalen angelegten Binarität durchaus dazu, ein solches »mehr oder weniger« nachzumodellieren: Topic Modelling gibt ja gerade nicht Klassifikationen an, sondern eben Wahrscheinlichkeitswerte, mit denen ein Text ein bestimmtes Topic enthält. Das heißt nun nicht, dass diese Wahrscheinlichkeitswerte den Anteil der Texte an bestimmten Gattungen genau beziffern, aber sie geben, ganz im Sinne des Modellierungsgedankens, quantitative Hinweise (die sich dann wiederum qualitativ interpretieren lassen). Hinzu kommt, dass für das Verfahren die Annahme, dass ein Text mehrere Topics enthält, nicht nur nicht ausgeschlossen, sondern im Gegenteil grundlegend ist, da eine Wahrscheinlichkeitsverteilung aller Topics über die einzelnen Texte berechnet wird.

Andrew Piper (2018, S. 66–93) hat darauf hingewiesen, dass Topics damit eine spatiale Struktur des permanenten Übergangs erhalten, die ihre buchstäbliche Bedeutung als Topoi akzentuiert.

»the topical spaces of computational topic modeling allow us to intuit a greater sense of the interwovenness of topical space, the differences that reside within these zones of similarity and the similarities that transcend the distinctions we traditionally draw around authors, genres, periods, books, or even ›ideas.‹ Computational topics reframe the post-structural project of intertexuality, not so much as the presence of one text in another, as a form of citation, but in a sense of dedifferentiation, where the text contains a multiplicity within itself that can never entirely be accounted for. Quantification serves in this sense not as an entry into the empirical and the definitive, but the conjectural and the interpretive.« (Piper 2018, S. 92–93)

Dieser Gedanke der Spatialisierung lässt sich nun im Fall des Topic Modelling noch weiterführen. Abbildung 3 zeigt eine Visualisierung der Topics und der Teiltexte des Korpus in ihrer Anordnung in einem zweidimensionalen Raum. Eine solche Anordnung wird durch Verfahren wie dem hier zum Einsatz gebrachten t‑distributed stochastic neighbor embedding-Algorithmus (kurz tSNE) ermöglicht (van der Maaten/Hinton 2008).^{Footnote 15} tSNE ist eine Methode zur Dimensionsreduktion in großen Datensätzen, mittels der hochdimensionale Datensätze auf der x‑ und y‑Achse eines Koordinatensystems angezeigt werden können.

Die Abbildung zeigt nun die einzelnen Minne-Lieder als Punkte, für die jeweils jenes Topic bestimmt wurde, das nach den Vorhersagen des Modells am prägendsten für diesen Text ist. Die Farbgebung erfolgt nach diesem Topic. Punkte mit gleicher Farbe haben also dasselbe Haupttopic. Die Nähe der Lieder zueinander hinsichtlich ihrer Topic-Verteilung wird nun durch ihre räumliche Verteilung angezeigt. Dadurch bilden sich Cluster, in deren Mitte zusätzlich noch die sechs wichtigsten Wörter für das Topic in derselben Farbe abgebildet sind. Diese Cluster können mehr oder minder fest gefügt sein, was auf ein stärker oder schwächer ausgeprägte Homogenität der Textgruppen hindeutet, die sich durch das Haupttopic zusammenbündeln lassen.

Die Texte, für die das Tageliedtopic (charakterisiert durch liebe, sprach, vrouwe, tac, minne, liep) am verbindlichsten sind, sind in der Abbildung blau markiert und in der linken oberen Ecke versammelt. Während viele der blauen Punkte unvermischt im Kernbereich des Topics liegen, gibt es an den Rändern einzelne Lieder, die in die anderen Cluster ausgreifen, ebenso gibt es Lieder aus den anderen Clustern, die in den Bereich der blauen Punkte übergreifen: Typischen Vertretern des Clusters stehen also untypische gegenüber.

Noah Bubenhofer hat darauf hingewiesen, dass Visualisierungen in der Korpuslinguistik diagrammatische Operationen darstellen, die zumeist eine Desequenzialisierung und eine Verräumlichung mit sich bringen (Bubenhofer 2018). Als diagrammatische ›Denkzeuge‹ (Krämer 2016, S. 83) bleiben sie dabei der Analyse nicht bloß äußerlich, sondern prägen die Gegenstandskonstitution. Dies trifft nun auch für den vorliegenden Fall zu: Die zweidimensionale Visualisierung erlaubt es, Gattungen eher als typologisch denn als kategorisch zu verstehen und auf diese Weise generische Mehrdeutigkeiten sozusagen im Raum anzuordnen.

Das Lied 5 beispielsweise von Günther von dem Forste setzt zweifellos auf den Konventionen des Tageliedes auf, vermischt diese aber mit dem Erwartungshorizont des Dialogliedes.

Wollte man räumliche Verteilungen wieder auf Zahlen herunterbrechen, ließe sich ein solcher Text dann mit einer Art ›generischem Fingerprint‹ beschreiben, wie er in Tabelle 3 zu sehen ist, der die Topic-Wahrscheinlichkeiten des Liedes von Günther von dem Forste wiedergibt und damit auf das »Mehr oder weniger« der Gattungszuordnung hinweist anstelle auf eine binäre Entscheidung.

Tab. 3 Topic-Anteile des Liedes 5 von Günther von dem Forste

Full size table

Freilich zeigt gerade dieses Beispiel, dass eine solche diagrammatische Transformation zwar einen theoretischen Rahmen vorgibt, aber dann immer noch feinjustiert werden muss: Denn für das hier generierte Topic Model war das Lied ja gerade kein untypischer Text für Topic 1, sondern im Gegenteil der typischste.^{Footnote 16} Obwohl die Annäherung über das Topic 1, wie die Auswertung der Tabelle wohl unzweifelhaft deutlich gemacht hat, also Hinweise auf die generische Faktur geben kann, ist sie mit dieser offensichtlich nicht eins-zu-eins identisch.

Auch insgesamt gesehen darf der Modellcharakter einer solchen Quantifizierung wohl nicht übersehen werden. Die Zahlen geben eben nicht exakt an, wie sehr das Lied Anteil an einzelnen Gattungen hat, sondern sind gleichsam im uneigentlichen Sinn zu verstehen: Sie geben Anhaltspunkte für eine Einteilung, bieten dem hermeneutischen Prozess eine Hilfestellung, ersetzen ihn aber nicht. Die Entscheidung, ob das, was wahrscheinlich ist, auch plausibel erscheint, bleibt letztlich auch hier Ermessenssache. Im vorliegenden Fall der Gattungsanalyse ergibt sich das schon daraus, dass Gattungen multifaktiorelle Gebilde sind, die sich vermutlich nicht immer bzw. sogar nur selten so eindeutig inhaltsbezogen differenzieren lassen werden wie das Tagelied, das sich gerade durch den Kontrast seines Sujets von den anderen Minneliedern so stark unterscheidet.^{Footnote 17}

3 Fazit

Ich komme damit zu einem kurzen Fazit. Wie ich mit meinen Eingangsbeispielen versucht habe deutlich zu machen, erscheint es mir aufgrund der Komplexität von Bedeutungsprozessen nötig, in der digitalen Textanalyse quantitative Verfahren durch qualitative zu ergänzen. Dies scheint mir aber gerade kein Nachteil zu sein, sondern im Gegenteil das eigentlich produktive an digitalen Auswertungen.

Gerade in der Anwendung quantitativer Verfahren – insbesondere, da diese durch Wahrscheinlichkeitsrechnungen und spatiale Desequenzialisierungen des Materials in der diagrammatischen Visualisierung geprägt sind – ergeben sich nämlich neue, hermeneutisch relevante Formen, die mit qualitativ gewonnenen Einschätzungen kontrastiert werden können. Die digitale Korpushermeneutik bietet damit nicht nur die Möglichkeit zu einer verbesserten Exploration, die der hermeneutischen Interpretation als Material zur Verfügung gestellt werden kann, sondern wirkt sich prägend auf hermeneutische Kategorisierungen und Einschätzungen aus. Sie bietet zudem die Gelegenheit, die Perspektivität und die Modellhaftigkeit der Verfahren zu reflektieren und damit die Standortgebundenheit des interpretatorischen Tuns ins Bewusstsein zu rufen. Dies gilt, trotz der Schwierigkeiten, die mittelalterliche Texte für die maschinelle Sprachverarbeitung bieten, auch und vielleicht gerade für diese Art von Texten, die weniger durch printzeitliche Konventionen geprägt und damit digitalen, ebenfalls nicht dem Druckparadigma verpflichteten Zugangsweisen durchaus nicht unähnlich sind.

Notes

Solche quantitativ gewonnenen Ergebnisse umfassen im Rahmen der digitalen Textanalyse etwa die Ergebnisse von Frequenzanalysen oder die – daraus abgeleiteten – Wahrscheinlichkeitswerte für Kollokationsbeziehungen.
Scalable Reading wurde von dem Anglisten Matthias Mueller (Mueller 2014) im Zuge der Diskussion um Franco Morettis ›Distant Reading‹-Konzept (Moretti 2000) als Begriff eingeführt. Der Ansatz plädiert dafür, zwischen der qualitativ ausgerichteten Mikroperspektive des Close reading und dem quantitativen, makroanalytischen Distant Reading hin und her zu schalten.
Zum Bedeutungsrahmen von einfach vgl. Spreckels 2009 sowie Autenrieth 2002. Ich danke Simon Meier (Dresden) für Hinweise zum Thema.
Vgl. hierzu die kognitionswissenschaftliche Deutung von Polyvalenz bei Jannidis 2003, S. 324.
Die Dichotomie von im Text angelegter Doppeldeutigkeit und einer Rezeptionshaltung, die Doppeldeutigkeit in Kauf nimmt oder gar sucht, verweist auf die begriffliche Unterscheidung von Polysemie und Polyvalenz, vgl. hierzu Specht 2012, S. 22–25; zum Stellenwert der Pragmatik bei der Bestimmung von Polyvalenz insbesondere S. 23.
Insofern scheint mir die Zuschreibung von literarischer Qualität an komplexe Texte nicht überraschend zu sein. Vgl. zur Kritik von Doppeldeutigkeit als Qualitätskriterium jedoch Jannidis 2003, zur Geschichte der Wertschätzung von Polyvalenz Specht 2012.
In der Übersetzung von Peter Knecht: »Schande und Schmuck sind beieinander, wo eines Mannes unverzagter Mut konfus gemustert gehen will wie Elsternfarben. Trotzdem, der kann doch noch glücklich sein, denn an ihm ist etwas von beiden: vom Himmel und von der Hölle. Wer sich mit der Treulosigkeit zusammentut, der hat die schwarze Farbe ganz und muß auch nach der Finsternis geraten. Und so hält der, der fest steht und treu, es mit den Weißen«. Text und Übersetzung werden zitiert nach der Ausgabe von Schirok (Wolfram von Eschenbach 2003).
Ich lege hier dasselbe Korpus zu Grunde wie in meinem Aufsatz Viehhauser 2018 (dort auch eine detaillierte Aufstellung der herangezogenen Autorkorpora): Da Minnesang-Editionen zwar die handschriftlich überlieferten Texte in der Regel normalisieren, dabei aber nach unterschiedlichen Kriterien verfahren, habe ich versucht, die Grundlage möglichst homogen zu halten und auf einige wenige der gängigen Anthologien zurückzugreifen, und zwar Minnesangs Frühling, Carl von Kraus’ Liederdichter und Schweizer Minnesänger, die zusammen aber immerhin einen großen Teil der erhaltenen Minnesangproduktion abdecken. Hinzu kommt die Ausgabe der Lieder Walthers von der Vogelweide und Konrads von Würzburg sowie schließlich ein paar verstreute Ausgaben, die jene Lieder beinhalten, die im einschlägigen Verzeichnis der Tagelieder bei Knoop 1976 enthalten sind. Die Texte sind in digitaler Form aus der Mittelhochdeutschen Begriffsdatenbank bezogen (Mittelhochdeutsche Begriffsdatenbank 1992), die Materialien zur Auswertung werden auf der Github-Seite https://github.com/Gabvie/Tagelied zur Verfügung gestellt.
Um die Entscheidung einigermaßen zu objektivieren, habe ich mich an die Zuordnungen des Verfasserlexikons gehalten.
Diesen Spielraum habe ich im vorliegenden Fall insofern eingeschränkt, als ich mich an die einschlägige Auswahl bei Knoop 1976 gehalten habe.
Anders dürfte der Fall bei Kombinationen wie geht einfach oder klingt einfach liegen, hier liegt ohne weiteren Kontext die Bedeutung von einfach als Adverb nahe.
Es ist jedoch schon früh in der Geschichte der Methode darauf hingewiesen worden, dass nicht alle Topics auch Themen im inhaltlichen Sinn sind. In den Topics können sich auch andere Arten von Word-Clustern wie etwa Fremdwörter oder Zeitbegriffe formieren (vgl. Underwood 2012). Fast mehr noch als Themen sind topics daher tatsächlich so etwas wie topoi, auch wenn hier die Analogie nicht bis ins Letzte stimmt. Ich lasse den Begriff unübersetzt.
Dafür und für die folgende t‑SNE-Darstellung habe ich den Code von Shah 2021 verwendet und modifiziert. Parameter für die LDA-Modellierung waren neben den Default-Werten die learning-method batch, 1500 Iterationen sowie ein doc_topic_prior von 1 (das dem Alpha-Wert entspricht, siehe https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.LatentDirichletAllocation.html).
Die Modellierung weicht in den Details von meinen Darstellungen in Viehhauser 2017 und Viehhauser 2018 ab, insbesondere, da ich die Texte bei der Analyse hier im Gegensatz zu dort normalisiert habe, und zwar mit dem RNN-Tagger (Schmid 2019).
Zur Erstellung wurde den Code von Shah 2021 verwendet und modifiziert. Die Visualisierung beruht auf dem Bokeh-Package für Python (Bokeh Development Team 2018).
Der Grund dafür mag gerade in der gattungsuntypischen Länge des Liedes liegen, die die Zahl der möglichen Bezüge auf Tagelied-Motive absolut gesehen erhöht haben könnte, selbst wenn die relative Frequenz dieser Bezüge durch die Gattungsmischung abgenommen haben mag.
Dies zeigt auch der Umstand, dass in meiner Analyse in Viehhauser 2018, die auf einem Topic Modelling des unnormalisierten Korpus basiert, sich zwar auch klar ein Tagelied-spezifisches Topic abzeichnet, das Lied 5 von Günther von dem Forste aber lediglich einen Anteil von 3,89 Prozent an diesem Topic hat und damit statt an erster Stelle wie hier auf Platz 167 des Rankings erscheint – und damit an letzter Stelle der von Knoop überhaupt als Tagelieder in Erwägung gezogenen Texte. Topic Models sind aufgrund der in mehreren Trainings-Durchgängen erfolgenden statistischen Schätzung unstabile Verfahren, das macht sie aus meiner Sicht jedoch eben nicht unbrauchbar, denn die grundsätzliche Erkenntnis bleibt meines Erachtens die gleiche: Texte können mehr oder weniger stark ausgeprägte Tagelieder sein, und dies wird mit den Topic-Anteilen zwar nicht eins-zu-eins bezifferbar, aber eben modellierbar.

Literatur

Autenrieth, Tanja (2002): Heterosemie und Grammatikalisierung bei Modalpartikeln. Eine synchrone und diachrone Studie anhand von eben, halt, e(echer)t, einfach, schlicht und glatt. Tübingen: Niemeyer.
Google Scholar
Blei, David Meir/Ng, Andrew Y./Jordan, Michael Irwin (2003): Latent Dirichlet Allocation. In: Journal of Machine Learning Research 3(4-5), S. 993–1022.
Google Scholar
Bokeh Development Team (2018). Bokeh: Python library for interactive visualization. In: http://www.bokeh.pydata.org (6.12.2023).
Brackert, Helmut (2000): Zwîvel. Zur Übersetzung und Interpretation der Eingangsverse von Wolframs von Eschenbach ›Parzival‹. In: Mark Chinca/Joachim Heinzle/Christopher Young (Hg.): Blütezeit. Festschrift für L. Peter Johnson zum 70. Geburtstag. Tübingen: Niemeyer, S. 335–348.
Google Scholar
Brem, Karin (2003): Gattungsinterferenzen im Bereich von Minnesang und Sangspruchdichtung des 12. und beginnenden 13. Jahrhunderts. Berlin: Weidler. (Studium litterarum 5).
Bubenhofer, Noah (2018): Visualisierungen in der Korpuslinguistik. In: Marc Kupietz/Thomas Schmidt (Hg.): Korpuslinguistik. Berlin/Boston: De Gruyter, S. 27–60.
Chapter Google Scholar
Bumke, Joachim (1997): Wolfram von Eschenbach. Stuttgart/Weimar: Metzler.
Book Google Scholar
Egidi, Margreth (2002): Höfische Liebe: Entwürfe der Sangspruchdichtung. Literarische Verfahrensweisen von Reinmar von Zweter bis Frauenlob. Heidelberg: Winter.
Google Scholar
Egidi, Margreth (2021): Sangspruch – Minnesang. In: Beate Kellner/Susanne Reichlin/Alexander Rudolph (Hg.): Handbuch Minnesang. Berlin/Boston: De Gruyter, S. 600–609.
Chapter Google Scholar
Flanders, Julia/Fotis Jannidis (Hg.) (2018): The Shape of Data in Digital Humanities. Modeling Texts and Text-based Resources. London: Routledge.
Google Scholar
Glauch, Sonja (2010): Ich-Erzähler ohne Stimme. Zur Andersartigkeit mittelalterlichen Erzählens zwischen Narratologie und Mediengeschichte. In: Harald Haferland/Matthias Meyer (Hg.): Historische Narratologie – Mediävistische Perspektiven. Berlin/New York: De Gruyter, S. 149–186. (Trends in medieval philology, 19).
Chapter Google Scholar
Grubmüller, Klaus (1999): Gattungskonstitution im Mittelalter. In: Nigel F. Palmer/Hans-Jochen Schiewer (Hg.): Mittelalterliche Literatur und Kunst im Spannungsfeld von Hof und Kloster. Ergebnisse der Berliner Tagung, 9.–11. Oktober 1997. Tübingen: Niemeyer, S. 193–210.
Chapter Google Scholar
Hamm, Joachim (2010): Ain tagweis. Überlegungen zu einem prototypentheoretischen Beschreibungsmodell des spätmittelalterlichen Tagelieds. In: Archiv 2, S. 265–283.
Google Scholar
Holznagel, Franz-Josef (2021): Handschriften, Handschriftentypen und Sammlungszusammenhänge. In: Beate Kellner/Susanne Reichlin/Alexander Rudolph (Hg.): Handbuch Minnesang. Berlin/Boston: De Gruyter, S. 19–48.
Chapter Google Scholar
Horstmann, Jan (2018): Topic Modeling. In: forTEXT. Literatur digital erforschen. In: https://fortext.net/routinen/methoden/topic-modeling (6.12.2023).
Jakobson, Roman (2007): Linguistik und Poetik. In: Ders.: Poesie der Grammatik und Grammatik der Poesie. Sämtliche Gedichtanalysen. Kommentierte deutsche Ausgabe. In: Hendrik Birus/Sebastian Donat (Hg.): Poetologische Schriften und Analysen zur Lyrik vom Mittelalter bis zur Aufklärung. Bd. 1. Berlin/New York: De Gruyter, S. 155–216.
Google Scholar
Jannidis, Fotis (2003): Polyvalenz – Konvention – Autonomie. In: Fotis Jannidis/Gerhard Lauer/Matías Martínez/Simone Winko (Hg.): Regeln der Bedeutung. Zur Theorie der Bedeutung literarischer Texte. Berlin/New York: De Gruyter, S. 305–328.
Chapter Google Scholar
Jurafsky, Daniel/Martin, James H.: Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Third Edition draft. In: https://web.stanford.edu/~jurafsky/slp3/ (6.12.2023).
Kellner, Beate/Susanne Reichlin/ Alexander Rudolph (2021): Einführung. In: Beate Kellner/ Susanne Reichlin/Alexander Rudolph (Hg.): Handbuch Minnesang. Berlin/Boston: De Gruyter, S. 1–15.
Chapter Google Scholar
Klein, Dorothea/Trude Ehlert/Elisabeth Schmid (Hg.) (2008): Sangspruchdichtung. Gattungskonstituenten und Gattungsinterferenzen im europäischen Kontext. Tübingen, Niemeyer.
Google Scholar
Knoop, Ulrich (1976): Das mittelhochdeutsche Tagelied. Inhaltsanalyse und literarhistorische Untersuchung. Marburg: Elwert.
Google Scholar
Krämer, Sybille (2016): Figuration, Anschauung, Erkenntnis: Grundlinien einer Diagrammatologie. Frankfurt am Main: Suhrkamp.
Google Scholar
Lieb, Ludger (2021): Natur und Natureingang. In: Beate Kellner/Susanne Reichlin/Alexander Rudolph (Hg.): Handbuch Minnesang. Berlin/Boston: De Gruyter, S. 410–420.
Chapter Google Scholar
van der Maaten, Laurens/Hinton, Geoffrey (2008): Visualizing high-dimensional data using t‑SNE. In: Journal of Machine Learning Research 9, S. 2579–2605.
Google Scholar
Mittelhochdeutsche Begriffsdatenbank (MHDBDB). Universität Salzburg. Koordination: Katharina Zeppezauer-Wachauer. Seit 1992. In: http://www.mhdbdb.plus.ac.at/ (6.12.2023).
Mohr, Jan (2021): Tagelied. In: Beate Kellner/Susanne Reichlin/Alexander Rudolph (Hg.): Handbuch Minnesang. Berlin/Boston: De Gruyter, S. 534–542.
Chapter Google Scholar
Moretti, Franco (2000): Conjectures on World Literature. In: New Left Review 1, S. 54–68.
Google Scholar
Mueller, Martin (2014): Shakespeare His Contemporaries: collaborative curation and exploration of Early Modern drama in a digital environment. In: Digital Humanities Quarterly 8. In: http://digitalhumanities.org:8081/dhq/vol/8/3/000183/000183.html (2.12.2023).
Müller, Ulrich (1971): Ovid ›Amores‹ – alba – tageliet. Typ und Gegentyp des ›Tageliedes‹ in der Liebesdichtung der Antike und des Mittelalters. In: Deutsche Vierteljahrsschrift für Literaturwissenschaft und Geistesgeschichte 45, S. 451–480.
Article Google Scholar
Pedregosa, Fabian/Varoquaux, Gaël/Gramfort, Alexandre/Michel, Vincent/Thirion, Bertrand/Grisel, Olivier/Blondel, Mathieu/Prettenhofer, Peter/Weiss, Ron/Dubourg, Vincent /Vanderplas, Jake/Passos, Alexandre/Cournapeau, David/Brucher, Matthieu/Perrot, Matthieu/Duchesnay, Édouard (2011): Scikit-learn: Machine Learning in Python. In: Journal of Machine Learning Research 12, S. 2825−2830.
Google Scholar
Piper, Andrew (2018): Enumerations. Data and Literary Study. Chicago/London: The Chicago University Press.
Book Google Scholar
Schirok, Bernd (2011): Themen und Motive. In: Joachim Heinzle (Hg.): Wolfram von Eschenbach. Ein Handbuch 1. Berlin/Boston: De Gruyter, S. 366–410.
Chapter Google Scholar
Schmid, Helmut (2019): Deep Learning-Based Morphological Taggers and Lemmatizers for Annotating Historical Texts. In: Proceedings DATeCH. In: https://www.cis.uni-muenchen.de/%7Eschmid/papers/Datech2019.pdf (2.12.2023).
Shah, Yash (2021): Topic Modelling basics [LDA, LSA and t‑SNE]. In: https://www.kaggle.com/code/yash161101/topic-modelling-basics-lda-lsa-and-t-sne (2.12.2023).
Spärck Jones, Karen (1972): A Statistical Interpretation of Term Specificity and Its Application in Retrieval. In: Journal of Documentation 28, S. 11–21. https://doi.org/10.1108/eb026526.
Article Google Scholar
Specht, Benjamin (2012): Polyvalenz – Autonomieästhetik – Kanon. Überlegungen zum Zusammenhang von Textstruktur und historischer Ästhetik bei der Herausbildung des deutschsprachigen Literaturkanons. In: Matthias Beilein/Claudia Stockinger/Simone Winko (Hg.): Kanon, Wertung und Vermittlung. Literatur in der Wissensgesellschaft. Berlin/Boston: De Gruyter, S. 19–39.
Google Scholar
Spreckels, Janet (2009): »ich hab einfach gedacht« – Stellungnahme und Positionierung durch einfach in Erklärinteraktionen. In: Susanne Günthner/Jörg Bücker (Hg.): Grammatik im Gespräch. Konstruktionen der Selbst- und Fremdpositionierung. Berlin/New York: De Gruyter, S. 115–146.
Chapter Google Scholar
Stachowiak, Herbert (1973): Allgemeine Modelltheorie. Wien/New York: Springer.
Book Google Scholar
Tervooren, Helmut (2000): Gattungen und Gattungsentwicklung in mittelhochdeutscher Lyrik. In: Susanne Fritsch/Johannes Spicker (Hg.): Schoeniu wort mit süezeme sänge. Philologische Schriften. Berlin: Schmidt, S. 163–174. (Philologische Studien und Quellen 159).
Google Scholar
Underwood, Ted (2012): What kinds of »topics« does topic modeling actually produce? In: https://tedunderwood.com/2012/04/01/what-kinds-of-topics-does-topic-modeling-actually-produce/ (6.12.2023)
Viehhauser, Gabriel (2017): Digitale Gattungsgeschichten. Minnesang zwischen generischer Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften. https://doi.org/10.17175/2017_003.
Article Google Scholar
Viehhauser, Gabriel (2018): Digital Humanities ohne Computer? Alte und neue quantifizierende Zugänge zum mittelhochdeutschen Tagelied. In: Toni Bernhart/Marcus Willand/Marcel Lepper/Sandra Richter/Andrea Albrecht (Hg.): Quantitative Ansätze in den Literatur- und Geisteswissenschaften. Systematische und historische Perspektiven. Berlin/Boston: De Gruyter, S. 173–203. In: https://www.degruyter.com/downloadpdf/books/9783110523300/9783110523300-008/9783110523300-008.pdf (6.12.2023).
Chapter Google Scholar
Winko, Simone (2015): Zur Plausibilität als Beurteilungskriterium literaturwissenschaftlicher Interpretationen. In: Andrea Albrecht/Lutz Danneberg/Olav Krämer/Carlos Spoerhase (Hg.): Theorien, Methoden und Praktiken des Interpretierens. Berlin/Boston: De Gruyter, S. 483–511.
Chapter Google Scholar
Wolfram von Eschenbach (2003): Parzival. Studienausgabe. Mittelhochdeutscher Text nach der sechsten Ausgabe von Karl Lachmann. Übersetzung von Peter Knecht. Mit Einführungen zum Text der Lachmannschen Ausgabe und in Probleme der ›Parzival‹-Interpretation von Bernd Schirok. Berlin/New York: De Gruyter.
Book Google Scholar

Download references

Funding

Open access funding provided by University of Vienna.

Author information

Authors and Affiliations

Institut für Europäische und Vergleichende Sprach- und Literaturwissenschaft, Universität Wien, Wien, Österreich
Gabriel Viehhauser

Authors

Gabriel Viehhauser
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Gabriel Viehhauser.

Additional information

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Rights and permissions

Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.

Reprints and permissions

About this article

Cite this article

Viehhauser, G. Nur wahrscheinlich oder schon plausibel?. Z Literaturwiss Linguistik 54, 319–338 (2024). https://doi.org/10.1007/s41244-024-00340-7

Download citation

Received: 31 October 2023
Accepted: 30 December 2023
Published: 06 May 2024
Issue Date: June 2024
DOI: https://doi.org/10.1007/s41244-024-00340-7

Schlüsselwörter

Keywords

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

Nur wahrscheinlich oder schon plausibel?

Zusammenfassung

Abstract

1 Vorbetrachtung: Warum die Bedeutung von literarischen Texten nicht einfach formalisiert werden kann

2 Exploration und Hermeneutik – das mittelhochdeutsche Tagelied als Beispiel

2.1 Ausgangslage

2.2 Kontrastive Analyse mittels TF/IDF

2.3 Topic Modeling

2.4 Spatiale Typologien

3 Fazit

Notes

Literatur

Funding

Author information

Authors and Affiliations

Corresponding author

Additional information

Hinweis des Verlags

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Search

Navigation