1 Methodische Vorüberlegungen

In unserer wissenschaftlichen Arbeit schätzen wir die Theorie bloß als Arbeitshypothese, mittels derer die Fakten entdeckt werden und einen Sinn bekommen: in ihrer Gesetzmäßigkeit sowie als Material der Forschung. […] Wir stellen konkrete Grundsätze auf und halten uns daran, sofern sie vom Material verifiziert werden.

Boris EjchenbaumFootnote 1

Zu den Innovationen Digitaler Literaturwissenschaft gehört die Entwicklung methodenkritischer Perspektiven für das eigene Fach, die grundsätzlich die Frage betreffen, wie wissenschaftlich gedacht und analysiert werden soll. Mehr als die anderen hermeneutischen Textwissenschaften ist die Literaturwissenschaft in den Bereichen, die der Cultural Turn geprägt hat, von einem Theorienpluralismus bestimmt worden, in dem sich die Ansätze nur selten wechselseitig erhellen konnten. Eine Ursache dafür ist die unterschwellige Ähnlichkeit im methodischen Vorgehen, die von den theoretischen Eigenheiten weitgehend verdeckt worden ist. Ohne viel Beachtung und selbstverständlich mit nicht wenigen Ausnahmen konnte ein verifikationsorientierter Denkstil dominant werden, der darauf zielte, die jeweilige These oder Theorie in der Textinterpretation zu belegen. Dagegen ist grundsätzlich nichts einzuwenden, Stellenlektüre gehört zum kritischen Inventar hermeneutischer Techniken. Wichtig ist aber, sich der Tatsache bewusst zu sein, dass es sich dabei um ein bestimmtes methodisches Vorgehen handelt, dessen Nutzen wie bei jedem anderen Verfahren einen Preis hat. Wer verifikationsorientiert denkt, wird das, was die Theorie stützt, immer stärker würdigen als das, was nicht dazu passt.

Zweifellos ist ein solcher Confirmation Bias nicht auf die Geisteswissenschaften beschränkt. Die Entwicklung der Literaturwissenschaft zur digitalen Fachwissenschaft macht es aber in jedem Fall notwendig, auch alternative Ansätze zu entwickeln. Digitale Textanalyse bedarf einer empirischen Perspektive und muss statistische Zusammenhänge berücksichtigen, was wiederum einen anderen Umgang mit eigenen Theorien verlangt. Als ‚wissenschaftlich‘ wird eine These demnach angesehen, wenn Daten denkbar sind, die sie als falsch erweisen. Oder anders gewendet: mit Thesen, die nicht an der Realität des untersuchten Materials scheitern können, lässt sich kein kritischer Diskurs über etwas führen.Footnote 2 Das Risiko, falsch zu liegen, und die Möglichkeit von Kritik gehören unmittelbar zusammen. Weil das so ist, sollten digitale Analysen auch nicht rein explorativ verfahren. In fast jeder Studie sind explorative Phasen und Zwischenschritte notwendig, um einen neuen Gedanken, ein Modell zu testen oder die Parameter eines Tools zu optimieren. Wer aber im Ganzen oder generell so verfährt, reproduziert unweigerlich das Problem, das allen explorativen Untersuchungen anhaftet: Sie werden so lange durchgeführt, bis man mit dem Ergebnis zufrieden ist. Auch das ist keine günstige Voraussetzung für einen kritischen Diskurs in der Wissenschaft. Geeigneter dafür erscheint ein hypothesengeleitetes Vorgehen, das sich empirisch auf Theorien stützt, die dann scheiternd oder sich bewährend gleichermaßen von Interesse sind.

Unsere hypothetischen Überlegungen zum Deutschen Novellenschatz der Herausgeber Paul Heyse und Hermann Kurz haben ihren Ausgangspunkt beim Status und der Selbstverortung dieser historischen Sammlung innerhalb der literarischen Kommunikation ihrer Zeit (1871–1876) genommen.Footnote 3Sie umfasst 86 Texte, die nach in der Einleitung niedergelegten Prinzipien (‚Falkentheorie‘) von den Herausgebern unter eindeutiger Federführung Heyses als Novellen klassifiziert worden sind. Diese Theorie hat uns bislang hauptsächlich als eine realistische Gattungspoetik interessiert, die auf zwei grundlegende Fragen im Zeitalter literarischer Massenproduktion zu antworten versucht: Wie schreibt man im Bewusstsein massenhafter Ähnlichkeit auf dem literarischen Markt, wie kann man sich überhaupt noch unterscheiden? Und wie schreibt man unter diesen Bedingungen Literaturgeschichte?Footnote 4 Die Idee hinter der Falkentheorie ist ein einfacher Test. Die „einfache Form“ der Novelle soll so genutzt werden, dass „das Spezifische“ eines Sujets herausgearbeitet wird, „das diese Geschichte von tausend anderen unterscheidet“.Footnote 5 Dabei entwickelt sich im Bewusstsein der notwendigen Distinktion auf dem literarischen Massenmarkt eine zeitgemäße Vorstellung von Originalität, die sich differenziell als Distanzmaß des einzelnen Textes zum Gesamtkorpus der Gattung bestimmt. Diese handreichungsartige Novellentheorie steht in systematischem Zusammenhang mit den Prinzipien der Textauswahl für den Novellenschatz. So, wie die Schriftstellerinnen und Schriftsteller angehalten werden, ihren jeweiligen Text schon in dem Bewusstsein sehr vieler ähnlicher Texte zu verfassen, sehen sich die Herausgeber auf der Suche nach geeigneten Novellen mit überwältigenden Textmassen konfrontiert. Das ursprüngliche Konzept einer chronologischen Literaturgeschichte der deutschsprachigen Novellistik scheitert daran. An seine Stelle tritt ein anderer Ansatz, der auf der Basis der formalen Gemeinsamkeiten, die die Novellengattung verbürgt, Stilveränderungen zwischen den Epochen – vor allem zwischen Romantik und Realismus – beobachten will. Die literaturgeschichtlichen Ambitionen der Sammlung erfüllen sich am ehesten über solche Formreihen und Gruppierungsversuche, die anfangen, Literaturgeschichte als Geschichte der Form zu praktizieren.Footnote 6

2 Vorarbeiten: „Stylometry beyond attribution“

Maciej Eder, „Visualization in stylometry. Cluster analysis using networks, in: Digital Scholarship in the Humanities 32/1 (2017), 50–64, hier: 53.

Die Orientierung der Herausgeber an Gruppierungen und Formreihen nach dem Kriterium ‚Stil‘ und ihr Bewusstsein für die Ähnlichkeit und Distinktivität von Texten innerhalb von Gruppen und großen Textmengen lässt die Idee des Distanzmaßes auch im Sinne einer messbaren Größe als angemessen und für die statistische Korpusanalyse geeignet erscheinen. Wie viele auf dem Gebiet der literaturwissenschaftlichen Stilometrie haben wir dafür das R-package ‚Stylo‘ verwendet, die Daten für die Modellierung aber in das Netzwerkanalysetool ‚Visone‘ exportiert.Footnote 7 Verarbeitet haben wir dabei die Distanzmatrix, die man sich in Stylo ausgeben lassen kann. Sie enthält die Distanzen zwischen allen 86 Novellen, berechnet für eine bestimmte Wortlistenlänge auf der Basis eines festzulegenden Distanzmaßes, wobei wir mit dem klassischen Burrows’s Delta gearbeitet haben, also mit den z-transformierten relativen Frequenzen. Berücksichtigt worden sind die 500 häufigsten Wörter einschließlich der Pronomen.

Für das Netzwerk, das Abb. 1 zeigt, ist die Distanzmatrix um einen zusätzlichen Vektor ergänzt worden, der für jeden Text die Distanz zum Gesamtkorpus enthält. Dazu haben wir alle Texte in eine Datei gegeben und für jeden Einzeltext den Deltawert berechnet. Wir haben dann den Deltawert für das Verhältnis je zweier Texte zueinander auf die Kanten und den Deltawert für das Verhältnis jedes einzelnen Textes zum Gesamtkorpus auf die Knoten geschrieben. Kanten und Knoten wurden nach den Deltawerten so skaliert, dass helle Färbung einen großen, dunkle einen kleinen Wert markiert. Dunkle Knoten und Kanten signalisieren mithin größere, hellere geringe Ähnlichkeit, und zwar einerseits im Verhältnis der einzelnen Texte zueinander und andererseits im Verhältnis des Einzeltextes zur Gesamtheit aller Texte. Unsere Überlegung dabei war, dass dieses von uns so bezeichnete Korpusdelta auf den Knoten ein stilometrischer Wert für die Distinktivität des einzelnen Textes ist, dessen intertextuelle Relationen durch das paarweise Delta auf den Kanten abgebildet wird.Footnote 8 Außerdem wollten wir untersuchen, welche Gruppen sich auf dieser Basis innerhalb des Netzwerks identifizieren lassen. Dazu haben wir einen nach dem Soziologen Georg Simmel Simmelian Backbone genannten Algorithmus zur Transformation des Netzwerks genutzt. Er wurde ursprünglich für die Analyse sozialer Netzwerke entwickelt und hat das Ziel, untergründige Gemeinschaftsstrukturen herauszufiltern. Dazu werden Kriterien definiert, welche Verbindungen im Gesamtnetzwerk beibehalten werden sollen und welche nicht. Die zugrunde gelegte abstrakte Vorstellung von der Emergenz eines Netzwerks stammt aus der soziologischen Theorie Simmels und geht davon aus, dass die Beziehung zwischen Zweien immer erst in Bezug auf einen Dritten verständlich wird, der umgekehrt von der dyadischen Beziehung abhängt.Footnote 9 Eine Verbindung von B zu C ist wahrscheinlicher, wenn zwischen A und B und A und C auch eine Verbindung besteht: „Without dependence among ties, there is no emergent network structure.“Footnote 10 Wer Netzwerke nutzen will, um Beziehungen zu verstehen, sollte sie demnach nicht einfach aus Dyaden aggregieren. Der Simmelian Backbone sucht stattdessen nach Verbindungen innerhalb von Dreiecken – nach Kanten also, die stark eingebettet sind und innerhalb von Umgebungen vorkommen, in denen viel Redundanz herrscht. Kanten, die nur schwach eingebettet sind, werden herausgefiltert, es sei denn, ohne sie würde das Netzwerk auseinanderfallen. Daher die Bezeichnung Backbone. Operationalisiert wird das innerhalb von Visone, indem Overlaps in den Nachbarschaftsbeziehungen definiert werden. In unserem Modell haben wir festgelegt, dass für jeden Text die Rangfolge von sechs Nachbarn in der geringsten Delta-Distanz berücksichtigt wird und dass nur diejenigen Verbindungen zwischen Texten erhalten bleiben sollen, die drei gemeinsame Nachbarn haben.

Abb. 1
figure 1

Simmelian-Backbone-Netzwerk des Deutschen Novellenschatzes (Modell 1)Footnote

Die Farbstufen der Knoten, Kanten und Label sowie die Labelgröße wurden nach den Delta-Werten skaliert (500 MFW, Burrows-Delta, 20 % Culling). An den Kanten liegt der Delta-Wert für das paarweise Verhältnis je zweier Texte zueinander an, an den Knoten der Wert für das Verhältnis jedes einzelnen Textes zum Gesamtkorpus.

Was wir damit erreichen, ist ein lokal adaptives Filtern, das das Netzwerk so zum Backbone transformiert, dass wir einzelne Gruppen und die Weak Links zwischen ihnen identifizieren können. Weil wir im Overlap den Delta Rank aufsteigend vom kleinsten Wert definiert haben und mithin die geringsten Distanzen zugrunde legen, sind es lokale Ähnlichkeitsgruppen, die sich herausgebildet haben. Der Backbone des Novellenschatzes (s. Abb. 1) zeigt uns links eine klar unterschiedene Untergruppe, in welcher der Herausgeber Hermann Kurz einen zentralen Knoten innehat. Eine andere, größere Gruppe ist um den zweiten Herausgeber Heyse sowie Zschokke und Horner entstanden. Ob die Verbindungen unten rechts um Droste und Meißner zu dieser Gruppe zu zählen oder als eigenes Teilnetzwerk zu verstehen sind, bleibt unklar.

In der Interpretation dieses Modells haben wir uns auf die Ähnlichkeitsgruppen sowie auf die Ähnlichkeitsverhältnisse konzentriert, die durch die Skalierung der Knoten und Kanten nach den Deltawerten sichtbar sind. Auf den Kanten liegt das paarweise Delta. Dunkle Kanten signalisieren einen kleinen Deltawert und mithin Ähnlichkeit zwischen den Texten, die sie verbinden. Auf den Knoten liegt das Korpusdelta an, der Abstand des Einzeltexts zur Gesamtheit aller Texte. Wer einen dunklen Knoten hat, der ist der Gesamtheit sehr ähnlich und mithin als ‚durchschnittlich‘ zu qualifizieren. Das gilt zum Beispiel für Heinrich Zschokke, Karl Immermann, Otto Roquette und Paul Heyse. Letzterer weist mit 0,516085434 das kleinste Korpusdelta im Korpus auf. Der zweite Herausgeber Hermann Kurz ist demgegenüber mit 0,700901735 deutlich weniger durchschnittlich (das Maximum ist 1,239941925), etabliert aber ein starkes lokales Ähnlichkeitszentrum, sichtbar durch die zahlreichen bei ihm eintreffenden gerichteten Kanten, die durch Strichelung hervorgehoben sind. Beim Überlappen (Overlap) der Nachbarschaftsbeziehungen, das dem Backbone zugrunde liegt, gibt es Asymmetrien. Es gibt Texte, die in den Top Ranks der Ähnlichkeit von sehr vielen Texten vorkommen, ohne dass das umgekehrt auch der Fall ist. Diese Texte sind für sehr viele andere Texte diejenigen, mit denen sie die meisten gemeinsamen Nachbarn haben. Die gestrichelten gerichteten Kanten weisen auf solche Texte hin, die einen anderen Typus von Ähnlichkeit darstellen als den der globalen Durchschnittlichkeit. Wir können demnach zwischen Texten unterscheiden, die global sind, und solchen, die lokal ähnlich sind, wodurch uns unsere beiden Herausgeber als unterschiedliche Ähnlichkeitstypen erscheinen. Hermann Kurz, der weniger durchschnittliche, ist innerhalb seiner Subgruppe ähnlich. Paul Heyse ist sehr durchschnittlich und zugleich für viele Texte naher Nachbar. Natürlich ist die Versuchung groß, dieser Beobachtung hermeneutischen Sinn zu verleihen, wenn man etwa an die biografischen Unterschiede zwischen dem schwäbischen Dorfgeschichtendichter und dem seine Epoche prägenden Großschriftsteller denkt, der zu fast allen irgendwie bedeutenden Kolleginnen und Kollegen Verbindungen hatte und unbestritten eine „Schlüsselfigur im literarischen Netzwerk“Footnote 12 war. Hat dieser ob seiner marktgerechten Massenproduktion von Novellen oft auch verspottete „Virtuose des Durchschnitts“Footnote 13 für den Novellenschatz ausgewählt, was zu ihm passte, und ist deshalb auch stilometrisch ähnlich mit allen? Die bislang beste Kennerin des Herausgeber-Briefwechsels Heyse/Kurz, Monika Walkhoff,Footnote 14 widerspricht mit ihrer Darstellung jedenfalls der Idee, Heyse habe sich vom eigenen Geschmack leiten lassen, und führt viele negative Urteile über aufgenommene Texte an, die sich auch in den kurzen Einleitungen innerhalb des Novellenschatzes niederschlagen. Wie immer, wenn wir statistische Ergebnisse hermeneutisch interpretieren, geraten wir mit solchen Überlegungen ohnehin leicht in den Bereich der Spekulation.

3 Was macht den Unterschied aus?

3.1 Distanzmatrizen

Dies umso mehr, als wir das Netzwerkmodell vor allem genutzt haben, um ein Gefühl für das Korpus und seine Daten zu bekommen. Dass in der Novellensammlung große Ähnlichkeit herrscht, konnte uns angesichts der von den Schriftstellerinnen und Schriftstellern stark empfundenen und diskutierten ‚Novellenflut‘ in der zweiten Hälfte des 19. Jahrhunderts nicht überraschen. Im Novellenschatz schlägt sich das offenbar auch auf der Ebene nieder, die man mit stilometrischen Methoden erfasst. Wir haben uns die Distanzmatrizen, die Stylo mit ausgibt, daraufhin eingehend angeschaut und uns zunächst auch vom Eindruck der Ähnlichkeit leiten lassen. Mit sehr geringem Aufwand lässt sich die Distanzmatrix, die die paarweisen Delta-Abstände für alle 86 Novellen enthält (s. Tab. 1), um die deskriptive Statistik ergänzen, die uns die zentrale Tendenz dieser Werte erkennen lässt.

Tab. 1 Ausschnitt Alexis-Eichendorff aus der Distanzmatrix des NovellenschatzesFootnote

Burrows-Delta, 500 MFW, 20 % Culling.

Weil nur vier Autorinnen und Autoren mit je zwei Novellen in der Sammlung vertreten sind, benennen wir die Texte nur noch mit den Nachnamen und geben ausschließlich bei den Doppelautoren zusätzlich den Novellenkurztitel an. Der Data-Viewer von R-Studio verfügt über eine effektive Sortierfunktion, dank welcher die Matrix nach jedem Vektor sortiert werden kann. Wenn ich der Matrix die Werte für die deskriptive Statistik als Vektoren hinzufüge, kann ich auch nach diesen Vektoren sortieren. Tab. 2 zeigt jeweils die zehn Novellen mit dem niedrigsten Durchschnittswert und Median aller paarweisen Deltadistanzen. Das Mean Delta (durchschnittlicher Delta-Abstand) verwenden wir inzwischen anstelle des Korpusdelta als Richtwert für die Distinktivität/Korpusähnlichkeit des einzelnen Textes.

Tab. 2 Die zehn kleinsten Werte für Mean und Median der paarweisen Delta-Distanz, aufsteigend sortiertFootnote

Burrows-Delta, 500 MFW, 20 % Culling.

Heyse hat das kleinste Mean Delta und auch den kleinsten Median. Wir erinnern diese Top Ten der Durchschnittlichkeit als dunkle Knoten in unserem anfänglichen Netzwerkmodell (s. Abb. 1). Dass Heyse besonders ähnlich mit dem Korpusdurchschnitt ist, zeigte sich uns sehr anschaulich in zwei weiteren Experimenten. Wir haben das Gesamtkorpus als zusätzliche Datei mit den 86 Novellen in eine Clusteranalyse gegeben, die Heyse als nächsten Nachbarn der Gesamtdatei zuordnete (s. Abb. 2).

Abb. 2
figure 2

Clustering aller Novellen mit dem GesamtkorpusFootnote

Burrows-Delta, 500 MFW, 20 % Culling (Ausschnitt).

Wir haben dieses Experiment mit einer schrittweise von 10 bis zu 4000 MFW erhöhten Wortlistenlänge wiederholt, wobei Heyse durchgehend in der unmittelbaren Umgebung des Gesamtkorpus clusterte. Bis zu einer Wortlistenlänge von 1000 MFW war er fast immer der nächste Nachbar der Novellenschatz-Gesamtdatei, danach rückte Auerbach ebenso konstant in diese Position (gefolgt von Heyse), während Zschokke mit zunehmender Wortlistenlänge aus diesem Ähnlichkeitscluster herausrückte.

Das zweite Experiment arbeitet wiederum mit einem Netzwerkmodell, wobei wir dieses Mal nicht die Backbone-Transformation, sondern ein Centrality Layout verwendet haben (s. Abb. 3).

Abb. 3
figure 3

Centrality Layout aller NovellenFootnote

Burrows-Delta, 500 MFW, 20 % Culling.

Auf den Knoten liegt das Mean Delta, gemappt auf die Labelgröße. Wir haben die Werte invertiert, sodass ein großes Label ein kleines Mean Delta und also hohe Korpusähnlichkeit anzeigt. Das Centrality Layout stellt den Knoten mit dem (durch die Invertierung) größten Wert in die Mitte. Die herausragende Korpusähnlichkeit Heyses kann so im Vergleich zu den anderen Texten abgelesen werden. Auf den Kanten liegt die (ebenfalls invertierte) paarweise Delta-Distanz, gemappt auf die Farbe. Wir haben hier zusätzlich einen Schwellenwert von > 0,775 als Filter definiert, um nur die Verbindungen zwischen Texten zu zeigen, die sich besonders ähnlich sind. Dementsprechend zeigen sich bei Heyse viele und ausschließlich dunkle Kanten, während die Texte auf der ‚äußeren Umlaufbahn‘, deren invertiertes Mean Delta klein ist, wenige, deutlich hellere Kanten haben. Auf diese im Korpus besonders unähnlichen Texte – von Wolf, Wallner und Scheffel – werden wir noch zurückkommen.

3.2 Diskussion

In der Diskussion unserer Analysen kristallisierten sich schon bald zwei naheliegende Kritikpunkte heraus. Wir begannen zu hinterfragen, inwiefern Durchschnittswerte wie Korpusdelta oder Mean Delta überhaupt geeignet waren, unsere Novellen zu vergleichen. Zwar lässt sich die besondere Anfälligkeit des arithmetischen Mittels für Ausreißer durch den Abgleich mit dem diesbezüglich robusteren Median einholen. Trotzdem hat dieser Vergleichswert ein systematisches Problem, wenn man Ähnlichkeiten oder gar Ähnlichkeitstypen auf der Basis von Durchschnitten feststellen will. Wenn ich ein Ding mit dem Wert 0 mit drei Dingen, die die Werte −1, 0 und 1 haben, vergleiche, liegt das 0-Ding genau im Durchschnitt aller und ist in einem Fall auch sehr ähnlich, in den beiden anderen aber nicht. Zwar haben wir in unserem Netzwerkmodell (s. Abb. 1) auf den Kanten sehr wohl die einzelnen Distanzen zwischen den Texten berücksichtigt. Im Ganzen ist daraus aber ein Netzwerk entstanden, das z. B. Heyse als sehr ähnlich mit einer großen Gruppe zeigt, nicht aber mit der Gesamtheit. Und den Unterschied zwischen den Gruppen kann man am Korpusdelta oder Mean Delta als Knotenwert nicht gut ablesen. Heyses stilometrisch erwiesene Durchschnittlichkeit hilft uns an dieser Stelle nicht mehr weiter.

Unser zweiter Kritikpunkt betraf die Konzentration auf die Ähnlichkeit selbst, die sich zweifellos als Leithypothese aus dem historischen Kontext unseres Korpus ableiten lässt und die Sammlung als Artefakt gut charakterisiert, zu der aber gerade in der literarischen Kommunikation der Entstehungszeit und explizit auch in der Gattungstheorie des Novellenschatzes die Suche nach Distinktionsstrategien gehört. Für die moderne Vorstellung von ‚Stil‘ sind die individuellen Unterschiede konstitutiv. Uns fiel in diesem Zusammenhang die alte Statistik-Geschichte von Hund und Krokodil ein, die die Erklärungskraft von Variablen veranschaulichen soll. Hund und Krokodil haben viele Ähnlichkeiten, die man gut beschreiben kann. Beide sind Vierbeiner, können laufen und schwimmen, haben vorn das Maul und hinten einen Schwanz usw. All das ist richtig, aber ein einziger effektiver Unterschied erklärt das Verhältnis viel besser: ‚Säugetier/Reptil‘.Footnote 19 Auf den Novellenschatz bezogen heißt das: Die Ähnlichkeit im Korpus und die unterschiedliche Art und Weise, in der Texte ähnlich erscheinen, sind durchaus interessante Fakten. Aber es fällt uns sehr schwer zu sagen, was genau diese Ähnlichkeit ausmacht und wodurch sie entsteht. Zwar können wir uns dank der Matrizen mit den relativen Häufigkeiten bestimmte Wörter anschauen und Gemeinsamkeiten in der Häufigkeit zwischen verschiedenen Texten feststellen. Wenn aber viele Wörter und viele Texte im Spiel sind, können wir kaum sicher sein, dass tatsächlich (nur) diese Gemeinsamkeiten die stilometrische Ähnlichkeit begründen. Auch aufwendig, aber doch viel leichter ist es dagegen zu untersuchen, welche Wörter für Unterschiede verantwortlich sind und Texte unähnlich machen.

3.3 Frequenzmatrizen: Welche Wörter machen global einen starken Unterschied zwischen Texten?

In diese Richtung haben wir uns zunächst einen sehr simplen Schritt überlegt. Wenn man die Matrix mit den relativen Wortfrequenzen, die Stylo ausgibt, so transponiert, dass die Wörter die Spalten und die Textnamen die Reihen bilden, kann man wie bei der Distanzmatrix für jede Spalte, also für jeden Wortvektor, die deskriptive Statistik berechnen. Durch die kompakte summary()-Funktion macht es uns R sehr leicht, für die Häufigkeit eines jeden Worts in den 86 Texten alle Maße der zentralen Tendenz (Mean, Median etc.) zu betrachten. Uns kam es hier allerdings vor allem auf ein Maß der Dispersion an, nämlich auf die Standardabweichung der Wortvektoren.

Die Standardabweichung gibt an, wie stark die Werte in einem Datensatz ‚streuen‘ – oder besser gesagt: wie stark sie vom Mittelwert abweichen. Für jeden unserer Wortvektoren (s. Tab. 3) ist das ein Maß dafür, wie stark sich die Häufigkeitswerte des Wortes in den einzelnen Novellen vom Durchschnitt unterscheiden. Eine hohe Standardabweichung heißt, dieses Wort ist besonders diskriminativ und macht einen starken Unterschied zwischen den Texten. Tab. 4 zeigt die zehn Wörter unserer 86 Novellen mit der höchsten Standardabweichung.

Tab. 3 Ausschnitt Alexis-Goethe (row) und der 10 häufigsten Wörter (column) der Frequenzmatrix des NovellenschatzesFootnote

Burrows-Delta, 500 MFW, 20 % Culling.

Tab. 4 Die 10 Wörter innerhalb der 86 Novellen mit der höchsten Standardabweichung, absteigend sortiert

Wie wir sehen, handelt es sich ausschließlich um Pronomen und Funktionswörter, wobei das Personalpronomen der ersten Person Singular die herausragende Spitze bildet und seinen Dativ und Akkusativ ebenfalls unter die Top Ten reiht. In der grafischen Darstellung aller Standardabweichungen für die 500 häufigsten Wörter können wir die Beobachtung der Spitzengruppe einordnen und mit der Gesamtheit vergleichen (s. Abb. 4).

Abb. 4
figure 4

Die 500 häufigsten Wörter des Novellenschatzes nach ihrer Standardabweichung

Die Zipf‘sche Verteilung zeigt, dass die Funktionswörter, die knapp bis zum Wortlistenrang 100 reichen, nicht nur eine höhere Standardabweichung aufweisen, sondern sich untereinander in ihrer Standardabweichung auch stärker unterscheiden als die auf der flachen Restkurve liegenden Inhaltswörter. Funktionswörter sind besonders diskriminativ, und sie variieren der Streuung im steilen Kurventeil nach zu urteilen innerhalb ihrer Kohorte besonders stark. Bestimmte Funktionswörter, in unserem Korpus z. B. das Personalpronomen ‚ich‘, etablieren also einen herausragenden Unterschied zwischen Texten. Wir sehen unter den Inhaltswörtern ebenfalls Ausreißer, die sich indes sehr einfach erklären. Das Wort ‚Pfarrer‘ hat eine deutlich erhöhte Standardabweichung, weil es in 54 der 86 Texte überhaupt nicht vorkommt.Footnote 21

Die Stilometrie muss naturgemäß an den hochdiskriminativen Wörtern ein spezielles Interesse haben, und seit Burrows‘s Arbeiten zur Autorschaftsattribution stehen dementsprechend die Funktionswörter im Fokus. Allerdings hat Maciej Eder zuletzt darauf aufmerksam gemacht, wie wenig Klarheit wir nach wie vor darüber haben, welche Merkmale dadurch tatsächlich unterschieden werden. Die theoretisch begründete Annahme, Funktionswörter unterschieden Autorschaft, Inhaltswörter Gattung und Topics, ist in der empirischen Praxis durch verschiedene Ergebnisse herausgefordert worden.Footnote 22 Eder verweist darauf, dass gerade die sehr diskriminativen Wörter mal für dieses, mal für jenes Signal reklamiert worden seien, der Artikel ‚the‘ etwa sowohl als GendermarkerFootnote 23 als auch als Unterschied zwischen britischem und amerikanischem Englisch.Footnote 24 Mit Blick auf die 86 Texte des Novellenschatz-Korpus' können wir zumindest klar sagen, was das diskriminativste Wort unterscheidet. Abb. 5 zeigt die relativen Frequenzen für das Personalpronomen der ersten Person Singular im Nominativ, Dativ und Akkusativ.

Abb. 5
figure 5

Relative Frequenzen mir ‚ich‘, ‚mir‘, ‚mich‘ im Novellenschatz

Wir haben probehalber einen Schwellenwert von 2 angenommen und uns angeschaut, welche Texte darüber liegen. Da die Novelle als ‚Schwester des Dramas‘ häufig unabhängig von der Erzählperspektive hohe Dialoganteile aufweist, waren wir sehr skeptisch, ob auf so simple Weise überhaupt ein erzählperspektivisch relevanter Unterschied zu ermitteln sein würde. Zumindest mit diesem hohen Schwellenwert gelang das aber schon. Unter den 18 ermittelten Texten befand sich nur einer mit ausgesprochen hohem Dialoganteil und ansonsten auktorialer Perspektive (Leo Goldammers Eine Hochzeitsnacht [1858]), alle anderen waren Ich-Erzählungen.Footnote 25 Als ein im Sinne des Spitzenwertes der Standardabweichung besonders diskriminatives Wort im Korpus unterscheidet das Pronomen ‚ich‘ also durchaus diese Perspektive.

3.4 Matrixsubstraktion: Welche Wörter unterscheiden Texte im Einzelnen?

Nach diesem kleinen Test mit der Standardabweichung unserer Wortvektoren war uns klar, dass damit noch keine neue Basis für unser Textvergleichsmodell gefunden war. Wir mussten uns die Unterschiede durch einzelne Wörter nicht nur global, sondern im Einzelnen anschauen und untersuchen, welche Wörter im Einzeltextvergleich große Unterschiede ausmachen. Diese Wörter sollten die Datengrundlage für ein neues Netzwerkmodell sein, das von der Systematik her aufgebaut sein sollte wie das alte, also mit den paarweisen Unterschieden auf den Kanten und den Unterschieden zwischen jedem einzelnen Text und allen anderen Texten auf den Knoten, wobei der letzte Unterschied nun nicht mehr über das Korpusdelta (Text X-Gesamtdatei) oder das Mean Delta, sondern für jeden Text einzeln durch Matrixsubstraktion mit allen Texten zu errechnen war. Das trug der Kritik Rechnung, dass Durchschnittswerte nicht unbedingt gute Vergleichswerte seien. Einen Durchschnittswert stellt indes auch Burrows‘s Deltawert dar. Wenn er zwei Texte vergleicht, wird für eine definierte Wortlistenlänge für jedes Wort der beiden Texte der Z-Score-Differenz-Betrag gebildet und dann durch n, also durch die Länge der Liste, geteilt.Footnote 26 Als Durchschnittswert aller Z-Score-Differenz-Beträge stellt Burrows‘s Delta dann einen Wert dar, der angeben soll, wie ähnlich oder unähnlich zwei Texte sind. Uns ging es nun darum, unserem neuen Textvergleichsmodell eine höhere ‚Auflösungsstufe‘ zugrunde zu legen und anstelle der durchschnittlichen Distanz den größten Unterschied bzw. das Wort zu betrachten, das diesen Unterschied etabliert. Dazu sind wir im Vergleich zu Burrows‘s Vorgehen einen Schritt zurückgegangen und haben mit den Z-Scores gerechnet. Für die Kanten haben wir jeweils paarweise die Z-Score-Vektoren zweier Texte auf den größten Differenzbetrag hin verglichen, für die Knoten musste entsprechend für jeden einzelnen Text der Z-Score-Vektor mit der Matrix aller einzelnen 86 Vektoren auf das Maximum hin verglichen werden. Während wir also im ersten Textvergleichsmodell mit Burrows jeweils den Durchschnitt aller Z-Score-Differenz-Beträge der betrachteten Wörter als Distanzmaß zugrunde gelegt haben, stellt das zweite Modell den Vergleich über den größten Unterschied, das Maximum der Z-Score-Differenz-Beträge, dar.

Dabei haben wir wiederum unser ‚Simmel‘sches Gerüst‘, also den Simmelian Backbone, als Gruppierungsalgorithmus angewendet. Simmels Soziologie entwickelt sich gegen Ende des 19. Jahrhunderts maßgeblich unter dem Eindruck eines wachsenden Distinktionsdrucks in der gleichförmigen Massengesellschaft sowie vor dem Hintergrund der Diskussion um das in der Massengesellschaft gleichfalls wachsende Bedürfnis nach bestimmten Gemeinschaften. Der Simmelian Backbone wurde angesichts dessen dafür konzipiert, Datenmengen so zu reduzieren, dass Gemeinschaftsstrukturen sichtbar werden. Ein Vergleich rein über maximale Unterschiede entspricht dieser Ausrichtung nur bedingt, weshalb wir uns überlegt haben, wie wir die Datengrundlage für unser zweites Modell so filtern, dass über die zugrunde gelegten Unterschiede auch Ähnlichkeitsgruppen entstehen können. Im Ergebnis haben wir den Algorithmus so eingestellt, dass wir nach Texten suchen, deren größter Unterschied (relativ) klein ist.Footnote 27 Technisch kann man sich das so vorstellen, dass wir wie oben in der Distanz-Matrix von Tab. 1 für jeden Text einen Vektor mit 86 Distanzen zu den jeweils anderen Texten haben (mit dem Wert 0 im Selbstverhältnis auf der Diagonale), nur dass die Distanz nun nicht mehr durch den Delta-Wert ausgedrückt wird, der den Durchschnitt aller Z-Score-Differenzen erfasst, sondern durch denjenigen Z-Score-Wert, durch den sich die Texte jeweils maximal unterscheiden. Wie den Delta-Vektor können wir auch diesen Z-Score-Max-Vektor sortieren, in unserem Fall so, dass die kleinsten Maximalwerte oben stehen. Genau wie bei der Anwendung des Gruppierungsalgorithmus in Modell 1 stellen wir diesen so ein, dass wir für zwei Texte, die verglichen werden, jeweils sechs Nachbarn berücksichtigen. Das sind diejenigen sechs Texte, zu denen der maximale Unterschied, den ein bestimmtes Wort erzeugt, am kleinsten ist. Unsere zweite Bedingung lautet: Von diesen sechs Nachbarn müssen die beiden verglichenen Texte drei gemeinsam haben (Overlap), sonst werden die betreffende Verbindung und ihre beiden Knoten aus dem Netzwerk gelöst – sofern dieses dadurch nicht auseinanderfällt.

Bei diesem Modell (s. Abb. 6) fällt weniger eine Gruppierung als eine Zentrum-/Peripheriestruktur auf. Für die im Zentrum verbundenen Texte gilt, dass sie auch in ihrem größten Unterschied nicht stark differieren. Die Texte in der Peripherie unterscheiden sich dagegen im Extrem deutlicher, und die Texte unten, die vom Netzwerk gelöst worden sind, erfüllen die algorithmische Bedingung nicht mehr. Ihre größten Unterschiede können nicht mehr als klein gelten. Wir sehen sofort, dass der Heyse-Text erneut im Zentrum steht und um ihn herum einige derjenigen Texte, die zu seiner großen Ähnlichkeitsgruppe in Modell 1 gehört haben, etwa Fanny Lewald und Ludwig Tieck mit Die Gemälde. Andere dort zentrale Knoten wie Immermann, Alexis oder Roquette erscheinen dagegen in Modell 2 nur noch in der Peripherie oder sind wie Auerbach und Zschokke ganz aus dem Backbone-Netzwerk herausgefallen. Diese Unterschiede sind durch die je andere abstrakte Vorstellung von Ähnlichkeit bedingt, die wir den beiden Modellen zugrunde gelegt haben. Immermann und Zschokke etwa sind im Schnitt sehr ähnlich, was in Modell 1 durch den dunklen Knoten (kleines Korpusdelta) sichtbar ist. Beide gehören dementsprechend gemeinsam mit Heyse zur Top Ten der kleinsten Mean Delta-Werte (s. Tab. 2 u. 3). Nimmt man dagegen nicht die durchschnittliche Ähnlichkeit, sondern die Spitzen der Unähnlichkeit zum Kriterium, erscheinen beide unähnlich und gehören nicht mehr wie Heyse zum Ähnlichkeitszentrum von Modell 2, weil ihre großen Unterschiede wirklich (relativ) groß sind – bei Zschokke so groß, dass sie die Backbone-Anforderungen an Gemeinschaftlichkeit nicht mehr erfüllen. Dass das auch für den zweiten Herausgeber Kurz gilt, der ebenfalls unten als losgelöster Knoten erscheint, können wir im Modellvergleich recht gut verstehen. Wir hatten mit Blick auf Modell 1 gesagt, Kurz sei anders als Heyse nicht besonders durchschnittlich, der Backbone auf der Basis der Delta-Werte zeigt uns aber, dass er ein starkes lokales Ähnlichkeitszentrum ausbildet, dessen Unterschied zur Heyse‘schen Hauptgruppe wir freilich mit dem Korpusdelta als Knotenwert nicht gut erklären können (s. Abb. 1). Die Kurz‘sche Gruppe können wir zwar mit Modell 2 auch nicht deuten, aber dass Kurz aus dem neuen Backbone, in dem die großen Unterschiede klein sein müssen, herausfällt, führt uns doch zu einer weiteren Erkenntnis: Wir wissen jetzt, dass er nicht besonders durchschnittlich ist (Modell 1) und dass er sich im Extrem tatsächlich stark unterscheidet (Modell 2).

Abb. 6
figure 6

Simmelian-Backbone-Netzwerk des Deutschen Novellenschatzes (Modell 2)Footnote

Die Farbstufe der Knoten und Kanten wurde nach dem maximalen Z-Score-Differenz-Betrag skaliert (Burrows-Delta, 500 MFW, 20 % Culling). An den Kanten liegt der maximale Z-Score-Differenz-Betrag für das paarweise Verhältnis je zweier Texte zueinander an, an den Knoten das Maximum, das für jeden Text im iterierten Einzelvergleich mit allen anderen Texten ermittelt wurde.

Abb. 7
figure 7

Gleiches Netzwerk wie Abb. 6. Die Label zeigen nun die zugrundeliegenden WerteFootnote

Für jeden Text wird der Z-Score-Differenz-Betrag desjenigen Wortes gezeigt, das ihn am stärksten unterscheidet. An den Kanten liegt entsprechend der Wert für den größten Wortunterschied zwischen zwei Texten.

Wenn wir auf die Label der Knoten die Werte schreiben, aus denen das Netzwerk errechnet worden ist, wird noch etwas deutlich, das uns weiterhilft: Die Gruppierung in Modell 1 war beachtlich, hatte aber den entscheidenden Schönheitsfehler, dass wir die Gruppenunterschiede nicht gut beschreiben konnten. Was wir hier als Zentrum und Peripherie sehen, verhält sich anders. Der visuelle Eindruck des Modells wird durch die Werte bestätigt: Im Zentrum finden wir Texte, deren größter Unterschied durchweg klein ist, kein Wert geht hier über 7. In der deutlich größeren Peripherie liegen dagegen alle Werte über 7 und reichen bis in den Bereich > 9. Die aus dem Netzwerk herausgefilterten Knoten liegen mit nur einer deutlichen Ausnahme (Kopischs Ein Karnevalsfest auf Ischia [1856]) im Bereich > 8 und > 9. In diesem Modell sind wir also sehr wohl in der Lage, die Gruppenzugehörigkeit auf die von uns als Attribut definierte Eigenschaft zurückzuführen.

Diese Eigenschaft ist der größte Wortunterschied, wobei wir uns natürlich auch das Wort anzeigen lassen können, das diesen Unterschied jeweils ausmacht (s. Abb. 8).

Abb. 8
figure 8

Gleiches Netzwerk wie Abb. 6 und 7. Die Label zeigen nun das Wort, das jeden Text am stärksten unterscheidetFootnote

An den Kanten liegt nach wie vor der Wert für den größten Wortunterschied zwischen zwei Texten.

Wir sehen dadurch, dass sich Kleists Die Verlobung von St. Domingo (1811) im Korpus am stärksten durch das Wort „fremde“ unterscheidet, Kopischs Der Träumer (1856) recht naheliegend durch „traum“ und Raabes Das letzte Recht (1865) durch „grausam“. Die vielen bei diesem Wort eintreffenden Kanten kommen wie schon in Modell 1 durch eine Asymmetrie im Backbone Overlap zustande: Raabe gehört mit seinem distinktiven „grausam“ bei sehr vielen Texten zu den Top 6 der Wörter, für die der größte Unterschied zwischen den Texten klein ist. Er kommt also (wie Heyse mit seinem kleinen Delta-Wert als Zeichen sehr hoher Durchschnittlichkeit in Modell 1) in den Top Ranks von weit mehr als sechs Texten vor, sodass ein asymmetrisches Verhältnis entstehen muss, weil der Algorithmus unserer Einstellung nach für Raabe wie für jeden anderen nur die sechs nächsten Nachbarn berücksichtigt.Footnote 31

Die Kanten des Netzwerks sind nach dem größten Z-Score-Differenz-Betrag der beiden verbundenen Texte skaliert, also nach dem Wort, das paarweise den größten Unterschied etabliert. Auch diese Wörter können wir uns als Kantenlabel anzeigen lassen, was sich allerdings für das dichte Zentrum nicht übersichtlich ausskalieren lässt (Abb. 9).

Abb. 9
figure 9

Gleiches Netzwerk wie Abb. 6, 7 und 8. Dargestellt werden die Wörter, die beide Texte am stärksten unterscheidenFootnote

Die Kanten-Label zeigen nun für den dort anliegenden Wert des größten Wortunterschieds, welches Wort es ist, das diese beiden Texte am stärksten unterscheidet.

Immerhin aber sehen wir in der Peripherie, dass „fremde“ auch das Wort ist, das Kleist bilaterial im Verhältnis zu Tieck am stärksten unterscheidet, und dass es unter den sehr große Unterschiede etablierenden Wörtern jenseits des Netzwerkes der „mondschein“ ist, der Eichendorff und Sacher-Masoch trennt.

3.5 Diskussion

Wir sind von der Frage ausgegangen, welche Wörter dafür verantwortlich sind, dass Texte unähnlich erscheinen, und haben nach den größten Wort-Unterschieden gefragt, wobei das Gerüst unseres Netzwerks auf der zusätzlichen Bedingung beruht, dass wir nur Verbindungen von Texten berücksichtigen, die sich in den Extremen nicht stark unterscheiden. Diese Texte bilden das Zentrum des Netzwerks von Modell 2 (s. Abb. 6). Die Texte in der Peripherie genügen dieser Bedingung weniger, die abgehängten Texte gar nicht mehr. Wir haben gesehen, dass einige der in Modell 1 nach dem Delta-Verfahren als einander sehr ähnlich erscheinenden Texte aus der großen Gruppe um Heyse nun diesem Netzwerk nicht mehr angehören. Wenn wir nicht den Durchschnitt der Z-Score-Differenzbeträge für die gesamte Wortliste berechnen, sondern das Maximum zugrunde legen, ergeben sich für einige Texte – aber nicht für alle! – andere Verhältnisse.

Schauen wir uns die Wörter an, deren normalisierte Häufigkeit diese Verhältnisse etabliert (s. Tab. 4). In einem eigenen Experiment haben wir mit einer schrittweise von 10 auf bis 4000 MFW erweiterten Wortliste über den durchschnittlichen Delta-Abstand (Mean Delta) berechnet, welche Texte im Korpus am unähnlichsten sind. Ebenso regelmäßig wie Heyse, der „Virtuose des Durchschnitts“, das kleinste Mean Delta hat, weisen vier Texte die höchsten Mean Delta-Werte auf, sind also besonders unähnlich. Das sind August Wolfs Der Stern der Schönheit (1871), Victor von Scheffels Hugideo (1857), Franz Wallners Der arme Josy (1864) und Wilhelm Heinrich Riehls Jörg Muckenhuber (1861/62). Drei dieser vier Texte sind uns im Centrality Layout zur Korpusähnlichkeit (s. Abb. 3) bereits als Außenseiter aufgefallen. Wir haben dann über die oben beschriebene Matrixsubtraktion auf der Basis der Z-Scores ermittelt, welche Wörter es sind, die diese Texte so unähnlich sein lassen. Wir finden diese Wörter logischerweise fast ausschließlich unter denjenigen, die aus unserem „großer Unterschied klein“-Netzwerk in Modell 2 herausgefallen sind. Dazu gehören „munde“Footnote 33, „sommer“, „geständniß“, „stern“, „friedrich“, „vetter“, „schmuck“ und „hahn“. „Gewand“, das Wort, durch das sich Scheffels Hugideo im Korpus am stärksten unterscheidet, ist das erste dieser Wörter, das es in das Netzwerk von Modell 2 ‚schafft‘.

Den stark diskriminativen Wörtern stehen im Zentrum solche gegenüber, bei denen die Unterschiede zwischen den Texten weniger extrem sind. Wir sehen, dass wir es sowohl im Zentrum als auch am Rand und jenseits des Netzwerks mit Inhaltswörtern zu tun haben und dass auch jeweils das gleiche Spektrum von Wortarten in vergleichbarer Verteilung vertreten ist: Substantive, Adjektive, Adverbien und Verben. Der systematische Unterschied wird offensichtlich, wenn wir uns die Z-Score-Profile anschauen. „Sehen“ gehört zu den Wörtern im Zentrum mit den nicht so ausgeprägten Extremen. Entsprechend verteilen sich die Mittelwertabweichungen über verschiedene Zentren (s. Abb. 10 u. 11), wohingegen „sommer“, das nicht mehr zum Ähnlichkeitsnetzwerk von Modell 2 gehört, in Moritz Reichs Mammon im Gebirge (1858) einen einsamen Höhepunkt verzeichnet (s. Abb. 12). Wir sehen in diesem Z-Score-Profil an den zahlreichen identischen Negativabweichungen, dass „sommer“ in vielen Texten überhaupt nicht vorkommt, was auch bei der Mehrheit der Wörter mit weniger ausgeprägten Extremen der Fall ist. Stellvertretend dafür sei das Z-Score-Profil von „grausam“ mit angeführt (s. Abb. 10). Die Wörter im Zentrum, an der Peripherie und jenseits des Netzwerks unterscheiden sich also nicht dadurch, sondern durch die Verteilung der Mittelwertabweichungen über die Texte.

Abb. 10
figure 10

Z-Score-Profil für „grausam“Footnote

Die Z-Score-Profile wurden aus dem nach der algorithmischen Bedingung „großer Unterschied klein“ gebildeten Zentrum von Netzwerkmodell 2 (siehe Abb. 8) hergestellt.

Abb. 11
figure 11

Z-Score-Profil für „sehen“Footnote

Die Z-Score-Profile wurden aus dem nach der algorithmischen Bedingung „großer Unterschied klein“ gebildeten Zentrum von Netzwerkmodell 2 (siehe Abb. 8) hergestellt.

Abb. 12
figure 12

Z-Score-Profil für „sommer“Footnote

Das Z-Score-Profil, das dem nach der algorithmischen Bedingung „großer Unterschied klein“ gebildetem Netzwerk von Netzwerkmodell 2 nicht mehr angehört (siehe Abb. 8).

Fassen wir die Analysen zu unserem zweiten Textvergleichsmodell zusammen, können wir festhalten, dass es sowohl Funktions- als auch Inhaltswörter gibt, die viel diskriminativer sind als ihre ‚Artgenossen‘. Innerhalb der stilometrischen Methodendiskussion gehört diese Beobachtung zu der derzeit intensiv empirisch erforschten Frage, auf Basis welcher Wörter Texte am besten verglichen werden können. Eder berichtet beispielhaft von einer Clusteranalyse englischer Romane, bei der ein einziges unter 970 berücksichtigten Wörtern darüber entschied, ob ein Text von Joseph Conrad fälschlich Rudyard Kipling zugeschrieben wurde oder nicht: „The knowledge that this 970th word is ‚wine‘ does not help much, however, since multivariate analyses take into consideration a great number of features at a time.“Footnote 37 Aus der Perspektive unseres Modells 2 wäre es natürlich schon hilfreich gewesen zu testen, was für eine Art diskriminatives Wort ‚wine‘ und wie groß der Unterschied ist, den es zwischen den Texten im Korpus jeweils ausmacht. Eder hat wie wir in Modell 1 mit dem Delta-Verfahren nach Burrows gearbeitet, in dem die einzelnen Z-transformierten Features (Wörter) in dem durch n geteilten Distanzwert aufgehen. Modell 2 bleibt dagegen auf der Ebene der einzelnen Features und zieht deren Unterscheidungskraft in Betracht. Evert/Jannidis u. a.Footnote 38 schlagen nach der empirischen Auswertung des Erfolgs verschiedener Distanzmaße in der AutorschaftsattributionFootnote 39 ein Verfahren vor, das die Z-Score-Vektoren einem überwachten Preprocessing unterzieht, in dem u. a. diejenigen diskriminativen Wörter, die einen großen Unterschied ausmachen, weil sie in vielen Texten des untersuchten Korpus gar nicht vorkommen, aussortiert werden. Übrig bleibt ein deutlich kleinerer, normalisierter Vektor von diskriminativen Features, über den dann die Distanz bestimmt wird. In der Evaluation der verbliebenen diskriminativen Wörter, die sich im Sinne korrekter Klassifikation bewährt haben, betonen Evert/Jannidis, dass es sich beileibe nicht nur um Funktionswörter handele.Footnote 40 Zudem vermuten die Autoren, dass sich Autorenstil primär in den positiven und negativen Abweichungen vom Korpusmittel niederschlage, wie sie die Z-Score-Vektoren repräsentieren.Footnote 41 Als wir untersucht haben, welche Wörter dafür verantwortlich sind, dass vier Texte des Novellenschatzes besonders unähnlich erscheinen, haben wir für jeden der Texte jeweils diesen Vektor zugrunde gelegt und Schritt für Schritt von allen Z-Score-Vektoren des Korpus subtrahiert. Durch Berechnung der Maxima und Minima der Ergebnisse dieser Matrixsubtraktion können wir je eine Rangfolge für die Wörter erstellen, die in den fraglichen Texten besonders überrepräsentiert (die höchsten positiven Werte) und besonders unterrepräsentiert (die niedrigsten negativen Werte) sind. In beiden Rängen finden wir Wörter, die schlechthin einen großen Unterschied ausmachen, weil ein Text ihr Vorkommen im Korpus fast im Alleingang bestreitet (s. Abb. 12: „sommer“). Angesichts solcher Dominanz stellt sich die Frage, inwiefern es denn charakteristisch für einen Text sein könne, dass in einem anderen Text ein Wort besonders häufig vorkommt. Evert/Jannidis ist der Nachweis gelungen, dass Wörter, die nur in relativ wenigen Texten eines Korpus vorkommen, im Schnitt deutlich weniger zur paarweisen Delta-Distanz beitragen.Footnote 42 Solche Wörter finden wir in unserem Modell 2 nicht nur in der Peripherie, wo sich die Texte im Extrem stark unterscheiden, sondern auch im Zentrum, wo die großen Unterschiede klein sind (s. Abb. 10: „grausam“). Dort aber handelt es sich um Wörter, die, obwohl sie in relativ vielen Texten nicht vorkommen, keine extremen Unterschiede etablieren. Die Mittelwertabweichungen dieser Wörter verteilen sich auf eine relevante Textgruppe, sodass womöglich maßgebliche Beziehungen verloren gingen, würden sie für die Distanzberechnung aussortiert.

4 Ausblick: Entropie

Nachdem unsere beiden Textvergleichungsmodelle die Distanz sowohl über den Durchschnittswert als auch über das Maximum der Z-Score-Differenzbeträge berechnet haben – das eine Mal auf Basis der gesamten definierten Wortliste, das andere Mal über bestimmte Einzelwörter –, schließt sich für weitere Untersuchungen logisch die Frage an, ob viele oder wenige Wörter für den Unterschied zwischen Texten verantwortlich sind. Für das Novellenschatz-Korpus sind wir dieser Frage mit einer Entropie-Berechnung nachgegangen.Footnote 43 Dabei wurde zunächst für alle Paarkonstellationen unserer 86 Texte auf der Basis des in beiden Modellen verwendeten Vektors von 500 MFW für jedes Wort die Wahrscheinlichkeit berechnet, dass das jeweilige Wort für den Unterschied verantwortlich ist. Der Anteil aller 500 Wörter am Gesamtunterschied zwischen zwei Texten addiert sich dabei jeweils auf 1. Aus diesen insgesamt 3.655.000 Wahrscheinlichkeitswerten (86 × 85 × 500) lässt sich dann die Entropie für jede der 7310 Textbeziehungen ermitteln. Abb. 13 zeigt sie in einem Scatterplot in Relation zum Delta-Wert, sodass wir zwei Informationen gleichzeitig sehen können: Wie groß der Unterschied (Delta-Wert) ist und wie sehr er sich auf einzelne Wörter (Entropie-Wert) konzentriert. Die Entropie ist klein, wenn nur wenige Wörter für den Unterschied verantwortlich sind; sie ist groß, wenn viele Wörter einen Beitrag leisten.

Abb. 13
figure 13

Entropie/Delta-Plot für 500 MFW des NovellenschatzesFootnote

Burrows-Delta, 500 MFW, 20 % Culling.

Auffällig ist, dass sich unsere vier unähnlichen Texte (Scheffel, Wolf, Wallner und Riehl) in Beziehung zueinander und zu Goldammers Eine Hochzeitsnacht vom Rest des Korpus dadurch unterscheiden, dass sie bei einem hohen Delta-Wert einen niedrigen Entropie-Wert aufweisen. Der große Unterschied wird hier also in der Tat durch wenige Wörter verursacht, sodass eine Distanzberechnung über das maximal diskriminative Wort nicht abwegig erscheint. Allerdings hat diese Einsicht einen aller Wahrscheinlichkeit nach unglamourösen Grund, denn mit Ausnahme Riehls sind die unähnlichen auch die kürzesten Texte in unserem Korpus. Wie auch in anderen Zusammenhängen können kurze Texte leicht zu Scheineinsichten führen, wenn die nicht ganz so häufigen Wörter in ihnen unterrepräsentiert sind. Ein Versuch mit einem Subset nur der mittellangen Texte hat freilich, was die Entropiespreizung angeht, kein signifikant anderes Ergebnis erbracht.Footnote 45 Wir werden diese Idee weiterverfolgen.