Die Lektüre von Texten und Daten

In meinem Artikel hinterfrage ich die traditionelle Trennung zwischen qualitativer und quantitativer Textanalyse und plädiere für eine integrierte Herangehensweise, die ich als Data Philology bezeichne. Ich argumentiere, dass das Lesen von Texten und Daten in ihrer Komplexität keinen grundlegenden Unterschied aufweist, insbesondere wenn man die Rolle diagrammatischer Transformationen, Algorithmisierung und maschineller Prozesse berücksichtigt.

Im Zentrum meiner Ausführungen steht die Korpuslinguistik, die durch statistische Methoden und digitale Codierung großangelegte Textanalysen ermöglicht. Diese Ansätze überschreiten die herkömmlichen Grenzen zwischen »close« und »distant reading«. Ich beleuchte, wie Computer als aktive Mitwirkende in Schreib- und Lesepraktiken fungieren und wie digitale wie auch analoge Methoden oft diagrammatische Operationen involvieren, die in komplexe Interpretationsprozesse eingebettet sind.

Ich vertrete die Ansicht, dass die Philologie von der Integration datenwissenschaftlicher Methoden profitieren kann, indem sie diese für philologische Forschungsinteressen nutzt. Ziel ist es, einen naiven Datenpositivismus zu vermeiden und statistische Modelle für interpretative Zwecke zugänglich zu machen.

Mein Artikel fordert dazu auf, traditionelle Sichtweisen zu überdenken und sich für eine Data Philology zu öffnen, die die neuesten Methoden der Datenanalyse kritisch integriert und für eine breitere Vielfalt an Textanalysen nutzt.

Das Abstract wurde maschinell mit ChatGPT (GPT 4.0 vom 3. Januar 2024) auf Basis des Manuskripts erstellt und nur minimal korrigiert.

Abstract

In my article, I question the traditional separation between qualitative and quantitative text analysis and argue for an integrated approach, which I call data philology. I argue that reading texts and data are not fundamentally different in their complexity, especially when considering the role of diagrammatic transformations, algorithmization and machine processes.

At the center of my argument is corpus linguistics, which enables large-scale text analysis through statistical methods and digital coding. These approaches transcend the conventional boundaries between »close« and »distant reading«. I highlight how computers function as active participants in writing and reading practices and how digital as well as analog methods often involve diagrammatic operations embedded in complex interpretive processes.

I argue that philology can benefit from the integration of data science methods by utilizing them for philological research interests. The aim is to avoid naïve data positivism and to make statistical models accessible for interpretative purposes.

My article calls for rethinking traditional perspectives and opening up to a data philology that critically integrates and utilizes the latest methods of data analysis for a wider variety of textual analyses.

The title and abstract was automatically translated from German using DeepL (version 23.11).

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

1 Grundthese

Es gibt keinen prinzipiellen Unterschied zwischen der Lektüre eines Textes und der Lektüre einer Konkordanz. Das zeigt sich dann, wenn das Lesen von Texten, Konkordanzen oder anderen Deutungsobjekten in seiner ganzen Komplexität verstanden wird. Oder anders gewendet: Die Opposition zwischen einer »qualitativen« und »quantitativen« Analyse von Text ist nicht haltbar und zeugt von einem Verständnis von Lesen und Schreiben, das die Bedeutung von diagrammatischen Transformationen, Algorithmisierung und Maschinen unterschätzt. Diese Hypothese möchte ich im Folgenden plausibilisieren und damit auch deutlich machen, was die Eigenschaften eines korpuspragmatischen Vorgehens sind und wie sich dieses Vorgehen von anderen quantitativen Datenanalysen unterscheidet.

In den Philologien gilt noch immer eine Trennung zwischen Teildisziplinen, die Texte durch sog. qualitative Lektüren erschließen, und solchen, die dies angeblich quantitativ tun: Es wird ein »close reading« von einem »distant reading« (Moretti, 2005) unterschieden, wobei letzteres Daten produziert: Häufigkeitsverläufe und -verteilungen, Indizes, Tabellen etc. Die Korpuslinguistik greift auf eine Palette verschiedener statistischer Verfahren zurück, um große Textmengen abstrahieren zu können. Beispielsweise werden Kollokationsprofile berechnet, die typische Kontexte eines Ausdrucks über viele Texte hinweg zusammenfassen. Im Gegensatz dazu finden sich qualitative Ansätze zum Beispiel in Teilen der Literaturwissenschaft, aber auch in der Linguistik, wenn beispielsweise transkribierte Gespräche einem »close reading« unterzogen und gedeutet werden (https://doi.org/10.1007/s41244-024-00335-4). Im Hintergrund klingt noch immer die Unterscheidung der »erklärenden Naturwissenschaften« und »verstehenden Geisteswissenschaften« von Wilhelm Dilthey an (https://doi.org/10.1007/s41244-024-00341-6).

Doch ist die Unterscheidung zwischen »close« und »distant reading« tatsächlich so groß und sind die Kategorien »quantitativ« und »qualitativ« tatsächlich entscheidend? Oder verschränken sich diese verschiedenen Zugänge nicht laufend und die Lektüre von Daten unterscheidet sich gar nicht prinzipiell von der Lektüre eines Textes?

Um diese Frage anzugehen, möchte ich zunächst herausarbeiten, was denn die spezifische Herangehensweise korpuslinguistischer Methoden ist.

2 Korpuslinguistik: Verdatung und diagrammatische Transformation

Korpuslinguistische Methoden profitieren davon, dass mit der digitalen Codierung eine universelle Repräsentation von Zeichen möglich ist, damit beliebige Zeichen verdatet werden und in der Folge beliebige Algorithmen darauf angewandt werden können (Bubenhofer 2020, S. 99). Dafür werden Texte digital codiert, indem sie bereits auf einem Computer entstehen (»nativ-digital«, Rogers 2021, S. 30), oder aber durch Abtippen, Scanning und Optical Character Recognition (OCR) u. ä. digitalisiert werden. Damit werden Buchstaben und Wörter problemlos zählbar, so dass der Korpuslinguistik-Pionier Roberto Busa mit den ersten Großrechnern und über Lochkarten gesteuert einen alphabetisch sortierten Index der Schriften von Thomas von Aquin erstellen konnte (Busa 1951). Zur ähnlichen Zeit prägte John R. Firth den Begriff der Kollokation (»collocation«, Firth 1957, S. 194), definiert als typische Kontexte und Gebrauchsweisen eines Ausdrucks. Mit einem digitalen Textkorpus und darauf angewandten Algorithmen ist es leicht, die statistische Operationalisierung dieser Idee in Programmcode umzusetzen und automatisiert Kollokationsprofile zu berechnen, wie sie heute zur Standardanalysekategorie der Korpuslinguistik gehören (Evert 2005; Bubenhofer 2017). Dafür ist es notwendig, das Vorkommen aller Types, also unterschiedlicher Wörter im Korpus, zu erheben und miteinander in Beziehung zu setzen: Es muss ausgezählt werden, wie oft welche Wörter in einer definierten Umgebung rund um ein Suchwort erscheinen – und wie oft wiederum diese Wörter ansonsten im Korpus verwendet werden. Je nach statistischem Verfahren werden dann die beobachteten und erwarteten Häufigkeiten des Kovorkommens dieser Wörter miteinander verglichen. Ein Computer, als Metamedium (Kay/Goldberg 1977, S. 31; Bubenhofer 2020, S. 109) verstanden, kann diese Operationen durchführen, weil die digitale Codierung so universell ist, dass sie alle möglichen Zeichen repräsentieren kann, seien es Zahlen, Buchstaben, Wörter, Bilder etc. Es scheint das Verdienst von Ada Lovelace zu sein, in den 1840er-Jahren die Universalität dieser digitalen Codierung – damals aufgrund der mechanischen Rechenmaschine von Charles Babbage – gesehen zu haben (Krämer 2015). Die für eine Kollokationsanalyse notwendigen Operationen führen letztlich zu mathematischen Operationen.

Doch die vergleichsweise simple Berechnung eines Kollokationsprofils ist nur der Anfang. Aktuelle Methoden der distributionellen Semantik »vektorisieren« Wörter, Sätze oder Texte. Es geht dabei darum, das Kollokationsverhalten z. B. eines Wortes als Zahlenvektor auszudrücken: Es werden die (gewichteten) Häufigkeiten oder Wahrscheinlichkeiten, mit denen ein Ausgangswort mit allen anderen Types im Korpus auftritt, gespeichert (siehe Tabelle 1).

$$\text{Solidarit{\"a}t}=\{0.9,0.8,0,0.7,0.6,0,0,\ldots \}$$

Tab. 1 Matrix zur Erfassung des Kollokationsverhaltens von Ausdrücken in einem Korpus (Fantasiewerte)

Full size table

Damit sind nun weitergehende Operationen möglich: So kann vektorgeometrisch berechnet werden, wie ähnlich sich Vektoren verschiedener Ausdrücke sind, indem die Winkel zwischen den Vektoren berechnet werden, wie Abbildung 1 zeigt.

Die Größe des Winkels drückt damit aus, wie ähnlich sich zwei Wörter semantisch sind. Der Winkel zwischen den Vektoren Solidarität und Loyalität ist viel kleiner als jener zwischen Bahn und den anderen beiden. Die Winkelgröße als Maß für semantische Ähnlichkeit zu lesen, setzt voraus, zu akzeptieren, dass die typische Verwendung eines Wortes (also die Kontexte, in denen es typischerweise auftritt) eine Beschreibung der Bedeutung des Wortes ist. Also wenn man der Grundidee der Kollokation folgt.

Interessant ist jetzt, wie verschiedene Transformationen und Abbildungsverhältnisse ineinander spielen: Die digitale Codierung von Sprache ermöglicht die Transformation von Sprache in eine digitale Repräsentation, die algorithmisch weiter verarbeitet werden kann. Ein Algorithmus ist ein Regelwerk, das finit ist (es hat einen eindeutig definierten Umfang), eindeutige Regeln enthält (es gibt keine Zweifel über die Abfolge der Schritte) und allgemeingültig ist (es funktioniert unabhängig von den konkreten Werten), wobei es für ein Problem immer verschiedene denkbare Algorithmen gibt (Krämer 2015, S. 77 f.) – und selbstverständlich gibt es Algorithmen auch außerhalb des Computers.

So kann beispielsweise ein Algorithmus entwickelt werden, der Semantik von Wörtern in einem Text vektorgeometrisch repräsentieren lässt (wobei in Realität natürlich viele verschiedene Algorithmen im Spiel sind, alleine etwa um die damit nötigen mathematischen Grundoperationen wie addieren, subtrahieren etc. maschinell durchführen zu können). Die skizzierte Transformation eines Korpus in eine vektorisierte Form erlaubt nun beispielsweise, den »semantischen Raum« des Korpus als Sprachmodell zu repräsentieren (vgl. Abbildung 2).

Es ist aus korpuslinguistischer, und vor allem: korpuspragmatischer Sicht völlig klar, dass dieser berechnete semantische Raum nicht das Ergebnis einer Lektüre – geschweige denn ein berichtenswertes Datum ist – sondern ein Ausgangspunkt für interpretative Schritte. So könnte dieser semantische Raum exploriert, mit semantischen Räumen, die auf der Basis anderer Korpora berechnet worden sind, verglichen und Hypothesen für den Grund der Unterschiede generiert werden. Und doch ist gleichzeitig klar, dass die vorherigen Operationen und Transformationen entscheidend sind, um diese Art von Interpretation überhaupt durchführen zu können. Es wäre chancenlos, auf die gleiche Repräsentation des semantischen Raumes zu kommen, wenn das Korpus nicht digital codiert, die Transformation in den Vektorraum nicht stattgefunden und das Modell nicht berechnet worden wäre. Codierung, Algorithmisierung und Prozessierung durch einen Computer sind also zwingende Bestandteile des menschlichen Interpretationsprozesses. Als »korpuspragmatisch« verstehe ich an dieser Stelle diesen komplexen Prozess von korpuslinguistischen Methoden und interpretativen Schritten. Die Korpuspragmatik geht zudem von einem pragmatischen Sprachverständnis aus, das die musterhafte sprachliche Oberfläche als Symptom von sprachlichem Handeln auffasst und gleichzeitig diese Sprachgebrauchsmuster als konstituierend für dieses Handeln annimmt (vgl. weiterführend Bubenhofer/Scharloth 2015).

An dieser Stelle könnte nun eingehakt werden, dass genau diese Überlegung zum Zusammenspiel von korpuslinguistischen Methoden und Interpretation doch deutlich macht, wo die Unterschiede zwischen einem qualitativ-hermeneutisch-lesenden und einem quantitativ-rechnenden Zugang liegen. Schließlich benötigt die menschliche Lektüre ja die genannten Verfahren der Codierung und Algorithmisierung mit einem Computer gerade nicht.

Im Folgenden möchte ich aber plausibilisieren, dass das nicht stimmt.

3 Text, Mensch, Maschine

Mit den aktuellen Diskussionen zu textgenerierender »künstlicher Intelligenz« ist die Bedeutung des Computers in Schreib- und Leseprozessen in den allgemeinen Fokus gerückt: Es wird diskutiert, wie denn Texte, die durch KI erstellt worden sind, von andere unterschieden werden können oder wie KI sinnvoll eingesetzt werden kann, um Schreib- und Leseprozesse zu unterstützen.

Torsten Steinhoff kritisiert in diesem Kontext zu Recht, dass diese Fragestellung den Computer als Werkzeug zur Verschriftung von Texten missversteht und macht deutlich, dass der Computer als Partizipand von Schreibpraktiken aufgefasst werden müsse (Steinhoff 2023). Steinhoff argumentiert vor dem Hintergrund eines praxistheoretischen Verständnisses, dass Artefakte menschliches Handeln unterschiedlich stark prägen und so Praktiken mitkonstituieren (Hirschauer 2016, S. 45–68). Bei Schreibprozessen ergibt sich dadurch eine Palette von unterschiedlichen Formen der Koaktivität von Mensch und Computer:

Der Mensch kann deutlich koaktiver sein (z. B. Schreiben in Word), aber auch der Computer (z. B. Textgenerierung mit ChatGPT). Die Aktivitätsniveaus können aber auch fortwährend wechseln (z. B. Formulierung mit Wortvervollständigung). (Steinhoff 2023, S. 6)

Steinhoff verweist darauf, dass die Schreibforschung bislang technische »Gebrauchssuggestionen« vernachlässigt hat, indem sie den Fokus auf den menschlichen Schreibprozess legt und sich für dessen kognitiven Aspekte interessierte. Welchen Gebrauch jedoch technisch-mediale Artefakte nahelegen und wie sie so als Partizipanden des Schreibprozesses mitwirken, sei übersehen worden und würde nun aber bei textgenerierender KI überdeutlich.

In meinem Verständnis des Steinhoff’schen Konzepts des Computers als Partizipand geht dieses auch deutlich über den Affordanz-Begriff hinaus (Marx/Weidacher 2014, S. 57). Denn dem Affordanz-Begriff, verstanden als Angebotscharakter eines Gegenstands, wird normalerweise keine Handlungsmacht zugeschrieben. Die Komplexität des Ensembles von Computer und Software, Vernetzung und Algorithmen, wie sie beispielsweise bei Schreib- und Leseprozessen in sozialen Medien der Fall sind, macht jedoch sofort deutlich, dass die Reduktion auf die Affordanz eines Interfaces zu kurz greifen würde. So erscheinen uns soziale Medien z. B. oft in Streams von Nachrichten – und so interagieren wir auch mit ihnen. Die technische Infrastruktur und damit verbundenen Algorithmen dahinter ermöglichen jedoch ganz andere Strukturierungen und Beeinflussungen des Schreib- und Leseprozesses (Bubenhofer 2019).

Ausgehend von sich verändernden Schreib- und Lesepraktiken mit KI ist nun ein historischer Blick auf Schreiben und Lesen hilfreich.

4 Schreiben und Lesen mit dem Computer

Die Erfindung des Computers hatte zunächst wenig mit Schreibprozessen zu tun. Selbst die Anweisungen, mit denen Computer programmiert wurden, sind nicht auf dem Computer selber entstanden, sondern auf Papier: In Form von handschriftlich erstellten Ablaufskizzen und Lochkarten. Erst in einem späteren Schritt entstanden Programmiereditoren, um den Programmcode direkt auf dem Computer zu verfassen. So unterschiedet Till Heilmann in seiner Mediengeschichte des Computers als Schreibmaschine (Heilmann 2012) drei Arten des Schreibens im Zusammenhang mit dem Computer: »das Schreiben für Computer (aber nicht an ihnen) [Lochkarte, NB], das Schreiben für und an Computern [Programmiereditor, NB], und das Schreiben an Computern (aber nicht für sie) [Textverarbeitung, NB]« (Heilmann 2012, S. 8). Die Idee, den Programmiereditor auch zu benutzen, um beliebige Texte zu verfassen, setzte sich erst in den 1960er-Jahren langsam durch und in den 1970er-Jahren entstanden mit der PC-Revolution eigentliche Textverarbeitungsprogramme. Ein Höhepunkt dieser Art des Schreibens mit dem Computer ist Douglas Engelbarts »oN-Line-System« (NLS), dessen Präsentation 1968 als »mother of all demos« in die Computergeschichte einging (Heilmann 2012, S. 163; Lobin 2014, S. 13 f.; Bubenhofer 2020, S. 111).^{Footnote 1} Dieses System erlaubte nicht nur das Verfassen von Text, wie es mit einer Schreibmaschine gemacht werden könnte, sondern ermöglichte die strukturierte Erfassung von Informationen, deren laufende Manipulation und Transformation: So beispielsweise, indem hierarchische Listen erstellt, beliebig ein- und ausgeklappt sowie sortiert werden können.

In der Folge entstanden eine Reihe von Textverarbeitungsprogrammen, die jedoch gleichzeitig in zwei verschiedenen Schreibkulturen eingebettet sind: Ein Programm wie das weit verbreitete »Microsoft Word« kann ziemlich ähnlich wie eine Schreibmaschine verwendet werden, indem Tabulatoren gesetzt, Schrift fett ausgezeichnet und mit Absätzen gestaltet wird. Andererseits können jedoch Formatvorlagen genutzt werden, um logische (und nicht primär grafische) Auszeichnungen zu setzen und daraus z. B. automatisch Inhaltsverzeichnisse zu generieren. Diese beiden Kulturen möchte ich als Schreibmaschinen- bzw. als Programmierkultur bezeichnen. Erstere nutzt das Metamedium Computer, um eine (komfortable) Schreibmaschine zu simulieren, letztere ist eher in der Logik des Programmiereditors verpflichtet, und kombiniert das Schreiben gezielt mit diagrammatischen Transformationen, die dank der digitalen Codierung des Textes mit dem Computer möglich sind.

Abbildung 3 zeigt nun deutlich, dass Schreiben in einer Textverarbeitung ein deutlich koaktiver Prozess ist, bei dem der Computer mitschreibt: Das Programm registriert meinen Schreibprozess und kann deshalb Auskunft über die Textstatistik geben, das Sprachprofil »Deutsch (Deutschland)« zeigt an, dass im Hintergrund eine Rechtschreib- und Grammatikkontrolle aktiv ist und die Formatvorlage »Standard« ist für den aktuellen Absatz aktiviert.

Das bedeutet, dass im Hintergrund eine Vielzahl von maschinellen Prozessen und Algorithmen im Spiel sind, die das Schreiben prägen.

Doch wie sieht nun die Lektüre dieses Textes aus? Wahrscheinlich lesen Sie diesen Text im PDF-Format, einem Format, das zwar einerseits wie wenige andere für digitale Texte und Bücher steht, das aber andererseits ironischerweise so sehr »undigital« ist (Gitelman 2014). Denn es simuliert den auf Papier gedruckten Text, indem es sich an Dimensionen von Papier orientiert (z. B. A4) und den Text daran starr fixiert. Die interne digitale Repräsentation des PDFs ist komplex. Die logischen Auszeichnungen (z. B. Absatzformat »Titel«) gehen weitgehend verloren, genauso, wie eine Offset-Druckmaschine die belichtete Druckplatte als Verteilung von Punkten auf Papier presst, ohne von den Punkten zu wissen, ob sie Buchstaben, andere grafische Formen oder Bilder repräsentieren.

Bei der Lektüre dieses PDF-Formats kommt es nun jedoch zu weiteren digitalen Transformationen, wie Abbildung 4 zeigt.

Die markierte Passage in Abbildung 4 repräsentiert eine Annotation, die nun wiederum digital ausgelesen werden kann. So können z. B. automatisiert alle markierten Passagen und Notizen im Text extrahiert und in ein eigenes Dokument mit Referenzen auf den ursprünglichen Ort zusammengeführt werden.

Um nun den Bezug auf angeblich menschliche Lektüre zu machen: Lesen und Schreiben am Computer ist selbst dann maßgeblich von digitaler Codierung und Algorithmisierung durchdrungen, wenn es sich um »close reading« oder menschliches Schreiben handelt. Die Maschine schreibt und liest mit mir mit und die digitale Codierung ermöglicht auch eine laufende quantifizierende Auswertung der Schreib- und Leseprozesse – oder besser: ermöglicht dies nicht nur, sondern tut dies geradezu zwingend. Denn es ist die Charakteristik von digital codierter Information, dass sie laufend mit anderen digitalen Codes verrechnet werden kann. So indiziert das Betriebssystems des Computers laufend den aktuellen Stand des Dokuments im Schreib- oder Leseprozess, so dass es über die Volltextsuche sofort gefunden werden könnte.

5 Lesen und diagrammatische Operationen

Während nun deutlich geworden sein sollte, dass mit dem Metamedium Computer ein maschineller Partizipand in Lese- und Schreibprozesse involviert ist, lenken wir den Blick nun auf vordigitale Praktiken. Auch hier können Maschinen in Form von Schreibmaschinen oder Druckerpressen involviert sein. Am Beispiel der Schreibmaschinen kann gezeigt werden, wie diese nicht einfach ein Werkzeug waren, um Texte zu schreiben, sondern sie in neue Schreibpraktiken eingebettet werden mussten. So konkurrierten im 19. Jhd. verschiedene Tastaturlayouts – und damit verschiedene Praktiken des Tippens (mit zwei, drei, fünf oder zehn Fingern) miteinander (Gardey 1998). Mit standardisierten Tastaturlayouts entwickelte sich das Zehnfingersystem als Schreibtechnik und die Schreibgeschwindigkeit stieg markant. Da dafür jedoch spezifische Expertise notwendig war, wurde der Beruf der Typistin erfunden – explizit ein Frauenberuf – und damit eine Arbeitsteilung zwischen Diktieren (Chef) und tippen (Typistin, Sekretärin). Selbst die Möblierung im Büro wurde den neuen Schreibpraktiken angepasst (Gardey 1998, S. 334). Auch hier ergibt sich eine komplexe Situation des Schreibens, mit dem die Maschinen zu neuen Praktiken und Arbeitsteilungen führten.

Am Beispiel des Zettelkastens zeigen sich jedoch auch Veränderungen von Lesepraktiken, die zudem auf einen weiteren Aspekt aufmerksam machen: Die Bedeutung diagrammatischen Operierens im Zusammenhang mit Text. Dies kann gut am »Thesaurus linguae latinae« gezeigt werden, einem Wörterbuchprojekt, das 1893 startete und eine Sammlung von 10 Mio. Zetteln anhäufte, um den Wortgebrauch aller aus der Antike bis ins 6. Jahrhundert erhaltenen literarischen und nichtliterarischen lateinischen Texte abbilden zu können (vgl. Bubenhofer 2020, S. 104).^{Footnote 2} Die Zettel repräsentieren Lemmata aus den Texten und bildeten so einen Index für die Belegstellen. Die ständig wachsende Zettelsammlung mussten dabei immer wieder neu geordnet werden, wozu studentische Hilfskräfte eingesetzt worden sind, die sich entsprechende Sortiertechniken aneigneten: »Wir fanden schnell heraus, wie wir uns in die Hände arbeiten konnten. Die großen Tische erleichterten das Auslegen nach Buchstaben und innerhalb dieser nach Schriften und Stellen.« (Bögel 1996, S. 17)

Die Lektüre der lateinischen Schriften war also eng mit diagrammatischen Transformationen verbunden: Damit beziehe ich mich auf die »Diagrammatik« als Theorie des Diagramms, mit dem meist auf einer Fläche und mit grafischen Mitteln ein ikonisches Abbildungsverhältnis zu einem Referenten hergestellt wird (Krämer 2009; Bauer/Ernst 2010; Bubenhofer 2020). In einem weiteren Verständnis fallen nicht nur grafische Diagramme darunter, sondern räumliche Ordnungen, die in einem ikonischen Abbildungsverhältnis Wissen repräsentieren, fallen ebenfalls darunter. So verhält es sich mit den Zetteln des Thesaurus linguae latinae: Die Belegstellen wurden als Fundorte (loci) aus den ursprünglichen Texten extrahiert und auf Zettel übertragen. Diese Zettel stellen Referenzen auf die Fundorte dar, erlauben in ihrer dekontextualisierten Form jedoch gleichzeitig eine neue Lektüre: Ein Wort ist nicht mehr im Syntagma eines Textes eingebettet, sondern typische Wortverwendungen über viele verschiedene Texte hinweg werden durch die Verzettelung sichtbar. Nichts anderes erlaubt in der Korpuslinguistik die Konkordanz, die alle Fundstellen zusammenzieht und so überblickbar macht (Bubenhofer 2020, S. 133 ff.).

Das Lesen von Texten nutzt also diagrammatische Mittel und wird dadurch innovativ, weil es neue Lektüren erlaubt.

6 Annotation

Die Zettel im Fall des Thesaurus linguae latinae dienen der Index-Bildung, indem sie Referenzen auf Originaltexte setzen. Der Vorteil eines Index ist seine Unabhängigkeit von der originalen Referenz, da der Index zu einem eigenständigen Objekt wird, der immer wieder nach unterschiedlichen Kriterien geordnet werden kann. Entstanden ist die Idee des Index jedoch aus einem Annotationsverfahren, dem Glossieren, also dem Hinzufügen von Randnotizen. Für den deutschsprachigen Raum gilt der »Abrogans« aus dem 8. Jahrhundert als älteste deutschsprachige Glossensammlung, die Wörterbuchcharakter hat. Sie entstand aus dem Bedürfnis, bei lateinischen Texten Randnotizen zu einzelnen Termini zur Übersetzung ins Deutsche zu machen (Haß-Zumkehr 2012, S. 41). Die Extraktion dieser Glossen in eine eigene Liste ermöglicht dann eine Zusammenführung und Umordnung der Glossen, z. B. in eine alphabetische Ordnung, um bequem und unabhängig von den ursprünglichen Kontexten der Glossen Wörter nachschlagen zu können.

Natürlich entstehen nicht nur Wörterbücher aus Glossen. Die Technik der Randnotiz, des Exzerpierens und verwandter Verfahren ist eine gängige Lektürepraxis, um den gelesenen Inhalt zu kommentieren oder eben nach bestimmten Kriterien zu strukturieren.

Auch hier zeigt sich nun eine deutliche Nähe zu quantitativen Verfahren, etwa des Annotierens in der Korpuslinguistik. Unter Annotation wird das Hinzufügen von kategorialen Informationen zu einzelnen Tokens oder beliebigen Sequenzen im Korpus verstanden, oft beispielsweise Wortartklassen, die zu jedem Token hinzugefügt werden. Oft wird Annotieren als hochautomatisierter Prozess verstanden, bei dem extra dafür erstellte Tools nach einem vorgegebenen Schema spezifische Annotationen zu Texten hinzufügen. Allerdings existieren ebenso manuelle oder halbautomatische Annotationsverfahren für komplexe Kategorien. So wird Annotieren zu einem durch und durch hermeneutischen, komplexen Verfahren:

In diesem Sinne ist Annotation nicht mehr nur als Erschließungsroutine, sondern als Methode zur (kollaborativen) Explizierung und Operationalisierung hermeneutischer Analyseprozesse anzusehen, die auf digitale Untersuchungsgegenstände angewendet werden kann – auch und insbesondere im Rahmen der digitalen Diskursanalyse. (Bender et al. 2022, S. 148)

Das bedeutet jedoch nicht, dass dies eine quantitative Perspektive verunmöglicht. So ist es beispielsweise möglich, Machine-Learning-Verfahren in den Annotationsprozess zu integrieren, wie Michael Bender es im Sinne einer »pragmalinguistischen Annotation« beschreibt (Bender 2023).

Es kommt hierbei durchaus zu Konflikten zwischen verschiedenen Forschungslogiken, wenn z. B. aus einer computerlinguistischen Perspektive gefordert wird, Annotation als komplett transparent, systematisch und generalisierbar aufzufassen, dabei aber übersehen wird, wie stark theorieabhängig und an spezifische Daten gebunden Annotationen oft sind. Als Beispiel mag das Feld der sog. »Sentiment-Analyse« dienen, die in der Computerlinguistik aus Gründen der Komplexitätsreduktion oft mit den wenigen Variablenausprägungen »positiv«, »neutral«, »negativ« operiert. Linguistische (und literaturwissenschaftliche) Arbeiten zeigen jedoch, dass »Gefühl«, »Bewertung« oder auch »Positionierung« komplexe Konzepte sind, die in dieser Einfachheit höchstens für ganz gezielte Aufgaben sinnvoll so reduziert werden können.

Digitale und nicht-digitale Methoden teilen also viele ganz grundsätzliche Methoden, die oft diagrammatische Operationen involvieren: Es geht um die Transformation von Text in verschiedene »diagrammatische Grundfiguren«, Listen, Karten, Partituren, Vektoren und Graphen (Bubenhofer 2020, S. 193). Dies erfolgt manchmal komplett von Hand, manchmal halbautomatisch, immer öfter auch komplett maschinell. Es dient dazu, Aussagen über wenig Text, oder aber über ganz viel Text zu machen. Und die Transformationen sind in komplexe interpretatorisch-analytische Prozesse eingebunden.

7 Data Philology statt Data Science

Die philologische Beschäftigung mit einem oder mehreren Texten unterscheidet sich m. E. nicht prinzipiell von der philologischen Beschäftigung mit Texten in Form von Konkordanzen, Kollokationsprofilen oder anderen statistischen Aggregierungen oder statistischen Modellen. Denn beide Typen der philologischen Beschäftigung greifen auf Verfahren der diagrammatischen Transformation von Texten zurück (Glossen oder Annotationen hinzufügen, Indizes erstellen, kategorisieren, sortieren etc.), wobei dafür fast immer technische Hilfsmittel (Leuchtstifte, Zettel – Computer, Software) verwendet werden. Lektüre ist dabei ein komplexer Prozess auf mehreren Ebenen und Iterationen. Beispielsweise wird Text annotiert, wobei die Annotationskategorien manchmal erst im Leseprozess entstehen (z. B. nach Ideen der »Grounded Theory«, vgl. Glaser/Strauss 1967), die Verteilung dieser Annotationen im Text oder in Texten wird auf Korrelationen mit anderen Eigenschaften, intertextuellen oder extratextuellen Aspekten geprüft und gedeutet. Ob das anhand weniger Texte und mit Maschinen, die nur kleine Rollen einnehmen, passiert, oder ob große Textmengen verarbeitet werden und Maschinen große Rollen der Partizipation übernehmen, ist kein prinzipieller Unterschied. So schlägt Joachim Scharloth z. B. die Integration der Grounded Theory in die Korpuspragmatik vor (Scharloth 2018), Michael Bender verbindet händisches Annotieren mit Machine Learning (Bender 2023), Marie-Luis Merten untersucht ritualisierte Anschlusskommunikation in Social Media in einer quantitativ-qualitativ verbindenden Methode (Merten 2022) oder ich selber schlug eine quantitativ informierte qualitative Diskursanalyse vor (Bubenhofer 2013), um recht wahllos beliebige Beispiele zu nennen.

Ich plädiere dafür, dass aus philologischer, kulturwissenschaftlicher und letztlich auch korpuspragmatischer Perspektive ein kritischer Blick auf die sog. »Data Science« geworfen werden sollte. Data Science definiert sich als »ein interdisziplinäres Wissenschaftsfeld, welches wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme zur Extraktion von Erkenntnissen, Mustern und Schlüssen sowohl aus strukturierten als auch unstrukturierten Daten ermöglicht« (Wikipedia: Data Science, 15.11.2023). Selbstverständlich ist es völlig sinnvoll – ja sogar notwendig (Scharloth et al. 2013), Texte als Daten aufzufassen und innovative Methoden der Data Science anzuwenden. Doch ist es aus philologischer Sicht zwingend, diese in die eigene Forschungslogik zu integrieren und Daten als Texte, Maschinen als Partizipanden und die Interaktionen zwischen Daten, Maschinen und Mensch als diagrammatisches Operieren aufzufassen. Wichtig ist dabei, die Methoden an die Bedürfnisse des Lesens und Interpretierens anzupassen: So ist es wichtig, statistische Modelle wie Sprachmodelle lesbar zu machen (z. B. durch Clustering des Modells und anschließender manueller Kategorisierung, vgl. Bubenhofer 2022). Damit vermeidet man einen naiven Datenpositivismus und kann die immer breitere Vielfalt an innovativen Methoden trotzdem nutzen, um sie für philologische Forschungsinteressen fruchtbar zu machen. Also ein Plädoyer für Data Philology statt Data Science.

Interessanterweise stößt dieser vermittelnde Ansatz immer wieder auf Skepsis: So plädiert z. B. Hermanns für eine »linguistische Hermeneutik«, denn eine Linguistik ohne Hermeneutik sei »ein Unding« und er konstruiert dazu den Gegenpol einer Linguistik, die »naturwissenschaftlich-szientistisch« sei (Hermanns 2003, S. 128). Auch Fix sieht eine Renaissance des »hermeneutischen Textzugangs«, bei dem Leser:innen als »sinnkonstituierende Instanz[en]« berücksichtigt werden (Fix 2021, S. 701). Zentrale Operation sei das Ineinandergreifen von analysieren und interpretieren, mit dem die Elemente »des komplexen Zeichens, das einen Text ausmacht, Sinn zugewiesen« und Hypothesen über ein Textverstehen an »Einzelelementen« überprüft werde (Fix 2021, S. 699). Während bei Fix unklar ist, ob unter diesen »Einzelelementen« auch Text als Daten, Konkordanzen oder Kollokationsprofile gemeint sein könnten, drücken sich Römer und Wengeler (2023 S. 425) deutlich aus: Es sei zwar möglich, »korpuslinguistisch zigtausende Belegstellen in kürzester Zeit hinsichtlich ihrer Quantitäten und/oder ›Distribution‹ zu messen«, was allerdings »nichts über subkutane Sinnebenen« oder eine »Tiefensemantik« aussage (Römer/Wengeler 2023, S. 425). Aus diskurslexikographischer Sicht sieht auch Bär (2016) einen Gegensatz zwischen »makrosemantisch orientierte[r] systemlinguistische[r] Breitenstudie« und der »qualitative[n] Methode der relationalen Semantik«, die er als »philologische Detailuntersuchung« (Bär 2016, S. 123) bezeichnet.

Der Tenor dieser (und weiterer) Stimmen ist, dass eine philologisch-hermeneutisch-qualitative Lektüre im Gegensatz zu einem quantitativ-oberflächlichen und eher naiv-positivistisch-statistischem Ansatz steht. Es wird zwar da und dort argumentiert, dass quantitative mit qualitativen kombiniert werden können, doch auch dies konstruiert einen Gegensatz, wo ich eher ein Kontinuum sehe und eine Hierarchie, die so nicht haltbar ist. Die Stimmen verkennen m. E. die rasant fortschreitenden Möglichkeiten maschineller Datenanalysen. Und auch die philologische Detailuntersuchung nutzt diagrammatische Verfahren, Codierungen und technische Mittel, die am Untersuchungsprozess partizipieren – genauso wie es prinzipiell auch eine Data Philology macht. Warum dafür nicht die neusten Methoden ausprobieren, an ihrer Weiterentwicklung partizipieren und eine möglichst breite Vielfalt an Daten analysieren und interpretieren?

Notes

Vgl. https://www.dougengelbart.org/content/view/209/448/ (12.11.2023) für weitere Informationen, insbesondere für die Verweise auf die Videoaufnahmen der Demonstration.
Vgl. https://thesaurus.badw.de/ueber-den-tll.html (13.11.2023).

Literatur

Bär, Jochen A. (2016): Langue-Philologie – historische Semantik – hermeneutische Linguistik – wie auch immer: Für eine qualitative Diskurslexikographie. In: Anja Lobenstein-Reichmann/Peter O. Müller (Hg.): Historische Lexikographie zwischen Tradition und Innovation: De Gruyter, S. 101–130.
Chapter Google Scholar
Bauer, Matthias/Christoph Ernst (2010): Diagrammatik / Einführung in ein kultur- und medienwissenschaftliches Forschungsfeld. Bielefeld: transcript.
Book Google Scholar
Bender, Michael (2023): Pragmalinguistische Annotation und maschinelles Lernen. In: Simon Meier-Vieracker/Lars Bülow/Konstanze Marx/Robert Mroczynski (Hg.): Digitale Pragmatik, Digitale Linguistik 1. Berlin/Heidelberg: Springer Berlin Heidelberg, S. 267–286.
Chapter Google Scholar
Bender, Michael/Noah Bubenhofer/Philipp Dreesen/Christopher Georgi/ Jan Oliver Rüdiger/Friedemann Vogel (2022): Techniken und Praktiken der Verdatung. In: Eva Gredel (Hg.): Diskurse – digital. Berlin/Boston: De Gruyter, S. 135–158.
Chapter Google Scholar
Bögel, Theodor (1996): Thesaurus-Geschichten: Beiträge zu einer Historia Thesauri linguae Latinae von Theodor Bögel (1876–1973): Mit einem Anhang: Personenverzeichnis 1893–1995. Stuttgart: Teubner.
Google Scholar
Bubenhofer, Noah (2013): Quantitativ informierte qualitative Diskursanalyse. Korpuslinguistische Zugänge zu Einzeltexten und Serien. In: Kersten Sven Roth/Carmen Spiegel (Hg.): Angewandte Diskurslinguistik. Felder, Probleme, Perspektiven, Diskursmuster – Discourse Patterns. Berlin: Akademie-Verlag, S. 109–134.
Chapter Google Scholar
Bubenhofer, Noah (2017): Kollokationen, n‑Gramme, Mehrworteinheiten. In: Kersten Sven Roth/Martin Wengeler/Alexader Ziem (Hg.): Handbuch Sprache in Politik und Gesellschaft, Handbücher Sprachwissen (HSW). Berlin/New York: De Gruyter.
Google Scholar
Bubenhofer, Noah (2019): Social Media und der Iconic Turn: Diagrammatische Ordnungen im Web 2.0. In: Diskurse – digital 1, S. 114–135.
Google Scholar
Bubenhofer, Noah (2020): Visuelle Linguistik: Zur Genese, Funktion und Kategorisierung von Diagrammen in der Sprachwissenschaft, Impulse und Tendenzen. Berlin u. a.: De Gruyter.
Book Google Scholar
Bubenhofer, Noah (2022): Exploration semantischer Räume im Corona-Diskurs. In: Heidrun Kämper/Albrecht Plewnia (Hg.): Sprache in Politik und Gesellschaft: De Gruyter, S. 197–216.
Chapter Google Scholar
Bubenhofer, Noah/Scharloth, Joachim (2015): Maschinelle Textanalyse im Zeichen von Big Data und Data-driven Turn – Überblick und Desiderate. In: Zeitschrift für Germanistische Linguistik 43(1), S. 1–26.
Article Google Scholar
Busa, Roberto (1951): Sancti Thomae Aquinatis Hymnorum ritualium varia specimina concordantiarum: primo saggio di indici di parole automaticamente composti e stampi da macchine IBM a schede perforate = A 1st example of word index automatically compiled and printed by IBM punched card machines, Archivum philosophicum Aloisianum 2. Milano: Bocca.
Evert, Stefan (2005): The Statistics of Word Cooccurrences. Word Pairs and Collocations. Stuttgart, Institut für maschinelle Sprachverarbeitung, Universität Stuttgart.
Google Scholar
Firth, John Rupert (1957): Modes of Meaning. In: Papers in Linguistics 1934–1951. London: Oxford University Press, S. 190–215.
Google Scholar
Fix, Ulla (2021): Wir entkommen der Hermeneutik nicht! In: Zeitschrift für Literaturwissenschaft und Linguistik 51(4), S. 695–702.
Article Google Scholar
Gardey, Delphine (1998): The standardization of a technical practice: typing (1883–1930). In: Reseaux (London, England) 6(2). Paris, Hermès Science Publications, S. 255–281.
Google Scholar
Gitelman, Lisa (2014): Paper knowledge: toward a media history of documents, Sign, Storage, Transmission. Durham/London: Duke University Press.
Book Google Scholar
Glaser, Barney G./Anselm L. Strauss (1967): The discovery of grounded theory: strategies for qualitative research. New Brunswick: Aldine.
Google Scholar
Haß-Zumkehr, Ulrike (2012): Deutsche Wörterbücher – Brennpunkt von Sprach- und Kulturgeschichte. Berlin/Boston: De Gruyter.
Google Scholar
Heilmann, Till A. (2012): Textverarbeitung. Eine Mediengeschichte des Computers als Schreibmaschine, MedienAnalysen. Bielefeld: Transcript.
Book Google Scholar
Hermanns, Fritz (2003): Linguistische Hermeneutik. Überlegungen zur überfälligen Einrichtung eines in der Linguistik bislang fehlenden Teilfaches. In: Angelika Linke/Hanspeter Ortner/Paul R. Portmann-Tselikas (Hg.): Sprache und mehr. Ansichten einer Linguistik der sprachlichen Praxis, Reihe Germanistische Linguistik. Tübingen: Niemeyer, S. 125–164.
Chapter Google Scholar
Hirschauer, Stefan (2016): Verhalten, Handeln, Interagieren: Zu den mikrosoziologischen Grundlagen der Praxistheorie. In: Hilmar Schäfer (Hg.): Sozialtheorie. Bielefeld: transcript Verlag, S. 45–68.
Google Scholar
Kay, Alan/Goldberg, Adele (1977): Personal Dynamic Media. In: Computer 10(3), S. 31–41.
Article Google Scholar
Krämer, Sybille (2009): Operative Bildlichkeit. Von der ›Grammatologie‹ zu einer ›Diagrammatologie‹? In: Martina Heßler/Dieter Mersch (Hg.): Logik des Bildlichen. Zur Kritik der ikonischen Vernunft, Metabasis. Bielefeld: Transcript, S. 94–123.
Chapter Google Scholar
Krämer, Sybille (2015): Wieso gilt Ada Lovelace als die ›erste Programmiererin‹ und was bedeutet überhaupt ›programmieren‹? In: Jens Schröter/Sybille Krämer/Yvonne Spielmann/Bernhard Dotzler/Christiane Floyd/Marie-Luise Angerer/Sabina Jeschke/Tanja Paulitz/Annette Pohlke (Hg.): Ada Lovelace. Die Pionierin der Computertechnik und ihre Nachfolgerinnen: Brill Fink, S. 75–90.
Chapter Google Scholar
Lobin, Henning (2014): Engelbarts Traum: Wie der Computer uns Lesen und Schreiben abnimmt. Frankfurt a.M.: Campus Verlag.
Google Scholar
Marx, Konstanze/Georg Weidacher (2014): Internetlinguistik. Tübingen: Narr Dr. Gunter.
Google Scholar
Merten, Marie-Luis (2022): Ritualisierte Anschlusskommunikation auf Instagram. In: Deutsche Sprache 50(4), S. 3.
Article Google Scholar
Moretti, Franco (2005): Graphs, maps, trees: abstract models for a literary history. London/New York: Verso.
Google Scholar
Rogers, Richard: Digitale Methoden (2021): Zur Positionierung eines Ansatzes. In: Medien & Kommunikationswissenschaft 69(1), S. 25–45.
Article Google Scholar
Römer, David/Wengeler, Martin (2023): Back to the roots! Eine Verteidigungsrede der traditionellen themenbezogenen Diskurslinguistik. In: Zeitschrift für Diskursforschung 10(2), S. 426–436.
Article Google Scholar
Scharloth, Joachim (2018): Korpuslinguistik für sozial- und kulturanalytische Fragestellungen. Grounded Theory im datengeleiteten Paradigma. In: Marc Kupietz/Thomas Schmidt (Hg.): Korpuslinguistik. Berlin/New York: De Gruyter, S. 59–78.
Google Scholar
Scharloth, Joachim/Eugster, David/Bubenhofer, Noah (2013): Das Wuchern der Rhizome. Linguistische Diskursanalyse und Data-driven Turn. In: Dietrich Busse/Wolfgang Teubert (Hg.): Linguistische Diskursanalyse. Neue Perspektiven. Wiesbaden: Springer VS, S. 345–380.
Chapter Google Scholar
Steinhoff, Torsten (2023): Künstliche Intelligenz als Ghostwriter, Writing Partner und Writing Tutor Zur Modellierung und Förderung von Schreibkompetenzen im Zeichen der Automatisierung und Hybridisierung der Kommunikation am Beispiel von ChatGPT. In: https://www.researchgate.net/publication/372830958 (29.02.24).

Download references

Funding

Open access funding provided by University of Zurich

Author information

Authors and Affiliations

Deutsches Seminar, Universität Zürich, Zürich, Schweiz
Noah Bubenhofer

Authors

Noah Bubenhofer
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Noah Bubenhofer.

Additional information

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Rights and permissions

Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.

Reprints and permissions

About this article

Cite this article

Bubenhofer, N. Die Lektüre von Texten und Daten. Z Literaturwiss Linguistik 54, 269–283 (2024). https://doi.org/10.1007/s41244-024-00338-1

Download citation

Received: 31 October 2023
Accepted: 30 December 2023
Published: 18 April 2024
Issue Date: June 2024
DOI: https://doi.org/10.1007/s41244-024-00338-1

Schlüsselwörter

Keywords