1 Einleitung

Soziopragmatische Phänomene stellen eine besondere Herausforderung für die digitale Linguistik dar, weil ihre Interpretation und Analyse die Erfassung des Impliziten und Inferierten und somit Kontextwissen erfordert. Der digitale, frequenz- und distributionsorientierte Zugriff auf die sprachliche Oberfläche durch korpuslinguistische Methoden greift also bei vielen Fragestellungen der linguistischen Pragmatik zu kurz. Zwar erfolgt der Zugriff von menschlichen Interpretierenden/Analysierenden ebenfalls über diese sprachliche Oberfläche und weitere rezipierbare Daten, aber eben mit dem entsprechenden Kontextwissen, kommunikativen Wissen und auch – im Falle der wissenschaftlichen Untersuchung – der pragmalinguistischen Expertise als Hintergrund. Diese Richtung der Linguistik wird deshalb meist als Domäne hermeneutischer Verfahren angesehen, zum Beispiel interpretierend-kategorisierender Annotation und Analyse. Dies ist jedoch mit sehr hohem Zeit- und Personalaufwand verbunden. Eine Möglichkeit, interpretierende Annotation dennoch in größeren Korpora umzusetzen, stellt die Kombination mit maschinellem Lernen dar. In diesem Beitrag werden Qualitätskriterien für die manuelle digitale Annotation pragmalinguistischer Phänomene anhand zweier Beispiel-Studien herausgearbeitet, insbesondere mit Blick auf die Anschlussfähigkeit an algorithmische Verfahren. Als Folie für die Reflexion der Kategorienbildung werden dabei zwei unterschiedliche Formen des maschinellen Lernens einbezogen, die mit dem Annotieren kombiniert werden können und die Möglichkeit bieten, interpretative Annotation auch auf größere Datenmengen anzuwenden.

In der ersten exemplarischen Anwendung, einer Studie zur Klassifizierung von Zwischenrufen in den Plenarprotokollen des Deutschen Bundestages, wird der Annotationsprozess durch einen Recommender – in dem Fall einen eher einfachen Algorithmus – begleitend unterstützt, der mit den Annotationsentscheidungen trainiert wird und auf dieser Basis Kategorisierungsempfehlungen gibt. Ziel ist die funktionale Kategorisierung nach Typen von Zwischenrufen, die aus den Plenarprotokollen extrahiert und einzeln als ganze Sätze oder Satzäquivalente annotiert werden. Die Empfehlungen und der Lernfortschritt des Algorithmus werden dabei als heuristische Entscheidungshilfe nicht nur für einzelne Annotationen, sondern auch für die Ausdifferenzierung des Kategoriensystems genutzt.

Die zweite Studie schließt hingegen das Training eines rekurrenten neuronalen Netzes an die abgeschlossene händische Annotation eines Pilot-Korpus aus Einleitungen von Dissertationen an. Annotiert wurde dabei zunächst ebenfalls auf Satzebene, aber eingebunden in den Kotext und mit Blick auf satzübergreifende Muster bzw. Textzonen sowie letztlich Einleitungstypen. Bei der Machine-Learning-Komponente handelt es sich – ebenfalls im Kontrast zur ersten Studie – um ein fortgeschritteneres Modell, ein neuronales Netzwerk auf der Basis von Word Embeddings. Die Anwendung auf das annotierte Pilot-Korpus ermöglicht die Reflexion des Annotationsschemas mit Blick auf die weitere Annotation des Dissertationen-Korpus.

In beiden Studien lassen sich Kriterien des manuellen Annotierens zeigen, die auch Erfolgsfaktoren für das maschinelle Lernen sind (z. B. Segmentierung, Granularität und Distinktivität von Kategorien etc.). Diese stellen zugleich Qualitätskriterien für die Explizitheit und intersubjektive Nachvollziehbarkeit von interpretativen Kategorisierungen in Annotationsstudien dar, also nicht nur hinsichtlich der Kompatibilität mit maschinellem Lernen, sondern auch der Verständlichkeit für menschliche Adressaten, etwa andere Annotator/inn/en oder Rezipienten der jeweiligen Studie.

Die Beispielstudien führen verschiedene methodische Ideen und Forschungs- bzw. Verfahrensrichtungen (hermeneutisch-interpretierend und frequenz-distributionsorientiert, deduktiv-induktiv usw.) enger zusammen und entwickeln sie weiter. Dabei muss der beschriebene menschliche Wissenshintergrund hinsichtlich verschiedener Kontextebenen, der Voraussetzung für die Erfassung und das Verstehen pragmalinguistischer Phänomene ist, für die maschinelle Analyse zuerst digital operationalisiert werden. Zumindest müssen die Aspekte und Kategorisierungskriterien digital explizit gemacht werden, die für die Analyse der Forschungsfrage relevant sind. Ein durch menschliche Annotierende gebildetes, konsistentes Klassifizierungssystem ist Voraussetzung dafür, dass die Maschine die menschlichen Kategorisierungsmuster relativ zu Daten in den Annotationen erkennen und sie – zumindest annähernd – reproduzieren kann. Die grundlegenden Voraussetzungen für den Erfolg maschinellen Lernens komplexer pragmalinguistischer Klassifizierungen sind insofern auf Qualitätskriterien der manuellen Annotation zurückzuführen. Die Fortschritte maschinellen Lernens können wiederum zur Reflexion der menschlichen Kategorisierung genutzt werden. Diese Aspekte stehen im Fokus des Aufsatzes. Zentral ist also nicht ein bestimmter sprachlicher Untersuchungsgegenstand oder eine einzelne Studie mit einer spezifischen Forschungsfrage, sondern die Methodenreflexion im Bereich der digitalen Pragmatik.

Hinsichtlich des Forschungsstandes ist dies als spezifische Perspektive im Rahmen der innovativen Methodenkombination verschiedener korpuspragmatischer Richtungen einzuordnen, die sich derzeit neu entwickeln. Automatisierte bzw. algorithmische Methoden wurden in der Pragmatik vor allem in der Form eingesetzt, dass bestimmte angenommene Indikatoren an der sprachlichen Oberfläche erfasst, annotiert und ausgewertet werden – zum Beispiel Interjektionen, Modalverben, Diskurs-Marker, Höflichkeits- und Hedging-Marker – von deren Frequenz und Distribution wiederum interpretierend Schlüsse auf pragmatische Phänomene gezogen werden (vgl. Archer et al. 2008, 615–619; Aijmer 2015, 195–218 und Weisser 2018, 2–4 und 8–12). Solche Indikatoren werden in der Computerlinguistik auch mit Annotationsverfahren erschlossen, allerdings vor allem mit dem Ziel des maschinellen Lernens, des Trainings und der Optimierung von Algorithmen, die im Anschluss automatisiert annotieren können (vgl. Ide 2017, 15). Manuelle Annotation und Kategorisierung, die auch auf implizite und kontextabhängige Phänomene zielt, wurde vor allem in der pragmalinguistischen Sprechaktanalyse im englischsprachigen Raum etabliert (vgl. Weisser 2018). Die Kombination solcher Verfahren mit Ansätzen des maschinellen Lernens – mit dem Schwerpunkt auf der hermeneutisch-interpretativen Annotation – stellt eine Innovation der im Folgenden beschriebenen und mit Blick auf die Methodenreflexion diskutierten Studien dar.

2 Funktionale Klassifizierung von Zwischenrufen im Deutschen Bundestag mit einem Recommender-System

Die erste Studie strebt als allgemeines Ziel an, eine Kategoriensystem zu entwickeln, mit dem die Zwischenrufe im Deutschen Bundestag nach gesprächslinguistischen Kriterien klassifiziert werden können. Diese Typenbildung soll als generische Auszeichnungsebene ein Korpus der Plenarprotokolle des Deutschen Bundestages anreichern, das im Forschungsteam DiscourseLab des Fachgebiets Digitale Linguistik an der TU Darmstadt und der Universität HeidelbergFootnote 1 in der korpuslinguistischen Forschungsumgebung CQPweb (vgl. Hardie 2012, 380–409) erstellt wird (vgl. Müller et al. 2020, https://www.discourselab.de/cqpweb/). Dabei wird außerdem ein spezifischeres Ziel verfolgt, das für ein Forschungsprojekt des Autors dieses Beitrags relevant ist, in dem Formen des Kommentierens untersucht werden (vgl. Bender 2020). In diesem Zusammenhang gilt es, Zwischenrufe zu selektieren, die einen eigenen propositionalen Gehalt aufweisen, der über eine reine Kurzbewertung hinausgeht und neue oder erweiternde Kontexte und Perspektiven in die Debatte einführt im Sinne einer (Re-)Kontextualisierungsfunktion (vgl. Bauman/Briggs 1990, 75–76). Zwischenrufe sind typische Beispiele für solche retrospektiven Äußerungen. Allerdings weisen die in den Plenarprotokollen des Deutschen Bundestages als Zwischenrufe ausgezeichneten Äußerungen ein breites Spektrum von unterschiedlichen Formen auf. Typologien wurden in der Politolinguistik hinsichtlich verschiedener Kriterien erstellt, am ausführlichsten durch Burkhardt (2004, 166–170), der zum einen nach formalen Aspekten differenziert, (mit der Bezeichnung „Zwischenruftechniken“, ebd., 225–230) insbesondere nach syntaktischen Kriterien (ebd., 243–251) und zum anderen nach semantischen und pragmatischen Gesichtspunkten, schwerpunktmäßig nach Sprechhandlungen (308–314). In der hier beschriebenen Studie wurde jedoch eine eigene Typologie entwickelt – vor dem Hintergrund der oben erläuterten Überlegungen und mit dem Ziel der einerseits generischen Korpusannotation und andererseits der Extraktion propositional-rekontextualisierender Zwischenrufe. Diese Typologie wurde als Kategoriensystem sukzessive im Annotationsprozess entwickelt, wobei der im Folgenden beschriebene Recommender als heuristisches Instrument zur Kategoriendifferenzierung – auch als Anhaltspunkt für die maschinelle Differenzierbarkeit – verwendet wurde. Die Kategorisierung stellt also nicht den Ausgangspunkt, sondern ein Ergebnis der Studie dar.

In einem ersten Schritt wurden alle Zwischenrufe von der ersten Sitzung 1949 bis zum Ende der letzten Legislaturperiode 2017 (bis dahin 1.979.596, die aktuelle Legislaturperiode wird noch aufbereitet) als Subkorpus aus CQP exportiert. Weitestgehend handelt es sich bei den im XML-Markup als Zwischenrufe ausgezeichneten Elementen um einzelne Sätze oder satzäquivalente Interjektionen. Es gibt aber auch Zwischenrufe, die aus mehr als einem Satz bestehen und dann in der Regel als propositionale Kommentierung einzuordnen sind. Für die Studie wurden 1000 Zwischenrufe ausgewählt und in das Annotationstool INCEpTION importiert, das an der TU Darmstadt im UKPLab (Informatik) entwickelt wurde (vgl. Eckart de Castilho et al. 2018), und damit annotiert. Die Anzahl 1000 wird für Annotations-Samples im Bereich Machine Learning oft verwendet, auch für das Training von Recommender-Systemen (vgl. z. B. Yize et al. 2010, 694), wie sie im Folgenden eingesetzt werden. Erfahrungsgemäß lassen sich mit dieser Sample-Größe gute erste Trainingsergebnisse bzw. Treffsicherheitswerte des Algorithmus erzielen. Das Zwischenruf-Sample wurde gleichmäßig verteilt über den Gesamtzeitraum von 1949 bis 2017 ausgewählt, allerdings immer in Einheiten von ganzen Plenarprotokollen. Es wurden also alle zwei bis drei Jahre aus jeweils einem Protokoll alle Zwischenrufe für die Stichprobe entnommen. Letzteres ist dadurch begründet, dass auf diese Weise eine möglichst repräsentative Verteilung verschiedener Zwischenrufformen erzielt werden sollte und nicht zum Beispiel übermäßig viele der sehr häufigen, nicht-wörtlich transkribierten Zwischenrufe (wie z.B. „Rufe von rechts“) manuell annotiert werden.

Das Annotations-Tagset ist das Ergebnis eines sowohl deduktiven als auch induktiven Verfahrens der Kategorienbildung. Der theoretische Hintergrund und die entsprechende Fachliteratur werden in der Beschreibung der Kategorien am Ende dieses Abschnitts aufgearbeitet. Induktiv wurden die Besonderheiten der verfügbaren Daten des Zwischenrufe-Korpus bei der Kategorienentwicklung berücksichtigt. So wurden etwa für nicht-wörtliche Transkriptionen von verbalen und nonverbalen Äußerungen spezifische Kategorien gebildet, die in der gesprächslinguistischen Fachliteratur so nicht vorgegeben sind, andere in der Gesprächslinguistik verwendete Kategorien wie z. B. Satzvollendungen (vgl. Henne/Rehbock 2001, 21) wurden nicht im Schema abgebildet, weil sie im Korpus nicht vorkommen. Ein weiterer Aspekt bei der sukzessiven Ausdifferenzierung des Kategoriensystem waren die Empfehlungen und Werte des Recommenders. Dabei handelt es sich um einen in INCEpTION bereits integrierten Machine-Learning-Algorithmus, der automatisiert Kategorisierungsempfehlungen gibt (vgl. Klie et al. 2018, 7). Recommender werden durch die Entscheidungen des/der Annotierenden, also von den manuellen Annotationen sowie der Annahme oder Ablehnung der Empfehlungen des Algorithmus (Eckart de Castilho et al. 2018) trainiert und dadurch immer treffsicherer in ihren Empfehlungen. Für die vorliegende Studie wurde ein vorinstallierter Recommender für ganze Sätze eingesetzt (Sentence Classifier, OpenNLP Document Categorizer, vgl. Apache OpenNLP-WebsiteFootnote 2). Es wurden folglich immer ganze Sätze bzw. Satzäquivalente annotiert, sodass der Recommender jeweils einen Satz als Segment und ein entsprechend segmentiertes Tag als Input bekommen hat. Es handelt sich dabei um keine sehr weit fortgeschrittene Form eines Machine-Learning-Algorithmus, der lediglich die im jeweiligen Satz vorhandenen Wortformen lernt, nicht etwa die Reihenfolge (Bag-of-Words-Approach). In der Studie sollten mit möglichst einfachen Mitteln erste Ergebnisse und Hinweise auf Erfolgskriterien als Grundlage für weitere Studien erzielt werden.

Für die gesamte Annotationsschicht des Tagsets, an die der Algorithmus angebunden ist, zeigt der Recommender die in computerlinguistischen Studien üblichen statistischen Werte Accuracy, Precision, Recall und den aus den letzteren beiden gemittelten F1-Wert an. Diese Werte waren nach 1000 Annotationen sehr gut (z. B. Accuracy: 0.84, F1: 0,71) und stellen ein vielversprechendes Ergebnis für die weitere Klassifikation und Automatisierungsmöglichkeiten dar. Allerdings müsste die Studie quantitativ ausgedehnt werden, um noch belastbarere statistische Ergebnisse zu liefern, etwa, indem man über größere Datenmengen trainiert und den nach Kategoriehäufigkeit gewichteten F1-Wert berechnet. Denn durch den hohen Anteil an nicht-wörtlich transkribierten nonverbalen Elementen (ca. 60 %), die enthalten sind, kann es zu Verzerrungen kommen. Diese als Zwischenrufe ausgezeichneten Elemente, z. B. „Lebhafter Beifall“, sind durch große Ähnlichkeiten an der sprachlichen Oberfläche – konkret in der Lexik – für den Recommender besonders einfach erkennbar. Das kann zu einer Verbesserung der statistischen Treffsicherheit führen, obwohl sie bei der Unterscheidung von komplexeren Zwischenrufen noch nicht so hoch ist. Dem könnte auch z. B. mit einem weiteren Training auf einem Korpus ohne hochfrequente nonverbale Elemente begegnet werden. Hier steht jedoch zunächst nicht das Training mit dem Ziel der Automatisierung im Mittelpunkt, sondern die Kategorienbildung mit algorithmischer Unterstützung.

Dafür werden die Empfehlungen des Recommenders und der dabei angegebene Confidence-Wert hinzugezogen. Dieser Wert fungiert in INCEpTION als Indikator für die Treffsicherheit, die der Recommender der aktuellen Annotationsempfehlung beimisst und an der sich Annotierende orientieren können sollen (vgl. Eckart de Castilho et al. 2018, 328 und Klie et al. 2018, 7). Dabei handelt es sich um einen Wert, der bei der algorithmischen Klassifikation erzeugt wird, jedoch nicht um einen echten statistischen Wahrscheinlichkeitswert.Footnote 3 Insofern können die Confidence-Werte nur als heuristische Indikatoren zur Unterstützung der manuellen Annotation genutzt werden. Dennoch lässt sich bei der manuellen Annotation anhand der Empfehlungen gut beobachten, wie der Recommender immer besser Kategorien zuordnen kann. Diese Indikatoren werden in die Studie einbezogen, um in der abduktiven (Deduktion und Induktion verbindenden) Kategorienbildung die maschinelle Klassifizierbarkeit als zusätzlichen Faktor zu berücksichtigen, also die Empfehlungen des Algorithmus in die sukzessive Kategorienbildung einfließen zu lassen. Einerseits wird die Empfehlungsfunktion bei der Zuweisung von Textsegmenten zu Kategorien genutzt, andererseits vor allem aber überprüft, ob der Recommender die menschlichen Kategorisierungen „reproduzieren“ kann.

Eine erste Differenzierung im iterativ-inkrementellen Annotationsprozess wurde zwischen nonverbalen bzw. nicht wörtlich transkribierten und wörtlich transkribierten Zwischenrufen vorgenommen. In Probeannotationen war zu beobachten, dass der Recommender diese Trennung recht zuverlässig durchführen kann. Vor dem Hintergrund des Ziels der gesprächslinguistischen Typisierung und der entsprechenden theoretischen Kategorisierungen wäre diese Unterscheidung allerdings nicht feingranular genug. Nonverbale Elemente wie z. B. „Lebhafter Beifall.“ müssen von verbalen, aber nicht wörtlich transkribierten Zwischenrufen wie „Rufe von rechts.“ unterschieden werden, diese Kategorien wiederum von wörtlich transkribierten Zwischenrufen. Erwartbar war, dass der Recommender vor allem hochfrequente, rekurrente Sätze mit identischer oder ähnlicher Lexik schon früh treffsicher kategorisieren kann. Dies ist auch der Fall, sodass die an der sprachlichen Oberfläche recht homogenen nonverbalen und nicht-wörtlichen Elemente gut erkannt werden. Dies trifft auch beispielsweise auf verbale hochfrequente evaluative Ausdrücke wie „Sehr richtig!“ zu. Noch besser klassifizieren könnte der Recommender noch feingranularere, nach lexikalischen Kriterien unterteilte Kategorien – bspw. alle Elemente, die „Beifall“ enthalten. Solche Klassifikationen hätten aber erstens nicht das Abstraktionsniveau, das einen Mehrwert für die Anreicherung der Korpusauszeichnung bringen würde, und zweitens könnten solche Elemente leicht mit korpuslinguistischen Suchanfragen gefunden werden, sodass keine Annotation notwendig wäre.

Bei diesen Kategorisierungsentscheidungen wird deutlich, dass Granularität ein entscheidendes Kriterium der manuellen Annotation ist, das auch für die maschinelle Erlernbarkeit von Bedeutung ist. Das Austarieren der Granularität unter Berücksichtigung der theoretischen Hintergründe, der Zielstellung und der maschinellen Verarbeitbarkeit ist eine zentrale Herausforderung der manuellen Annotation. Grundlage für die Granularitätsentscheidungen und die Vergleichbarkeit – auch für maschinelle Verarbeitungsprozesse – ist eine einheitliche Segmentierung, die ebenfalls in einem Entscheidungsprozess festgelegt werden muss. So wurde für diese Studie beispielsweise auch ein Multi-Token-Categorizer als Recommender für Mehrworteinheiten getestet. Der Satzklassifizierer hat jedoch die besseren Ergebnisse erzielt. Mit der Distinktivität ist in den gerade beispielhaft dargestellten Entscheidungsprozessen ein drittes Kriterium der manuellen Annotation beschrieben worden. Die Trennschärfe der Kategorien ist ein zentrales Kriterium für die erfolgreiche Klassifikation, sowohl durch menschliche Annotierende als auch durch die Maschine.

Im ersten Kategorisierungsschritt konnten also von den noch weiter auszudifferenzierenden, komplexeren Zwischenrufen drei Kategorien abgegrenzt werden, die auch durch den Recommender relativ gut erkannt werden:

  1. (a)

    Beschreibungen von nonverbalen Äußerungen wie z. B. „Beifall“, „Lachen“, „Heiterkeit“ sind den nicht-sprachlichen Hörerrückmeldungen bzw. dem ‚backchannel-behavior‘ (vgl. z. B. Henne/Rehbock 2001, 170) zuzuordnen.

  2. (b)

    Nicht-wörtlich transkribierte Beschreibungen von sprachlichen Einrufen wie z. B. „Rufe von rechts.“ Dabei kann es sich um verbales ‚back-channel-behavior‘ handeln oder um kontextualisierend-propositionale Kommentierungen. Aufgrund des Abstraktionsgrades der Transkribierung kann dies aber nicht differenzierter nachvollzogen werden.

  3. (c)

    Kurzbewertungen im Sinne von verbalem, wörtlich transkribiertem ‚back-channel-behavior‘: In dieser Kategorie werden rein evaluative Ausdrücke erfasst, z. B.: „Sehr wahr!“ oder „Unsinn!“ In der Gesprächslinguistik werden solche Ausdrücke als „spontane Kommentarschritte“ (Henne/Rehbock 2001, 173) bezeichnet, die zwar durch evaluative Elemente charakterisiert, aber oft nicht genauer von komplexeren Kommentierungen abgegrenzt werden, sondern nur von Gesprächsschrittbeanspruchungen (vgl. z. B. Henne/Rehbock 2001, 170). Im vorliegenden Kategorisierungsansatz geht es jedoch darum, reine Kurzbewertungen von semantisch vielfältigeren Kommentierungen abzugrenzen. Daher wird hier der gesprächslinguistischen Differenzierung von Rath (2001, 1217) gefolgt, in der zwischen „Kommentierung“, die lediglich „Wertungen aller Art“, „Zustimmung, Ablehnung oder Zweifel“ signalisiert, und „komplexen Kommentierungen“ (ebd., 1218) unterschieden wird.

Doch auch die Kategorien, die komplexere Sätze erfassen, wurden wie beschrieben unter Berücksichtigung der Recommender-Empfehlungen gebildet. Dies lässt sich insbesondere zeigen an der Kategorie:

  1. (d)

    Metakommunikative Zwischenrufe, die durch den institutionellen Rahmen geprägt sind und die Ordnung bzw. den Ablauf der Plenarsitzung betreffen. Eingeordnet werden Aufforderungen zur Einhaltung und Durchführung von Geschäftsordnungspunkten sowie Wortmeldungen. Wird diesen Einrufen stattgegeben, erfolgen die Anschlussäußerungen nicht mehr als Zwischenrufe, sind entsprechend auch nicht so ausgezeichnet und nicht Teil dieses Subkorpus. Aus gesprächslinguistischer Perspektive lassen sich diese Äußerungen als Gesprächsschrittbeanspruchungen klassifizieren, im engeren Sinne Wortmeldungen, im erweiterten Sinne die Initiierung von Programmpunkten, die auch Äußerungen anderer oder aller erfordern, wie zum Beispiel Abstimmungen. Deshalb ist es sinnvoll, diese Äußerungen von den anderen Kategorien abzugrenzen. Dazu gehören hochfrequente Routine-Einrufe bzw. rekurrente, immer gleich formulierte Äußerungen wie „Zur Geschäftsordnung!“ oder „Ich bitte um’s Wort.“, aber auch weniger standardisierte Formulierungen wie „Über unseren Antrag muß noch abgestimmt werden“Footnote 4, „Nein, nein, der Antrag zur Geschäftsordnung wird jetzt gestellt.“Footnote 5 oder „Ich habe einen Antrag zur Geschäftsordnung gestellt und Sie haben festgestellt, dass es keine Gegenrede gibt!“Footnote 6 Hingegen werden „Gegen Dummheit nützt doch keine Geschäftsordnung!“Footnote 7 oder „Ich habe nicht behauptet, daß es keine Geschäftsordnung habe, sondern ich habe nur behauptet, daß es keine geschriebene englische Verfassung gebe!“Footnote 8 als kontextualisierende Kommentierung (letzte Kategorie , siehe unten) eingeordnet. Auch der Recommender klassifiziert das richtig, was zeigt, dass die Kategorisierung nach dem Training nicht einfach nur von einem Wort wie „Geschäftsordnung“ als Indikator abhängt.

Eine Kategoriengruppe bilden Fragen bzw. Äußerungen, die mit einem Fragezeichen enden. Es lassen sich drei Kategorien – auch Recommender-gestützt – unterscheiden:

  1. (e)

    Fragen, die der Verständnissicherung dienen sollen, werden im Kategorienschema von rekontextualisierend-propositionalen Fragen mit problematisierender bzw. argumentativer Funktion abgegrenzt. Es erfolgt also eine funktionale Differenzierung in Anlehnung an Zifonun et al. (1997, 115). Erfasst werden in dieser Kategorie also Verständnissicherungs-Fragen, die nicht rhetorisch gestellt sind und tatsächlich eine Erklärung oder ausführlichere Erläuterung einer Voräußerung einfordern, z. B.: „Was heißt das?“Footnote 9 oder „Was meinen Sie damit?“Footnote 10 Ein zentrales Differenzierungskriterium ist hier die epistemische Haltung (vgl. Heritage/Raymond 2012, 179–192), die bei Frageformulierungen unterschiedlich sein kann und in diesem Fall signalisiert, dass Verständnis- bzw. Verständlichkeitsprobleme bestehen.

  2. (f)

    Rekontextualisierend-propositionale Fragen unterscheiden sich hinsichtlich der epistemischen Haltung von Verständnisfragen dahingehend, dass sie einen eigenen propositionalen Gehalt in die Interaktion einbringen, der eine problematisierende bzw. argumentative Funktion hat. Die epistemische Haltung ist dabei nicht alleine durch eine Informationslücke geprägt, sondern signalisiert, dass auf Seiten des/der Fragenden bisher noch nicht thematisierte, aber als relevant angesehene Wissensbausteine vorhanden sind, auf die von Seiten der Sprecherin oder des Sprechers eingegangen werden sollte. Insofern haben solche Fragen eine thematisch-gesprächssteuernde Funktion zum Ziel. Beispiele: „Was ist mit der Arbeiterpartei in England?“Footnote 11, „Wann kommt das Bestellerprinzip für den Immobilienkauf?“Footnote 12

  3. (g)

    Rhetorische Fragen werden in einer eigenen Kategorie erfasst, weil es sich dabei zwar formal um Fragen handelt, funktional aber um assertive Sprechakte, bei denen die Beantwortung nicht erwartet wird oder zumindest nicht das zentrale kommunikative Ziel darstellt (vgl. Meibauer 2008, 109). Searle (1982, 51–79) zufolge kann die wörtlich ausgedrückte Frage aber auch als zusätzliche sekundäre Illokution im indirekten Sprechakt angesehen werden. Der Aspekt der Antworterwartung muss bei der Annotation jeweils kontextsensitiv interpretierend erschlossen werden, wobei Richtlinien für Zweifelsfälle entwickelt werden müssen. Bspw. kann man den Zwischenruf „Aber in die Türkei dürfen wir reinregieren, oder?“Footnote 13 als rhetorische Frage klassifizieren, er kann aber auch als eher rekontextualisierend-propositionale Frage mit Antworterwartung angesehen werden. Eindeutigere Beispiele für rhetorische Fragen wären „Hören Sie eigentlich auch mal zu?“Footnote 14 oder „Haben Sie nicht gerade das Strafgesetz verschärft?“Footnote 15.

In der letzten Kategorie werden die Äußerungen erfasst, deren Selektion neben der Korpusanreicherung das Ziel der beschriebenen Studie bildet:

  1. (h)

    Kommentierungen mit eigenem propositionalen Gehalt, der über Kurzbewertungen hinausgeht und (re-)kontextualisierende Funktion hat. Von rekontextualisierend-propositionalen Fragen lassen sich Kommentierungen sowohl durch die Form als auch dadurch abgrenzen, dass sie keine Fragebeantwortung als Reaktion auf den Zwischenruf relevant setzen. Allerdings kann generell eine Reaktion bzw. Beeinflussung des/der Sprechenden neben Wirkungsabsichten mit Drittadressierung durchaus Ziel der Kommentierung sein. Rhetorische Fragen lassen sich lediglich durch die Form abgrenzen, sind funktional aber ebenfalls Kommentierungen. Beispiele: „Auch für die Atombomben!“Footnote 16, „Kürzen wir bei der Kunstdüngersubvention.“Footnote 17, „Das ist gegen die Arbeitsplätze!“Footnote 18. In diesen Beispielen wird jeweils ein bestimmter Kontext bzw. zusätzlicher Gedanke per Zwischenruf in die Debatte eingebracht, der durch die Rednerin/den Redner nicht thematisiert wurde.

Die beschriebenen Kategorien lassen sich noch wesentlich feingranularer ausdifferenzieren. Die formale und funktionale Vielfalt an Zwischenrufen ist groß. Die vorliegende Kategorisierung ist jedoch wie beschrieben am Ziel der Korpusanreicherung und vor allem an der oben erläuterten Frage- bzw. Zielstellung ausgerichtet, nicht auf die möglichst genaue Analyse aller möglichen Formen und Funktionen von Zwischenrufen im Detail.

Das Kategoriensystem wurde sukzessive als Tagset in einem einzelnen Layer (Annotationsschicht bzw. -ebene) im Annotationstool INCEpTION angelegt. Zur Qualitätssicherung wurden stichprobenartig Zweifelsfälle zu verschiedenen Zeitpunkten doppelt getaggt, um das Inner-Annotator-Agreement (vgl. Lease 2011, 97–99) zu überprüfen. Durch die wiederholte Annotation nach explizit dokumentierten Annotationsrichtlinien kann mit relativ geringem Aufwand überprüft werden, ob die Kategorisierungsentscheidungen zu verschiedenen Zeitpunkten konsistent und reproduzierbar und die entwickelten Guidelines nachvollziehbar sind. Besser geeignet für das Erreichen von Intersubjektivität ist natürlich die Mehrfachannotation durch verschiedene Annotator/inn/en und die Messung des Inter-Annotator-Agreements (vgl. Artstein/Poesio 2008), was aber mit höherem Aufwand verbunden und in kleineren Projekten nicht immer umsetzbar ist.

Das Kategoriensystem, das im Zuge der recommender-gestützten, interpretativen manuellen Annotation gebildet wurde, stellt das zentrale Ergebnis der Studie dar. Vor dem Hintergrund der Ergebnisse und Recommenderempfehlungen und -werte erscheint eine weitere, spezifischere Trainingsphase sinnvoll, für die ein Trainingskorpus erstellt wird, das insbesondere auf die Kategorisierung komplexerer Zwischenruf-Äußerungen ausgerichtet ist und weniger hochfrequente Standard-Äußerungen enthält. Der beschriebene Recommender ist allerdings nicht als vollautomatisierter Klassifizierer konzipiert. Solche einfachen algorithmischen Recommender-Modelle bieten als niedrigschwellige und mit wenig Aufwand verbundene Machine-Learning-Form ihre wesentlichen Vorteile in der Unterstützung manueller Annotation. Sie sind nützlich im Zuge der Ausdifferenzierung des Tagsets, der induktiven Entwicklung von Kategorien, der Erkenntnisgewinnung im Annotationsprozess und in Wechselwirkung mit manueller Annotation zur sukzessiven Klassifikation und Aufbereitung eines Korpus wie in der Beispielstudie beschrieben. Als weiteres Ergebnis der Studie lassen sich Qualitätskriterien bzw. Erfolgsfaktoren der Nutzung von Recommender-Systemen aufzeigen: die Festlegung der segmentierten und zu annotierenden Einheiten, die Granularität und die Robustheit bzw. Trennschärfe des Annotationsschemas. Diese Aspekte spielen auch in der folgenden, zweiten Studie eine wichtige Rolle.

3 Klassifizierung von wissenschaftlichen Textroutinen mit einem annotationsbasierten neuronalen Netzwerk

Die zweite exemplarische Anwendung pragmalinguistischer Annotation in Verbindung mit maschinellem Lernen ist nicht nur auf andere Untersuchungsgegenstände ausgerichtet, sondern greift auch auf ein fortgeschritteneres und wesentlich aufwändigeres Modell des maschinellen Lernens zurück. Dieses Verfahren wird – im Unterschied zur ersten Studie – erst im Anschluss an die Annotation eines Pilot-Korpus angewendet. Außerdem handelt es sich bei dieser Anwendung um eine kollaborative Annotationsstudie, an der mehrere Annotator/inn/en mitgewirkt haben. Die Studie wurde entwickelt und ausführlich beschrieben in Bender/Müller (2020). Im Folgenden wird zur Methodendiskussion und -reflexion darauf zurückgegriffen. Wie im ersten Beispiel stehen auch in diesem die theoretischen Hintergründe und die Ergebnisse der Studie im Rahmen dieses Beitrags nicht im Mittelpunkt und werden nur so weit beschrieben, wie es für die hier fokussierte Methodenreflexion notwendig ist.

Das Korpus, das untersucht wird, besteht aus 65 Einleitungen von Dissertationen aus den 13 verschiedenen Fachbereichen der Technischen Universität Darmstadt, die online über den Tuprints-Server der TU veröffentlicht wurden. Analysiert und klassifiziert wurden auf dieser Datengrundlage wissenschaftliche Textroutinen im akademischen Diskurs verschiedener wissenschaftlicher Disziplinen. Der Terminus ‚Textroutine‘ wurde geprägt von Feilke, der darunter „textkonstituierende sprachlich konfundierte literale Prozeduren, die jeweils ein textliches Handlungsschema (Gebrauchsschema) und eine saliente Ausdrucksform (Routineausdruck) semiotisch koppeln“ versteht (Feilke 2012, 11). Am Beispiel der Textroutine ‚Diskursreferat‘ zeigt er den Zusammenhang von individuellem Sprachverhalten mit prozeduralem Diskurswissen der Akteure und institutionellen Kontexten. Solche sprachlichen Umsetzungen werden im vorliegenden Untersuchungskontext (Dissertationen) als Entscheidungsroutinen in Forschungsprozessen verstanden und als heuristische Textpraktiken bezeichnet. Die Perspektive auf das Heuristische solcher Textpraktiken wird vor dem Hintergrund wissenschaftstheoretischer bzw. -philosophischer Ansätze eingenommen. Diese heben als typische Funktion einer Heuristik hervor, die Komplexität in einem wissenschaftlichen Feld zu reduzieren, um Forschungsprobleme zu erfassen und zu lösen (vgl. Wimsatt 2007, 81 und Hey 2016, 472). Wie oben begründet werden diese theoretischen Perspektiven hier nicht detaillierter ausgeführt (ausführlichere Darstellung vgl. Bender/Müller 2020 und Becker et al. 2020).

Für die im Folgenden zu führende Methodendiskussion ist zusammenfassend zu sagen, dass vor diesen theoretischen Hintergründen Textroutinen bzw. heuristische Textpraktiken als Formulierungsverfahren betrachtet werden, mit denen in institutionell verankerten Routinen neues Wissen generiert und an vorhandenes Wissen angeschlossen wird (vgl. Bender/Müller 2020, 2). Textroutinen werden in allen Formen akademischer Forschung angewendet, um Komplexität zu reduzieren, ein Forschungsthema konzeptionell zu gestalten und es im akademischen Diskurs zu kontextualisieren. Ihr Zweck ist es, neues Wissen in Relation zu bekanntem und validiertem Wissen zu generieren. Genauer gesagt dienen heuristische Textpraktiken dazu, Wissenselemente und Erkenntnisse, die noch nicht kollektiv bekannt oder als gültig akzeptiert sind oder als unklar oder fragwürdig eingeführt werden, mit kollektiv gültigem Wissen zu verbinden. Sie haben eine epistemische Funktion und werden in vom institutionellen Kontext beeinflussten Diskursroutinen generiert.

Konkret sind das zum Beispiel die argumentative Stützung einer Aussage, die Definition eines Konzepts, die Formulierung eines Forschungsziels oder einer These oder die Hervorhebung der Relevanz eines Forschungsthemas. Diese Kategorien wurden – bis auf die Thesenformulierung – jeweils weiter ausdifferenziert, wie im Schema in Abb. 1 dargestellt, kontrastiv zur im vorigen Abschnitt beschriebenen Zwischenrufstudie , die nur eine Annotationsebene umfasst. Es wurde unterschieden zwischen Argumentationen und Begründungen, zwischen konzeptuellen Definitionen (abstrakter Begriffe) und konkreten Definitionen (z. B. durch Gegenstandsmerkmale), verschiedenen Zieldimensionen (theoretisch, deskriptiv, analytisch usw.) und zwischen Relevanzmarkierungen durch Sachbeschreibungen und durch Referenzierung auf den bisherigen Forschungsdiskurs. Innerhalb der letztgenannten Kategorie wurde weiter differenziert zwischen gerichteter Diskursreferenzierung (z. B. mit Nennung konkreter Autoren oder Publikationen) und ungerichteter Diskursreferenzierung (z. B. mit unspezifischerem Verweis auf die bisherige Forschung in einem Gebiet) (vgl. Bender/Müller 2020, 22–29). Wie in der Zwischenrufstudie erfolgte die Kategorienbildung sowohl deduktiv vor dem Hintergrund der oben aufgeführten Ansätze als auch induktiv ausdifferenzierend. Anders als in der Zwischenrufstudie wurden die Kategorien jedoch in einem kollaborativen Prozess von mehreren Annotierenden, drei Expert/inn/en und drei geschulten wissenschaftlichen Hilfskräften, diskursiv ausgehandelt.

Abb. 1
figure 1

Gegenüberstellung der Annotationsschemata der beiden Studien: Zwischenruftypen vs. heuristische Textpraktiken

Im Anschluss wurden aus Gründen der Qualitätssicherung im Sinne des Inter-Annotator-Agreements jeweils zwei von fünf Einleitungen aus jeder der 13 Fachrichtungen, also 26 Texte, von zwei Annotator/inn/en unabhängig voneinander annotiert (mit dem Annotations-Tool CATMA, vgl. Meister et al. 2018). Zweifelsfälle und Kategoriendifferenzierungen wurden in regelmäßigen Teambesprechungen diskutiert und die Annotationsrichtlinien entsprechend angepasst. Die letzte Version der Annotationen im Gesamtkorpus mit allen 65 Einleitungen wurde von den drei Expert/inn/en kontrolliert und korrigiert. Als Annotationssegmente wurden ebenfalls ganze Sätze festgelegt, denen jeweils ihre primäre Textpraktiken-Funktion zugewiesen wurde. Erst in einem zweiten Analyseschritt auf der Basis der Annotationen wurden satzübergreifende Muster untersucht und daraus verschiedene textpragmatische Einleitungstypen abgeleitet. Diese Entscheidung für Sätze als Segmente wurde mit Blick auf die quantitative Auswertbarkeit und Vergleichbarkeit getroffen. Im Hinblick auf die Erfassung textpragmatischer Phänomene, die auch satzübergreifend angelegt sein können, ist das natürlich nicht unproblematisch und muss als artifizielle bzw. heuristische Operationalisierung des Forschungsansatzes reflektiert werden. Auch bei der Kategorienbildung und Annotation war dieser Aspekt zu berücksichtigen, weil er eine entsprechende Trennschärfe bei der Kategorienzuweisung erfordert. Dabei spielt, wie es für pragmalinguistische Annotation typisch ist, auch Kontextwissen eine zentrale Rolle. So könnte zum Beispiel der folgende Satz aus der Einleitung einer Dissertation im Fach Rechts- und Wirtschaftswissenschaften sowohl der Relevanzmarkierung als auch der Argumentation dienen: „Die zum Alltag im Bauwesen gehörende Existenz von Bauablaufstörungen hat für den bauüberwachenden Architekten bzw. Ingenieur in der Regel erhebliche finanzielle Auswirkungen“ (Henrici 2016, 1). Aus dem Kontext lässt sich erschließen, dass diese Äußerung nicht der Begründung eines Sachverhalts oder der Argumentation bezüglich einer strittigen Frage dient, sondern mittels einer Sachverhaltsbeschreibung die Relevanz des Themas hervorhebt, hier zum Beispiel mit Blick auf „finanzielle Auswirkungen“. Im Vergleich zur Zwischenruf-Studie ist es bei den zu annotierenden Einleitungs-Sätzen meist noch deutlich schwieriger, Zuweisungs-Entscheidungen konsistent an Indikatoren der sprachlichen Oberfläche festzumachen. Entsprechend große Schwierigkeiten waren auch im Hinblick auf die maschinelle Erlernbarkeit dieser Kategorien und Untersuchungsgegenstände zu erwarten. Zusätzliche Komplexität ist dadurch gegeben, dass das Annotationsschema aus drei Ebenen (Level 0, 1 und 2) mit unterschiedlicher Granularität besteht – im Vergleich zu einer Ebene in der Zwischenruf-Studie (siehe Abb. 1).

Diesen Herausforderungen wurde in der hier diskutierten Studie mit der Anwendung einer fortgeschritteneren Form des maschinellen Lernens begegnet, einem rekurrenten neuronalen Netzwerk (Recurrent Neural Network, kurz RNN) auf der Basis von Word Embeddings. Bei Letzteren handelt es sich um Darstellungen von Wörtern als Vektoren, also als Zahlen-Listen. Diese werden von einem Algorithmus erzeugt und ähneln sich bei Wörtern, die in ähnlichen Kontexten auftreten. Es werden durch den Algorithmus, in dieser Studie Skip-Gram, eine Version von word2vec (Mikolov et al. 2013), Wortrepräsentationen generiert, die auf dem typischen Kontext eines Wortes in natürlichsprachlichen Texten basieren. Das heißt, es fließen Informationen über die typischen Nachbarn eines Wortes, die typische Position des Wortes innerhalb eines Satzes, seine Häufigkeit etc. ein. Die Vektoren sind jedoch von Menschen nicht direkt interpretierbar. Hier werden Embeddings mit der Dimension 100 verwendet, also für jedes Wort eine Liste mit 100 Zahlen. Sie werden als Repräsentation generiert auf der Basis eines großen deutschsprachigen Web-Korpus mit 16 Mio. Sätzen (Reimers et al. 2014). In unserer Studie haben wir jedes Wort im Datensatz durch sein Embedding ersetzt, die einzelnen Embeddings entsprechend dem jeweiligen Satz in unserem Korpus verkettet (concatenate-Funktion in der computerlinguistischen Terminologie) und zusammen mit den Annotations-Labels als Eingabe-Einheiten für das Klassifikations-Modell im RNN verwendet. Als Information im RNN einbezogen wurde außerdem die Fachzugehörigkeit des jeweiligen Satzes. Das RNN kann auf dieser maschinenlesbaren Datenbasis mathematische Operationen ausführen und nach einer Trainingsphase immer besser berechnen, mit welcher Wahrscheinlichkeit eine bestimmte Kategorie einem Satz zuzuweisen ist. Das Besondere an einem RNN ist seine spezielle, dem menschlichen Hirn nachempfundene Architektur von virtuellen, vernetzten Neuronen, die durch Rückkopplungsschleifen nicht nur den aktuellen, sondern auch den vorherigen Daten-Input erinnern und in den Lernprozess einbeziehen können, also Sequenzen von Word Embeddings lernen können. Deshalb eignen sich RNNs besonders gut für die Verarbeitung natürlicher Sprache und werden auch oft für Aufgaben wie Handschriftenerkennung, automatische Spracherkennung und maschinelle Übersetzung verwendet. Klassifikationsaufgaben wie in dieser Studie gehören auch zu den gängigen Anwendungsfällen von RNNs (ausführlicher vgl. Becker et al. 2017).

In der Studie (vgl. Becker et al. 2020, 448–453) haben wir das Korpus aus 65 Einleitungen aufgeteilt in ein Trainings-Korpus (80 %) und ein Test-Korpus (20 %), jeweils ausbalanciert nach Fächern der Dissertationen. Es konnten also letztlich die Klassifikationen des RNNs mit den manuellen Annotationen abgeglichen werden. Auf dieser Basis konnte jeweils ein Accuracy-Wert für die drei Granularitätslevel (0, 1, und 2) des Annotationsschemas berechnet werden (vgl. Abb. 2). Die Berechnung zeigt gute, mit Blick auf weiteres Training vielversprechende Ergebnisse. Werte von 0,75 sind akzeptabel und sprechen dafür, dass weiteres Training sinnvoll ist, Werte von 0,83 und höher erst recht. Die Werte wurden in der Studie auch mit der so genannten Majority-Baseline abgeglichen, was sicherstellt, dass nicht einfach nur der Anteil der häufigsten Kategorie als Accuracy-Wert angezeigt wird. Die Accuracy-Werte liegen deutlich über der Majority-Baseline, die jeweils im Bereich 0,6–0,7 liegt, was bedeutet, dass die Werte nicht-zufällig und aussagekräftig sind. Das ist besonders bemerkenswert vor dem Hintergrund, dass solche maschinellen Lernverfahren als sehr datenhungrig gelten, das Korpus nach diesem Maßstab sehr klein, die Variation der sprachlichen Oberfläche in den Kategorien hoch und das Annotationsschema mit mehreren Ebenen insgesamt komplex war. Klar zu erkennen ist die Abhängigkeit des Wertes von der Anzahl der Kategorien auf einer Ebene. Je höher die Granularität und damit die Komplexität der Klassifizierungsaufgabe ist, desto geringer ist der Accuracy-Wert (siehe Abb. 2), je geringer die Anzahl der Kategorien ist und je spezifischer sie sind (Diskursreferenzierung gerichtet vs. ungerichtet auf Level 2), desto höher ist der Wert. Die Aspekte Granularität und Spezifik bzw. Differenziertheit der Kategorien sind also auch in diesem Setting, trotz aller Unterschiede zur Zwischenrufstudie, zentrale Kriterien.

Abb. 2
figure 2

Accuracy- und F1-Werte nach dem Training des RNN auf den drei verschiedenen Granularitäts-Leveln des Annotationsschemas

4 Diskussion und Fazit: Qualitätskriterien und Erfolgsfaktoren

Obwohl sich die Untersuchungsgegenstände, Annotationsschemata, Vorgehensweisen und verwendeten Machine-Learning-Verfahren der beiden beschriebenen Studien stark unterscheiden, sind auf einem gewissen Abstraktionsniveau in beiden die gleichen Qualitätskriterien und Erfolgsfaktoren zu erkennen: Segmentierung, Granularität und Trennschärfe der Kategorien. Der methodische Schlüssel liegt in der Operationalisierung der pragmalinguistischen Kategorien relativ zu Annotationssegmenten in einem robusten Annotationsschema und entsprechenden Annotationsrichtlinien.

Nicht neu ist, dass maschinelles Lernen mit natürlicher Sprache als Gegenstand bessere Ergebnisse liefert, je mehr sprachliche Trainingsdaten einbezogen werden können und je klarer die Kategorien anhand der sprachlichen Oberfläche zu unterscheiden sind. Die zentrale Problematik pragmalinguistischer Fragestellungen ist aber ja gerade, dass man es mit Inferenzen und Implizitem zu tun hat und solche Phänomene kontextabhängig analysiert und zunächst nur in kleineren Korpora manuell-hermeneutisch annotiert werden können. Die beiden Studien haben aber gezeigt, dass maschinelles Lernen auch in kleineren Korpora und mit interpretations- und kontextabhängigen Untersuchungsphänomenen nützlich sein und vielversprechende Ergebnisse liefern kann.

Ein entscheidender Aspekt für die quantitative Auswertbarkeit, aber auch für die maschinelle Verarbeitbarkeit ist die Festlegung der zu annotierenden sprachlichen Segmente. Das ist in Annotationsprojekten und -tools keine Selbstverständlichkeit. Recommender-Systeme sind für eine bestimmte Segmentierung angelegt, im vorliegenden Fall für ganze Sätze als Einheiten. Andere Systeme (zum Beispiel zum Zweck der Named Entity Recognition – Eigennamen-Erkennung) sind für die Kategorisierung einzelner Wörter oder Mehrwort-Einheiten programmiert. Dieser Aspekt muss bei der Auswahl des Recommenders und der Operationalisierung der Forschungsfrage berücksichtigt werden. Aber auch in einem komplexeren Machine-Learning-Modell stellt einheitlich segmentierter Input in dem Lernprozess einen ganz zentralen Erfolgsfaktor dar. Der Algorithmus lernt, welche Word Embeddings bestimmte Segmente enthalten, denen eine bestimmte Kategorie zugewiesen wurde, und kann nur vergleichend klassifizieren, wenn vergleichbare Segmente eingegeben werden. Aber auch abgesehen von technischen Aspekten sind Vergleichbarkeit und quantitative Auswertbarkeit von größeren Datenmengen nur möglich, wenn eine entsprechende Segmentierung vorgenommen wurde. Mit Blick auf pragmalinguistische Fragestellungen ergibt sich dadurch die zentrale Herausforderung der Operationalisierung von Phänomenen, die kontextabhängig und nicht unbedingt an ein formales Segment gebunden sind. Hier gilt es, eine – wenn auch artifizielle und heuristische – Systematik zu entwickeln, mit der Segmenten primäre pragmatische Funktionen zugewiesen werden können. Ebenfalls problematisch sind – aus denselben Gründen – Mehrfachannotationen und Überlappungen. Diese Problematik wurde auch abseits der linguistischen Pragmatik schon in der Computerlinguistik thematisiert. Einschlägig sind hier Teufels Studien zum „Argumentation Zoning“ (Teufel 1999, 108–111), die sich letztlich ebenfalls für eine satzweise Segmentierung und die Weiterentwicklung des Annotationsschemas bis zu einem taxonomischen System exklusiver Kategorien entscheidet und Ansätze mit Mehrfachannotationen und Überlappungen kritisch sieht.

Damit ist zugleich der zweite Erfolgsfaktor angesprochen: die Distinktivität und damit verbunden auch die Exhaustivität des Kategoriensystems. Die maschinelle Erlernbarkeit von Kategorien ist abhängig von deren Robustheit, also der trennscharfen, intersubjektiven Abgrenzbarkeit von anderen Segmenten des Korpus. Auch die Häufigkeit im Korpus in bestimmten Positionen in Segmenten spielt beim Lernen über Word Embedding-Vektoren eine wichtige Rolle. Insofern ist von Bedeutung, dass alle Segmente jeweils einer Kategorie zugewiesen sind.

Ein weiteres Kriterium wurde in der zweiten Studie besonders deutlich sichtbar: Die Granularität des Tagsets beeinflusst die Treffsicherheit des Algorithmus. Das heißt jedoch nicht, dass Schemata mit wenigen Tags grundsätzlich die Lösung sind. Erstens gilt es vor allem, durch die Operationalisierung im Schema ein bestimmtes Phänomen möglichst gut zu erfassen und analysierbar zu machen. Zweitens führen zu wenig differenzierte Tagsets zu Kategorien mit zu hoher Heterogenität, was wiederum die maschinelle Erlernbarkeit einschränkt. In der beschriebenen Textroutinen-Studie lässt sich dies wie folgt nachvollziehen: Das Granularitätslevel 2 mit besonders hohem Accuracy-Wert besteht zwar nur aus zwei Kategorien. Dies sind aber sehr spezifische Unterkategorien, die zwischen gerichteter und ungerichteter Diskursreferenzierung unterscheiden. Das Forschungsziel der Klassifizierung von Textroutinen ließe sich mit nur zwei Kategorien nicht erreichen. Es würde allenfalls zu sehr groben Kategorisierungen führen – bspw. Referieren und Argumentieren (aber auch da wäre die Abgrenzung problematisch) –, die sehr heterogene Äußerungen bzw. Praktiken umfassen würden, was wiederum ein Problem für den Algorithmus wäre.

Der Lernprozess eines Sentence Classifiers als Recommender, der wie in der ersten Studie beschrieben ausschließlich aus dem lexikalischen Inhalt der annotierten Sätze in Kombination mit der Kategorienzuweisung durch die Annotation lernt, wird ebenfalls durch zu feine oder zu grobe Kategorien erschwert. Bei zu feingranularen Differenzierungen ist das lexikalische Material in Sätzen, die verschiedenen Kategorien zuzuweisen sind, zu ähnlich, bei zu groben Kategorien zu heterogen. Zentrale Herausforderung bei der deduktiv-induktiven Kategorienbildung ist es also, einerseits den untersuchten Phänomenen gerecht zu werden und andererseits eine gewisse Ausgewogenheit der Granularität und der Varianz der Kategorieninhalte zu erreichen.

All diese Kriterien sind als Begriffe – zum Beispiel in der Computerlinguistik – nicht ganz neu. Aber sie müssen neu überdacht werden, wenn sie mit den kontextabhängigen, impliziten Phänomenen der linguistischen Pragmatik in Verbindung gebracht werden.

Zu der – in der Computerlinguistik so genannten – Robustheit der Kategorien führt das Erarbeiten eines hohen Inter-Annotator-Agreements (Artstein/Poesio 2008, 555–596) in kollaborativen Annotationsprojekten oder eines hohen Inner-Annotator-Agreements (vgl. Lease 2011, 97–99) bei nicht-kollaborativen Studien. Dieser diskursive Prozess der Kategorienbildung und Ausdifferenzierung kann bei der Nutzung eines Recommenders stärker verzahnt mit dem maschinellen Lernen stattfinden, indem die Empfehlungen in einer ersten Projektphase in einen iterativen Prozess eingebunden werden. Eine solche Phase kann auch einer selbständigen Trainingsphase eines aufwändigeren Verfahrens – wie der Implementierung eines neuronalen Netzwerks – vorgeschaltet sein.

Ein weiterer Aspekt, der im Forschungsprozess in einem Team oder jedenfalls für ein Projekt ausgehandelt und explizit gemacht werden muss, ist der der Interpretationstiefe. Dies ist insbesondere bei pragmalinguistischer interpretativ-hermeneutischer Annotation von großer Bedeutung. Die oben in der Textroutinen-Studie als Beispiel ausgeführte Unterscheidung zwischen Relevanzmarkierung und Argumentation ist davon abhängig, wie die jeweilige Kategorie definiert ist und wieviel Interpretationsspielraum der/dem Annotierenden gegeben ist. Dies muss in Annotations-Guidelines genau und intersubjektiv nachvollziehbar dokumentiert werden. Es handelt sich dabei natürlich um eine mehr oder weniger künstliche Systematisierung. Letztlich werden durch die Explizierung dieser taxonomischen Systematik aber zugleich auch die Zweifelsfälle und möglichen Schnittmengen der Kategorisierung sichtbar gemacht und im Forschungsprozess reflektiert. Diese Systematik dient dabei nicht nur der maschinellen Verarbeitbarkeit und „Erlernbarkeit“. Sie ermöglicht auch die Erlernbarkeit und intersubjektive Nachvollziehbarkeit durch die menschlichen Annotator/inn/en und Rezipient/inn/en.