1 Einführung

Linguistische Textkorpora haben in den letzten 150 Jahren (wenn man Zettelarchive einbezieht) gewaltige quantitative Sprünge gemacht, die ihre Qualität erkennbar verbessert haben. Jacob Grimm wies in der Vorrede zum Deutschen Wörterbuch noch auf allzu deutlich sichtbar werdende Beschränkungen und Einseitigkeiten in der Auswahl der Lemmata wie der Belegstellen durch seine Exzerptoren hin (Grimm, Vorrede, 1854, Sp. LXVI und Sp. LXVI) und bemängelte die Quellenlage bei der »Sprache der hirten, jäger, vogelsteller, fischer u. s. w.« (Grimm, Vorrede, 1854, Spalte XXXI). Die Vorstellungen beider Brüder Grimm über die Art des Wortschatzes, den sie lexikografisch präsentieren wollten, war bekanntlich in mehreren Hinsichten normativ.Footnote 1 Ihre Quellen sollten ihr Verständnis der ›Sprache des Volkes‹ und des sprachlichen Werts und Unwerts bestimmter Wortschatzbereiche ins Wörterbuch tragen. Dazu zählten eher protestantische als katholische Schriftsteller (vgl. Grimm, Vorrede, 1854, Sp. XXXVIII).

In heutigen Worten: Dem Korpus der Brüder Grimm fehlten explizite Regeln der Text- und Belegauswahl; darüber hinaus hätten sie gern über Textmaterial zu Varietäten verfügt, die nur medial mündlich existierten bzw. von denen man eine medial mündliche Existenz in der Vergangenheit annahm. Der aus heutiger Sicht geringe Umfang des Grimm’schen Korpus ließ immerhin noch Gedanken an die Steuerbarkeit des Verhältnisses zwischen Korpus und lexikografischer Information zu.

In dieser Hinsicht lässt sich für die 1960er bis 1980er Jahre eine Art Übergangsphase feststellen. Die Korpora waren inzwischen zwar beträchtlich größer, doch wurden die Korpustexte immer noch mehr oder weniger deutlich so ausgewählt und zusammengesetzt, dass sie auf bestimmte Arten von Forschungsfragen gut Auskunft geben konnten; der dominierende Ansatz war ›corpus-based‹. Die Textauswahl und Annotation geschah händisch und durch die Wörterbuchmitarbeiter*innen selbst (Haß 2014, S. 234–235; S. 240 ff).

Die vorerst letzte Phase in der Entwicklung des Verhältnisses zwischen einem Korpus und einer (digitalen) lexikografischen Ressource sind komplexe, integrierte Systeme, die Wörterbuchportal, Wortschatzsystem u. ä. genannt werden.Footnote 2 Die Korpusanteile solcher Systeme sind so groß und volatil (vgl. Haß/Schmitz 2010, S. 7f) geworden, dass die Texte vor ihrer Aufnahme von Korpus-Erstellerinnen und Erstellern nicht mehr gelesen werden können. Auch die Annotation wird hier flacher, weil sie nur noch automatisiert vorgenommen werden kann. D. h. der Wortforschung kann kein Textverständnis im engeren Sinne mehr vorausgehen. Forschungsgegenstände wie Lexeme, morphologische oder syntaktische Formen werden primär in Kontexten wahrgenommen, die aus statistisch erzeugten und aggregierten Daten bestehen. Die datenerzeugenden Algorithmen werden zunehmend von Spezialist*innen konzipiert, die personell nur noch selten mit den die Korpora nutzenden Linguist*innen zusammenfallen. Zudem sind die Aufnahmeprinzipien bei sehr großen Korpora vielmehr auf Masse gerichtet, weil der dominierende Ansatz der nachgelagerten Forschung der ›corpus-driven‹-Ansatz ist.

Die vorerst letzte Phase in der skizzierten Entwicklung ist dadurch charakterisiert, dass in Korpus-Wörterbuch-Systemen auch die lexikografischen Daten zu einzelnen Ausdrücken, etwa Beispielsätze und syntagmatische Einbettungen, tendenziell automatisch erzeugt werden.

Im Fokus dieses Beitrags steht die Frage, welche Verstehensanstrengungen für welche Art der Nutzung solcher komplexen Systeme noch erfolgreich sein können. Wer in DWDS oder DeReKo bzw. OWID (2024) recherchiert, um ein sprachliches Phänomen (besser) zu verstehen, findet sich in einer Position wieder, die maximal entfernt von der klassischen hermeneutischen Situation des Textverstehens ist (vgl. Schmitz 2021, S. 687) und auch die Spiralförmigkeit des Textverstehens, die Fix (2021) skizziert, scheint kaum noch möglich.

Um die spezifischen Bedingungen des Verstehens der Informationen in Korpus-Systemen herauszuarbeiten, wird ein systematisch-vergleichender Ansatz gewählt. Es werden zwei unterschiedliche linguistisch motivierte Fragen an jeweils zwei Korpussysteme, DeReKo und DWDS, (Näheres s. unten) gestellt, um die Recherchebewegungen, dabei emergierende neue Fragen, neue Suchbewegungen und relative Antworten nachzuzeichnen. Der Vergleich zweier sehr großer, öffentlich frei zugänglicher Korpora der geschriebenen deutschen Standardsprache mit digital verknüpften Wörterbuchressourcen soll erkennen lassen, wieweit die Ergebnisse von der Spezifik der jeweiligen Systeme tangiert werden oder nicht.

Darüber hinaus gilt es zu berücksichtigen, dass es unterschiedliche Adressaten (Expertinnen, Nicht-Experten, Experten in FreizeitsituationenFootnote 3) bzw. Nutzungssituationen gibt, die zu anderen Bewegungen führen. Es gilt zu berücksichtigen, was Schütte (2021, S. 821) auf literarische Texte bezogen »oberflächliches Lesen und halbes Verstehen« genannt hat. Diese Unterschiede der Nutzungsabsichten können nachfolgend nur sporadisch zur Verdeutlichung herangezogen werden.

2 Vorgehensweise

Um die oben skizzierte Frage zu beantworten, werden für zwei lexikologische Einheiten vergleichende Korpusrecherchen durchgeführt:

  • für das Lexem Alltagsrassismus

  • für die Frage der Dispersion verschiedener Klassen von Begleiterwörtern zu den Nomina Feld, Wald, Wiese.

An dem Neologismus Alltagsrassismus sind pragmatische und semantische Aspekte interessant: Wann und in welchen Textgattungen taucht er (erstmals) auf? Handelt es sich um eine stigmatisierende Zuschreibung gegenüber welchen Handlungen, Haltungen, Personen, oder eher um ein konnotativ unmarkiertes Wort? Eine deontische bzw. Sollens-Bedeutung (›Alltagsrassismus soll bekämpft werden.‹) scheint erwartbar, aber ist das belegbar? Lässt das Korpus erkennen, auf welche Handlungen oder Haltungen der Ausdruck beziehbar ist? Anders ausgedrückt: Wird im Korpus gesagt oder reflektiert, was unter Alltagsrassismus fällt? Unterscheiden sich die genutzten Korpora hierin?

Das zweite Beispiel soll die Schnittstelle zwischen Lexik und Grammatik abdecken und geht von einem Gemeinplatz im Deutsch-als-Fremdsprache-Unterricht aus, nach der Substantive immer ›mit Artikel‹ gelernt werden sollen.Footnote 4 Gemeint ist der bestimmte Artikel (der, die, das), weil er im Nominativ Singular das Genus eines Substantivs erkennen lässt. Offensichtlich werden Substantive im Sprachgebrauch aber nicht immer mit dem bestimmten Artikel im Nominativ Singular verbunden, sondern mit anderen BegleiterwörternFootnote 5, oder Substantive stehen ohne Begleiter im Satz. Wie sinnvoll wäre die genannte didaktische Regel noch, wenn etwa Plural-Artikel (die, der, den, die), nach Kasus flektierte bestimmte Artikelwörter (deren, dem usw.), unbestimmte Artikelwörter in allen Kasus (einen, eines, eine usw.), pronominale und possessive, quantifizierende u. a. Artikelwörter (sein, unserer, ihr, wenige, alle usw.) oder der artikellose Gebrauch im Korpus breiter bezeugt sind als der, die, das? Mindestens müsste man sich didaktische Schritte überlegen, um Lernern den Schluss etwa von einem der im Nominativ Singular zu anderen, im Gebrauch häufigen Artikelwörtern nahezulegen, denn sonst werden Genusfehler weiterhin vorkommen. Die für die Frage nach der Vorkommenshäufigkeit verschiedener Begleiter gewählten Nomina aller drei Genera sollten in den genutzten Korpora etwa gleiche Häufigkeiten und mindestens ähnliche thematische Einbindungen erwarten lassen.Footnote 6 Die Frage wird nachfolgend auf Basis von 100 händisch kategorisierten Zufallstreffern zu beantworten versucht.

Die beiden vergleichend herangezogenen und die deutsche, varietätenübergreifende, öffentlich gebrauchte, geschriebene Standardsprache der Gegenwart abdeckenden KorporaFootnote 7 sind:

  • ausgewählte Subkorpora des Deutschen Textarchivs im Portal des DWDS (Digitales Wörterbuch der deutschen Sprache)Footnote 8 sowie

  • das Deutsche Referenzkorpus des Instituts für Deutsche Sprache, Mannheim, (DeReKo Release 2023-I)Footnote 9.

Anders als im Falle des DWDS ist DeReKo nicht unmittelbar in ein lexikografisches Portal eingebunden, aber umgekehrt wird vom Wortschatzsystem OWID aus ein direkter ›Durchgang‹ zu DeReKo ermöglicht.Footnote 10 Die dem DWDS zugrundeliegenden Korpora und das DeReKo können unter die größten und relativ aktuellsten Korpusressourcen zur deutschen Gegenwartssprache gezählt werden, weil sie zu einem großen Teil aus Pressetexten bestehen.Footnote 11 Für beide Korpora wird, wo nötig, mit einer persönlichen Registrierung recherchiert, so wie sie für jedermann kostenfrei möglich wäre. Ferner beschränke ich die Analysen, wo dies möglich ist, auf die Standardeinstellungen des jeweiligen Korpus. Wie oben bereits zu erkennen, müssen Nutzer*innen sich aber vor Recherchebeginn für »Metakorpora« (im DWDS) bzw. »Archive« (in DeReKo) genannte Korpora entscheiden. Wenn nachfolgend von DWDS-Korpus und IDS-Korpus gesprochen wird, dann sind dies nur formulierungspragmatische Kurzwörter, denn jedes dieser Korpora besteht aus Teilen. Nachfolgend werden beide Korpora kurz nach den grundlegenden Korpuseigenschaften Umfang, Zeitraum und Textgattungen beschrieben.

2.1 Das DWDS-Korpus

Beim DWDS werden sechs »Metakorpora« unterschiedenFootnote 12, von denen hier das frei verfügbare Korpus namens »Referenz- und Zeitungskorpora (frei)« ausgewählt wurde, denn alle sechs Metakorpora können nicht gleichzeitig durchsucht werden. Über das gewählte Korpus »Referenz- und Zeitungskorpora (frei)« heißt es dort:

»Dieses Metakorpus aggregiert folgende Korpora:

  • Berliner Zeitung (1994 – 2005)

  • Deutsches Textarchiv Kernkorpus

  • Deutsches Textarchiv Erweiterungen

  • DWDS-Kernkorpus (1900 – 1999)

  • DWDS-Kernkorpus 21 (2000 – 2010)

  • Der Tagesspiegel (1996 – 2005)

  • Die Zeit (1946 – 2018)«Footnote 13

Die Größe des Korpus wird mit der Zahl der DokumenteFootnote 14 und der Token (laufende oder Textwörter) angegeben: Es enthält gut 2,4 Mio. Dokumente und 1,3 Milliarden Token. Die zeitliche Abdeckung reicht – das ist nur teilweise sofort erkennbar – von 1465 (»Deutsches Textarchiv Erweiterungen«) bis 2018. Niemand würde hier eine gleichmäßige Verteilung über die Zeit erwarten, aber herauszufinden, wie diese Verteilung aussieht, ist mit einigem Aufwand verbunden, der hier nicht nachgezeichnet werden soll. Erwartbar ist, dass in den Jahren nach 1945 und erneut nach 1980/1990 (Digitalisierung) die vorhandene Textmenge deutlich ansteigt.

Zeitungstexte haben in diesem Korpus einen großen Anteil, doch verbergen sich in vier der sieben Unterkorpora, nämlich in denen des Deutschen Textarchivs und in den DWDS Kernkorpora, viele andere Textsorten bzw. -gattungen. Diese Gattungen werden in vier sogenannten »Genres« zusammengefasst, auf die etwa je ein Viertel der Unterkorpus-Umfänge entfallen und die bei der Recherche stets als Label präsent sind: Zeitung, Belletristik, Wissenschaft, Gebrauchsliteratur.Footnote 15

2.2 Das IDS-Korpus

Es gibt eine Reihe unterschiedlicher Korpusangebote des IDS, die auf einer mit »Onlineangebote« betitelten Webseite gelistet sind.Footnote 16 Von dort aus sind Korpora der geschriebenen Standardsprache über die Bezeichnung der Suchmaschine Cosmas IIFootnote 17 zugänglich. Hier müssen Nutzer*innen zunächst ein »Archiv« wählen; hier wurde »W – Archiv der geschriebenen Sprache« gewählt. In der dann erscheinenden Liste »vordefinierter Korpora« wird das zuoberst stehende Korpus gewählt: »W-gesamt – alle Korpora des Archivs W (mit Neuakquisitionen)«. Nachdem dies ausgewählt wurde, erscheint die Such-Fläche mit der Referenz: »Deutsches Referenzkorpus DeReKo-Release-2023-I«. Die Such-Fläche verbindet Suchwort-Eingabe mit vielen Wahlmöglichkeiten, bezogen auf das zuvor gewählte Korpus.

Wer sucht, findet dann auch Angaben zur zeitlichen Abdeckung und zum Umfang dieses Korpus: Die Texte decken den Zeitraum ab 1787 ab, allerdings stammen nur sehr wenige Texte aus dem 18., 19. und frühen 20. Jahrhundert. Ab 1947 steigt die Menge der Texte sprunghaft an und reicht bis 2022. Es enthält gut 44,8 Milliarden »Texte«, verteilt auf 18.448 »Dokumente« sowie 12,8 Milliarden Wörter (Token).

Während das DWDS-Korpus die Verteilung auf vier »Genres« beschränkt, zeigt sich beim IDS-Korpus eine viel feiner differenzierende und entsprechend umfangreiche Klassifikation, die teilweise an die Unterscheidung journalistischer Textsorten (Bericht, Nachricht, Kommentar usw.) erinnert, dabei aber stets eine Kategorie »undefiniert« enthält, der, so mein Eindruck, in der Regel die allermeisten Texte zugeordnet sind. Beide Korpora gehen mit dem verständlichen, aber letztlich unrealistischen Wunsch mancher Nutzer*innen nach eindeutiger Textsortenzuordnung eines Rechercheergebnisses plausibel um. Es gibt eben keine übergreifende Klassifikation aller Textsorten über Jahrhunderte hinweg, und es kann sie auch nicht geben. Offen ist allerdings, wie Nutzer*innen ohne Fachexpertise die differenzierten Genre- bzw. Textsortenangaben einordnen (können); eine eindeutige Aussage zur Textsortenbindung eines Ausdrucks werden sie daraus eher nicht ableiten.

2.3 Vergleichbarkeit

Das IDS-Korpus ist fast zehnmal so groß wie das DWDS-Korpus. Da ist es klar, dass absolute Häufigkeitsangaben eines sprachlichen Phänomens unbrauchbar sind und dass stattdessen relative Häufigkeitsangaben zugrunde gelegt werden müssen. Dies wird in beiden Korpora mit Häufigkeit pro 1 Mio. Token gemessen. DWDS verwendet die Angabe PPM (›parts per million‹), IDS verwendet die Angabe pMW (pro Million Wörter). Erwartbar ist ferner, dass neben der zeitlichen Abdeckung auch der Umfang einen Einfluss auf die Erstbelegung eines Wortes hat: In einem größeren Korpus ist die Chance größer, dass ein Wort früher belegt ist. Darüber hinaus wird das sehr viel größere Korpus tendenziell mehr Entdeckungen ermöglichen, wenn die jeweilige Suchabfrage corpus-driven gewonnene Ergebnisse zulässt.

In der korpuslinguistischen Fachliteratur werden Häufigkeitsmaße und ihre Aussagekraft generell eingehend diskutiert. Da in diesem Beitrag jedoch eine über die Experten-Nutzung hinaus gehende Perspektive eingenommen wird, wird darauf nur allgemein verwiesen.Footnote 18 Um Frequenzangaben nutzen, d. h. einordnen zu können, müssen Nutzer*innen (a) die Unterschiedlichkeit der von ihnen in der Situation benutzten Korpora in Umfang und Varietät(en) kennen, (b) herausfinden, was man unter »1 Mio. Token« versteht und (c) den Unterschied zwischen absoluter und relativer Häufigkeit kennen, dazu parallel u. U. die Angaben einer Häufigkeitsklasse kennen. Das verstehen wollende Lesen dieser und ähnlicher Daten ist nicht variabel, selektiv oder potentiell individuell verschieden – anders als beim klassischen Gegenstand der Hermeneutik, dem Text; solche Daten müssen auf bestimmte Weise verstanden werden oder es entsteht Unsicherheit.

Weitere Unterschiede zwischen den Korpora hängen mit den jeweiligen Suchfunktionen und mit der Einbettung in lexikografische Ressourcen zusammen und werden im weiteren Verlauf diskutiert.

3 Das Beispielwort Alltagsrassismus

3.1 Alltagsrassismus im DWDS-Korpus

Das von mir zugrunde gelegte DWDS-Korpus liefert 96 Treffer für das Wort AlltagsrassismusFootnote 19 einschließlich aller Flexionsformen; der Erstbeleg ist 1991 datiert und steht in einer Zeitungsquelle; ebenso der jüngste Beleg von 2018. Da die vier o. g. Textklassen bzw. Genres prominent neben dem Suchfenster zur An- und Abwahl angeboten werden, ist leicht festzustellen, dass das Wort ausschließlich in Zeitungsquellen belegt ist.

Um Informationen über die Belegung des Worts über den Belegungszeitraum hinweg zu erhalten, muss in der rechten Spalte der Link zum DWDS-Wörterbuch angeklickt werden. Man wird aus dem Korpus hinaus- und in das Wörterbuch hineingeleitet, in vielen Fällen vermutlich, ohne dies zu bemerken. Der Link führt zu einer Grafik namens »Verlaufskurve«, der man mit der Maus folgen kann, um relative und absolute Frequenzen, das Jahr sowie die Textgattung angezeigt zu bekommen. Die Kurve ist offensichtlich automatisch erzeugt, denn sie steigt schon leicht an, bevor 1991 der Erstbeleg erscheint. Dies ist den einen plausibel (der Algorithmus ist so angelegt, dass er die Kurve ›glättet‹), es irritiert oder belustigt gar die anderen, und wird von den dritten gar nicht wahrgenommen – ähnlich wie wir es mehrheitlich gewohnt sind, Angaben zu Geburtenraten wie »1,4 Kinder pro Frau« verstehend zu ›korrigieren‹. Am Punkt des Letztbelegs von 2022 wird für das Wort 0,5 PPM (relative Häufigkeit) bei 230 (statt 96, siehe oben) absoluten Treffern angegeben. Der Verlaufskurve im Wörterbuch-Portal des DWDS liegt also eine andere, größere Korpusbasis zugrunde, als von mir gewählt worden war. Es handelt sich um das sogenannte DWDS Zeitungkorpus mit 23,7 Milliarden Tokens, das aber aus rechtlichen Gründen nicht selbst durchsuchbar ist.Footnote 20 Verwirrenderweise können auf der Seite der Verlaufskurve andere Teilkorpora ausgewählt werden, die zu jeweils anderen relativen Frequenzen führen. Ob das hier wählbare Korpusbündel »Referenz- und Zeitungskorpora« mit dem für meine Untersuchung gewählten Teilkorpus »Referenz- und Zeitungskorpora (frei)« identisch ist, ist m. E. unsicher. Die relative Frequenz des Worts in »Referenz- und Zeitungskorpora« beträgt 0,009 pro 1 Mio. Wörter.

Zusätzlich zur Verlaufskurve mit ihren Frequenzangaben findet sich auf der Wörterbuchseite zum Lemma Alltagsrassismus eine siebenstufige Häufigkeitsangabe in Form von sieben unausgefüllten/ausgefüllten Kästchen zwischen den Polen »selten« und »häufig«. Alltagsrassismus ist hiernach in der zweiten der sieben Häufigkeitsklassen eingeordnet.Footnote 21 Zweifellos kommt eine solche, viel gröber einordnende Form der Häufigkeitsangabe den Fragen nicht-linguistischer Nutzer*innen entgegen. Man kann schlussfolgern: Das Wort ist selten bis mittelhäufig und wird deswegen möglicherweise nicht von allen Deutsch Sprechenden verstanden in dem Sinne, dass sie es Kontexten und Konnotationspotenzialen nicht sicher zuordnen können; es wäre also Kandidat für einen Lernerwortschatz. Für diese Schlussfolgerung muss ich aber offensichtlich auch auf Expertenwissen zurückgreifen.

Auf der Webseite des Wortartikels Alltagsrassismus findet sich darüber hinaus am rechten Rand eine Deutschlandkarte, die in sechs großräumige Sprachregionen gegliedert ist und anzeigt, in welcher Sprachregion das Lemma wie häufig belegt ist. Grundlage dieser »Verteilung über Areale« ist wiederum ein anderes Korpus, das »ZDL-Regionalkorpus« mit Zeitungstexten ab 1993 und etwa 9,5 Milliarden Tokens großFootnote 22, das für Alltagsrassismus 1359 Treffer anzeigt; der Erstbeleg stammt aus dem Jahr 1995. Nun stellt sich die Frage nach der regionalen Verteilung dieses Worts eigentlich nicht, und dennoch beginnt die Nutzerin sich zu fragen, warum wohl seine relative Häufigkeit im Nordosten Deutschlands etwa doppelt so groß sein soll wie im Südwesten. Linguistische Expert*innen werden sich darin einig sein, dass das Wort ganz sicher nicht regionalsprachlich markiert ist, aber welche Schlüsse mögen andere interessierte Nutzer ziehen? Aus linguistischer Sicht kommt nur eine unterschiedliche Diskursrelevanz in Betracht, vorausgesetzt es gibt regional begrenzte oder abgrenzbare Diskurse. Dazu müsste aber eine ausführliche Diskursanalyse gemacht werden.

Das Wortschatzsystem des DWDS, bestehend aus einem Wörterbuch und diversen Meta- und Teilkorpora, legt seinen Datenauswertungen unterschiedliche Korpusaggregationen zugrunde. Will man, wie in meinem Beispiel, zwei unterschiedliche Korpussysteme im Hinblick auf eine Forschungsfrage vergleichend heranziehen, merkt man an dieser Stelle, dass ein Vergleich nicht oder nur oberflächlich möglich ist. Zumindest im Hinblick auf Häufigkeit, Erst- und Letztbeleg, auf zeitliche wie auf regionale und auf die das Textgenre betreffende Dispersion sind die Angaben des DWDS im konkreten Detail mit keinem anderen Korpus vergleichbar. Es bleibt den Nutzer*innen nichts anderes übrig, als die bei der Suche erhaltenen Daten ebenfalls zu aggregieren und dabei vergröbert und ungenau zu ›Informationen‹ zusammenzufassen, die ihrem ursprünglichen Frageinteresse nahekommen.

Kommen wir nun zu den semantischen und pragmatischen Fragen an das Wort Alltagsrassismus, indem (nur) das ursprünglich gewählte Meta‑/Teilkorpus »Referenz- und Zeitungskorpora (frei)« zugrunde gelegt wird. Das DWDS-Wörterbuch besitzt zu vielen Lemmata aus Korpora gewonnene Kollokationen, die typische Verwendungen und Partnerwörter enthalten und die für semantische wie pragmatische Untersuchungen sehr gut geeignet sind – so wissen es Expert*innen. Bei diesem Wort fehlen solche Angaben, so dass nichts anderes übrigbleibt, als die 96 Treffer-Belege chronologisch zu sortieren (andere Sortieroptionen scheinen hierfür nicht sinnvoll) und Notizen machend auf semantische und pragmatische Aspekte hin durchzulesen. Die Notizen werden in Form einer hier nicht wiedergegebenen Tabelle mit folgenden Kriterien angelegt:

  1. a)

    als Neologismus markiert? wie?

  2. b)

    referiert worauf? wird spezifiziert als?

  3. c)

    semantische Abgrenzung wovon?

  4. d)

    in eine Reihe gestellt, verknüpft mit

  5. e)

    Stigmawort? woran erkennbar?

  6. f)

    Wort wird reflektiert, wie?

  7. g)

    Nummer des Belegs, in dem das steht.

Die Formulierung von Kriterien im Umgang mit Textausschnitten obliegt allein der forschend-fragenden Person und scheint zunächst unabhängig von den Angeboten der digitalen Systeme. Allerdings beruht die Kriterienerstellung auf vorgängigen Erfahrungen mit ähnlich sozio-pragmatischen Fragen an ein ähnliches Korpus. Die Fragen sind auf den Wortgebrauch und das, was er über Konzeptnetze entbirgt, gerichtet, nicht auf die mit dem Ausdruck bezeichnete Sache. Wollte ein Nutzer oder eine Nutzerin ohne Expertise die 96 Belege lesen, um die Sache (besser) zu verstehen, wäre nur Kriterium (b) wichtig, könnte vermutlich aber nicht explizit gemacht werden.

Danach wird das Wort Alltagsrassismus letztmalig im Jahr 2002 mittels Anführungszeichen als Neologismus markiert; auch davor (1991, 1992) geschieht dies aber nur selten (Kriterium a). Das Wort wird nie als Bezeichnung reflektiert, die Belege handeln ausschließlich von der Sache (Kriterium f). Belege, in denen Alltagsrassismus als Sache näher bestimmt wird, sind selten; es gibt lediglich 18 Einträge, die das Kriterium (b) erfüllen. Am häufigsten wird hier ausgedrückt, dass Alltagsrassismus mitten in der Gesellschaft, unter uns usw. verbreitet sei, teilweise auch in Institutionen (Ämtern, Polizei). Häufig wird »der Osten Deutschlands« oder eine seiner Städte und Regionen als Ort des Alltagsrassismus benannt. Einige Male wird Alltagsrassismus als Thema, Frage oder Phänomen des Diskurses eingeordnet. Belege mit semantisch hilfreichen Abgrenzungen (Kriterium c; was Alltagsrassismus nicht ist) sind sehr selten. Ein Ausreißer ist die Einzelstimme des Politikers Boris Palmer, der in mehreren Belegen den ›weniger schlimmen‹ Alltagsrassismus von ›richtigem‹ Rassismus unterschieden wissen möchte. Ein einziger Artikel mit Palmers provokanten Thesen in der der Zeitung »Die Zeit« 2016 sorgt im Korpus für sieben Belege (von 96) dieses Inhalts. Wohl dem, der sich nicht auf rein statistische Korpusauswertungen verlässt, sondern auch die Quellenangaben liest. So sinnvoll es ist, dass ein Korpus Texte in kleine und kleinste Einheiten atomisiert und zu neuen Datentypen zusammensetzt, weil dadurch im Text (oder in der Sprache?) unsichtbare Muster und Strukturen sichtbar werden, so notwendig kann das Wissen darüber sein, dass und wann es nötig ist, in den originalen Text- und Diskurszusammenhang zurückzusteigen.

Um mit der Beleglektüre fortzufahren: Anstatt eine nähere inhaltliche Bestimmung von Alltagsrassismus zu versuchen, stellen viele Autor*innen der Quellen das Phänomen in eine Reihe irgendwie ähnlicher Phänomene (Kriterium d; 18 Belege), bezeichnet durch: Gewalt, Pogrom, Intoleranz, Vorurteile, Fremdenhass, Homophobie, Pöbeleien, Brandanschläge und andere. Durch solche Reihen findet eine nur vage und recht assoziative Einordnung stattFootnote 23. Gemeinsam ist den Zuschreibungen, dass es das jeweilige Phänomen nicht geben sollte (deontische Bedeutung), was auch in einigen von insgesamt 21 Belegen zum Kriterium (e) explizit zum Ausdruck kommt: bekämpfen, anprangern, sich einsetzen gegen, aus der Welt schaffen usw. Kontextwörter, die Alltagsrassismus stigmatisieren, sind teilweise biologistisch: gären, grassieren, virulent, aggressiv. Auffallend wenige, nämlich sieben Kontextwörter zeigen, dass die Perspektive Betroffener eingenommen wird: spüren, konfrontiert werden mit A., Opfer von A. sein, wahrnehmen, begegnen, krasse Erfahrungen mit A.

Salopp und auf den Punkt zusammengefasst: Alltagsrassismus im DWDS-Korpus ist ein eher seltenes Wort, das Anfang der 1990er Jahre in Zeitungen auftaucht und zur Gegenwart hin an Häufigkeit stark zunimmt. Das Korpus vermittelt, dass Alltagsrassismus ein lästiges Phänomen der Mehrheitsgesellschaft ist, von dem man nicht so recht weiß, worin es besteht. Betroffene kommen in dem Diskursausschnitt, den das Korpus abbildet, nur wenig zu Wort.

3.2 Alltagsrassismus im IDS-Korpus (DeReKo 2023-I)

Der Erstbeleg aus der Zeitung »Die Zeit« ist derselbe wie im DWDS-Korpus; der jüngste Beleg ist aus dem Jahr 2021. Insgesamt hat das IDS-Korpus aber mehr als 2600 Treffer, nicht nur weil die Korpusbasis größer ist (s. oben), sondern möglicherweise auch weil mehr Formvarianten eines Suchworts in die Suche einbezogen sind.Footnote 24 Die relative Frequenz ist mit 0,2025 mehr als doppelt so groß wie beim DWDS-Korpus, aber natürlich immer noch deutlich unter 1. Wenn man hierfür eine nutzerfreundlichere und mit DWDS vergleichbare Angabe in Häufigkeitsklassen erzeugen lässt, wird bei wiederholten, also als »variabel« eingestellten Zufallsauswahlen eine Häufigkeitsklasse zwischen 17 und 23 angegeben. Die Einteilung in Häufigkeitsklassen ist also anders, feiner als beim DWDS-Korpus und somit nicht wirklich vergleichbar. Wie oben auch bleibt unsicher, welche Schlussfolgerung aus der variablen Erzeugung der Häufigkeitsklasse 17 bis 23 gezogen werden kann. Der Algorithmus ist zweifellos sinnvoll, etwa wenn man an Lernerwortschätze denkt; aber weil er unterschiedslos alle Wörter erfasst, werden die einen das Ergebnis souverän und die anderen es aus Unsicherheit ignorieren.

Grundsätzlich ließe sich durch eingehendere Recherche in den Hilfe-Texten der Systeme oder in externen Fachpublikationen klären, welche mathematischen Verfahren zur Frequenzberechnung beide Wortschatzsysteme angewendet haben. Aber das ist nicht Teil der typischen Nutzungssituation, auch nicht bei den Experten. In der Folge können bei der Nutzung Zweifel an der Verlässlichkeit von Frequenzangaben und womöglich auch an ihrer Relevanz entstehen, zumindest für die hier zugrunde gelegte Fragestellung.Footnote 25

Anstelle in Form einer Grafik wie beim DWDS wird im IDS-Korpus die Verteilung des Worts auf Textsorten in einer Tabelle präsentiert, so dass die hier verzeichneten 22 verschiedenen »Textsorten« mit Verteilung über die Zeit, mit der Anzahl der Texte je Textsorte und mit relativer wie absoluter Frequenz verknüpft sind. Absolut am häufigsten (80 Treffer) kommt das Wort in der Textsorte »Bericht« vor, die höchste relative Häufigkeit (1.216 pro Mio. Wörter) findet sich aber in der Textsorte »Bericht/Feuilleton«. Warum im Feuilleton? 19 der 22 Textsorten sind zeitungsspezifisch; Ausnahmen sind »Plenarprotokoll«, »Enzyklopädie-Artikel« und »Newsgroup-Artikel«. Unter den weiteren Sortiermöglichkeiten sind auch Länder (D, A, CH sowie L für Luxemburg). Diese Angaben sind aber nur sehr eingeschränkt vergleichbar mit der Zuordnung zu Sprachregionen im DWDS und können Nutzer*innen ansonsten zu denselben problematischen Schlüssen verleiten wie oben fürs DWDS-Korpus festgestellt.

Für die semantisch-pragmatische Analyse des Worts Alltagsrassismus wird eine Zufallsauswahl von 96 Treffern ausgewertet, um dieselbe Belegbasis zu haben wie beim DWDS-Korpus. Es werden dieselben Kriterien (a bis g) angewendet wie oben.

Die Markierung als Neologismus (Kriterium a) kommt nur einmal vor, dafür gibt es immerhin einen Beleg, der das Wort reflektiert (»Das Wort klingt so harmlos.« für Kriterium f). In 44 der 96 Belege wird etwas über Alltagsrassismus gesagt; darunter sind 23 Belege, die das Phänomen als Debattenthema u. ä. behandeln. Aber es gibt, anders als beim DWDS-Korpus, etliche Belege, die mehr oder weniger exemplarisch bestimmen, was Alltagsrassismus ist. Z. B.:

  • Aussagen oder Handlungen

  • die beiden Sarotti-Mohren über der Theke des Capitol [Mannheimer Kulturzentrum, Ergänzung durch Autorin]

  • wie wir mit Menschen anderer Hautfarbe umgehen

  • Aggressionen gegen Ausländer

  • wo Menschen beleidigt, diskriminiert oder angegriffen werden,

  • Viel schöner, ruhiger, sauberer sei es hier [in Westfalen, Ergänzung durch Autorin], erklärt der Mann - und schiebt eine heftige Portion Alltagsrassismus hinterher: »Und sicherer. Die ganzen Ausländer in Essen - Sie wissen schon«.

  • ein beleidigendes Wort, eine unfreundliche Geste

  • Menschen mit dunkler Haut ernten schiefe Blicke und dumme Sprüche.

Seltener hingegen sind Belege (es sind vier), in denen Alltagsrassismus als ›etwas Normales‹, eine in ›der Mitte der Gesellschaft‹ unbewusst vorkommende Einstellung verstanden wird. Deutlich seltener als beim DWDS-Korpus, nur einmal, wird Alltagsrassismus als ostdeutsches Problem dargestellt. Etwas häufiger (mit 9 Belegen) scheint hingegen die Perspektive der Betroffenen thematisiert zu werden, zumindest werden Wünsche und Aufforderungen an Betroffene geäußert, von ihren alltagsrassistischen Erfahrungen zu berichten; Betroffene selbst kommen auch in diesem Korpus kaum zu Wort. Die Einordnung in Reihen ähnlicher Phänomene (Kriterium d) (Diskriminierung, Fremdenfeindlichkeit, Vorurteil, Gewalt) ist mit der im DWDS-Korpus nahezu identisch. Genauso viele, nämlich 21 Belege weisen das Wort deutlich als Stigmawort aus und formulieren eine Sollensbedeutung (deontische Bedeutung) mehrfach explizit, z. B. »darf unter keinen Umständen toleriert werden«.

Salopp und auf den Punkt zusammengefasst: Das IDS-Korpus zeigt zum Wort Alltagsrassismus ein sehr ähnliches Bild wie das DWDS-Korpus. Geringe Abweichungen lassen sich dennoch feststellen: Der Diskurs, von dem die Belegauswahl des IDS-Korpus ein Bild zeichnet, enthält ein paar mehr Konkretisierungen, er richtet sich auch an betroffene People of Colour, ihre Erfahrungen mitzuteilen, und er stellt Alltagsrassismus nicht als ostdeutsches, sondern gesamtdeutsches Problem dar. Dass die Auslassungen der ›Voice‹Footnote 26 von Boris Palmer zum Thema hier komplett fehlen, kann dazu beitragen, dass Alltagsrassismus weniger als ›normal‹ und arglos erscheint als im DWDS-Korpus. Dies kann u. U. ein relevanter Unterschied sein.

3.3 Vergleich zwischen DWDS-Korpus und IDS-Korpus in Bezug auf Alltagsrassismus

Hat das Ergebnis mit den Erscheinungsorten der Zeitungen im jeweiligen Korpus zu tun? Im IDS-Korpus verteilen sich die ca. 2.600 Treffer auf 59 verschiedene Quellen, davon der Großteil Zeitungen und Magazine aus vier Ländern (D, A, CH, L). Nur eine Zeitung darunter (der Nordkurier) erscheint in einem ostdeutschen Bundesland. Bei den Landtagsprotokollen finden sich drei west- und vier ostdeutsche Landtage, plus die des Berliner Senats. Die Vielfalt der Zeitungen im Korpus ist größer als beim DWDS. Eine Zufallsauswahl führt jedes Mal zu einer anderen Teilmenge der Quellen, zu mehr oder weniger vielen Einzelstimmen – womöglich wiche das Ergebnis der semantisch-pragmatischen Analyse mit jeder neuen Zufallsauswahl voneinander ab.

Nicht nur dem IDS-Korpus, auch dem DWDS-Korpus muss man eine gewisse Westlastigkeit bescheinigen: Bei denjenigen Subkorpora des DWDS-Korpus, die aus zeitlichen Gründen überhaupt für das Wort Alltagsrassismus infrage kommen, finden sich lediglich zwei Berliner Tageszeitungen sowie die Wochenzeitung »Die Zeit«, die Quellenvielfalt ist also deutlich geringer; es tragen weniger individuelle Stimmen zu dem Diskurs bei, den das Korpus konstruiert.

Einen Anteil daran besitzt auch die zeitliche Reichweite. Obwohl beide Korpora aktuellen Sprachgebrauch dokumentieren, könnte ein Diskursereignis zwischen 2018 (Ende des DWDS-Korpus) und 2022 (Ende des IDS-Korpus) dazu führen, dass die Ergebnisse stärker voneinander abweichen. Eine kleine Zufallsauswahl aus einer potenziell größeren Belegmenge lässt weniger Stimmen/Voices erkennbar werden. Sie reagieren zudem auf potenzielle Diskursereignisse und sind damit zeitabhängig. Um zu diesen vorsichtigen Schlussfolgerungen zu kommen, ist die eingehende Befassung mit der Zusammensetzung eines Korpus aber zwingend notwendig.

4 Begleiterwörter von Feld, Wald, Wiese

Wie oben erläutert, wird die Häufigkeitsverteilung der verschiedenen Möglichkeiten, ein Nomen »mit Artikel« zu gebrauchen untersucht, und zwar an je einem Nomen der drei Genera (Maskulinum, Femininum, Neutrum). Die Fragestellung ist per se eher eine Expertenfragestellung, auch wenn man sich Deutsch-Lehrer*innen wünschen würde, die Korpora für ähnliche Anliegen nutzen. Folgende Kategorien werden hierfür unabhängig von Angeboten des Korpus gebildet, das in der hier genutzten Form kein morphosyntaktisches Tagging enthält:

  • definiter Artikel im Nominativ Singular, d. h. der prototypische Fall der, die oder das;

  • definiter Artikel in anderen Flexionsvarianten, hierzu zählen neben deren, dem, den, des und dessen auch formgleiches das im Akkusativ des Neutrums, die im Akkusativ des Femininums, der im Genitiv des Femininums sowie die im Nominativ wie Akkusativ Plural aller drei Genera;

  • indefiniter Artikel in allen Flexionsvarianten des Singulars;

  • sonstiger Begleiter, v. a. Begleiter-Pronomina (z. B. demonstrative, possessive, quantifizierende Pronomina) und Verschmelzungen aus Artikel mit Präposition (ins, beim, zur usw.);

  • Null-Begleiter, wie er v. a. bei Indefinitheit im Plural vorkommt.

Für jedes der drei Nomen wird die Suche auf die Zeit zwischen 2000 und 2018 sowie auf 100 per Zufallsgenerator gewählte Belege beschränkt. Diesen Satzbelegen werden die Kategorien händisch, kleine Satzkontexte lesend, zugewiesen.

Die Fragestellung sollte anhand des aktuellen Sprachgebrauchs verfolgt werden; die Grenze hierfür darf aber nicht später als beim Jahr 2000 angesetzt werden, weil die Recherche im DWDS-Korpus sonst auf Texte der Wochenzeitung »Die Zeit« beschränkt würde, die als einziger Korpusbestandteil über 2010 hinausreicht. Was als aktueller Sprachgebrauch gilt, bestimmt das Korpus insofern mit – das ist eigentlich eine korpuslinguistische Binsenweisheit, hat aber Auswirkungen auf konkrete einzelne Recherchen: Wenn ein Phänomen des aktuellen Sprachgebrauchs in einem hierfür exemplarischen Korpus untersucht werden soll, sollte dieses Korpus in mehreren Eigenschaftsdimensionen (wie Textsorten, Presseorganen, Medialität, Arealität und ggf. anderen) größtmögliche Vielfalt aufweisen. Im Beispielfall der Begleiterwörter ist eben auch die Kenntnis der zeitlichen Reichweite einzelner Korpusteile relevant. Korpusvergleichende Untersuchungen wie diese haben den Vorteil, dass die Korpuseigenschaften um der Vergleichbarkeit willen aufmerksam festgestellt werden müssen, v. a. durch Lesen derjenigen Webseiten des Systems, die gerade nicht zu den Hauptkomponenten Wörterbuch und Korpus gehören, sondern zu den Umtexten.

Entsprechend wird aus dem DeReKo-Korpus eine Teilmenge für den gleichen Zeitraum 2000 bis 2018 gebildet, wie er beim DWDS-Korpus vorliegt. Dieser zeitliche Zuschnitt des DeReKo-Korpus erfordert ein etwas tieferes Eintauchen in die vielfältigen Rechercheoptionen; man kann sogar wählen, ob die Zufallsauswahl (hier: von 100 Treffern) jedes Mal anders (»variabel«) oder gleich (»fest«) vorgenommen werden soll. Sie wird in meinem Fall überhaupt nur einmal vorgenommen und das Ergebnis in eine auswertbare Form exportiert, die vom jeweiligen System angeboten werden. Die Zufallsauswahl geschieht aber auf einer sehr unterschiedlich großen Basis: Beim DWDS werden 100 von ca. 78.000 Treffern, bei der DeReKo-Teilmenge 100 von 617.000 Treffern selektiert. Es ist denkbar, dass hierdurch ein statistischer Effekt entsteht, der auf den Grad der erwarteten Typik der Ergebnisse durchschlägt, aber in welcher Weise? Denkbar wäre der Vergleich mehrerer Zufallsauswahlen mit der Option ›variabel‹, was hier nicht weiter verfolgt werden soll.

Die Export-Formate sind in beiden Korpussystemen unterschiedlich, so dass die DWDS-Belege in einer auf die eigenen Bedürfnissen zuschneidbaren Excel-Tabelle und die des DeReKo-Korpus in einem ebenfalls bearbeitbaren Textformat wie txt, rtf oder pdf analysiert werden.Footnote 27 Auch dies kann einen Einfluss auf Interpretationsprozesse haben, aber wohl kaum im Falle der hier angesetzten, nach grammatischen Kriterien vorgenommenen Analyse. Die Ergebnisse seien in Tab. 1 zusammengefasst und anschließend im Hinblick auf die für den Deutsch-als-Fremdsprachen-Unterricht relevante Fragestellung ausgewertet:

Tab. 1 Verteilung der Artikelwortkategorien in den beiden Korpora

Schon während der Sichtung der Belege stellt sich heraus, dass Polysemie des Suchworts und mögliche Einbettung des Suchworts in ein geläufiges Phrasem Auswirkungen auf den Artikelgebrauch hat. Ferner gibt es die Wörter als Orts- oder Personennamen, die für die Ausgangsfrage nahezu irrelevant sind.Footnote 28 Das sind Dinge, die die Linguistin vorher bereits hätte wissen können, es ist aber typisch für die Arbeit mit Korpora, dass relevante Aspekte wie diese erst während der Sichtung der Ergebnisse emergieren. Durch die Bildung des Fachterminus corpus driven (approach) wurde das Vorgehen irgendwann ›geadelt‹. Ob aber relevante und interessante Aspekte bei der Interpretation von Rechercheergebnissen überhaupt emergieren können, hängt nicht zuletzt von der Kundigkeit des Linguisten bzw. der Linguistin ab. So könnte man ergänzend formulieren: »Kenne die Sprache gut!« bzw. »Kenne den Gegenstand gut, den Du im Korpus untersuchen willst.« »Gut kennen« zielt auf linguistische Expertise. Die Kategorienwahl setzt Kenntnis des Inventars der Artikelwörter und Pronomina im Deutschen voraus. Und man muss zumindest ahnen, dass in Phrasemen und bei Namen Gebrauchsregeln aller Art außer Kraft gesetzt sein können. Man kann ergänzen: »Sei neugierig auf das, was Dir sonst noch entgegenspringen wird.« Die untersuchten Korpora wollen sich aber auch an Nicht-Linguist*innen wenden. Wenn es sich um Studierende handelt, kann das Ergebnis genutzt werden, die Kategorien wie Phrasem bzw. phrasembedingter Wortgebrauch und Name einzuführen und zu vermitteln, dass Zählungen, seien es algorithmisch oder menschlich durchgeführte, keine Information sind, sondern allenfalls Rohdaten, die weiteren Prozeduren zu unterziehen sind.

Zu den Ergebnissen:

Feld: In beiden Korpora kommen mehrere Polysemien (Sport, Spiel) vor sowie einige Phraseme, von denen im DWDS-Korpus nur das erste der folgend genannten, die übrigen v. a. im IDS-Korpus begegnen: ins Feld führen, das Feld überlassen, vom Feld (gehen), zu Felde ziehen. Im IDS-Korpus kommen mehr unterschiedliche Eigennamen vor – ein ähnlicher Befund wie bei Wiese (s. unten). In der Kategorie der Sonstigen finden sich, etwas diverser als bei Wald (s. unten), viele Verschmelzungen mit Präposition, v. a. im Feld, vom Feld, aufs Feld. Einzig in der Kategorie der »anderen definiten Artikel« verlangen die abweichenden Trefferzahlen (38 im DWDS-Korpus versus 28 im IDS-Korpus) nach einem Erklärungsversuch. Expert*innen der Korpuslinguistik arbeiten in einem solchen Fall mit sogenannten Konfidenzintervallen, die mithilfe von Statistikprogrammen berechnet werden (Perkuhn/Keibel/Kupietz 2012, S. 87 ff). Ein solcher Aufwand scheint hier und sicherlich bei vielen anderen linguistischen Fragestellungen unangemessen und nicht zielführend. Eher ließen sich die 28 und 38 Belege daraufhin subkategorisieren, welche Kasus-Numerus-Kombination jeweils vorliegt und ob dies mit thematischen Eigenschaften der Texte zusammenhängen könnte – immerhin kommt das Wort Feld in klar unterscheidbaren Themen (Landschaft, Sport, Spiel) vor. Da beide Korpora aber gewollt aus multithematischen Zeitungstexten bestehen, wäre es Zufall, wenn in dem einen Korpus mehr Belege zu Feld als Landschaftsform vorkämen als in dem anderen. Zu guter Letzt: Da eine in den Daten liegende Erklärung mit vertretbarem Aufwand nicht gefunden werden kann, kommt eine Abweichung in der Kategorienzuordnung in Betracht. Habe ich konsistent kategorisiert? Meine erneute Überprüfung der eigenen Zuordnungen erbrachte aber keine Erklärung der Differenz.

Wald: Die Korpora unterscheiden sich im linguistisch relevanten Ergebnis nicht: In beiden gibt es keine Polysemien von Wald, keine belegten Phraseme, einige Ortsnamen. Weil Wald auch als Kontinuativum (Mengenwort) gebraucht wird, gibt es viele Vorkommen mit Null-Artikel, etwa fünf Hektar Wald. In beiden zeitlich auf 2000 – 2018 festgelegten Korpora entfallen etwa ein Fünftel der absoluten Treffermenge von Wald auf die Verbindung im Wald, womit die relativ hohe Anzahl der Befunde in der Kategorie ›Sonstige‹ erklärt werden kann.

Wiese: Auch hier lassen sich keine relevanten Unterschiede ausmachen; es gibt ein Phrasem (auf der grünen Wiese). Im DWDS-Korpus entfallen relativ mehr Treffer auf diverse, z. T. wiederholt vorkommende Personennamen von öffentlichem Interesse (Torhüter, Neonazi). Da das IDS-Korpus mehr unterschiedliche, damit geografisch und national breiter gestreute Zeitungen enthält, fällt die Nennung eines bekannten Fußballspielers weniger ins Gewicht als beim DWDS-Korpus. Die Kategorie ›Sonstige‹ ist bei Wiese im Vergleich zu Feld und Wald in beiden Korpora übereinstimmend deshalb so auffallend selten, weil Verschmelzung von Präposition mit Artikel bei die und der (das sind die definiten Artikel des Femininums im Singular) mit einer einzigen Ausnahme (zur) nicht vorkommen, mit anderen Formen des bestimmten Artikels, d. h. mit Maskulina und Neutra, aber öfter (dem, des).Footnote 29 Wenn ein Befund erklärungsbedürftig ist, muss es nicht am Korpus und seiner Zusammensetzung liegen.

Die Frage »Wie kommt dieses oder jenes Ergebnis-Detail in Korpus X zustande?« muss methodisch gewichtet werden im Hinblick auf die übergeordnete Forschungsfrage. Dies war hier u. a. die Frage, welche Artikelvarianten der Deutsch-als-Fremdsprache-Unterricht in den Fokus der Lernenden rücken sollte, und wie. Dass dies eben nicht der definite Artikel im Nominativ Singular sein sollte, zumindest nicht ausschließlich, ist anhand der obigen Tabelle mit den Befunden beider Korpora deutlich geworden. Auch deutlich geworden ist, dass das Gros des Artikelgebrauchs unabhängig vom Genus eines Nomens Kombinationen aus Präposition und Definitum, vor allem Verschmelzungen wie am, aufs, beim, im, vom, zum, zur darstellt. Das so nicht erwartete Ergebnis gewinnt noch an Plausibilität, wenn man es zu erklären versucht. Denn warum diese Präpositionalausdrücke so dominant sind, erschließt sich nicht aus dem Korpus, sondern aus grammatischem Grundwissen: Der definite Artikel im Nominativ Singular plus Nomen kommt ganz überwiegend in der Funktion der Markierung des Satzsubjekts vor, von dem es in der Regel eines pro Satz gibt. Phrasen aus Präposition, Artikel plus Nomen haben hingegen mehrere syntaktische Funktionen; sie kommen als Präpositionalobjekte, als Adverbiale und auch als Attribute vor, und von allen dreien kann ein Satz mehrere enthalten, insbesondere in informationsvermittelnden Texten, die viel Informationen in einen Satz packen möchten. Diese postkorpusanalytische, corpus-driven gewonnene Erkenntnis hätte auch schon vor der Analyse als These formuliert und ›corpus-based‹, d. h. im Nachhinein empirisch geprüft werden können. Die korpusgetriebene Vorgehensweise hat den Vorteil, dass mehr als etwa syntaktische Erklärungen möglich werden; es könnten grundsätzlich ja auch thematische, textsortenspezifische, zeitliche, sprachräumliche oder pragmatische Ursachen hinter einem Zähl-Ergebnis stecken. Dies wiederum hängt von den Kategorien ab, nach denen Gebrauchsinstanzen algorithmisch oder händisch sortiert werden. Im anderen Beispiel Alltagsrassismus wurden Gebrauchsinstanzen nach semantisch-pragmatischen Kategorien sortiert und gezählt, und es wurden aus Angaben zur Frequenz vorsichtig Aussagen zum Gebrauch und sogar zur gesellschaftlichen Konzeptualisierung gemacht.

5 Fazit

Der systematische Vergleich zweier sehr großer Korpora, die auf recht unterschiedliche Weise mit einem Wortschatzsystem verknüpft sind, hat gezeigt, dass die ähnliche Zusammensetzung der Korpora bei eher grobem Erkenntnisinteresse zu ähnlichen Ergebnissen führt. Will man etwas aber genauer wissen, auch im Detail, und setzt man z. B. Einzelheiten wie die mehr (DWDS) oder weniger (DeReKo) deutliche Emergenz einer bestimmten einzelnen Voice (wie z. B. des Politikers Boris Palmer) als relevant und fragt nach den Gründen, stellt sich heraus, dass v. a. der größere Umfang des IDS-Korpus die Hauptursache dafür ist, dass auffällige Details stärker nivelliert und relativiert werden. Bei der grammatischen Fragestellung spielen sozio-pragmatische und Diskurs-Aspekte keine Rolle, und der Ertrag der Korpusrecherchen ist in beiden Fällen gleich.

Sehr große Textkorpora lassen sich aus praktischen und rechtlichen Gründen nur durch Aufnahme großer Mengen digitaler Pressetexte und von Webseiten mit öffentlich relevantem Sprachgebrauch erstellen. Solche ›zeitungslastigen‹ Korpora werden als potenziell einseitig kritisiert, haben aber die Vorteile, dass sie eine Vielzahl an Texten, individuellen Schreibern, Textsorten, (Sach‑)Themen, Diskursen, Regionen, Zeitspannen abdecken. Das heißt: Sie sind intern stark ausdifferenziert. Je nach Erkenntnisinteresse wird man andere Korpora bevorzugen und ggf. passend zu den eigenen Fragen aufbauen. Die hermeneutische Konstellation ist dann aber eine ganz andere als die, die sich im Umgang mit den großen, integrierten Wörterbuch-Korpus-Systemen ergibt.

Nicht nur sind die in solche Systeme eingebundenen Korpora sehr groß und aus Forscher*innen-Sicht gewissermaßen fremd erzeugt, sondern sie werden auch mit einer Vielzahl von ineinandergreifenden Algorithmen traktiert. Entsprechend umfangreich und differenziert sind die Daten, mit denen Nutzer*innen fast zwangsläufig versorgt oder besser konfrontiert werden. Die Daten, die in Form von Frequenzlisten, KWICS, Kurven, Tabellen, Beleglisten usw. auch multimodal präsentiert werden, verlangen von den Nutzern und Nutzerinnen größere hermeneutische Anstrengungen, um in ihren Köpfen zu anschlussfähigen Informationen zu werden, die vor der Korpusnutzung nachgefragt oder bei der Nutzung entdeckt worden waren. Sprachwissenschaftlich motivierte Korpora verlangen auf Seiten der Nutzer*innen sprachwissenschaftliche Kenntnisse und Kategorien, die mit den o. g. Datentypen in Beziehung gesetzt werden können, wenn sie beim Erkenntnisertrag keine Kompromisse machen wollen. Das notwendige Ausmaß des Expertenwissens, das der hier durchgeführte systematische Vergleich hat erkennen lassen, ist hoch. Ein wichtiger Bestandteil dieses Wissens resultiert aus den vorgängigen Erfahrungen mit diversen anderen, kleineren und größeren, verfügbaren und selbstgebauten Korpora.

Damit ist das Problem verbunden, dass nicht vorhergesagt oder auch nur begründet vermutet werden kann, welche Schlussfolgerungen weniger erfahrene Expertinnen oder gar Nicht-Experten der interessierten Öffentlichkeit aus der Vielzahl an Rechercheoptionen und erzeugten Datenaggregationen ziehen können. Eine Benutzungsforschung, die nicht nur auf digitale Wörterbücher, sondern auf die komplexen Wortschatzsysteme zielt, kann das genannte Problem noch nicht lösen helfen. Wolfer/Michaelis/Müller-Spitzer (2021) haben bestimmte Nutzungsaspekte des Wortschatzsystems OWID untersucht und u. a. anderem festgestellt, dass von den lexikografischen Seiten in OWID aus nur sehr selten auf das verlinkte Korpus zugegriffen wird (S. 408 und 415). Für das DWDS-System sind mir keine Nutzungsstudien bekannt. Unterschiede werden sich vermutlich aber schon dadurch ergeben, dass von den Wortartikeln des DWDS aus unterschiedliche Teilkorpora in der rechten Spalte sichtbarer und vielleicht attraktiver verlinkt sind, denn sie haben sprechende Namen, und es werden jeweils Trefferzahlen genannt; das macht neugierig. Bei den IDS-Korpora und OWID ist eine Verknüpfung von vornherein eher locker angelegt.

Für beide Systeme bleibt festzuhalten, dass die Gewinnung relevanter Informationen zumindest für Nicht-Expert*innen komplexer wird und in der Folge mehr Unübersichtlichkeiten und Unsicherheiten erzeugt oder mit absichtsvoller Komplexitätsreduktion beantwortet wird. Dies scheint wahrscheinlicher als eine erfolgreiche Recherche in den umfangreichen »Hilfe-Seiten«, die beide hier untersuchten Systeme anbieten. Womöglich hat Schütte (2021) recht und es gibt auch im Umgang mit Textkorpora »halbes Verstehen« durch »oberflächliches« Einordnen der angebotenen Sprachdaten. Ist nicht auch die professionelle Rezeptionspraxis des »nur mal nachschauen, ob/wie ...« auf (kontrollierte) Oberflächlichkeit angelegt? Diese Rezeptionspraxis ist unter Expert*innen womöglich häufiger als die Nutzung der Wortschatz-Systeme zu Zwecken einer methodisch kontrollierten Studie mit Publikationsziel. Es ist dann nicht wichtig, ob das Lexem Alltagsrassismus in Häufigkeitsklasse 17 oder 23 landet. Wenn man das Weglassen, das kontrollierte Ignorieren und das absichtsvolle Aussparen als ein legitimes hermeneutisches Verfahren akzeptiert, dann konstituiert man einen sich aufgrund der Korpuszusammensetzung und der Algorithmen ständig verändernden, puzzleartig zusammengesetzten Verstehensgegenstand – es fällt schwer, hier von ›Text‹ zu sprechen. Ein solcher Verstehensgegenstand entspricht mit Schmitz (2021) aber viel eher dem, womit Sprachwissenschaftler*innen es auch sonst zu tun haben: Sprache als »Interaktion, Auseinandersetzung, Aneinander-Abarbeiten zwischen einzelnen Individuen oder Gruppen« (Schmitz 2021, S. 687). Wenn gelingende Kommunikation sowieso infrage steht, dann könnten große integrierte Korpus-Wortschatz-Systeme zu Gesprächsplattformen werden, auf denen die Korpuserbauer und Algorithmenschreiberinnen mit den unterschiedlichen Nutzertypen in uneinheitlichen Nutzungssituationen ins Gespräch kommen.

Welche Einsichten erlaubt diese Untersuchung mit Bezug auf eine Korpushermeneutik? (1) Das Verstehen der beiden großen deutschsprachigen Korpora ist sehr voraussetzungsreich, braucht Expertenwissen und ist daher oft auf eine eher oberflächliche Einordnung angelegt. (2) Das verstehende Subjekt spielt kaum eine Rolle, weil Interpretationen v. a. von Algorithmen abhängen, nicht vom individuellen Erwartungshorizont. (3) Der Gegenstand der Verstehensanstrengung hat mit ›Text‹ im Sinne der Hermeneutik kaum noch etwas gemeinsam. Damit problematisiert der Beitrag die Frage, welcher Begriff von Hermeneutik beim Umgang mit großen Korpussystemen sinnvoll angesetzt werden kann.