1 Einleitung

Internetbasierte Daten sind aus der politikwissenschaftlichen Forschung nicht mehr wegzudenken. Die durch die quasi unbegrenzte Anzahl an frei verfügbaren Daten entstehenden Chancen führen aber auch zu methodischen Herausforderungen für Forschende. Diese zeigen sich insbesondere bei der Erhebung, Speicherung und Verarbeitung von webbasierten Daten, die wissenschaftlichen Standards entspricht. Es geht vor allem darum, intersubjektive Nachvollziehbarkeit und Reliabilität im Umgang mit dieser Art Daten, der eine hohe Fluidität zugeschrieben werden kann, zu gewährleisten. So kann beispielsweise die reine Speicherung einer URLFootnote 1 zur Erhebung von Webseitendaten nicht ausreichend sein, um intersubjektive Nachvollziehbarkeit zu gewährleisten: Die Seite kann schon wenige Minuten nach der Speicherung aufgrund von Änderungen durch die Seitenadministrator*innen ganz andere Inhalte anzeigen. Dies macht eine Wiederherstellung des Zustands, den die Seite zum Zeitpunkt der URL-Speicherung hatte, unmöglich. Auch das Speichern der Webseiten-Daten via Screenshot oder das Kopieren der Texte, die der Analyse als Grundlage dienen sollen, spiegelt im Ergebnis nicht den ursprünglichen Zustand der Webseite wider. Dazu kommen – insbesondere bei großen Datenmengen – Fragen der standardisierten Archivierung dieser Daten und die Wahl der adäquaten Analysemethode. Webarchivierung zur Datenerhebung und -speicherung sowie der Blended Reading Ansatz zur Analyse dieser Datenmengen bieten hier einen kombinierten Lösungsansatz. Diesen aufzuzeigen ist Ziel des vorliegenden Beitrags, der eine Analyse der Online-Medienberichterstattung zur Europawahl 2019 durchführt. Auf Basis von via Event-CrawlFootnote 2 erhobenen Daten soll mit einem Blended Reading Ansatz analysiert werden, welche Rolle der Europawahl 2019 in der Online-Medienberichterstattung am Beispiel von Spiegel-Online zugeschrieben wird.

Dabei geht es darum, an einem bewusst begrenzt gehaltenen Datensatz aus Webarchiven exemplarisch aufzuzeigen, über welches Potenzial die Durchführung eines Blended Reading auf dieser Art von Daten verfügen und wie diese Forschenden sowie allen, die Methodenkompetenz vermitteln, von Nutzen sein können. Blended Reading verknüpft dabei computerunterstützte Datenanalyse (Distant Reading) zur Strukturierung und manuelle Textanalyse (Close Reading), um den wachsenden Herausforderungen von immer größeren und immer fluideren Textdatenmengen gerecht zu werden.Footnote 3

Trotz dieses starken methodischen Fokus ist das inhaltliche Erkenntnisinteresse kein leeres Beiwerk, sondern liefert das Rahmenkonzept für die Durchführung des Blended Reading. Die Medienberichterstattung zur Europawahl 2019 bildet das Zentrum der Analyse. Die 9. Direktwahl des Europäischen Parlaments fand im Spannungsfeld zahlreicher Krisen und Unsicherheitsfaktoren statt, mit denen die EU konfrontiert ist. Dazu gehörten insbesondere der Brexit und die Sondersituation, dass die Briten im Mai 2019 noch an die Wahlurnen mussten, weil der Austritt bis dahin nicht formal beschlossen werden konnte. Ebenso eine Rolle spielten die Frage nach dem Umgang mit Flüchtlingen, die unter den EU-Staaten auch heute noch für zahlreiche Konflikte sorgt, sowie die wachsende Bedeutung von Umwelt- und Klimaschutzfragen, die vor allem durch die europaweite Fridays for Future-Bewegung befeuert wurden (Holtz-Bacha 2020, S. 33). Überschattet wurden diese Krisen durch ein Erstarken integrationsfeindlicher rechter und rechtspopulistischer Parteien in den Mitgliedsstaaten (Hooghe und Marks 2009, S. 2018) und die fortschreitende Spaltung der politischen Lager entsprechend der GAL/TAN-TheseFootnote 4 von Hooghe und Marks in liberale, integrationsfreundlich und kosmopolitisch orientierte Parteien. Dies führte unter anderem dazu, dass die Europawahl insbesondere in der Medienberichterstattung mit dem Begriff „Schicksalswahl“ in Verbindung gebracht wurde (Frankenberger 2019, Hütt 2019; Joeres und Götze 2019; Krupa 2019; Schiltz und Crolly 2019; Holtz-Bacha 2020; Leidecker-Sandmann und Wilke 2020; Schenuit 2019).

Vor dem Hintergrund der dadurch gewachsenen öffentlichen Wahrnehmung des Europawahlkampfes im Vergleich zu den vorangegangenen Jahren, stellt sich für die vorliegende Studie aus inhaltlicher Perspektive die Frage, ob bei der Europawahl 2019 wie bei ihren Vorgängerinnen von einer Second-Order Election (Reif und Schmitt 1980; Irwin 1995; Hrbek 2011; Träger 2015) oder Nebenwahl gesprochen werden kann. Ein Großteil bisheriger Studien attestiert auch der Europawahl 2019 diesen Second-Order-Charakter (z. B. Träger und Anders 2020; Haußner und Kaeding 2020; Stark et al. 2020; Holtz-Bacha 2020; Haßler et al. 2020). So kann auch mit Blick auf diese aktuellen Studien die Unterscheidung nach First- und Second-Order Election durchaus als eines der meistreferenzierten Konzepte zur Analyse der Bedeutung von Wahlen zum Europäischen Parlament bezeichnet werden (Holtz-Bacha 2016, 2020; Braun und Schmitt 2020; Haßler et al. 2020; Haußner und Kaeding 2020; Stark et al. 2020; Anders and Träger 2020). Dabei geht es darum, ob politische Akteure den Europawahlen im Vergleich zu nationalen Wahlen eine geringere Bedeutung zuschreiben, was sich insbesondere in den Wahlkampagnen zeigt, weil auch „weniger auf dem Spiel steht als bei Wahlen erster Ordnung“ (Holtz-Bacha 2020: S. 2).

Wendet man das Second-Order-Konzept auf die Medienberichterstattung an, muss angenommen werden, dass die Medien den Europawahlen weniger Raum bzw. Sichtbarkeit in der Berichterstattung geben als nationalen Wahlen (Leidecker-Sandmann und Wilke 2020, S. 189; De Vreese et al. 2007, S. 177). Folgt man dieser Annahme, könnte davon ausgegangen werden, dass in der Europawahlberichterstattung eine Dominanz nationaler Themen zu finden ist. Ebenfalls könnte der Nebenwahl-Charakter bedeuten, dass Medien die Wahl aus einer nationalen Perspektive sehen (Kaid et al. 2005, S. 228). Daher soll mit Hilfe des Blended Reading Ansatzes am Beispiel der Spiegel-Online-Berichterstattung untersucht werden, ob eher nationale oder europäische Themen den Wahlkampf 2019 dominierten und es ergeben sich folgende Forschungsfragen: Erstens, in welchem Umfang wird in der Medienberichterstattung von Spiegel Online über die Europawahl 2019 berichtet? Zweitens, welche Themen dominieren in der Berichterstattung zur Europawahl 2019 und lassen sich diese als eher nationale oder eher europäische Themen klassifizieren? Drittens, in welchem Kontext werden Europa/EU-Themen verwendet? Mit Hilfe des Blended Reading Ansatzes wird das Datenmaterial von Spiegel Online im Zeitraum von 1. März 2019 bis 27. Juni 2019 auf diese Fragen hin untersucht.

2 Blended Reading-Ansatz

Um den Herausforderungen, die für die politikwissenschaftliche Forschung durch große Textdatenmengen entstehen, gerecht zu werden und Erkenntnispotentiale ihrer Auswertung auszuschöpfen, ist eine Kombination von Close Reading und Distant Reading sinnvoll. Dafür schlagen Stulpe und Lemke (2016) den Blended Reading Ansatz als Best Practice vor, um halbautomatisierte Analyseverfahren wie Text Mining mit klassischer Textlektüre zu verknüpfen (Stulpe und Lemke 2016, S. 20f).

Die modular aufgebaute Analysestrategie des Blended Reading verbindet die Vorteile computerunterstützter Datenstrukturierung mit interpretativer Analyse von einzelnen Texten, um den wachsenden Herausforderungen von immer größeren und immer fluideren Textdatenmengen in den Sozialwissenschaften gerecht zu werden. Die Bezeichnung des Ansatzes knüpft an die Unterscheidung von Close und Distant Reading an. Beide werden von Blended Reading aufgegriffen, allerdings unter der Voraussetzung, sie nicht als gegensätzliche, sondern als zusammenwirkende Verfahrensweisen zu verstehen. Eine optimale Kombination von menschlichen und computergestützten Fähigkeiten ist unerlässlich, um ein für das sozialwissenschaftliche Erkenntnisinteresse aussage- und tragfähiges Untersuchungsergebnis zu erreichen. Dementsprechend setzt Blended Reading die Verknüpfung von Text-Mining-Verfahren (Distant Reading) „[…] mit der Notwendigkeit, immer wieder Einzeltexte aus relevanten Zeitabschnitten des Untersuchungskorpus gegenzulesen (Close Reading)“ (Stulpe und Lemke 2016, S. 43) voraus.

Der vorliegende Beitrag knüpft an die drei möglichen Verfahrensebenen von Distant Reading Verfahren an. Mit Hilfe der Frequenzanalyse als Verfahren erster Ordnung kann das Textdatenmaterial im Zeitverlauf strukturiert werden, um eine Basis für weitere Analyseschritte zu schaffen. Die Frequenzanalyse relevanter Einzelbegriffe bildet den Beginn der computergestützten Analyse eines Datenkorpus (Stulpe und Lemke 2016, S. 44f), Sie zählt „[…] relative und absolute Häufigkeiten von Schlüsselbegriffen im Untersuchungskorpus, was erste Hinweise auf die Verbreitung von bestimmten sprachlichen Mustern geben kann“ (Wiedemann et al. 2013, S. 109).

Die Kookkurrenzanalyse als Verfahren zweiter Ordnung ebnet den Weg zur inhaltlichen Erschließung des Textdatenbestandes. Dabei werden Begriffe berechnet, „die überzufällig häufig gemeinsam mit einem bestimmten Begriff innerhalb eines Satzes, Absatzes oder Dokuments auftreten“ (Wiedemann et al. 2013, S. 109). Ziel dieser Berechnungen ist der Nachweis von signifikanten Themenwechseln im Textdatenkorpus, um für das jeweilig analysierte Zeitfenster diskursive Brüche oder neu aufkommende Themenfelder aufzuzeigen (Stulpe und Lemke 2016, S. 47ff.).

Auf der dritten Ordnungsebene folgt das Close Reading des durch Distant Reading erster und zweiter Ordnung vorstrukturierten Textkorpus. Dies erfolgt durch manuelle Annotation auf Basis eines Codebuchs. Durch die Kombination der drei Verfahrensebenen soll Blended Reading dazu beitragen, das Verhältnis von Close und Distant Reading – von Detailanalyse und Vogelperspektive auf das Analysematerial – ins Gleichgewicht zu bringen, um den computergestützten quantitativen Methoden mehr Aussagekraft zuzuweisen, da von diesen Verfahren zum aktuellen Zeitpunkt nicht erwartet werden kann, dass sie auf Knopfdruck große Textdatenmengen auswerten und publikationsfertige Ergebnisse liefern (Stulpe und Lemke 2016, S. 53f).

3 Methode und Datenmaterial

In dieser Studie der Online-Medienberichterstattung zur Europawahl 2019 soll an einem bewusst begrenzt gehaltenen Datensatz exemplarisch gezeigt werden, welche Vorteile die Anwendung eines Blended Reading auf durch einen Event-Crawl erhobenen Daten für die politikwissenschaftliche Analyse liefert. Die Untersuchung ist zwar methodisch ausgerichtet, dennoch sind die inhaltlichen Forschungsfragen notwendig und liefern grundlegende Voraussetzungen für die Konzeption des Blended Reading. Die Forschungsfragen lauten wie folgt: Erstens, in welchem Umfang wird in der Medienberichterstattung von Spiegel Online über die Europawahl 2019 berichtet? Zweitens, welche Themen dominieren in der Berichterstattung zur Europawahl 2019 und lassen sich diese in eher nationale oder eher europäische Themen klassifizieren? Drittens, in welchem Kontext werden Europa/EU-Themen verwendet?

3.1 Datenerhebung: Event-Crawl zur Europawahl 2019

Die Archivierung von Websites ermöglicht es, Veränderungen der Kommunikation im Internet zu dokumentieren und zu analysieren. Für die vorliegende Studie wurde ein Webarchiv von Spiegel Online durch einen Event-Crawl erstellt. Eine anlassbezogene Datenerhebung und -archivierung ist unverzichtbar, obwohl kostenlose digitale Bibliotheken existieren – wie beispielsweise das Internet Archive (https://archive.org), das seit 1996 Websites archiviert und online mittels einer Wayback Machine zur Verfügung stellt. Die Nutzung solcher Archive für die Forschung kann problematisch sein, da diese in der Regel automatisiert und nicht für einen spezifisches Forschungsinteresse erstellt sind und dadurch unvollständig sein können (Göler und Reiter 2019, S. 326).

Der Event-Crawl erfolgte im Zeitraum 26. März 2019 bis 27. Juni 2019. Der Zeitraum wurde großzügig gewählt, um die Online-Medienberichterstattung sowohl vor dem Wahltag am 26. Mai 2019 als auch im Nachgang umfassend archivieren und somit nachvollziehen zu können. Grundsätzlich gelten die vier Wochen vor der Wahl als heiße Wahlkampfphase, die in der Regel für Analysen herangezogen werden (Leidecker-Sandmann und Wilke 2020; Reinemann 2013; Woyke 2013). Die Bildung eines digitalen Korpus von urheberrechtlich geschütztem Material für Text und Data Mining ist im Rahmen von wissenschaftlicher Forschung laut Paragraph 60d des UrheberrechtsgesetzesFootnote 5 erlaubt. Somit konnte die Aufgabe des Event-Crawls im Rahmen des DFG-Projekts „Webarchive“ an die Bayerische Staatsbibliothek übertragen werden und die sonst notwendigen Prozesse der Genehmigungseinholung für die Archivierung und Bereitstellung des Korpus entfielen.

Die Daten wurden mit dem Web Curator Tool (WCT) erhoben. Zur Vorselektion des Datenmaterials wurde der Event-Crawl auf die Startseite und die Sonderseite zur Europawahl beschränkt. Diese Spezifizierung war notwendig, um die Belastung der Maschinen und das Datenvolumen zu beschränken und so den hohen Qualitätsstandards der Staatsbibliothek gerecht werden zu können. Inhaltlich ist diese Einschränkung sinnvoll, weil davon ausgegangen wird, dass sich alle Artikel auf der Sonderseite Europawahl auch mit dieser beschäftigen und so aus thematischer Perspektive von einer Vollerhebung gesprochen werden kann (Leidecker-Sandmann und Wilke 2020, S. 185). Anzumerken ist, dass nur die frei zugänglichen und keine kostenpflichten Artikel gecrawlt werden konnten. Die Crawltiefe für die täglichen Crawls betrug zwei Hops, d. h. der WCT folgte Verlinkungen vom Ausgangs-Target aus zwei Ebenen in die Tiefe. So fanden vom 12. April 2019 bis zum 17. Juni 2019 tägliche Crawls der Sonderseite Europawahl statt, außerdem wurden wöchentlichen CrawlsFootnote 6 durchgeführt. Die Startseite wurde zu Beginn der Erhebung mehrmalsFootnote 7 gecrawlt. Insgesamt wurden 95 Zeitschnitte erstellt und als „WebARChiveformat“ (WARC)-Dateien archiviert (109 GB). Das WARC-Format ermöglicht es, mehrere digitale Ressourcen in einer aggregierten Archivdatei mit Metadaten abzulegen.

3.2 Datenextraktion mit Warc2Corpus

Die durch den Event-Crawl generierten WARC-Dateien können mit einer Wayback-Machine geöffnet werden, sodass die archivierte Webseite in dem Zustand betrachtet werden kann, den sie zum Zeitpunkt des Crawls hatte. Diese Ansicht ist allerdings für die Vorgehensweise nach dem Blended Reading-Ansatz nicht ausreichend. Für die Analyse mittels Text Mining Verfahren wird nur ein Bruchteil der gesammelten Daten benötigt, da die WARC-Dateien auch irrelevante Daten wie z. B. Werbung, Header und Footer, Menüs, Bilder und Videos sowie nicht benötigte Informationen wie z. B. CSS, HTML Tags oder Javascript enthalten. Um von den WARC-Dateien an die gewünschten Inhalte zu gelangen, ist ein Extraktionsprozess in mehreren Schritten notwendig. Dafür wurde von den Projektpartnern des Lehrstuhls für Digital Humanities das open-source Tool Warc2Corpus (W2C)Footnote 8 kreiert. Dieses entpackt die komprimierten WARC-Dateien, wählt und verarbeitet alle Records, die HTML-Seiten enthalten, parst die HTML-Header und entpackt die HTML-Inhalte, in Abhängigkeit des im Header definierten Komprimierungsverfahrens. Die Konfiguration besteht hauptsächlich aus sogenannten Extraktoren und ist in Python 3 geschrieben. Ein Extraktor gibt den Namen einer Information an, die ermittelt werden soll, sowie ihre Position innerhalb einer Webseite. Optional kann eine Mapping-Funktion angegeben werden, die auf die extrahierten Daten angewendet wird. Auf diese Weise wurde der Extraktor verwendet, um ein beliebig formatiertes Datum von einer bekannten Stelle innerhalb der Webseite zu erhalten und eine Zeichenkette zu erzeugen, die ein ISO 8601-konformes Datum enthält. Extraktoren können für alle relevanten Informationen definiert werden. Für die vorliegende Studie sind Titel, Veröffentlichungsdatum und Text für jeden Artikel erforderlich. Im Anschluss an die Datenextraktion mittels W2C werden die Artikel dedupliziert, da dieselbe URL bei nachfolgenden Crawls mehrmals besucht worden sein kann, eine Webseite über verschiedene URLs zugänglich gewesen sein kann oder derselbe Inhalt in verschiedenen Versionen für Desktop-Browser und mobile Geräte bereitgestellt worden sein kann.

3.3 Datenanalyse mittels iLCM

Schließlich können die extrahierten Artikel im csv-Format als Eingabedaten für den iLCM verwendet werden. Mittels dieser Serveranwendung kann das komplette Blended Reading Verfahren – von der Vorstrukturierung und ersten Analyse mittels Distant Reading bis hin zur manuellen Analyse im Close Reading – durchgeführt werden. In der csv-Datei, die zur Analyse in den iLCM eingelesen wird, befinden sich 8285 Artikel sowie Metadaten: ID (laufende Nummer), meta.name (Spiegel Artikel), meta.issuer (URL), meta.type (Artikel), meta.created_at (Crawl-Zeitpunkt), data.released_at.value (Datum der Artikel-Veröffentlichung), meta.target.netloc (www.spiegel.de), data.title.value (Titel), data.body.value (Text).

Der iLCMFootnote 9 ist eine Weiterentwicklung des Leipzig Corpus Miner (LCM), einer modularen Serveranwendung zur Auswertung sehr großer Textdatenmengen, die nach dem Grundsatz „software as a service“ (SaaS) Berechnungen serverseitig durchführen und dem Nutzer über einen Webbrowser dargestellt werden. Im Einzelnen beziehen sich diese Teile auf Datenverarbeitung, Datenhaltung, Datenzugriff und Datenpräsentation. Mit Hilfe des iLCM können verschiedene Text-Mining-Verfahren sowohl für den Zugriff als auch die Verwaltung, Analyse und Visualisierung auf Dokumentenkorpora angewandt werden. Die Verfahren können jeweils einzeln oder in Kombination als Analyseworkflows angewandt werden. Es ist zu unterscheiden zwischen Verfahren, die direkt aus dem Gesamtkorpus abgefragte Ergebnisse liefern und Verfahren, denen komplexere Berechnungen zugrunde liegen und die somit nur auf Subkorpora (Collections) der Grundgesamtheit an Analysedaten ausgeführt werden. Collections können in der Datenbank separat angelegt und abgespeichert werden (Wiedemann und Niekler 2016, S. 72).

Im ersten Analyseschritt des Distant Reading wir für die vorliegende Studie auf Basis der 8285 Spiegel-Online Artikel, deren Veröffentlichungsdatum sich vom 1. März 2019 bis 27. Juni 2019 erstreckt, zunächst eine Dokumentenselektion mittels komplexer Volltextsuche durchgeführt. Durch die Filterung des Datenmaterials nach bestimmten Suchbegriffen können Subkorpora (Collections) angelegt werden. Dieser Schritt ist für die Arbeit mit dem iLCM notwendig, da Collections die Datengrundlage für die weiteren Analysen bilden. Das Korpus aus 8285 Artikeln hat durch die Spezifikation des Event-Crawls auf die Sonderseite Europawahl schon einen grundlegenden Bezug zur Europawahl. Auf Basis von Identifikationswörtern, die von Schmidt (2019, S. 253) und Adrian (2020, S. 222f) entwickelt wurden, werden dieser Bezug weiter spezifiziert und die technischen Voraussetzungen für die weiteren Schritte mit dem iLCM geschaffen. Die komplexe Volltextsuche wurde mit dem Suchstring „Europawahl*#EU*Wahl*#EU*Partei*#Kandidat*“Footnote 10 durchgeführt. Das Suchergebnis liefert 1017 Artikel und wurde in der Collection „SpezifikationEuropawahl“ abgespeichert.

Die Frequenzanalyse ist im Sinne des Blended-Reading-Ansatzes ein Analyseverfahren erster Ordnung. Sie wird als zweiter Analyseschritt des Distant Reading durchgeführt und dient der Strukturierung des Textdatenmaterials (Stulpe und Lemke 2016, S. 44). Als basales Text Mining Verfahren berechnet sie „[…] relative und absolute Häufigkeiten von Schlüsselbegriffen im Untersuchungskorpus, was erste Hinweise auf die Verbreitung von bestimmten sprachlichen Mustern geben kann“ (Wiedemann et al. 2013, S. 109). Die Artikel einer Collection werden nach den Einstellungen der linguistischen Vorverarbeitungskette des LCM tokenisiert und diese Tokens in Relation zu den Erscheinungsdaten der einzelnen Artikel gezählt. Dies ermöglicht die Visualisierung der Frequenzen von Schlüsselbegriffen in Zeitreihen (Wiedemann und Niekler 2016, S. 76). Die Frequenzanalyse schafft somit Einstiegspunkte für Close Reading, indem sie Begriffshäufungen oder das Abebben dieser Häufungen aufzeigt, die Datenstrukturierung insbesondere auf zeitlicher Ebene vereinfacht und Anhaltspunkte für nachfolgende Analysen bietet (Stulpe und Lemke 2016, S. 45). So kann das Auftreten eines Begriffs im Zeitverlauf als Graph dargestellt und tagesgenau angezeigt werden, wann dieser in der Collection vorkommt. Dies lässt dann Rückschlüsse auf die Begriffsverwendung zu. Beispielsweise kann ein Begriff, der in einem bestimmten Zeitabschnitt häufig auftritt, zu diesem Zeitpunkt entweder besonders relevant oder auch besonders umstritten gewesen sein (Lemke 2014, S. 5).

Die Kookkurrenzanalyse berechnet im Sinne des Blended Reading Ansatzes als Verfahren zweiter Ordnung „signifikant überzufällig häufig miteinander auftretende Begriffe innerhalb von Sätzen, Absätzen oder Dokumenten“ (Wiedemann und Niekler 2016, S. 11). Sie wird als dritter Analyseschritt zum Distant Reading angewendet und bietet die Möglichkeit, den typischen Gebrauchskontext eines Wortes innerhalb einer Collection zu untersuchen. Darüber hinaus ermöglicht der Vergleich von Gebrauchskontexten im Zeitverlauf Rückschlüsse auf den semantischen Gehalt des analysierten Begriffs (Wiedemann et al. 2013, S. 109). Das Verfahren kommt dann zum Einsatz, wenn die Eignung des Textdatenkorpus durch die vorausgehende Frequenzanalyse als Verfahren erster Ordnung bestätigt wurde (Stulpe und Lemke 2016, S. 48). Über die reine Wortfrequenzzählung hinausgehend visualisieren die netzwerkähnlichen Kookkurrenzgraphen die Häufigkeit des gemeinsamen Auftretens mehrerer Worte in einer Collection. Dabei sind zwei Analyseleistungen des Verfahrens vordergründig: Zum einen erfolgt durch die Analysealgorithmen die Berechnung eines semantischen Netzes, durch das die Bestimmung des globalen Verwendungskontextes eines Begriffs möglich ist. Dementsprechend wird nicht nur festgestellt, ob ein Begriff zu einem Zeitpunkt vorkommt oder nicht, sondern auch, welche anderen Begriffe signifikant häufig gemeinsam mit diesem Begriff vorkommen. Dies erlaubt inhaltliche Rückschlüsse auf die Wortverwendung. Zum anderen kann durch den Vergleich mehrerer Kookkurrenzgraphen im Zeitverlauf auch ein möglicher Wandel des Gebrauchskontextes eines Begriffes analysiert werden (Stulpe und Lemke 2016, S. 48). Darüber hinaus bietet der iLCM die Möglichkeit, die einzelnen Worte als Keywords in Context (KWIC) anzeigen zu lassen. In den Parametereinstellungen können verschiedene Worte angegeben werden, deren gemeinsames Auftreten in den jeweiligen Dokumenten angezeigt werden. Die Länge des jeweiligen Kontexts ist frei wählbar, es wird der Titel des Dokuments angezeigt und das gesamte Dokument kann betrachtet werden. Eine manuelle Annotation ist zwar nicht möglich, dennoch handelt es sich hier um eine basale Form des Blended Reading, um die ersten Eindrücke aus dem mit Distant Reading berechneten Kookurrenzgraphen mit Close Reading zu bestätigen oder zu wiederlegen.

Im Rahmen der vorhergehenden Analyseschritte des Distant Reading werden Einstiegspunkte für das Close Reading in der Collection gesammelt. Die daraus resultierenden Texte werden im vierten Analyseschritt mittels der Funktion Manuelle Annotation im iLCM auf Basis des Codebuchs (Tab. 1) annotiert. Der iLCM bietet zu diesen Zwecken die Möglichkeit der Erstellung von hierarchischen Kategoriensystemen und deren Anwendung auf das Textkorpus. Grundlage für das Codebuch bilden zunächst vier Kategorien, die mittels der Ergebnisse aus den ersten drei Analyseschritten ergänzt werden. Mit der ersten Kategorie „Europawahl“ werden alle Passagen in den Artikeln identifiziert, die Aussagen zur Europawahl 2019 enthalten. Diese Kategorie ermöglicht eine Konkretisierung, in welchem Umfang in der Medienberichterstattung von Spiegel Online über die Europawahl 2019 berichtet wird. Die zweite Kategorie „Spezifikation Europawahl“ konkretisiert die erste Kategorie und misst anhand der Variablen „Wahlkampf“, „Ereignis“, „Kandidat“, ob eher über den Wahlkampf im Allgemeinen, das Ereignis der Wahl, oder einen bzw. mehrere Kandidaten berichtet wird.

Tab. 1 Codebuch für das Close Reading in Analyseschritt 4

Die dritte Kategorie „Themen“ stellt anhand der Variablen „europäische Themen“, „deutsche Themen“ und „Themen anderer Staaten“ fest, ob die Inhalte eher der europäischen oder der nationalen Ebene zugeschrieben werden können. Die vierte Kategorie „Einstellungen zur EU“ ist nach Bartolini (2005) gebildet worden. Bartolini unterscheidet in Bezug auf die Diskussionen über die Europäische Union analytisch zwischen den generellen Einstellungen zur EU, den konstitutiven Fragen (constitutive issues) sowie den policy- beziehungsweise politikfeldspezifischen Fragen (isomorphic issues) (Bartolini 2005, S. 310). Demnach misst die Variable „generelle Einstellungen zur EU“ die Befürwortung oder Ablehnung der Europäischen Union und des Integrationsprozesses. Die Variable „constitutive issues“ misst, ob es um konstitutive Dimensionen der EU geht. Dazu zählt beispielsweise, welche Staaten der EU angehören, welche Kompetenzen die EU besitzt und welche Entscheidungsregeln gelten sollen. Die Variable „isomorphic issues“ misst, ob es um europäische Policies geht, also Prioritäten und Lösungsansätze für politische Probleme.

4 Befunde

4.1 Analyseschritt eins – Distant Reading: Dokumentenselektion durch komplexe Volltextsuche

Mittels komplexer Volltextsuche als ersten grundlegenden Analyseschritt mit dem iLCM wurde am Korpus bestehend aus 8285 Spiegel-Online Artikeln, die zwischen dem 1. März 2019 und dem 27. Juni 2019 veröffeßntlicht wurden, eine Dokumentenselektion auf den Suchstring „Europawahl*#EU*Wahl*#EU*Partei*#Kandidat*“ durchgeführt und die Collection „SpezifikationEuropawahl“ erstellt. Diese enthält 1017 Artikel.

Das Gesamtkorpus aus 8285 Artikeln hat durch die Fokussierung des Event-Crawls auf die Sonderseite Europawahl schon einen grundlegenden Bezug zur Europawahl. Dieser basiert auf der Zuordnung durch Spiegel Online. Anhand der spezifischen Begriffe des Suchstrings wird davon ausgegangen, dass die Artikel der Collection die Europawahl thematisieren und ein unmittelbarer Bezug zur Wahl besteht (Adrian 2020; Leidecker-Sandmann und Wilke 2020). Aus dem ersten Analyseschritt kann geschlossen werden, dass etwa 12 % der Medienberichterstattung auf Spiegel-Online im Untersuchungszeitraum die Europawahl direkt thematisieren. Bildet man die Anzahl der Artikel je Tag auf einer Zeitreihe ab, können erste Schlüsse über die Frequenz der Spiegel Online-Artikel, die über die Europawahl 2019 berichten, geschlossen werden.

Abb. 1 zeigt die absolute Häufigkeit an Artikeln, die durch den Suchstring „Europawahl*#EU*Wahl*#EU*Partei*#Kandidat*“ gefiltert wurden. Im iLCM wird ebenfalls angezeigt, wie viele Artikel je Tag erschienen sind. Dabei lassen sich 36 Peaks feststellen, die jeweils mindestens zehn Artikel enthalten. Diese bieten im weiteren Verlauf des Blended Reading, die Einstiegspunkte für das Close Reading, da der iLCM den unmittelbaren Zugriff auf die Artikel ermöglicht. Mit Blick auf Abb. 1 fällt auf, dass sich die höchsten Peaks auf den Tag der Europawahl in DeutschlandFootnote 11 und die Tage davor und danach verteilenFootnote 12. Dies lässt darauf schließen, dass das Thema Europawahl zu diesen Zeitpunkten eine größere Rolle gespielt und mehr Präsenz in der Medienberichterstattung erhalten hat. Damit liefert der erste Analyseschritt Aufschluss darüber, in welchem Umfang in der Medienberichterstattung von Spiegel Online über die Europawahl 2019 berichtet wurde und gibt erste Anhaltspunkte für die Beantwortung der ersten Forschungsfrage.

Abb. 1
figure 1

iLCM: Absolute Häufigkeit der Artikel aus der Collection „SpezifikationEuropawahl“ im Zeitverlauf

4.2 Analyseschritt zwei – Distant Reading: Frequenzanalyse

Die Frequenzanalyse wurde auf Basis der Collection „SpezifikationEuropawahl“ durchgeführt. Dafür wurde die Berechnung im Task Scheduler des iLCM konkretisiert und die Parameter eingestellt. Von besonderer Bedeutung ist der Ausschluss sogenannter „Custom Words“, auch Stoppwörter genannt, um das Analyseergebnis nicht durch diese in einem Text sehr häufig auftretenden Worte (z. B. der, die, das) zu verfälschen, da sie in der Regel keine Relevanz für die Interpretation der Analyseergebnisse besitzen. Grundlage für die in der Analyse verwendete Custom Word-Liste ist die auf Github verfügbare „Stopword List German“Footnote 13 mit 594 Wörtern, die manuell um Worte wie „spiegel“ oder „online“ auf 600 Wörter erweitert wurde. Die nachfolgend diskutierten Ergebnisse der Frequenzanalyse beziehen sich auf die absoluten Häufigkeiten auf Wortebene.

Abb. 2 zeigt Häufungen und Abebben des Begriffs „europawahl“ an. In der Spiegel-Online-Berichterstattung wurde am Tag der Europawahl (26. Mai 2019) sowie an den beiden darauffolgenden Tagen die Europawahl am häufigsten genannt. Einen Peak erreichen die Worthäufungen am 27. Mai 2019: In 46 Artikeln trat der Begriff „europawahl“ 124 Mal auf. Dies zeigt, dass am Tag nach der Wahl besonders viel über diese berichtet wurde.

Abb. 2
figure 2

Frequency Time Series Plot des Begriffs „europawahl“

Die Betrachtung der 30 am häufigsten in der Collection auftretenden Worte liefert einen ersten Überblick der verschiedenen Begriffe, die im Kontext der Berichterstattung über die Europawahl verwendet wurden. Dies lässt erste Schlüsse auf die Verbreitung von sprachlichen Mustern und Themenkontexten zu. Die Liste der Top-30-Wortfrequenzen ist in Tab. 2 abgebildet.

Tab. 2 Top-30-Wortfrequenzen der Collection „SpezifikationEuropawahl“

Die Liste der Top-30-Begriffe lässt auf einen klaren Zusammenhang der Berichterstattung mit der Europawahl schließen. So befinden sich die Begriffe „eu“, „europawahl“, „wahl“ und „europa“ in den Top sieben. Darüber hinaus wird das Wort „partei“ am häufigsten verwendet, und auch der Plural „parteien“ ist in den Top 30. Ebenfalls tauchen die deutschen Parteien SPD („spd“), Bündnis 90/Die Grünen („grünen“), AfD („afd“) sowie die Union („union“) unter den ersten zehn Begriffen auf, die SPD ist sogar auf Platz 2 der häufigsten Begriffe. Ebenfalls wird das Wort „weber“, das mit hoher Wahrscheinlichkeit für den CSU-Politiker und EVP-Spitzenkandidaten Manfred Weber steht, sowie die Begriffe „parlament“, „europäischen“, „stimmen“ und „kandidaten“ verwendet, die in unmittelbarem Zusammenhang zur Europawahl stehen.

Die Frequenzanalyse liefert einen ersten Überblick über das Untersuchungsmaterial in der Collection und gibt somit Hinweise für die Beantwortung der zweiten Forschungsfrage. Es können erste Rückschlüsse darauf gezogen werden, welche Themen in der Spiegel-Online-Berichterstattung zur Europawahl 2019 dominieren und ob sich diese in eher nationale oder eher europäische Themen klassifizieren lassen. Der Kontext, in dem über die Europawahl berichtet wird, wirkt eher national als europäisch. Dafür spricht neben der häufigen Verwendung von „deutschland“ auch, dass nur die deutschen Parteien in den Top 30 auftreten und nicht etwa europäische Fraktionen. Ebenfalls werden abgesehen von Manfred Weber nationale Politikerinnen wie die damalige Bundeskanzlerin und CDU-Politikerin Angela Merkel („merkel“) sowie die damalige CDU-Parteichefin Annegret Kramp-Karrenbauer („kramp-karrenbauer“) häufig genannt. Der Begriff „nahles“ steht für die damalige Partei- und Bundestags-Fraktionsvorsitzende der SPD Andrea Nahles, die aufgrund der schlechten Ergebnisse der SPD bei der Europawahl am 2. Juni 2019 bekannt gab, dass sie von ihren Parteiämtern zurücktreten würde, und dies am 3. und 4. Juni 2019 tat. Dazu tritt „berlin“ häufiger auf als „brüssel“. Somit liegt hier ein klar nationaler Bezug vor, nichtsdestotrotz kann anhand der Top-30-Frequenzen auch eine Verbindung zum Brexit hergestellt werden. Denn der Begriff „may“ lässt auf die damalige britische Premierministerin Theresa May schließen, die bis zum 24. Juli 2019 im Amt war.

Mit Blick auf die Frequency Time Series Plot der Begriffe „spd“, „grünen“, „afd“ und „union“ kann auf die Zeitpunkte ihres Auftretens geschlossen werden. So werden die Parteien am häufigsten in den Tagen vor und nach dem Wahltag erwähnt. Dies erscheint in Bezug auf die Berichterstattung über die Europawahl plausibel. Die höchste Frequenz des Wortes „spd“ ist am Wahltag, dem 26. Mai 2019, und dem Tag danach, sowie am 2. und 3. Juni 2019. Letzteres lässt auf einen direkten Zusammenhang mit dem Rücktritt von Andrea Nahles schließen, da die Frequenzen des Begriffes „nahles“ am 2. und 3. Juni 2019 ihren Höchststand erreichen.

Zur Beantwortung der dritten Forschungsfrage, in welchem Kontext Europa/EU-Themen verwendet werden, gibt der Frequency Time Series Plot der Begriffe „eu“ und „europa“ in Abb. 3 eine erste Einschätzung. Beide Begriffe sind in der Time Series so verteilt, dass kein explizites Muster in Verbindung mit der Europawahl erkannt werden kann. Der Peak (86 Auftritte) des Begriffes „europa“ liegt beispielsweise am 9. Mai 2019, dem Europatag. Weiterhin wurde der Begriff am 12. Mai 2019 (48), am 16. Mai 2019 (47) und am 5. März 2019 (43) häufig verwendet. Der Peak des Begriffs „eu“ ist am 24. Mai 2019 (61). Daraus könnte ein Zusammenhang zur Wahl geschlossen werden. Am zweithäufigsten tritt „eu“ am 21. März 2019 (60) auf – an diesem Tag tagte der Europäische Rat zur Fristverlängerung für den Brexit (Abb. 3).

Abb. 3
figure 3

Frequency Time Series Plot der Begriffe „eu“ und „europa“

Allerdings reicht die Frequenzanalyse nicht aus, um stichhaltige Anhaltspunkte für die dritte Forschungsfrage zu erhalten. Daher ist der dritte Analyseschritt der Kookkurrenzanalyse für die Konkretisierung des Verwendungskontextes unabdingbar.

4.3 Analyseschritt drei – Distant Reading: Kookkurrenzanalyse

Im dritten Analyseschritt wurde die Kookkurrenzanalyse auf Basis der Collection „SpezifikationEuropawahl“ durchgeführt. Auch hier mussten die Parameter im Task Scheduler des iLCM eingestellt werden. Die Custom Words wurden anhand der bereits verwendeten Liste entfernt. Die Ergebnisse der Kookkurrenzanalyse gehen über die der Frequenzanalyse hinaus, da auf Basis der Liste mit den am häufigsten in der Collection auftretenden Worten in einem Graphen die Häufigkeit des gemeinsamen Auftretens mehrerer Worte dargestellt wird. Nachfolgend sollen Schlüsselbegriffe der Top-30-Wortfrequenzen näher betrachtet werden, um anhand der Berechnung der signifikant häufig gemeinsam auftretenden Begriffe Rückschlüsse auf den Verwendungskontext zu ziehen. Dabei geht es neben der vertiefenden Beantwortung der zweiten Forschungsfrage, welche Themen in der Spiegel-Online-Berichterstattung zur Europawahl 2019 dominieren und ob sich diese in eher nationale oder eher europäische Themen klassifizieren lassen, um die Beantwortung der dritten Forschungsfrage und somit die Darstellung des Kontextes, in dem Europa/EU-Themen verwendet werden.

Zur Feststellung der Themen, die in der Berichterstattung von Spiegel-Online direkt im Zusammenhang mit der Europawahl 2019 stehen, ist ein Blick auf den Kookkurrenzgraphen des Begriffs „europawahl“ notwendig (Abb. 4). Dieser tritt in den Top-30-Wortfrequenzen mit 1137 Zählern am vierthäufigsten auf. Der Graph zum Wort „europawahl“ zeigt vier deutliche große Themencluster: „mai“ liefert den Zeitpunkt der Wahl; „ergebnis“ lässt auf die Berichterstattung nach Ermittlung des Wahlergebnisses und auf eine Einordnung dieser Ergebnisse schließen; „spitzenkandidat“ stellt eine Verbindung zur Berichterstattung über das Spitzenkandidatenmodell dar, woraus sich ein klarer EU-Fokus ableiten lässt, und „teilnehmen“-„briten“-„großbritannien“ bezieht sich eindeutig auf die Teilnahme Großbritanniens an der Wahl vor dem Hintergrund des Brexits.

Abb. 4
figure 4

Kookkurrenzgraph des Begriffs „europawahl“

Zur Überprüfung des Eindrucks, der durch den Kookkurrenzgraphen entsteht, werden der Begriff „europawahl“ und jeweils die vier Begriffe der großen Knotenpunkte als KWIC betrachtet. Der Begriff „mai“ tritt zusammen mit „europawahl“ in 153 Sätzen auf. Eine Stichprobenziehung von 25 Sätzen bestätigt den Eindruck, dass es sich dabei um den Zeitpunkt der Wahl handelt. Die KWIC-Ergebnisse von „europawahl“ und „ergebnis“ führen zu 61 gemeinsamen Sätzen. Die Stichprobe von 25 Sätzen verdeutlicht, dass es sich jeweils entweder um Prognosen oder Berichte über das Wahlergebnis handelt. Betrachtet man „europawahl“ und „spitzenkandidat“ als KWIC, verändert sich der erste Eindruck aus der reinen Betrachtung des Kookkurrenzgraphen. In den 58 Sätzen wird der Begriff Spitzenkandidat immer in Verbindung mit einer der Personen genannt, die als Spitzenkandidat auftraten – allein in 21 Sätzen handelt es sich um den EVP-Spitzenkandidaten Manfred Weber. Es scheint in der Berichterstattung also weniger um das Spitzenkandidatenmodell an sich zu gehen, sondern eher um Bestätigung seiner Existenz durch die Ergänzung des Kandidatenstatus bei der Berichterstattung über den jeweiligen Politiker. Schließlich werden „europawahl“ und „teilnehmen“ in 51 Sätzen als KWIC angezeigt. In 46 dieser Sätze geht es um den Brexit und die im Vorfeld der Europawahl 2019 geführte Diskussion darüber, dass die britische Bevölkerung im Falle eines nicht rechtzeitigen Austritts aus der EU noch an der Europawahl teilnehmen müsse, was letztendlich eintrat (Abb. 4).

Aufbauend auf den Erkenntnissen aus dem Kookkurrenzgraph „europawahl“ wird die Bedeutung des Brexits im Kookkurrenzgraphen des Begriffes „eu“ weiter verdeutlicht (Abb. 5). Hier besteht eine eindeutige Verknüpfung des Begriffs zum Brexit-Thema: Die vier größten Knoten bestehen aus den Begriffen „briten“, „großbritannien“, „may“ und „austritt“. Diese wiederum sind eindeutig mit Worten verbunden – darunter auch „brexit“ – die darauf schließen lassen, dass die Entwicklungen rund um den Brexit in der Spiegel-Online-Berichterstattung konkret thematisiert werden. So wird „may“, das für Theresa May steht zusammen mit „abkommen“, „britische“, „premierministerin“, „theresa“ und „unterhaus“ erwähnt. Hier lässt sich eine eindeutige Personalisierung auf die damalige britische Premierministerin und die Berichterstattung über ihre Entscheidungen und Statements feststellen. Das Wort „austritt“ zeigt im Kookkurrenzgraphen eine enge Verbindung zu „einigung“, „frist“, „abkommen“ und „großbritanniens“, die beide wiederum eng mit dem „may“-Knoten verknüpft sind. Der Knoten „großbritannien“ zeigt eine Verbindung zu „verlängerung“ und „frist“, „verlassen“, „Frankreich“ und „teilnehmen“. Mit letzterem wird eine Verbindung zum Knoten „mai“ geschaffen. Dies lässt darauf schließen, dass einerseits die Diskussion aufgegriffen wurde, wann Großbritannien die EU verlässt und andererseits die Auswirkungen auf die Teilnahme an der Europawahl thematisiert wurde. Die KWIC-Berechnungen des Begriffs „eu“ jeweils mit den großen Knoten „briten“ (78 Sätze), „großbritannien“ (99 Sätze), „austritt“ (42 Sätze) und „may“ (70 Sätze) bestätigen den Eindruck, der in der Betrachtung des Kookkurrenzgraphen gewonnen wurde. In allen Artikeln der gezogenen Stichprobe ist der Brexit das Thema. Die Betrachtung von KWIC der Begriffe „eu“ und „may“ zeigt darüber hinaus eine Berichterstattung über die Folgen des Brexits für die damalige britische Premierministerin.

Abb. 5
figure 5

Kookkurrenzgraph des Begriffs „eu“

Vor dem Hintergrund, dass die Collection nach einem Europawahl-spezifischen Suchstring gefiltert ist, kann auf Basis der Ergebnisse geschlossen werden, dass der Brexit in der Spiegel-Online-Berichterstattung zur Europawahl 2019 eine große Rolle gespielt hat. Dies bedeutet mit Blick auf die dritte Forschungsfrage, dass die EU eindeutig im Kontext des Brexits erwähnt wird (Abb. 5).

Im Vergleich zum Kookkurrenzgraphen „eu“ zeigt der Graph des Begriffes „europa“ (Abb. 6) ein anderes Bild. Der Verwendungskontext könnte den Unterschied der EU als „Zusammenschluss demokratischer europäischer Staaten“ (Europäisches Parlament: Verbindungsbüro in Deutschland, 2022) und Europa als Kontinent verdeutlichen. Die vier größten Knoten bestehen aus den Begriffen „bürger“, „ziel“, „nationen“ und „macron“. Auf den ersten Blick ist hier weder ein Bezug zum Brexit noch zur Europawahl oder deutschen innenpolitischen Themen sichtbar. Der Knoten „bürger“ ist unmittelbar mit dem Knoten „ziel“ verbunden. Beide Worte treten mit Kontext mit Begriffen wie „humanitären“, „vernunft“ oder „notwendigen“ auf. Die reine Betrachtung des Kookkurrenzgraphen ist an dieser Stelle nicht besonders aufschlussreich. Ein Blick auf die KWIC-Ergebnisse zeigt allerdings, dass ich die beiden großen Knoten Aussagen des CDU/CSU-Wahlprogramms zur Europawahl 2019 beziehen. So treten „europa“ und „bürger“ in 20 Sätzen gemeinsam auf und beziehen sich insbesondere auf die Aussage „Sicherheit und Freiheit: Unser Europa schützt seine Bürger“ (CDU/CSU 2019, S. 14) des Unions-Wahlprogramms, das in der Berichterstattung zitiert wird. Ähnliches gilt für „europa“ und „ziel“, die in 19 Sätzen gemeinsam vorkommen und ebenfalls überwiegend aus dem Wahlprogramm der Union stammen. Der Knoten „nationen“, verbunden mit Begriffen wie „vereinten“, „ständiger“ und „sicherheitsrat“, lässt die Vermutung zu, es handele sich um Berichterstattung über den Sicherheitsrat der Vereinten Nationen, allerdings bezieht sich dieser Knoten inhaltlich ebenfalls auf das CDU/CSU-Wahlprogramm, und zwar insbesondere auf Kapitel 2.3 „Unser Europa schaff Frieden“ (CDU/CSU 2019, S. 16), in dem auch die Forderung nach einem ständigen Sitz im Sicherheitsrat der Vereinten Nationen genannt wird (CDU/CSU 2019, S. 17). So treten laut KWIC-Berechnungen „europa“ und „nationen“ in 15 Sätzen gemeinsam auf. Insgesamt ist somit auffallend, dass in der Spiegel-Online-Berichterstattung zum Thema Europa in der Europawahl 2019 Aussagen aus dem Unions-Wahlprogramm im Mittelpunkt stehen. Einschätzungen aus redaktioneller Sicht zum Thema Europa sind so wenig verbreitet, dass sie durch das Kookkurrenzverfahren nicht abgebildet werden. Lediglich der Knoten „macron“ bezieht sich auf ein anderes Themengebiet. Es wird ein deutlicher Bezug zu Frankreichs Staatspräsident Emmanuel Macron abgebildet. Die Überprüfung mit KWIC zeigt, dass „europa“ und „macron“ in 23 Sätzen gemeinsam genannt wird, alle diese Sätze thematisieren Aussagen Macrons über Europa (Abb. 6).

Abb. 6
figure 6

Kookkurrenzgraph des Begriffs „europa“

Die Ergebnisse der Kookkurrenzanalyse und deren Blended Reading-Überprüfung mit KWIC ergänzt die Ergebnisse der Frequenzanalyse zur dritten Forschungsfrage, in welchem Kontext Europa/EU-Themen verwendet werden. Während sich die Kookkurrenzen des Begriffs „eu“ auf den Brexit beziehen und es somit um den europäischen Kontext geht, stellen die Kookkurrenzen des Begriffs „europa“ – abgesehen von der Verbindung zu Emmanuel Macron – eine deutliche Verbindung zum Wahlprogramm von CDU/CSUher, in denen es um die Definition der Rolle Europas für seine Bürger geht.

4.4 Analyseschritt vier – Close Reading: Volltextzugriff und Annotationen auf Basis des Codebuchs

Die 36 Peaks, die in der Time Series der Collection „SpezifikationEuropawahl“ ermittelt wurden, liefern die Grundlage für die Einstiegspunkte in das Close Reading, da der iLCM den unmittelbaren Zugriff auf die jeweiligen Artikel ermöglicht. Um auf dieser Basis eine Stichprobe aus der Collection ziehen zu können, werden die sieben Peak-Zeitpunkte herangezogen, an denen die Anzahl der Artikel bei mindestens 18 liegtFootnote 14. Insgesamt besteht die Stichprobe aus 206 Artikeln. Somit werden nach einer Filterung mittels komplexer Volltextsuche etwa 20 % (20,26 %) der Artikel mit klassischer Textlektüre betrachtet.

Grundlage für die Annotation bildet das in Kapitel 3.3 beschriebene Codebuch (Tab. 1), das auf Basis der bisherigen Analyseergebnisse um die Kategorie fünf „Brexit“ erweitert wird. Diese misst, ob der Brexit in der Berichterstattung thematisiert wird und dient der näheren Überprüfung der Ergebnisse aus der Kookkurrenzanalyse, die in Bezug auf den Begriff „eu“ eine deutliche Verbindung zu Berichterstattung über den Brexit konstatieren Jede Kategorie kann pro Artikel ein Mal vergeben und jedem Artikel können beliebig viele Kategorien einfach zugeteilt werden.

Auf Basis des Codebuchs wurden in den 206 Artikeln im iLCM nach klassischer Textlektüre insgesamt 813 Annotationen auf Artikelebene vorgenommen. Für einen ersten Überblick der Close Reading-Ergebnisse werden in Abb. 7 die Anzahl an Annotationen je Kategorie abgebildet.

Abb. 7
figure 7

Anzahl der Annotationen je Kategorie

Die Ergebnisse der manuellen Annotation liefern Rückschlüsse für die zweite Forschungsfrage, welche Themen in der Spiegel-Online-Berichterstattung zur Europawahl 2019 dominieren und ob sich diese in eher nationale oder eher europäische Themen klassifizieren lassen. Zunächst zeigen die Annotationen zur ersten Kategorie „Europawahl“, dass in 86,4 % der Artikel aus der Stichprobe auch tatsächlich die Europawahl thematisiert wird. Vor dem Hintergrund, dass die Erstellung des Korpus auf der Spiegel-Online-Sonderseite zur Europawahl basiert und die Collection durch komplexe Volltextsuche mit dem Suchstring „Europawahl*#EU*Wahl*#EU*Partei*#Kandidat*“ erstellt wurde, ist dies ein Ergebnis, das durchaus Fragen aufwirft. So geht es laut des durchgeführten Close Readings immerhin in 13,6 % der Artikel von der Spiegel-Online-Sonderseite nicht um die Europawahl. Weshalb diese Artikel dennoch der Sonderseite „Europawahl“ zuteilt wurden, ist bleibt allerdings unklar. So landeten beispielsweise auch Berichte zu den Bürgermeisterwahlen in Istanbul vom 23. Mai 2019 auf der Sonderseite sowie ein Bericht über den US-Kosmetikkonzern Avon vom 24. Mai 2019. Im Zusammenhang mit der Europawahl zeigen die Annotationen mit der zweiten Kategorie „Spezifikation Europawahl“, dass vor allem das Ereignis der Wahl thematisiert wird. 175 von 206 Artikeln beziehen sich auf dieses, nur 26 auf den Wahlkampf und 57 auf einen oder mehrere Kandidaten. Dabei ist festzuhalten, dass eine Mehrfach-Zuteilung je Artikel möglich war.

Bei der dritten Kategorie „Themen“ zeigt sich, dass deutsche Themen mit 108 Annotationen am häufigsten auftreten, gefolgt von 73 Annotationen zu Themen anderer Staaten und 54 Annotationen zu europäischen Themen. 35,19 % dieser europäischen Themen (19 Annotationen) treten gemeinsam mit deutschen Themen auf und 42,59 % (23 Annotationen) mit Themen anderer Staaten. Vier Mal kommen in einem Artikel sowohl europäische als auch nationale Themen (Deutschland und andere Staaten) zur Sprache. Somit werden europäische Themen nur 16 Mal (7,77 % der Artikel) eigenständig betrachtet. In Hinblick auf die zweite Forschungsfrage fiel bereits bei der Frequenzanalyse auf, dass eher im nationalen Kontext über die Europawahl berichtet wird. Dies wird durch das Close Reading mittels manueller Annotation bestätigt. Die Inhalte der Berichterstattung können eher der nationalen als der europäischen Ebene zugeschrieben werden.

Die Ergebnisse der Annotationen zur vierten Kategorie „Einstellungen zur EU“ lassen darauf schließen, dass es in Bezug auf die Diskussionen über die EU eher um allgemeine Einstellungen geht (79 Annotationen) und weniger um konstitutiven Themen zur EU (32 Annotationen). Die allgemeinen Einstellungen zur EU werden in 38,35 % der Stichproben-Artikel thematisiert. Das ist deutlich unter der Hälfte und bekräftigt das Ergebnis, dass nationale Themen eine größere Rolle als europäische Themen spielen. Europäische Policies, also Prioritäten und Lösungsansätze für politische Probleme, spielen fast keine Rolle (4 Annotationen).

In Bezug auf die dritte Forschungsfrage, in welchem Kontext Europa/EU-Themen verwendet werden, bietet der vierte Analyseschritt nur wenig Mehrwehrt. Wie die Annotation zur fünften Kategorie zeigt, kommt der Brexit in der Stichprobe nur 26 Mal (12,62 % der Artikel) zur Sprache. Dieses Ergebnis kann die Schlüsse, die aus der Kookkurrenzanalyse zum Begriff „eu“ gezogen wurden, nicht erweitern. Für eine tiefergehende Überprüfung wäre vermutlich eine größere Datenbasis sinnvoll.

5 Fazit

Mit der vorliegenden Analyse sollte an einem bewusst begrenzt gehaltenen Datensatz der Spiegel-Online-Berichterstattung zur Europawahl 2019 exemplarisch aufgezeigt werden, welches Potenzial die Durchführung eines Blended Reading mittels der Serveranwendung iLCM, die auch von Forschenden, Lehrenden und Studierenden ohne Programmierkenntnisse bedient werden kann, und einem über Event-Crawl erhobenen Datensatz aus Webarchiven hat. Aus methodischer Sicht lässt sich ganz klar feststellen, dass die Analyse technisch reibungslos funktioniert hat. Dazu hat auch beigetragen, dass die Frage der Datenauswertung und die Form, in der die Daten bereitstehen müssen, bereits bei der Erstellung des Datensatzes durch den Event-Crawl und die Datenextraktion mittels warc2corpus berücksichtigt wurde. Sobald die Daten in einem für die Serveranwendung leserlichen Format wie csv verfügbar sind, ist eine Bearbeitung im iLCM möglich. Die einzelnen Analyseschritte können aufeinander aufgebaut werden, die Serveranwendung bietet eine gut strukturierte und einfach bedienbare Arbeitsumgebung. Unabdingbar sind allerdings die vorausgehenden Schritte der Datenextraktion aus den im Event-Crawl generierten WARC-Dateien, wie sie für die vorliegende Analyse mittels warc2corpus erfolgten. Für künftige Analysen ist daher festzuhalten, dass auch bedeutend größere Datensätze als der vorliegende aus 8385 Spiegel-Online-Artikeln mittels iLCM untersucht werden können.

Das für die Analyse durchgeführte Blended Reading bestand aus der Dokumentenselektion durch komplexe Volltextsuche (Analyseschritt 1), der Frequenzanalyse (Analyseschritt 2), der Kookkurrenzanalyse (Analyseschritt 3) und schließlich der manuellen Annotation auf Basis eines Codebuchs (Analyseschritt 4) und lieferte inhaltlich aufschlussreiche Ergebnisse. Dennoch müssen diese Ergebnisse vor dem Hintergrund der Crawl-Spezifizierung gesehen werden. Diese war notwendig, um während des Crawl-Prozesses die Belastung der Maschinen und das Datenvolumen zu beschränken und so den hohen Qualitätsstandards der Staatsbibliothek gerecht werden zu können. Diese Einschränkung war notwendig und inhaltlich begründbar, auch im Hinblick auf andere Studien (Leidecker-Sandmann und Wilke 2020) die aus thematischer Sicht von einer Vollerhebung sprechen. Allerdings wäre es für künftige Analysen wünschenswert, auf alle im Untersuchungszeitraum verfügbaren Daten zugreifen zu können, also ein Webarchiv mehrerer Online-Medien zu nutzen, um bessere Vergleichbarkeit zu garantieren und das gesamte Spektrum abzudecken. Dies könnte insbesondere mit Blick auf die Beantwortung dritte Forschungsfrage einen Mehrwert liefern.

Trotz der beschriebenen Einschränkungen ließ der erste Analyseschritt Schlüsse auf den Umfang zu, in dem auf Spiegel-Online über die Europawahl berichtet wurde. Bei dieser Datenstrukturierung mittels komplexer Volltextsuche ist die sinnvolle Zusammensetzung des Suchstrings unabdingbar. So würde eine reine Suche nach dem Wort „Europawahl“ deutlich begrenztere Ergebnisse liefern – die Suche führte zu 588 Artikeln. Der komplexere Suchstring „Europawahl*#EU*Wahl*#EU*Partei*#Kandidat*“ sollte den Europawahlbezug weiter spezifizieren und führte zu 1017 Artikeln. Diese Eingrenzung des Gesamtkorpus auf eine Collection war aus technischer Sicht notwendig, weil die weiteren Schritte des Blended Reading im iLCM nur auf vorher mittels komplexer Volltextsuche angelegten Collections möglich ist. Hier wäre es wünschenswert, eine Vergleichsanalyse auf den kompletten Datensatz durchzuführen, da davon ausgegangen wird, dass sich alle Artikel auf der Sonderseite Europawahl auch mit dieser beschäftigen. Dafür müssten die Analyseschritte allerdings manuell programmiert werden und die Durchführung des Blended Reading wäre – im Gegensatz zur Nutzung des iLCM – für Forscher*innen ohne Programmierkenntnisse nicht möglich. Trotz dieser Einschränkungen konnte der erste Analyseschritt einen guten Überblick über das Analysematerial liefern. Mit Blick auf die erste Forschungsfrage zeigt sich, dass die Europawahl bei etwa 12 % der Medienberichterstattung, die auf Spiegel-Online der Europawahl-Sonderseite im Untersuchungszeitraum direkt thematisiert wird. Mit der Abbildung der Anzahl der Artikel der Collection „SpezifikationEuropawahl“ je Tag auf einer Zeitreihe konnten sieben Peaks identifiziert werden, die als Einstiegspunkte für den vierten Analyseschritt dienten. Insgesamt handelt es sich dabei um 206 Artikel, (20,26 %) die als Stichprobe aus der Collection gezogen und mit klassischer Textlektüre betrachtet wurden.

Aus inhaltlicher Sicht lieferte die begrenzte Analyse mit der einfachen Fragestellung durchaus interessante Ergebnisse. Das Blended Reading der Spiegel-Online-Berichterstattung im Zeitraum vom 26. März 2019 bis 27. Juni 2019 bestätigte eindeutig Ergebnisse anderer Studien (z. B. Träger und Anders 2020; Haußner und Kaeding 2020; Stark et al. 2020; Holtz-Bacha 2020; Haßler et al. 2020), die der Europawahl noch einen Second-Order-Charakter zuschreiben. Zu diesem Ergebnis tragen Erkenntnisse aus allen vier Analyseschritten bei. Auf Basis der Collection-Erstellung im ersten Analyseschritt erlaubte die Frequenzanalyse im zweiten Schritt, das Datenmaterial ohne Lektüre einzelner Artikel weiter zu strukturieren. Das Distant Reading lieferte an dieser Stelle Erkenntnisse zur zweiten Forschungsfrage: Anhand der Top-30-Frequenzen wurde deutlich, dass der Kontext, in dem über die Europawahl auf Spiegel-Online berichtet wird, eher national als europäisch ist. Tiefergreifende Aussagen können auf Basis von Wortfrequenzanalysen nicht gemacht werden. Die Frequency Time Series Plots liefern allerdings interessante Erkenntnisse zur zeitlichen Verteilung von Worthäufigkeiten – so lag der Peak (86 Auftritte) des Begriffs „europa“ zum Beispiel am 9. Mai 2019, dem Europatag. Der Begriff „eu“ wurde am häufigsten (61 Auftritte) am 24. Mai 2019 erwähnt, was auf einen Zusammenhang zum Wahltag schließen lässt. Im dritten Analyseschritt wurden Distant Reading – in Form der Kookkurrenzanalyse – und Close Reading – mittels KWIC-Überprüfung – kombiniert, um zu Ergebnissen für die dritte Forschungsfrage zu gelangen. Diese sind allerdings ambivalent: Während sich die Kookkurrenzen des Begriffs „eu“ auf den Brexit beziehen und es somit um einen nicht deutschen, nationalen Kontext geht, stellen die Kookkurrenzen des Begriffs „europa“ – abgesehen von der Erwähnung von Emmanuel Macron – eine deutliche Verbindung zu Wahlprogrammen deutscher Parteien her, in denen es um die Definition der Rolle Europas für seine Bürger geht.

Nachdem das Textdatenmaterial mit dem Distant Reading vorstrukturiert wurde und erste Hinweise auf einen möglichen Second-Order-Charakter gefunden wurden, war eine Close Reading-Überprüfung unabdingbar. Im Rahmen der vorliegenden Analyse war diese allerdings auch eher quantitativ orientiert, da die Artikel wie bei einer Themen-Frequenzanalyse vorher definierten Kategorien zugeschrieben wurden. Die Ergebnisse bestätigten die Erkenntnisse aus dem Distant Reading: Nationale Themen, bezogen auf Deutschland oder andere Staaten, traten häufiger auf als europäische.

Für künftige Analysen wäre es demnach wünschenswert, nicht nur eine größere Datengrundlage zu verwenden, sondern auch komplexere Fragestellungen zu untersuchen, die dann insbesondere im vierten Analyseschritt mit noch tiefergehenden klassischen qualitativen Methoden überprüft werden. Aber auch im Distant Reading ist insbesondere in der Kookkurrenzanlyse noch Potenzial, indem beispielsweise mit der Erstellung mehrerer Sub-Kollektionen auch Wortnetzwerke im Zeitverlauf miteinander verglichen werden.