Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds

Wolfer, Sascha; Rüdiger, Jan Oliver

doi:10.1007/978-3-658-39625-1_1

Sascha Wolfer² &
Jan Oliver Rüdiger²

2714 Accesses

Zusammenfassung

Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Softcover Book: USD 37.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Die Überführung in Kleinschreibung ist in der Korpuslinguistik verbreitet. Damit sollen u. a. großgeschriebene Wörter am Satzanfang mit deren Vorkommen im Satz unifiziert werden (bspw. das „Damit“ am Anfang dieses Satzes). Es lässt sich darüber diskutieren, ob diese Praxis für deutsche Texte tatsächlich ein Vorteil ist, denn dadurch fallen substantivierte Verben wie „das Leben“ zusammen mit einigen Formen des Basisverbs (bspw. „wir leben“). Dies ist für konkrete Fragestellungen jedoch selten ein Problem, weshalb wir uns für die Überführung in Kleinschreibung entschieden haben.
2.
Bigramme sind Folgen von zwei Wörtern, Trigramme sind Folgen von drei Wörtern. Der Satz „schon in normalen zeiten ist die abi-phase eine nervenaufreibende zeit für schüler“ enthält die Bigramme „schon in“, „in normalen“, …, „für schüler“. Die enthaltenen Trigramme sind „schon in normalen“, „in normalen zeiten“, …, „zeit für schüler“. Unter https://www.owid.de/plus/cowidplus2020/data/trigrams-RSScorpus-sample.csv.zip kann eine zufällige Auswahl von 14 Tagen aus dem Datensatz für Trigramme eingesehen werden.
3.
Diese Liste kann z. B. hier eingesehen werden: https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html [letzter Zugriff am 30.09.2021].
4.
Der cOWIDplus Viewer benutzt auf der Startseite ein einfaches „sidebarLayout“, bei dem oben ein Titelpanel, links ein Seitenpanel (üblicherweise zur Unterbringung der Input-Widgets) und rechts das Hauptpanel (üblicherweise zur Ausgabe von Outputs) platziert wird.
5.
Der cOWIDplus Viewer benutzt auf der Startseite die folgenden vordefinierten Widgets: „textInput“ (für die Eingabe der Suchmuster), „radioButtons“ (für den Suchtyp), „dateRangeInput“ (für die Datumsauswahl), „numericInput“ (für die Glättung), „actionButton“ (für das Anstoßen der Suche) sowie „downloadButton“ (selbsterklärend).
6.
Die relative Häufigkeit ließe sich auch serverseitig on-the-fly in der App selbst berechnen. Dies würde allerdings zusätzlichen Verarbeitungsaufwand nach sich ziehen, der bei jeder Abfrage auftreten würde. Wir haben uns daher dazu entschieden, diese Werte bereits in der Datenbasis vorzuhalten. Dies führt natürlich zu einer größeren Arbeitsspeicherbelastung.
7.
Insbesondere die Eingabe der Suchmuster bereitete hier Probleme: In einer Standard-Shiny-App würde für jedes eingegebene Zeichen automatisch (d. h. ohne explizite Bestätigung durch die Benutzenden) eine neue Suche in der gesamten bis dahin gesammelten Datenbasis angestoßen. Je nach Länge und Komplexität der Suchmuster dauert allein die Suche (also ohne grafische Aufbereitung) in der aktuellen Implementation von cOWIDplus zwischen zwei und fünf Sekunden.
8.
Wir hosten den cOWIDplus Viewer über shinyapps.io mit einem Account, der eine maximale Arbeitsspeicherauslastung von 1 GB erlaubt, was zwar für die Repräsentation der Daten ausreicht, nicht aber für die Verarbeitungs- und Suchprozesse.
9.
ElasticSearch bietet eine sehr einfach zu konfigurierende und schnell einsetzbare Volltextsuche. ElasticSearch basiert auf Lucene. Da Lucene nur sehr rudimentär reguläre Ausdrücke unterstützt z. B: zwanghaft ‚|‘ interpretiert, haben wir uns für µ als Trennzeichen entschieden.
10.
Der „cOWIDplus Viewer“ konnte nur Bigramme (N = 2) auswerten. OWIDplusLIVE bietet bereits eine Unterstützung für Trigramme (N = 3). Im Prinzip ist die Länge in OWIDplusLIVE nicht limitiert. Wir haben uns aber aufgrund der aktuell unklaren Rechtslage dazu entschieden, diese Grenze zu ziehen. Die Veröffentlichung von Trigrammen stellt in lizenz- und urheberrechtlicher Hinsicht kein Problem dar.

Literatur

Chang, Winston, Joe Cheng, JJ Allaire, Yihui Xie, und Jonathan McPherson. 2020. shiny: Web Application Framework for R (Version 1.4.0.2). https://CRAN.R-project.org/package=shiny.
McDonnell, Robert Myles. 2021. tidyRSS: Tidy RSS for R. https://CRAN.R-project.org/package=tidyRSS.
R Core Team. 2021. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.
Rüdiger, Jan Oliver. 2021. Artikel Korpus, In: Diskursmonitor. Glossar zur strategischen Kommunikation in öffentlichen Diskursen. Hrsg. von der Forschungsgruppe Diskursmonitor und Diskursintervention. https://diskursmonitor.de/glossar/korpus/.
Schmid, Helmut. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. International Conference on New Methods in Language Processing. Manchester, UK. https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf.
Wolfer, Sascha, Alexander Koplenig, Frank Michaelis, und Carolin Müller-Spitzer. 2020. Tracking and analyzing recent developments in German-language online press in the face of the coronavirus crisis: COWIDplus Analysis and cOWIDplus Viewer. International Journal of Corpus Linguistics 25(3):347–359.
Article Google Scholar
Wolfer, Sascha, Alexander Koplenig, Frank Michaelis, Carolin Müller-Spitzer, und Jan Oliver Rüdiger. 2022 (im Druck). Wie können wir den Einfluss der Corona-Pandemie auf die Verteilungen im deutschen Online-Pressewortschatz messen und explorieren? In: Jahrbuch des Leibniz-Instituts für Deutsche Sprache 2021.
Google Scholar

Download references

Author information

Authors and Affiliations

Leibniz-Institut für Deutsche Sprache, Mannheim, Deutschland
Sascha Wolfer & Jan Oliver Rüdiger

Authors

Sascha Wolfer
View author publications
You can also search for this author in PubMed Google Scholar
Jan Oliver Rüdiger
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Sascha Wolfer .

Editor information

Editors and Affiliations

Schlangenbad, Deutschland
Lothar B. Blum

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Wolfer, S., Rüdiger, J.O. (2023). Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds. In: Blum, L.B. (eds) Angewandte Data Science. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-39625-1_1

Download citation

DOI: https://doi.org/10.1007/978-3-658-39625-1_1
Published: 27 June 2023
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-39624-4
Online ISBN: 978-3-658-39625-1
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics