Skip to main content

Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds

Herausforderungen und Entwicklungen

  • Chapter
  • First Online:
Angewandte Data Science

Zusammenfassung

Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 29.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 37.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Die Überführung in Kleinschreibung ist in der Korpuslinguistik verbreitet. Damit sollen u. a. großgeschriebene Wörter am Satzanfang mit deren Vorkommen im Satz unifiziert werden (bspw. das „Damit“ am Anfang dieses Satzes). Es lässt sich darüber diskutieren, ob diese Praxis für deutsche Texte tatsächlich ein Vorteil ist, denn dadurch fallen substantivierte Verben wie „das Leben“ zusammen mit einigen Formen des Basisverbs (bspw. „wir leben“). Dies ist für konkrete Fragestellungen jedoch selten ein Problem, weshalb wir uns für die Überführung in Kleinschreibung entschieden haben.

  2. 2.

    Bigramme sind Folgen von zwei Wörtern, Trigramme sind Folgen von drei Wörtern. Der Satz „schon in normalen zeiten ist die abi-phase eine nervenaufreibende zeit für schüler“ enthält die Bigramme „schon in“, „in normalen“, …, „für schüler“. Die enthaltenen Trigramme sind „schon in normalen“, „in normalen zeiten“, …, „zeit für schüler“. Unter https://www.owid.de/plus/cowidplus2020/data/trigrams-RSScorpus-sample.csv.zip kann eine zufällige Auswahl von 14 Tagen aus dem Datensatz für Trigramme eingesehen werden.

  3. 3.

    Diese Liste kann z. B. hier eingesehen werden: https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html [letzter Zugriff am 30.09.2021].

  4. 4.

    Der cOWIDplus Viewer benutzt auf der Startseite ein einfaches „sidebarLayout“, bei dem oben ein Titelpanel, links ein Seitenpanel (üblicherweise zur Unterbringung der Input-Widgets) und rechts das Hauptpanel (üblicherweise zur Ausgabe von Outputs) platziert wird.

  5. 5.

    Der cOWIDplus Viewer benutzt auf der Startseite die folgenden vordefinierten Widgets: „textInput“ (für die Eingabe der Suchmuster), „radioButtons“ (für den Suchtyp), „dateRangeInput“ (für die Datumsauswahl), „numericInput“ (für die Glättung), „actionButton“ (für das Anstoßen der Suche) sowie „downloadButton“ (selbsterklärend).

  6. 6.

    Die relative Häufigkeit ließe sich auch serverseitig on-the-fly in der App selbst berechnen. Dies würde allerdings zusätzlichen Verarbeitungsaufwand nach sich ziehen, der bei jeder Abfrage auftreten würde. Wir haben uns daher dazu entschieden, diese Werte bereits in der Datenbasis vorzuhalten. Dies führt natürlich zu einer größeren Arbeitsspeicherbelastung.

  7. 7.

    Insbesondere die Eingabe der Suchmuster bereitete hier Probleme: In einer Standard-Shiny-App würde für jedes eingegebene Zeichen automatisch (d. h. ohne explizite Bestätigung durch die Benutzenden) eine neue Suche in der gesamten bis dahin gesammelten Datenbasis angestoßen. Je nach Länge und Komplexität der Suchmuster dauert allein die Suche (also ohne grafische Aufbereitung) in der aktuellen Implementation von cOWIDplus zwischen zwei und fünf Sekunden.

  8. 8.

    Wir hosten den cOWIDplus Viewer über shinyapps.io mit einem Account, der eine maximale Arbeitsspeicherauslastung von 1 GB erlaubt, was zwar für die Repräsentation der Daten ausreicht, nicht aber für die Verarbeitungs- und Suchprozesse.

  9. 9.

    ElasticSearch bietet eine sehr einfach zu konfigurierende und schnell einsetzbare Volltextsuche. ElasticSearch basiert auf Lucene. Da Lucene nur sehr rudimentär reguläre Ausdrücke unterstützt z. B: zwanghaft ‚|‘ interpretiert, haben wir uns für µ als Trennzeichen entschieden.

  10. 10.

    Der „cOWIDplus Viewer“ konnte nur Bigramme (N = 2) auswerten. OWIDplusLIVE bietet bereits eine Unterstützung für Trigramme (N = 3). Im Prinzip ist die Länge in OWIDplusLIVE nicht limitiert. Wir haben uns aber aufgrund der aktuell unklaren Rechtslage dazu entschieden, diese Grenze zu ziehen. Die Veröffentlichung von Trigrammen stellt in lizenz- und urheberrechtlicher Hinsicht kein Problem dar.

Literatur

  • Chang, Winston, Joe Cheng, JJ Allaire, Yihui Xie, und Jonathan McPherson. 2020. shiny: Web Application Framework for R (Version 1.4.0.2). https://CRAN.R-project.org/package=shiny.

  • McDonnell, Robert Myles. 2021. tidyRSS: Tidy RSS for R. https://CRAN.R-project.org/package=tidyRSS.

  • R Core Team. 2021. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.

  • Rüdiger, Jan Oliver. 2021. Artikel Korpus, In: Diskursmonitor. Glossar zur strategischen Kommunikation in öffentlichen Diskursen. Hrsg. von der Forschungsgruppe Diskursmonitor und Diskursintervention. https://diskursmonitor.de/glossar/korpus/.

  • Schmid, Helmut. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. International Conference on New Methods in Language Processing. Manchester, UK. https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf.

  • Wolfer, Sascha, Alexander Koplenig, Frank Michaelis, und Carolin Müller-Spitzer. 2020. Tracking and analyzing recent developments in German-language online press in the face of the coronavirus crisis: COWIDplus Analysis and cOWIDplus Viewer. International Journal of Corpus Linguistics 25(3):347–359.

    Article  Google Scholar 

  • Wolfer, Sascha, Alexander Koplenig, Frank Michaelis, Carolin Müller-Spitzer, und Jan Oliver Rüdiger. 2022 (im Druck). Wie können wir den Einfluss der Corona-Pandemie auf die Verteilungen im deutschen Online-Pressewortschatz messen und explorieren? In: Jahrbuch des Leibniz-Instituts für Deutsche Sprache 2021.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Sascha Wolfer .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2023 Der/die Autor(en), exklusiv lizenziert an Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Wolfer, S., Rüdiger, J.O. (2023). Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds. In: Blum, L.B. (eds) Angewandte Data Science. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-39625-1_1

Download citation

Publish with us

Policies and ethics