Skip to main content
Log in

What you tweet is what we get?

Zum wissenschaftlichen Nutzen von Twitter-Daten

What you tweet is what we get?

About the scientific use of Twitter data

  • Aufsatz
  • Published:
Publizistik Aims and scope Submit manuscript

Zusammenfassung

Elf Jahre nach Veröffentlichung des ersten Tweets hat der Kurznachrichtendienst Twitter mittlerweile eine hohe Präsenz in Gesellschaft, Medien und Wissenschaft. Die Vielzahl an Studien mit Twitter-Daten zeigt, dass Tweets eine beliebte Datenquelle wissenschaftlicher Arbeiten sind. Dies lässt sich vor allem durch die weitestgehend kostenlos und technisch gut verfügbaren Daten sowie die klare, offene Kommunikationsstruktur erklären. Dennoch ist der Kurznachrichtendienst nur bedingt für die Forschung geeignet: Eine eingeschränkte Repräsentativität und Aussagekraft, eine hinsichtlich Zeitspanne und Volumen begrenzte Datenverfügbarkeit und die geringe Datenqualität mindern den wissenschaftlichen Nutzen. Die Eigenheiten der Internetsprache sowie fehlende Metriken erschweren die inhaltliche Analyse der verbreiteten Nachrichten zusätzlich. Zudem stellt die zunehmende Verbreitung von Bots, die mittlerweile einen großen Teil der Kommunikation auf Twitter erzeugen, eine große Herausforderung dar. Anhand eines Fallbeispiels bewertet die Arbeit den wissenschaftlichen Nutzen von Twitter-Daten, indem Probleme bei der Datenerhebung, Auswertung und Interpretation herausgearbeitet werden. Dies soll nicht nur zu einem vorsichtigeren und kritischeren wissenschaftlichen Umgang mit Twitter-Daten beitragen, sondern auch die Frage aufwerfen, inwieweit Twitter-Daten überhaupt in Zukunft für die Wissenschaft bedeutsam sein können.

Abstract

Twitter has a high presence in our modern society, media and science. Numbers of studies with Twitter data – not only in communication research – show that tweets are a popular data source for science. This popularity can be explained by the mostly free data and its technically high availability, as well as the distinct and open communication structure. Even though much research is based on Twitter data, it is only suitable for research to a limited extent. For example, some studies have already revealed that Twitter data has a low explanatory power when predicting election outcomes. Furthermore, the rise of automated communication by bots is an urgent problem of Twitter data analysis. Although critical aspects of Twitter data have already been discussed to some extent (mostly in final remarks of studies), comprehensive evaluations of data quality are relatively rare.

To contribute to a deeper understanding of problems regarding the scientific use of Twitter data leading to a more deliberate und critical handling of this data, the study examines different aspects of data quality, usability and explanatory power. Based on previous research on data quality, it takes a critical look with the following four dimensions: availability and completeness, quality (regarding authenticity, reliability and interpretability), language as well as representativeness. Based on a small case study, this paper evaluates the scientific use of Twitter data by elaborating problems in data collection, analysis and interpretation. For this illustrative purpose, the author typically gathered data via Twitter’s Streaming APIs: 73,194 tweets collected between 20–24/02/2017 (each 8pm) with the Streaming APIs (POST statuses/filter) containing the search term “#merkel”.

Concerning data availability and completeness, several aspects diminish data usability. Twitter provides two types of data gateways: Streaming APIs (for real-time data) and REST APIs (for historical data). Streaming APIs only have a free available Spritzer bandwidth, that is limited to only one percent of the overall (global) tweet volume at any given time. This limit is a prevalent problem when collecting Twitter data to major events like elections and sports. The REST APIs do not usually provide data older than seven days. Furthermore, Twitter gives no information about the total or search term-related tweet volume at any time.

In addition to incomplete data, several quality related aspects complicate data gathering and analysis, like the lack of user specific and verified information (age, gender, location), inconsistent hashtag usage, missing conversational context or poor data/user authenticity. Geo data on Twitter is – if available at all – rarely correct and not useful for filtering relevant tweets. Searching and filtering relevant tweets by search terms can be deceptive, because not every tweet concerning a topic contains corresponding hashtags. Furthermore, it is difficult to find a perfect search term for broader and dynamically changing topics. Besides, the missing conversational context of tweets impedes interpretation of statements (especially with regard to irony or sarcasm). In addition, the rise of social bots diminishes dataset quality enormously. In the dataset generated for this work, only three of the top 30 accounts (by tweet count) could be directly identified as genuine. One fourth of all accounts in this dataset generated about 60% of all tweets. If the high-performing accounts predominantly consist of bots, the negative impact on data quality is immense.

Another problem of Twitter analysis is Internet language. While Emojis can be misinterpreted, abbreviations, neologisms, mixed languages and a lack of grammar impede text analysis. In addition to low data quality in general, the quality of tweet content and its representativeness is crucial. This work compares user statistics with research articles on SCOPUS as well as media coverage of two selected, German quality newspapers. Twitter is – compared to its user count – enormously overrepresented in media and science. Only 16% of German adults (over 18 years) are monthly active (MAUs) and merely four percent are daily active users.

Considering all presented problems, Twitter can be a good data source for research, but only to a limited extent. Researchers must consider that Twitter does not guarantee complete, reliable and representative data. Ignoring those critical points can mislead data analysis. While Twitter data can be suitable for specific case studies, like the usage and spread of selected hashtags or the twitter usage of specific politicians, you cannot use it for broader, nation-based surveys like the prediction of elections or the public opinion on a specific topic. Twitter has a low representativeness and is mostly an “elite medium” with an uncertain future (concerning the stagnating number of users and financial problems).

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Abb. 1
Abb. 2
Abb. 3
Abb. 4

Notes

  1. SCOPUS-Abfrage: TITLE-ABS-KEY (twitter). Stand: 15. Oktober 2017.

  2. Einen systematischen Forschungsüberblick zu Qualitätskriterien von Daten geben Knight und Burn (2005).

  3. Engl. Application Programming Interface (kurz: API).

  4. Die kostenfrei verfügbare Bandbreite (Spritzer) beträgt maximal ein Prozent des gesamten Twitter-Volumens. Daneben stehen weitere, kostenpflichtige und nicht allgemein verfügbare Bandbreiten zur Verfügung: Decahose (10 %) und Firehose (100 %).

  5. Für die REST API GET search/tweets stehen über den Suchparameter result_type drei Abfragemöglichkeiten zur Verfügung: recent (übermittelt nur die neuesten/letzten Tweets zur einer Suchabfrage), popular (nur die populärsten Tweets) und mixed (populäre und neueste Tweets gemischt).

  6. Das Programm basiert auf dem Python-Paket Tweepy (http://tweepy.org) und sammelt alle Daten mit Suchterm-Filter über die Streaming APIs, bzw. deren Endpoint POST statuses/filter. Im Untersuchungszeitraum gab es keine Rate Limits.

  7. Beispielsweise nutzen manche Bots aktuell beliebte Hashtags, um die Sichtbarkeit eigener Botschaften (meistens Spam) zu erhöhen (vgl. Marechal 2016).

  8. Als MAU gilt jeder Account, der sich mindestens einmal pro Monat einloggt oder mit einem Twitter-Dienst verbindet – unabhängig davon, ob dies bewusst oder automatisch geschieht.

  9. Für die manuelle Account-Analyse verglich der Autor allgemeine Nutzermetriken (wie die Tweet- und Retweet-Häufigkeit) der 30 Accounts mit der höchsten Tweet-Anzahl im Datensatz. Beispielsweise war ein Account mit hoher Wahrscheinlichkeit ein Bot, wenn dieser ein sehr hohes Tweet-Volumen hatte (> 1000/Tag) oder nur andere Tweets teilte.

  10. Benutzernamen vom Autor unkenntlich gemacht.

  11. Twitter verdoppelte im November 2017 testweise das Limit auf 280 Zeichen.

Literatur

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Fabian Pfaffenberger M.Sc..

Rights and permissions

Reprints and permissions

About this article

Check for updates. Verify currency and authenticity via CrossMark

Cite this article

Pfaffenberger, F. What you tweet is what we get?. Publizistik 63, 53–72 (2018). https://doi.org/10.1007/s11616-017-0400-2

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s11616-017-0400-2

Schlüsselwörter

Keywords

Navigation