Plattformforschung mit Instagram-Daten – Eine Übersicht über analytische Zugänge, digitale Erhebungsverfahren und forschungsethische Perspektiven in Zeiten der APIcalypse

Peters, Yannik; Nehls, Patrick; Thimm, Caja

doi:10.1007/s11616-023-00786-8

Plattformforschung mit Instagram-Daten – Eine Übersicht über analytische Zugänge, digitale Erhebungsverfahren und forschungsethische Perspektiven in Zeiten der APIcalypse

Platform research with Instagram data - An overview of analytical approaches, digital data collection methods and research ethics perspectives in times of APIcalypse

Aufsatz
Open access
Published: 28 June 2023

Volume 68, pages 225–239, (2023)
Cite this article

Download PDF

You have full access to this open access article

Publizistik Aims and scope Submit manuscript

Plattformforschung mit Instagram-Daten – Eine Übersicht über analytische Zugänge, digitale Erhebungsverfahren und forschungsethische Perspektiven in Zeiten der APIcalypse

Download PDF

Yannik Peters M.A.¹,
Patrick Nehls M.A.¹ &
Caja Thimm¹

6230 Accesses
10 Altmetric
Explore all metrics

Zusammenfassung

Die Foto- und Video-Sharing-Plattform Instagram hat sich in den vergangenen Jahren zu einem der meistgenutzten sozialen Medien weltweit entwickelt. Auf Grund der forschungspraktischen Hürden, die mit der Erhebung von Instagram-Daten einhergehen, scheint Instagram in der (empirischen) Plattformforschung noch unterrepräsentiert zu sein. In diesem Artikel werden daher einige der verschiedenen Möglichkeiten aufgezeigt, Instagram-Daten zu erheben. Zunächst führen wir jedoch in die Mediengrammatik der Plattform Instagram ein. Dieser Ansatz hilft die im Anschluss vorgestellten Möglichkeiten der Erhebung von Instagram-Daten zu differenzieren und theoretisch zu rahmen. In Bezug auf die Datenerhebung unterscheiden wir zwischen fünf verschiedenen Erhebungsstrategien: a) der manuellen Erhebung, b) den freien Programmiersprachen, c) den Tools des Meta-Konzerns, d) den kommerziellen Tools und e) der Datenspende. Diese werden anhand relevanter Kriterien (unter anderem Mediengrammatik, Erhebungsform, Beitragsebenen, Vollständigkeit, Programmierkenntnisse) gegenübergestellt. Es zeigt sich, dass je nach Forschungsfrage und Methode unterschiedliche Datenerhebungsstrategien angemessen sein können. Zuletzt werden auch die forschungsethischen Implikationen der Erhebung von Instagram-Daten diskutiert.

Abstract

In recent years, the photo and video sharing platform Instagram has become one of the most widely used social media platforms worldwide. Due to practical research barriers related to data collection, Instagram still seems to be underrepresented in (empirical) platform research. Therefore, this article highlights the different ways in which Instagram data can be collected. First, we introduce the media grammar of Instagram. This approach helps to differentiate and theoretically frame the options of collecting Instagram data. In terms of data collection, we distinguish between five different strategies: a) manual collection, b) free programming languages, c) tools from the Meta group, d) commercial tools and e) data donation. These strategies are compared on the basis of selected criteria (including media grammar, survey form, contribution level, completeness, programming skills). It can be shown that data collection strategies mainly depend on research questions and methods applied. Finally, the ethical implications of collecting Instagram data are discussed.

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

1 Einleitung

Die Foto- und Video-Sharing-Plattform Instagram hat sich in den vergangenen Jahren zu einem der meistgenutzten sozialen Medien weltweit entwickelt. Die daraus abzuleitende Bedeutung, die Instagram für die mediale Konstruktion der Wirklichkeit in tiefgreifend mediatisierten Gesellschaften einnimmt (vgl. Couldry und Hepp 2016; Hepp 2020), spiegelt sich gegenwärtig noch nicht in der empirischen Forschung wider. Hier scheint Instagram im Vergleich zu anderen Plattformen noch unterrepräsentiert zu sein. Dies hängt neben anderen Faktoren sicherlich auch mit den Hürden zusammen, die mit der Erhebung von Instagram-Daten einhergehen. Während der Microblogging-Dienst Twitter, zumindest bis zum Kauf der Plattform durch Elon Musk, den Zugang zu seinen Datenarchiven für Wissenschaftler:innen weiter erleichtert hat^{Footnote 1} und das Videoportal TikTok im November 2022 die Beta Version einer API (Application Programming Interface) für Forschungszwecke veröffentlichte, schränkte Facebook in Folge der Skandalisierung des Falles um „Cambridge Analytica“ den freien Zugang zu seinen Daten via API stark ein (vgl. Freelon 2018; Kozinets 2020, S. 164). Diese Entwicklung, die von Bruns (vgl. 2019) als APIcalypse bezeichnet wird, gilt mittlerweile für sämtliche soziale Medien des Meta-Konzerns und damit auch für Instagram. Hier setzt der Artikel an und möchte einen Überblick über die derzeit vorhandenen Möglichkeiten der Datenerhebung für Instagram geben. Dafür wird zunächst in die Mediengrammatik (vgl. Thimm 2018, 2019) von Instagram eingeführt, um die verschiedenen Funktionalitäten und analytischen Zugänge zur Plattform aufzuzeigen (Kap. 2). Dieser Ansatz hilft die im Anschluss vorgestellten Möglichkeiten der Erhebung von Instagram-Daten zu differenzieren und theoretisch zu rahmen (Kap. 3). Die Unterscheidung wesentlicher Erhebungsstrategien, nicht die Vorstellung sämtlicher Erhebungs-Tools, ist somit das primäre Ziel dieses Artikels. Denn es existieren bereits eine Reihe von Datenbanken, die einen Gesamtüberblick der Tools zu geben versuchen.^{Footnote 2} Vielmehr soll der Beitrag helfen, Wissenschaftler:innen mit einem Orientierungswissen auszustatten. So bieten sich je nach Forschungsfrage und Vorkenntnissen unterschiedliche Erhebungsstrategien an. Zum Abschluss werden die forschungsethischen Implikationen der Erhebung von Instagram-Daten diskutiert (Kap. 4).

2 Zur Mediengrammatik von Instagram

Das Konzept der Mediengrammatik verweist sowohl auf Produktions- als auch auf semiotischer Ebene auf „mediensystematische[n] Eigenschaften und Regeln, die das Medium als konstitutive und regulative Determinanten formieren und seine Nutzungsoptionen regeln“ (Thimm 2019, S. 85). Für Social-Media-Plattformen (SMP) lassen sich zwei Formen der Mediengrammatik unterscheiden: die Oberflächengrammatik (surface grammar) und die Konstituentengrammatik (constitutive property grammar) (vgl. Thimm 2018, S. 124). Als Oberflächengrammatik wird die Form der Mediengrammatik verstanden, die für Nutzer:innen zugänglich ist. In erster Linie ist damit das dynamische Interface der Plattform gemeint, das den Möglichkeitshorizont digitaler Kommunikation determiniert. Die Konstituentengrammatik (wie Algorithmen, Code) kann dagegen als konstitutiv für das Medium selbst angesehen werden. Sie bestimmt die konkrete Ausformung der Oberflächengrammatik, bleibt dabei aber für Nutzer:innen „unzugänglich und kann auch nicht von ihm [ihr] modifiziert werden“ (Thimm 2019, S. 86).

Im Zentrum der Oberflächengrammatik von Instagram stehen die Beiträge, die Nutzer:innen via App oder Browser teilen können. Instagram-Postings müssen, anders als bei Twitter oder Facebook, mit einem visuellen Anteil versehen sein. Es können Einzelbilder, Bilderreihen, Collagen oder Videos eingesetzt werden. Neben diesen klassischen Bild- oder Video-Posts ermöglicht Instagram mit sogenannten Stories, die maximal 24 h im Profil einsehbar sind, und Reels, die bearbeitete 15-sekündige Kurzvideos darstellen, weitere multimediale Darstellungsformen von Inhalten.

Je nach Darstellungsebene werden Instagram-Beiträge in unterschiedlicher Art und Weise visualisiert. Dabei kann man grundlegend zwischen der Profilebene, der Post-Ebene, der Feed-Ebene und der Suchebene differenzieren (siehe Abb. 1). Die verschiedenen Beitragsebenen der Plattform lassen sich als unterschiedliche Ausprägungen von Bild-Text- und Bild-Bild-Beziehungen verstehen. Abb. 2 zeigt den direkten Vergleich von Profil- und Post-Ebene. Während auf der Profilebene in erster Linie Bild-Bild-Beziehungen dargestellt werden, stehen auf der Post-Ebene Bild-Text-Beziehungen im Vordergrund.

Im Kontrast zur bisher dargestellten Browser-Ansicht ergänzen in der App-Ansicht die textuellen Elemente erst nachträglich das Bild. Am ehesten entspricht die App-Ansicht der Feed-Ebene der Browser-Ansicht, auch hier ist das aktive Scrollen zentraler Rezeptionsmodus. Die Beschreibung der Mediengrammatik der Plattform Instagram ist insofern für die Erhebung von Instagram-Daten von Bedeutung, als sie eine Differenzierung der Erhebungsmöglichkeiten über die Oberflächengrammatik (vermittelt via Software, unvermittelt via Screenshots) oder die Konstituentengrammatik (API-Zugang) der Plattform ermöglicht. Ferner unterscheiden sich die nachfolgend vorgestellten Tools auch in ihren Möglichkeiten des Zugriffs auf die Beitragsebenen.^{Footnote 3}

3 Erhebungsoptionen von Instagram-Daten

Es kann zwischen fünf Formen der Datenerhebung unterschieden werden: a) manuelle Erhebung, b) Nutzung freier Programmiersprachen, c) Verwendung von Tools des Meta-Konzerns, d) Gebrauch von kommerziellen Erhebungs-Tools und e) Bitten um Datenspende. Diese Systematisierung weist Überschneidungen zu bestehenden Typologien auf (vgl. Breuer et al. 2020, S. 2064). Während Breuer et al. jedoch auf Grundlage der Partnerschaft von Forschenden und Plattform eine eher allgemeinere Einteilung für sämtliche Plattformen vorlegen, nehmen wir hier besonders die Spezifika der Plattform Instagram in den Blick (z. B. Meta Tools als Erhebungsform).

a) Manuelle Erhebung von Instagram-Daten

Die manuelle Erhebung von Instagram-Daten erfolgt via Browser oder App auf der Plattform selbst. Für die Erhebung von Bildern und Stories und zum Speichern sämtlicher relevanter Daten bieten sich Screenshots der Beiträge an. Video-Formate wie Reels können via Bildschirmaufnahme erhoben werden. Mit der manuellen Erhebung lassen sich lediglich die Meta-Daten erheben, die auf der Plattform selbst dargestellt werden (z. B. Datum der Veröffentlichung, Account-Name etc.). Im Anschluss können die Inhalte von Beiträgen in ein gängiges Datenbearbeitungs- und Analyseprogramm wie MS-Excel oder R überführt werden. Diese manuelle Form der Datenerhebung benötigt lediglich einen aktiven Instagram-Account, es sind keine Programmierkenntnisse notwendig. Im Sinne der Mediengrammatik bewegt sich die Erhebung damit auf der Oberflächengrammatik der Plattform, weswegen prinzipiell sämtliche Beitragsebenen zu erheben sind. Dies bedingt allerdings, dass die Beiträge auch in der Form erhoben werden, in der sie den Nutzenden angezeigt werden. Die Datenerhebung beruht damit auf spezifischen Medienlogiken der Oberflächengrammatik. Daher können bei der Erhebung von Beiträgen eines Hashtags die Filtereffekte auftreten, denen der jeweils verwendete Instagram-Account, über den auf die Inhalte zugegriffen wird, selbst unterliegt. Es kann je nach Forschungsfrage und Studiendesign sowohl gewünscht wie unerwünscht sein, Daten zu erheben, die potenziell Filterprozesse durchlaufen (bspw. sind Filterprozesse erwünscht, wenn sie selbst Gegenstand der Untersuchung sind). Im Gegensatz zu den anderen Erhebungsverfahren, kann hier auch die plattformspezifische Visualisierung der Beitragsebenen (s. Abb. 1 und 2) erhoben werden. Da es sich um eine zeitintensive Erhebungsform handelt, bietet sie sich in erster Linie für kleinere Datenerhebungen und qualitative Studien an. Thimm und Nehls (vgl. 2017, S. 335) haben beispielsweise eine manuelle Erhebung von 449 Postings zum #beerdigung vorgenommen. Im Anschluss haben sie mit einer Inhaltsanalyse von Bild- und Textdaten die Konstruktion und Visualisierung von Trauer, Erinnerung und Familienidentität untersucht.

b) Freie Programmiersprachen

Mit freien Programmiersprachen wie Python oder R lassen sich Instagram-Daten ebenfalls erheben. Zu diesem Zweck werden Module oder Pakete erstellt. Das bekannteste Tool stellt das Python-Modul Instaloader (vgl. Graf und Koch-Kramer 2020) dar (in R = instaloadeR). Mit Instaloader können Profilinformationen und -beiträge, Stories und Videos, aber auch die Beiträge von bestimmten Hashtags sowie Kommentare erhoben werden. Hinzu kommen Meta-Daten (etwa Anzahl der Likes, Kommentare, URLs, Profilinformationen etc.) und Listen über Follower- und Followee-Beziehungen von bestimmten Accounts. Die Nutzung von Instaloader setzt ein gewisses Maß an Programmierkenntnissen voraus. Während die reine Erhebung der Instagram-Daten noch sehr anschaulich auf GitHub beschrieben wird, ist vor allem das data wrangling mit den voneinander getrennt erhobenen Formaten aus Bild- und Textdateien anspruchsvoller. Neben Instaloader existieren eine Reihe weiterer Tools auf Python und R (etwa Instagram-Scraper, Instaphyte, Instalooter, Instagram Private API etc.), die sich in ihren Erhebungsmöglichkeiten verhältnismäßig ähnlich sind.^{Footnote 4} Clever et al. (vgl. 2023, S. 4) nutzten beispielsweise das Tool Instamancer für die Erhebung von 1187 Postings des Accounts Generation Islam, um die (islamistische) Propaganda und Missinformation durch die Gruppe zu untersuchen. Im Anschluss analysierten sie die in den Beiträgen verwendeten Hashtags mit einer Netzwerkanalyse, die Bild- und Textinhalte mit Natural Language Processing, Image Sentiment Analysis und Deep Learning-Verfahren. Es kann auch versucht werden, mit reinen Scraping-Paketen Instagram-Daten zu erheben wie bspw. Selenium in Python (vgl. Muthukadan 2023) oder RSelenium in R (vgl. Harrison und Yeong Kim 2022). Da das automatisierte Scraping ohne Einwilligung der Plattform untersagt ist (s. Kap. 4), kann es bei der Nutzung dieser Tools zu Komplikationen kommen. So sperrt Instagram ab einer gewissen Menge automatisiert erhobener Daten die mit Instaloader verbundenen Accounts. Dies sollte für die Nutzung der Tools in den freien Programmiersprachen beachtet werden. In Bezug auf die Mediengrammatik ist festzustellen, dass die Datenerhebung via Scraping ebenfalls auf Basis der Oberflächengrammatik erfolgt. Im Gegensatz zur Datenerhebung via Screenshots liegen hier die Daten jedoch nicht in den jeweiligen Visualisierungsformen vor, wie sie für die Nutzer:innen selbst dargestellt werden. Vielmehr werden die Daten in verschiedenen Dateiformaten getrennt voneinander gespeichert (z. B. json- oder txt-Dateien).

c) Meta-Tools

Bei den Meta-Tools handelt es sich um diejenigen Anwendungen, die vom Meta-Konzern selbst stammen. In den vergangenen Jahren fungierte das Monitoring-Tool Crowdtangle als von Meta gestützter Zugang zu Instagram-Daten. Um darauf zugreifen zu können, müssen sich Wissenschaftler:innen um einen Zugang bewerben. Dabei werden Forschungsprojekte zu Themen wie Desinformation, Wahlen oder Corona bevorzugt. Crowdtangle erhebt automatisiert Daten von über zwei Millionen öffentlichen Instagram-Accounts, die mehr als 50.000 Follower aufweisen. Daher bietet es sich vor allem für Forschungsprojekte an, die eine akteurszentrierte Perspektive einnehmen und etwa kommunikationswissenschaftliche Fragestellungen der politischen Kommunikation, der Unternehmenskommunikation oder des (digitalen) Agenda Setting untersuchen. Larsson (vgl. 2021, S. 4) hat beispielsweise mit Crowdtangle 186.405 Postings von 285 europäischen Parteien im Zeitraum von 2012 bis 2018 erhoben. Auf diese Weise konnte er eine Veränderung der Nutzung von Instagram, vor allem im Sinne einer Steigerung der Nutzung durch die Parteien nachweisen. Crowdtangle verfügt auch über spezifische Monitoring- und Suchfunktionen (z. B. für Keywords), mit denen man sich einen Überblick über bestimmte Trends verschaffen kann (vgl. Rogers 2021, S. 14). Mittlerweile mehren sich die Anzeichen, dass Crowdtangle eingestellt wird. Neben langen Wartezeiten für die Verifizierung des Zugangs gibt es gegenwärtig auch operative Probleme bei der Nutzung (vgl. Albert 2022). Eine Alternative stellt das Marketing-Tool Inspiration Hub dar, das Facebook Ende 2021 gelauncht hat. Zudem wurde mit FORT nun eine Plattform eingerichtet, die Nutzer:innen einen „secure way for qualified users to access privacy-protected Facebook and Instagram data“ (FORT 2022) gewährleisten soll. Auf der einen Seite werden hier vorgefertigte Datensätze zur Verfügung gestellt, auf der anderen Seite sollen Wissenschaftler:innen über eine Researcher API ebenfalls Zugang auf die Datenarchive des Meta Konzerns erhalten. Bei der FORT-Plattform handelt es sich nach eigenen Angaben um „work in progress“ (vgl. FORT 2022). Es bleibt abzuwarten, in welchem Maße der Meta-Konzern in Zukunft den Datenzugang für Wissenschaftler:innen gestalten wird. In Bezug auf die Mediengrammatik zeigt sich ein gemischtes Bild. Während Crowdtangle ebenfalls via Scraping auf Ebene der Oberflächengrammatik agiert, kann FORT via API auf die Konstituentengrammatik der Plattform zugreifen. Sollte hier tatsächlich ein unbegrenzter Zugang zum Datenarchiv eingerichtet werden, würde dies eine Datenerhebung unabhängig von den Filtereffekten der Plattform ermöglichen, was die Datenqualität erhöhen würde.

d) Kommerzielle Tools

Neben den bereits aufgeführten Möglichkeiten existiert auch eine Vielzahl kommerzieller Tools wie Phantombuster, Apify Instagram Scraper, Scraping Bee oder Picodash. Diese Tools sind in der Regel nicht kostenfrei verfügbar. Einige verfügen allerdings über eine limitierte freie Version, wie bspw. Phantombuster. Phantombuster ermöglicht u. a. die Suche von Hashtags und Hashtagkombinationen, Account-Timelines sowie Follower/Followees-Beziehungen von spezifischen Accounts. Mit Phantombuster können für eine Anfrage bis zu 5000 Beiträge erhoben werden. Während die freie Version zunächst bis zu zwei Stunden Nutzungszeit pro Monat beinhaltet, sind es im Starter-Abo 20 und im Pro-Abo 80 Stunden. In einer eigenen Datenerhebung konnten mit der freien Version von Phantombuster 213.453 Instagram Postings zur Corona-Pandemie aus den Jahren 2020 und 2021 erhoben werden, sowohl von relevanten Akteuren (Massenmedien, Ministerien, Politiker:innen) als auch von Hashtag-Öffentlichkeiten (z. B. #maskenzwang, #ausgangsbeschränkung). Die kommerziellen Tools sind in der Regel sehr intuitiv, benötigen kein hohes Maß an Einarbeitung und sind dadurch nutzungsfreundlicher als die Programmiersprachen. Allerdings muss bei der Verwendung der kommerziellen Tools hinsichtlich der Datenqualität besonders umsichtig vorgegangen werden. Wie der Großteil der Tools operieren die kommerziellen Tools via Scraping auf Basis der Oberflächengrammatik. Allerdings kommen hier zusätzlich zu den Filterprozessen der Plattform Instagram auch die Filtereffekte der kommerziellen Tools selbst hinzu. So ist im Falle von Phantombuster oftmals unklar nach welchen Kriterien die Auswahl bestimmter Beiträge erfolgt. Daher bieten sich für diese Tools Erhebungen an, die unterhalb der maximalen Anzahl der zu erhebenden Beiträge liegen (wie Account-Timelines oder kleinere Hashtags). Im Falle von vielgenutzten Hashtags, welche die maximale Erhebungsanzahl überschreiten, besteht oftmals die Schwierigkeit, dass ältere Beiträge sich nicht gezielt erfassen lassen. Welche Datentypen konkret erhoben werden können, variiert je nach Tool. Mit Phantombuster können bspw. vor allem Text- und Metadaten (u. a. Caption, Post-ID, Post-URL, Anzahl Likes und Kommentare, Datum, Account-Name etc.), Follower-Informationen und Stories erhoben werden. Bilddaten sind bei der Erhebung von Accounts und Hashtags dagegen nicht bzw. nur indirekt verfügbar. Auch die Nutzung solcher kommerziellen Tools wird zunehmend von Instagram erkannt und z. B. mit der Sperrung der verwendeten Instagram-Accounts sanktioniert.

e) Datenspende

In den vergangenen Jahren hat sich die Datenspende zunehmend als eine alternative Erhebungsmöglichkeit von Social Media Daten etabliert (vgl. Breuer et al. 2020, S. 2073; Boeschoten et al. 2022). Dies geschieht vor dem rechtlichen Hintergrund der Allgemeinen Datenschutz-Verordnung, da Plattformen den Nutzer:innen persönlichen Zugang zu ihren Daten gewähren müssen. Instagram tut dies in Form sogenannter data download packages (DDP), die wiederum Wissenschaftler:innen zur Verfügung gestellt werden können. Die Datenspende ist damit eine Möglichkeit über den direkten Zugang zu den Nutzer:innen die Abhängigkeit der Wissenschaftler:innen von den Plattformen zu reduzieren (vgl. Halavais 2019). Mit der Fokussierung auf die Nutzer:innen handelt es sich bei der Datenspende um vertikale Datensätze, während mit den vorher vorgestellten Erhebungsoptionen in erster Linie horizontale Datensätze produziert werden (vgl. Menchen-Trevino 2013, S. 331).^{Footnote 5} Mit den Instagram-DDP können Nutzer:innen auf ihre Bild‑, Video- und Textdaten (Caption, Kommentare) sowie bestimmte Metadaten (z. B. ortsbezogene Daten) zugreifen. Besonders vorteilhaft an der Datenspende ist die Möglichkeit, digitale Verhaltensdaten mit bspw. Survey-Daten zu verbinden (vgl. Boeschoten et al. 2022, S. 407). Zwar stellt die Datenspende eine vielversprechende Möglichkeit für Wissenschaftler:innen zur Erhebung von Instagram-Daten dar, gleichwohl gehen damit auch eine Reihe von Herausforderungen einher. So weisen Boeschoten et al. (vgl. 2022, S. 396) auf die Vielzahl an Ebenen hin, bei denen Messfehler und Verzerrungseffekte bei der Spende von DDPs auftreten können. Beispielsweise kann ein Stichprobenbias auftreten, da die Bereitschaft zur Datenspende von bestimmten Variablen (z. B. dem Geschlecht) abhängen kann. Boeshoten et al. schlagen daher ein total error framework vor, um potenzielle Messfehler systematisch zu erfassen und bestmöglich zu kontrollieren. Prinzipiell kann mit der Datenspende von Instagram-Daten eine Vielzahl von kommunikationswissenschaftlich relevanten Fragestellungen erforscht werden, für die Nutzer:innen die zentrale Analysekategorie sind (vgl. auch Boeshoten 2022, S. 410). Besonders gewinnbringend kann dies für die Erforschung sensibler Themen sein, da hier die Datenerhebung sowohl in rechtlicher als auch in forschungsethischer Hinsicht qua informierter Einwilligung ein besonders hohes Niveau aufweist. Razi et al. (2022) nutzen beispielsweise die Datenspende, um Einblick in die Instagram-Nutzung von Jugendlichen und deren Risiken zu erhalten. Für Fragestellungen, die horizontale Datensätze voraussetzen, wie beispielsweise digitale Hashtag-Öffentlichkeiten, eignet sich diese Erhebungsform weniger.

4 Forschungsethische Implikationen

Die Erhebung von Instagram-Daten tangiert sowohl forschungsrechtliche (vgl. Tscherwinka 2013) als auch -ethische Aspekte (vgl. Tiidenberg 2018, S. 469; Pink und Lanzeni 2018, S. 3; Samuel und Buchanan 2020). Während Forscher:innen bei der Datenerhebung oftmals mit dem öffentlichen Charakter der Beiträge auf rechtlicher Ebene argumentieren, mehren sich zunehmend auch die Stimmen, die sich einen stärkeren forschungsethischen Diskurs über digitale Daten wünschen. Kozinets (vgl. 2020, S. 178) plädiert beispielsweise dafür, dass Nutzer:innen schnellstmöglich über die Forschung aufgeklärt werden müssen. Erst wenn die Transparenz und Datensicherheit geklärt sei, dürfe die jeweilige Untersuchung beginnen, die dann noch um Pseudonymisierungs- und Anonymisierungsschritte zu erweitern sei. Diese umfassen auch die Darstellung von Bildinhalten im Text, da hier oftmals Privatpersonen und sensible Inhalte abgebildet werden (bspw. im Selfie) (vgl. Ravn et al. 2019).

Im Falle von Instagram stellen sich noch mehr forschungsethische Fragen als bei anderen sozialen Medien. Dies hängt im Wesentlichen mit den Restriktionen zusammen, die der Meta-Konzern im Rahmen der APIcalypse umgesetzt hat. So untersagen die Plattformrichtlinien Instagrams die automatisierte Datenerhebung: „Du darfst nicht versuchen, auf unbefugte Art und Weise Konten zu erstellen oder auf Informationen zuzugreifen bzw. diese zu erheben. Dies umfasst u. a. das Erstellen von Konten oder das Erheben von Informationen auf automatisierte Weise ohne unsere ausdrückliche Einwilligung.“ (Instagram 2022) Zwar handelt es sich bei diesen Terms of Service (ToS) in erster Linie um forschungsrechtliche Fragen, gleichwohl gehen damit auch forschungsethische Implikationen einher. So können die ToS an dieser Stelle auch als ein Schutz der Nutzer:innen verstanden werden, die mit Recht erwarten können, dass Wissenschaftler:innen sich an die Bedingungen halten, zu denen sie die Plattform nutzen. Dennoch sind sich Nutzer:innen oftmals nicht bewusst, in welchem Maße die Plattformen oder Dritte ihre Daten weiterverwenden. Daher muss die informierte Einwilligung der Nutzer:innen^{Footnote 6} (informed consent) selbst als ein forschungsethisches Gütekriterium verstanden werden (vgl. Hutton und Henderson 2015; von Benzon 2019).

Während Halavais (vgl. 2019) eine Hinwendung zu den Nutzer:innen fordert, sieht Puschmann (vgl. 2019) in der stärkeren Kooperation mit den Plattformen große Potenziale für die Verbesserung forschungsethischer Standards. Vor diesem Hintergrund schlagen wir einen Mittelweg vor: Je nach Form der Datenerhebung und Ausrichtung des Forschungsprojektes müssen Nutzer:innen oder/und die Plattform berücksichtigt werden. Ausgehend vom Prinzip der Einwilligung^{Footnote 7} konzeptualisieren wir dies als ein Kontinuum mit zwei verschiedenen Polen. Auf der einen Seite stehen Forschungsprojekte, für die forschungsethisch in erster Linie eine Einwilligung der Nutzer:innen, auf der anderen Seite Projekte, für die eher eine Einwilligung der Plattform relevant ist. Bei der Nutzer:inneneinwilligung sehen wir Projekte, die ihre Daten manuell erheben, qualitativ arbeiten und in ihren Veröffentlichungen Originalbeiträge zitieren. Da die Plattformrichtlinien nur eine automatisierte Datenerhebung untersagen, ist eine Einwilligung der Plattform für diese Projekte nicht erforderlich. Da die Projekte allerdings ihre Daten und Ergebnisse weniger aggregiert darstellen und auch Originalbeiträge zu möglicherweise sensiblen Inhalten berichten wollen, ist hier die Einwilligung der Nutzer:innen von höherer forschungsethischer Relevanz. Dagegen ist die Einwilligung der Plattform vor allem für quantitative Forschungsprojekte bedeutsam, die in der Regel automatisierte Erhebungsverfahren einsetzen. Denn sie müssen nach den Plattformrichtlinien durch Instagram autorisiert werden. Da hier aber häufig nicht der einzelne Beitrag im Zentrum steht, sondern aggregierte Ergebnisdarstellungen und Analysen vorgenommen werden, die selbst schon eine Form der Anonymisierung darstellen, ist die Einwilligung der Nutzer:innen hier weniger relevant. Bei Datenmengen im Millionenbereich ist sie forschungsökonomisch auch nicht mehr umsetzbar. Im mittleren Bereich des Kontinuums lassen sich Erhebungen einordnen, die Kombinationen der beiden Pole darstellen: beispielsweise qualitative Studien, bei der Daten aber automatisiert erhoben und einzelne Beiträge im Detail analysiert werden sollen. Hier wäre forschungsethisch eine Einwilligung sowohl der Plattform als auch der Nutzer:innen ideal. Aus forschungsethischer Perspektive scheint es sich bei der Datenspende um die Erhebungsmethode mit den höchsten Standards zu handeln, die qua nicht-automatisierter Erhebung gegen keine Nutzungsrichtlinien verstößt und in dem die informierte Einwilligung im Zentrum der Erhebung steht.

5 Fazit

Die Erhebung von Instagram-Daten stellt Forscher:innen in mehrfacher Hinsicht vor besondere Herausforderungen – sowohl in Bezug auf die Erhebung selbst, aber auch in Bezug auf forschungsethische Fragestellungen. Forscher:innen müssen sich zwischen dem aufwendigen Verfahren der manuellen Erhebung (oftmals zu Lasten der Datenmenge), den automatisierten Verfahren mit freien Programmiersprachen oder kommerziellen Tools (die allerdings ohne dezidierte Einwilligung gegen die Plattformrichtlinien verstoßen), Tools des Meta-Konzerns und der Datenspende entscheiden (vgl. Tab. 1).

Tab. 1 Arten der Erhebung von Instagram-Daten im Vergleich

Full size table

Die Entscheidung für eine bestimmte Erhebungsmethode ist sehr individuell und je nach dem konkreten Forschungsinteresse zu treffen. Die angestrebten Datenarten, die vorhanden Ressourcen und Vorkenntnisse in Programmiersprachen oder der methodologische Anschluss können hier als Entscheidungskriterien dienen (vgl. Breuer et al. 2020, S. 2064). Hinzu kommen forschungsethische und -rechtliche Dimensionen, die bei der Erhebung von Instagram-Daten durch das dezidierte Verbot automatisierter Datenerhebung in den Nutzungsrichtlinien besonders komplex sind. Diese Schwierigkeiten werden durch die Schnelllebigkeit der Plattform, aber auch der Tools gesteigert. So fällt in längeren Prozessen der Datenerhebung oftmals schon eine Veränderung der Funktionsfähigkeit der eingesetzten Tools auf. Daher haben wir in diesem Beitrag Erhebungsformen und einzelne Tools unterschieden. Insgesamt wäre hier eine langfristige, dauerhafte Lösung wünschenswert. Es bleibt daher zu hoffen, dass Meta im Rahmen der FORT Plattform seinen Zugang für Wissenschaftler:innen ausbaut. Dies ist für die Erforschung digitaler Kommunikation in den meistgenutzten sozialen Medien dringend notwendig.

Notes

Am 09.Februar 2023 wurde die Twitter API v2 monetarisiert, was prinzipiell auch die Arbeit von Wissenschaftler:innen betrifft. Am 30. März 2023 kündigte Twitter für die Wissenschaft „new ways to continue serving this community an“ (https://twitter.com/TwitterDev/status/1641222788911624192). Im Juni 2023, d. h. kurz vor der Veröffentlichung des Artikels, konnten die Verfasser:innen noch kostenfreie Datenerhebungen mit dem Academic Research access tätigen. Es bleibt abzuwarten, ob auch in Zukunft der freie Zugang zu Twitter-Daten für Wissenschaftler:innen gewährleistet sein wird.
Zu nennen sind hier u. a. das Social Media Observatory des Hans-Bredow-Instituts (HBI) oder das Social Media Research Toolkit.
Die Beitragsebenen können ferner auch im Zusammenhang mit bestimmten Analyseformen stehen: So kann beispielsweise auf Post-Ebene eine Kombination aus Inhalts- und Bildinhaltsanalyse eingesetzt werden (vgl. Geise und Rössler 2013), während auf der Profilebene auch eine Analyse der direkten Bild-Bild-Kontexte mit der Bildclusteranalyse von Müller (vgl. 2016) möglich ist.
Eine umfangreichere Übersicht findet sich im Wiki des Social Media Observatory des HBI: https://smo-wiki.leibniz-hbi.de/Instagram-Tools.
Horizontale Datensätze hängen mit einer spezifischen digitalen Datenspur wie bspw. einem Hashtag (aber auch Follower:innen, Suchbegriffe) zusammen und können ggf. sogar vollständig und in der Regel ohne Einwilligung der Nutzer:innen erhoben werden. Vertikale Datensätze orientieren sich dagegen an den Proband:innen, die ihre digitalen Datenspuren auch über mehrere Anwendungen mit Wissenschaftler:innen teilen (vgl. Menchen-Trevino 2013, S. 331).
Hier sind vor allem die Accounts von Privatpersonen gemeint, nicht die von Institutionen, Organisationen oder Unternehmen.
Außerhalb der empirischen Plattformforschung, bspw. in Befragungsverfahren oder Experimenten, ist die Einwilligung der Befragten forschungsethischer und -rechtlicher Standard.

Literatur

Albert, J. (2022). Facebook demontiert CrowdTangle: Mehr Transparenz durch schlechteren Datenzugang? https://algorithmwatch.org/de/facebook-crowdtangle/. Zugegriffen: 13.06.2023.
von Benzon, N. (2019). Informed consent and secondary data: reflections on the use of mothers’ blogs in social media research. Area, 51(1), 182–189. https://doi.org/10.1111/area.12445.
Article Google Scholar
Boeschoten, L., Ausloos, J., Möller, J. E., Araujo, T., & Oberski, D. L. (2022). A framework for privacy preserving digital trace data collection through data donation. Computational Communication Research, 4(2), 388–423. https://doi.org/10.5117/CCR2022.2.002.BOES.
Article Google Scholar
Breuer, J., Bishop, L., & Kinder-Kurlanda, K. (2020). The practical and ethical challenges in acquiring and sharing digital trace data: negotiating public-private partnerships. New Media & Society, 22(11), 2058–2080.
Article Google Scholar
Bruns, A. (2019). After the ‘APIcalypse’: social media platforms and their fight against critical scholarly research. Information, Communication & Society, 22(11), 1544–1566. https://doi.org/10.1080/1369118X.2019.1637447.
Article Google Scholar
Clever, L., Schatto-Eckrodt, T., Clever, N., & Frischlich, L. (2023). Behind blue skies: a multimodal automated content analysis of islamic extremist propaganda on Instagram. Social Media + Society, 9(1). https://doi.org/10.1177/20563051221150404.
Article Google Scholar
Couldry, N., & Hepp, A. (2016). The mediated construction of reality: society, culture, mediatization. Cambridge: Polity.
Google Scholar
FORT (2022). Researcher Platform. https://fort.fb.com/researcher-platform. Zugegriffen: 22.10.2022.
Freelon, D. (2018). Computational research in the post-API age. Political Communication, 35(4), 665–668.
Article Google Scholar
Geise, S., & Rössler, P. (2013). Standardisierte Bildinhaltsanalyse. In W. Möhring & D. Schlütz (Hrsg.), Handbuch standardisierte Erhebungsverfahren in der Kommunikationswissenschaft (S. 307–326). Wiesbaden: Springer VS.
Chapter Google Scholar
Graf, A., & Koch-Kramer, A. (2020). Instaloader. https://github.com/instaloader/instaloader. Zugegriffen: 13.06.2023.
Halavais, A. (2019). Overcoming terms of service: a proposal for ethical distributed research. Information, Communication & Society, 22(11), 1567–1581. https://doi.org/10.1080/1369118X.2019.1627386.
Article Google Scholar
Harrison, J., & Yeong Kim, J. (2022). RSelenium 1.7.9. https://cran.r-project.org/web/packages/RSelenium/index.html. Zugegriffen: 13.06.2023.
Hepp, A. (2020). Deep mediatization. London: Routledge.
Google Scholar
Hutton, L., & Henderson, T. (2015). “I didn’t sign up for this!” Informed consent in social network research. In Proceedings of the ninth international AAAI conference on web and social media (ICWSM) (S. 178–187). Palo Alto: The AAAI Press.
Google Scholar
Instagram (2022). Nutzungsbedingungen und Impressum. https://help.instagram.com/581066165581870. Zugegriffen: 13.06.2023.
Kozinets, R. V. (2020). Netnography: the essential guide to qualitative social media research. London: SAGE.
Book Google Scholar
Larsson, A. O. (2021). The rise of Instagram as a tool for political communication: a longitudinal study of European political parties and their followers. New Media & Society. https://doi.org/10.1177/14614448211034158.
Article Google Scholar
Menchen-Trevino, E. (2013). Collecting vertical trace data: big possibilities and big challenges for multi-method research. Policy & Internet, 5(3), 328–339. https://doi.org/10.1002/1944-2866.poi336.
Article Google Scholar
Müller, M. R. (2016). Bildcluster: Zur Hermeneutik einer veränderten sozialen Gebrauchsweise der Fotografie. Sozialer Sinn, 17(1), 95–141.
Article Google Scholar
Muthukadan, B. (2023). Selenium. https://github.com/baijum/selenium-python. Zugegriffen: 13.06.2023.
Pink, S., & Lanzeni, D. (2018). Future anthropology ethics and datafication: temporality and responsibility in research. Social Media + Society, 4(2). https://doi.org/10.1177/2056305118768298.
Article Google Scholar
Puschmann, C. (2019). An end to the wild west of social media research: a response to Axel Bruns. Information, Communication & Society, 22(11), 1582–1589. https://doi.org/10.1080/1369118X.2019.1646300.
Article Google Scholar
Ravn, S., Barnwell, A., & Barbosa Neves, B. (2019). What is “publicly available data”? Exploring blurred public–private boundaries and ethical practices through a case study on Instagram. Journal of Empirical Research on Human Research Ethics, 15(1–2), 40–45.
Google Scholar
Razi, A., AlSoubai, A., Kim, S., Naher, N., Ali, S., Stringhini, G., De Choudhury, M., & Wisniewski, P. (2022). Instagram Data Donation: A Case Study on Collecting Ecologically Valid Social Media Data for the Purpose of Adolescent Online Risk Detection. https://stirlab.org/wp-content/uploads/IGDD_CHI_Case_Study-1.pdf. Case Study at the ACM CHI Conference on Human Factors in Computing System. Zugegriffen: 13.06.2023.
Rogers, R. (2021). Visual media analysis for Instagram and other online platforms. Big Data & Society, 8(1). https://doi.org/10.1177/20539517211022370.
Article Google Scholar
Samuel, G., & Buchanan, E. (2020). Guest Editorial: Ethical Issues in Social Media Research. Journal of Empirical Research on Human Research Ethics, 15(1–2), 3–11. https://doi.org/10.1177/1556264619901215.
Thimm, C. (2018). Media technology and media logic(s): the media grammar approach. In C. Thimm, M. Anastasiadis & J. Einspänner-Pflock (Hrsg.), Media logics revisited. Modelling the interplay between media institutions, media technology and societal change (S. 111–132). Basingstoke: Palgrave Macmillan.
Google Scholar
Thimm, C. (2019). Diskurspraktiken in algorithmisierten Welten – Zur Entwicklung einer Mediengrammatik digitaler Plattformen. In P. Steen & F. Liedtke (Hrsg.), Diskurs der Daten (S. 77–96). Berlin: De Gruyter.
Chapter Google Scholar
Thimm, C., & Nehls, P. (2017). Sharing grief and mourning on Instagram: digital patterns of family memories. Communications. The European Journal of Communication Research, 42(3), 327–349.
Google Scholar
Tiidenberg, K. (2018). Ethics in digital research. In U. Flick (Hrsg.), The Sage handbook of qualitative data collection (S. 466–481). London: SAGE.
Chapter Google Scholar
Tscherwinka, R. (2013). Soziale Medien – Gegenstand und Instrument der Forschung. Rechtliche Aspekte. In C. König, M. Stahl & E. Wiegand (Hrsg.), Soziale Medien. Gegenstand und Instrument der Forschung (S. 195–237). Wiesbaden: Springer VS.
Google Scholar

Download references

Förderung

Diese Arbeit entstand im Rahmen des Forschungsprojektes „Plattformöffentlichkeit(en) in der Pandemie: Informations- und Desinformationsdiskurse auf Instagram“, das im Rahmen der TRA 4-Sonderförderlinie zur Corona-Pandemie von der Universität Bonn gefördert wurde.

Funding

Open Access funding enabled and organized by Projekt DEAL.

Author information

Authors and Affiliations

Abteilung für Medienwissenschaft, Institut für Sprach‑, Medien- und Musikwissenschaft, Rheinische Friedrich-Wilhelms-Universität Bonn, Lennéstraße 1, Bonn, Deutschland
Yannik Peters M.A., Patrick Nehls M.A. & Caja Thimm

Authors

Yannik Peters M.A.
View author publications
You can also search for this author in PubMed Google Scholar
Patrick Nehls M.A.
View author publications
You can also search for this author in PubMed Google Scholar
Caja Thimm
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Yannik Peters M.A..

Rights and permissions

Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.

Reprints and permissions

About this article

Cite this article

Peters, Y., Nehls, P. & Thimm, C. Plattformforschung mit Instagram-Daten – Eine Übersicht über analytische Zugänge, digitale Erhebungsverfahren und forschungsethische Perspektiven in Zeiten der APIcalypse. Publizistik 68, 225–239 (2023). https://doi.org/10.1007/s11616-023-00786-8

Download citation

Received: 14 December 2022
Accepted: 17 May 2023
Published: 28 June 2023
Issue Date: September 2023
DOI: https://doi.org/10.1007/s11616-023-00786-8

Plattformforschung mit Instagram-Daten – Eine Übersicht über analytische Zugänge, digitale Erhebungsverfahren und forschungsethische Perspektiven in Zeiten der APIcalypse

Zusammenfassung

Abstract

1 Einleitung

2 Zur Mediengrammatik von Instagram

3 Erhebungsoptionen von Instagram-Daten

a) Manuelle Erhebung von Instagram-Daten

b) Freie Programmiersprachen

c) Meta-Tools

d) Kommerzielle Tools

e) Datenspende

4 Forschungsethische Implikationen

5 Fazit

Notes

Literatur

Förderung

Funding

Author information

Authors and Affiliations

Corresponding author

Rights and permissions

About this article

Cite this article

Schlüsselwörter

Keywords

Navigation

Plattformforschung mit Instagram-Daten – Eine Übersicht über analytische Zugänge, digitale Erhebungsverfahren und forschungsethische Perspektiven in Zeiten der APIcalypse

Zusammenfassung

Abstract

1 Einleitung

2 Zur Mediengrammatik von Instagram

3 Erhebungsoptionen von Instagram-Daten

a) Manuelle Erhebung von Instagram-Daten

b) Freie Programmiersprachen

c) Meta-Tools

d) Kommerzielle Tools

e) Datenspende

4 Forschungsethische Implikationen

5 Fazit

Notes

Literatur

Förderung

Funding

Author information

Authors and Affiliations

Corresponding author

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Search

Navigation