1 Einleitung

Die Foto- und Video-Sharing-Plattform Instagram hat sich in den vergangenen Jahren zu einem der meistgenutzten sozialen Medien weltweit entwickelt. Die daraus abzuleitende Bedeutung, die Instagram für die mediale Konstruktion der Wirklichkeit in tiefgreifend mediatisierten Gesellschaften einnimmt (vgl. Couldry und Hepp 2016; Hepp 2020), spiegelt sich gegenwärtig noch nicht in der empirischen Forschung wider. Hier scheint Instagram im Vergleich zu anderen Plattformen noch unterrepräsentiert zu sein. Dies hängt neben anderen Faktoren sicherlich auch mit den Hürden zusammen, die mit der Erhebung von Instagram-Daten einhergehen. Während der Microblogging-Dienst Twitter, zumindest bis zum Kauf der Plattform durch Elon Musk, den Zugang zu seinen Datenarchiven für Wissenschaftler:innen weiter erleichtert hatFootnote 1 und das Videoportal TikTok im November 2022 die Beta Version einer API (Application Programming Interface) für Forschungszwecke veröffentlichte, schränkte Facebook in Folge der Skandalisierung des Falles um „Cambridge Analytica“ den freien Zugang zu seinen Daten via API stark ein (vgl. Freelon 2018; Kozinets 2020, S. 164). Diese Entwicklung, die von Bruns (vgl. 2019) als APIcalypse bezeichnet wird, gilt mittlerweile für sämtliche soziale Medien des Meta-Konzerns und damit auch für Instagram. Hier setzt der Artikel an und möchte einen Überblick über die derzeit vorhandenen Möglichkeiten der Datenerhebung für Instagram geben. Dafür wird zunächst in die Mediengrammatik (vgl. Thimm 2018, 2019) von Instagram eingeführt, um die verschiedenen Funktionalitäten und analytischen Zugänge zur Plattform aufzuzeigen (Kap. 2). Dieser Ansatz hilft die im Anschluss vorgestellten Möglichkeiten der Erhebung von Instagram-Daten zu differenzieren und theoretisch zu rahmen (Kap. 3). Die Unterscheidung wesentlicher Erhebungsstrategien, nicht die Vorstellung sämtlicher Erhebungs-Tools, ist somit das primäre Ziel dieses Artikels. Denn es existieren bereits eine Reihe von Datenbanken, die einen Gesamtüberblick der Tools zu geben versuchen.Footnote 2 Vielmehr soll der Beitrag helfen, Wissenschaftler:innen mit einem Orientierungswissen auszustatten. So bieten sich je nach Forschungsfrage und Vorkenntnissen unterschiedliche Erhebungsstrategien an. Zum Abschluss werden die forschungsethischen Implikationen der Erhebung von Instagram-Daten diskutiert (Kap. 4).

2 Zur Mediengrammatik von Instagram

Das Konzept der Mediengrammatik verweist sowohl auf Produktions- als auch auf semiotischer Ebene auf „mediensystematische[n] Eigenschaften und Regeln, die das Medium als konstitutive und regulative Determinanten formieren und seine Nutzungsoptionen regeln“ (Thimm 2019, S. 85). Für Social-Media-Plattformen (SMP) lassen sich zwei Formen der Mediengrammatik unterscheiden: die Oberflächengrammatik (surface grammar) und die Konstituentengrammatik (constitutive property grammar) (vgl. Thimm 2018, S. 124). Als Oberflächengrammatik wird die Form der Mediengrammatik verstanden, die für Nutzer:innen zugänglich ist. In erster Linie ist damit das dynamische Interface der Plattform gemeint, das den Möglichkeitshorizont digitaler Kommunikation determiniert. Die Konstituentengrammatik (wie Algorithmen, Code) kann dagegen als konstitutiv für das Medium selbst angesehen werden. Sie bestimmt die konkrete Ausformung der Oberflächengrammatik, bleibt dabei aber für Nutzer:innen „unzugänglich und kann auch nicht von ihm [ihr] modifiziert werden“ (Thimm 2019, S. 86).

Im Zentrum der Oberflächengrammatik von Instagram stehen die Beiträge, die Nutzer:innen via App oder Browser teilen können. Instagram-Postings müssen, anders als bei Twitter oder Facebook, mit einem visuellen Anteil versehen sein. Es können Einzelbilder, Bilderreihen, Collagen oder Videos eingesetzt werden. Neben diesen klassischen Bild- oder Video-Posts ermöglicht Instagram mit sogenannten Stories, die maximal 24 h im Profil einsehbar sind, und Reels, die bearbeitete 15-sekündige Kurzvideos darstellen, weitere multimediale Darstellungsformen von Inhalten.

Je nach Darstellungsebene werden Instagram-Beiträge in unterschiedlicher Art und Weise visualisiert. Dabei kann man grundlegend zwischen der Profilebene, der Post-Ebene, der Feed-Ebene und der Suchebene differenzieren (siehe Abb. 1). Die verschiedenen Beitragsebenen der Plattform lassen sich als unterschiedliche Ausprägungen von Bild-Text- und Bild-Bild-Beziehungen verstehen. Abb. 2 zeigt den direkten Vergleich von Profil- und Post-Ebene. Während auf der Profilebene in erster Linie Bild-Bild-Beziehungen dargestellt werden, stehen auf der Post-Ebene Bild-Text-Beziehungen im Vordergrund.

Abb. 1
figure 1

Beitragsebenen von Instagram (Browser-Ansicht)

Abb. 2
figure 2

Informationen der Oberflächengrammatik (Browser-Ansicht)

Im Kontrast zur bisher dargestellten Browser-Ansicht ergänzen in der App-Ansicht die textuellen Elemente erst nachträglich das Bild. Am ehesten entspricht die App-Ansicht der Feed-Ebene der Browser-Ansicht, auch hier ist das aktive Scrollen zentraler Rezeptionsmodus. Die Beschreibung der Mediengrammatik der Plattform Instagram ist insofern für die Erhebung von Instagram-Daten von Bedeutung, als sie eine Differenzierung der Erhebungsmöglichkeiten über die Oberflächengrammatik (vermittelt via Software, unvermittelt via Screenshots) oder die Konstituentengrammatik (API-Zugang) der Plattform ermöglicht. Ferner unterscheiden sich die nachfolgend vorgestellten Tools auch in ihren Möglichkeiten des Zugriffs auf die Beitragsebenen.Footnote 3

3 Erhebungsoptionen von Instagram-Daten

Es kann zwischen fünf Formen der Datenerhebung unterschieden werden: a) manuelle Erhebung, b) Nutzung freier Programmiersprachen, c) Verwendung von Tools des Meta-Konzerns, d) Gebrauch von kommerziellen Erhebungs-Tools und e) Bitten um Datenspende. Diese Systematisierung weist Überschneidungen zu bestehenden Typologien auf (vgl. Breuer et al. 2020, S. 2064). Während Breuer et al. jedoch auf Grundlage der Partnerschaft von Forschenden und Plattform eine eher allgemeinere Einteilung für sämtliche Plattformen vorlegen, nehmen wir hier besonders die Spezifika der Plattform Instagram in den Blick (z. B. Meta Tools als Erhebungsform).

a) Manuelle Erhebung von Instagram-Daten

Die manuelle Erhebung von Instagram-Daten erfolgt via Browser oder App auf der Plattform selbst. Für die Erhebung von Bildern und Stories und zum Speichern sämtlicher relevanter Daten bieten sich Screenshots der Beiträge an. Video-Formate wie Reels können via Bildschirmaufnahme erhoben werden. Mit der manuellen Erhebung lassen sich lediglich die Meta-Daten erheben, die auf der Plattform selbst dargestellt werden (z. B. Datum der Veröffentlichung, Account-Name etc.). Im Anschluss können die Inhalte von Beiträgen in ein gängiges Datenbearbeitungs- und Analyseprogramm wie MS-Excel oder R überführt werden. Diese manuelle Form der Datenerhebung benötigt lediglich einen aktiven Instagram-Account, es sind keine Programmierkenntnisse notwendig. Im Sinne der Mediengrammatik bewegt sich die Erhebung damit auf der Oberflächengrammatik der Plattform, weswegen prinzipiell sämtliche Beitragsebenen zu erheben sind. Dies bedingt allerdings, dass die Beiträge auch in der Form erhoben werden, in der sie den Nutzenden angezeigt werden. Die Datenerhebung beruht damit auf spezifischen Medienlogiken der Oberflächengrammatik. Daher können bei der Erhebung von Beiträgen eines Hashtags die Filtereffekte auftreten, denen der jeweils verwendete Instagram-Account, über den auf die Inhalte zugegriffen wird, selbst unterliegt. Es kann je nach Forschungsfrage und Studiendesign sowohl gewünscht wie unerwünscht sein, Daten zu erheben, die potenziell Filterprozesse durchlaufen (bspw. sind Filterprozesse erwünscht, wenn sie selbst Gegenstand der Untersuchung sind). Im Gegensatz zu den anderen Erhebungsverfahren, kann hier auch die plattformspezifische Visualisierung der Beitragsebenen (s. Abb. 1 und 2) erhoben werden. Da es sich um eine zeitintensive Erhebungsform handelt, bietet sie sich in erster Linie für kleinere Datenerhebungen und qualitative Studien an. Thimm und Nehls (vgl. 2017, S. 335) haben beispielsweise eine manuelle Erhebung von 449 Postings zum #beerdigung vorgenommen. Im Anschluss haben sie mit einer Inhaltsanalyse von Bild- und Textdaten die Konstruktion und Visualisierung von Trauer, Erinnerung und Familienidentität untersucht.

b) Freie Programmiersprachen

Mit freien Programmiersprachen wie Python oder R lassen sich Instagram-Daten ebenfalls erheben. Zu diesem Zweck werden Module oder Pakete erstellt. Das bekannteste Tool stellt das Python-Modul Instaloader (vgl. Graf und Koch-Kramer 2020) dar (in R = instaloadeR). Mit Instaloader können Profilinformationen und -beiträge, Stories und Videos, aber auch die Beiträge von bestimmten Hashtags sowie Kommentare erhoben werden. Hinzu kommen Meta-Daten (etwa Anzahl der Likes, Kommentare, URLs, Profilinformationen etc.) und Listen über Follower- und Followee-Beziehungen von bestimmten Accounts. Die Nutzung von Instaloader setzt ein gewisses Maß an Programmierkenntnissen voraus. Während die reine Erhebung der Instagram-Daten noch sehr anschaulich auf GitHub beschrieben wird, ist vor allem das data wrangling mit den voneinander getrennt erhobenen Formaten aus Bild- und Textdateien anspruchsvoller. Neben Instaloader existieren eine Reihe weiterer Tools auf Python und R (etwa Instagram-Scraper, Instaphyte, Instalooter, Instagram Private API etc.), die sich in ihren Erhebungsmöglichkeiten verhältnismäßig ähnlich sind.Footnote 4 Clever et al. (vgl. 2023, S. 4) nutzten beispielsweise das Tool Instamancer für die Erhebung von 1187 Postings des Accounts Generation Islam, um die (islamistische) Propaganda und Missinformation durch die Gruppe zu untersuchen. Im Anschluss analysierten sie die in den Beiträgen verwendeten Hashtags mit einer Netzwerkanalyse, die Bild- und Textinhalte mit Natural Language Processing, Image Sentiment Analysis und Deep Learning-Verfahren. Es kann auch versucht werden, mit reinen Scraping-Paketen Instagram-Daten zu erheben wie bspw. Selenium in Python (vgl. Muthukadan 2023) oder RSelenium in R (vgl. Harrison und Yeong Kim 2022). Da das automatisierte Scraping ohne Einwilligung der Plattform untersagt ist (s. Kap. 4), kann es bei der Nutzung dieser Tools zu Komplikationen kommen. So sperrt Instagram ab einer gewissen Menge automatisiert erhobener Daten die mit Instaloader verbundenen Accounts. Dies sollte für die Nutzung der Tools in den freien Programmiersprachen beachtet werden. In Bezug auf die Mediengrammatik ist festzustellen, dass die Datenerhebung via Scraping ebenfalls auf Basis der Oberflächengrammatik erfolgt. Im Gegensatz zur Datenerhebung via Screenshots liegen hier die Daten jedoch nicht in den jeweiligen Visualisierungsformen vor, wie sie für die Nutzer:innen selbst dargestellt werden. Vielmehr werden die Daten in verschiedenen Dateiformaten getrennt voneinander gespeichert (z. B. json- oder txt-Dateien).

c) Meta-Tools

Bei den Meta-Tools handelt es sich um diejenigen Anwendungen, die vom Meta-Konzern selbst stammen. In den vergangenen Jahren fungierte das Monitoring-Tool Crowdtangle als von Meta gestützter Zugang zu Instagram-Daten. Um darauf zugreifen zu können, müssen sich Wissenschaftler:innen um einen Zugang bewerben. Dabei werden Forschungsprojekte zu Themen wie Desinformation, Wahlen oder Corona bevorzugt. Crowdtangle erhebt automatisiert Daten von über zwei Millionen öffentlichen Instagram-Accounts, die mehr als 50.000 Follower aufweisen. Daher bietet es sich vor allem für Forschungsprojekte an, die eine akteurszentrierte Perspektive einnehmen und etwa kommunikationswissenschaftliche Fragestellungen der politischen Kommunikation, der Unternehmenskommunikation oder des (digitalen) Agenda Setting untersuchen. Larsson (vgl. 2021, S. 4) hat beispielsweise mit Crowdtangle 186.405 Postings von 285 europäischen Parteien im Zeitraum von 2012 bis 2018 erhoben. Auf diese Weise konnte er eine Veränderung der Nutzung von Instagram, vor allem im Sinne einer Steigerung der Nutzung durch die Parteien nachweisen. Crowdtangle verfügt auch über spezifische Monitoring- und Suchfunktionen (z. B. für Keywords), mit denen man sich einen Überblick über bestimmte Trends verschaffen kann (vgl. Rogers 2021, S. 14). Mittlerweile mehren sich die Anzeichen, dass Crowdtangle eingestellt wird. Neben langen Wartezeiten für die Verifizierung des Zugangs gibt es gegenwärtig auch operative Probleme bei der Nutzung (vgl. Albert 2022). Eine Alternative stellt das Marketing-Tool Inspiration Hub dar, das Facebook Ende 2021 gelauncht hat. Zudem wurde mit FORT nun eine Plattform eingerichtet, die Nutzer:innen einen „secure way for qualified users to access privacy-protected Facebook and Instagram data“ (FORT 2022) gewährleisten soll. Auf der einen Seite werden hier vorgefertigte Datensätze zur Verfügung gestellt, auf der anderen Seite sollen Wissenschaftler:innen über eine Researcher API ebenfalls Zugang auf die Datenarchive des Meta Konzerns erhalten. Bei der FORT-Plattform handelt es sich nach eigenen Angaben um „work in progress“ (vgl. FORT 2022). Es bleibt abzuwarten, in welchem Maße der Meta-Konzern in Zukunft den Datenzugang für Wissenschaftler:innen gestalten wird. In Bezug auf die Mediengrammatik zeigt sich ein gemischtes Bild. Während Crowdtangle ebenfalls via Scraping auf Ebene der Oberflächengrammatik agiert, kann FORT via API auf die Konstituentengrammatik der Plattform zugreifen. Sollte hier tatsächlich ein unbegrenzter Zugang zum Datenarchiv eingerichtet werden, würde dies eine Datenerhebung unabhängig von den Filtereffekten der Plattform ermöglichen, was die Datenqualität erhöhen würde.

d) Kommerzielle Tools

Neben den bereits aufgeführten Möglichkeiten existiert auch eine Vielzahl kommerzieller Tools wie Phantombuster, Apify Instagram Scraper, Scraping Bee oder Picodash. Diese Tools sind in der Regel nicht kostenfrei verfügbar. Einige verfügen allerdings über eine limitierte freie Version, wie bspw. Phantombuster. Phantombuster ermöglicht u. a. die Suche von Hashtags und Hashtagkombinationen, Account-Timelines sowie Follower/Followees-Beziehungen von spezifischen Accounts. Mit Phantombuster können für eine Anfrage bis zu 5000 Beiträge erhoben werden. Während die freie Version zunächst bis zu zwei Stunden Nutzungszeit pro Monat beinhaltet, sind es im Starter-Abo 20 und im Pro-Abo 80 Stunden. In einer eigenen Datenerhebung konnten mit der freien Version von Phantombuster 213.453 Instagram Postings zur Corona-Pandemie aus den Jahren 2020 und 2021 erhoben werden, sowohl von relevanten Akteuren (Massenmedien, Ministerien, Politiker:innen) als auch von Hashtag-Öffentlichkeiten (z. B. #maskenzwang, #ausgangsbeschränkung). Die kommerziellen Tools sind in der Regel sehr intuitiv, benötigen kein hohes Maß an Einarbeitung und sind dadurch nutzungsfreundlicher als die Programmiersprachen. Allerdings muss bei der Verwendung der kommerziellen Tools hinsichtlich der Datenqualität besonders umsichtig vorgegangen werden. Wie der Großteil der Tools operieren die kommerziellen Tools via Scraping auf Basis der Oberflächengrammatik. Allerdings kommen hier zusätzlich zu den Filterprozessen der Plattform Instagram auch die Filtereffekte der kommerziellen Tools selbst hinzu. So ist im Falle von Phantombuster oftmals unklar nach welchen Kriterien die Auswahl bestimmter Beiträge erfolgt. Daher bieten sich für diese Tools Erhebungen an, die unterhalb der maximalen Anzahl der zu erhebenden Beiträge liegen (wie Account-Timelines oder kleinere Hashtags). Im Falle von vielgenutzten Hashtags, welche die maximale Erhebungsanzahl überschreiten, besteht oftmals die Schwierigkeit, dass ältere Beiträge sich nicht gezielt erfassen lassen. Welche Datentypen konkret erhoben werden können, variiert je nach Tool. Mit Phantombuster können bspw. vor allem Text- und Metadaten (u. a. Caption, Post-ID, Post-URL, Anzahl Likes und Kommentare, Datum, Account-Name etc.), Follower-Informationen und Stories erhoben werden. Bilddaten sind bei der Erhebung von Accounts und Hashtags dagegen nicht bzw. nur indirekt verfügbar. Auch die Nutzung solcher kommerziellen Tools wird zunehmend von Instagram erkannt und z. B. mit der Sperrung der verwendeten Instagram-Accounts sanktioniert.

e) Datenspende

In den vergangenen Jahren hat sich die Datenspende zunehmend als eine alternative Erhebungsmöglichkeit von Social Media Daten etabliert (vgl. Breuer et al. 2020, S. 2073; Boeschoten et al. 2022). Dies geschieht vor dem rechtlichen Hintergrund der Allgemeinen Datenschutz-Verordnung, da Plattformen den Nutzer:innen persönlichen Zugang zu ihren Daten gewähren müssen. Instagram tut dies in Form sogenannter data download packages (DDP), die wiederum Wissenschaftler:innen zur Verfügung gestellt werden können. Die Datenspende ist damit eine Möglichkeit über den direkten Zugang zu den Nutzer:innen die Abhängigkeit der Wissenschaftler:innen von den Plattformen zu reduzieren (vgl. Halavais 2019). Mit der Fokussierung auf die Nutzer:innen handelt es sich bei der Datenspende um vertikale Datensätze, während mit den vorher vorgestellten Erhebungsoptionen in erster Linie horizontale Datensätze produziert werden (vgl. Menchen-Trevino 2013, S. 331).Footnote 5 Mit den Instagram-DDP können Nutzer:innen auf ihre Bild‑, Video- und Textdaten (Caption, Kommentare) sowie bestimmte Metadaten (z. B. ortsbezogene Daten) zugreifen. Besonders vorteilhaft an der Datenspende ist die Möglichkeit, digitale Verhaltensdaten mit bspw. Survey-Daten zu verbinden (vgl. Boeschoten et al. 2022, S. 407). Zwar stellt die Datenspende eine vielversprechende Möglichkeit für Wissenschaftler:innen zur Erhebung von Instagram-Daten dar, gleichwohl gehen damit auch eine Reihe von Herausforderungen einher. So weisen Boeschoten et al. (vgl. 2022, S. 396) auf die Vielzahl an Ebenen hin, bei denen Messfehler und Verzerrungseffekte bei der Spende von DDPs auftreten können. Beispielsweise kann ein Stichprobenbias auftreten, da die Bereitschaft zur Datenspende von bestimmten Variablen (z. B. dem Geschlecht) abhängen kann. Boeshoten et al. schlagen daher ein total error framework vor, um potenzielle Messfehler systematisch zu erfassen und bestmöglich zu kontrollieren. Prinzipiell kann mit der Datenspende von Instagram-Daten eine Vielzahl von kommunikationswissenschaftlich relevanten Fragestellungen erforscht werden, für die Nutzer:innen die zentrale Analysekategorie sind (vgl. auch Boeshoten 2022, S. 410). Besonders gewinnbringend kann dies für die Erforschung sensibler Themen sein, da hier die Datenerhebung sowohl in rechtlicher als auch in forschungsethischer Hinsicht qua informierter Einwilligung ein besonders hohes Niveau aufweist. Razi et al. (2022) nutzen beispielsweise die Datenspende, um Einblick in die Instagram-Nutzung von Jugendlichen und deren Risiken zu erhalten. Für Fragestellungen, die horizontale Datensätze voraussetzen, wie beispielsweise digitale Hashtag-Öffentlichkeiten, eignet sich diese Erhebungsform weniger.

4 Forschungsethische Implikationen

Die Erhebung von Instagram-Daten tangiert sowohl forschungsrechtliche (vgl. Tscherwinka 2013) als auch -ethische Aspekte (vgl. Tiidenberg 2018, S. 469; Pink und Lanzeni 2018, S. 3; Samuel und Buchanan 2020). Während Forscher:innen bei der Datenerhebung oftmals mit dem öffentlichen Charakter der Beiträge auf rechtlicher Ebene argumentieren, mehren sich zunehmend auch die Stimmen, die sich einen stärkeren forschungsethischen Diskurs über digitale Daten wünschen. Kozinets (vgl. 2020, S. 178) plädiert beispielsweise dafür, dass Nutzer:innen schnellstmöglich über die Forschung aufgeklärt werden müssen. Erst wenn die Transparenz und Datensicherheit geklärt sei, dürfe die jeweilige Untersuchung beginnen, die dann noch um Pseudonymisierungs- und Anonymisierungsschritte zu erweitern sei. Diese umfassen auch die Darstellung von Bildinhalten im Text, da hier oftmals Privatpersonen und sensible Inhalte abgebildet werden (bspw. im Selfie) (vgl. Ravn et al. 2019).

Im Falle von Instagram stellen sich noch mehr forschungsethische Fragen als bei anderen sozialen Medien. Dies hängt im Wesentlichen mit den Restriktionen zusammen, die der Meta-Konzern im Rahmen der APIcalypse umgesetzt hat. So untersagen die Plattformrichtlinien Instagrams die automatisierte Datenerhebung: „Du darfst nicht versuchen, auf unbefugte Art und Weise Konten zu erstellen oder auf Informationen zuzugreifen bzw. diese zu erheben. Dies umfasst u. a. das Erstellen von Konten oder das Erheben von Informationen auf automatisierte Weise ohne unsere ausdrückliche Einwilligung.“ (Instagram 2022) Zwar handelt es sich bei diesen Terms of Service (ToS) in erster Linie um forschungsrechtliche Fragen, gleichwohl gehen damit auch forschungsethische Implikationen einher. So können die ToS an dieser Stelle auch als ein Schutz der Nutzer:innen verstanden werden, die mit Recht erwarten können, dass Wissenschaftler:innen sich an die Bedingungen halten, zu denen sie die Plattform nutzen. Dennoch sind sich Nutzer:innen oftmals nicht bewusst, in welchem Maße die Plattformen oder Dritte ihre Daten weiterverwenden. Daher muss die informierte Einwilligung der Nutzer:innenFootnote 6 (informed consent) selbst als ein forschungsethisches Gütekriterium verstanden werden (vgl. Hutton und Henderson 2015; von Benzon 2019).

Während Halavais (vgl. 2019) eine Hinwendung zu den Nutzer:innen fordert, sieht Puschmann (vgl. 2019) in der stärkeren Kooperation mit den Plattformen große Potenziale für die Verbesserung forschungsethischer Standards. Vor diesem Hintergrund schlagen wir einen Mittelweg vor: Je nach Form der Datenerhebung und Ausrichtung des Forschungsprojektes müssen Nutzer:innen oder/und die Plattform berücksichtigt werden. Ausgehend vom Prinzip der EinwilligungFootnote 7 konzeptualisieren wir dies als ein Kontinuum mit zwei verschiedenen Polen. Auf der einen Seite stehen Forschungsprojekte, für die forschungsethisch in erster Linie eine Einwilligung der Nutzer:innen, auf der anderen Seite Projekte, für die eher eine Einwilligung der Plattform relevant ist. Bei der Nutzer:inneneinwilligung sehen wir Projekte, die ihre Daten manuell erheben, qualitativ arbeiten und in ihren Veröffentlichungen Originalbeiträge zitieren. Da die Plattformrichtlinien nur eine automatisierte Datenerhebung untersagen, ist eine Einwilligung der Plattform für diese Projekte nicht erforderlich. Da die Projekte allerdings ihre Daten und Ergebnisse weniger aggregiert darstellen und auch Originalbeiträge zu möglicherweise sensiblen Inhalten berichten wollen, ist hier die Einwilligung der Nutzer:innen von höherer forschungsethischer Relevanz. Dagegen ist die Einwilligung der Plattform vor allem für quantitative Forschungsprojekte bedeutsam, die in der Regel automatisierte Erhebungsverfahren einsetzen. Denn sie müssen nach den Plattformrichtlinien durch Instagram autorisiert werden. Da hier aber häufig nicht der einzelne Beitrag im Zentrum steht, sondern aggregierte Ergebnisdarstellungen und Analysen vorgenommen werden, die selbst schon eine Form der Anonymisierung darstellen, ist die Einwilligung der Nutzer:innen hier weniger relevant. Bei Datenmengen im Millionenbereich ist sie forschungsökonomisch auch nicht mehr umsetzbar. Im mittleren Bereich des Kontinuums lassen sich Erhebungen einordnen, die Kombinationen der beiden Pole darstellen: beispielsweise qualitative Studien, bei der Daten aber automatisiert erhoben und einzelne Beiträge im Detail analysiert werden sollen. Hier wäre forschungsethisch eine Einwilligung sowohl der Plattform als auch der Nutzer:innen ideal. Aus forschungsethischer Perspektive scheint es sich bei der Datenspende um die Erhebungsmethode mit den höchsten Standards zu handeln, die qua nicht-automatisierter Erhebung gegen keine Nutzungsrichtlinien verstößt und in dem die informierte Einwilligung im Zentrum der Erhebung steht.

5 Fazit

Die Erhebung von Instagram-Daten stellt Forscher:innen in mehrfacher Hinsicht vor besondere Herausforderungen – sowohl in Bezug auf die Erhebung selbst, aber auch in Bezug auf forschungsethische Fragestellungen. Forscher:innen müssen sich zwischen dem aufwendigen Verfahren der manuellen Erhebung (oftmals zu Lasten der Datenmenge), den automatisierten Verfahren mit freien Programmiersprachen oder kommerziellen Tools (die allerdings ohne dezidierte Einwilligung gegen die Plattformrichtlinien verstoßen), Tools des Meta-Konzerns und der Datenspende entscheiden (vgl. Tab. 1).

Tab. 1 Arten der Erhebung von Instagram-Daten im Vergleich

Die Entscheidung für eine bestimmte Erhebungsmethode ist sehr individuell und je nach dem konkreten Forschungsinteresse zu treffen. Die angestrebten Datenarten, die vorhanden Ressourcen und Vorkenntnisse in Programmiersprachen oder der methodologische Anschluss können hier als Entscheidungskriterien dienen (vgl. Breuer et al. 2020, S. 2064). Hinzu kommen forschungsethische und -rechtliche Dimensionen, die bei der Erhebung von Instagram-Daten durch das dezidierte Verbot automatisierter Datenerhebung in den Nutzungsrichtlinien besonders komplex sind. Diese Schwierigkeiten werden durch die Schnelllebigkeit der Plattform, aber auch der Tools gesteigert. So fällt in längeren Prozessen der Datenerhebung oftmals schon eine Veränderung der Funktionsfähigkeit der eingesetzten Tools auf. Daher haben wir in diesem Beitrag Erhebungsformen und einzelne Tools unterschieden. Insgesamt wäre hier eine langfristige, dauerhafte Lösung wünschenswert. Es bleibt daher zu hoffen, dass Meta im Rahmen der FORT Plattform seinen Zugang für Wissenschaftler:innen ausbaut. Dies ist für die Erforschung digitaler Kommunikation in den meistgenutzten sozialen Medien dringend notwendig.