Im Folgenden wird der Forschungsstand zur Wahrnehmung computergenerierter Nachrichten durch Leser:innen in einer umfassenden Literaturanalyse aufgearbeitet. Neben der Darstellung der Studienergebnisse liegt der Schwerpunkt des Kapitels auf den bisher verwendeten Studiensettings und der getesteten Variablen. Ziel ist es, eine fundierte Grundlage für die intensive Auseinandersetzung mit Vertrauensbewertungen im automatisierten Journalismus im Rahmen dieser Arbeit, aber auch für Folgestudien zu erzielen. Dazu werden aus dem bisherigen Forschungsstand Einflussfaktoren auf die Wahrnehmung computergenerierter Nachrichten und die jeweiligen Kontexte der Studien aufgearbeitet, welche die Faktoren der generalisierten Vertrauensbewertungen im Journalismus aus Kapitel 4 ergänzen.

Es gibt bislang keine Studien, die gezielt Vertrauensbewertungen der Lesenden im Bezug auf den automatisierten Journalismus thematisieren. International sind 15 relevante Online-Experimente mit standardisierter Befragung zur Wahrnehmung computergenerierter Berichterstattung erschienen (vgl. Clerwall 2014; Van der Kaa und Krahmer 2014; Jung et al. 2017; Haim und Graefe 2017;Graefe, Haim et al. 2018; Wölker und Powell 2018; Waddell 2018; Zheng et al. 2018; Melin et al. 2018; Liu und Wei 2019; Waddell 2019; Wus 2020; Jia 2020;Tandoc Jr. et al. 2020; Haim und Graefe 2018a). Zudem haben Graefe und Bohlken (2020) eine Metaanalyse der bisherigen Studienergebnissen veröffentlicht. Die Wahrnehmung automatisiert generierter Nachrichten wird in den Studien überwiegend durch die Bewertung der wahrgenommenen Qualität, Lesbarkeit und Glaubwürdigkeit operationalisiert. Dem Forschungsinteresse dieser Arbeit folgend konzentriert sich die Literaturanalyse auf die abhängigen Variablen Glaubwürdigkeit beziehungsweise Vertrauen. Vertrauen oder Vertrauenswürdigkeit werden in neun der 15 Publikationen thematisiert; überwiegend wird Vertrauen als Bestandteil der Textglaubwürdigkeit konzipiert, teilweise als Item der Wahrnehmung berücksichtigt oder vereinzelt auch als eigenständige Variable verwendet (vgl. Abschnitt 5.2.3). Da Glaubwürdigkeit und Vertrauen sowohl in der Theorie als auch in der Empirie vielfach synonym verwendet werden (vgl. ausführlich Abschnitt 4.2.3), ist eine systematische Aufarbeitung der Ergebnisse zur bewerteten Glaubwürdigkeit automatisiert generierter Nachrichten gewinnbringend für die Exploration der Vertrauenszuschreibung in automatisierten Journalismus. Insgesamt wird im Forschungsfeld deutlich beschrieben, dass weiterführende Erkenntnisse zum Umgang der Lesenden mit automatisierten Journalismus und zur Wahrnehmung der Texte fehlen (vgl. z. B. Haim und Graefe 2017: 1057; Jia 2020: 2626). Diese Forschungslücke steht im Zentrum der vorliegenden Arbeit.

Die Aufarbeitung des Forschungsstands zu Wahrnehmung computergenerierter Nachrichten mit Blick auf die Vertrauensbewertung des automatisierten Journalismus ist an einigen Stellen vergleichsweise unübersichtlich: Zum einen wird die Analyse durch die Komplexität der Medienbewertungsforschung beeinflusst, die bereits ausführlich in Kapitel 4 thematisiert wurde. Medienbewertungen und Vertrauensurteile sind heterogen und mehrdimensional operationalisierte Konstrukte. Es gibt keine monokausalen Erklärungen für Vertrauen oder Glaubwürdigkeit, die Menge an bisher thematisierten Einflussfaktoren ist unvollständig und mögliche Wechselwirkungen zwischen einzelnen Faktoren werden in der Forschung nicht oder nur wenig thematisiert. Kommunikationswissenschaftliche Vertrauensmodelle berücksichtigen zudem weder die Entstehung von Vertrauen im Zeitverlauf noch den Umgang der Nutzer:innen mit neu entstehenden Technologien (vgl. Forschungslücken in Abschnitt 6.1). Zum anderen ist auch die Analyse der genannten Rezeptionsstudien in Teilen unübersichtlich, da die Studien zwar im Aufbau ähnlich sind, sich aber deutliche Unterschiede in der Detailbetrachtung zeigen: Auch hier werden Einflussfaktoren und Begriffsoperationalisierungen teilweise ohne theoretische Ableitung ihrer Bezüge eingeführt. Außerdem tauchen Widersprüche in den Ergebnissen auf, wenn – über eine oberflächliche Betrachtung der Ergebnisse hinweg – gezielt einzelne Einflussfaktoren oder mögliche Wechselwirkungen besprochen werden. Zudem sind in den Studien, allein durch die Rekrutierung, den Zeitpunkt der Studien, die Anordnung und Auswahl der Stimuli neue Einflussfaktoren angelegt, die über die Konzeption der unabhängigen Variablen hinausgehen. Diese sorgen dafür, dass der Forschungsstand zu konkreten Einflussfaktoren auf die Wahrnehmung automatisiert generierter Nachrichten komplexer ist, als dies auf den ersten Blick scheint. Außerdem muss im Einzelfall die Vergleichbarkeit der Ergebnisse berücksichtigt werden; die Studien sind international publiziert und nicht alle Ergebnisse lassen sich beispielsweise auf die Bundesrepublik übertragen. Als dritter Aspekt muss berücksichtigt werden, dass sich in den Rezeptionsstudien im Gegensatz zur Aufarbeitung der Vertrauensforschung in Kapitel 4 das Bezugsobjekt der Medienbewertung ändert: Ziel der vorliegenden Arbeit ist die Exploration der Vertrauensbewertungen der Lesenden im automatisierten Journalismus beziehungsweise bezogen auf Journalismus als Ganzes, der teilweise mit Automatisierungen arbeitet. In den Rezeptionsstudien dagegen werden konkrete Stimuli und automatisiert generierte Nachrichten bewertet. Dies wurde bereits bei der Auseinandersetzung mit dem Glaubwürdigkeits- und Vertrauensbegriff angesprochen und wird weiterhin im Kapitel 6 thematisiert.

Sowohl aus der Perspektive der bisherigen Forschung zur Wahrnehmung computergenerierter Nachrichtentexte als auch aus der Perspektive der Forschung zu Vertrauen in Journalismus als Ganzes ist insgesamt eine explorative, offene, aber dennoch zielgerichtete Herangehensweise notwendig, um Einflussfaktoren auf die Vertrauensbewertung im Umgang der Lesenden mit automatisiertem Journalismus zu generieren oder teilweise zu testen. Dazu ist neben der Darstellung der Studienergebnisse die detaillierte Aufarbeitung der Studien notwendig, um – auch über diese Arbeit hinweg – die kommunikationswissenschaftliche Forschung zu Vertrauen in automatisierten Journalismus zu systematisieren und weiterzuentwickeln.

5.1 Dokumentation der Literaturanalyse

Ziel der Literaturanalyse ist die Aufarbeitung der Studienergebnisse und die umfassende Dokumentation der verwendeten Studiensettings. Im Wesentlichen ist der Aufbau der Studien ähnlich: Es handelt sich um Online-Experimente mit anschließender Online-Befragung. Wie im Folgenden dargestellt, unterscheiden sich die Arbeiten und ihre Ergebnisse in der Detailbetrachtung aber teilweise deutlich. Um der Heterogenität gerecht zu werden, erfolgt eine detaillierte Analyse der bisher verwendeten Studien durch eine Systematisierung der Operationalisierung der verwendeten Variablen, der Aufarbeitung der Studienkontexte und verschiedenen Schwerpunkte der Arbeiten sowie die Darstellung der detaillierten Studienergebnisse. Umgesetzt wird die Analyse durch eine eigene Literaturanalyse, welche die Metastudie von Graefe und Bohlken (2020) erweitert und vertieft.

Erweiterung und Vertiefung der bestehenden Metaanalyse

Graefe und Bohlken (ebd.) führen eine Metaanalyse zur Wahrnehmung computergenerierter Nachrichten von Lesenden ohne journalistischen Hintergrund durch. Die Autor:innen verwenden im Wesentlichen die Studienauswahl, die auch für die Literaturanalyse dieser Arbeit getroffen wurdeFootnote 1. Die aggregierten Daten der Metastudie sind für die Darstellung der Primärstudienergebnisse gut geeignet. Für die detaillierte Aufarbeitung, die eine Identifikation von Forschungslücken und die Exploration von Einflussfaktoren auf die Vertrauensbewertung des automatisierten Journalismus ermöglicht, greift die Analyse zu kurz. Für den vorliegenden Forschungszweck ist es notwendig, die Studiensettings, die verwendeten Variablen und die Studienergebnisse im Detail darzustellen. Dazu wird eine eigene Literaturanalyse durchgeführt. Notwendig ist diese Detailbetrachtung, weil beispielsweise eine Aufarbeitung der Zeitpunkte, an denen die Studien stattgefunden haben, Aufschluss über den Stand der Technologie und die Validität der Stimuli gibt. Außerdem berichten insbesondere chinesische und südkoreanische Forscher:innen über kulturelle Unterschiede in der Technologiebewertung und damit auch der Wahrnehmung von computergenerierten Nachrichten im Vergleich zu europäischen oder amerikanischen Teilnehmenden (vgl. Tandoc Jr. et al. 2020; Jia 2020; Liu und Wei 2019; Jung et al. 2017). Deshalb muss im Folgenden die Vergleichbarkeit und mögliche Übertragbarkeit der Ergebnisse der Primärstudien diskutiert werden.

Dokumentation der systematischen Literaturanalyse

Die Suche nach relevanten Studien zur Erarbeitung des Forschungsstands wird in vier Schritten durchgeführt, die im Folgenden dokumentiert sind. Die Kriterien der Relevanzprüfung werden nach Darstellung der Suchschritte aufgelistet.

  1. 1.

    Im November 2020 und Mai 2021 wird eine Suche mit Hilfe von Google Scholar und den Searchstrings ‘automated journalism’ sowie ‘automated journalism reader perception’ durchgeführt. Die Suche ergibt insgesamt etwa 400 Treffer, davon werden die ersten 100 Einträge extrahiert und händisch durchsucht.

  2. 2.

    Im Schneeballverfahren wird die entstandene Liste um Arbeiten ergänzt, die über die Suchmaschinen ConnectedPapers, researchgate.net und den OPAC der Universität Bamberg mit dem gleichen Searchstrings wie in Schritt Eins gefunden wurden. Außerdem werden die Datenbanken der Zeitschriften Journalism und Digital Journalism nach ‘automated journalism reader’Footnote 2 durchsucht.

  3. 3.

    Auch die Literaturverzeichnisse der bisher identifizierten Arbeiten werden verwendet, um weitere Studien zu finden. Außerdem wird in den genannten Suchmaschinen nach bisher identifizierten Autor:innen gesucht.

  4. 4.

    Abschließend wird kontrolliert, ob die Literaturverzeichnisse der Einstiegs- bzw. Überblicksliteratur zum automatisierten Journalismus weitere Arbeiten zur Perspektive des Publikums beinhalten, die bisher nicht verwendet wurden (vgl. z. B. Haim und Graefe 2018b; Thurman 2020; Diakopoulos 2019).

Für den Forschungszweck als relevant erachtet und in die Studienauswertung inkludiert wurden kommunikationswissenschaftliche Arbeiten, die ein peer-review-Verfahren durchlaufen haben oder in einem renommierten Verlag erschienen sindFootnote 3. Zudem müssen die Arbeiten in Englisch oder Deutsch erschienen sein. Insgesamt werden nur Publikationen aufgenommen, die sich auf Journalismus beziehen. Arbeiten aus der Linguistik oder der Informatik werden ausgeschlossen. Das gilt auch für kommunikationswissenschaftliche Arbeiten, die sich mit der Variationen der Kennzeichnung automatisiert generierter Nachrichten beschäftigen. Dieser spezielle Fokus ist für das vorliegende Forschungsinteresse der generellen Wahrnehmung und Vertrauensbewertung nicht relevant.

Ergebnisse der systematischen Literatursuche

Die Literatursuche ergibt 15 relevante Rezeptionsstudien, die zwischen 2014 und 2020 erschienen sind und die Wahrnehmung der Lesenden in Bezug auf automatisiert generierte Nachrichten erheben. Davon sind 14 Arbeiten als Primärstudien angelegt und werden von einer Sekundäranalyse ergänztFootnote 4. Weiterhin umfassen fünf Publikationen zwei Experimente oder sind in zwei Teilstudien aufgesplittet. Beispielsweise führen Van der Kaa und Krahmer (2014) und Jung et al. (2017) jeweils zwei Experimente mit gleichem Setting, aber unterschiedlichen Teilnehmenden durch: einmal mit Journalist:innen und einmal mit Teilnehmenden ohne journalistischen Hintergrund. Hier können möglicherweise Rückschlüsse auf den Einfluss von journalistischem Hintergrundwissen oder journalistische Erfahrungen auf die Bewertung von automatisiert generierten Nachrichten gezogen werden, aber diese Teilstudien sind nicht Gegenstand der Erarbeitung des Forschungsstands zur Perspektive der Rezipierenden und werden im Folgenden nicht berücksichtigt. Auch in den Arbeiten von Jia (2020), Waddell (2018), Haim und Graefe (2017) werden zwei, teilweise eigenständige, teilweise verbundene, Experimente durchgeführt, hier aber als reine Rezeptionsstudien. Somit werden aus diesen Arbeiten alle Daten berücksichtigt. Deshalb besteht der Forschungsstand aus insgesamt 15 relevanten Publikationen mit 18 (Teil-)Studien, im Folgenden wird von 15 Rezeptionsstudien gesprochen.

5.2 Aufarbeitung des Forschungsstands zu Glaubwürdigkeit und Vertrauen

Die Analyse der Studienkonzeptionen erfolgt in einer ausführlichen Form, um zum einen Forschungslücken für die vorliegende Arbeit und für Anschlussforschung ausfindig zu machen und zum anderen, um zu ermitteln, wie breit der Fundus an möglichen Einflussfaktoren auf die Vertrauenszuschreibung der Lesenden in automatisiert generierte Nachrichten ist. Die ausführliche Betrachtung der Studienkontexte ist außerdem notwendig, um die Validität und die Vergleichbarkeit der Studienergebnisse beurteilen zu können: Beispielsweise ist die Analyse der Sprache der verwendeten Nachrichtentexte wichtig, um die externe Validität der Stimuli zu bewerten (vgl. dazu  5.2.2). Die Art der Rekrutierung der Proband:innen kann Aufschluss über weitere Einflussfaktoren geben, die nicht unmittelbar als Variablen operationalisiert worden sind, wie das Mediensystem oder der kulturelle Hintergrund der Teilnehmenden. Der Schwerpunkt der Systematisierung der Rezeptionsstudien liegt im Folgenden – dem Ziel dieser Arbeit folgend – auf Vertrauen beziehungsweise Vertrauenswürdigkeit und die wahrgenommene Glaubwürdigkeit.

5.2.1 Studienüberblick und Schwerpunkte ausgewählter Arbeiten

Mehrheitlich sind die 14 Primärstudien als Online-Experimente mit anschließender Online-Befragung konzipiert und verwenden als Stimuli automatisiert generierte beziehungsweise als automatisiert generiert gekennzeichnete Texte. Die Proband:innen sind jeweils Teilnehmende ohne journalistischen Hintergrund (vgl. Clerwall 2014; Van der Kaa und Krahmer 2014; Jung et al. 2017; Haim und Graefe 2017; Graefe, Haim et al. 2018; Wölker und Powell 2018; Waddell 2018; Zheng et al. 2018; Liu und Wei 2019; Melin et al. 2018; Wus 2020; Waddell 2019; Jia 2020; Tandoc Jr. et al. 2020). In die Aufarbeitung des Forschungsstands wurde zusätzlich die Sekundäranalyse von Haim und Graefe (2018a) aufgenommen, die mit den Daten von Haim und Graefe (2017) arbeitetFootnote 5.

Die ersten Studien zur Bewertung computergenerierter Nachrichten werden 2014 veröffentlicht (vgl. Clerwall 2014; Van der Kaa und Krahmer 2014), zwei weitere Publikationen folgen im Jahr 2017 (vgl. Jung et al. 2017; Haim und Graefe 2017), sechs Arbeiten erscheinen 2018 (vgl. Graefe, Haim et al. 2018; Haim und Graefe 2018a; Wölker und Powell 2018; Waddell 2018; Zheng et al. 2018; Melin et al. 2018), zwei Arbeiten 2019 (vgl. Waddell 2019; Liu und Wei 2019) und drei Studien 2020 (vgl. Wus 2020; Jia 2020; Tandoc Jr. et al. 2020). Interessant ist, dass sich auch die Studien von 2020 an den Arbeiten der früheren Jahren orientieren: Es haben sich zwar einzelne Bestandteile, z. B. die Hinzunahme von moderierenden oder vermittelnden Variablen, verändert, aber im Wesentlichen sind die Studiensettings gleichgeblieben.

Durchgeführt werden Studien in den USA (vgl. Waddell 2018; Liu und Wei 2019; Wus 2020; Waddell 2019), Deutschland (vgl. Haim und Graefe 2017; Graefe, Haim et al. 2018), Schweden (vgl. Clerwall 2014), den Niederlanden (vgl. Van der Kaa und Krahmer 2014), Finnland (vgl. Melin et al. 2018), China (vgl. Jia 2020), Südkorea (vgl. Jung et al. 2017) und Singapur (vgl. Tandoc Jr. et al. 2020). Die Stimulitexte sind in der jeweiligen Amtssprache oder in der Muttersprache der Proband:innen verfasstFootnote 6. Zusätzlich legen Wölker und Powell (2018) eine länderübergreifende, europaweite Studie an, wobei 227 der 300 Proband:innen aus Deutschland kommen (vgl. ebd.: 6). Stimuli und Fragebogen liegen in Englisch vor. Zheng et al. (2018) führen eine Ländervergleichsstudie mit USA und China durch, Stimuli und Fragebogen der chinesischen Proband:innen werden vom Englischen ins Chinesische übersetzt und in einem Review überprüft. Englisch ist Amtssprache in Singapur und wird von Tandoc Jr. et al. (2020) für ihr Experiment verwendet, obgleich sie dokumentieren, dass die Mehrheit der Teilnehmenden Chines:innen sind und die Sprache des Experiments damit überwiegend nicht die Muttersprache der Proband:innen ist (vgl. dazu  5.2.2).

Die Stichproben variieren zwischen N = 46 (vgl. Clerwall 2014: 524) und N = 986 (vgl. Graefe, Haim et al. 2018: 8). Der Median aller Studien liegt bei 307 Teilnehmenden. Das Durchschnittsalter ist 34 Jahre und der Anteil weiblicher Probanden liegt durchschnittlich bei 56 ProzentFootnote 7. Rekrutiert werden die Proband:innen überwiegend durch kommerzielle Online-Panels (darunter vier von acht durch Amazon Mechanical Turk). Die Teilnehmenden der deutschen Studien werden über das SoSci-Panel, ein nicht-kommerzielles Online-Panel, rekrutiert (vgl. Haim und Graefe 2017: 1050; Graefe, Haim et al. 2018: 8). Bei Clerwall (2014) sowie den chinesischen Proband:innen bei Zheng et al. (2018) handelt es sich um Studierende der Universitäten oder der Studiengängen der Autor:innen. Zwei weitere Experimente, die von Wölker und Powell (2018) sowie die von Jia.2020, verwenden ein Schnellball- beziehungsweise Empfehlungsverfahren und nutzen dazu europäische und chinesische Social-Network-Sites. Van der Kaa und Krahmer (2014) machen keine Angaben zur Rekrutierung. Demographische Merkmale wurden in allen Experimenten berücksichtigt und zeigen keine Effekte bei der Bewertung der computergenerierten Nachrichten. Lediglich Melin et al. (2018) stellen Unterschiede in gruppierten demografischen Merkmalen fest, so konnten junge Frauen computergenerierte Nachrichten weniger gut eindeutig zuordnen als ältere Männer (vgl. ebd.: 43363)Footnote 8.

Schwerpunkte und Besonderheiten ausgewählter Studien

Neben dem Überblick über die Studien sei auf Schwerpunkte einzelner Arbeiten hingewiesen, die bisher nicht oder nur kurz thematisiert wurden, die aber Auswirkung auf die Studienkonzeptionen haben, wichtig für die Einordnung der Studienergebnisse sind und Erkenntnisse zur weiteren Exploration des Forschungsthemas liefern. So fragen zu einen Clerwall (2014) und Melin et al. (2018) die Proband:innen bei nicht-gekennzeichneten Texten explizit nach dem vermuteten Textursprung, also danach, ob die vorliegenden Nachrichten menschlich verfasst oder algorithmisiert erzeugt sindFootnote 9. Neben der Wahrnehmung von automatisiert generierten Texten erheben Jia (2020), Waddell (2018), Graefe, Haim et al. (2018) und Haim und Graefe (2017) zusätzlich die Erwartungen an automatisierten Journalismus. Die Erwartung wird durch Befragungen vor Vorlage der Texte (vgl. Jia 2020: 2617; vgl. Haim und Graefe 2017: 1051), durch gezielte Manipulation von Quelle und Kennzeichnung der Stimuli in den Experimenten (vgl. Graefe, Haim et al. 2018: 7 f.) sowie durch die nach dem Lesen des Stimulus gestellte Frage, ob die Erwartungen erfüllt wurden, ermittelt (vgl. Waddell 2018: 245). Weiterhin legen Jia (2020), Wus (2020), Haim und Graefe (2017), Graefe, Haim et al. (2018) und Melin et al. (2018) in ihren Experimenten Wert darauf, dass Lesende einen bewussten beziehungsweise unbewussten Vergleich zwischen menschlich verfassten und maschinengeschriebenen Texten ziehen können. Die Autor:innen können damit teilweise aufzeigen, dass sich durch den Textvergleich die Wahrnehmung der Teilnehmenden verändert. Insbesondere Jung et al. (2017), Zheng et al. (2018) und Wölker und Powell (2018) weisen darauf hin, dass zwischen Mediensystemen, Kulturen und Ländern Unterschiede bestehen können und in der Forschung berücksichtigt werden müssen. Jung et al. (2017) führen eine Studie in Südkorea, da sie – im Vergleich zu den bisherigen Studienergebnissen der europäschen Studien – hier eine ganz andere öffentliche Meinung bezogen auf Journalismus und Technologie wahrnehmen: In Südkorea sind Journalist:innen ihrer Ansicht nach sehr schlecht angesehen, was unter anderem auf Medienskandale und einem daraus resultierendem geringem Vertrauen gegenüber Journalist:innen begründet liegt. Neue Technologien werden aber sehr offen angenommen, es herrscht eine hohe Technologieaufgeschlossenheit. Für Europa beschreiben die Autor:innen gegenteilige Standpunkte: Journalismus allgemein und Journalist:innen genießen ein höheres Ansehen und das Vertrauen in ihre Arbeit ist grundsätzlich höher, Technologie und Automatisierung werden aber zunächst skeptisch betrachtet. Die Bevölkerung in Europa gilt in diesem Punkt als wenig aufgeschlossen. Jung et al. (ebd.) vergleichen ihre Ergebnisse wiederholt mit den bis dato erschienenen europäischen Studien und führen so Kultur (im Sinne der Haltung Journalist:innen gegenüber und Technologieaufgeschlossenheit) ein. Auch Zheng et al. (2018) legen einen Schwerpunkt auf den Ländervergleich und verwenden kulturellen Hintergrund als unabhängige Variable; Wölker und Powell (2018) konzipieren zudem eine länderübergreifende europaweite Studie.

5.2.2 Umsetzung und Verwendung der Stimuli

Wie ausgeführt ist der Aufbau der Online-Experimente ähnlich: Es gibt einen (oder mehrere) Stimuli aus einem computergenerierten und/oder von einem Menschen verfassten Nachrichtentext. Anschließend findet eine Befragung mit Hilfe eines standardisierten Online-Fragebogens zur Wahrnehmung und Bewertung der Texte statt. Es kommen sowohl ein- also auch mehrfaktorielle Konzeptionen zum Einsatz und es gibt weiterhin in-between-subject-Designs sowie within-subject-Anordnungen sowie Kombinationen davon (vgl. Tabelle 9.3 im Anhang ‚Forschungsstand Rezeptionsstudien‘ im elektronischen Zusatzmaterial).

Insgesamt lesen die Teilnehmenden in elf Teilexperimenten einen Text (vgl. Tandoc Jr. et al. 2020; Waddell 2019; Liu und Wei 2019; Zheng et al. 2018; Waddell 2018; Haim und Graefe 2017; Jung et al. 2017; Van der Kaa und Krahmer 2014; Clerwall 2014), in vier Teilstudien je zwei Texte (vgl. Wus 2020; Wölker und Powell 2018; Graefe, Haim et al. 2018; Haim und Graefe 2017) und in den weiteren zwei weiteren Primärstudien vier beziehungsweise acht Texten bei Jia (2020) und 14 Nachrichten bei Melin et al. (2018)Footnote 10. In den zwei weiteren Primärstudien sind es bei Jia (2020) vier beziehungsweise acht Texte und bei Melin et al. (2018) 14 Nachrichten. Die Menge an insgesamt verwendeten Stimuli variiert in den Studien zwischen zwei bis 24 Texten (vgl. z. B. Clerwall 2014; Liu und Wei 2019). Wenn mehrere Texte verwendet werden, konnten die Teilnehmenden in vier Studien einen Vergleich zwischen computergenerierten und menschlich verfassten Texten ziehen (vgl. Jia 2020; Wus 2020; Melin et al. 2018; Haim und Graefe 2017). In sechs von acht Experimentalgruppen ist auch bei Graefe, Haim et al. (2018) ein Vergleich möglich. Bei Haim und Graefe (2017) findet dieser Vergleich für die Lesenden bewusst statt, indem die Stimuli entsprechend gekennzeichnet waren. Bei Jia (2020), Melin et al. (2018) hingegen erfolgt der Vergleich unbewusst. Eine Kombination aus bewussten und unbewussten Vergleichen ist in den Studien von Wus (2020), Graefe, Haim et al. (2018) in unterschiedlichen Experimentalgruppen angelegt. Wie noch auszuführen ist, gehen Jia (2020), Haim und Graefe (2017) in der Auswertung explizit auf den Vergleich beider Textarten ein.

Umsetzung der unabhängigen Variablen: Textquelle, Quellenkennzeichnung und Nachrichtenthema

Für die Erzeugung der Stimuli nutzen die Autor:innen drei Quellen: von Journalist:innen geschriebene Nachrichten, algorithmisch generierte Texte sowie eine Kombination beider Verfahren, so genannte hybride Textquellen. Insgesamt werden die Stimuli entweder eigens für die Experimente generiert, bestehende Nachrichtentexte von den Forschenden angepasst oder die Texte werden ohne Veränderung zum Beispiel von Online-Publikationen übernommen. Teilweise finden sich in den Dokumentationen detaillierte Erläuterung woher, insbesondere die algorithmisiert erzeugten, Texte stammen und zum Teil sind die Stimuli in Gänze in den Anhängen einsehbar. In neun Primärstudien sowie in der Sekundäranalyse werden die Stimuli, die als automatisierte generierte Texte verwendet werden, auch tatsächlich von Algorithmen erzeugt (vgl. Jia 2020; Wus 2020; Melin et al. 2018; Wölker und Powell 2018; Graefe, Haim et al. 2018; Haim und Graefe 2017; Jung et al. 2017; Van der Kaa und Krahmer 2014; Clerwall 2014; Haim und Graefe 2018a). Die weiteren Publikationen nutzen dazu menschlich verfasste Texte, die als algorithmisiert erzeugte Stimuli gekennzeichnet werden. Zur Erstellung der computergenerierten Texten werden entweder Algorithmen verwendet, die aus wissenschaftlichen oder forschungsnahen Projekten stammen (vgl. Van der Kaa und Krahmer 2014; Jung et al. 2017; Graefe, Haim et al. 2018; Melin et al. 2018)Footnote 11 oder die von kommerziellen Softwareanbietern erzeugt (vgl. Wölker und Powell 2018) und teilweise explizit für die Forschung zur Verfügung gestellt werden (vgl. Haim und Graefe 2017). Oder aber es werden Stimuli verwendet, die als algorithmisiert gekennzeichneten Nachrichten zum Beispiel auf Online-Newsseiten frei verfügbar waren (vgl. Clerwall 2014; Jia 2020) oder deren Quelle nicht weiter erläutert wird (vgl. Wus 2020: 1015). Die menschlich verfassten Stimuli stammen aus öffentlich zugänglichen Quellen oder werden eigens für die Experimente von Journalist:innen produziert.

Neben der Verwendung verschiedener Textquellen gibt es in den Studien unterschiedliche Ansätze die Urheberschaft der Texte, also maschinengeschriebene, menschlich verfasste oder hybride Autorenschaft, zu kennzeichnen. Die verschiedenen Quellenkennzeichnungen der Stimuli decken sich mit den Vorgehensweisen zur Kennzeichnung der Nachrichtentexte, wie sie in der Praxis vorzufinden sind (vgl. Abschnitt 3.3.3). Zunächst gibt es mit Clerwall (2014), Jia (2020) zwei Experimente, die keine Textquelle angeben. Beide verwenden sowohl menschlich verfasste als auch algorithmisiert erzeugte Texte, der Textursprung ist für die Proband:innen nicht erkennbar. Bei der Mehrheit der Rezeptionsstudien verwenden die Forschenden sowohl korrekt gekennzeichnete als auch manipulierte KennzeichnungenFootnote 12 (vgl. Liu und Wei 2019; Zheng et al. 2018; Waddell 2018; Graefe, Haim et al. 2018; Jung et al. 2017; Van der Kaa und Krahmer 2014)Footnote 13. Manipulierte Kennzeichnungen werden entweder zielgerichtet verwendet, um mithilfe von in-between-subject-Verfahren einzelne Variablen zu testen oder sind zweckmäßig im Einsatz, um einen größeren Korpus an Stimuli zu erzeugen, wenn kein Rückgriff auf tatsächlich algorithmisiert generierte Texte möglich ist (vgl. zum Beispiel Tandoc Jr. et al. 2020; Liu und Wei 2019). Außerdem konzipiert Wus (2020) sowohl Experimentalgruppen ohne gekennzeichnete Stimuli als auch Gruppen mit wahrheitsgemäß gekennzeichneten Texten. Zwei weitere Arbeiten verwenden nur korrekte Kennzeichnungen (vgl. Wölker und Powell 2018; Haim und Graefe 2017) und noch zwei weitere nur manipulierte Verfasser:innenzeilen (vgl. Tandoc Jr. et al. 2020; Waddell 2019)Footnote 14. Abschließend sei noch die Arbeit von Melin et al. (2018) als Sonderfall hinsichtlich der Kennzeichnung dargestellt. Hier liegen den Proband:innen mehrere Stimulitexte mit unterschiedlichen Varianten der Kennzeichnung vor, aus denen sie frei wählen können. Zudem legen die Autor:innen Wert auf eine geschlechtsneutral formulierte Autor:innenzeile gelegt, um weitere Störvariablen auszuschließen (vgl. auch Zheng et al. 2018: 269).

Wenn Texte gekennzeichnet werden, dann überwiegend unter der Überschrift bei Angabe der Verfasser:in (so genannte Autoren- oder Verfasserzeile, engl.: byline). In einigen Arbeiten wird auch doppelt gekennzeichnet, das heißt sowohl in der Autorenzeile am Textanfang als auch am Ende beziehungsweise unter dem Nachrichtentext (auch als Endnote bezeichnet). Teilweise finden sich in der Endnote weitere Erläuterungen zur Funktionsweise der der Entstehung des Algorithmus (vgl. zum Beispiel Tandoc Jr. et al. 2020: 554; Wölker und Powell 2018: 7). Zudem gibt es Studien, wie Waddell (2018), Zheng et al. (2018) und Liu und Wei (2019), bei denen ein Manipulationscheck eingeführt wurde (so genannte Kennzeichnungserinnerung), also die Frage, ob die Proband:innen die jeweilige Kennzeichnung gelesen haben und sich an den Verfasser:in erinnern können. Nur wenn die richtige Quellenangabe zugeordnet werden kann, hat beispielsweise Waddell (2018) die Ergebnisse der Befragung in die Auswertung aufgenommen.

Die Themen der Stimulitexte ähneln sich in den 15 Rezeptionsstudien: Es werden immer Nachrichten mit einer hohen Daten- und Informationsdichte verwendet. Insgesamt werden in zehn Publikationen regionale oder überregionale Sportberichte ausgewählt, neun Studien verwenden Finanz- und Börsentexte, fünfmal werden lokale und überregionale Politiknachrichten vorgelegt sowie dreimal sonstige lokale und regionale NachrichtenFootnote 15. Zwei Stimuli haben zudem Wissenschaft und Veranstaltungen zum ThemaFootnote 16 (vgl. Waddell 2018: 244; Jia 2020: 2617). Außerdem nutzen Haim und Graefe (2017) und damit auch Haim und Graefe (2018a) einen Boulevardbericht. Die Auswahl der Texte erfolgt unter Berücksichtigung der Textlänge, der Vergleichbarkeit zwischen automatisiert generierten und menschlich verfassten Texten, aufgrund der Objektivität der Texte oder einem möglichst geringen Themeninvolvement (vgl. z. B. Liu und Wei 2019: 643 f.; Haim und Graefe 2017: 1050). Weitere Studien berücksichtigen die Medienorganisation, aus deren Publikationen die Auswahltexte stammen. Hier wird versucht, den Einfluss von Boulevard- und Qualitätsmedien oder den Vergleich zwischen traditionellen Zeitungshäusern und Online-Medien zu kontrollieren (vgl. Liu und Wei 2019: 643; Waddell 2018: 239, 244; Zheng et al. 2018: 269). Bei der Auswahl der Stimuli ist insgesamt eine Mischung an unterschiedlichen Nachrichtentexten zu sehen, bei denen Sport- und Finanzberichte überwiegen. Dies ist mit den Anwendungsgebieten des automatisierten Journalismus vergleichbar (vgl. Kapitel 3). Zudem kann die Entwicklung der NLG-Technologie in der Berichterstattung und die Ausweitung der Themengebiete auch in der Forschung beobachtet werden, so überwiegen in den Studien der Jahre 2014 bis 2018 die Sport- und Finanzberichte, ab 2018 ist eine Ausweitung der Themen zu beobachten.

Validität der Stimuli und Zwischenfazit zur vorliegenden Arbeit

Zur Einordnung der externen Validität der Stimuli sind drei Aspekte wichtig: Zunächst ist A) die Validität der eigens für die Experimente angefertigten Texte kritisch zu beurteilen, insbesondere wenn die Algorithmen im Forschungsumfeld erzeugt und nicht (ausschließlich) für journalistische Zwecke trainiert sind. Außerdem gibt es B) in der Praxis keine Kennzeichnungsregelungen für automatisiert generierte oder hybrid erzeugte Nachrichten. Es kann also nicht davon ausgegangen werden, dass ein nicht-gekennzeichneter oder als menschlich gekennzeichneter Text auch tatsächlich menschlich verfasst ist und vice versa, dass computergenerierte Texte vollständig ohne menschliche Korrektur oder dergleichen publiziert wurden. Laut den Studiendokumentationen und den beschriebenen Validitätsprüfungen kann zwar in der Regel von einer hohen externen Validität ausgegangen werden, dennoch müssen diese Aspekte unter anderem bei der Aussagekraft der Ergebnisse berücksichtigt werden. Außerdem zeigen zwar C) mehrere Studien, dass Lesende nicht eindeutig zuordnen können, ob Nachrichten computergeneriert oder menschlich verfasst sind (vgl. Abschnitt 5.2.4). Allerdings muss kritisch hinterfragt werden, ob in Studien, in denen die Bewertung von computergenerierten Texten im Mittelpunkt steht, menschlich verfasste Texte, die lediglich falsch manipuliert gekennzeichnet sind, geeignete und valide Stimuli darstellenFootnote 17. In weiteren Arbeiten wird weiterhin diskutiert, ob D) das Sprachniveau der Proband:innen im Zusammenhang mit den verwendeten Stimulitexten steht und sich die Wahrnehmung computergenerierter Nachrichten verändert, wenn die Texte in der Muttersprache der Teilnehmenden vorliegen (vgl. Jia 2020: 2623).

Im Unterschied zu den Rezeptionsstudien legt die vorliegende Arbeit weniger Wert auf die Betrachtung einzelner computergenerierter Artefakte, sondern abstrahiert das Bezugsobjekt der Wahrnehmung auf automatisierten Journalismus als Ganzes. In den Focus Groups werden den Teilnehmenden deshalb zwar Beispiele für automatisierte Berichterstattung vorgelegt, es geht aber vielmehr um eine Veranschaulichung des Themas und nicht um die konkrete Bewertung der einzelnen Stimuli. Für die Exploration der Vertrauenszuschreibung im automatisierten Journalismus ist die Aufarbeitung der Rezeptionsstudien aber wichtig: In der unterschiedlichen Umsetzung der Studien können weitere Forschungsideen sowie zusätzliche Einflussfaktoren auf die Wahrnehmung, die Vertrauensbewertung und den Umgang mit automatisiert erzeugten Texten generiert werden. Die vorliegende Arbeit berücksichtigt beispielsweise den Einfluss des Nachrichtenthemas, die Quellenkennzeichnung, die journalistische Darstellungsform und die Medienpublikation. Dies aber bezogen auf ein generalisiertes Bezugsobjekt und weniger auf konkret verwendete Stimuli.

5.2.3 Operationalisierung der Variablen

Eine vollständige Auflistung der verwendeten Variablen ist in Tabelle 9.3 im Anhang ‚Forschungsstand Rezeptionsstudien‘ im elektronischen Zusatzmaterial dargestellt. Im Folgenden soll es vielmehr um eine aussagekräftige Zusammenfassung der Operationalisierung und Schwerpunkte der verwendeten Variablen gehen. Dazu werden zunächst die unabhängige Variablen, danach die vermittelnden und moderierenden Variablen sowie die abhängigen Variablen besprochen. Abschließend folgt die Zusammenfassung zum Schwerpunkt Vertrauen beziehungsweise Vertrauenswürdigkeit. Die Studienergebnisse werden im Anschluss ab Abschnitt 5.2.4 thematisiert.

Unabhängige Variablen: Textquelle, Kennzeichnung und Thema

Mit den Rezeptionsstudien wird untersucht, ob und wenn ja in welchem Umfang die Textquelle, die Kennzeichnung der Texte und das Nachrichtenthema Einfluss auf die Bewertung und Wahrnehmung von computergenerierten Texten haben. Die konkrete Umsetzung der Variablen und Stimuli wurde in Abschnitt 5.2.3 aufgelistet. Insgesamt nutzen nicht alle Studien alle drei unabhängige Variablen und zudem sind vereinzelt zusätzliche Prediktoren verwendet worden, wie die bewertete Objektivität der Texte (vgl. Tandoc Jr. et al. 2020). Außerdem führen Zheng et al. (2018) den kulturellen Hintergrund und die bewertete Glaubwürdigkeit der Publikation als weitere unabhängige Variable einFootnote 18.

Vermittelnde und moderierende Variablen sowie Kontrollvariablen

Zusätzlich zu den unabhängigen Variablen werden in einigen Arbeiten Faktoren getestet, die möglicherweise vermittelnden oder moderierenden EinflussFootnote 19 haben. Als vermittelnde Variablen getestet worden sind: Quellen-Antropomorphismus (vgl. Waddell 2018, 2019), Nachrichtenbias (vgl. Waddell 2019), Maschinenheuristik (vgl. Waddell 2018), die Nichteinhaltung beziehungsweise Enttäuschung von Erwartungen an automatisierten Journalismus und das Thema der Nachrichtentexte (vgl. ebd.) sowie die Text- und QuellenglaubwürdigkeitFootnote 20 (vgl. Wölker und Powell 2018). Mit Quellen-Anthropomorphismus wird erhoben, inwiefern die Teilnehmenden den Verfassern der Stimuli menschliche Eigenschaften zuschreiben (vgl. Waddell 2018: 245; Waddell 2019: 89) und mit Nachrichtenbias ist die Wahrnehmung oder das Erkennen von Bias oder Vorurteilen in den Medien durch die Lesenden gemeint (vgl. Waddell 2019: 89)Footnote 21. Heuristiken sind weiterhin analytische Vorgehensweisen, mit Hilfe derer man unter begrenzten Voraussetzungen (zum Beispiel Wissen oder Zeit) Entscheidungen treffen und zu sinnvollen Lösungsstrategien finden kann. Das Konzept der Maschinenheuristik basiert auf Sundar (2008) und meint, dass bestimmte Hinweise digitaler Medien bei den Konsument:innen Heuristiken auslösen und ihre Qualitäts- und Glaubwürdigkeitsbewertung beeinflussen.

Als moderierende Variablen getestet werden die Publikation (vgl. Liu und Wei 2019; Waddell 2019)Footnote 22, die journalistische Darstellungsform (vgl. Liu und Wei 2019)Footnote 23, das Interesse am Thema oder auch Themeninvolvement genanntFootnote 24 (vgl. Haim und Graefe 2018a), das Thema (vgl. Waddell 2019), die Vorkenntnisse zum automatisierten Journalismus und der Medienkonsum zu den Themen der StimuliFootnote 25 (vgl. Wölker und Powell 2018) sowie der Robot-Recall (vgl. Waddell 2018). Mit Robot-Recall ist gemeint, inwiefern die Wahrnehmung der Lesenden durch eine zuvor rezipierte Mediendarstellung von Robotern beeinflusst wird, also die Frage ob sich die Proband:innen an einen Film, eine Serie oder sonstige Medieninhalte erinnern können, in welchem ein Roboter als Haupt- oder Nebenfigur dargestellt wurde (vgl. ebd.: 243).

In allen 15 Arbeiten werden demographische Merkmale erhoben, unter anderem um Störfaktoren möglichst ausschließen beziehungsweise kontrollieren zu können. Dazu sei zudem auf die unterschiedlichen Studiensettings verwiesen, mit denen versucht wurde, mögliche Störvariablen zu minimieren (vgl. Abschnitt 5.2.3). Zusätzlich werden in einigen Arbeiten Faktoren berücksichtigt, die als Kontrollvariablen in Frage kommen. Dies sind Mediennutzungsverhalten beziehungsweise Nachrichtenkonsum (vgl. Tandoc Jr. et al. 2020; Graefe, Haim et al. 2018; Melin et al. 2018). Zudem erfragen Liu und Wei (2019), Graefe, Haim et al. (2018) das Themeninvolvement. Liu und Wei (2019) nutzen Politiknachrichten als Stimuli und fragen deshalb auch die politische Einstellung der Proband:innen ab. Außerdem werden die Vorerfahrungen mit automatisierter Berichterstattung bei Tandoc Jr. et al. (2020), Melin et al. (2018) und Jia (2020) berücksichtigt. Graefe, Haim et al. (2018) fragen weiterhin nach dem journalistischen Hintergrundwissen der Teilnehmenden. Auf Seiten der Stimuli werden als Kontrollvariablen die Nachrichtenthemen (vgl. Zheng et al. 2018; Haim und Graefe 2018a; Van der Kaa und Krahmer 2014), die Art der algorithmischen und hybriden Kennzeichnung (vgl. Waddell 2019), die Reihenfolge der Stimulitexte, die wahrgenommene Wichtigkeit der Erhebungskriterien für die Teilnehmenden und die Zuordnenbarkeit der Quelle (vgl. Melin et al. 2018) verwendet. Als Manipulationschecks nutzen Liu und Wei (2019), Zheng et al. (2018) und Waddell (2018) die Kennzeichnungserinnerung, also die Frage, ob die Teilnehmenden die angegebene Quelle der Texte wiedergeben können.

Abhängige Variablen: Glaubwürdigkeit, Fachkenntnis und Lesbarkeit

Die Rezeptionsstudien untersuchen die Wahrnehmung automatisiert generierter Nachrichtentexte und operationalisieren diese durch die bewertete Glaubwürdigkeit, Fachkenntnis, Lesbarkeit (engl.: credibility, expertise, readability) sowie teilweise durch zusätzliche abhängige VariablenFootnote 26. Die Mehrheit der Arbeiten, dreizehn der 15 Publikationen erfassen die wahrgenommene Glaubwürdigkeit als eine Dimension der Wahrnehmung, arbeiten aber mit jeweils unterschiedlichen Fragen und Items (vgl. Clerwall 2014; Jung et al. 2017; Haim und Graefe 2017; Graefe, Haim et al. 2018; Wölker und Powell 2018; Waddell 2018; Liu und Wei 2019; Melin et al. 2018; Wus 2020; Waddell 2019; Jia 2020; Tandoc Jr. et al. 2020). Die zwei davon abweichenden Untersuchungen von Zheng et al. (2018) und Van der Kaa und Krahmer (2014) verwenden vergleichbare Konzepte und erheben die Vertrauenswürdigkeit (vgl. Van der Kaa und Krahmer 2014: 2 f.) oder die wahrgenommene Textqualität sowie die Vorliebe für Nachrichtentexte (vgl. Zheng et al. 2018: 269 f.). Als weitere abhängige Variablen verwendet werden verschiedene Qualitätsbegriffe (vgl. Melin et al. 2018; Zheng et al. 2018; Haim und Graefe 2017; Jung et al. 2017), Konzeptionen von Medienvertrauen (vgl. Liu und Wei 2019; Zheng et al. 2018; Van der Kaa und Krahmer 2014), die wahrgenommene Objektivität (vgl. Wus 2020; Liu und Wei 2019) und Bias der Texte (vgl. Wus 2020; Waddell 2019), das Lesevergnügen (vgl. Melin et al. 2018), das emotionale Involvement, welches die Stimuli auslösen (vgl. Liu und Wei 2019), die Vorliebe für Nachrichtentexte (vgl. Zheng et al. 2018), die bewertete Wichtigkeit des Nachrichtenthemas (vgl. Waddell 2018), die Wahrscheinlichkeit, einen automatisiert generierten oder einen menschlich verfassten Text auszuwählen (genannt Selektivität) (vgl. Wölker und Powell 2018) sowie Quellen-Antropomorphismus (vgl. Waddell 2019)Footnote 27 und Repräsentativität (Melin et al. 2018). Glaubwürdigkeit wird in den Studien vor allem durch die Quellen- und Textglaubwürdigkeit umgesetzt, lediglich Melin et al. (2018) und Wus (2020) beziehen auch die Mediumglaubwürdigkeit als abhängige Variable mit ein.

Vertrauen und Vertrauenswürdigkeit im Schwerpunkt

Von den 15 Rezeptionsstudien nehmen neun Arbeiten Bezug zu Vertrauen oder Vertrauenswürdigkeit. Für sechs dieser neun Arbeiten ist Vertrauen beziehungsweise Vertrauenswürdigkeit ein Teil der Text-, Quellen- und Mediumglaubwürdigkeit (vgl. Tandoc Jr. et al. 2020; Jia 2020; Wus 2020; Wölker und Powell 2018; Graefe, Haim et al. 2018; Clerwall 2014). Vertrauen wird als einer von mehreren Items der Glaubwürdigkeit erhoben und bei der Operationalisierung beziehen sich die Autor:innen unter anderem auf Sundar (1999), Fogg und Tseng (1999), Newhagen und Nass (1989), Kohring (2004) und Kohring und Matthes (2007) (vgl. auch Abschnitt 4.3). Beispielsweise erheben Graefe, Haim et al. (2018) die Glaubwürdigkeit mit den vier Deskriptoren „accurate, trustworthy, fair and reliable“ (ebd.: 7) ab.

Mit Liu und Wei (2019), Zheng et al. (2018) und Van der Kaa und Krahmer (2014) gibt es zudem drei Studien, die Vertrauen oder Vertrauenswürdigkeit nicht nur als einen Indikator der Glaubwürdigkeit, sondern als abhängige Variable in mindestens einer Hypothese oder Forschungsfrage verwenden. Für Van der Kaa und Krahmer (2014)Footnote 28 sind Vertrauenswürdigkeit und Fachkenntnis essentielle Bestandteile der Glaubwürdigkeit automatisiert generierter Nachrichten. Vertrauenswürdigkeit wird als Index mit den Indikatoren „reliability, honesty, accuracy, and factbased“ (ebd.: 3) erhoben und bezieht sich unter anderem auch auf Fogg und Tseng (1999) und M. A. Hamilton (1998). Zheng et al. (2018) vergleichen die Bewertung computergenerierter Nachrichten von chinesischen und US-amerikanischen Proband:innen und wollen wissen, ob diese in der Nachrichtenproduktion Journalist:innen mehr vertrauen als Algorithmen oder umgekehrt (ebd.: 268). Die Forschungsfrage wird mit 16 Items umgesetzt und bezieht sich im Wesentlichen auf Kohring und Matthes (2007). Eine Auswahl der verwendeten Deskriptoren wurde veröffentlicht: ‘The topic of the news article receives the necessary attention;’ ‘The focus is on important facts;’ ‘The reported information is true;’ and ‘The reporters’ opinions are well-founded’ (Zheng et al. 2018: 270). Weiterhin nehmen Liu und Wei (2019) die ‚Publikation‘ als erklärende Variable mit auf und untersuchen Moderationseffekte, die die wahrgenommene Vertrauenswürdigkeit der Publikation auf die wahrgenommene Vertrauenswürdigkeit der TextquelleFootnote 29 bei automatisiert gekennzeichneten Nachrichten hat (ebd.: 645).

Zwischenfazit zur Operationalisierung der verwendeten Variablen

In den 15 Rezeptionsstudien steht die wahrgenommene Glaubwürdigkeit computergenerierter Nachrichtentexte im Mittelpunkt. Vertrauen wird, wenn überhaupt thematisiert, mehrheitlich als Subdimension der Text- und Quellenglaubwürdigkeit operationalisiert. Die Systematisierung der Studien zeigt aber auch, dass Glaubwürdigkeit und Vertrauen – wie in Abschnitt 4.2.3 besprochen – eng verknüpfte Konzepte sind und beispielsweise zur Messung gleiche oder überlappende Skalen verwendet werden. Außerdem werden beide Begriffe auch im Forschungsstand nicht trennscharf voneinander abgegrenzt und teilweise synonym verwendet. Insgesamt bestätigt die Aufarbeitung die Befunde aus Kapitel 4: Die Verwendung des Glaubwürdigkeitsbegriff ist für die Rezeptionsstudien und ihren direkten Gegenstandsbezug sinnvoll und zielführend, für weiterführende und tiefergehende Auseinandersetzung bezogen auf ein generalisiertes Bezugsobjekt ist das Vertrauenskonzept aber geeigneter.

Weiterhin zeigt die Aufarbeitung, dass die 15 Rezeptionsstudien in ihrem Aufbau grundsätzlich ähnlich sind, sich aber in Details unterscheiden. Zudem kann die Darstellung zeigen, dass, neben den wichtigsten unabhängigen Variablen der Textquelle, der Kennzeichnung der Quelle und der Nachrichtenthemen, weitere unabhängige, moderierende und vermittelnde Variablen eingesetzt werden. Operationalisiert werden:

  1. 1.

    unabhängige Variable: Textquelle, Quellenkennzeichnung, Nachrichtenthema, Objektivität der Texte bzw. Darstellungsform, Publikation, kultureller Hintergrund

  2. 2.

    moderierende Variable: Nachrichtenthema, Objektivität der Texte bzw. Darstellungsform, Publikation, Vorerfahrung Automatisierung, Medienkonsum Stimulithema, Themeninvolvement, Robot-Recall

  3. 3.

    vermittelnde Variable: Nachrichtenthema, Erwartungs-Nichteinhaltung, Quellen-Antropomorphismus, Nachrichtenbias, Text- und Quellenglaubwürdigkeit, Maschinenheuristik

  4. 4.

    Kontrollvariable: Nachrichtenthema, Stimulireihenfolge, Art der algorithmischen und hybriden Kennzeichnung, demografische Merkmale, kultureller Hintergrund, journalistisches Hintergrundwissen, Vorerfahrung Automatisierung, Nachrichtenkonsum, Themeninvolvement

Insgesamt ist die Verwendung der Variablen ist jeweils unterschiedlich stark theoretisch abgeleitet und ihre Anordnung und Operationalisierung überschneidet sich teilweise. Diese heterogene Operationalisierung ist dabei für den vorliegenden Forschungszweck der Exploration gewinnbringend: die Aufarbeitung der Rezeptionsstudien generiert einen breiten Fundus an möglichen Einflussfaktoren, die sich zwar mehrheitlich auf die Glaubwürdigkeit beziehen, aber durchaus auch für Vertrauensbewertungen relevant sind. Vollständig aufgelistet werden die verwendeten Einflussfaktoren der 15 Rezeptionsstudien, zusammen mit den Studienergebnissen des Folgeabschnitts, in Tabelle 9.3. Beschrieben ist in den Studien außerdem die Notwendigkeit, in Anschlussarbeiten einzelne Themen und Faktoren genauer zu erläutern. Dies wird mit der vorliegenden Arbeit adressiert. Um dazu auswählen zu können, welche Variablen und Studienergebnisse für die vorliegende Arbeit besonders erkenntnisreich scheinen, erfolgt im nächsten Abschnitt die Auseinandersetzung mit den erzielten Studienergebnissen bezogen auf die verwendeten Einflussfaktoren.

5.2.4 Darstellung der Studienergebnisse

Zur Darstellung der Studienergebnisse werden zunächst die Ergebnisse der Metastudie von Graefe und Bohlken (2020) besprochen und diese anschließend um die Ergebnisse der vorliegenden Literaturanalyse ergänzt und erweitert. Die Metastudie leistet einen fundierten Überblick über die Studienergebnisse der Mehrheit der 15 Rezeptionsstudien. Um die einzelnen Variablen und ihren Einfluss auf die Wahrnehmung automatisiert generierter Texte beziehungsweise auf die Vertrauensbewertung des automatisierten Journalismus analysieren zu können, sind zusätzliche Ergebnisse der Primärstudien notwendig. Diese Aufarbeitung leistet die vorliegende Literaturanalyse.

Überblick der Studienergebnisse in der Metastudie

Graefe und Bohlken (ebd.) führen eine Metaanalyse zur Wahrnehmung computergenerierter Nachrichten von Lesenden ohne journalistischen Hintergrund durch und verwenden dazu im Wesentlichen die Studienauswahl, die auch für die Literaturanalyse der vorliegenden Arbeit getroffen wirdFootnote 30. Die Metastudie will einen systematischen Überblick über Studien der Rezeptionsforschung zum automatisierten Journalismus leisten und zudem die Primärdaten zu aggregierten Größen zusammenfassen, um die Aussagekraft der Ergebnisse zu erhöhen. Dazu unterscheiden Graefe und Bohlken (ebd.) Daten, die – innerhalb der Online-Experimente – in deskriptiven Studiensettings erhoben wurden und Werte, die aus experimentellen Studienaufbauten stammenFootnote 31.

Grundsätzlich zeigen die Ergebnisse der Metastudie, dass die Leser:innen die Glaubwürdigkeit von automatisiert generierten und menschlich verfassten Texten gleich bewerten. In Bezug auf die wahrgenommene Qualität schneiden die menschlich verfassten Texte leicht besser ab, wobei die Unterschiede zwischen den Textarten gering sind. Bei der Bewertung der Lesbarkeit sind deutlichere Effekte zu messen: Hier bevorzugen die Proband:innen klar die Texte der Journalist:innen. Weiterhin ändert sich bei den Dimensionen ‚Glaubwürdigkeit‘ und ‚Qualität‘, nicht aber bei der ‚Lesbarkeit‘, die Richtung der Effekte, wenn zwischen experimentellen und deskriptiven Nachweisen unterschieden wird. Insgesamt favorisieren die Teilnehmenden im Experimentaldesign die menschlich verfassten Texte, wogegen beim deskriptiven Aufbau die computergenerierten Nachrichten als glaubwürdiger und von höherer Qualität bewertet werden (vgl. ebd.: 55).

Zusätzlich stellen Graefe und Bohlken (ebd.) fest, dass auch bei der Quellen- und Textglaubwürdigkeit, als Subdimensionen der Glaubwürdigkeit, die Ergebnisse in Abhängigkeit der Art der Datenerhebung variieren. So zeigen zwar die addierten Werte, dass Lesende menschlich verfasste Texte bevorzugen, wenn nach der Quellenglaubwürdigkeit gefragt wurde. Sobald die Daten allerdings einzeln betrachtet werden, zeigt sich ein differenzierteres Bild: In experimentellen Studien werden menschlich geschriebene Nachrichten beziehungsweise deren Ursprung als glaubwürdiger bewertet, wogegen in deskriptiven Settings automatisiert generierte Nachrichten beziehungsweise Algorithmen als Autoren bevorzugt werden. Auch bei der Textglaubwürdigkeit zeigen sich Unterschiede abhängig von der Art der Erhebung: Im Experimentaldesign gibt keine Unterschiede in der Bewertung beider Textarten. In beschreibenden Verfahren hingegen werden automatisiert generierte Nachrichten gegenüber menschlich verfassten Texten deutlich bevorzugt. Werden die Werte der Studien zusammengefasst, zeigen die Daten, dass menschlich verfasste Nachrichten in Bezug auf die Textglaubwürdigkeit leicht bevorzugt werden. Bezogen auf die Quellen- und Textglaubwürdigkeit werden in deskriptiven Experimenten beide Male die automatisiert generierten Texte bevorzugt und der Effekt ist jeweils höher als bei experimentellen Versuchsaufbauten: Hier werden bei der Quellenglaubwürdigkeit die maschinengeschriebenen Texte favorisiert. Bei der Textglaubwürdigkeit kann kein Unterschied festgestellt werden (vgl. Graefe und Bohlken 2020: 55 f.).

Auch bei der Detailauswertung der Dimension Qualität stellen Graefe und Bohlken (ebd.) Unterschiede in den Ergebnissen bezogen auf die Art der Datenerhebung fest. So bewerten Proband:innen in deskriptiven Studien die Qualität von maschinengeschriebenen Nachrichten höher als die Qualität menschlich verfasster Texte. Im Experimentaldesign hingegen werden menschlich geschriebene Nachrichten bevorzugt, sowohl bei Effekten, die auf die Textquelle zurückzuführen sind sowie bei Effekten, die die Nachricht an sich betreffen. Zudem sind beide Effekte unterschiedlich ausgeprägt: Die Effekte bezogen auf den Textinhalt übertreffen die Effekte, die auf die Textquelle zurückzuführen sind (vgl. ebd.: 56 f.). Bezogen auf die Lesbarkeit gibt es keine Unterschiede der Ergebnisse in Bezug auf die Datenerhebung. Hier zeigen sowohl die experimentellen als auch die deskriptiven Nachweise eine Präferenz für menschlich verfasste Texte. Bei den Experimentaldesigns zeigt sich zudem, dass die Effekte bezogen auf die Nachrichteninhalte größere Auswirkungen haben als die Effekte der Textquelle. Im Vergleich zu den Dimensionen Glaubwürdigkeit und Qualität sind die Werte der Lesbarkeit der Texte insgesamt am deutlichsten ausgeprägt (vgl. ebd.: 56 f.).

Detailanalyse in der Literaturanalyse

Die Metaanalyse berücksichtigt die wahrgenommene Glaubwürdigkeit, Lesbarkeit und Qualität der computergenerierten Stimuli. Die, im Folgenden dargestellte Literaturanalyse, konzentriert sich auf die bewertete Text- und Quellenglaubwürdigkeit beziehungsweise auf erste Erkenntnisse zur Vertrauensbewertung. Detailliert werden dazu die Einflüsse der Textquelle, der Quellenkennzeichnung sowie die Nachrichtenthemen als wesentliche unabhängige Variablen beschrieben. Zudem folgen die Analysen zu den weiteren unabhängigen Variablen, die nur in einzelnen Arbeiten thematisiert werden, aber zusätzlich relevante Erkenntnisse zur Wahrnehmung und zu den Einflussfaktoren dieser Bewertung liefern. Teilweise sind die Effekte der unabhängigen Variable nicht losgelöst vom Studiensetting oder der kombinierten Auswertung mit weiteren unabhängigen oder vermittelnden und moderierenden Variablen zu betrachten (vgl. 5.2.3). Deshalb werden gegebenenfalls relevante Zusatzerkenntnisse aufgelistet, wenngleich der Schwerpunkt der Ausführung auf den Einflüssen der unabhängigen Variablen liegt. Wie bereits die Ergebnisse der Metaanalyse zeigen – und im Folgenden auch die Literaturanalyse verdeutlichen wird – sind in den 15 Rezeptionsstudien nur graduelle Unterschiede zwischen den Einflussfaktoren auf die wahrgenommene Text- und Quellenglaubwürdigkeit wahrzunehmen. Dennoch ist die detaillierte Aufarbeitung der Studienergebnisse bezogen auf die einzelnen Faktoren wichtig, um für die vorliegende Arbeit unter den verwendeten Variablen die Faktoren auszuwählen, die für Vertrauensurteile im automatisierten Journalismus vermutlich relevant sind. Diese Aufarbeitung ist in Tabelle 5.1 mit den Einflussfaktoren zur Wahrnehmung computergenerierter Nachrichtentexte zusammenfassend dargestellt und soll im Folgenden entlang der einzelnen Variablen besprochen werden.

Tabelle 5.1 Darstellung der Einflussfaktoren zur Wahrnehmung computergenerierter Nachrichtentexte aus dem Forschungsstand

Einfluss der Textquelle

Zum Einfluss der Textquelle auf die Wahrnehmung computergenerierter Nachrichten konnte die Metaanalyse von Graefe und Bohlken (ebd.) im Überblick zeigen, dass teilweise die menschlich verfassten Texte glaubwürdiger bewertet werden im Vergleich zu maschinengeschriebenen Texten. Dabei sind die Unterschiede zwischen beiden Textarten gering und die Stärke und Richtung der Effekte unterscheiden sich je Studiensetting (vgl. ebd.: 55 f.) (ausführlich beschrieben in Abschnitt 5.2.4).

Insgesamt berücksichtigen neun der 15 Rezeptionsstudien die Textquelle als unabhängige VariableFootnote 32. Davon können Haim und Graefe (2018a) keine Auswirkungen und Clerwall (2014) nur in einem Indikator signifikante AuswirkungenFootnote 33, auf die Wahrnehmung computergenerierter Nachrichten in Abhängigkeit der Textquelle feststellen (vgl. Haim und Graefe 2018a: 200). Die weiteren sieben Arbeiten messen hingegen Einflüsse in unterschiedlicher Ausprägung, die im Folgenden aufgeführt sind.

Haim und Graefe (2017) fragen sowohl die Erwartungen als auch die tatsächliche Wahrnehmung von computergenerierten und menschlich verfassten Nachrichten ab. Dazu führen die Autoren zwei Teilexperimente mit verschiedenen Stimuli durch: In Experiment Eins lesen die Proband:innen einen Text und in Experiment Zwei liegen hingegen zwei Stimuli unterschiedlicher Quelle vor, sodass die Teilnehmenden einen bewussten Vergleich zwischen beiden Textarten ziehen könnenFootnote 34. In Experiment Eins gibt keine signifikanten Unterschiede bezogen auf die Textquelle, wobei die menschlich verfassten Texte in allen Kategorien leicht besser abschneiden. Im zweiten Experiment bevorzugen die Teilnehmenden die menschlich verfassten Texte bei der Lesbarkeit, stellen keine Unterschiede in Bezug auf die Qualität fest und bevorzugen maschinengeschriebene Texte bei der Glaubwürdigkeit (vgl. Haim und Graefe 2017: 1051–1054). Damit zeigen sich Unterschiede in der Wahrnehmung je nach Studiendesign. Die Ergebnisse zum Textvergleich und zu den Erwartungen werden in Abschnitt 5.2.4 besprochen.

Jung et al. (2017) führen ihr ExperimentFootnote 35 in Südkorea durch und vermuten, dass Lesende eher den Output von Algorithmen bevorzugen und die Arbeit von Journalist:innen weniger gut und weniger glaubwürdig bewerten werden. Diese Vermutung kann in der Datenauswertung bestätigt werden (vgl. ebd.: 295).

Graefe, Haim et al. (2018) testen als Einflussfaktoren die Quelle, die Kennzeichnung und Themen der Stimuli und variieren die Faktoren in einem 2x2x2-SettingFootnote 36. Die Themen der Stimuli haben keinen Einfluss auf die Bewertung von automatisiert generierten Texten, die Kennzeichnung leichte Auswirkungen und am wirkmächtigsten ist die Variation der Textquelle (vgl. dazu die folgenden Abschnitte). Die Ergebnisse von Graefe, Haim et al. (ebd.) zeigen, dass automatisiert generierte Texte in der Glaubwürdigkeit und Fachkenntnis höher bewertet werden als menschlich geschriebene Texte, wobei diese bei der bewerteten Lesbarkeit bevorzugt werden. Der Einfluss der Quelle zeigt sich dabei unabhängig von der Kennzeichnung, die die Autoren variieren (vgl. ebd.: 201 f.).

Im Gegensatz zu den bisherigen Ergebnissen stellen Wölker und Powell (2018) fest, dass die Textglaubwürdigkeit – hier wurde auch die Vertrauenswürdigkeit abgefragt – bei algorithmisiert generierten Texten höher ist als bei menschlichen verfassten Texten (mit Ausnahme des Sportberichts, dies wird im Abschnitt Thema berücksichtigt). Zudem nehmen die Teilnehmenden die Glaubwürdigkeit der Quelle, also des Algorithmus und des Journalisten beziehungsweise der Journalistin, bei beiden Textarten als gleichwertig wahr (vgl. ebd.: 8–11). Die Autor:innen beschäftigen sich außerdem als erste VeröffentlichungFootnote 37 mit der möglichen Wirkung von hybriden Texten auf die Bewertung der Nachrichten. Sie können Auswirkungen auf die Text- und Quellenglaubwürdigkeit in dem Sinne aufzeigen, als dass die Lesenden keine signifikanten Unterschiede zu den bisher untersuchten Textquellen ziehen. Die Werte liegen zwischen den Daten der computergenerierten und menschlich verfassten Stimuli, wenngleich die Unterschiede nicht signifikant sind (vgl. Wölker und Powell 2018: 9). Zudem können die Autor:innen aufzeigen, dass die bewertete Text- und Quellenglaubwürdigkeit von automatisiert generierten, hybriden und menschlich verfassten Stimuli die Nachrichtenauswahl von automatisiert generierten Texten nicht beeinflusst (vgl. ebd.: 9–11)Footnote 38.

Die Ergebnisse von Melin et al. (2018) beziehen sich auf die wahrgenommene Glaubwürdigkeit, Lesevergnügen, Repräsentativität und die allgemeine Qualität von automatisiert generierten Wahlnachrichten im Vergleich mit entsprechenden menschlich verfassten Texten. Vertrauen oder Vertrauenswürdigkeit wird nicht erhoben. In Abhängigkeit der Textquelle können die Forscher:innen Unterschiede ausmachen, so erreicht die automatisierte Berichterstattung in allen vier Kategorien niedrigere, aber für die Forscher:innen durchaus zufriedenstellende Zustimmungswerte (vgl. ebd.: 43363 f.). Die Bewertungen von automatisiert generierten Texten sinken in absteigender Reihenfolge: Noch am höchsten, und nahezu vergleichbar mit menschlich verfassten Texten wird die Glaubwürdigkeit wahrgenommen, es folgt die Repräsentativität, dann die allgemeine Qualität und am wenigsten hoch eingeschätzt wird das Lesevergnügen. Die Autor:innen testen außerdem eine Reihe von Faktoren, auf deren Einflüsse im Folgenden noch eingegangen wird. An dieser Stelle wichtig zu erwähnen ist aber, dass die Zustimmungswerte für automatisiert generierte Texte durchaus differenzierter erfolgen, wenn zusätzliche Faktoren wie Demographie, Vorerfahrungen mit Automatisierung oder eine freie Wahl der Stimulitexte berücksichtigt werden (vgl. ebd.: 43364).

Auch Wus (2020) kann Auswirkungen auf die Bewertung der Text- und Mediumglaubwürdigkeit, der Objektivität und Bias zwischen beiden Textquellen feststellenFootnote 39. Die Autorin stellt für die alle vier unabhängigen Variablen signifikante Unterschiede zwischen automatisiert generierten und menschlich verfassten Texten fest, unabhängig vom Thema oder dem Setting der Experimentalgruppe. Dabei wird den automatisiert generierten Texten eine höhere Objektivität, eine höhere Textglaubwürdigkeit sowie eine höhere Glaubwürdigkeit der Publikation zugeschrieben (vgl. ebd.: 1018 f.). Zusätzlich werden die automatisiert generierte Texte als „less biased than human-written news stories“ (ebd.: 1019) bewertet.

Weiterhin kann auch Jia (2020) Veränderungen in der Wahrnehmung und den Erwartungen in Abhängigkeit der Textquelle feststellen, wobei die Richtung und Stärke der Unterschiede mit den Themen und dem Design der Experimente variierenFootnote 40. In Experiment Eins zeigen sich keine Unterschiede in der bewerteten Glaubwürdigkeit zwischen menschlich verfassten und computergenerierten Nachrichten. In der zweiten Teilstudie, in der ein unbewusster Textvergleich möglich ist, wurde die Glaubwürdigkeit je Textquelle unterschiedlich bewertet: Grundsätzlich gibt es einen nachgewiesenen Zusammenhang zwischen der abhängigen und unabhängigen Variable, die Ergebnisse unterscheiden sich aber je Thema. Nur bei den Lokalnachrichten werden die menschlich verfassten Texte signifikant höher bewertet. Diese Richtung zeigt sich zwar auch bei den Finanznachrichten, hier kann aber nicht von statistischer Relevanz gesprochen werden. Maschinengeschriebene Nachrichten werden hingegen im Bereich Sport und bei Konferenzberichten bevorzugt, aber auch hier ist keine Signifikanz nachzuweisen (vgl. ebd.: 2618 f., 2621 f.)Footnote 41.

Zusammengefasst wird deutlich, dass sieben von neun Studien, die die Textquelle als unabhängige Variable verwenden, einen Einfluss der Textquelle auf die Wahrnehmung automatisiert generierter Texte feststellen (vgl. Jung et al. 2017; Haim und Graefe 2017; Graefe, Haim et al. 2018; Wölker und Powell 2018; Melin et al. 2018; Wus 2020; Jia 2020). Im Vergleich mit den weiteren unabhängigen Variablen, wie der Quellenkennzeichnung oder der Nachrichtenthemen, scheint die Textquelle den höchsten Zusammenhang mit der wahrgenommenen Glaubwürdigkeit zu erklären (vgl. z. B. Graefe, Haim et al. 2018; Wus 2020). Auch die Ergebnisse der Metaanalyse können nachvollzogen werden, so werden in einigen Settings menschlich verfasste Texte bezogen auf die Glaubwürdigkeit höher bewertet und in einigen Experimenten hingegen automatisiert generierte Nachrichten als glaubwürdiger wahrgenommen. Insgesamt werden automatisiert generierte Nachrichten in der Mehrheit der sieben Studien als zufriedenstellend glaubwürdig bewertet und auch hybride Nachrichten werden grundsätzlich als glaubwürdig wahrgenommen (vgl. Wölker und Powell 2018: 9). Deutlich zeigt die Aufarbeitung der Studien, dass die Einflüsse der Textquelle nicht losgelöst von weiteren Faktoren und unabhängig vom Studiensetting ermittelt werden können. Es gibt beispielsweise Differenzierungen in den Ergebnissen zum Einfluss der Textquelle bezogen auf eine Kombination von Wahrnehmungen und Erwartungen, bewussten und unbewussten Vergleichen oder Kombinationen mit demografischen Merkmalen, kulturellen Hintergründen oder verwendeten Stimuli. Die Variation von Detailergebnissen und Differenzierungen spiegelt die Aufarbeitung der Medienbewertungs- und Vertrauensforschung in Kapitel 4 wider: Medienbewertungen und Vertrauensentscheidungen sind keine monokausalen Entscheidungen, sondern komplexe soziale Konstrukte und demzufolge ist die Wahrnehmung automatisiert generierter Nachrichten nicht allein auf eine Variation der Textquelle zurückzuführen.

Einfluss der Quellenkennzeichnung

Zehn von 15 Rezeptionsstudien operationalisieren die Kennzeichnung der Texte als unabhängige VariableFootnote 42. Dabei stellen Haim und Graefe (2018a), Van der Kaa und Krahmer (2014) keinen Einfluss der Kennzeichnung fest. Acht weitere Arbeiten dokumentieren Wirkungen, die sich auf die Kennzeichnung beziehungsweise auf eine Faktorenkombination mit der Kennzeichnung zurückführen lassen.

In der Auswertung bei Tandoc Jr. et al. (2020)Footnote 43 können keine signifikanten Effekte festgestellt werden, die sich nur auf die Kennzeichnung zurückführen lassen. Zusätzlich ermitteln die Autor:innen, ob es Interaktionseffekte mit der Kennzeichnung und der zusätzlich eingeführten unabhängigen Variable ‚Objektivität der Texte‘ gibt und ob beide zusammen einen Einfluss auf die abhängigen Variablen haben: Hier kann sowohl für die Text- als auch für die Quellenglaubwürdigkeit eine Wechselwirkung ermittelt werden. Bei den menschlich verfassten Texten werden die objektiv wahrgenommenen Nachrichten als weniger glaubwürdig, sowohl bezogen auf die Quelle als auch den Inhalt, eingeschätzt im Vergleich zu den nicht-objektiven Texten. Bei den automatisiert generierten Texten dagegen wird die Glaubwürdigkeit der Algorithmen und die Glaubwürdigkeit der Textinhalte bei objektiven Texten höher bewertet als bei den nicht-objektiven Vergleichsstimuli (vgl. auch Ergebnisse weiterer unabhängiger Variablen in Abschnitt 5.2.4). Die zudem abgefragte hybride Kennzeichnung verhält sich im Muster analog zur menschlichen Kennzeichnung (vgl. ebd.: 555–559).

Auch die Ergebnisse der Quellenvariation bei Wus (2020) wurden thematisiert. Im Experiment lesen die Proband:innen immer zwei Stimuli; davon je eine automatisiert generierte und eine menschlich verfasste Nachricht. Zusätzlich gibt es zwei Experimentalgruppen, da die Stimuli einmal gekennzeichnet werden und ein bewusster Textvergleich möglich ist und einmal nicht-gekennzeichnete Nachrichten vorliegen, also ein unbewusster Vergleich der Textarten erfolgt. Die Ergebnisse zeigen, dass es signifikante Unterschiede zwischen beiden Gruppen und der bewerteten Objektivität, Text- und Quellenglaubwürdigkeit sowie der Nachrichtenbias gibt: Mit Ausnahme der Nachrichtenbias liefern Texte ohne Kennzeichnung signifikant höhere Werte als gekennzeichnete Stimuli. Damit gibt es Effekte der Kennzeichnung, die im Fall dieser Studie möglicherweise weniger auf die Kennzeichnung sondern auf den Unterschied zwischen bewusstem und unbewusstem Textvergleich zurückzuführen sind (vgl. ebd.: 1018 f.) (vgl. Abschnitt 5.2.4).

Bei Liu und Wei (2019)Footnote 44 hat die Variation der Kennzeichnung signifikante Unterschiede zwischen menschlich geschrieben und computergenerierten Stimuli bei den abhängigen Variablen ‚Emotionales Involvement‘ , ‚Objektivität‘ und ‚Fachkenntnis der Quelle‘ , nicht aber bei der Glaubwürdigkeit und der Vertrauenswürdigkeit der Quelle zur Folge. Automatisiert generierte Text lösen weniger Emotionales Involvement aus als ihre Vergleichsstimuli und werden als objektiver bewertet. Dafür wird den (menschlichen) Journalist:innen mehr Fachkenntnis zugeschrieben als den Algorithmen. Die kombinierte Auswertung der Kennzeichnung und der Publikation als moderierende Variable berücksichtigt, dass signifikante Unterschiede zwischen den Experimentalgruppen bei der Objektivität, Vertrauenswürdigkeit der Quelle und der zugeschriebenen Fachkenntnis der Quelle festzustellen sind, nicht aber bei der Textglaubwürdigkeit: Bezogen auf das Vertrauen in die Quellen und die wahrgenommene Fachkenntnis der Verfasser:innen sind keine Unterschiede zwischen den Textarten festzustellen, wenn die Publikation als vertrauenswürdig giltFootnote 45. Die kombinierte Auswertung der Kennzeichnung und der Darstellungsform als moderierende Variable zeigt signifikante Effekte nur bei der bewerteten Textglaubwürdigkeit. Kommentierende Texte werden in der Textglaubwürdigkeit insgesamt höher bewertet, wenn die Quelle als automatisiert generiert gekennzeichnet ist und informierende Texte schneiden besser ab, wenn die Kennzeichnung Journalist:in lautet. Insgesamt zeigen menschlich gekennzeichnete Texte keine signifikanten Unterschiede zwischen den Darstellungsformen. Der Inhalt von automatisiert generierten Texten hingegen wird bei informierenden Texten als weniger glaubwürdig bewertet als automatisiert generierte kommentierende Texte (vgl. Liu und Wei 2019: 646–651).

Waddell (2018) führt zwei Teilexperimente zur Textglaubwürdigkeit computergenerierter Nachrichten mit unterschiedlicher Komplexität durchFootnote 46. Im ersten Experiment wird allein der Einfluss der Quellenkennzeichnung erhoben: Die Proband:innen bewerteten automatisiert generierte gekennzeichnete Texte signifikant schlechter als die menschlich gekennzeichneten Stimuli (vgl. ebd.: 241–243). Das zweite Experiment und dessen Auswertung ist umfangreicher, indem der Autor vermittelnde und moderierende Variablen einführt. Als vermittelnde Faktoren werden die Maschinenheuristik, die Nichteinhaltung von Erwartungen, Quellen-Antropomorphismus und die Nachrichtenthemen berücksichtigt und als moderierende Variable der so genannten Robot-Recall (vgl. ebd.: 243–246). Die Kennzeichnung wird immer in Verbindung mit vermittelnden Faktoren ausgewertet. Insgesamt gibt es signifikante Unterschiede in der wahrgenommenen Glaubwürdigkeit, wenn zwischen menschlich und maschinengeneriert gekennzeichneten Texte unterschieden wird. Letztere werden als weniger glaubwürdig eingeschätzt. Außerdem können Quellenantropomorphismus und die Nichteinhaltung von Erwartungen die Beziehung zwischen der unabhängigen und abhängigen Variable (mit) erklären (vgl. ebd.: 247 f.)Footnote 47. Mit den Befunden wird die Liste an möglichen Einflussfaktoren um eine Reihe relevanter vermittelnder und moderierender Variablen erweitert. In der nachfolgenden Publikation kann Waddell (2019) zeigen, dass es bei automatisiert generierten Texten sowohl einen indirekt positiven Effekt auf die Textglaubwürdigkeit über die vermittelnde Rolle der Nachrichtenbias gibt als auch einen indirekt negativen Effekt auf die Textglaubwürdigkeit über die vermittelnde Rolle des Quellen-AntropomorphismusFootnote 48. Zudem wird getestet, wie Texte mit hybrider Kennzeichnung im Vergleich zu menschlich gekennzeichneten Nachrichten bei der Textglaubwürdigkeit abschneiden, wenn die indirekten Effekte der Nachrichtenbias und des Quellen-Antropomorphismus berücksichtigt werden (vgl. ebd.: 9–12). Die Ergebnisse greifen die bisherigen Erkenntnisse auf: Im Vergleich unterschiedlicher Textquellen steigt die wahrgenommene Glaubwürdigkeit von hybrid gekennzeichneten Texten durch den indirekten Einfluss von Nachrichtenbias und sinkt aufgrund der Einflüsse des Quellen-Antrophomormismus. Weiterhin testet Waddell (ebd.), ob und wenn ja, welchen Einfluss verschiedene Varianten oder Formulierungen der Kennzeichnung haben. Hier zum Beispiel die Frage, ob eine Organisationskennzeichung wie ‘Automated Insights’ anders wahrgenommen wird als eine Autorenzeile, die den Namen des Algorithmus enthält, wie ‘Quill’. Der Autor kann keinen signifikanten Unterschied zwischen beiden Kennzeichnungen messen. Schlussendlich schließt Waddell (ebd.) mögliche Störfaktoren durch eine multiple Quellenkennzeichnung, wie beispielsweise bei einer hybriden Kennzeichnung, weitestgehend aus (vgl. ebd.: 13–15).

Der Studienaufbau und die Ergebnisse von Graefe, Haim et al. (2018) zum Einfluss der Quelle wurden bereits beschriebenFootnote 49. Insgesamt ist die veränderte Wahrnehmung auf die Variation der Textquelle zurückzuführen und eine Variation der Themen zeigt keinen Einfluss. Nur geringe Unterschiede zwischen den Experimentalgruppen lassen sich auf eine Veränderung der Kennzeichnung zurückführen: Diese Unterschiede zeigen bei allen drei unabhängigen Variablen in die gleiche Richtung, erreichen aber nur bei einer Ausnahme ein zufriedenstellendes Signifianzniveau. Die Stimulitexte werden mit einer Ausnahme durchweg höher in der Glaubwürdigkeit, Fachkenntnis und in der Lesbarkeit bewertet, wenn ein Journalist als Verfasser angegeben wurde, auch unabhängig von der tatsächlichen Quelle. Die Ausnahme sind maschinengenerierte Texte, deren Lesbarkeit signifikant höher bewertet wird, wenn sie fälschlicherweise als menschlich geschrieben gekennzeichnet werden (vgl. Graefe, Haim et al. 2018: 9 f.).

Bei Zheng et al. (2018) geht es um einen Vergleich der Wahrnehmung computergenerierter Texte zwischen chinesischen und US-amerikanischen Proband:innen. Dabei fungieren die wahrgenommene Qualität, die Vorliebe für die jeweilige Textart und das Vertrauen in die Texte als abhängige Variablen. Zunächst testen die Autor:innen die unabhängigen Variablen und deren Einflüsse univariatFootnote 50: Die Variation der Kennzeichnung (oder der Publikation) hat keinen direkten Einfluss auf die Wahrnehmung der abhängigen Variablen. Signifikante Effekte können nur in Bezug auf den kulturellen Hintergrund festgestellt werdenFootnote 51. Die Autor:innen testen in einem zweiten Auswertungsschritt, ob Interaktionseffekte zwischen den unabhängigen Variablen bestehen und ob diese Wechselbeziehungen Einfluss auf die abhängigen Variablen haben. Interaktionseffekte zwischen Kennzeichnung und Publikation finden sich nur bei den abhängigen Variablen ‚Qualität‘ und ‚Vorliebe‘ und jeweils nur innerhalb der chinesischen Experimentalgruppen. Diese können nicht für Teilnehmende aus den USA und für beide Ländergruppen nicht für die abhängige Variable ‚Vertrauen‘ nachgewiesen werdenFootnote 52. Abschließend beschreiben die Autor:innen, dass grundsätzlich mehr Gemeinsamkeiten als Unterschiede in den Bewertungen zwischen beiden Ländergruppen vorliegen. Der kulturelle Hintergrund hat den jeweils größten Einfluss bei der Bewertung der Qualität und der Vorliebe für beide Textarten, wogegen sowohl die Kennzeichnung als auch die jeweilige Publikation nur geringe Unterschiede aufweist. Wenn Unterschiede festzustellen sind, dann zeigen sich diese maßgeblich bei der bewerteten Qualität, weniger Wirkung hat die Vorliebe der Texte und keine Veränderungen ist beim gemessenen Vertrauen in die Stimuli festzustellen (vgl. ebd.: 270–273).

Wie besprochen führen Jung et al. (2017) ihr Experiment in Südkorea durch und können zunächst Einflüsse der Textquelle auf die bewertete Glaubwürdigkeit feststellen. Gleiches gilt für die Kennzeichnung der Texte: unabhängig von der tatsächlichen Textquelle bewerten Lesende menschlich gekennzeichnete Texte als signifikant weniger glaubwürdig im Vergleich zu computergeneriert gekennzeichneten Nachrichten. Nachdem die Autor:innen sowohl die Textquelle als auch die Kennzeichnung manipulieren, können sie zeigen, dass Nachrichten immer dann als glaubwürdiger bewertet werden, wenn die Teilnehmenden davon ausgehen können, dass die Stimuli maschinengeneriert sind: die Teilnehmenden bewerteten die computergenerierte Nachrichten schlechter, wenn die Kennzeichnung manipuliert wurde und menschlich verfasst lautete. Ebenso wurden menschlich verfasste Texte besser bewertet, wenn die Kennzeichnung algorithmisiert generierte Nachrichten auswies.

Insgesamt zeigt die Aufarbeitung der Studien zum Einfluss der Kennzeichnung, dass – neben dem Einfluss der Textquelle – auch keine monokausalen Zusammenhänge zwischen der Kennzeichnung von automatisiert generierten Nachrichten und der wahrgenommenen Textglaubwürdigkeit bestehen. Im Vergleich beider unabhängiger Variablen sind die Effekte der Kennzeichnung weniger deutlich ausgeprägt als die Effekte der Textquelle. Auch in Bezug auf die Kennzeichnung gibt eine Variation an Studiensettings und eine Differenzierung der Konzeptionen mit einer Reihe vermittelnder und moderierender Faktoren.

Einfluss des Themas

Von den 15 Rezeptionsstudien erheben acht Arbeiten den Einfluss des Themas der Stimuli auf die Wahrnehmung automatisiert generierter Nachrichten (vgl. Tabelle 9.3 im Anhang ‚Forschungsstand Rezeptionsstudien‘ im elektronischen Zusatzmaterial)Footnote 53 Davon können vier Arbeiten keine Effekte feststellen (vgl. Haim und Graefe 2017; Graefe, Haim et al. 2018; Waddell 2018, 2019). Demzufolge bleiben vier Studien, die die Wirkung des Themas untersuchten und zumindest leichte Effekte feststellen konnten (vgl. Van der Kaa und Krahmer 2014; Wölker und Powell 2018; Wus 2020; Jia 2020). Die Ergebnisse von Wus (2020) werden nicht weiter thematisiert, da sie sich nur auf die abhängige Variable Nachrichtenbias und nicht auf die Glaubwürdigkeit beziehenFootnote 54.

Auch Jia (2020) verwendet für ihre zwei Experimente mit Sport-, Finanz-, Konferenz- und LokalnachrichtenFootnote 55 und die Themen bestimmen vor allem Stärke und Richtung der jeweiligen Bewertung. In Experiment Eins kann die Autorin einen signifikanten Unterschied zwischen automatisiert generierten und menschlich verfassten Texten nur hinsichtlich der wahrgenommen Fachkenntnis, nicht aber bezüglich der Glaubwürdigkeit und der Lesbarkeit feststellenFootnote 56. Die Ergebnisse des zweiten Experiments zeigen dagegen unterschiedliche Bewertung der Stimuli in Abhängigkeit der Themen für die wahrgenommene Glaubwürdigkeit und Fachkenntnis, nicht aber für die Lesbarkeit. Proband:innen bewerten die Glaubwürdigkeit menschlich verfasster Nachrichten bei Lokal- und Finanzthemen höher und bevorzugen computergenerierte Texte bei Sport- und Konferenztexten (vgl. ebd.: 2622)Footnote 57. Wölker und Powell (2018) nutzen einen Finanz- und einen Sportbericht und können nur für ein Thema eine Wirkung feststellen: Wenn ein automatisiert generierter Sportbericht vorliegt, dann wurde die Textglaubwürdigkeit höher bewertet als bei menschlich verfassten Sportnachrichten. Für Finanzberichte gilt dieser Zusammenhang nicht (vgl. ebd.: 9). Auch bei Van der Kaa und Krahmer (2014) lesen die Teilnehmenden einen Sport- oder einen Finanzbericht: Das Thema wurde als kontrollierende Variable in Bezug auf die Vertrauenswürdigkeit und die Fachkenntnis von automatisiert generierten Texten konzipiert. Im Wesentlichen hat das Thema keinen Einfluss auf die Wahrnehmung, lediglich bei der bewerteten Vertrauenswürdigkeit schneiden Finanzartikel leicht besser ab (vgl. ebd.: 3).

Insgesamt kann zum Einflussfaktor Thema festgehalten werden, dass nur drei von zehn Arbeiten, die das Thema in Bezug zur Glaubwürdigkeit berücksichtigen, überhaupt einen Einfluss der Variable feststellen können. Wenn Effekte des Themas auftreten, so sind diese – im Vergleich zu den anderen unabhängigen Variablen der Quelle und der Kennzeichnung – eher von geringer Bedeutung und zeigen Auswirkungen gegebenenfalls im Detail.

Ergebnisse der weiteren unabhängigen Variablen

Als weitere unabhängige Variable führen Tandoc Jr. et al. (2020), wie im Abschnitt 5.2.3 zu Konzeption der Studien beschrieben, die Objektivität der TexteFootnote 58 ein. Die Autor:innen können keinen Einfluss auf die Text- und Quellenglaubwürdigkeit feststellen. Sie weisen aber Interaktionseffekte zwischen der Kennzeichnung und der Objektivität als unabhängige Variablen nach, die bereits bei den Ergebnissen zum Einfluss der Kennzeichnung beschrieben sind (vgl. Abschnitt 5.2.4). Zusätzlich zur Kennzeichnung nehmen auch Zheng et al. (2018) den kulturellen Hintergrund der Teilnehmenden sowie die Publikation als unabhängige Variable mit auf. Zunächst testen die Autor:innen den Einfluss jeder unabhängigen Variable im Einzelnen und können signifikante Wirkungen beim kulturellen Hintergrund, nicht aber bei der Publikation und der Kennzeichnung aufzeigen. Außerdem werden mögliche Interaktionseffekte zwischen allen drei unabhängigen Variablen getestet und unterschiedliche Wirkung auf die abhängigen Variablen festgestellt (vgl. ebd.: 270 f.). Da die Ergebnisse der Variablen eng miteinander verbunden sind und diese bereits bei der Aufarbeitung der Kennzeichnung ausführlich besprochen sind, sei auf den Abschnitt zum Einfluss der Kennzeichnung verwiesen (vgl. Abschnitt 5.2.4).

Ergebnisse der vermittelnden und moderierende Variablen

Vermittelnde und moderierende Variablen können nicht losgelöst vom Studiendesign und der Konzeption der unabhängigen und abhängigen Variablen betrachtet werden. Überwiegend werden die Einflüsse dieser Variablen deshalb bereits in der Aufarbeitung der unabhängigen Variablen angesprochen und sollen im Folgenden je Variable zusammengefasst werden. Tabelle 5.1 zeigt die Übersicht über die verwendeten vermittelnden und moderierenden Variablen, deren Aufarbeitung insbesondere für die Exploration weiterer möglicher Einflussfaktoren auf die Vertrauensbewertung automatisiert generierter Nachrichten relevant ist.

Wölker und Powell (2018) nutzen die bewertete Text- und Quellenglaubwürdigkeit der Stimuli zunächst als abhängige Variable. An mehreren Stellen der Aufarbeitung ist aber bereits erwähnt, dass die Autor:innen zudem testen, wie die Glaubwürdigkeitsbewertung die Nachrichtenauswahl von automatisiert generierten Stimuli beeinflusst. Hier sind also die Textquelle als unabhängige, die Selektivität als abhängige und Text- und Quellenglaubwürdigkeit als vermittelnde Variablen angelegt (vgl. Wölker und Powell 2018: 10 f., Appendix). In den Ergebnissen zeigen Wölker und Powell (ebd.) dass, unabhängig davon, wie die Bewertung der Text- und Quellenglaubwürdigkeit von automatisiert generierten, hybriden und menschlich verfassten Stimuli ausfällt, sich die Selektivität von automatisiert generierten Texten nicht ändert (vgl. ebd.: 10)Footnote 59.

Waddell (2018) untersucht den Einfluss der Kennzeichnung auf die Textglaubwürdigkeit und die wahrgenommene Wichtigkeit des Nachrichtenthemas in Verbindung mit vier vermittelnden Variablen: Quellen-Antropomorphismus, Maschinenheuristik, Erwartungs-Nichteinhaltung und Thema, die teilweise in Kombinationen untereinander konzipiert sind. Die Ergebnisse der vermittelnden Variablen können nicht losgelöst vom Einfluss der Kennzeichnung beschrieben werden, daher wurden die Aspekte bereits thematisiert und es wird auf den Abschnitt zur Kennzeichnung verwiesenFootnote 60. Zusammengefasst lauten die Ergebnisse, dass Quellen-Antropomorphmismus die Beziehung zwischen der unabhängigen und den abhängigen Variablen erklären kann: Lesende sehen Algorithmen als Autor:innen als weniger antropomorph an und dadurch wird die Textglaubwürdigkeit und Issue Importance von automatisiert generierten Texten geringer bewertet. Die Maschinenheuristik wird als Vermittler in Kombination mit der Erwartungs-Nichteinhaltung getestet, hier können keine signifikanten Unterschiede festgestellt werden. Die Erwartungs-Nichteinhaltung wird weiterhin mit Quellen-Antropomorphismus zusammen untersucht, auch hier sind keine vermittelnden Wirkungen dokumentiert. Zusätzlich wird getestet, ob die Kombination der drei vermittelnden Variablen und unter Einführung des moderierenden Faktors Robot-Recall Einfluss auf die abhängigen Variablen hat. Dieser Zusammenhang wurde bestätigt. Das Thema führt Waddell (ebd.) zwar als vierten Mediator ein, testet dies aber unabhängig von den bisherigen Hypothesen. Er konnte keinen Einfluss der Stimulithemen ausmachen (vgl. ebd.: 248).

Waddell (2019) prüft zudem die Kennzeichnung als unabhängige, die Textglaubwürdigkeit als abhängige und Quellen-Antropomorphismus und Nachrichtenbias jeweils als vermittelnde Variablen. Auch hier sind die Ergebnisse in den bisherigen Ausführungen zu den Studienergebnissen bereits beschrieben. Zusammengefasst erbringen beide Variablen signifikante Erklärleistung bezogen auf die Beziehung zwischen der unabhängigen und der abhängigen Variable, indem bei der Wahrnehmung automatisiert generierter Nachrichten ein positiver Effekt durch die vermittelnde Variable Nachrichtenbias sowie ein negativer vermittelnder Effekt durch Quellen-Antropomorphismus festzustellen ist (vgl. ebd.: 9–12).

Zunächst führen Liu und Wei (2019) als moderierende Variable die journalistische Darstellungsform und die Publikation einFootnote 61. Moderationseffekte können bei beiden Variablen jeweils teilweise nachgewiesen werden: Bei der journalistischen Darstellungsform treten moderierende Effekte nur bei der bewerteten Textglaubwürdigkeit auf, wogegen bei der Publikation signifikante Moderationseffekte bei der Objektivität, der Vertrauenswürdigkeit der Quelle und der zugeschriebenen Fachkenntnis der Quelle, nicht aber bei der Textglaubwürdigkeit festzustellen sind (vgl. ebd.: 648 f.). Die Ergebnisse zu beiden moderierenden Variablen sind ausführlich im Abschnitt zum Einfluss der Kennzeichnung beschrieben.

Auch Waddell (2019) untersucht die Publikation als moderierende Variable, dabei werden, im Gegensatz zu Liu und Wei (2019), keine eigenständigen Hypothesen berücksichtigt, sondern in zusätzlichen Auswertungen Moderationseffekte auf die abhängigen Variablen (Glaubwürdigkeit, Nachrichtenbias und Quellen-Antropomorphismus) getestet. Der Autor kann, anders als Liu und Wei (ebd.) keinen Einfluss der Publikation feststellen. Ebenso testet er mögliche moderierende Einflüsse des Themas und konnte auch hier keine signifikanten Unterschiede zwischen den Experimentalgruppen feststellen (vgl. Waddell 2019: 10 f.). In der Arbeit von Waddell (2018) wird der Robot-Recall, also das Erinnerungsvermögen an eine Mediendarstellung eines Roboters, als moderierende Variable eingeführt. Dabei kann moderierende Wirkung nachgewiesen werden: mit der Erinnerung an eine solche Mediendarstellung wird der Quellen-Antropomorphismus beeinflusst wird, was sich wiederum auf die Wahrnehmung auswirkt (vgl. ebd.: 247 f.). Im Detail sind die Ergebnisse im Abschnitt zum Einfluss der Kennzeichnung (vgl. Abschnitt zur Kennzeichnung 5.2.4) beschrieben. Weiterhin untersuchen Haim und Graefe (2018a), ob die Wahrnehmung computergenerierter Texte durch das Themeninvolvement moderiert wird. Die Autoren können zwischen den Experimentalgruppen keine signifikanten Moderationseffekte feststellen (vgl. ebd.: 200). Wölker und Powell (2018) untersuchen die Vorkenntnisse der Proband:innen zum automatisierten Journalismus und den Medienkonsum von Nachrichten zu den Themen der Stimuli teilweise als moderierende Variablen. Die Auswertung der moderierenden Variablen zeigt nur in drei Bedingungen überhaupt signifikante Einflüsse der moderierenden Variablen. Zunächst wirken Vorkenntnisse zum automatisierten Journalismus auf die Beziehung zwischen hybrid gekennzeichneten Finanztexten und der bewerteten Quellenglaubwürdigkeit (ebd.: 10 f.). Außerdem können Moderationseffekte durch den Medienkonsum in zwei Fällen nachgewiesen werden: Einmal moderiert der Medienkonsum von Finanzthemen bei computergenerierten Stimuli die bewertete Quellenglaubwürdigkeit und die Beziehung zwischen der bewerteten Quellenglaubwürdigkeit als vermittelnde Variable und die Selektivität von computergenerierten Texten als abhängige Variable. In den weiteren Bedingungen und getesteten Beziehungen sind keine Moderationseffekte durch den Medienkonsum oder durch Vorkenntnisse zum automatisierten Journalismus festzustellen (Wölker und Powell 2018: 10 f.).

Ergebnisse der Kontrollvariablen

Die Kontrollvariablen werden im Folgenden nach Struktur der Tabelle 5.1 besprochen. Zunächst sind Faktoren aufgelistet, die im Rahmen der Pre-Exposure-Befragung erhoben werden und im Wesentlichen dazu dienen, die Gruppe der Proband:innen beziehungsweise deren Verteilung zu dokumentieren. Danach sind die Variablen aufgeführt, die als Kontrollvariablen untersucht werden, es folgen weiterführende Analysen zu den Teilnehmenden, sowie abschließend sind Angaben zu den Stimuli und zum experimentellen Setting dargestellt.

Grundsätzlich erheben alle Autor:innen, meist in Vorabbefragungen, demographische Merkmale, wie zum Beispiel Geschlecht, Alter, Bildungsstand, politische Einstellung, oder Ethnie. Das Durchschnittsalter der Teilnehmenden liegt bei 34 Jahren und die Geschlechterverteilung ist summiert mit 54 Prozent weibliche Teilnehmerinnen anzugeben (vgl. Tabelle zum Studienüberblick im Anhang 9.3)). Jia (2020) befragen die Teilnehmenden auch, ob sie bereits Erfahrungen mit chinesischer automatisierter Berichterstattung haben. Hier antworten 33,3 Prozent der Befragten mit ‚ja‘. Eine Analyse des Einflusses der Vorerfahrungen findet nicht statt. Außerdem stellen Liu und Wei (2019) einen Einfluss der politischen Einstellung der Proband:innen auf die Bewertung des ‘Emotional Involvements’ hervor und verwenden politische Nachrichtentexte als Stimuli (vgl. ebd.: 643 f.)Footnote 62. Differenzierte Auswertungen zu den demografischen Merkmalen sind im Wesentlichen nur bei Melin et al. (2018) dokumentiert. Hier zeigen die Autor:innen zwei Wirkungsweisen auf: Im Experiment können die Teilnehmenden aus einem Pool an Texten vier Stimuli selbst wählen und diese evaluieren. Hier zeigen sich deutliche Unterschiede bei der kombinierten Auswertung von Geschlecht und Alter: Junge Frauen vergeben die niedrigsten Zustimmungswerte wogegen ältere Männer die höchsten Bewertungen der abhängigen Variablen angeben. Zudem lassen die Forschenden bei den ersten zehn ihrer ungekennzeichneten Stimuli die Quellen raten und auch hier zeigen sich Unterschiede in Abhängigkeit des Geschlechts: Männer erkennen die Muster computergenerierter Texte nach weniger Stimulitexten, machen aber mehr Fehler bei der Zuordnung. Frauen hingegen erkennen die computergenerierten Stimuli später, können dann aber die Quellen der folgenden Stimuli zuverlässiger und mit weniger Fehler bestimmen. Außerdem werden die Probanden bei Melin et al. (ebd.) vor Aussetzen der Stimuli befragt, welche der abhängigen Variablen für sie am wichtigsten sind. In absteigender Reihenfolge bewerten die Proband:innen die Glaubwürdigkeit, die Qualität, dann die Repräsentativität und abschließend die Vorliebe. Diese Reihenfolge verändert sich nicht, wenn Geschlecht und Lesegewohnheiten gesondert analysiert werden (vgl. ebd.: 43363).

Widersprüchliche Ergebnisse gibt es beim erfragten Mediennutzungsverhalten beziehungsweise dem Nachrichtenkonsum sowie bei den Vorerfahrungen mit Automatisierungen. Zunächst können Graefe, Haim et al. (2018) keinen Einfluss des Mediennutzungsverhaltens auf die Wahrnehmung computergenerierter Nachrichten feststellen, wogegen Tandoc Jr. et al. (2020) auf einen positiven Zusammenhang zwischen Nachrichtenkonsum und der bewerteten Text- und Quellenglaubwürdigkeit hinweisen (vgl. ebd.: 9). Auch Melin et al. (2018) zeigen in einer kombinierten Auswertung aus Lesegewohnheiten und Vorerfahrungen mit automatisierter Berichterstattung auf Veränderungen in der Bewertung auf: Proband:innen, die viel lesen und mit automatisiertem Journalismus vertraut sind, bewerten die automatisiert generierten Stimuli jeweils mit hohen Werten der Glaubwürdigkeit, Vorliebe, Qualität und Repräsentativität. Wogegen Viellesende, die mit automatisierter Berichterstattung nicht vertraut sind, für die automatisiert generierten Stimuli die niedrigsten Bewertungen der abhängigen Variable vergeben. Erfahrungen mit Automatisierungen haben bei Tandoc Jr. et al. (2020) keinen Einfluss auf die abhängigen Variablen, bei Jia (2020) sind diese – wie beschrieben –, lediglich zur Dokumentation der Teilnehmenden erfasst und Wölker und Powell (2018) operationalisieren die Vorerfahrungen als moderierende Variable und zeigen teilweise Einflüsse auf die Wahrnehmung der Stimuli (siehe Ergebnisse moderierende Variablen). In der Studie von Graefe, Haim et al. (2018) werden die Teilnehmenden außerdem zu ihrem Interesse an den Themen der Stimuli befragt und Liu und Wei (2019) erheben mit ähnlichem Ziel das Involvement der Proband:innen zu den Stimulithemen. In beiden Arbeiten kann kein Einfluss des Themeninteresses auf die Bewertung festgestellt werden. Außerdem fragen Graefe, Haim et al. (2018) nach dem journalistischen Hintergrundwissen der Teilnehmenden und können keine Ergebnisse ausmachen (vgl. ebd.: 8).

Weiterhin nutzen Zheng et al. (2018), Haim und Graefe (2018a) und Van der Kaa und Krahmer (2014) das Thema als Kontrollvariable. Für den Einfluss oder die Wirkung des Themas sei auf die bisher erarbeiteten Ergebnisse hingewiesen, die das Thema stärker in den Fokus genommen und beispielsweise als unabhängige oder vermittelnde Variable operationalisiert haben. Dennoch: Nur Van der Kaa und Krahmer (2014) können in zusätzlichen Analysen einen Einfluss des Themas auf die bewertete Vertrauenswürdigkeit aufzeigen. Sportnachrichten werden demnach in diesem Experiment als weniger vertrauenswürdig bewertet als Finanztexte (vgl. ebd.: 3). Sowohl Haim und Graefe (2018a) als auch Zheng et al. (2018) stellen keine weiteren Auswirkungen des Themas fest. Abschließend sei noch darauf hingewiesen, dass Waddell (2019) eine mögliche Wirkung der Art der algorithmischen Kennzeichnung sowie einen Einfluss der hybriden Kennzeichnung untersucht hat. Außerdem haben Waddell (2019), Melin et al. (2018) mögliche Auswirkungen der Reihenfolge der Stimulitexte untersucht hat. Beide Studien konnten keine weiteren Wirkungsweisen dokumentieren.

Insgesamt sind die Ergebnisse bezogen auf die vermittelnden und moderierenden Faktoren gering: Keine signifikanten Unterschiede bei der Berücksichtigung von vermittelnden Faktoren können Wölker und Powell (2018) in Bezug auf die Text- und Quellenglaubwürdigkeit sowie Waddell (2018) mit Thema, Maschinenheuristik und der Erwartungs-Nichteinhaltung ermitteln. Zumindest teilweise gibt es vermittelnde Erklärleistung zwischen abhängigen und unabhängigen Variablen bezogen auf Quellen-Antropomorphismus (vgl. Waddell 2018: 245; Waddell 2019: 10) sowie bezogen auf Nachrichtenbias (vgl. Waddell 2019: 10). Weiterhin keine Moderationseffekte kann Waddell (ebd.) in Bezug auf das Thema und die Publikation feststellen (vgl. ebd.: 10 f.) sowie keine Effekte sehen auch Haim und Graefe (2018a) bezogen auf das Themeninvolvement (vgl. ebd.: 200). Teilweise stellen hingegen Liu und Wei (2019) Moderationseffekte bei der Publikation sowie in Bezug zur journalistischen Darstellungsform fest (vgl. ebd.: 648 f.). Waddell (2018) kann moderierende Effekte durch den Robot-Recall aufzeigen (vgl. ebd.: 247 f.) und Wölker und Powell (2018) weisen in einzelnen Bedingungen des Experiments indirekte Effekte durch Vorkenntnisse zum automatisierten Journalismus und zum Medienkonsum von Sport- und Finanzthemen nach (vgl. ebd.: 20 f.).

Ausgewählte Ergebnisse zu den Studienschwerpunkten

In den Rezeptionsstudien wurden vier Schwerpunkte ausgemacht: Dies sind A) die Frage, ob Proband:innen die Textquelle zuordnen können, B) die zusätzliche Erhebung der Erwartung an automatisierten Journalismus, C) der bewusste und unbewusste Vergleich zwischen automatisiert generierten und menschlich verfassten Texten sowie D) der Einfluss des kulturellen Hintergrunds der Teilnehmenden (vgl. Abschnitt 5.2.1). Diese Ergebnisse zu den Schwerpunkten wurden in der Einzeldarstellung der Studienergebnisse bereits besprochen, sollen zum besseren Überblick noch einmal gesondert zusammengefasst werden.

Zuordnenbarkeit der Quelle

Bei den Ergebnissen zum Einfluss der Textquelle wurde bereits erwähnt, dass Lesende A) den Ursprung der Texte nicht identifizieren können, z. B.: (vgl. Melin et al. 2018: 43362; Clerwall 2014: 526). Das kann an den einfachen Routinetexten als Stimuli liegen (vgl. Graefe, Haim et al. 2018: 10) und muss mit fortschreitender Verbesserung NLG-Technologie weiter beobachtet werden. Mit den bisher getesteten Nachrichten als Stimuli ist eine eindeutige Zuordnung, ob ein Text menschlich verfasst oder algorithmisiert generiert wurde, nicht möglich.

Einfluss der Erwartungen

Neben der Wahrnehmung werden zusätzlich die B) Erwartungen an automatisiert generierte Nachrichten bei Haim und Graefe (2017), Graefe, Haim et al. (2018), Jia (2020) und Waddell (2018) thematisiert (vgl. dazu Tabelle 9.3 im Anhang ‚Forschungsstand Rezeptionsstudien‘ im elektronischen Zusatzmaterial). Dazu erheben Haim und Graefe (2017) in zwei Teilexperimenten zunächst die Erwartungen an beide Textarten: Ohne einen Vergleich beider Textarten sind die Erwartungen an menschlich verfasste Texte in allen drei Dimensionen höher als an computergenerierte Texte. Wenn ein Vergleich beider Textarten möglich ist, sind die Erwartungen an menschlich geschriebene Nachrichten bezogen auf die Lesbarkeit und Qualität höher, bei der Glaubwürdigkeit aber werden maschinengeschriebene Texte bevorzugt. Diese Ergebnisse überraschen, da die Erhebung der Erwartungen in beiden Experimenten über eine Vorabbefragung, also vor Aussetzen der Stimuli erfolgt und der Aufbau der Experimente bis zu diesem Zeitpunkt nicht unterscheidbar ist. Weiterhin werten Haim und Graefe (ebd.) aus, inwiefern die Erwartungen an die verschiedenen Texte mit der erhobenen Wahrnehmung bestätigt oder nicht bestätigt werden. Insgesamt werden die Erwartungen an die abhängigen Variablen in keiner Textart erfüllt. Die Richtung der Ergebnisse ist bei beiden Experimenten gleich, die einzelnen Werte unterscheiden sich aber (vgl. ebd.: 1052–1055)Footnote 63. Auch Graefe, Haim et al. (2018) sehen ihre Vermutungen hinsichtlich eines Einflusses der Erwartungen der Lesenden auf die tatsächliche Bewertung nicht bestätigt. Eine ihrer Annahme war, dass geringe Erwartungen an automatisierte Texte beim Lesen der Stimuli übertroffen werden und dadurch positiv(ere) Bewertungen zur Folge haben. Und bei menschlich verfassten Texten im Umkehrschluss hohe Erwartungen während des Lesens nicht erfüllt werden und damit durchweg negativere Bewertungen abgegeben werden. Wenn beide Vermutungen zutreffen würden, dann müssten menschlich verfasste Nachrichten positiver bewertet werden, wenn sie fälschlicherweise als maschinengeschrieben gekennzeichnet werden und umgekehrt maschinengeschriebene Nachrichten negativer, wenn sie als menschlich geschriebene Texte gekennzeichnet sind. Aber Graefe, Haim et al. (ebd.) zeigen, dass das Gegenteil der Fall ist: Menschlich verfasste Texte werden negativer bewertet, wenn sie als automatisiert generiert gekennzeichnet sind und algorithmisierte Stimuli werden positiver bewertet, wenn sie als menschlich verfasste Texte ausgewiesen werden (vgl. ebd.: 9–11).

Dagegen zeigt die kombinierte Auswertung von ErwartungenFootnote 64 und Wahrnehmungen bei Jia (2020), dass die tatsächliche Bewertung der menschlich verfassten Texte nicht den zuvor geäußerten Erwartungen entspricht und die Wahrnehmung der automatisiert generierten Texte hingegen die Erwartungen der Lesenden in den Experimenten übertreffen (vgl. ebd.: 2618–2624)Footnote 65. Zudem untersucht Waddell (2018) die Enttäuschung von Erwartungen gegenüber automatisiert generierten Nachrichten als möglichen vermittelnden Faktor auf die Beziehung zwischen der Kennzeichnung als unabhängige und die Textglaubwürdigkeit als abhängige Variable. Einen vermittelnden Einfluss von enttäuschten Erwartungen kann der Autor nur in einer von vier Hypothesen und nur in Kombination mit der moderierenden Variable des Robot-Recalls beobachten (vgl. Waddell 2018: 247 f.).

Insgesamt zeigen die bisherigen Studienergebnisse, dass Lesende weder besonders positive noch besonders negative Erwartungen an automatisiert generierte Nachrichten haben und die Erwartungen im Vergleich beider Textquellen nur leichte Unterschiede aufweisen. Die Vermutung einiger Autor:innen, dass die Erwartung an automatisiert generierte Nachrichten negativ ausfällt und die tatsächliche Bewertung der Lesenden dann durch einen positiven Überraschungseffekt deutlich günstiger ausfällt, konnte nicht beziehungsweise nur in wenigen Detailergebnissen bestätigt werden (vgl. Graefe, Haim et al. 2018: 149; Jia 2020). Insgesamt zeigen die wenigen Studien, „dass die Bewertung computergenerierter Texte nur bedingt von den Erwartungen der Befragten abhängt“ (Haim und Graefe 2018b: 149).

Einfluss des bewussten oder unbewussten Textvergleichs

Jia (2020) legt C) im ersten Experiment keinen Vergleich zwischen menschlich verfassten und computergenerierten Texten an und in der zweiten Erhebung vergleichen die Proband:innen beide Textsorten unbewusst. Die Veränderung des Studiendesigns hat keinen Einfluss auf die bewertete Glaubwürdigkeit. Die Lesbarkeit und Fachkenntnis wird hingegen bei menschlich verfassten Texten höher bewertet, wenn den Proband:innen beide Textarten vorlagen (vgl. ebd.: 2623). Bei Wus (2020) lesen die Proband:innen immer einen menschlich verfassten und einen computergenerierten Text. Dabei sind die Stimuli in einer Experimentalgruppe immer korrekt gekennzeichnet und in der zweiten Gruppe wird keine Textquelle angegeben. Es findet sowohl ein bewusster als auch ein unbewusster Textvergleich statt. In der Datenauswertung beschreibt die Autorin, dass automatisiert generierte Texte als objektiver und glaubwürdiger wahrgenommen werden im Vergleich zu menschlich verfassten Texten, wenn ein unbewusster Vergleich stattfindet im Gegensatz zum bewussten Vergleich (vgl. ebd.: 1021). Das Studiensetting bei Melin et al. (2018) unterscheidet sich leicht von den anderen Erhebungen, so lesen die Proband:innen hier vierzehn Stimulitexte und können einen Teil davon frei wählen. Insgesamt findet ein unbewusster Vergleich zwischen computergenerierten und menschlich verfassten Texten statt, wobei dazu keine gesonderte Datenauswertung dokumentiert ist. Allerdings weisen die Autor:innen darauf hin, dass die selbst gewählten Texte deutlich höhere Bewertungen der Glaubwürdigkeit, der allgemeinen Qualität, der Repräsentativität und im Lesevergnügen erzielen (vgl. ebd.: 43360,43364). Im ersten Teilexperiment bei Haim und Graefe (2017) ist kein Textvergleich möglich, im zweiten Experiment erfolgt ein bewusster Vergleich zwischen einem jeweils korrekt gekennzeichneten automatisiert generierten und einen menschlich verfassten Text. In Experiment Eins werden keine oder sehr geringe Unterschiede in der Wahrnehmung beider Textsorten angeben. Wenn hingegen ein bewusster Vergleich möglich ist, dann wurden die menschlich verfassten Texte als lesbarer und die automatisiert generierten Texte als glaubwürdiger beschrieben. Bei der bewerteten Qualität hingegen schneiden beide Textarten gleich ab (vgl. ebd.: 1054)Footnote 66.

Insgesamt zeigt sich in den bisher durchgeführten Studien kein relevanter Unterschied in der Wahrnehmung computergenerierter Texte in Abhängigkeit eines bewussten oder unbewussten Vergleichs. Die Detailauswertung zeigt in einigen Aspekten Unterschiede in der Wahrnehmung der automatisierten Berichterstattung, sodass ein Vergleich beider Textsorten zwar keine direkte Erklärleistung für die bewertete Glaubwürdigkeit bietet, aber möglicherweise Hinweise auf weitere offene Einflussfaktoren zur Wahrnehmung zeigt. Die Erwartungen werden deshalb mit als Einflussfaktor der vorliegenden Arbeit aufgenommen (vgl. Kapitel 6).

Einfluss des kulturellen Hintergrunds

Mit Jung et al. (2017), Zheng et al. (2018) und Wölker und Powell (2018) gibt es Studien, die Wert auf einen Länder- beziehungsweise Kulturenvergleich zur Wahrnehmung computergenerierter Nachrichtentexte legen. Ein solcher Vergleich ist nicht Gegenstand dieser Arbeit, aber die detaillierte Aufstellung der Studienergebnisse zeigt Unterschiede in der Wahrnehmung computergenerierter Stimuli in Abhängigkeit des kulturellen Hintergrunds der Befragten, zum Beispiel schreibt Jia (2020), dass sich ihre Studienergebnisse aus China deutlich von denen der deutschen Studien wie Haim und Graefe (2017) unterscheiden (vgl. Jia 2020: 2624). Insgesamt scheint der Bewertung computergenerierter Nachrichten eine Reihe weiterer Faktoren zu Grunde liegen, wie die Technologieaffinität einer Bevölkerung oder die generellen Zufriedenheit mit dem politischen System.

5.3 Zusammenfassung möglicher Einflussfaktoren und Darlegung der Forschungslücken

In der Literaturanalyse wurden 15 Publikationen mit 18 relevanten (Teil-)Studien zur Wahrnehmung computergenerierter Nachrichtentexte bei Leser:innen ohne journalistischen Hintergrund aufgearbeitet. Dazu wurden jeweils das Studiensetting, die Konzeption der unabhängigen, abhängigen, vermittelnden, moderierenden Variablen sowie Kontrollvariablen und den Besonderheiten und Schwerpunkten der Studien dargestellt.

Der Fokus der ausführlichen Darstellung liegt – neben der Ergebnisdarstellung – gezielt auf dem Studiensetting und der Durchführung der jeweiligen Experimente, um eine breite und fundierte Basis für die weitere Exploration von Einflussfaktoren auf die Wahrnehmung, und im Speziellen auf die Vertrauensbewertung, computergenerierter Texte zu erzielen. Die Detailanalyse konnte dabei zwar eine grundsätzliche Vergleichbarkeit der Studien – sie sind alle als Online-Experimente mit Stimulitexten und einer anschließenden Befragung konzipiert – aufzeigen, im Detail unterscheiden sich die Studien aber teilweise deutlich. Es werden sowohl gekennzeichnete als auch nicht gekennzeichnete computergenerierte, menschlich verfasste und hybrid erstellte Nachrichtentexte verwendet. Die Themen der Artikel sind beispielsweise Sport, Finanzen oder Lokalnachrichten. In einigen Arbeiten können die Proband:innen computergenerierte und menschlich verfasste Texte bewusst vergleichen, in anderen findet ein unbewusster oder kein Vergleich statt. Neben der Wahrnehmung der Stimuli werden in einigen Arbeiten zusätzlich die Erwartungen an computergenerierte Texte erhoben und ihr Einfluss auf die Bewertung der Texte ausgewertet. Zusätzlich gibt es weitere Schwerpunkte, wie einen gezielten Ländervergleich oder die Frage, ob die Lesenden die Quelle der Nachrichten eindeutig zuordnen können. Umfangreich sind außerdem die verwendeten unabhängigen, abhängen und weiteren Variablen thematisiert worden. Im Mittelpunkt der Rezeptionsstudien steht der Einfluss des Textursprungs, der Autorenkennzeichnung sowie der verwendeten Themen. Diese drei unabhängigen Variablen werden – in unterschiedlichen Kombinationen – in allen 18 Teilstudien untersucht. Als abhängige Variable werden in der Regel die Text- und Quellenglaubwürdigkeit operationalisiert, die meist durch die bewertete Fachkenntnis, die Lesbarkeit oder Qualität ergänzt werden. Vertrauen wird nicht in allen Arbeiten explizit berücksichtigt und findet nur teilweise als Indikator der Glaubwürdigkeit oder als eigenständiges Item Berücksichtigung.

Insgesamt können die Studienergebnisse zeigen, dass sowohl menschlich verfasste, als auch maschinengeschriebene und hybrid erzeugte Nachrichtentexte bezogen auf Textquelle und -inhalt als zufriedenstellend glaubwürdig bewertet werden. Dabei können Lesende nicht eindeutig zuordnen, welchen Ursprung die Texte haben. Dazu trägt möglicherweise auch die begrenzte Themenauswahl der Stimulitexte bei (vgl. Graefe, Haim et al. 2018: 596). Acht von neun Studien zeigen einen Einfluss der Textquelle auf die Wahrnehmung computergenerierter oder hybrider Texte. Zwar sind die Unterschiede zwischen beiden Textarten gering und in einigen Studien durchaus widersprüchlich, in der Regel werden menschlich verfasste Texte aber als lesbarer und computergenerierte Texte als objektiver und teilweise als glaubwürdiger wahrgenommen. In der Aufarbeitung wird außerdem deutlich, dass die Textquelle im Vergleich zu den weiteren unabhängigen Variablen den deutlichsten Einfluss auf die Wahrnehmung hat. Sichtbar wird auch, dass die Effekte im Wesentlichen nicht losgelöst von vermittelnden und moderierenden Variablen und auch nicht unabhängig vom konkreten Studiensetting ausgewertet werden können. Neben dem Textursprung werden weiterhin die Effekte der Kennzeichnung gemessen. Damit ist gemeint, ob der Ursprung der Texte überhaupt gekennzeichnet wurde und wenn ja, ob die Kennzeichnung korrekt oder manipuliert angegeben wurde, zum Beispiel, ob die Quelle von maschinengeschriebenen Texte auch dementsprechend angegeben wurde. Insgesamt sind die Effekte der Kennzeichnung weniger deutlich zu messen als der Einfluss der Textquelle. Zudem gibt es lediglich vereinzelt Arbeiten, die nur einen Effekt der Kennzeichnung berücksichtigen, da auch hier meist zusätzlich vermittelnde oder moderierende Variablen mitberücksichtigt werden. Zusätzlich zeigen Arbeiten, dass das Thema der Stimulitexte, die Objektivität der Nachrichten und die Publikation, in der die Artikel erscheinen, wenig bis keine Auswirkungen auf die Wahrnehmung computergenerierter Texte haben. Lediglich der kulturelle Hintergrund der Teilnehmenden scheint Einfluss zu haben. Möglicherweise ist Kultur aber ein übergeordnetes Konzept und relevant sind vielmehr Ausschnitte davon: Beispielsweise wird in einigen Arbeiten aus dem kulturellen Hintergrund heraus die Technologieaufgeschlossenheit oder das allgemeine Journalismusvertrauen antizipiert.

Konkret bezogen auf Vertrauen oder Vertrauensentscheidungen in Bezug zu automatisiert generierten Nachrichten gibt es lediglich erste kleinteilige Ergebnisse, indem Vertrauen meist als Indikator für Glaubwürdigkeit erhoben wurde. Weitere Ergebnisse zum Vertrauen in automatisiert generierte Nachrichten, zu den Einflussfaktoren auf diese Vertrauensbewertung oder eine intensive wissenschaftliche Begleitung des Entscheidungsprozesses gibt es nicht. Wie bereits die Darstellung des Vertrauenskonzepts in Kapitel 4 zeigt, sind Glaubwürdigkeit und Vertrauen eng verwandte Konzepte der Medienbewertungsforschung. Beides sind zudem komplexe soziale Konstrukte und eine Glaubwürdigkeits- oder eine Vertrauensentscheidung ist ein mehrdimensionaler Prozess, bei dem monokausale Erklärungen oder Einflussfaktoren zu kurz greifen. Dies spiegelt auch die Aufarbeitung des bisherigen Forschungsstands zur Wahrnehmung – und dazu im Speziellen zur Glaubwürdigkeitsbewertung – automatisierter Berichterstattung wider: Bisher sind eine Reihe unterschiedlicher Einflussfaktoren getestet worden, die in unterschiedlichen Settings und mit einer Variation an Variablen im Wesentlichen zwar ähnliche Ergebnisse liefern, aber im Detail differenzierte Befunde zeigen.

Für das Forschungsziel der Exploration der Vertrauensbewertung in automatisierten Journalismus ist die Aufarbeitung zielführend, um eine breite Basis an möglichen Einflussfaktoren auf Vertrauensentscheidung zu generieren. Aus der Aufarbeitung der Studiensettings wird geschlussfolgert, dass eine intensive Auseinandersetzung mit der Vertrauensbewertung des automatisierten Journalismus notwendig ist. Dazu werden Ergebnisse losgelöst von konkreten einzelnen Stimulitexte generiert, die auch über eine fortschreitende technologische Entwicklung der Algorithmen hin valide bleiben. Zudem wird in dieser Arbeit, im Gegensatz zu den bisherigen Erhebungsdesigns der quantitativen Befragungen, ein qualitatives Vorgehen mit gezielter Exploration gewählt.

Abbildung 5.1
figure 1

(Eigene Darstellung in Anlehnung an Clerwall (2014), Van der Kaa und Krahmer (2014), Jung et al. (2017), Haim und Graefe (2017), Graefe, Haim et al. (2018), Wölker und Powell (2018), Waddell (2018), Zheng et al. (2018), Melin et al. (2018), Liu und Wei (2019), Waddell (2019), Wus (2020), Jia (2020), Tandoc Jr. et al. (2020) und Haim und Graefe (2018a))

Einflussfaktoren aus dem Forschungsstand zur Glaubwürdigkeit computergenerierter Nachrichtentexte.

Für die vorliegende Arbeit wird aus dem Forschungsstand der mögliche Einfluss gekennzeichneter Texte und das Wissen um die Existenz computergenerierter Nachrichten übernommen. Außerdem werden die mögliche Relevanz des Nachrichtenthemas, der Darstellungsform und der Publikation, in der computergenerierte Berichterstattung veröffentlicht wird, berücksichtigt. Des Weiteren wird die Rezeption von Roboterdarstellungen in den Medien, in Anlehnung an den Robot-Recall von Waddell (2019), auf die Vertrauensbewertung des automatisierten Journalismus thematisiert (vgl. Zusammenfassung und Ableitung Forschungsmodell in Kapitel 6). Auch die Erwartungen an automatisierten Journalismus und mögliche Erwartungs-Nichteinhaltungen werden besprochen. Kontrolliert und abgefragt werden demografische Merkmale, der kulturelle Hintergrund, journalistisches Hintergrundwissen und die Vorerfahrung mit automatisierter Berichterstattung. Diese Einflussfaktoren sind in Abbildung 5.1 zusammenfassend dargestellt. Aus dem Forschungsstand nicht berücksichtigt werden die Variation der Textquelle und der Medienkonsum zu den Themen der verwendeten Stimuli, da es um das Bezugsobjekt des automatisierten Journalismus und nicht um einen direkten Vergleich von Stimulitexten geht. Weiterhin nicht berücksichtigt werden Quellen-Antropomorphismus, Nachrichtenbias und Maschinenheuristik. Hier wurden in den bisherigen Studien keine oder teilweise vermittelnde Einflüsse festgestellt und müssen gegebenenfalls in Folgestudien adressiert werden.