Forschungsobjekt: automatisierter Journalismus

Körner, Theresa

doi:10.1007/978-3-658-42735-1_3

Theresa Körner²

1696 Accesses

Zusammenfassung

In Kapitel Drei wird das Untersuchungsobjekt der vorliegenden Arbeit, der automatisierte Journalismus, dargestellt. Ziel des Kapitels ist es, in das Forschungsthema einzuführen, eine Systematisierung der Praxis vorzulegen sowie Anschluss an die bisherigen Forschungsergebnisse zu leisten. Dazu werden zunächst die wesentlichen Bestandteile des Begriffs erläutert und der Untersuchungsgegenstand beschrieben.

You have full access to this open access chapter, Download chapter PDF

In Kapitel Drei wird das Untersuchungsobjekt der vorliegenden Arbeit, der automatisierte Journalismus, dargestellt. Ziel des Kapitels ist es, in das Forschungsthema einzuführen, eine Systematisierung der Praxis vorzulegen sowie Anschluss an die bisherigen Forschungsergebnisse zu leisten. Dazu werden zunächst die wesentlichen Bestandteile des Begriffs erläutert und der Untersuchungsgegenstand beschrieben. Im Anschluss wird der Umgang der Kommunikationswissenschaft mit automatisiertem Journalismus und den daraus erzielten Forschungsergebnissen zusammengefasst. Weiterhin wird die Umsetzung der automatisierten Berichterstattung in der Praxis beschrieben. Dazu erfolgt ein Überblick über den ökonomischen Markt, und ausgewählte Beispiele aus dem deutschen Journalismus werden dargestellt. Zudem wird thematisiert, welche Vor- und Nachteile sowie mögliche Konsequenzen sich mit Einsatz des automatisierten Journalismus mittel- und langfristig für Journalist:innen, Rezipient:innen, Medienorganisationen und die Gesellschaft ergeben können.

3.1 Begriffsdefinition und Beschreibung des Gegenstands

Die wissenschaftliche Auseinandersetzung mit dem Untersuchungsgegenstand erfolgt im deutschsprachigen Diskurs unter den Bezeichnungen ‚automatisierter‘ (vgl. z. B. Haim und Graefe 2018b) oder ‚algorithmischer Journalismus‘ (vgl. Dörr 2017), selten unter ‚Roboterjournalismus‘ (vgl. Habel 2019). Auf Englisch wird zu ‚automated news‘, ‚automated journalism‘ und ‚algorithmic journalism‘ publiziert (vgl. z. B. Diakopoulos 2019; Dörr und Hollnbuchner 2017)^{Footnote 1}. Automatisierter Journalismus ist eine Medieninnovation im ‚Computational Journalism‘ und kann unter ‚automated news‘ subsummiert werden (vgl. zur wissenschaftlichen Auseinandersetzung und Einordnung ausführlich Abschnitt 3.2).

Definiert wird automatisierter Journalismus als „algorithmic processes that convert data into narrative news with limited to no human intervention beyond the initial programming“ (Carlson 2014: 416). Er dient im Journalismus der „effizienten Abarbeitung von Aufgaben, die einem bestimmten Muster folgen“ (Haim und Graefe 2018b: 154). Die Verfahren sind grundsätzlich weder auf eine journalistische Darstellungsform noch auf ein bestimmtes Thema beschränkt. Damit die automatisierte Berichterstattung umgesetzt werden kann müssen in der Regel aber ausreichend strukturierte Daten sowie ein standardisierter Textaufbau^{Footnote 2} vorliegen (vgl. zu den einzelnen Punkten die ausführlichere Darstellung in den Folgeabschnitten).

Mit der Veröffentlichung von ChatGPT im November 2022 wurde die automatisierte Textgenerierung auch einer breiteren Öffentlichkeit zugänglich (vgl. Kapitel 1). In diesem Zusammenhang sind eine Reihe von Berichten entstanden, bei denen Journalist:innen ChatGPT zur Erstellung einzelner Textteile oder ganzer Artikel verwendet haben (vgl. z. B. von Lindern 2022). Diese singuläre Nutzung von Textgenerierungsalgorithmen fällt in dieser Arbeit nicht unter die Definition des automatisierten Journalismus, da zum Abschluss dieser Studie stets eine enge Anbindung der Texte an Journalist:innen gegeben ist, diese in hohem Maße kuratiert werden und die Automatisierung keine Auswirkung auf den journalistischen Produktionsprozess insgesamt hat. Die vorliegende Arbeit versteht automatisierten Journalismus im Folgenden und in Anlehnung an Haim und Graefe (2018b: 154) daher als regelmäßige und routinierte Erstellung journalistischer Inhalte durch Textgenerierungsalgorithmen. Darunter werden sowohl vollständig automatisiert generierte Berichte als auch hybrid erzeugte, in direkter Zusammenarbeit aus Algorithmus und Journalist:in erstelle, Texte gefasst.

Angewandt wird die automatisierte Berichterstattung vor allem in den Themenbereichen Sport, Wetter, Finanzen, Verkehr und bei der lokalen Wahlberichterstattung (vgl. Kunert 2019: 140). Es gibt zudem Beispiele aus der Praxis, bei denen automatisierte Geschäftsberichte, Boulevardnachrichten, Reiseberichte oder Berichte aus Wahlumfragen generiert wurden (vgl. Dörr 2017: 51; Haim und Graefe 2018b: 142). Außerdem gibt es Versuche, auf lokaler Ebene zu „road conditions, public safety, crime and health“ (Diakopoulos 2019: 108) automatisiert zu berichten. In der Regel werden informierende und eher kurze Nachrichtentexte umgesetzt, die einer einfachen Struktur folgen und wenig komplex aufgebaut sind. Vereinzelt gibt es Projekte, in denen längere Texte automatisiert verfasst werden oder mit weiteren Darstellungsformen experimentiert wird (vgl. Anwendungsbeispiel Anic in Abschnitt 3.3.3).

Umgesetzt wird automatisierter Journalismus mit natürlichsprachlicher Textgenerierung (engl.: Natural Language Generation, NLG). Nach der Installation, der Verknüpfung mit entsprechenden Datenbanken und dem Training der Software können automatisiert Nachrichten erzeugt werden, ohne dass eine weitere Interaktion durch Journalist:innen erfolgen muss. Der Algorithmus kann dazu den gesamten Nachrichtenproduktionsprozess automatisiert durchlaufen und – wenn gewünscht – die Texte direkt veröffentlichen. Als Grundlage der NLG-Systeme werden zum einen Daten in ausreichender Menge und entsprechender Qualität benötigt. Dazu müssen in der Regel strukturierte Daten zur Verfügung stehen^{Footnote 3}. Zum anderen müssen die Algorithmen durch ein entsprechendes Training in den redaktionellen Prozess eingebunden werden (vgl. Haim und Graefe 2018b: 152 f.; Diakopoulos 2019: 121–125). Dazu definieren Journalist:innen unter anderem Regeln zur Nachrichtenauswahl sowie zur Gewichtung und Priorisierung von Ereignissen und legen außerdem Details zur Sprachausgabe fest (vgl. dazu auch Abschnitt 3.3.1).

Neben der Verwendung von Softwaresystemen mit unterschiedlicher Komplexität und Datengrundlage unterscheidet sich in der Praxis außerdem die konkrete Umsetzung des automatisierten Journalismus und die Anbindung in die jeweiligen Redaktionen: Es gibt Anwendungsbeispiele, die den vollständigen Nachrichtenproduktionsprozess automatisiert haben und das System – vom Auslösen der Produktion bis zur Publikation der Nachricht – ohne weitere menschliche Interaktion ausgeführt wird. Außerdem existieren Anwendungen, bei denen eine Kontrolle der automatisiert generierten Texte durch Journalist:innen erfolgt. Die Texte werden gegebenenfalls leicht verändert und durchlaufen damit vor der Veröffentlichung einen Freigabeprozess. In anderen Redaktionen werden die Nachrichtenproduktion gezielt als Zusammenspiel zwischen Mensch und Maschine aufgebaut: In der so genannten hybriden Form werden automatisiert generierte Texte erzeugt, die dann von Journalist:innen beispielsweise um einen O-Ton oder die Beschreibung eines Vorort-Ereignisses ergänzt werden (vgl. Diakopoulos 2019: 96 f.; Loosen und Solbach 2020: 179). Dabei sollen die Vorteile beider Verfahren genutzt werden, die Schnelligkeit und Datenverarbeitung der Algorithmen sowie die Fähigkeit der Journalist:innen, zum Beispiel zur Recherche von neuen Informationen und der Einordnung von Sachverhalten. In der Praxis wird automatisiert generierte Berichterstattung zudem mit weiteren Innovationen innerhalb des Computational Journalism kombiniert, im Projekt „Superkühe“ (WDR 2017) beispielsweise mit Sensorjournalismus (vgl. dazu auch Abschnitt 3.3.2).

Automatisiert generierte Nachrichten gelten als eher wenig anspruchsvoll in der Qualität und hinsichtlich des Lesevergnügens und sind bisher nicht geeignet, um Hintergründe zu recherchieren, Abwägungen von Argumenten vorzunehmen oder neue Ereignisse zu bewerten. Sie können zudem weder Sinnzusammenhänge abbilden noch aktuelle Ereignisse in einen größeren historischen Kontext einordnen oder eigenständig eine Verifikation von Ereignissen vornehmen (vgl. Graefe 2017: 23; Porlezza 2020: 148 f.; Jia 2020: 2611; Haim und Graefe 2018b: 139, 153 f.; Diakopoulos 2019: 116 f., 125 f.; Kunert 2019: 143).

Im deutschen Journalismus gibt es keine Regeln und keine Selbstverpflichtung zur Kennzeichnung von automatisiert generierten oder hybrid erzeugten journalistischen Texten^{Footnote 4}. Weiterhin gibt es auch keine validen Daten über die Verbreitung der Verfahren und den Umfang der automatisierten Berichterstattung (vgl. Haim und Graefe 2018b: 145). Einige Zeitungen oder Nachrichtendiensten kennzeichnen die Texte, z. B. die Stuttgarter Zeitung und die Rheinische Post (vgl. Abschnitt 3.3.3). Insgesamt sind automatisiert generierte Nachrichten seit 2007 mit einzelnen Projekten und seit 2010 regelmäßig im Journalismus im Einsatz (vgl. dazu ausführlich Abschnitt 3.3).

3.2 Kommunikationswissenschaftliche Forschungsperspektiven

Der folgende Abschnitt fasst den Forschungsstand der Kommunikationswissenschaft zum automatisierten Journalismus zusammen. Dazu erfolgt zunächst eine Einordnung des Gegenstands in bestehende Forschungsbereiche (vgl. Abschnitt 3.2.1). Anschließend werden insbesondere deskriptiv-empirische Arbeiten thematisiert, die zur Perspektive der Kommunikator:innen und der Rezipient:innen im automatisierten Journalismus vorliegen (vgl. Abschnitt 3.2.2).

Insgesamt zeichnet sich die Forschung zum automatisierten Journalismus durch einander überschneidende Begriffe und überlappende Konzepte zu angrenzenden Themen aus, die ähnliche Fragestellungen bearbeiten. So werden Fragen des normativ-ethischen Umgangs mit Algorithmen in der Gesellschaft nicht nur zum automatisierten Journalismus, sondern auch in weiteren Bereichen des Computational Journalism angesprochen. Das Forschungsgebiet ist zudem stark praxisgetrieben: Dies betrifft vor allem die Begriffsabgrenzung sowie die fortschreitende technologische Entwicklung, die den Umgang der beteiligten Akteur:innen mit dem Gegenstand und ihre Wahrnehmung von automatisierter Berichterstattung verändern. Außerdem überwiegen im Forschungsgebiet deskripiv-empirische Arbeiten. Die Anbindung an bestehende Theorien und Modelle der Kommunikationswissenschaft erfolgt nur schrittweise, sodass Haim und Graefe (ebd.) resümieren: „aktuell verfügbare Arbeiten sind [...] häufig mehr von einer Aufbruchsstimmung denn von einer distanzierten Objektivität geprägt“ (ebd.: 140). Einen stärkeren Bezug zu kommunikationswissenschaftlichen Modellen und Theorien beziehungsweise einen Fokus auf modellentwickelnde Forschung zeigen dagegen neuere Arbeiten zur Kommunikatorforschung, die ebenso aufgeführt sind.

3.2.1 Einordnung in die Kommunikationswissenschaft

Der automatisierte Journalismus wird in Verbindung mit der kommunikationswissenschaftlichen Forschung dargestellt, um eine Anschlussfähigkeit des Gegenstands an das Fach zu leisten und Forschungsperspektiven aufzuzeigen. Dazu werden zunächst die Medieninnovations- beziehungsweise Medienwandelforschung zusammengefasst sowie der Forschungsbereich des Computational Journalism und die Systematisierung des automatisierten Journalismus von Dörr (2017) dargestellt.

Medienwandel und Medieninnovationsforschung

Medien und Journalismus sind Branchen, die sich durch Veränderungen, Wandel und technologische Innovationen auszeichnen. Dogruel (2012) spricht vom „Zwang zur Neuheit“ (ebd.: 100) und der Veränderbarkeit als Unterscheidungsmerkmal von Medienprodukten im Vergleich zu anderen Wirtschaftsgütern. Für den automatisierten Journalismus und das vorliegende Erkenntnisinteresse ist relevant, ob der Untersuchungsgegenstand eine Veränderung, einen Wandel oder eine Innovation darstellt; darüber hinaus wird untersucht, was diese Einordnung für die Forschung beziehungsweise die Forschungsrelevanz des Gegenstands bedeutet. Im Folgenden wird dargelegt, dass automatisiert generierte Nachrichten eine Veränderung und eine wesentliche Innovation im Journalismus darstellen, welche im größeren Zusammenhang des Medienwandels der fortschreitenden Automatisierung journalistischer Nachrichtenproduktion zu sehen sind.

Unter ‚Medienwandel‘ werden „nachhaltige[...] Veränderungen der technischen Kommunikationskanäle, Organisationen und sozialen Institutionen verstanden, die die Kommunikation in einer Gesellschaft ermöglichen und vermitteln und dadurch [...] prägen [Herv. i. Org.]“ (P. Müller 2016: 33). Wandel findet nur statt, wenn bestehende „Regelmäßigkeiten der gesellschaftlichen Kommunikation“ (ebd.: 33) dauerhaft verändert werden. Dabei bedeutet „Wandel [...] zwar immer ‚Veränderung‘, nicht jede Veränderung ist jedoch ein Wandel“ (Blöbaum 2005: 43). Selbst wenn in beiden Definitionen nicht klar abgegrenzt wird, was einen ‚nachhaltigen‘ Wandel ausmacht, wird deutlich, dass automatisierter Journalismus zwar eine Veränderung in der journalistischen Nachrichtenproduktion darstellt, zum Zeitpunkt dieser Arbeit mit der computergenerierten Berichterstattung alleine aber kein übergeordneter Medienwandel vorliegt. Zudem betont die Medienwandelforschung, dass bei der Analyse von Wandlungsprozessen neben den technologischen Veränderungen die gesellschaftlichen Rahmenbedingungen, der Umgang der Nutzer:innen sowie Folgen und Wirkungen der Veränderungsprozesse mit berücksichtigt werden müssen (vgl. P. Müller 2016: 3; Stöber 2013; Dogruel 2013). Dies gilt insbesondere auch für die Forschung zum automatisierten Journalismus.

Medieninnovationen sind zentraler Gegenstand der Forschung zum Medienwandel (vgl. Dogruel 2013: 16) und werden definiert als „bestimmte[] kommunikationswissenschaftliche[] Materialobjekte, die im Hinblick auf ihre Auswirkungen auf das Formalobjekt ‚Kommunikation‘ hin untersucht werden“ (ebd.: 13). Medieninnovationen sind mehrdimensionale Objekte und als „Zusammenspiel von Teilinnovationen zu verstehen, die durchaus zeitlich asynchron verlaufen können, sich jedoch untereinander durchweg bedingen“ (Dogruel 2013 zit. n. Krüger 2021: 76). Zur Bestimmung einer Medieninnovation werden drei Indikatoren genannt: Neuheit, Verwertbarkeit im ökonomischen Kontext sowie kommunikative Folgen^{Footnote 5} (vgl. Dogruel 2013: 302–305; Krüger 2021: 76 f.).

Automatisiert generierte Nachrichten stellen eine Abweichung der bestehenden Nachrichtenproduktion dar und können daher als Neuheit bezeichnet werden. Zudem zeigen der Überblick über die Entwicklung des ökonomischen Marktes der computergenerierten Berichterstattung in Abschnitt 3.3.2 sowie die Anwendungsbeispiele in Abschnitt 3.3.3, dass der automatisierte Journalismus in der Wirtschaft Anwendung und ökonomische Verwertung findet. Automatisiert generierte Nachrichten haben überdies kommunikative Folgen in bestimmten Themengebieten, indem Berichterstattung in Nischenthemen erfolgen kann, in denen eine journalistische Berichterstattung bislang ökonomisch nicht rentabel war. Zusätzlich wird angenommen, dass eine zunehmende Personalisierung von Nachrichten durch den automatisierten Journalismus mittel- und langfristig weitere Folgen für gesellschaftliche Kommunikationsprozesse haben wird. Dörr (2017) argumentiert ähnlich und definiert automatisierten Journalismus als „zentrale Triebkraft im Medienwandel“ (ebd.: 54) der Automatisierung oder Algorithmisierung von Journalismus (vgl. auch Loosen und Solbach 2020: 179).

Computational Journalism

Automatisierter Journalismus wird – vor allem in der englischsprachigen Forschung – als Teil des Forschungsgebiets zum Computational Journalism^{Footnote 6} verortet (zum Überblick vgl. Thurman 2020; Thurman, Lewis et al. 2019; Loosen und Solbach 2020; Dörr 2016a; Diakopoulos und Koliska 2017; Coddington 2019) und wird verstanden als „advanced application of computing, algorithms, and automation to the gathering, evaluation, composition, presentation, and distribution von news“ (Thurman 2020: 180). Im Zentrum steht also die Kombination von Algorithmen, Daten und quantitativen Methoden der Sozialwissenschaft, um journalistische Akteur:innen im Nachrichtenproduktionsprozess zu unterstützen (vgl. J. T. Hamilton und Turner 2009).

Der Forschungsbereich entwickelt sich aus der computergestützten Berichterstattung (engl.: Computer-Assisted-Reporting, kurz CAR), die seit den 1960er Jahren in US-Redaktionen – anfangs vor allem zur Unterstützung von Investigativjournalist:innen – eingesetzt wird (vgl. Pavlik 2009: 93 ff.). In den Folgejahren wird die Verwendung des Computers nach und nach ausgeweitet und es werden weitere Methoden zur Sammlung, Auswertung und Aufbereitung von Daten entwickelt. Als Entwicklungsschritt beschreibt Pavlik (ebd.) das Aufkommen des Datenjournalismus: Ab 2005 werden Daten nicht nur im investigativen Bereich, sondern im gesamten Produktionsprozess gezielt ausgewertet (vgl. ebd.: 96). Thurman (2020) führt weiter aus, dass seit den 1980er Jahren Softwareprogramme im Einsatz sind, die die Personalisierung von Nachrichten umsetzen (vgl. ebd.: 180,189). Ab 2010 startet zudem langsam das computergestützte Schreiben, das seit 2018 fest im redaktionellen Ablauf etabliert ist (vgl. Thurman 2020: 189; Haim und Graefe 2018b: 146). Insgesamt ist der Forschungsbereich des Computational Journalism praxisgetrieben und hat sich im Laufe der Zeit deutlich erweitert und entwickelt. Maßgebliche Entwicklungsschritte sind zu beobachten, als sich die Rechenleistung von Computern deutlich verbessert oder sich Distributionskanäle – zum Beispiel durch das Internet – verändern. Außerdem wird die „Verfügbarkeit brauchbarer Daten [...] aus organisatorischer Perspektive zur relevanten Größe“ (Graefe, Haim et al. 2018: 155) (vgl. dazu Herausforderungen in Abschnitt 3.4.2).

Spätestens seit 2006 ist der Begriff der computergestützten Berichterstattung zur Deskription nicht mehr geeignet, da der Einsatz von Computern in den Redaktionen über eine unterstützende Funktion hinausgeht (vgl. Thurman 2020: 181 f.). Mit der veränderten Perspektive – von der Unterstützung hin zu redaktionellen Entscheidungen, die ein Algorithmus treffen kann – werden im Computational Journalism zusätzlich zur Beschreibung der technologischen Entwicklungen und der Umgang der beteiligten Akteur:innen verstärkt normativ-ethische Frage, wie z. B. die zur Grundlage und Transparenz der Daten (‚algorithmic transparency‘) oder zu Verantwortungsträger:innen algorithmischer Systemen (‚algorithmic accountability‘) bearbeitet (vgl. auch Abschnitt 3.4). Zudem werden Diskussionen um geeignete Forschungsmethoden zur Analyse des Computational Journalism wichtiger (vgl. ebd.: 189). Diakopoulos und Koliska (2017) beispielsweise schlagen Folgendes vor: „[A]lgorithmic power could be analyzed by looking at the decision algorithms make, including how they prioritize, classify, associate, and filter information“ (ebd. zit. n. Thurman 2020: 189).

Automatisierter Journalismus in der deutschen Kommunikationswissenschaft

Ziel der vorliegenden Arbeit ist es, den Einfluss des automatisierten Journalismus auf gesellschaftlicher, organisatorischer und professioneller Ebene zu analysieren. Dazu leistet Dörr (2017) – Rückbezug auf Modelle der Techniksoziologie, der Informations- und Kommunikationstechnologie sowie dem Kontext-Modell von Weischenberg (2004) – die erste grundlegende Untersuchung des automatisierten Journalismus und die Verortung des Untersuchungsgegenstands in der deutschsprachigen Kommunikationswissenschaft. Deutlich zeigt Dörr (2017) dabei die Relevanz der Forschung zum automatisierten Journalismus und die Veränderungen im Journalismus durch den Einsatz der Technik, die sich sowohl auf der Ebene der Medienaussagen, der Medienakteur:innen sowie der Medieninstitutionen und Mediensysteme ergeben. Zugleich entwickelt er ein Analyseschema für weiterführende Forschung sowie die Möglichkeit, die erzielten Forschungsergebnisse in die Kommunikationswissenschaft einzubinden. Auf dieser Grundlage legt Dörr (ebd.) zudem eine technologische Potentialanalyse vor, die im Abschnitt 3.3.1 behandelt wird und der Veranschaulichung des Prozesses der algorithmischen Selektion in der automatisierten Berichterstattung dient. Außerdem verwendet Dörr (2017) Arbeiten aus der Techniksoziologie und dem Modell der gradualisierten Handlungsträgerschaft, um die Perspektive der Kommunikator:innen auf professioneller Ebene zu explorieren. Diese Arbeit soll weiteren Autor:innen als Basis zur Erweiterung beziehungsweise dem Aufbau kommunikationswissenschaftlicher Modell zum automatisierten Journalismus dienen (vgl. dazu den Folgeabschnitt 3.2.2).

Seit 2018 wird automatisierter Journalismus beschrieben als „seltener, institutionell aber vollwertig integrierter Teil der publizistischen Vielfalt “ (Haim und Graefe 2018b: 146). In Abgrenzung zu weiteren Formen des Computational Journalism beziehungsweise dem Einsatz von Algorithmen in den Medien (vgl. Diakopoulos 2019: Loosen und Solbach 2020) sind für die Forschungsrelevanz des automatisierten Journalismus vor allem zwei Kriterien ausschlaggebend, die bereits kurz in der Einleitung angesprochen werden: zum einen können Algorithmen im automatisierten Journalismus „[i]m Rahmen der menschlich erzeugten Regelwerke [...] bei der computergenerierten Berichterstattung autonom entscheiden“ ( Dörr 2016b zit. n. Dörr 2016a: 251). Zum anderen galt das Verfassen eines Nachrichtentextes bisher als kreative Leistung, die den Menschen vorbehalten war. Das Softwaresystem übernimmt eine Funktion, die „has long been considered a distinctly central, and indeed human, element of journalism“ Lewis et al. 2019: 409).

3.2.2 Deskriptiv-empirische sowie modellentwickelnde Vorgehen

Die Wahrnehmung des automatisierten Journalismus durch Journalist:innen, Medienverantwortliche in verschiedenen Positionen und teilweise auch durch Vertreter:innen der Softwareanbieter wird in mehreren Studien untersucht (vgl. van Dalen 2012; Carlson 2014; Young und Hermida 2015; Thurman, Dörr et al. 2017; D. Kim und S. Kim 2017; C.-G. Lindén 2017a; Kunert 2019; Sirén-Heikel et al. 2019; Wu et al. 2019; Schapals und Porlezza 2020). In der Regel wurden Experteninterviews zur Perspektive der Kommunikator:innen durchgeführt und beispielsweise die Bewertung des automatisierten Journalismus oder die eigene Rollenwahrnehmung der Befragten im Umgang mit den Veränderungen erhoben. Journalist:innen beschreiben ihre Vorstellung vom Umgang mit automatisiertem Journalismus als komplementäre und sich ergänzende Beziehung. Sie reagieren auf automatisierten Journalismus mit gemischten Gefühlen: Es werden sowohl positive als auch negative Erwartungen geäußert, beispielsweise die Antizipation neuer Berufsfelder oder aber ein möglicher Arbeitsplatzverlust (vgl. van Dalen 2012; Carlson 2014). Journalist:innen legen in den Befragungen großen Wert darauf, dass sie die Kontrolle über „all stages of news processing, especially in the news selection and editing phases„(Wu et al. 2019: 1440) behalten. Fünf Jahre nach den ersten Studien zur Kommunikatorperspektive spricht C.-G. Lindén (2017a) davon, dass die Zusammenarbeit mit automatisierter Berichterstattung für Journalist:innen sowohl einen Verlust bestimmter Arbeitsplätze im Journalismus bedeutet, zudem neue Kenntnisse im Umgang mit der automatisierten Berichterstattung notwendig sind, aber dass automatisierter Journalismus auch die „efficiency and job satisfaction with automation of monotonous and error-prone routine tasks„(ebd.: 60) erhöht hat. Neben den Befragungen haben Young und Hermida (2015), Fanta (2017) und C.-G. Lindén (2017b) außerdem Fallstudien zur Deskription von Anwendungsbeispielen und dem Umgang mit automatisierter Berichterstattung in Redaktionen aus verschiedenen Ländern vorgelegt.

Neben den deskriptiv-empirischen Arbeiten der Kommunikatorforschung haben weitere Autor:innen einen Schwerpunkt auf die kommunikationswissenschaftliche Modell- und Theorieentwicklung im Zusammenhang mit dem automatisierten Journalismus gelegt. Dazu zählen zunächst die Arbeiten von Lewis et al. (2019) und Guzman und Lewis (2020) zur Human-Machine-Communication^{Footnote 7}. Diesen Ansatz haben Dörr (2017) und Mooshammer (2022) um das Konzept der soziologischen Handlungstheorie und die Konzeption von Software-Agents aus der Techniksoziologie ergänzt. Außerdem nutzen Danzon-Chambaud und Cornia (2021) Bourdieus Feldtheorie, um den Wandel von Journalismus und Veränderungen im journalistischen Feld zu beschreiben sowie ein Forschungsmodell für Folgestudien zur Perspektive der Kommunikator:innen im automatisierten Journalismus auszuarbeiten.

Neben Untersuchungen zu der Wahrnehmung des automatisierten Journalismus durch Kommunikator:innen sind seit 2014 verschiedene Studien veröffentlicht worden, die sich mit der Perspektive der Lesenden beschäftigen. Untersucht wurde dazu, wie automatisiert generierte Nachrichten durch Lesende in verschiedenen Ländern wahrgenommen werden (vgl. Clerwall 2014; Van der Kaa und Krahmer 2014; Jung et al. 2017; Haim und Graefe 2017; Graefe, Haim et al. 2018; Wölker und Powell 2018; Waddell 2018; Zheng et al. 2018; Melin et al. 2018; Liu und Wei 2019; Waddell 2019; Wus 2020; Jia 2020; Tandoc Jr. et al. 2020; Haim und Graefe 2018a; Graefe und Bohlken 2020). Die Ergebnisse dieser Arbeiten stellen die Grundlage für die vorliegende Studie dar und werden ausführlich in Kapitel 5 thematisiert. Zusammengefasst lässt sich festhalten, dass automatisiert generierte Nachrichtentexte von den Lesenden als ausreichend glaubwürdig beschrieben werden. Im Vergleich zwischen automatisiert generierten und von Journalist:innen verfassten Nachrichtentexten nehmen sie nur geringe Unterschiede hinsichtlich der bewerteten Glaubwürdigkeit, Fachkenntnis und Lesbarkeit wahr. Die Studienergebnisse zeigen außerdem, dass Lesende nicht eindeutig zuordnen können, ob die vorgelegte Nachricht von Journalist:innen verfasst oder durch algorithmische Systeme generiert wurde: Automatisiert generierte Nachrichtentexte sind „not visually distinct from traditional – manually produced – forms of news“ (Thurman 2020: 185).

3.3 Umsetzung in der Praxis

Im Folgenden werden die Technologie und die Funktionsweise des automatisierten Journalismus dargelegt. Zudem wird die Marktentwicklung der automatisierten Berichterstattung grob nachgezeichnet und es erfolgt ein Überblick über ausgewählte Softwareanbieter. Im Anschluss werden exemplarisch automatisiert generierte journalistische Texte im deutschen Journalismus vorgestellt. Dieser Überblick soll einen Einblick in die praktische Umsetzung des automatisierten Journalismus geben und dient als Vorbereitung für das darauf folgende Kapitel zur Einordnung der Chancen und Grenzen des Technologieeinsatzes.

3.3.1 Prozess, Technologie und Funktionsweise

Im Eingabe-Verarbeitungs-Ausgabemodell des automatisierten Journalismus in Abbildung 3.1 ist der Prozess der automatisierten Berichterstattung^{Footnote 8} dargestellt (vgl. Dörr 2016b: 704). Das Modell orientiert sich am Eingabe-Verarbeitungs-Ausgabemodell, das Latzer et al. (2014) entwickelt haben und zeigt, dass die wesentlichen Schritte der journalistischen Nachrichtenproduktion in vergleichbarer Weise auch im automatisierten Journalismus vollzogen werden. Außerdem illustriert die Abbildung, warum im automatisierten Journalismus häufig von einer ‚Black Box‘ gesprochen wird: Journalist:innen sind nur bei der Eingabe und bei der Verwendung des Outputs beteiligt. Sie haben keine Berührungspunkte im Verarbeitungsprozess – damit wirkt dieser Vorgang wie eine Blackbox ohne menschliche Beteiligung. Journalist:innen sind zwar nicht Teil des Datenverarbeitungsprozesses, allerdings wird im Modell nicht berücksichtigt, dass die Regeln zur Selektion und der Relevanzbewertung (im Modell ‚Selection‘ und ‚Assingment of Relevance‘) bei der Programmierung und im Training der Softwaresysteme – insbesondere beim Einsatz der Textautomatisierung im Journalismus – eng mit Journalist:innen entwickelt werden und sich damit die Vorstellung einer Blackbox relativiert. Im Modell ist auch im Ausgabeschritt eine Interaktion mit den Nutzer:innen dargestellt. Dazu sei darauf hingewiesen, dass in einigen Redaktionssystemen eine Freigabe automatisiert generierter Texte durch die Nutzer:innen, also die Journalist:innen vorgesehen ist und in anderen Anwendungsbeispielen die Texte direkt aus dem Softwaresysteme ohne weitere menschliche Interaktion veröffentlicht werden. Das Modell verdeutlicht erneut, dass eine ausreichend hohe Menge an Daten zur Verfügung stehen muss, um automatisierte Berichterstattung realisieren zu können.

Umgesetzt wird automatisierter Journalismus mit Algorithmen und Softwaresystemen, die sich hinsichtlich der Komplexität ihrer Umsetzung und der Qualität ihres Outputs unterscheiden. Im Wesentlichen können zwei Modelle ausgemacht werden: Lückentextmodelle und Natural-Language-Generation-Verfahren (kurz: NLG). Aktuell werden vor allem NLG-Verfahren mit enger Anbindung an Redaktionen und manuellem Training durch Journalist:innen eingesetzt. Neuere Entwicklungen, wie z. B. das selbstlernende Modell GPT-3 sind – zum aktuellen Stand (Februar 2023) – zu fehleranfällig und die Qualität ist zu gering für die journalistische Nachrichtenproduktion (vgl. Loosen und Solbach 2020: 187). Selbstlernende Verfahren werden deshalb nur für einzelne Projekte eingesetzt^{Footnote 9}.

Bei der Analyse der Funktionsweise der automatisierten Berichterstattung ist zu berücksichtigen, dass vor allem die komplexen Softwaresysteme häufig als Betriebsgeheimnisse der Softwareanbieter geschützt werden. Es gibt wenige Informationen aus den Medienorganisationen und externen Dienstleistern über die konkreten Funktionsweisen, die Trainingsdaten, die definierten Sprachregeln und die verwendeten Datenbanken. Dies erschwert insgesamt die wissenschaftliche Untersuchung und Beobachtung des automatisierten Journalismus. Informationen sind vor allem über Forschungsprojekte wie Allen et al. (2010), Haarmann und Sikorski (2015), das finnische Projekt zur kommunalen Wahlberichterstattung (vgl. Melin et al. 2018: 43358; Leppänen et al. 2017) oder das Structured-Story-Projekt (vgl. Caswell und Dörr 2018) bekannt.

Lückentextmodelle

Lückentextverfahren können in einfache und fortgeschrittene Modelle unterteilt werden. Die einfachste Möglichkeit, automatisiert generierte Nachrichten zu erzeugen, sind Lückentextmodelle, wie sie mit dem ‚Homocide Reports‘ oder dem ‚Quake-Bots‘ umgesetzt wurden (vgl. Abschnitt 3.3.2): Im Wesentlichen wird dabei ein fertig geschriebener journalistischer Text mit einzelnen Informationen aus einer Liste an Daten kombiniert. Der Algorithmus setzt an der festgelegten Stelle im Text die jeweilige Information ein. Fortgeschrittene Lückentextmodelle funktionieren im Prinzip ähnlich, wobei diese nicht mit einem fertigen Text arbeiten, sondern dafür mehrere Textsegmente und meist eine höhere Anzahl an Daten zur Verfügung stehen. Für die Erstellung einer Nachricht werden die verschiedenen Bausteine nach einer festgelegten Regel miteinander kombiniert. Wenn ausreichend Daten vorhanden sind und entsprechende Regeln zur Kombination definiert wurden, kann ein Algorithmus beispielsweise einen Sieg in einem Basketballspiel als ‚erwartbar‘ oder als ‚überraschend‘ beschreiben. Dazu wertet das Programm Daten zu vergangenen Begegnungen beider Mannschaften aus oder analysiert, wie viele Körbe in welcher Zeit geworfen wurden, und versucht auf diese Weise die Spielstatistik zu interpretieren. Im Vergleich zu den einfachen Lückentexten werden die Möglichkeiten der Textgenerierung mit den fortgeschrittenen Modellen zwar erheblich erweitert, dennoch werden auch hier die Grenzen des Lückentextverfahrens deutlich (vgl. Loosen und Solbach 2020: 187): Alle Textkombinationen müssen von Entwickler:innen bedacht und im Programm umgesetzt werden.

Verfahren der natürlichsprachlichen Textgenerierung (NLG)

Die Entwicklung von Natural-Language Generation-Verfahren^{Footnote 10}, übersetzt als natürlichsprachliche (vgl. Bateman 2010) oder automatisierte Textgenerierung (vgl. Haim und Graefe 2018b), erweitert die Möglichkeiten der computergenerierten Nachrichtenberichterstattung wesentlich. Im Gegensatz zu den Lückentextverfahren werden keine vordefinierten Textbausteine und Datensätze miteinander kombiniert. Das Computerprogramm soll vielmehr mit der Struktur und Funktionsweise menschlicher Sprache umgehen können^{Footnote 11} und dazu in Datensätzen relevante Informationen identifizieren und in Texte übertragen können. Natürlichsprachliche Textgenerierung wird nicht nur im Journalismus, sondern beispielsweise auch im E-Commerce eingesetzt, wobei an automatisiert generierte Nachrichtentexte sehr hohe Qualitätsanforderungen gestellt werden (vgl. Leppänen et al. 2017)^{Footnote 12}. Die notwendigen Voraussetzungen für den Einsatz von NLG-Verfahren sind ausreichend vorhandene Daten, im Journalismus ist er zudem erst möglich, seitdem sich durch das Internet die Publikations- und Distributionsmöglichkeiten wesentlich vereinfacht haben (vgl. Haim und Graefe 2018b: 149).

Die konkrete Umsetzung von natürlichsprachlicher Textgenerierung im Journalismus beschreiben Haim und Graefe (2018b), Diakopoulos (2019) und Loosen und Solbach (2020) und identifizieren mehrere Schritte: Daten sammeln, Informationen identifizieren, Informationen priorisieren, Narrativ erstellen und Text generieren (vgl. Haim und Graefe 2018b: 150 ff.; Diakopoulos 2019: 98–101)^{Footnote 13}. Im ersten Schritt werden den Systemen meist Kombinationen „aus aktuellen Fakten, [...] Meta-Informationen [...] sowie historischen Daten“ (Haim und Graefe 2018b: 151) zur Verfügung gestellt. In diesen Daten versucht das System im zweiten und dritten Schritt relevante Informationen zu identifizieren und anschließend „gewissermaßen de[n] Nachrichtenwert einzelner Informationen“ (ebd.: 151) zu bestimmen. Dazu greift die Software auf zuvor definierte Regeln zurück, bei denen aktuell hoher Abstimmungsbedarf mit Journalist:innen und Medienorganisationen besteht. Im vierten Schritt erfolgt die Textplanung: Hier wird festgelegt, welche Daten verwendet und welche Inhalte an welcher Stelle kommuniziert werden. Dazu werden zum Beispiel die Überschrift und der Teaser grob strukturiert. Im fünften Schritt findet die Satzplanung statt und es werden beispielsweise das Sprachniveau, die Zeitstufe oder das genutzte Vokabular festgelegt. Damit wird ein Vorteil der NLG-Systeme deutlich: Die Schritte eins bis vier werden ohne konkreten Bezug der zu verwendeten Sprache vollzogen, das heißt das System berücksichtigt erst im letzten Schritt, in welcher Sprache der Textoutput erfolgen soll. Ein NLG-System kann – sofern Sprachdatenbanken verbunden und trainiert sind – Nachrichtentexte in beliebiger Sprache ausgeben (vgl. Haim und Graefe 2018b: 150 ff.; Horacek 2010: 436 ff.).

Insgesamt sind „aktuelle Systeme imstande, unterschiedliche Informationen aus den Daten zu extrahieren, diese zu bewerten, zu priorisieren und daraus schließlich ein adäquates Narrativ zu konstruieren“ (Haim und Graefe 2018b: 159). Die Anwendung der NLG-Verfahren im Journalismus ist bisher für Softwareanbieter und Medienorganisationen zeit- und ressourcenaufwendig, da ein enger Austausch mit Journalist:innen stattfinden muss, um die Modelle zu trainieren und überdies hohe Qualitätsanforderungen an journalistische Produkte gestellt werden. In der Aufarbeitung der technologischen Funktionsweise wird auch deutlich, dass NLG-Systeme für jeden Anwendungsfall neu aufgesetzt und trainiert werden müssen: Wenn das System für Fußballberichterstattung optimiert ist, kann es ohne Konfiguration keine Boulevardberichte verfassen.

Aktuell bleiben NLG-Anwendungen, so resümieren Haim und Graefe (ebd.) im Journalismus „hinter ihren technologischen Möglichkeiten zurück“ (ebd.: 153). Seit 2020 sind außerdem Arbeiten erschienen, die den automatisierten Journalismus verstärkt als KI-Anwendung beschreiben (vgl. z. B. Biswal und Gouda 2020: 162; Graßl et al. 2022: 7; Loosen und Solbach 2020: 179 f.), ohne dabei im Detail auf die Definition des KI-Begriffs oder die Funktionsweise der Systeme einzugehen. Auch fortgeschrittene NLG-Verfahren operieren mit KI-Algorithmen, wie neuronalen Netzen, um große Datenmengen zu verarbeiten oder Markow-Ketten, um unsinnige Wortkombinationen auszuschließen. Modelle wie GPT-3 und KI-Verfahren, die selbst-lernend und ohne enge Anbindung an journalistische Produktionsroutinen regelmäßig Nachrichten erzeugen, sind zum jetzigen Zeitpunkt (Februar 2023) im deutschen Journalismus nicht im Einsatz^{Footnote 14}.

3.3.2 Marktentwicklung und ausgewählte Anbieter

Die Entwicklung des Markts für automatisierten Journalismus kann im Wesentlichen in vier Phasen unterteilt werden: Als Anfänge der computergenerierten Berichterstattung werden die Jahre zwischen 2010^{Footnote 15} und 2012, als frühe Marktphase die Jahre zwischen 2012 und 2016 bezeichnet und ab 2017 wird von der Institutionalisierung des automatisierten Journalismus gesprochen. Zusätzlich ist ab 2022 durch verstärkte – und öffentlich zugängliche – KI-Anwendung ein Technologiesprung zu beobachten, der mit einer Ausweitung der Anwendung einhergeht.

In den Jahren 2010 bis 2012, den Anfängen des automatisierten Journalismus, werden vor allem in den USA erste Projekte in der Praxis initiiert und einzelne Nachrichtentexte automatisiert generiert. Zudem werden Forschungsprojekte an Universitäten aufgebaut, Patente zur journalistischen Textgenerierung angemeldet und erste Unternehmen zur natürlichsprachlichen Textgenerierung im Journalismus gegründet. Als erste Anwendungsbeispiele der automatisierten Berichterstattung gelten der ‚Homicide Report‘ und der Quake-Bot der Los Angeles Times (vgl. Danzon-Chambaud und Cornia 2021: 1). Die Zeitung führt 2010 die automatisierte Berichterstattung auf ihrem Blog ‚Homicide Report‘ (Los Angeles Times 2007) ein: Mit dem Blog sollte seit 2007 über jeden Mordfall im Bezirk berichtet werden, was bisher – unter anderem, weil zu wenig personelle Ressourcen vorhanden waren, um über jeden Fall zu berichten – nicht gelungen war. Deshalb setzen die Verantwortlichen mit dem Relaunch einen Algorithmus ein, der für jeden Mordfall eine automatisiert generierte Nachricht mit wesentlichen Angaben veröffentlicht. Diese Meldungen können nach der Veröffentlichung von Journalist:innen zusätzlich editiert werden (vgl. Young und Hermida 2015: 386). Zusätzlich entwickelt der Digitalredakteur der Zeitung 2014 einen Algorithmus zur automatisierten Berichterstattung über Erdbeben in der Region: Dazu wertet der so genannte Quake-Bot die Daten des U.S. Geologcial Survey-Instituts aus und erzeugt eine Nachrichtenmeldung mit den wichtigsten Informationen, sobald ein Erdbebenalarm ausgelöst wird (vgl. Oremus 2014; Graefe 2016, S. 19–20). Weiterhin werden 2010 beziehungsweise 2011 die Unternehmen ‚Narrative Science‘ und ‚Automated Insights‘ gegründet, zwei Softwareanbieter, die in den USA als Marktführer im Bereich der automatisierten Berichterstattung gelten (vgl. Dörr 2017: 13). Der Gründer von Automated Insights, Robbie Allen, hat 2006 ein Programm geschrieben, das automatisiert Basketball-, Fußball- und Baseballspiele auswertet und jeweils Spielberichte generiert. Dies ist die Grundlage und Geschäftsidee für das Unternehmen Automated Insights, welches er 2010 gründet. Narrative Science dagegen geht auf ein Forschungsprojekt der Northwestern University zurück. In Zusammenarbeit mit privaten Unternehmen entwickelt die Forschungsgruppe des StatsMonkey-Projekts 2010 einen Algorithmus zu automatisierter Berichterstattung über Basketballspiele (vgl. Allen et al. 2010) und lässt sich diesen im selben Jahr unter dem Namen ‚Quill‘ patentieren (vgl. Latar 2015).

Als frühe Marktphase des automatisierten Journalismus gelten die Jahre 2012 bis 2016: Die Anwendungsfelder der automatisierten Berichterstattung werden vielfältiger, die Technologie wird optimiert und Redaktionen in den USA und Europa experimentieren mit den Textalgorithmen (vgl. Dörr 2017: 46 f.; Graefe 2017: 5; Thurman 2020: 180 f.). Zudem werden weitere Unternehmen gegründet, die NLG-Technologie im Journalismus anbieten beziehungsweise diese Produkte in ihr Portfolio aufnehmen (vgl. Dörr 2017: 14 ff.). Auch die Kommunikationswissenschaft beginnt, sich mit automatisierter journalistischer Berichterstattung auseinanderzusetzen: Zunächst gibt es erste Beschreibung des Gegenstands und es werden Studien zur Perspektive und Wahrnehmung der Kommunikatoren (vgl. van Dalen 2012; Young und Hermida 2015) durchgeführt. Ab 2014 werden außerdem Arbeiten zur Wahrnehmung der Lesenden publiziert (vgl. Kapitel 5). Young und Hermida (2015) fassen den Untersuchungsgegenstand, noch ohne eigene Bezeichnung, als Phänomen des Computational Journalismus auf und analysieren, dass dieser als „part of a much earlier and yet-ongoing turn to digital within journalism, framed within broader organizational, technological, and social contexts [Herv. i. Org.]“ (ebd.: 383) zu verstehen sei (vgl. dazu auch Carlson 2014; Haim und Graefe 2018b: 145 f.). Dörr (2017) nimmt zudem eine technologische Potentialanalyse, eine Analyse des ökonomischen Marktes sowie die Einordnung des automatisierten Journalismus in das Journalismus-Modell von Weischenberg et al. (2006) vor. Auf Basis dieser Analysen befinde sich, so der Autor, der automatisierte Journalismus entweder „in an experimental market phase or in an early stage of the market expansion phase“ (Dörr 2017: 17). Zudem deute die Integration der automatisierten Berichterstattung in professionelle Medienorganisationen bereits auf eine beginnende Institutionalisierung auf organisatorischer Ebene hin (vgl. ebd.: 17). Nach der Anfängen des automatisierten Journalismus sind computergenerierte Nachrichtentexte 2016 in ausgewählten Redaktionen weltweit angekommen, die Anwendungsfelder werden breiter, eine Reihe von Unternehmen wirbt um Medienorganisationen als Kund:innen und es sind erste Anzeichen für eine Institutionalisierung und dauerhafte Verankerung der Medieninnovation im Journalismus zu beobachten.

Ab 2016 sprechen zum Beispiel Haim und Graefe (2018b) davon, dass automatisierter Journalismus in den Redaktionen insgesamt zwar noch eher selten vorkommt, aber „institutionell [als] vollwertig integrierter Teil der publizistischen Vielfalt anzusehen und mit denselben normativen Erwartungen konfrontiert [ist] wie andere Formen des Journalismus“ (ebd.: 146) (vgl. auch Thurman 2020: 189). Damit ist die Medieninnovation des automatisierten Journalismus in den Redaktionen fest verankert und als Untersuchungsobjekt der Kommunikationswissenschaft etabliert. In der Praxis ist ab 2016 eine beständige Ausweitung der Themen und Anwendungen zu beobachten, wenngleich diese in der Forschung an Einzelbeispielen festgemacht werden muss: Es existiert keine Übersicht über das Ausmaß der computergenerierten Berichterstattung und den Anteil der automatisiert generierten Nachrichten am Journalismus insgesamt. Hierzu führt Dörr (2017) eine Befragung von Softwareanbietern weltweit durch, die bislang nicht repliziert worden ist. Weitere und systematisch aggregierte Informationen zum Einsatz des automatisierten Journalismus sind aus den Medienorganisationen nicht vorhanden. Gerade in Deutschland gibt es wenige als solche gekennzeichnete automatisiert generierte Texte, damit fallen auch gängige kommunikationswissenschaftliche Methoden zur Untersuchung des Gegenstands, etwa Inhaltsanalysen, weg. Neben den bekannten Einsatzgebieten des automatisierten Journalismus in Deutschland (vgl. Abschnitt 3.3) sind in der Praxis auch Projekte zu beobachten, bei denen automatisierte Berichterstattung integriert und mit weiteren journalistischen Formen wie Sensorjournalismus verbunden ist: Im Projekt „Superkühe“ des WDR verbinden die Journalist:innen drei Kühe mit verschiedenen Sensoren und generieren aus diesen Daten automatisiert digitale Kuh-Tagebücher, um Lesende über Milcherzeugung in Deutschland zu informieren (vgl. WDR 2017). Als internationale Vorreiter im automatisierten Journalismus gelten die Washington Post mit ihrer Eigenentwicklung ‚Heliograf‘ oder der ‚Dreamwriter‘ des chinesischen Unternehmens Tencent (vgl. C.-G. T. Lindén et al. 2019: 20, 23).

Ende des Jahres 2022 ist eine erneute Veränderung zu beobachten, die sich aus der Weiterentwicklung beziehungsweise dem vereinfachten Zugang zur zugrundeliegenden Technologie ergibt: Mit der Veröffentlichung von GPT-2 und GPT-3 ist ein Technologiesprung denkbar, der auch die Anwendung und Verbreitung der automatisierten Berichterstattung im deutschen Journalismus verändert (vgl. Kapitel 1). Softwareanbieter und Entwickler:innen sprechen zwar noch davon, dass sie zur automatisierten Berichterstattung vor allem elaborierte und vielfältige Vorlagen verwenden (vgl. Osterhaus 2020) und bisher sind keine Anwendungsbeispiele einen routinierten Einsatz von KI-Verfahren zur regelmäßigen Produktion informierender Darstellungsformen bekannt (vgl. Abschnitte 3.1 und 3.3.1), mit dem Projekt ‚Anic T. Wae‘ erscheint aber bereits im November 2022 eine monatliche deutsche Kolumne, die auf GPT-3 basiert (vgl. ausführlich in Abschnitt 3.3.3). Auch die wissenschaftliche Einordnung verändert sich. So besprechen beispielsweise Graßl et al. (2022), Loosen und Solbach (2020) die automatisierte Textgenerierung unter KI-Verfahren im Journalismus. Zum Zeitpunkt der Entstehung dieser Arbeit kann keine weiterführende Einordnung dieser Entwicklung erfolgen, die möglichen Veränderungen sind zu beobachten.

3.3.3 Exemplarische Anwendung: Sport- und Coronaberichterstattung sowie KI-Kolumne

Exemplarisch sollen im Folgenden Anwendungsbeispiele vorstellt werden, die den Einsatz des automatisierten Journalismus in Deutschland verdeutlichen. Dazu werden a) die Sportberichterstattung als typisches Anwendungsbeispiel für nicht-gekennzeichnete standardisierte Nachrichtentexte, b) ein Beispiel aus der Corona-Berichterstattung sowie c) das Projekt Anic T. Wae als erste deutsche KI-Kolumne dargestellt. Weitere Praxisbeispiele zum Beispiel aus den USA, Indien, Europa, China, Südkorea beschreiben unter anderem Fanta (2017), Dörr (2017), C.-G. T. Lindén et al. (2019), Rojas Torrijos und Toural Bran (2019), Biswal und Gouda (2020), Moravec et al. (2020) und Jia (2020).

Automatisiert generierte Fußballberichte

In der deutschen Fußballberichterstattung gibt es mehrere Portale beziehungsweise Softwareanbieter, die mit automatisierter Berichterstattung werben oder in Hintergrundberichten darüber sprechen, wenngleich die einzelnen Texte selten als automatisiert generierte Berichte gekennzeichnet sind. Als großer deutscher Softwareanbieter für automatisierte Textgenerierung – nicht nur im Journalismus – gilt das Unternehmen Retresco, das in Kooperation mit Sportplatz Media die Software ‚textengine‘ entwickelt hat. Laut eigener Angaben wird textengine unter anderem für das Portal fussball.de des Deutschen Fußball-Bunds (vgl. Retresco GmbH 2019), für die Berichte von bfv.de des Bayerischen Fußballverbands (vgl. Bayerischer Fußball-Verband 2019; Dilger 2019), für das Portal reviersport.de (vgl. Gizinski 2017) sowie fussifreunde.de (vgl. Haim und Graefe 2018b: 143; Retresco GmbH 2017) und transfermarkt.de (vgl. Gizinski 2017) verwendet.

Soweit bekannt, kommen vor allem Texttemplates und wenig KI-basierte Verfahren zum Einsatz (vgl. Osterhaus 2020). Die Medienportale und Zeitungen arbeiten in den Redaktionen entweder direkt mit der Software oder übernehmen fertige Texte, die Retresco liefert. Zusätzlich kann das System direkt in die Content-Management-Systeme der Medienorganisationen eingebunden werden, beispielsweise um Texte direkt zu veröffentlichen. Die Datengrundlage für die textengine sind mehrere Sportdatenbanken, z. B. die des Deutschen Fußball-Bunds (vgl. ebd.).

Auch über Schwierigkeiten der automatisierten Fußballberichte ist berichtet worden. So spricht Dilger (2019) von „holzschnittartigen“ (ebd.) und wenig authentischen Berichten. Kurios muten zudem automatisierte Spielberichte über spannende 0:0-Begegnungen zweier Mannschaften an, obwohl diese Spiele nicht stattgefunden haben. Die Wettkämpfe wurden verschoben oder abgesagt, und die Software veröffentlichte dennoch automatisiert Spielberichte (vgl. Pauler 2019; Kruse 2020). Die Softwareentwickler:innen berichten außerdem von Sonderfällen, die die Maschine – ohne menschliche Korrektur des Algorithmus – nicht sinnvoll umsetzen kann. So sind beispielsweise Fußballberichte von Gefängnismannschaften wenig hilfreich, wenn die Maschine über zukünftige Auswärtsspiele schreibt (vgl. Osterhaus 2020). Insgesamt seien die Fehler der automatisierten Fußballberichterstattung aber verschwindend gering und man sei zufrieden mit den Ergebnissen, so zitiert Pauler (2019) Verantwortliche von welt.de.

Automatisierte bzw. hybrid erzeugte Corona-Berichterstattung

Die Rheinische Post beziehungsweise deren Onlineportal RP ONLINE hat seit 2020 hauptsächlich während der Corona-Pandemie tagesaktuell automatisiert generierte Berichte zu den Covid-Zahlen und der Entwicklung der Pandemie veröffentlicht (vgl. Boisserée et al. 2022). Dieses Fallbeispiel wurde zusammen mit weiteren Beispielen mit den Teilnehmenden der Focus Groups besprochen und ihnen dazu ein Screenshot der Berichterstattung aus dem Sommer 2022 gezeigt. Der Screenshot zeigt einen die Überschrift, die Autor:innenzeilen sowie die ersten Textabschnitte sowie zusätzlich die Endnote mit den Hinweisen zur Datenquelle und dem Transparenzhinweis. Die Berichte sind in Zusammenarbeit mit Retresco und der bereits erwähnten Textgenerierungssoftware entstanden. Als Datengrundlage nutzen die Verantwortlichen die frei verfügbaren Daten des Robert-Koch-Instituts.

Markiert werden die Texte als ‚interaktiv‘ als Autor:innen wird das Team der redaktionellen Produktentwicklung angegeben und als Autor:innenfoto das Porträt des Teamleiters eingesetzt. Am Ende des Textes wird ein Transparenzhinweis angegeben, der auf die Datengrundlage und die Automatisierung verweist: „Dieser Text wurde auf Grundlage der RKI-Daten automatisch generiert und wird jeden Morgen automatisch aktualisiert“ (ebd.).

In der Projektbeschreibung bewirbt Retresco das Projekt wie folgt: „Seit dem Start des Projektes im Juli 2020 trugen die automatisierten Texte zum überdurchschnittlichen Anstieg der Reichweite von RP ONLINE bei“ (Retresco GmbH 2022) und spricht davon, dass die Rheinische Post neben der Corona-Berichterstattung auch automatisierte Verkehrsberichte und Wahlberichterstattung nutzt und weitere Projekte angedacht seien.

Anic T. Wae

In der Tageszeitung taz, die tageszeitung erscheint seit November 2022 monatlich sowohl in Print als auch online die ‚Kolumne Intelligenzbestie‘. Als Autor:in wird Anic T. Wae vorgestellt, „die erste Ko-lum-nis-t*in [...] einer deutschsprachigen Zeitung, die kein Mensch ist“ (Kilg et al. 2022). Anic T. Wae ist ein Maschine-Learning-System, das von einem Team aus Journalist:innen, Entwickler:innen und Interessierten^{Footnote 16} trainiert wurde und fertige Texte an die Redaktion liefert. Anic T. Wae schreibt aus Sicht einer Maschine über das Verhältnis zu Menschen. Bis Januar 2023 wurden drei Kolumnen veröffentlicht: Im November 2022 stellte Anic sich und das Projekt den Leser:innen vor (vgl. Wae 2022a), im Dezember schrieb es über den Sinn von Weihnachten (vgl. Wae 2022b) und im Januar 2023 verliebte sich Anic und äußerte sich über Gefühle und Emotionen (vgl. Wae 2023).

Das Projekt zielt darauf ab, mit Leser:innen in Kontakt zu treten, über technologische Veränderungen in der Gesellschaft zu sprechen und diese zu reflektieren. Mit einem computergenerierten Autor:innenfoto und der Möglichkeit zum Dialog wird versucht, Anic T. Wae zu personalisieren. Die Lesenden sind aufgerufen, sich zum Beispiel mit E-Mails oder Leser:innenbriefe an Anic T. Wae zu wenden. Diesem Aufruf sind bislang knapp 80 Personen gefolgt^{Footnote 17}. Einige der Leser:innenbriefe wurden von der Zeitung veröffentlicht (vgl. z. B. taz, die tageszeitung 2023). Die Anschlusskommunikation übernimmt das Team hinter Anic und verwendet dazu in der Regel die Textgenerierungssoftware, um Antworten auf eingehende Anfragen zu generieren. In den Antworten wird darauf hingewiesen, dass Anic T. Wae und das Team gemeinsam die Kommunikation übernehmen.

Erstellt werden die Kolumne und die Anschlusskommunikation von einem Maschine-Learning-System, das auf dem GPT-3-Modell des US-Unternehmens OpenAI basiert und durch das Team für das Projekt angepasst wird. Das Team behält sich zudem vor, weitere Sprachmodelle zu testen und das System weiterzuentwickeln (vgl. Kilg et al. 2022). Weitere Informationen zum System sowie die Möglichkeit für Lesende, Anic selbst zu testen, werden im Hintergrundartikel verlinkt (vgl. Kilg et al. 2022; Turing Agency 2023).

Für jede Kolumne schreibt das Team mehrere so genannter Prompts. Prompts funktionieren wie Themenvorschläge und dienen dem Sprachmodell als Grundlage für die weiteren Berechnungen der Textgenerierung. Mit den Prompts werden verschiedene Texte erzeugt, woraus das Team eine Vorauswahl an möglichen Kolumnentexten erstellt: „Wir wählen die besten Texte anhand von Eigenschaften wie zum Beispiel Unterhaltungswert, Lesefluss, Fantasie, Humor, Tiefgang, überraschende Kohärenz oder überraschende Unsinnigkeit. Manchmal müssen wir sehr oft auf Anics Knöpfe drücken, bevor ein Text in der richtigen Länge und Qualität herauskommt“ (Kilg et al. 2022). Texte, die in der Qualität oder der Länge nicht ausreichen, werden aussortiert. Zur Qualitätskontrolle gehört zum Beispiel die Prüfung auf rassistische, sexistische oder in anderer Weise menschenverachtende Inhalte. Abschließend wählt das Team den finalen Text aus. Dieser wird nicht verändert; Es erfolgt beispielsweise keine Rechtschreibprüfung – die Lesenden sollen vielmehr einen Einblick in die Möglichkeiten und Grenzen des Systems bekommen. Der ausgewählte Finaltext wird an die taz-Redaktion geschickt, hier können redaktionelle Änderungen wie etwa die Korrektur von Tippfehlern ausgeführt werden. Die verwendeten Prompts und die damit generierten unveränderten Texte werden auf der Projektseite veröffentlicht (vgl. Kilg et al. 2022; Turing Agency 2023).

3.4 Aktuelle Debatten in Forschung und Anwendung zum Technologieeinsatz

Nach der Beschreibung des automatisierten Journalismus werden im Folgenden Chancen und Risiken des Einsatzes der automatisierten Berichterstattung sowie offene Fragen zum Umgang mit der Technologie aufgeführt. Die Arbeit vermittelt einen Überblick über mögliche positive und negative Auswirkungen des automatisierten Journalismus und blickt damit über die Deskription hinaus auf mittel- und langfristige Veränderungen im Journalismus. Im Sinne der vorliegenden Arbeit liegt der Schwerpunkt der Ausführungen vor allem auf der Perspektive der Lesenden und dem gesellschaftlichen Umgang mit Journalismus.

3.4.1 Antizipierte Chancen und Grenzen

Die antizipierten Chancen und Grenzen, die sich mit dem Einsatz der automatisierten Berichterstattung mittel- und langfristig im Journalismus ergeben, werden im Folgenden aufgeführt und zusammenfassend in Abbildung 3.2 dargestellt. Die Ausführungen orientieren sich an der Definition von Journalismus in Kapitel 2, den Ausführungen von Haim und Graefe (2018b) und thematisieren die Auswirkungen des automatisierten Journalismus anhand der Mikro-, Meso- und Makroebene. Insgesamt muss bei der Einordnung des automatisierten Journalismus auf allen Ebenen die Grenze der Technologie berücksichtigt werden: Automatisierter Journalismus ist für repetitive Aufgaben geeignet und kann nur umgesetzt werden, wenn eine ausreichend hohe Menge an strukturierten Daten zur Verfügung steht. Automatisierter Journalismus ist nicht geeignet, um „selbstständig Sinnzusammenhänge zu erschließen, aufkommende Themen adäquat zu erfassen oder eigene Standpunkte in der Diskussion zu entwickeln“ (ebd.: 153 f.).

Für Leser:innen und Journalist:innen führt eine Ausweitung der computergenerierten Berichterstattung auf der Mikroebene zu zwei wesentlichen Veränderungen: Das Nachrichtenangebot erhöht sich und Arbeitsroutinen von Kommunikator:innen verändern sich (vgl. Graefe 2017: 18 f.; Diakopoulos 2019: 135 f.). Das Angebot journalistischer Inhalte steigt zunächst quantitativ, indem mit den Softwaresystemen kostendeckend auch Nischen- oder Special-Interest-Themen bedient beziehungsweise ein bestehendes geringes Angebot erweitert werden kann (vgl. Haim und Graefe 2018a: 201). Neben der Erhöhung der Nachrichtenanzahl wird auch die „Expansion des Angebots in die Tiefe“ (Graefe, Haim et al. 2018: 154) erwartet. Damit ist gemeint, dass automatisiert generierte Nachrichten in Bezug auf Länge, Sprache, Blickwinkel, oder Frames für verschiedene Publika oder individuelle Nutzer:innen und deren persönliche Präferenzen angepasst werden können (vgl. Graefe 2017: 21; Diakopoulos 2019: 112; Jia 2020: 2613). Hierfür sind individuelle Distributionskanäle sowie Daten zu den Interessen und dem Nutzungsverhalten der Lesenden notwendig (vgl. Graefe, Haim et al. 2018: 154). Das vergrößerte Angebot kann gleichzeitig aber auch zu einer Überforderung der Lesenden bei der Auswahl und Bewertung von Nachrichteninhalten führen (vgl. Haim und Graefe 2018a: 203). Die Anforderungen an die Medienkompetenz des Publikums steigt, wenn aus normativer Sicht automatisiert generierte Nachrichten kritisch-reflexiv begleitet werden sollen. Unklar ist weiterhin, ob Lesende automatisiert generierte Nachrichten akzeptieren und ihnen Vertrauen zuschreiben. Daneben verändert automatisierter Journalismus Aufgaben und Tätigkeitsfelder von Journalist:innen. Es ist zu erwarten, dass mittel- und langfristig die Automatisierung von Routinetexten, standardisierten Textteilen oder repetitiven Schreibaufgaben weiter zunehmen wird (vgl. Diakopoulos 2019: 108–114). Diese Veränderung kann als Chance und Risiko gleichermaßen gesehen werden: Der Wegfall repetitiver Aufgaben birgt die positive Erwartung, dass Journalist:innen mehr Ressourcen für ihre Kernkompetenzen aufbringen können. Dazu gehört beispielsweise die Einordnung von Fakten, die Recherche von Hintergründen, die Verifikation von Fakten, die Erkundung neuer Phänomene und Innovationen sowie bestimmte journalistische Darstellungsformen wie Interviews oder Reportagen. Gleichzeitig liegt in der Automatisierung und dem damit verbundenen Wegfall von Routinetätigkeiten auch ein Risiko für einen Stellenabbau (vgl. auch Tandoc Jr. et al. 2020: 550). Eine großflächige Bedrohung von Arbeitsplätzen sei zwar nicht zu befürchten (vgl. Graefe, Haim et al. 2018: 149) dennoch ist die Angst vor dem Stellenabbau ein Risiko für Journalist:innen. Zudem werden durch automatisierten Journalismus weitere Tätigkeiten von Journalist:innen sowie gänzlich neue Aufgabenfelder relevant: Neben der klassischen Schreibarbeit, so Haim und Graefe (2018b), werden verstärkt Video-, und Bildformate, die Content-Curation oder die Moderation von Leser:innen-Diskussionen (vgl. ebd.: 154) nachgefragt. Um mit neuen Aufgaben umgehen zu können, müssen sich Journalist:innen zusätzliche Kompetenzen und Fähigkeiten aneignen. Außerdem werden gänzlich neue Berufe entstehen: Zum Beispiel müssen die NLG-Systeme konfiguriert, gewartet und betreut oder umfangreiche Datensätze aufbereitet werden (vgl. Graefe 2017: 23; C.-G. Lindén 2017b: 136). Der automatisierte Journalismus birgt für Journalist:innen also gleichermaßen Risiken und Chancen (vgl. auch Graefe 2017: 28 ff.).

Auf der Mesoebene können Medienorganisationen durch automatisierten Journalismus ihr Angebot erweitern und Nachrichten auch in Nischenthemen anbieten (vgl. Graefe 2017: 36–38; Loosen und Solbach 2020: 188). Zudem können bestehende Angebote wie umfangreiche Darstellungsformen mit steigender Qualität angeboten werden (vgl. Haim und Graefe 2018b: 154): Durch hybride Textgenerierung, welche die Vorteile der automatisierten Berichterstattung und die der journalistischen Arbeit verbindet, können Fehler vermieden und große Datensätze verarbeitet werden. Automatisierter Journalismus bietet für Medienorganisationen außerdem die Möglichkeit, Kosten einzusparen, indem – nach der Implementation und der Bereitstellung der notwendigen Datengrundlage – keine weiteren Ausgaben für Journalist:innen notwendig sind, sodass die variablen Kosten der produzierten Nachrichtentexte sinken (vgl. Haim und Graefe 2018b: 155; Loosen und Solbach 2020: 188) und zusätzlich Ressourcen von Journalist:innen für andere Tätigkeiten frei werden. Die technologische Möglichkeit, durch Algorithmen Nachrichten zu einem bestimmten Thema in großer Anzahl und mit mindestens zufriedenstellender Qualität anzubieten, birgt weiterhin die Chance, neue Teilpublika und Zielgruppen anzusprechen und damit eine Steigerung der Werbeeinnahmen zu verzeichnen (vgl. Diakopoulos 2019: 114 ff.). Gleichzeitig sehen sich Medienorganisationen aber auch mit dem Risiko konfrontiert, dass neue Intermediäre auftreten und Nachrichtenangebote für das Publikum und die eigene Zielgruppe bereitstellen. Damit steigt die Konkurrenz für Medienorganisationen. Wie erwähnt funktioniert automatisierter Journalismus nur, wenn ausreichend zuverlässige und strukturierte Daten zur Verfügung stehen. Deshalb müssen Medienorganisationen im Bereich der Datensammlung und des Datenmanagements neue Kompetenzen aufbauen und Strukturen schaffen, um eigene Datensätze aufzubauen und zu pflegen (vgl. dazu auch Graefe 2017: 22 f.; Haim und Graefe 2018a: 203; Thurman 2020: 188; Diakopoulos 2019: 117 ff., 135 f.). Auf organisatorischer Ebene sind einige offene Fragen bisher nicht beantwortet, zum Beispiel die, wie ein transparenter Umgang der Organisationen mit automatisiertem Journalismus aussehen kann. Unbeantwortet bleiben zudem Fragen des Medienrechts und der Verantwortlichkeiten bei automatisiert oder hybrid verfassten Texte, wenn beispielsweise Fehler auftreten. Medienorganisationen fehlt weiterhin Wissen über die Akzeptanz der automatisierten Berichterstattung durch die Lesenden oder über deren Bereitschaft, für automatisiert generierte Inhalte zu bezahlen. Einige dieser Fragen werden im Folgenden gesondert angesprochen.

Die quantitative Erhöhung des Nachrichtenangebots wird mittel- und langfristig zu mehr Berichterstattung auch zu Nischenthemen führen (vgl. Diakopoulos 2019: 137). Aus normativer Perspektive schafft dies auf gesellschaftlicher Ebene die Chance, mehr Aufmerksamkeit für im öffentlichen Dialog bisher unterrepräsentierte Gruppen zu generieren und einen gesamtgesellschaftlichen Austausch zu fördern. Als mögliches Risiko des großflächigen Einsatzes von automatisierter Berichterstattung ist auf der Makroebene die erschwerte Suche nach Orientierung im erhöhten Nachrichtenangebot durch das Publikum zu berücksichtigen. Hier wird über die Befürchtung einer Zersplitterung des gesellschaftlichen Dialogs und so genannte Filterbubble oder Echochamber-Phänomene gesprochen (vgl. Graefe 2017: 39 f.; Haim und Graefe 2018b: 155 f.; Kunert 2019: 140). Die Kommunikationswissenschaft konnte bisher zwar keine eindeutigen Ergebnisse über die Existenz dieser Entwicklungen erzielen, die Befürchtungen dazu werden aber häufig angesprochen (vgl. dazu auch Heise 2016: 206; Prochazka 2020: 15 f.; Haim und Graefe 2018b: 155 f.). Auch die Teilnehmenden der in der vorgelegten Arbeit durchgeführten Studie thematisieren diese Sorge in Bezug auf gesellschaftliche Auswirkungen des automatisierten Journalismus (vgl. Kapitel 8). Abschließend sind auch auf der Makroebene zahlreiche offene Punkte festzuhalten, wie beispielsweise der ethische und wertorientierte Einsatz der automatisierten Berichterstattung im Journalismus, Verantwortlichkeitsregelungen oder Kontrollgremien für den Umgang mit Fehlern und die Gewährleistung einer kritisch-sensiblen Berichterstattung.

3.4.2 Ethische und rechtliche Herausforderungen sowie offene Fragen

Im Folgenden werden ethische und rechtliche Herausforderungen aufgeführt, die sich mit dem Einsatz von automatisierter Berichterstattung ergeben. Einige dieser Diskussionspunkte beziehen sich dabei nicht nur auf den automatisierten Journalismus, sondern werden auch in angrenzenden Bereichen geführt: Die Frage der Datengrundlage und Pflege großer Datensätze betrifft nicht nur den vorliegenden Untersuchungsgegenstand, und der Umgang mit selbstlernenden Algorithmen, die gesellschaftlich relevante Aufgaben übernehmen, wird nicht nur im Journalismus thematisiert. Die Zusammenstellung soll einen Überblick über relevante rechtliche und ethisch-normative Herausforderungen geben, die sich aktuell im Umgang mit automatisierter Berichterstattung ergeben. Dabei sind für den Zweck dieser Studie vor allem die Perspektive des Publikums und die Herausforderungen des zivilgesellschaftlichen Umgangs mit automatisiertem Journalismus relevant.

1.
Transparenz und Nachvollziehbarkeit

Im automatisierten Journalismus wird ein transparenter und für das Publikum nachvollziehbarer Prozess der Nachrichtenproduktion gefordert (vgl. z. B. Diakopoulos und Koliska 2017; Graefe 2017: 34). Dabei bleibt bislang offen, was Transparenz oder Nachvollziehbarkeit konkret bedeuten, welche Umsetzungsmaßnahmen gefordert und erwartet werden, welche Informationen im automatisierten Journalismus offengelegt und welche Prozesse nachvollziehbar gestaltet werden können^{Footnote 18}. Als Mindestvoraussetzung für einen transparenten Einsatz des automatisierten Journalismus wird die Kennzeichnung automatisiert generierter oder hybrid erzeugter Texte gefordert (vgl. Porlezza 2020: 151; Haim und Graefe 2018b: 156; Diakopoulos und Koliska 2017: 816 f.). Weitere Erwartungen betreffen zusätzliche Informationen zur Nachvollziehbarkeit der Datengrundlage und der verwendeten Algorithmen. Dabei wird auf eine möglicherweise schwierige Umsetzung der Erwartungen an Transparenz hingewiesen: die verwendeten Algorithmen werden meist als Geschäftsgeheimnisse der Softwareanbieter geschützt.
2.
Qualität der Datengrundlage und Pflege der Datensätze

Die notwendige Voraussetzung für automatisiert generierte Nachrichten sind in ausreichender Menge und Qualität zur Verfügung stehende Daten. Deshalb wurde bereits auf die Notwendigkeit hingewiesen, dass Medienorganisationen eigene Datensammlungen aufbauen und Prozesse zur Datenpflege betreiben. Die Herausforderung im automatisierten Journalismus ist die Datensammlung aus allen gesellschaftlichen Bereichen und Gruppen sowie der Umgang mit möglicherweise verzerrten Daten, welche wiederum zu einer voreingenommenen (‚biased‘) Berichterstattung führen können. Die Frage ist, wie eine ausgewogene automatisierte Berichterstattung realisiert werden kann, wie gesamtgesellschaftlich die Qualität und Pflege der Datensätze und die Verifikation von Daten im automatisierten Journalismus gewährleistet werden kann (vgl. Diakopoulos 2019: 119 ff.). Porlezza (2020) spricht in diesem Zusammenhang das Problem des „blinden Vertrauens in die Faktizität von Daten an“ (ebd.: 148), die sowohl Journalist:innen als auch die Rezipient:innen betreffen kann. Empirische Belege für die Existenz dieses Phänomens sind zwar bisher gering, aber der Hinweis, dass es im Umgang mit automatisiertem Journalismus Kompetenzen braucht, um den Output automatisierter Systeme bewerten zu können, um ggf. regulatorische Änderungen an der Datengrundlage vornehmen oder die Funktionsweise der Algorithmen verändern zu können, ist an dieser Stelle hilfreich. Notwendig sind dafür zum einen Journalist:innen, die speziell im Umgang mit Datenmengen ausgebildet und für mögliche Verzerrungen sensibilisiert sind, und zum anderen Kontrollinstanzen, die automatische Systeme und deren Outputs überprüfen können.
3.
Medienrecht und Notwendigkeit gesetzgeberischen Regulierung

Eine Herausforderung im automatisierten Journalismus besteht darin, dass neben Journalist:innen und Redaktionen weitere Akteur:innen auftreten wie etwa Softwareentwickler:innen, Agenturen und Anbieter von Datensätzen. Deshalb wird „die Zuweisung von Verantwortung bei Fehlern schwieriger“ (Haim und Graefe 2018b: 145). Allerdings weisen sowohl Dreyer und Heldt (2020), Habel (2019) den möglichen Vorwurf zurück, dass automatisierter Journalismus im rechtsfreien Raum agieren würde: „Der bestehende Ordnungsrahmen für eine medienrechtliche Haftung ist in den meisten Fällen ausreichend, eine personenbezogene Verantwortlichkeit für (rechtsverletzende) Äußerungen ist [...] auch bei Roboterjournalismus herstellbar. Dadurch stellen sich Fragen der Haftung von Algorithmen oder KI als eigene Rechtsperson im Medienrecht regelmäßig nicht. Das Ergebnis steht im Einklang mit der wichtigen gesellschaftlichen Funktion von journalistischer Berichterstattung und den dadurch bedingten hohen Anforderungen an die Erfüllung journalistischer Sorgfaltspflichten“ (Dreyer und Heldt 2020). Ausführlicher ordnet Habel (2019) automatisierten Journalismus^{Footnote 19} in bestehendes Medienrecht ein und überprüft dazu unter anderem Patent-, Urheber-, Leistungsschutz- und Datenschutzrecht und geht zudem auf Verantwortlichkeiten und Haftungsfragen ein, die sich auf die zugrundeliegenden Datenbanken und Sprachmodelle beziehen (vgl. dazu auch Ombelet et al. 2016). Auch eine Kennzeichnungspflicht automatisiert generierter Nachrichten könne aus dem Prinzip der Meinungsfreiheit abgeleitet werden, die Ausgestaltung dieser Pflicht müsse vom Gesetzgeber ebenso ausgestaltet werden wie die konkrete Anwendung des Urheberrechts für computergenerierte Inhalte (vgl. Habel 2019: 302 f.). So könnten beispielsweise Softwareanbieterfirmen im Impressum der jeweiligen Webseiten mit aufgeführt werden.
4.
Kontrolle automatisierter Systeme und weitere Maßnahmen zur ‚algorithmic accountability‘

Neben Fragen des Medienrechts gehören zum normativ-ethischen Umgang mit automatisierten Systemen im Sinne der ‚algorithmic accountability‘^{Footnote 20} definierte Regeln zum Einsatz automatisierter Systeme, die kritische Begleitung durch gesellschaftliche Gremien und ausgewählte Akteur:innen sowie Möglichkeiten der Kontrolle des jeweiligen Outputs. Im Umfeld des automatisierten Journalismus werden dazu unter anderem Selbstverpflichtungen der Medienorganisationen zum verantwortungsvollen Umgang und externe Kontrollgremien diskutiert sowie eine Verständigung über die Rechte der Nutzer:innen gefordert (vgl. Dörr 2016a: 256; Dörr und Hollnbuchner 2017: 11 f.; Porlezza 2020: 152; Loosen und Solbach 2020: 196). Diese Kontrollinstanzen sollen beispielsweise die Möglichkeit bieten, die „Korrektheit algorithmenbasierter Entscheidungen zu überprüfen und anzufechten“ (Citron 2007 zit. n. Heise 2016: 207 f.). Eine reine Selbstregulierung der Medienorganisationen geht einigen Autor:innen dabei nicht weit genug: dafür ist das Thema ‚automated news‘ zu komplex geworden (vgl. Porlezza 2020: 153).

Zusätzlich wird eine „stärkere Einbindung der Öffentlichkeit in die kritische Begleitung und Gestaltung algorithmengesteuerter Systeme [...] angeregt, etwa durch die Möglichkeit, Designs und Tests automatisierter Systeme einzusehen und zu kommentieren [Herv. i. Org.]“ (Heise 2016: 207). Außerdem solle Forschung zur algorithmic accountability im Medienumfeld intensiviert werden und sich interdisziplinär und multiperspektivisch mit dem Gegenstand, möglichen Veränderungen sowie mittel- und langfristigen Perspektiven auseinandersetzen (vgl. Porlezza 2020: 153).
5.
Entwicklung eines kritisch-reflexiven Umgang des Publikums

Neben den angesprochenen Maßnahmen zur algorithmic accountability besteht eine weitere Herausforderung darin, das Publikum oder die Nutzer:innen automatisiert generierter Systeme mit ausreichend Fähigkeiten und Kompetenzen im Umgang mit diesen auszubilden. Hier werden zunächst eine generelle Sensibilisierung der Bevölkerung hinsichtlich des Einsatzes algorithmischer Systeme in gesellschaftlich relevanten Bereichen und weitere „Kompetenzen zum kritisch-reflexiven Umgang mit algorithmischen Medien“ (Heise 2016: 207) gefordert. Dabei ist bisher nicht geklärt, welche Kompetenzen konkret benötigt werden und wie sich die Bevölkerung diese algorithmic literacy aneignen kann (vgl. ebd.: 207).
6.
Gesamtgesellschaftlicher Umgang mit Verfahren der Künstlichen Intelligenz in gesellschaftlich-relevanten Bereichen

Die angesprochenen Herausforderungen zur Herstellung einer algorithmic accountability im automatisierten Journalismus gelten verstärkt, wenn angenommen wird, dass automatisiert generierte Nachrichten mittelfristig vermehrt mit Verfahren der Künstlichen Intelligenz umgesetzt werden. Es ist eine gesamt-gesellschaftliche Aufgabe, einen verantwortungsvollen Umgang beim Einsatz von automatisierten Systemen zu finden, die gesellschaftlich relevante Aufgaben übernehmen. Dies gilt auch – aber nicht nur – für den automatisierten Journalismus. (vgl. Porlezza 2020: 149 f.,157). Zu einem verantwortungsvollen Umgang gehört zum Beispiel eine Verständigung darüber, was unter ‚Künstlicher Intelligenz‘ zu verstehen ist, in welchen Bereichen und für welche Aufgaben der Einsatz von KI-Verfahren sinnvoll ist und wo Grenzen des Einsatzes liegen. Außerdem müssen Maßnahmen zur Qualitätssicherung und Kontrolle der Systeme umgesetzt werden und Prozesse zum Umgang mit Fehlern und die Möglichkeit zum Widerspruch installiert werden. Zudem sind rechtliche Fragen zur Verantwortlichkeit und zur Haftung zu klären und ggf. neue oder veränderte Regularien müssen durch den Gesetzgeber erfolgen. Aus normativ-ethischer Sicht müssen die Rechte der Bevölkerung thematisiert werden, eine Stärkung der individuellen Rechte Einzelner muss erfolgen und eine Diskussion darüber entstehen, welche Kompetenzen – im Sinne einer algorithmic literacy – Personen brauchen, um einen kritisch-reflexiven Umgang auszubilden.

3.5 Zwischenfazit I: automatisierter Journalismus

Mit dem Begriff ‚automatisierter Journalismus‘ wird die Möglichkeit beschrieben, durch Einsatz entsprechender Software automatisiert journalistische Inhalte zu erzeugen. Nachdem ein Algorithmus initial implementiert und trainiert wurde, kann jede Stufe der Nachrichtenproduktion – von der Datensuche und der Datenanalyse über die eigentliche Produktion eines Beitrags bis hin zur Veröffentlichung – automatisiert, das heißt ohne weitere menschliche Intervention, erfolgen. Die Algorithmen arbeiten mit natürlichsprachlicher Generierung und sind besonders für die Auswertung und Versprachlichung von quantitativen Analysen geeignet, da die Verfahren am zuverlässigsten funktionieren, wenn eine große Anzahl digitaler, strukturierter und verlässlicher Daten vorhanden ist. Seit 2010 sind automatisiert generierte oder hybrid erzeugte Textnachrichten unter anderem in der Sport-, Finanz-, Wetter-, Boulevard-, Verkehr- oder Wahlberichterstattung zu finden und mittlerweile gibt es weltweit Anwendungsbeispiele. Veröffentlicht werden die Texte sowohl online als auch in Printausgaben von Zeitungen und Zeitschriften (vgl. Abschnitt 3.3.1 zur Technologie und den Praxisanwendungen). Grundsätzlich ist der automatisierte Journalismus nicht auf die Erstellung von Texten beschränkt, so finden sich auch Praxisbeispiele und Forschungsergebnisse zum Beispiel zur automatisierten Videoproduktion, die aber nicht Schwerpunkt der vorliegenden Arbeit ist.

Als Besonderheit des automatisierten Journalismus wurde in Abschnitt 3.1 ausgeführt, dass automatisierter Journalismus als Medieninnovation im übergeordneten Medienwandel der Automatisierung einzuordnen ist. Auf dieser Einordnung fußt die vorliegende Arbeit und schließt sich damit unter anderem an Dörr (2017) an, der den automatisierten Journalismus als Kern des aktuellen Medienwandels bezeichnet (vgl. ebd.: 3). Für die Perspektive der Lesenden ist, neben den genannten unterschiedlichsten Einflüssen und Implikationen des automatisierten Journalismus auf allen Ebenen des Mediensystems vor allem interessant, dass

es keine Kennzeichnungspflicht oder -regelungen zur Kenntlichmachung von automatisiert generierten Texten gibt. Es gibt überdies keine Selbstverpflichtung der Redaktionen oder Medienorganisationen zur Kennzeichnung oder keine – wie auch immer geartete – Verständigung auf einheitliche und für das Publikum wiedererkennbare Verfasser:innenzeilen oder Endnoten, die die Automatisierung und die Urheberschaft anzeigen oder erklären. In der Praxis kennzeichnen nur wenige Medienhäuser ihre automatisiert generierten Inhalte. Lesende konsumieren daher automatisiert generierte oder hybrid verfasste Texte auch ohne, dass sie von der Urheberschaft wissen (können).
es in der allgemeinen Berichterstattung wenig Aufklärung und Hintergrundinformation für das Publikum über die aktuell stattfindenden Automatisierungsvorgänge aller Art im Journalismus gibt.
von Seiten der Forschenden kritisiert wird, dass zu wenige Kenntnisse über die Perspektive der Lesenden vorhanden sind (vgl. Limitationen der Rezeptionsstudien in Abschnitt 6.1).
in Zukunft von veränderter Nachrichtenauswahl und -rezeption der Lesenden, zum Beispiel durch weiter fragmentierte Contentanbieter und Nutzer:innengruppen auszugehen ist.

Im Umgang mit automatisiertem Journalismus ist das Handeln des Publikums (ob bewusst oder unbewusst) von einer Vielzahl an Unsicherheiten beziehungsweise durch eine Beschränkung von Informationen und Wissen beeinflusst. Die Entscheidung, ob Lesende automatisiert generierten oder hybrid verfassten Inhalten vertrauen, treffen sie mit einer Reihe an Heuristiken und mit begrenzten Ressourcen: Lesende vertrauen der Zuverlässigkeit der Programmierleistung sowie der Vollständigkeit des Trainings der Algorithmen (meist durch Journalist:innen in den Redaktionen oder durch Softwareentwickler:innen der Softwareanbieter). Lesende vertrauen auf die korrekte und vollständige Einbindung der automatisierten Verfahren in redaktionelle Entstehungs- und Überprüfungsprozesse von Nachrichten und vertrauen hier auch darauf, dass bestehende Kontroll- und Korrekturmechanismen in den Medienorganisationen auf die automatisierte Berichterstattung ausgeweitet wird. Hier mag eingeworfen werden, dass Rezipierende auch bislang wenig oder in sehr unterschiedlichem Maß Kenntnisse über die journalistische Ausbildung, den Redaktionsalltag, über Mediennetzwerke, über das Zusammenspiel von Redaktionen und Nachrichtenagenturen, die Nachrichtenauswahl und -produktion oder Verfahren zur Korrektur von Fehlern haben. Wichtig ist, dass mit dem automatisierten Journalismus die Komplexität der Nachrichtenentstehung und damit auch die Anforderungen an die Media Literacy der Konsument:innen, um den Wahrheitsgehalt einer Nachricht zu überprüfen oder die Entstehung der Berichte einzuordnen, steigt. Außerdem erhöhen sich die Anforderungen, wenn Nachrichten bewertet und Vertrauens- oder Misstrauensurteile gefällt werden. Wie Lesende mit der erhöhten Komplexität umgehen, und ob diese Einfluss auf das bewertete und entgegengebrachte Vertrauen in journalistische Inhalte hat, ist ein Schwerpunkt dieser Arbeit.

Notes

1.
In der Einleitung wurde bereits darauf hingewiesen, dass der teilweise in der Praxis verwendete Begriff ‚Roboterjournalismus‘ nur im empirischen Teil zur Benennung des Untersuchungsgegenstands, nicht zur Auseinandersetzung mit dem Phänomen geeignet ist (Jia 2020: 2613; Graßl et al. 2022: 11 f.).
2.
Neben der automatisierten Textgenerierung werden auch einfache Video- oder Radiobeträge automatisiert erstellt (vgl. Jia 2020: 2613; Koliska et al. 2021: 1162). Die vorliegende Arbeit konzentriert sich auf die Textgenerierung.
3.
Nicht-strukturierte Daten verarbeiten zu können, fällt in das Gebiet des Natural Language Processing (kurz: NLP). Auch hier findet Forschung und Weiterentwicklung der bisherigen Technologie statt. So können in Zukunft möglicherweise auch verstärkt nicht-strukturierte Daten als Grundlage des automatisierten Journalismus genutzt werden, bisher sind aber in der Regel strukturierte Daten notwendig.
4.
Mit der Kennzeichnung automatisiert generierter Texte auf der professionellen Ebene in den USA haben sich im Schwerpunkt zudem Montal und Reich (2017, 2019) beschäftigt.
5.
Mit kommunikativen Folgen sind „Auswirkungen auf (interpersonale, gruppenbezogene, öffentliche) Kommunikationsprozesse und -strukturen“ (Dogruel 2013: 304) gemeint.
6.
Es gibt keine geläufige deutsche Übersetzung des Computational Journalism.
7.
Guzman (2019) plädiert dafür diese Ansätze zur Kommunikatorforschung in Folgestudien verstärkt auch auf die Perspektive der Lesenden zu übertragen.
8.
Hier sei explizit erwähnt, dass es sich in dieser Modellierung nicht um Textautomatisierungen wie ChatGPT handelt, die mit Large Language Modellen arbeiten.
9.
Für diese Texte haben Journalist:innen die GPT3-Technologie verwendet, um einzelne Textteile oder ganze Artikel zu generieren. In der Regel wurden die erzeugten Texte von den Redakteur:innen kontrolliert, verändert und manuell zur Veröffentlichung freigegeben. Ein breiter Einsatz der Technologie mit regelmäßigen und wiederkehrenden Veröffentlichungen konnte im deutschen Journalismus ebenso wenig beobachtet werden wie der Einsatz der Technologie ohne eine enge Anbindung an und Kontrolle durch Journalist:innen (vgl. auch Abschnitt 3.3.3).
10.
Der Einsatz dieser Technologie geht auf die seit den 1950er Jahren betriebene Forschung zur natürlichsprachlichen Textgenerierung in der Informatik und Computerlinguistik zurück (vgl. Menzel 2010: 18 f.).
11.
Dazu werden die Algorithmen unter anderem in Syntax, der Semantik und Morphologie einer Sprache ebenso wie in Stilistik und Metrik trainiert und mit einer großen Anzahl an Wissensdatenbanken wie Wörterbücher, Lexika, Textkorpora und NLG-Bibliotheken verbunden.
12.
Leppänen et al. (2017) haben Anforderungen an NLG-Systeme formuliert, die sich bei der Anwendung im Journalismus ergeben. Sie beziehen sich auf „the journalistic process (requirements for transparency and accuracy), the system itself (modifiability and transferability, fluency) and the application of the system (data availability and topicality)“ (ebd.: 189).
13.
Zusätzlich beschreibt Diakopoulos (2019: 98–101) Möglichkeiten, die erstellten Texte durch automatisiert generierte Inhalte wie Fotos, Datenvisualisierungen etc. zu ergänzen (vgl. ebd.: 102–107).
14.
In den Praxisbeispielen wird auf die Kolumne ‚Anic T. Wae‘ hingewiesen. Diese arbeitet mit dem GPT-3 Modell, ist aber eng an das Projektteam angebunden; zudem werden keine informierenden Texte veröffentlicht (vgl. ausführlich in Abschnitt 3.3.3).
15.
Es sei darauf hingewiesen, dass es schon vor 2010 Pilotprojekte gab, die als Vorreiter des automatisierten Journalismus gelten. So hat Glahn (1970) Wettervorhersagen mit Textvorlagen erzeugt und Meehan (1977) einen Algorithmus zur automatisierten Erstellung von Märchenerzählungen vorgestellt. Insgesamt beschäftigt sich die Computerlinguistik seit den 1950er Jahren mit natürlichsprachlicher Generierung von Texten, die Anwendung im Journalismus erfolgt aber weitestgehend seit 2007, beziehungsweise verstärkt ab 2010 (vgl. Horacek 2010: 635).
16.
Aus Gründen der Transparenz sei darauf hingewiesen, dass die Verfasserin dieser Arbeit am Projekt beteiligt ist (vgl. Kilg et al. 2022). Ein Teil des Projektteams besteht zudem aus Mitgliedern der TuringAgency, ein Schweizer Kollektiv, das KI in kreativen Kontexten verwenden und gesellschaftlichen Dialog und Reflexion zum Einsatz von KI bewirken will.
17.
Ende Januar 2023 spricht das Projektteam von etwa 80 Kontaktaufnahmen.
18.
Porlezza (2020) argumentiert, dass Journalismus nicht vollständig transparent agieren kann, weil stets Abwägungen mit anderen Werten wie etwa Daten- oder Quellenschutz getroffen werden müssen (vgl. ebd.: 147). Demgegenüber steht das Argument, dass Journalismus – aus einer konstruktivistischen Perspektive – auch nicht vollständig objektiv agieren kann, aber Objektivität trotzdem als anzustrebender Wert in der journalistischen Berichterstattung gilt. Dieses Argument kann auch auf die Transparenzforderung übertragen werden: Selbst wenn eine vollständige Transparenz im automatisierten Journalismus aus unterschiedlichen Gründen nicht erreicht werden kann, gilt ein transparenter Umgang der Medienorganisationen mit automatisiert generierten Nachrichten als anzustrebendes Ideal.
19.
Er verwendet den Begriff Roboterjournalismus und unterscheidet zwischen internem und externem Roboterjournalismus, also Projekten, die ‚In-House‘ in den jeweiligen Medienorganisationen entwickelt wurden und solchen, die in Zusammenarbeit mit externen Softwareanbietern umgesetzt werden.
20.
Mit ‚algorithmic accountability‘ sind sowohl die Kontrolle und Überprüfbarkeit algorithmischer Systeme als auch die Frage der Verantwortungsübernahmen algorithmischer Entscheidungen gemeint (vgl. Heise 2016: 207).

Author information

Authors and Affiliations

Neumarkt i.d. OPf., Deutschland
Theresa Körner

Authors

Theresa Körner
View author publications
You can also search for this author in PubMed Google Scholar

Rights and permissions

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Körner, T. (2024). Forschungsobjekt: automatisierter Journalismus. In: Generalisiertes Vertrauen in automatisierten Journalismus. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-42735-1_3

Download citation

DOI: https://doi.org/10.1007/978-3-658-42735-1_3
Published: 05 October 2023
Publisher Name: Springer VS, Wiesbaden
Print ISBN: 978-3-658-42734-4
Online ISBN: 978-3-658-42735-1
eBook Packages: Social Science and Law (German Language)

Publish with us

Policies and ethics