Schlüsselwörter

1 Einleitung

Wissenschaftskommunikation gewinnt zunehmend als wissenschaftlicher Forschungszweig und als Berufsfeld an Bedeutung. Dies zeigt sich beispielsweise in einer Zunahme von Ressourcen für Wissenschaftskommunikation oder in der Ausdifferenzierung von verschiedenen Maßnahmen und Formaten der Wissenschaftskommunikation: Von Science Slams über Podcasts zu Schülerlaboren, Science Cafés, Hackathons oder Langen Nächten der Wissenschaft (Ziegler et al. 2021). Mit solchen Maßnahmen können viele unterschiedliche Ziele verfolgt werden, etwa das Wissen zu bestimmten Themen bei wissenschaftsfernen Zielgruppen zu steigern, die Akzeptanz oder das Vertrauen in neue Technologien zu stärken oder aber ein positives Image von wissenschaftlichen Institutionen aufzubauen (Weingart und Joubert 2019). Ob diese Ziele mithilfe von Wissenschaftskommunikation erreicht werden konnten und ob vorhandene Ressourcen und konkrete Kommunikationsmaßnahmen dabei effektiv und effizient eingesetzt wurden, lässt sich erst durch eine systematische Evaluation beantworten. Die Bedeutung von Evaluation wird erst seit kürzerer Zeit in der Forschung und Praxis der Wissenschaftskommunikation diskutiert (Jensen 2014). Dieser Beitrag führt in die Logik von Evaluation ein, indem es grundlegende Evaluationsmodelle, -stufen und -objekte erklärt und daraufhin ein integriertes Evaluationsmodell für die Wissenschaftskommunikation vorstellt. Es gibt darüber hinaus einen Überblick über sozialwissenschaftliche und betriebswirtschaftliche Methoden und typische Kennzahlen für die Evaluation der Wissenschaftskommunikation, die idealerweise miteinander kombiniert werden. Schließlich werden aktuelle Herausforderungen für Wissenschaft und Praxis skizziert.

2 Logik von Evaluationen

Theorien, Modelle und Methoden für die Evaluation werden seit Jahrzehnten in verschiedenen Disziplinen erforscht – etwa in der öffentlichen Verwaltungswissenschaft, der Bildungsforschung, der internationalen Entwicklungsforschung oder Managementforschung – und in verschiedenen Berufsfeldern angewandt (Macnamara 2018). Die Kommunikationswissenschaft hat sich mit Evaluationsforschung nur am Rande beschäftigt; erst seit den 1990er Jahren lässt sich eine zunehmende Auseinandersetzung mit Fragestellungen und Praktiken der Evaluation im Bereich der Strategischen Kommunikationsforschung feststellen (Volk 2016). Das ist für die Wissenschaftskommunikationsforschung und -praxis von Vorteil, denn Schlüsselkonzepte und Theorien aus der Evaluationsforschung wurden bereits auf das Forschungsfeld (Strategische) Kommunikation übertragen, etwa die Program Theory (z. B. Frechtling 2015; Rossi et al. 2004), das Prinzip von Logikmodellen (Knowlton und Phillips 2013) und die Theory of Change (z. B. Clark und Taplin 2012; Funnell und Rogers 2011). Da die Wissenschaftskommunikation neben dialogischen Zielen auch strategische oder persuasive Ziele verfolgt (Besley und Dudo, 2022) – wenn auch andere als etwa Unternehmen, Parteien oder NGOs – lassen sich die grundlegende Logik von Evaluation, die Stufen von Evaluation und die Objekte von Evaluation mit einigen Anpassungen adaptieren (Raupp und Osterheider 2019).

2.1 Formen von Evaluation

Unter Evaluation (lateinisch von „valere“: wert sein) wird allgemein die Bewertung und Überprüfung von Kommunikationsaktivitäten im Hinblick auf gesetzte Ziele verstanden. Was die Evaluationsforschung von der Rezeptions- und Wirkungsforschung der Wissenschaftskommunikation unterscheidet, ist die Tatsache, dass nicht allgemeine Effekte von Kommunikation untersucht werden, sondern Wirkungen im Hinblick auf vorab definierte Kommunikationsziele (Pellegrini 2021; Raupp 2017). Evaluation stellt dabei die letzte Phase in einem Zyklus dar, der aus vier Kernelementen besteht: Situationsanalyse (Bedarfsermittlung), Planung (Strategiefindung), Umsetzung (Strategieimplementierung) und Evaluation (Zielerreichung). Im Rahmen der Planungsphase müssen die durch Wissenschaftskommunikation zu erreichenden Ziele (z. B. Aufmerksamkeit, Vermittlung von Wissen, Verständigung, Partizipation) eindeutig festgelegt werden, etwa entlang der SMART-Formel (Akronym für: spezifisch, messbar, attraktiv, realistisch und terminlich fixiert) (Volk und Zerfaß 2022). Neben Zielen sollten auch die Zielgruppen konkretisiert werden, z. B. anhand ihrer demografischen Merkmalen, Einstellungen gegenüber bzw. Interesse an Wissenschaft oder ihrem wissenschaftsbezogenen Mediennutzungsverhalten (Ziegler et al. 2021). Ein Beispiel könnte lauten: „Im dritten Quartal soll durch die Kinder-Uni die Bekanntheit der Universität X in der wissenschaftsfernen Bevölkerung Y im Raum Z um 5 Prozentpunkte gesteigert werden.“ Ob das Ziel durch den Einsatz von Wissenschaftskommunikation verwirklicht werden konnte, lässt sich im Rahmen der Evaluation durch einen Vergleich der angestrebten Ziele (Soll-Werte) und realisierten Ziele (Ist-Werte) bestimmen.

In der Literatur werden meist zwei Formen von Evaluationen unterschieden: „Formative“ und „summative“ Evaluation (vgl. van den Bogaert in diesem Band). Die summative Evaluation untersucht nach der Umsetzung bzw. Strategieimplementierung, inwieweit die Kommunikationsaktivitäten ihre Ziele erreicht haben; sie dient zur Rechenschaftslegung und ermöglicht Lernprozesse, um künftige Planungen zu verbessern. Die formative Evaluation hingegen findet vor und begleitend zur Umsetzung von Kommunikationsmaßnahmen statt. Im Vorfeld dient sie der Analyse der Ausgangssituation und der Generierung von Insights für die Planung, etwa durch die Analyse von Interessen und Kanalpräferenzen des Publikums. Während der Umsetzung dient sie der kontinuierlichen Beobachtung (im Sinne von Monitoring) und Optimierung bzw. Anpassung von Kommunikationsprozessen; manche Autor:innen bezeichnen diese prozessbegleitende Form von Evaluation daher auch als prozessuale Evaluation (z. B. Buhmann und Likely 2018; Pellegrini 2021; Rice und Atkin 2013; Watson und Noble 2014).

2.2 Evaluationsmodelle, -stufen und -objekte

Die Entwicklung von Modellen für die Evaluation reicht viele Jahrzehnte zurück. Für die Evaluation von Strategischer Kommunikation liegen verschiedene, wissenschaftlich fundierte und praxiserprobte Evaluationsmodelle vor (vgl. Macnamara und Gregory 2018). Was unterschiedliche Evaluationsmodelle gemein haben ist, dass sie trotz unterschiedlichen Terminologien mehr oder weniger der Struktur von Logikmodellen ähneln. Bei Logikmodellen handelt es sich um vereinfachte Darstellungen verschiedener Stufen von Wirkungen. Um vermutete (kausale) Beziehungen zwischen den einzelnen Stufen zu erklären, wird häufig auf Annahmen aus der Program Theory und der Theory of Change zurückgegriffen (z. B. Clark und Taplin 2012; Frechtling 2015). In ihrer grundlegendsten Form unterscheiden diese Logikmodelle zwischen folgenden vier Stufen: Inputs (die Ressourcen, die in eine Aktivität fließen), Outputs (die Produkte bzw. Aktivitäten, die daraus resultieren), Outcomes (die kurz- und mittelfristigen Veränderungen, die aus den Aktivitäten resultieren) und Impacts (die in der Regel langfristigen Ergebnisse z. B. auf gesellschaftlicher, erzieherischer, ökologischer, demokratischer Ebene).

Ein Versuch, verschiedene Evaluationsmodelle im Bereich der Strategischen Kommunikation zu standardisieren und zu vereinheitlichen, wurde in den letzten Jahren von der International Association for the Measurement and Evaluation of Communication in Form des Integrated Evaluation Framework (IEF) vorgenommen (AMEC 2016), das mittlerweile in 20 Sprachen übersetzt wurde. Im deutschsprachigen Diskurs hat das sogenannte DPRG/ICV-Wirkungsstufenmodell (DPRG und ICV 2011) eine breitere Resonanz erfahren. Die Logik des DPRG/ICV-Wirkungsstufenmodell wurde bereits von Raupp und Osterheider (2019) oder Scheuerle et al. (2017) und Scheuerle (2020) für die Wissenschaftskommunikation adaptiert und findet sich in ähnlicher Form auch in der englischsprachigen Literatur (Pellegrini 2021). Demnach lässt sich Wissenschaftskommunikation entlang von vier Wirkungsstufen evaluieren:

  1. 1.

    Inputs umfassen die Ressourcen, die für die Vorbereitung und Durchführung von Projekten und Maßnahmen der Wissenschaftskommunikation benötigt werden (z. B. Zeit, finanzielle und personelle Ressourcen); die Input-Phase stellt die Brücke zwischen Planung und Durchführung dar.

  2. 2.

    Outputs umfassen die Leistungen, die durch Maßnahmen der Wissenschaftskommunikation, geschaffen und von Zielgruppen genutzt werden. Es können interne Outputs (z. B. Anzahl von Pressemitteilungen, Social Media Posts oder Events) und externe Outputs (z. B. Präsenz in der Medienberichterstattung, Reichweite auf Social Media, Visits auf Webseite) unterschieden werden.

  3. 3.

    Outcomes umfassen kognitive, affektive und konative sowie physiologische Wirkungen, die durch Maßnahmen der Wissenschaftskommunikation bei Zielgruppen geschaffen werden. Sie können in direkte Outcomes (z. B. Aufmerksamkeit, Recall, Recognition) und indirekte Outcomes (z. B. Interesse, Wissen, Lernen, Einstellungsveränderungen, Emotionen, Verhaltensänderungen) unterschieden werden; hierbei handelt es sich um kurz- und mittelfristige Wirkungen.

  4. 4.

    Impacts umfassen den langfristigen Wert, der auf gesellschaftlicher Ebene (z. B. Vertrauen in die Wissenschaft, Akzeptanz von neuen Technologien) oder institutioneller Ebene (z. B. Image, öffentliche Finanzierung, Legitimation, Vertrauen in die Institution) geschaffen wird. Hierbei handelt es sich um langfristige Wirkungen, die mithilfe von mehreren Messzeitpunkten erhoben werden können.

Die skizzierte Evaluationslogik kann dabei auf unterschiedlichen Ebenen der Wissenschaftskommunikation zum Einsatz kommen: Als Evaluationsobjekte können einzelne Projekte bzw. Kommunikationsprodukte (z. B. TikTok Video, Pressekonferenz; Fokus: eher kurzfristig), größere Kommunikationskampagnen (z. B. cross-mediale Kampagne zu Citizen Science; Fokus: eher kurz- und mittelfristig) oder umfangreiche Kommunikationsprogramme (z. B. wiederkehrende Kinder-Uni, Science Festival; Fokus: eher langfristig) im Hinblick auf ihre Zielerreichung bewertet werden. Diese sind ineinander „verschachtelt“, d. h. einzelne Projekte sind oft Elemente von größeren Kampagnen, die wiederum Teil größerer Programme sind (Buhmann und Volk 2022). Über die Kommunikation hinaus können auch Kommunikationsteams (z. B. mit Verantwortlichkeit für interne Wissenschaftskommunikation) oder ganze Kommunikationsabteilungen in Wissenschaftsorganisationen (z. B. Museum, Universität) entlang der vier Stufen evaluiert werden. Der Grad an Komplexität und der Zeithorizont (kurz-, mittel- und langfristig) der Evaluation nimmt mit jeder Einheit und jeder Stufe zu.

Führt man die obigen Überlegungen zusammen, lässt sich für die Evaluation der Wissenschaftskommunikation ein integriertes Evaluationsmodell (in Anlehnung an Buhmann und Likely 2018; Buhmann und Volk 2022) vorschlagen, das a) Evaluation als letzte Phase in einem übergeordneten Zyklus begreift (Situationsanalyse, Planung, Umsetzung), b) zwei Evaluationsformen (summativ, formativ/prozessual) dazu in Bezug setzt, c) vier Evaluationsstufen (Inputs–Outputs–Outcomes–Impacts) in der Phase der Umsetzung differenziert und (d) verschiedene Evaluationsobjekte (Projekt, Kampagne, Programme) und Zeithorizonte (kurz-/mittel-/langfristig) berücksichtigt (Abb. 1).

Abb. 1
figure 1

Evaluationsmodell für die Wissenschaftskommunikation

Evaluationsmodelle werden häufig implizit oder explizit mit der Annahme hinterlegt, dass Outputs, Outcomes und Impacts in einer Ursache-Wirkungs-Beziehung stünden, es also kausale Wirkungszusammenhänge zwischen den Aktivitäten der Wissenschaftskommunikation und den Wirkungsstufen gäbe (Volk und Zerfaß 2022). Während es in der Praxis durchaus pragmatisch zielführend sein kann, logisch anzunehmende Wirkungsketten zu vereinbaren, ist es aus einer wissenschaftlichen Sicht problematisch, wenn gemessene Wirkungen kausal auf einzelne Maßnahmen der Wissenschaftskommunikation zurückgeführt werden (vgl. Raupp und Osterheider 2019): Denn zum einen ist Wissenschaftskommunikation häufig nur ein Faktor unter vielen anderen Einflussfaktoren (z. B. Eintrittspreis, Entfernung zu einer Ausstellung), der Einstellungen oder Verhaltensabsichten beeinflussen kann; alternative Einflussfaktoren werden empirisch aber meist nicht gemessen und Kommunikationswirkungen treten oft zeitversetzt auf. Daher lassen sich Änderungen nicht eindeutig auf Wissenschaftskommunikation zurückführen bzw. verursachungsgerecht zurechnen. Zum anderen werden in der Praxis aus forschungsökonomischen Gründen meist keine experimentellen Testverfahren mit Kontrollgruppen oder Vorher-Nachher-Designs bzw. Langzeiterhebungen genutzt, sodass keine empirischen Aussagen über Kausalitäten getroffen werden können (Jensen 2015; King et al. 2015; Ziegler et al. 2021). Daher ist das Wissen um die Grenzen und Limitationen von Evaluationen für die Analyse und Interpretation von Daten essenziell.

3 Evaluationsmethoden für die Wissenschaftskommunikation

Im Zuge der Evaluation kann ein breites Spektrum an Methoden für die Bewertung von einzelnen Projekten, Kampagnen oder Programmen der Wissenschaftskommunikation zum Einsatz kommen. Die Ergebnisse von Messungen werden als Kennzahlen bezeichnet, die als (quantitative oder qualitative) Leistungsindikatoren einen Soll-Ist-Vergleich zwischen den angestrebten Zielen und den tatsächlichen Ergebnissen ermöglichen. Kennzahlen, die kritische und strategisch relevante Informationen zusammenfassen, werden auch als „Key Performance Indicators“ (KPIs) bezeichnet (Volk und Zerfaß 2022).

Unterschiedliche Methoden und Kennzahlen lassen sich entlang der Evaluationsstufen systematisieren: Auf der Output- und Outcome-Ebene stehen die Inhalte von Kommunikationsangeboten, Nutzungsmuster und Kommunikationswirkungen bei den Zielgruppen bzw. in der Gesellschaft im Vordergrund. Auf der vorgelagerten Input-Ebene und der nachgelagerten Impact-Ebene hingegen stehen die Effizienz beim Ressourceneinsatz und die geschaffenen immateriellen und ggf. materiellen Werte im Fokus. Dementsprechend sind neben den klassischen sozialwissenschaftlichen Forschungsmethoden auch betriebswirtschaftliche Methoden für eine systematische Evaluation notwendig (Raupp und Osterheider 2019). Eine ganzheitliche Betrachtung von Inputs bis zu Impacts ist sinnvoll, da Kennzahlen auf der Outcome-Ebene zu Wirkungen bei Zielgruppen wenig darüber aussagen, ob die gewählten Formate der Wissenschaftskommunikation auch effizient und ressourcenschonend umgesetzt wurden oder ein langfristiger Beitrag für die gesamte Wissenschaftsorganisation (z. B. Museum, Universität) oder einzelne Akteur:innen (z. B. Wissenschaftler:innen) geschaffen wurde. Aussagen über Effizienz und Impact von spezifischen Maßnahmen oder Projekten in der Wissenschaftskommunikation setzen natürlich grundlegend voraus, dass Ziele im Rahmen der strategischen Planung klar definiert und Wirkungen auf den vorgelagerten Output- und Outcome-Stufen gemessen werden. Genau dies stellt jedoch in der Praxis der Wissenschaftskommunikation derzeit eine Herausforderung dar (Ziegler et al. 2021).

3.1 Sozialwissenschaftliche Methoden

Für die Messung von Kommunikationswirkungen auf der Output- und Outcome-Ebene bietet sich die Nutzung der gesamten Bandbreite der quantitativen und qualitativen sozialwissenschaftlichen Forschungsmethoden an. Darunter fallen alle in diesem Buch vorgestellten Methoden: Befragungen, Beobachtungen, Nutzungs-Datenanalysen, Inhaltsanalysen, physiologische Messungen, Testverfahren oder experimentelle Herangehensweisen (vgl. Grundlagenbeiträge in diesem Band). Je nach Erkenntnisinteresse lassen sich verschiedene Methoden im Sinne von Mixed Methods miteinander kombinieren (vgl. Gabriel, Kessel, Quast und Roth in diesem Band).

Auf der internen Output-Ebene können zunächst einfache Auszählungen genutzt werden, um etwa die in einem bestimmten Zeitraum selbst erstellte Anzahl von Social-Media-Posts, Pressemitteilungen, Events usw. auszuwerten. Auf der externen Output-Ebene können mithilfe von Nutzungsdatenanalysen (z. B. Webtracking) Aussagen über die Anzahl von Visitors, Page Impressions oder die durchschnittliche Verweildauer von User:innen auf der eigenen Webseite getroffen werden (vgl. Bruckermann und Greving in diesem Band). Für Social-Media-Kanäle kann die Reichweite von Posts, Tweets oder Stories ermittelt werden. Diese Kennzahlen erlauben Rückschlüsse auf die Anzahl der potenziellen Kontakte mit der Zielgruppe, sagen aber nichts darüber aus, ob die Zielgruppe die Inhalte tatsächlich gesehen oder gehört hat oder was sie daraufhin gedacht und getan hat. Ferner lassen sich Inhaltsanalysen (z. B. Medienresonanzanalysen, Clippings) nutzen, um die Präsenz der eigenen Formate in der Medienberichterstattung zu untersuchen und Aussagen über die Tonalität und den Share of Voice treffen zu können (vgl. Kessler und Wicke in diesem Band; siehe auch Raupp und Vogelgesang 2009). Analog dazu können Kommentare oder Posts auf Social-Media-Kanälen inhaltsanalytisch, etwa in Bezug auf Themen (z. B. Hashtags) und Sentiments (z. B. positiv, negativ, neutral), untersucht werden. Auf der direkten Outcome-Ebene lassen sich mithilfe von Social-Media-Analytics die Anzahl an Likes, Shares, Followers, Retweets etc. verfolgen. Diese liefern nützliche Indikatoren für ein Potenzial für kommunikative Beeinflussung, lassen aber noch keine Aussage darüber zu, ob die Zielgruppe die Botschaften oder Informationen möglicherweise ignoriert, nicht geglaubt oder direkt wieder vergessen hat. Auf der indirekten Outcome-Ebene kommen insbesondere quantitative Befragungen (z. B. per Smartphone-App, Paper-Pencil-Befragung), Fokusgruppen (z. B. im Rahmen einer Bürger:innenkonferenz), Beobachtungen (z. B. Wegeverlauf von Teilnehmer:innen bei einer Museumsausstellung) oder halbstandardisierte Interviews (z. B. mit Lehrer:innen oder Schüler:innen) zum Einsatz. Hier geht es dann um die Frage, ob und inwiefern sich Veränderungen von Wahrnehmungen, Wissen, Einstellungen, Emotionen, Verhaltensabsichten oder Verhaltensweisen zeitigen. Neben solchen formalen Methoden können auch informelle Gespräche mit Teilnehmer:innen eingesetzt werden, um Feedback einzuholen (Grand und Sardo 2017; vgl. auch Wollmann, Birkenhäger und Bastge in diesem Band).

3.2 Betriebswirtschaftliche Methoden

Der Einsatz von Methoden und Bewertungssystemen aus der Betriebswirtschaftslehre eignet sich insbesondere für die Evaluation der Input-, internen Output- und der Impact-Ebene der Wissenschaftskommunikation (Raupp 2017). Denn Maßnahmen der Wissenschaftskommunikation sollten nicht nur im Hinblick auf die beabsichtigte Wirkung einer Botschaft oder Kampagne bewertet werden, sondern auch im Hinblick auf die Frage, ob Aufwand und Ertrag in einem angemessenen Verhältnis stehen. Auf der Input-Ebene kann bspw. mithilfe von Budgetanalysen ermittelt werden (Zerfaß und Volk 2019, S. 84 ff.), wie viele personelle Ressourcen sowie Sach- oder Reisekosten in die Konzeption einer Veranstaltung geflossen sind. Auf der internen Output-Ebene geht es um die interne Effizienz bei der Produktion von Maßnahmen der Wissenschaftskommunikation: Hier können Prozessanalysen Aufschluss darüber geben (Zerfaß und Volk 2019, S. 41 ff.), inwiefern die Beteiligten zufrieden mit der Effizienz und Qualität von Prozessabläufen waren oder inwiefern Deadlines und Budgets eingehalten wurden. In Bezug auf die Erstellung von Content für Social Media oder Pressearbeit lässt sich bspw. analysieren, wie viele Korrekturschleifen es gab, wie hoch die Fehlerquote oder die Reaktionszeit auf Kommentare war (Raupp und Osterheider 2019). Auf der Impact-Ebene lassen sich für die Evaluation der langfristigen Beiträge von Wissenschaftskommunikation nur wenige der betriebswirtschaftlichen Methoden adaptieren, da es hier nicht oder selten um ökonomische Zielgrößen wie Umsatz oder Gewinn geht, sondern vielmehr um gesellschaftliche (z. B. erzieherische, ökologische, etc.) Wirkungen. Hier lassen sich etwa Reputationsanalysen (z. B. in Bezug auf die Third Mission von Hochschulen) oder Akzeptanz- und Vertrauensanalysen (z. B. in das Wissenschaftssystem oder in wissenschaftliche Innovationen) mithilfe von Längsschnittdesigns durchführen. Darüber hinaus lässt sich bspw. auswerten, wie viele Projekt-/Förderabschlüsse (z. B. eingeworbene Drittmittel) oder neue Netzwerke bzw. Kooperationen realisiert wurden.

3.3 Kombination von Methoden

Da die Evaluation von Projekten oder Maßnahmen der Wissenschaftskommunikation entlang der Input–Output-Outcome-Impact-Stufen den Einsatz verschiedener Methoden erfordert, werden unterschiedliche Methoden in Abhängigkeit vom Zweck und Erkenntnisinteresse der Evaluation oft miteinander kombiniert. Tab. 1 gibt einen Überblick über typische Methoden und exemplarische Messgrößen entlang der vier Wirkungsstufen (in Anlehnung an Volk und Zerfaß 2022; Raupp und Osterheider 2019). Die Zusammenstellung ist nicht erschöpfend und einige Methoden können auf mehreren Wirkungsstufen zum Einsatz kommen. In der Regel gibt es keine Goldstandards für die Definition und Operationalisierung der hier dargestellten Messgrößen, sondern verschiedene Möglichkeiten und Herangehensweisen. Wenn Kennzahlen unterschiedlich definiert und erhoben werden, ist es schwierig, sinnvolle Vergleiche bzw. «Benchmarks» zwischen Projekten, Maßnahmen oder mit anderen Organisationen anzustellen. Daher ist es über verschiedene Projektteams hinweg bzw. innerhalb wissenschaftlicher Institutionen wichtig, einheitlich und konsistent zu definieren, ob es sich beispielsweise bei „visits“ um „unique visits“, „new visitors“ oder „returning visitors“ handelt, und identische Messzeiträume festzulegen (etwa pro Tag, Woche, Monat etc.). Auch für die Bestimmung von Engagement-Raten gibt es unterschiedliche Ansätze, Interaktionen auf Social Media (z. B. Likes, Comments, Retweets) in Beziehung zu den User:innen (z. B. Anzahl Follower, Abonnent:innen) zu setzen. Noch komplexer wird es, wenn etwa Reputation oder Glaubwürdigkeit der Wissenschaftskommunikation erhoben wird, denn auch hier liegen verschiedene Operationalisierungsansätze in der Forschung vor (vgl. Mede 2022). Dass es insgesamt bisher wenige standardisierte Kennzahlen gibt, auch im Feld der Strategischen Kommunikation, hat verschiedene Ursachen (z. B. Buhmann et al. 2019) und ist u. a. auf Marktdynamiken zurückzuführen. Für die Auswahl von geeigneten Evaluationsmethoden, Messgrößen und Kennzahlen für die Wissenschaftskommunikation gibt es also keine einheitliche Schablone; vielmehr sollte die Auswahl jeweils situations- und kontextspezifisch entlang der Ziele und Motive von Evaluationen erfolgen (Fu et al. 2016; Scheuerle 2020). Die Entscheidung, welche Kennzahlen und wie aufwendig diese Kennzahlen erhoben werden, hängt dabei auch von den verfügbaren Ressourcen ab. Letztlich kommt es bei der Definition von Kennzahlen darauf an, dass sie sich möglichst eng an der aktuellen Diskussion in der Forschung und Wissenschaftskommunikations-Community orientieren und idealerweise auch stetig weiterentwickelt werden, beispielsweise vor dem Hintergrund neuerer Forschungsergebnisse.

Tab. 1 Exemplarische Methoden und Messgrößen für die Evaluation von Wissenschaftskommunikation

Für die Evaluationspraxis der Wissenschaftskommunikation bietet es sich an, die verschiedenen Methoden und Kennzahlen, die in einem Projekt oder Team genutzt werden, in einem (virtuellen) Methodenhandbuch – also einer eigenen Toolbox – zusammenzustellen. Eine solche Toolbox sollte idealerweise Beschreibungen, Vorlagen und Literaturempfehlungen zu den einzelnen Methoden sowie Kennzahlensteckbriefe beinhalten (z. B. mit einheitlichen Messgrößen, Messzeiträumen) (Zerfaß und Volk 2019). Verantwortliche für Wissenschaftskommunikation können sich dann mit den Voraussetzungen und Anwendungen spezifischer Methoden vertraut machen und geeignete Methoden für die eigene Fragestellung aussuchen. Eine zentrale Voraussetzung für empirisch aussagekräftige Messungen besteht darin, dass ausreichende Ressourcen und Zeit für Evaluationen zur Verfügung stehen und Wissenschaftskommunikator:innen solide Kenntnisse sozialwissenschaftlicher Methoden mitbringen (Jensen 2015; King et al. 2015). Daher sollte genügend Budget für Evaluationen schon im Vorfeld (etwa in Anträgen) einkalkuliert werden. Zum anderen sollten auch Methodenkompetenzen, die für die Konzeption von Evaluationsdesigns und Interpretation von Ergebnissen unerlässlich sind, systematisch aufgebaut und regelmäßig weiterentwickelt werden (Jensen und Gerber 2020; Pellegrini 2021; Ziegler et al. 2021).

4 Ausblick und Herausforderungen

Bislang steckt eine systematische Zieldefinition und Evaluation der Wissenschaftskommunikation noch weitestgehend in den Kinderschuhen und wird selten strukturiert angewandt (z. B. Jensen 2015; Weingart und Joubert 2019; Ziegler et al. 2021). Der Fokus liegt eher auf quantitativen Indikatoren und positiven Ergebnissen, obschon auch nicht intendierte, negative oder fehlende Effekte wichtige Erkenntnisse für die Wissenschaftskommunikation bereithalten (Jensen 2015). Oft werden einfach messbare Auszählungen wie etwa die Anzahl an Besucher:innen, Likes, Shares, Kommentare ausgewiesen oder lediglich Selbstauskünfte gesammelt (Weingart und Joubert 2019). Aufwendigere Verfahren wie Besucher:innenbefragungen oder -beobachtungen kommen zwar zum Einsatz, basieren aber teilweise auf wenig aussagekräftigen methodischen Designs (z. B. keine Vorher-Nachher-Befragung, Fehlen von validen und reliablen Instrumenten) und liefern teilweise verzerrte Datengrundlagen (Jensen 2014; Phillips et al. 2018). Dafür gibt es verschiedene Gründe, etwa das Fehlen von strukturellen und technischen Voraussetzungen, Ressourcen und methodischen Kompetenzen bei den Verantwortlichen oder einheitlichen und standardisierten Messgrößen (Fu et al. 2016; Jensen 2015).

Wenn aber evidenzbasierte Wissenschaftskommunikation in Zukunft an Bedeutung gewinnen wird (Jensen und Gerber 2020) und insbesondere in Deutschland durch die BMBF-Initiativen zur Förderung der Wissenschaftskommunikation zunehmend Steuergelder in ihre Professionalisierung investiert werden (BMBF 2019), wird eine systematische und wissenschaftlich robuste Evaluation an Relevanz gewinnen. Dabei sollte weniger die retrospektive Erfolgskontrolle im Sinne einer summativen Evaluation im Vordergrund stehen, sondern vielmehr der Versuch, durch kontinuierliche Evaluationen Lernprozesse zu ermöglichen und damit die Basis für evidenzbasierte Wissenschaftskommunikation zu schaffen (Raupp und Osterheider 2019; Ziegler et al. 2021). Denn das bildet letztlich die Grundlage dafür, Wissenschaftskommunikation datengestützt und empirisch fundiert einzusetzen – statt auf Bauchgefühl, Intuition und Erfahrungen zu hören. Gleichzeitig sollten sich Praktiker:innen in Wissenschaftskommunikation über die Voraussetzungen und Limitationen von Evaluationen bewusst sein und in Bezug auf die eingesetzten Methoden und Kennzahlen größtmögliche Transparenz herstellen (Volk und Zerfaß 2022). Ansatzpunkte hierfür bieten die Beiträge zu den Grundlagen, Voraussetzungen, Gütekriterien und Anwendungsbeispielen unterschiedlicher Methoden in diesem Band; ferner können Wissenschaftskommunikator:innen in der How-To-Reihe Wisskomm evaluieren der Impact Unit von Wissenschaft im Dialog (https://impactunit.de/tools/) oder im Leitfaden Kommunikationscontrolling des Bundesverbands Hochschulkommunikation Hilfestellung finden (Scheuerle et al. 2017). Für die Weiterentwicklung ihrer Evaluationspraktiken sollten Praktiker:innen schließlich auch regelmäßig die eigenen Evaluationen evaluieren, d. h. die jeweils eingesetzten Methoden, Zielgrößen, Kennzahlen oder Messzeiträume kritisch überprüfen und vor dem Hintergrund neuer Entwicklungen oder Standards ggf. aktualisieren (Jensen 2014).

In Zukunft wird insbesondere die Echtzeit-Evaluation von sozialen und alternativen Medien und neuen Gatekeepern (z. B. Influencern) in der Wissenschaftskommunikation an Bedeutung gewinnen, etwa um potenzielle Risiken (z. B. Desinformation, Anfeindungen gegenüber Wissenschaftler:innen) schnell erkennen und um aufkommenden Krisen kommunikativ begegnen zu können. Technologische Entwicklungen im Bereich der künstlichen Intelligenz und Automatisierung bieten hier neue Möglichkeiten, große unstrukturierte Datensätze (z. B. Sentiments von Twitter-Diskussionen) automatisiert und damit zeit- und ressourcenschonend in Echtzeit auszuwerten (Jensen 2015; Volk und Buhmann 2023). Die Verknüpfung von großen Datenmengen aus der Nutzungsdatenanalyse mit soziodemografischen und persönlichen Merkmalen von Zielgruppen (z. B. Alter, Kanalpräferenzen, Lebensstil, etc.) eröffnet für die Wissenschaftskommunikation zudem neue Möglichkeiten, ehemals breit definierte Zielgruppen in kleinteilige Zielgruppen mit ähnlichen Profileigenschaften zu segmentieren („Profiling“) und diese mit passend zugeschnittenen Kommunikationsbotschaften zu adressieren („Microtargeting“). Dies wirft natürlich ethische Fragestellungen (z. B. zu Data Privacy, gesellschaftlicher Polarisierung) auf, die es in Wissenschaftskommunikationspraxis und -forschung zu diskutieren gilt.

Aus Perspektive der Wissenschaftskommunikationsforschung stellen sich in Zukunft einerseits konzeptionelle Fragen in Bezug auf die Diskussion, welche generischen Ziele in der Wissenschaftskommunikationsforschung verfolgt und wie diese trennscharf definiert werden können (z. B. Metcalfe 2019; Ziegler et al. 2021). Insbesondere bedarf es einer Konzeptualisierung, welche langfristigen, gesellschaftlichen Beiträge auf der Impact-Ebene geschaffen werden (Fogg-Rogers et al. 2015; Weitkamp 2015). Andererseits lassen sich methodische Fragen in Bezug auf die empirische Messung von Konstrukten wie etwa Vertrauen in die Wissenschaft erörtern. Ferner ergeben sich empirische Fragen zu den Praktiken und Barrieren der Evaluation von Wissenschaftskommunikation. Dabei ließe sich eine Reihe von Fallstricken erforschen – etwa Overpromising bei der Selbstevaluation, Satisficing bei der Wahl von Evaluationsmethoden, Kennzahlenfixierung bei der Ergebnisinterpretation oder strategische Blindheit bei der Ableitung von Handlungsbedarf (Fischhoff 2019; Volk und Buhmann 2019).