In öffentlichen Debatten über Erkenntnisse der Forschung können Fähigkeiten zum wissenschaftlichen Denken epistemisch fragwürdigen Überzeugungen – wie dem Glauben an pseudowissenschaftliche Erkenntnisse – entgegenwirken (Čavojová et al. 2019). Wenn Erkenntnisse aus unterschiedlichen Fachkontexten – wie beispielsweise zum Klimawandel oder zur Gentechnik – zur Debatte stehen, geht ein ausgeprägteres wissenschaftliches Denken mit individuellen Überzeugungen einher, welche eher wissenschaftlichem Konsens entsprechen (Drummond und Fischhoff 2017). Wissenschaftliches Denken gehört zur naturwissenschaftlichen Grundbildung (scientific literacy; Čavojová et al. 2019), die sowohl Wissen über Konzepte als auch über Prozesse der Wissensgenerierung in den Naturwissenschaften umfasst (Miller 2004). Im Folgenden soll geklärt werden, wie in der Wissenschaftskommunikation wissenschaftliches Denken von Personen mittels Tests erfasst werden kann.

In Tests zum wissenschaftlichen Denken sollen Fähigkeiten von Personen, wissenschaftliche Evidenz hinsichtlich ihrer Qualität einschätzen zu können (z. B. Drummond und Fischhoff 2017), abgebildet werden. In diesem Beitrag wird wissenschaftliches Denken im Sinne der Kognitionspsychologie als latentes Konstrukt aufgefasst (d. h. als nicht direkt beobachtbares Personenmerkmal; vgl. Bruckermann et al. 2021b). Dieses Konstrukt beschreibt das Problemlösen mit Denkweisen der Naturwissenschaften (Mathesius et al. 2019), wie dem Aufstellen von Hypothesen, Planen von Untersuchungen und Auswerten von Daten (Klahr und Dunbar 1988), sowie mithilfe naturwissenschaftlicher Arbeitsweisen, wie dem Beobachten, Experimentieren und Modellieren (Kind und Osborne 2017). Zumeist wird das Konstrukt wissenschaftliches Denken wie folgt getestet: Personen werden in Fragen mit mehreren Antwortoptionen (darunter eine korrekte; engl.: single-choice questions) darum gebeten, eine gültige Hypothese, einen gültigen Untersuchungsplan oder eine gültige Schlussfolgerung in einem Fachkontext auszuwählen (vgl. Opitz et al. 2017, für eine Übersicht). In der evaluativen Wissenschaftskommunikation (d. h., eine Untersuchung, inwieweit die Kommunikationsarbeit erfolgreich war) ist es allerdings aufwendiger und komplexer, das wissenschaftliche Denken mittels Tests zu erfassen, weil die Tests für unterschiedliche Fachkontexte (z. B. Biologie, Chemie, Physik) mit ihren spezifischen Themen entwickelt werden müssen. Für die Testentwicklung fehlen außerdem häufig die dafür nötigen Ressourcen.

Ziel dieses Praxisbeitrags ist es, eine Vorlage für einen Test vorzustellen, der an unterschiedliche Fachkontexte adaptierbar ist. Außerdem wird gezeigt, inwiefern aus diesem Test gültige Schlussfolgerungen über Fähigkeiten zum wissenschaftlichen Denken gezogen werden können. Dazu wird zunächst geklärt, inwiefern Fähigkeiten zum wissenschaftlichen Denken eine Zieldimension der Wissenschaftskommunikation sind, wie diese Fähigkeiten bei Personen erfasst werden können und was bei der Entwicklung von Tests beachtet werden muss, damit aus den Testergebnissen gültige Schlussfolgerungen über Personenfähigkeiten gezogen werden können.

1 Wissenschaftskommunikation zum wissenschaftlichen Denken

Wissenschaftliches Denken zu entwickeln und zu fördern (eine von mehreren Zieldimensionen der Wissenschaftskommunikation) gewinnt zunehmend an Bedeutung, wenn der Erfolg partizipativer Formate in der Wissenschaftskommunikation evaluiert werden soll (National Academies of Sciences, Engineering, and Medicine [NASEM] 2018). Durch den Paradigmenwechsel von Scientific Literacy zu Public Engagement with Science in der Wissenschaftskommunikation rückt nicht nur das Wissen über Wissenschaft, sondern auch die Beteiligung der Öffentlichkeit an Wissenschaft in den Vordergrund (vgl. Metag 2017, für eine Übersicht). Als Beispiel für partizipative Formate können Bürgerwissenschaftsprojekte angeführt werden, in denen sich die Teilnehmenden an der Produktion wissenschaftlichen Wissens beteiligen (Bonney et al. 2009) und darüber hinaus ihr Wissen, ihre Fähigkeiten und Einstellungen weiterentwickeln können (Phillips et al. 2018).

Neben Fähigkeiten zum wissenschaftlichen Arbeiten, wie beispielsweise zum Bestimmen von Tier- und Pflanzenarten (Crall et al. 2011), spielen Fähigkeiten zum wissenschaftlichen Denken eine zentrale Rolle in Bürgerwissenschaftsprojekten (NASEM 2018, Stylinski et al. 2020). Einerseits können Teilnehmende von Fähigkeiten zum wissenschaftlichen Denken profitieren, um sich umfassend an den Projektaktivitäten zu beteiligen (Burgess et al. 2017). Andererseits können diese Fähigkeiten ein Lernziel für Teilnehmende in Projekten sein (Phillips et al. 2018) und sie können auch andere Lernziele positiv beeinflussen (Edwards et al. 2017) – beispielsweise Verhaltensüberzeugungen, die ebenfalls eine Zieldimension der Wissenschaftskommunikation sind (Bruckermann et al. 2021a). Dennoch werden Fähigkeiten zum wissenschaftlichen Denken in Bürgerwissenschaftsprojekten seltener erhoben als beispielsweise Fähigkeiten zum Bestimmen von Tier- und Pflanzenarten (z. B. Crall et al. 2011; Stylinski et al. 2020).

In der evaluativen Wissenschaftskommunikation können für die Erhebung der individuellen Fähigkeiten zum wissenschaftlichen Denken unterschiedliche Verfahren eingesetzt werden, wie beispielsweise Fragebögen, Tests (z. B. Drummond und Fischhoff 2017) oder auch prozessorientierte Verfahren, wie eine direkte Verhaltensbeobachtung, bei der Teilnehmende ihre Fähigkeiten beispielsweise zum Datensammeln einsetzen müssen (z. B. Stylinski et al. 2020). In Bürgerwissenschaftsprojekten werden häufig Fragebögen verwendet, welche eine Selbsteinschätzung der eigenen Fähigkeiten zum wissenschaftlichen Denken erfassen oder Tests, welche die tatsächlichen Fähigkeiten überprüfen (vgl. Stylinski et al. 2020, für eine Übersicht). Wenn Teilnehmende in Fragebögen um eine Selbsteinschätzung ihrer Fähigkeiten auf einer Skala von beispielsweise 1 (sehr gering) bis 7 (sehr hoch) gebeten werden (sog. Selbstberichtsverfahren; siehe auch Wirth und Fleischer in diesem Band), nennt man die gewonnenen Daten auch Selbstberichte. Wenn Teilnehmende ihre Fähigkeiten zum wissenschaftlichen Denken nutzen müssen, um eine Aufgabe korrekt zu lösen, wie beispielsweise in Antwort-Wahlverfahren (z. B. single-choice questions), wird dies als Test bezeichnet. Aus den Ergebnissen eines Tests können – im Gegensatz zu Fragebögen – Schlussfolgerungen über das tatsächliche Wissen oder die Fähigkeiten zum wissenschaftlichen Denken der Teilnehmenden gezogen werden, vorausgesetzt, die Testergebnisse bilden die Fähigkeiten angemessen ab.

2 Gültigkeit von Tests in Bürgerwissenschaftsprojekten

Wenn wissenschaftliches Denken als eine Zieldimension von Wissenschaftskommunikation in die Evaluation des Projekterfolgs einbezogen wird (z. B. in Bürgerwissenschaftsprojekten), dann sollte der eingesetzte Test die Fähigkeiten zum wissenschaftlichen Denken von Teilnehmenden angemessen abbilden. Dazu müssen aus den Testergebnissen gültige Schlussfolgerungen gezogen werden können. Ob die gezogenen Schlussfolgerungen gültig sind, wird anhand des Testgütekriteriums der Validität beurteilt (siehe auch Böhmert und Abacioglu in diesem Band). Für Tests in Bürgerwissenschaftsprojekten sollte daher generell belegt werden, dass aus den Testergebnissen abgeleitete Schlussfolgerungen valide sind. Um die Validität der Schlussfolgerungen festzustellen, sollten zunächst unterschiedliche Aspekte der Validität geprüft und dann Belege aus der Prüfung angeführt werden (American Educational Research Association [AERA] et al. 2014). Dazu werden im Folgenden exemplarisch drei Schritte unterschieden, die von der Theorie zum einsatzbereiten Test führen. Ein erster Schritt ist, das zu evaluierende Konstrukt klar zu definieren. Das heißt, die Merkmale des Konstrukts müssen mit Bezug zu Theorien und Modellen aus bisheriger Forschung beschrieben werden. In einem zweiten Schritt werden bei der Testkonstruktion gewisse Aufgabenmerkmale integriert, welche die aus der Theorie abgeleiteten Merkmale des Konstrukts widerspiegeln sollen. Außerdem sollte im dritten Schritt anhand der Aufgabenmerkmale gezeigt werden, dass die Fragen des Tests Denkprozesse initiieren, die auf das Konstrukt (hier: wissenschaftliches Denken) zurückzuführen sind. Weitere Belege für Validität, die hier nicht vertieft werden, können zum Beispiel durch Vergleiche mit anderen Konstrukten oder zwischen bewusst gewählten Stichproben gewonnen werden (AERA et al. 2014). Die drei beschriebenen Schritte werden im Folgenden auf das wissenschaftliche Denken angewandt und an einem Beispiel aus der Praxis verdeutlicht.

Im ersten Schritt wird das wissenschaftliche Denken als das zu evaluierende Konstrukt definiert. Dazu können in der Theorie mindestens zwei Sichtweisen identifiziert werden (NASEM 2018). Einerseits wird wissenschaftliches Denken als soziokulturelles Konstrukt aufgefasst, da die Prozesse der Wissensgenerierung und die Quellen des Wissens in Abhängigkeit von der jeweiligen Kultur beschrieben werden können. Andererseits wird es aus kognitionspsychologischer Sicht als die Fähigkeit verstanden, Probleme durch ein wissenschaftliches Vorgehen zu lösen, indem aufgestellte Vermutungen mit gewonnenen Belegen in Beziehung gesetzt werden (Mayer 2007). In diesem Problemlöseprozess werden oftmals drei Phasen unterschieden (Klahr und Dunbar 1988), die bestimmte Fähigkeiten erfordern und so wissenschaftliches Denken strukturieren. Den drei Phasen werden drei Teilfähigkeiten im wissenschaftlichen Denken zugeordnet: das Aufstellen von Hypothesen, das Planen von Untersuchungen und das Auswerten von Daten (z. B. Krell 2018). Da sich Tests auf die individuellen Fähigkeiten von Personen, also auf Personenmerkmale beziehen, wird im Folgenden wissenschaftliches Denken als Konstrukt aufgefasst.

Auf die Definition des wissenschaftlichen Denkens als Konstrukt folgt im zweiten Schritt die Aufgabenentwicklung. Die Definition des Konstrukts, das heißt, seine theoretisch bzw. in Modellen angenommene Struktur soll bestimmen, wie die Aufgaben des Tests konstruiert werden. Dazu zeigt die gesichtete Literatur, dass die zum wissenschaftlichen Denken angenommene Struktur unter anderem drei Teilfähigkeiten umfasst sowie weitere Denkprozesse, die sich auf das Erfassen der untersuchten Variablen sowie den Fachkontext beziehen (z. B. Krell 2018). Bei der Testkonstruktion sollte also berücksichtigt werden, welche Denkprozesse zum Lösen der Aufgaben notwendig sind, da Schlussfolgerungen über individuelle Fähigkeiten in Tests auf den Testergebnissen beruhen – im Gegensatz zur direkten Beobachtung in prozessorientierten Verfahren (Shavelson 2013). Aus der angenommenen Struktur bzw. den Denkprozessen werden konkrete Aufgabenmerkmale abgeleitet, die in jeder Aufgabe des Tests enthalten sein sollten. In der hier vorgestellten, adaptierbaren Vorlage für einen Test werden drei Aufgabenmerkmale systematisch in den Test integriert, die das korrekte Lösen der Aufgaben durch wissenschaftliches Denken beeinflussen können, und zwar die durch die Aufgabe adressierte Teilfähigkeit, die Komplexität der in der Aufgabe beschriebenen Untersuchung und der Fachkontext der Untersuchung (Bruckermann et al. 2021b; Vorlage: Bruckermann et al., 2021c).

Tab. 1 Übersicht der Aufgaben 1–18 im Test zum wissenschaftlichen Denken sowie die integrierten Aufgabenmerkmale Teilfähigkeiten, Komplexität und Fachkontext

Tab. 1 verdeutlicht, dass alle Aufgaben im Test zum wissenschaftlichen Denken die drei zuvor genannten Aufgabenmerkmale berücksichtigen. Die Teilfähigkeiten zum wissenschaftlichen Denken sind in der adaptierbaren Vorlage als Aufgabenmerkmal integriert, indem sich die Aufgaben entweder mit dem Hypothesenaufstellen, dem Untersuchungenplanen oder dem Datenauswerten befassen. Ein Beispiel zum Datenauswerten ist die Aufgabe 12, welche in Abb. 1, links dargestellt ist. Die Komplexität einer Untersuchung ist als Aufgabenmerkmal in der Vorlage integriert, indem die Anzahl der unabhängigen Variablen, welche zum wissenschaftlichen Denken berücksichtigt werden müssen, variiert. In den Aufgaben werden drei unabhängige Variablen (A, B, C) unterschieden, von denen entweder nur eine unabhängige Variable (geringe Komplexität) oder zwei unabhängige Variablen variieren (hohe Komplexität; siehe Abb. 1, links). Die unabhängigen Variablen (UV) und die abhängige Variable (AV) können entweder ausgeprägt (+) oder nicht ausgeprägt (−) sein. Darüber hinaus müssen die Fähigkeiten zum wissenschaftlichen Denken in verschiedenen Fachkontexten angewandt werden, sodass die Forschungsthemen in den Aufgaben systematisch variiert wurden (z. B. in der Fledermausökologie, siehe Abb. 1). Im folgenden Abschnitt wird beispielhaft erläutert, wie die Vorlage für drei Forschungsthemen im Rahmen der Evaluierung eines Bürgerwissenschaftsprojekts adaptiert wurde und dann im dritten Schritt belegt, dass die Aufgabenmerkmale tatsächlich die angenommenen Denkprozesse zum wissenschaftlichen Denken widerspiegeln.

Abb. 1
figure 1

Aufgabenbeispiel der adaptierbaren Vorlage bzw. des adaptierten Tests zum wissenschaftlichen Denken (Aufgabe 12). Anmerkung. Vorlage (links) und angepasste Testaufgabe (rechts) für den Fachkontext Fledermausökologie; A, B, C: unabhängige Variablen; AV: abhängige Variable; (+): Variable ausgeprägt; (−): Variable nicht ausgeprägt; farbige Hervorhebungen markieren korrespondierende Variablen aus Vorlage und Testaufgabe

3 Beispiel zur Testentwicklung in einem Bürgerwissenschaftsprojekt

Das vorgestellte Beispiel entstammt einem Forschungsprojekt, das drei Bürgerwissenschaftsprojekte umfasste, und zwar zur städtischen Wildtierökologie, zur städtischen Fledermausökologie und zur städtischen Luftverschmutzung. In allen drei Projekten konnten Teilnehmende in zeitlich begrenzten Feldphasen Daten erheben und auswerten. Obwohl sich die Projekte im Fachkontext ihrer Forschungsthemen unterschieden, verfolgten sie ähnliche Ziele, nämlich das Vorkommen von Tierarten bzw. von Luftverschmutzung im Zusammenhang mit weiteren Umweltvariablen im städtischen Kontext zu dokumentieren. Die kleinräumige Untersuchung des Vorkommens erfolgte im eigenen Garten oder auf abgesteckten Routen in Stadtteilen.

Nach einem Einführungsworkshop zum Forschungsvorhaben erhoben die Teilnehmenden während der Feldphasen Daten, indem sie eine Kamerafalle im Garten aufstellten (Bruckermann et al. 2021a), auf festgelegten Routen mittels Batlogger Fledermausrufe aufnahmen (Greving et al. 2022) oder auf individuellen Routen mittels Messrucksack Daten zur Luftverschmutzung erfassten (Tõnisson et al. 2021). Während der Feldphasen stand den Teilnehmenden eine Internetplattform zur Verfügung, die nicht nur Informationen zur Thematik, sondern auch ein Tutorial zur Bestimmung der erfassten Tierarten, Hilfsmittel zur Auswertung der erhobenen Daten im Zusammenhang mit weiteren Umweltvariablen sowie ein Forum zum persönlichen Austausch umfasste (siehe auch Bruckermann und Greving in diesem Band).

Durch den Test zum wissenschaftlichen Denken sollten die Forschungsfragen geklärt werden, inwiefern sich bei den Teilnehmenden die Fähigkeiten zum wissenschaftlichen Denken durch die Teilnahme an Bürgerwissenschaftsprojekten entwickeln und ob solche Fähigkeiten eher einen positiven Einfluss auf das Fachwissen über Ökologie oder Einstellungen zur Wissenschaft am Projektende haben (z. B. Bruckermann et al. 2021a). Um diese Forschungsfragen zu beantworten, wurde ein Test benötigt, der wissenschaftliches Denken in allen drei Fachkontexten der Bürgerwissenschaftsprojekte abbilden kann.

4 Adaptierung eines Tests zum wissenschaftlichen Denken

Der auf Grundlage einer bestehenden Vorlage (Bruckermann et al. 2021b; Krell 2018) adaptierte Test umfasste Forschungsthemen aus drei Fachkontexten (Wildtierökologie, Fledermausökologie und Luftverschmutzung), drei Teilfähigkeiten des wissenschaftlichen Denkens (Hypothesen aufstellen, Untersuchungen planen, Daten auswerten) und zwei Komplexitätsstufen (eine unabhängige Variable und zwei unabhängige Variablen). Da der Test für drei Fachkontexte mit jeweils drei Teilfähigkeiten und zwei Komplexitätsstufen adaptiert werden musste, ergaben sich insgesamt 3 × 3 × 2 = 18 Aufgaben (siehe Tab. 1). Um den Test anhand der Vorlage zu adaptieren und im jeweiligen Fachkontext einzubetten, wurden erstens Forschungsvorhaben im Fachkontext zu den jeweiligen Themen identifiziert (z. B. Wirkung von nächtlichem Kunstlicht und Baumbewuchs auf Fledermäuse: Straka et al. 2019). Zweitens wurden die Angaben der Forschungsvorhaben zu den unabhängigen und abhängigen Variablen, Hypothesen, dem Untersuchungsplan und den Schlussfolgerungen aus den Daten entnommen. Drittens wurden Angaben der ausgewählten Forschungsvorhaben zur Gestaltung der Testaufgaben für eine der drei Teilfähigkeiten (d. h. Hypothesen aufstellen, Untersuchungen planen und Daten auswerten) sowie eine der zwei Komplexitätsstufen der Untersuchungen übernommen (d. h. eine oder zwei unabhängige Variablen variieren). Die Anpassung des Tests anhand der Vorlage wird beispielhaft für die Aufgabe 12 vorgestellt (vollständiger Test: Bruckermann et al. 2021c).

In dem für die vorgestellten Bürgerwissenschaftsprojekte adaptierten Test betraf Aufgabe 12 die Teilfähigkeit der Datenauswertung, die Anzahl der unabhängigen Variablen war zwei (d. h. hohe Komplexität der Untersuchung), und der Fachkontext war die Fledermausökologie (vgl. Abb. 1, rechts). Im Aufgabenstamm wird den Teilnehmenden zunächst der Untersuchungsplan für das untersuchte Phänomen (hier: das Vorkommen von Fledermäusen und deren Aktivität als abhängige Variable) vorgestellt. Für jede variierte, unabhängige Variable (hier: Anzahl von Straßenlaternen, Baumbestand) wird beschrieben, ob sie in den vier Ansätzen (hier: Transekte = festgelegte Wegstrecken) ausgeprägt (+) oder nicht ausgeprägt (−) war. Im Beispiel der Aufgabe 12 lagen die vier Transekte in dicht bebautem Gebiet mit hoher (+) oder niedriger (−) Anzahl von Straßenlaternen sowie dichtem (+) oder weniger dichtem (−) Baumbestand (vgl. Abb. 1, rechts). Anschließend wurde die von den Wissenschaftler:innen gemachte Beobachtung, dass Zwergfledermäuse (Pipistrellus pipistrellus) auf dem Transekt 1 aktiver waren als auf den übrigen Transekten, dargestellt. In einer Abbildung wurden die vier Ansätze nochmals zusammengefasst. Die Aufgabe forderte die Teilnehmenden zur Entscheidung auf, welche Schlussfolgerung aus dieser Beobachtung gezogen werden kann. In den Antwortoptionen wurden vier mögliche Schlussfolgerungen vorgegeben. Die Schlussfolgerungen zu der Beobachtung basierten auf verschiedenen Kombinationen der unabhängigen Variablen. Nur eine Kombination der unabhängigen Variablen in den Antwortoptionen beschreibt eine zulässige Schlussfolgerung. Die Teilnehmenden sollten diese Kombination identifizieren und die entsprechende Antwortoption ankreuzen.

5 Überprüfung des Tests im Feld

Das Ziel der hier beschriebenen Überprüfung des Tests im Feld war, ob aus den Testergebnissen des adaptierten Tests gültige Schlussfolgerungen auf die Fähigkeiten der Teilnehmenden zum wissenschaftlichen Denken gezogen werden können. Um die Gültigkeit der Schlussfolgerungen zu belegen, wurde überprüft ob die in der Konstruktion berücksichtigten Aufgabenmerkmale beeinflussen, wie schwer die Aufgaben zu lösen sind. Dabei sollte ein ausreichend großer Teil der Schwierigkeit des gesamten Tests auf die Aufgabenschwierigkeit der kombinierten Aufgabenmerkmale zurückzuführen sein (z. B. R2 > 25 %; Hartig und Frey 2012). Die Überprüfung im Feld erfolgte mit einer Stichprobe von 374 Teilnehmenden des Bürgerwissenschaftsprojekts Wildtierforscher in Berlin (Wildtierökologie), die im Mittel ca. 53 Jahre alt waren und überwiegend höhere Bildungsabschlüsse hatten. Die Teilnehmenden füllten alle 18 Aufgaben des Tests vor ihrer Projektteilnahme aus, um eine Verzerrung der Testergebnisse durch Lerneffekte während des Projekts zu vermeiden (Bruckermann et al. 2021b).

Die Daten der Teilnehmenden aus dem Test wurden mittels zweier Verfahren der Item-Response-Theory analysiert (siehe auch Wirth und Fleischer in diesem Band). Wie die Verfahren für die im Folgenden beschriebenen Analyse angewandt wurden, sollte nachgelesen werden (z. B. Bruckermann et al. 2021b), weil die Verfahren eine gewisse methodische Expertise erfordern. Das erste Verfahren beschreibt einen Personenfähigkeitsparameter (θs; Ausprägung des Personenmerkmals) sowie einen Aufgabenschwierigkeitsparameter (βi; Schwierigkeit einer Aufgabe) durch ein Modell, das wissenschaftliches Denken holistisch als eindimensionales Konstrukt betrachtet (sogenanntes Einparametrisch-Logistisches Modell: 1PLM; vgl. Krell 2018). Dieses Modell wies eine ausreichende Passung zu den Daten auf und zeigte, dass sowohl die Aufgabenschwierigkeiten hinreichend unterschiedlich waren und mit den Aufgaben auch die Teilnehmenden im Hinblick auf ihre Fähigkeiten unterschieden werden konnten (Bruckermann et al. 2021b). Um prüfen zu können, ob die in der Vorlage angenommenen und im Test adaptierten Aufgabenmerkmale zur Schwierigkeit der Aufgaben beitragen, wurden die Daten mit einem weiteren Verfahren im Rahmen der Item-Response-Theory analysiert. In diesem Verfahren wird ein Modell angelegt, in dem der Aufgabenschwierigkeitsparameter (β′i) aus einer Kombination der den Aufgabenmerkmalen zugeordneten Schwierigkeitsparametern (αk) gebildet wird (sogenanntes Linear Logistisches Test-Modell: LLTM: vgl. Krell 2018). Die Schwierigkeitsparameter der Aufgabenmerkmale (αk) waren alle von null verschieden, das heißt, sie trugen signifikant zur Aufgabenschwierigkeit (β′i) bei. Beispielsweise waren Testaufgaben zum Datenauswerten (Aufgabenmerkmal Teilfähigkeit) deutlich schwieriger als Aufgaben zur Untersuchungsplanung und auch die Fachkontexte unterschieden sich in der Schwierigkeit (Aufgabenmerkmal Fachkontext). Die Aufgabenschwierigkeitsparameter des ersten Modells (βi) und des zweiten Modells (β′i) korrelierten stark positiv miteinander.

Zusammengefasst belegen die Analysen, dass die Teilfähigkeiten, die Komplexität der Untersuchung und die Fachkontexte als Aufgabenmerkmale wie angenommen die Schwierigkeit des Tests zum wissenschaftlichen Denken beeinflussen. Bei der Adaptierung des Tests für andere Fachkontexten in der evaluativen Wissenschaftskommunikation sollten diese Merkmale berücksichtigt werden, um gültige Schlussfolgerungen über die Fähigkeiten von Teilnehmenden zum wissenschaftlichen Denken ziehen zu können.

6 Fazit und Ausblick

In der evaluativen Wissenschaftskommunikationsforschung sollte sichergestellt werden, dass die aus Testergebnissen gewonnenen Schlussfolgerungen über Personenmerkmale wie Wissen und eben auch Fähigkeiten – beispielsweise zum wissenschaftlichen Denken – gültig sind. Die Gültigkeit sollte im Feld für die jeweilige Stichprobe überprüft werden. Die Testentwicklung bzw. -adaptierung sollte auf etablierte Theorien und Modelle zu dem jeweiligen Konstrukt gestützt werden und möglichst auf bereits etablierte Tests zurückgreifen (z. B. Drummond und Fischhoff 2017), die im besten Fall eine Vorlage zur Adaptierung, wie hier eines Tests zum wissenschaftlichen Denken bieten (Bruckermann et al. 2021b). Wenn kein Test zur Verfügung steht, weil beispielsweise themenspezifisches Fachwissen erhoben werden soll (vgl. Bruckermann et al. 2022), dann sollten theoretisch angenommene Aufgabenmerkmale die Testkonstruktion leiten.

Die sorgfältige Entwicklung eines Tests setzt voraus, dass das zu erfassende Personenmerkmal bekannt und klar definiert ist. Häufig können aber in der Evaluation partizipativer Formate wie beispielsweise in Bürgerwissenschaftsprojekten nicht alle zu erfassenden Konstrukte antizipiert werden, da es sich um informelles und nicht-geplantes Lernen handelt, oder die Anzahl der Konstrukte ist so umfangreich, dass die Erfassung zeitlich aufwendig ist (Phillips et al. 2018). Um den mit Tests verbundenen Zeitaufwand für Teilnehmende zu vermeiden und einen größeren Umfang an Konstrukten abzudecken, wird oftmals auf Fragebögen zurückgegriffen, die allerdings nur selbstberichtete Einschätzungen zu den Konstrukten enthalten (z. B. Peter et al. 2021). Im Gegensatz zu Fragebögen können aus den Ergebnissen sorgfältig entwickelter Tests gültige Schlussfolgerungen über das tatsächliche Wissen oder die Fähigkeiten der Teilnehmenden gezogen werden (siehe auch Wirth und Fleischer in diesem Band). Gültige Schlussfolgerungen sind insbesondere dann möglich, wenn schon bei der Testkonstruktion die Aufgaben derart gestaltet werden, dass sie das erfasste Konstrukt widerspiegeln, und außerdem nachgewiesen werden kann, dass diese Aufgabenmerkmale die Schwierigkeit des Tests wie angenommen beeinflussen.

Beim Einsatz bereits publizierter Tests sollte beachtet werden, dass die Gültigkeit von Schlussfolgerungen aus den Testergebnissen stets in einer bestimmten Stichprobe nachgewiesen wurde, wie hier bei Bürgerwissenschaftler:innen mit einem höheren Bildungsgrad. Publizierte Tests sollten also in Stichproben eingesetzt werden, in denen die Befragten ähnliche Personenmerkmale aufweisen, und die Gültigkeit von Schlussfolgerungen aus den Testergebnissen sollte bestenfalls erneut geprüft werden. Dazu kann zunächst eine Pilotstudie mit kleinerer Stichprobe durchgeführt werden, die aber eine ähnliche Personengruppe wie die später befragte umfasst. Außerdem sollten publizierte Tests nur dann verändert werden, indem beispielsweise Aufgaben umformuliert oder ausgelassen werden, wenn die Veränderung begründet werden kann. Außerdem kann auf adaptierbare Vorlagen zurückgegriffen werden, welche die Anpassung des Tests für die Stichprobe vorsehen. Nach der Veränderung oder Anpassung eines Tests sollte die Gültigkeit ebenfalls überprüft werden.

Tests sollten zu mindestens zwei Zeitpunkten eingesetzt werden, um in längsschnittlichen Studien Rückschlüsse auf die Entwicklung von Wissen oder Fähigkeiten ziehen zu können (siehe auch Böhmert und Abacioglu in diesem Band). So konnte eine längsschnittliche Studie in einem Bürgerwissenschaftsprojekt zeigen, dass Fähigkeiten der Teilnehmenden zum wissenschaftlichen Denken einen positiven Einfluss auf ihre Verhaltensüberzeugungen haben (Bruckermann et al. 2021a). Dazu wurden die Ergebnisse eines Tests zum wissenschaftlichen Denken und die Daten eines Fragebogens zu Verhaltensüberzeugungen aus Befragungen vor und nach einem Bürgerwissenschaftsprojekts auf Zusammenhänge untersucht. Des Weiteren sind Tests in Experimenten notwendig um Veränderungen in bestimmten Konstrukten wie beispielsweise Wissen auf die untersuchten Faktoren zurückführen zu können (siehe auch Stadtler und Schuster in diesem Band).