Die Literaturschau zum aktuellen Stand der Forschung hinsichtlich Relevanz und Relevanzkriterien zeigte, dass bisher keine Studien zur Erforschung von Relevanzkriterien veröffentlicht wurden, in denen Teilnehmende Suchergebnisse (Surrogate) mit integrierten Popularitätsdaten bewerteten. Neue Erkenntnisse der Relevanzforschung und im weiteren Sinne der Informationsverhaltensforschung sollten auf Untersuchungen beruhen, in denen Eigenschaften gegenwärtig existierender Suchsysteme mitberücksichtigt werden. Moderne akademische Suchsysteme wie Google Scholar oder die ACM Digital Library integrieren beispielsweise die Anzahl von Downloads oder die Anzahl der Zitationen eines Werkes.

Des Weiteren wurden in den bisherigen Studien hauptsächlich explorative Designs verwendet, um Kenntnisse über Relevanzkriterien zu erhalten. Um aussagekräftige Erkenntnisse über direkte Zusammenhänge zwischen den Elementen von Suchergebnissen als Träger von Relevanzmerkmalen und den Kriterien, anhand derer Nutzerinnen und Nutzer die Relevanz von Suchergebnissen beurteilen, zu erlangen, sind experimentelle Untersuchungen, wie sie in empirischen Studien anderer (sozialwissenschaftlicher) Fachdisziplinen zur Erforschung von Verhalten und Einstellungen von Menschen durchgeführt werden, besser geeignet (vgl. Abschnitt 2.2.4).

Der Zweck der in diesem Kapitel vorgestellten Studie ist es, den Einfluss von Popularitätsdaten als explizitem Bestandteil von Suchergebnissen in akademischen Suchsystemen auf die Relevanzbewertung experimentell zu untersuchen. Hinsichtlich ihrer Methode beantwortet die Studie die Forschungsfrage F1 und bezüglich des Untersuchungsgegenstands – Suchergebnissen mit integrierten Popularitätsdaten im akademischen Kontext – dienen die Ergebnisse der Beantwortung der Forschungsfragen F2 und F3 (vgl. Abschnitt 2.3): Mithilfe eines Online-Fragebogens bewerteten Versuchspersonen Surrogate mit manipulierten Popularitätsdaten (Zitations- und Downloadzahlen) in Bezug auf ein Informationsbedürfnis, wobei Aufbau und Ablauf der Befragung einem experimentellen Versuchsplan folgten.

Ein Vorteil des Online-Experiments im Vergleich zu einem Laborexperiment liegt in der Realisierung eines wesentlich größeren Stichprobenumfangs, als in einem Laborexperiment in der Regel erzielt werden kann. Dies ist im Rahmen der hier vorgestellten Studie erreicht worden. So konnten für die vollständige Bearbeitung des Online-Fragebogens mehr als 700 Teilnehmende gewonnen werden, wobei die Daten von 627 Personen in die statistische Analyse eingingen. Diesbezüglich hebt sich diese Studie von den früheren Studien zu Relevanzkriterien deutlich ab.

Dieses Kapitel beginnt mit der Erläuterung der Methoden hinsichtlich des experimentellen Untersuchungsdesigns (Abschnitt 4.1), gefolgt von der Datenerhebung (Abschnitt 4.2) und der Datenanalyse (Abschnitt 4.3). Im Anschluss werden die Ergebnisse präsentiert (Abschnitt 4.4) und diskutiert (Abschnitt 4.5) sowie die Grenzen der Studie erläutert (Abschnitt 4.6).

Die in Abschnitt 2.3 gestellte Forschungsfrage F1 gibt bereits die Art des Untersuchungsdesigns vor, indem sie nach der Realisierbarkeit von Experimenten zur Erforschung von Relevanzkriterien fragt. Von der Art des Designs handelt es sich demnach bei der hier vorgestellten Studie um ein Experiment, bezüglich der Art der Datenerhebung um eine Befragung. Da die Befragung mithilfe eines Online-Fragebogens erfolgte, wird diese Studie auch als Online-Experiment bezeichnet. Für ein besseres Verständnis zur methodischen Verortung der Studie gibt Tabelle 4.1 einen schematischen Überblick über die Klassifikationskriterien sozialwissenschaftlicher Studiendesigns von Döring & Bortz (2016, S. 183) und ordnet die vorliegende Studie entsprechend ein. Konkret stellt sie demnach eine originale, experimentelle Stichprobenstudie ohne Messwiederholungen dar, deren Primärdaten im FeldFootnote 1 erhoben wurden.

Aufbauend auf den Erläuterungen zu experimentellen Studiendesigns in Abschnitt 2.2.4 wird in Abschnitt 4.1 die Entwicklung des Untersuchungsdesigns detailliert erläutert. Dabei wird zunächst auf die Auswahl und Operationalisierung der manipulierten unabhängigen Variablen (Abschnitt 4.1.1), der gemessenen abhängigen Variable (Abschnitt 4.1.2) und die Hypothesenentwicklung (Abschnitt 4.1.3) eingegangen. Anschließend werden weitere, möglicherweise als Ursache für die gemessenen Werte infrage kommenden Variablen, und der Umgang mit diesen potenziellen Störvariablen beschrieben (Abschnitt 4.1.4). Der Ablauf der Untersuchung erfolgte anhand eines Within-Subjects-Designs, in dem alle Versuchspersonen allen experimentellen Bedingungen ausgesetzt waren. Jede Person bearbeitete in jeweils randomisierter Reihenfolge dieselben Aufgaben vollständig (Abschnitt 4.1.5).

Abschnitt 4.2 beschreibt, wie die Daten mithilfe eines Online-Fragebogens erhoben wurden. Die Versuchspersonen bearbeiteten jeweils drei Aufgaben. Jede Aufgabe bestand in der Bewertung von neun Suchergebnissen zu einem vorgegebenen Informationsbedürfnis. Insgesamt wurden für das Experiment drei Aufgaben zur Relevanzbewertung entwickelt. Die Entwicklung der drei Informationsbedürfnisse (Abschnitt 4.2.1) sowie die Auswahl und Erstellung der insgesamt 27 Surrogate (Abschnitt 4.2.2) basierte auf einer Vielzahl von Entscheidungen, auf deren Begründungen ausführlich eingegangen wird. Neben den drei Bewertungsaufgaben erfasste der Fragebogen zusätzlich demografische Angaben der Teilnehmenden und Angaben zu Kenntnissen und der Nutzung wissenschaftlicher Suchsysteme; ebenso wurden eine Selbsteinschätzung über verwendete Bewertungskriterien und ein Meinungsbild über den Einfluss der untersuchten Popularitätsdaten im Anschluss an die Bewertungen erfasst. Aufgrund des Ziels dieser Arbeit, ein nachnutzbares methodisches Framework zu liefern, wird auch der Erläuterung der einzelnen Schritte der Fragebogenentwicklung besondere Aufmerksamkeit zuteil (Abschnitt 4.2.3). Die für eine valide Ergebnisse erzielende Erhebung erforderliche Anzahl an Versuchspersonen von n = 577 wurde vor Studienbeginn mit dem Statistik-Tool G*Power berechnet. Die dafür notwendigen Parameter und Einstellungen werden in Abschnitt 4.2.4 vorgestellt. Schließlich wird in Abschnitt 4.2.5 das Vorgehen bei der Gewinnung von Versuchspersonen erläutert.

Der darauffolgende Abschnitt 4.3 beschreibt die Datenanalyse von der Aufbereitung der erhobenen Rohdaten über die Auswahl des statistischen Verfahrens bis zur Erstellung des statistischen Modells mit der Software SPSS (Version 25).

Tabelle 4.1 Einordnung der Studie anhand der neun Klassifikationskriterien für Untersuchungsdesigns nach Döring & Bortz (2016, S. 183)

Ein notwendiger Schritt in der Entwicklung einer empirischen Studie ist die Durchführung eines Pretests, mit dem der gesamte Versuchsablauf vorab mit einer kleineren Stichprobe getestet wird, um methodische Entscheidungen zu evaluieren und bei Bedarf zu optimieren (Döring & Bortz, 2016, S. 22 ff.). Dem für die hier beschriebene Studie durchgeführten Pretest wird für einen besseren Lesefluss kein eigener Abschnitt gewidmet, stattdessen fließen die Erkenntnisse aus dem Pretest in die jeweiligen Abschnitte ein.

Vorrangiges Ziel des Pretests war es, die Bearbeitungsdauer zu messen und die Verständlichkeit der Aufgabenstellungen zu überprüfen. Die Daten für den Pretest wurden vom 22. bis 31. März 2019 erhoben; Einladungen zur Teilnahme wurden per E-Mail an alle Wissenschaftlichen Mitarbeiterinnen und Mitarbeiter der HAW Hamburg versendet mit dem Hinweis, dass es sich um einen Pretest handelt und Feedback mithilfe der Kommentarfunktion des Online-Fragebogens ausdrücklich erwünscht ist. Die Anbindung der Autorin an die HAW Hamburg begründete die Erwartung, dass andere Promovierende sich solidarisch zeigen und darüber hinaus die Vergabe eines Amazon-Gutscheins im Wert von 20 EUR für jeden abschließend bearbeiteten Fragebogen einen finanziellen Anreiz zur Teilnahme bieten würde.

Die E-Mail-Adressen wurden über das hochschulinterne Mitarbeiterverzeichnis für jede Fakultät ermitteltFootnote 2. Insgesamt wurden auf diese Weise 156 potenzielle Versuchspersonen erreicht, von denen 24 teilnahmen und schließlich 10 den Fragebogen tatsächlich beendeten, während 14 Teilnehmende vorzeitig abbrachen. Die Rücklaufquote der potenziellen Teilnehmenden lag somit bei 15,38 %, die Beendigungsquote bei 6,41 %. Die ausgewerteten Rückmeldungen der Teilnehmenden beschränkten sich dabei nicht auf diejenigen, die den Fragebogen bis zum Ende bearbeiteten; insbesondere lag das Interesse bei dem Feedback derjenigen, die die Bearbeitung abbrachen und zusätzlich in den Informationen über Abbruchseite und Bearbeitungsdauer. Die Erkenntnisse aus dem Pretest führten zu einer Anpassung des experimentellen Designs (vgl. Abschnitt 4.1.1) und damit einhergehend der Erstellung der Informationsbedürfnisse und Surrogate (Abschnitt 4.2.1 und Abschnitt 4.2.2) sowie des Fragebogenaufbaus (Abschnitt 4.2.3).

4.1 Entwicklung des experimentellen Untersuchungsdesigns

Die Grundidee dieser Studie besteht darin, Versuchspersonen eine Reihe von Suchergebnissen vorzulegen und diese in Bezug auf ein vorgegebenes Informationsbedürfnis einzeln bewerten zu lassen. Die Suchergebnisse stellen das manipulierte Stimulusmaterial dar, welches die als unabhängige Variablen (UVn) manipulierten Popularitätsdaten enthält, um deren Effekt auf die Relevanzbewertungen, also die abhängige Variable (AV), zu messen. Methodisch folgt die Studie dem klassischen Ansatz bei Retrieval-Evaluierungen, bei dem den Studienteilnehmenden Suchaufgaben (Tasks) mit Kontextbeschreibungen (Beschreibungen von Informationsbedürfnissen) und Suchergebnissen in einer manipulierten Reihenfolge zur expliziten Relevanzbewertung vorgelegt werden, um anschließend relevanzbasierte Evaluierungskennzahlen zu berechnen und beispielsweise die verschiedenen Rankingalgorithmen miteinander zu vergleichen.

Zur Veranschaulichung der Wirkungsweise experimenteller Designs sollen derartige Retrieval-Studien als Beispiel dienen: Es wird vermutet, dass das Ranking diejenige unabhängige Variable (UV) ist, die eine beobachtbare Wirkung auf die Relevanzbewertung, also die abhängige Variable (AV), erzielt. Die Wirkung läge in einer höheren oder niedrigeren Relevanzbewertung einer festgelegten Anzahl von Dokumenten auf ausgewählten Positionen bzw. in einer höheren oder niedrigeren Kennzahl zur Feststellung der Retrieval-Effektivität. Die UV hat zwei verschiedene Ausprägungen, auch Stufen, die manipuliert sind: Ranking A und Ranking B. Diese stellen die zwei Bedingungen dar, denen die Probanden ausgesetzt sind. Dabei handelt es sich entweder um zwei Experimentalbedingungen oder um eine Kontrollbedingung (Baseline) und eine Experimentalbedingung. Nun können entweder die Probanden in zwei Gruppen aufgeteilt werden und nur jeweils die Aufgaben in einer der beiden Gruppen bearbeiten, also nur einer der beiden Bedingungen ausgesetzt sein; oder alle Probanden bearbeiten alle Aufgaben beider Gruppen und sind somit beiden Bedingungen ausgesetzt (Sedlmeier & Renkewitz, 2018, S. 154). In der erstgenannten Variante liegt ein Between-Subjects-Design vor: Die Stufen der UV werden zwischen den Probandengruppen variiert. In der letztgenannten Variante erfolgt die Erhebung anhand eines Within-Subjects-Designs: Jede/r Proband/in durchläuft beide Bedingungen bzw. Stufen der UV und bearbeitet alle Aufgaben beider Gruppen, d. h. die UV wird innerhalb der Probanden variiert (Sedlmeier & Renkewitz, 2018, S. 139).

Für das hier vorgestellte Online-Experiment wurde ein Within-Subjects-Design entwickelt. Ein solches Design ist bereits allein aufgrund des vorliegenden Untersuchungsgegenstands sinnvoll, da „subjektive Urteile über Merkmale von Stimuli“ (Sedlmeier & Renkewitz, 2018, S. 157) untersucht werden, und „[s]olche Urteile über einen Stimulus hängen häufig von dem Kontext ab, in dem er dargeboten wird“ (Sedlmeier & Renkewitz, 2018, S. 157). Kontextabhängigkeit ist eine zentrale Komponente im informationswissenschaftlichen Relevanzkonzept (vgl. Abschnitt 3.1), zum Beispiel in Hinblick auf die Situation, in der sich die informationssuchende Person zum Zeitpunkt der Interaktion mit dem Suchsystem befindet, den Wissensstand der Person oder die konkrete Suchergebnisliste als Kontext eines einzelnen SuchergebnissesFootnote 3. Demnach ist die Kontextabhängigkeit auch bei dem Prozess der Relevanzbewertung zu berücksichtigen; zudem ist der Prozess der Relevanzbewertung ein subjektives Urteilen (vgl. Abschnitt 3.1.3). Allein vor diesem Hintergrund stellt ein Within-Subjects-Design für diese Studie die richtige Wahl dar.

Hinzu kommen jedoch generelle Vorteile eines Within-Subjects-Designs gegenüber einem Between-Subjects-Design. So lassen sich auch kleine Effekte einer UV aufdecken (Sedlmeier & Renkewitz, 2018, S. 159), weil je Versuchsperson die Differenzen zwischen den einzelnen Bedingungen berechnet und dadurch Unterschiede pro Person von der Fehlervarianz getrennt werden können. Within-Subjects-Designs sind demnach sensitiver als Between-Subjects-Designs. In letzteren können aufgrund der Zuweisung der Teilnehmenden zu ausschließlich einer Bedingung keine Differenzen innerhalb einer Versuchsperson ermittelt werden (Sedlmeier & Renkewitz, 2018, S. 154).

Ein weiterer Vorteil gegenüber Between-Subjects-Designs liegt darin, dass alle personengebundenen Störvariablen (z. B. Alter, Einkommen, Motivation) parallelisiert sind, da jede Versuchsperson alle Bedingungen durchläuft. Somit ist eine mögliche Konfundierung dieser Störvariablen ausgeschlossen und weitere Kontrollmaßnahmen (vgl. Abschnitt 4.1.4) sind diesbezüglich nicht erforderlich (Sedlmeier & Renkewitz, 2018, S. 157).

Schließlich sind Within-Subjects-Designs auch aus forschungsökonomischen Gründen empfehlenswert, da sie eine geringere Anzahl an Versuchspersonen erfordern (Sedlmeier & Renkewitz, 2018, S. 157), wobei diese einen größeren Zeitaufwand aufbringen müssen als es mit einem Between-Subjects-Design der Fall wäre. Im oben genannten Beispiel gibt es zwei Gruppen, auf die in einem Between-Subjects-Design die Versuchspersonen verteilt werden, d. h. es werden zwei Teilstichproben miteinander verglichen. Wenn bereits eine weitere UV mit zwei Ausprägungen in das Design aufgenommen wird, handelt es sich um ein 2 × 2-DesignFootnote 4 mit 4 experimentellen Bedingungen, sodass insgesamt vier Teilstichproben miteinander verglichen werden. Angenommen, pro Bedingung sollen die Daten von 50 Versuchspersonen erhoben werden, verlangt in diesem Fall ein Between-Subjects-Design insgesamt 200 Versuchspersonen, ein Within-Subjects-Design hingegen 50 Personen. In der hier vorgestellten Studie wäre ein Between-Subjects-Design in Hinblick auf die optimale Stichprobengröße sehr schwierig umzusetzen, da mit 27 experimentellen Bedingungen aus drei unabhängigen Variablen in jeweils drei Ausprägungen eine relativ große Zahl an Teilstichproben existiert.

Die Anzahl und Merkmale der für das hier beschriebene Design manipulierten und gemessenen Variablen, deren Skalenniveaus, die Hypothesenbildung sowie der Umgang mit Störvariablen (Drittvariablen) und die Planung des Versuchsaufbaus werden in den nachfolgenden Abschnitten erläutert.

4.1.1 Unabhängige Variablen

Wie im Rahmen der Identifikation der Einflüsse im Prozess der Relevanzbewertung dargelegt, verwenden informationssuchende Personen mehrere verschiedene Kriterien bei der Relevanzbewertung von Suchergebnissen (vgl. Abschnitt 3.2). Konkret ist davon auszugehen, dass auch verschiedene Arten von Popularitätsdaten als operationalisierte Popularitätskriterien einen ursächlichen Effekt auf die Relevanzbewertung von Surrogaten in wissenschaftlichen Suchsystemen erzielen (vgl. Abschnitt 4.1.3). Demzufolge sollten mindestens zwei Faktoren als mögliche Einflüsse untersucht werden. Für dieses Experiment wurden drei UVn ausgewählt. Das experimentelle Design ist somit ein dreifaktorielles Within-Subjects-Design.

In dem Modell zur subjektiven Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen (vgl. Abschnitt 3.2) stellen Zitier- und Nutzungshäufigkeiten die Popularitätskriterien dar, die exemplarisch als Anzahl von Zitationen eines Werkes oder eines Autors bzw. als die Anzahl der Downloads eines Werkes oder die Zahl der Ausleihen im Bibliothekskontext operationalisiert sind. Ausgehend von diesen Popularitätsdaten wurden jene Merkmale als mögliche unabhängige Variablen in Betracht gezogen, die gegenwärtig in akademischen Suchsystemen integriert sind und zudem in Hinblick auf die Umsetzung des Designs eine möglichst homogene Art von Suchergebnissen zu erstellen erlauben, wie im Folgenden näher erläutert.

Im Gegensatz zu Zitationszahlen beziehen sich Downloadzahlen ausschließlich auf Dokumente in digitaler Form, während Ausleihzahlen im Bibliothekskontext sowohl von gedruckten Materialien als auch von E-Books ermittelt werden können. Allerdings ist eine direkte Vergleichbarkeit von Ausleihdaten mit Downloadzahlen aufgrund möglicher Verzerrungen nicht realisierbar, ohne die Daten mithilfe statistischer Verfahren, wie sie in der Bibliometrie verwendet werden, vorab zu normalisieren – eine Anforderung, die auch Zitationskennzahlen betrifft (Plassmeier et al., 2015).

Da den Kontext dieser Studie moderne akademische Suchsysteme (z. B. Google Scholar, ACM Digital Library) mit in die Suchergebnisdarstellung integrierten Popularitätsdaten wie die Zitations- und Downloadhäufigkeit eines Werkes bilden, wurden bibliothekarische Suchsysteme nicht berücksichtigt (vgl. Abschnitt 2.1.4). Vor diesem Hintergrund fiel die Entscheidung gegen die Untersuchung von Ausleihzahlen als unabhängige Variable und für die Beschränkung auf Downloadzahlen als Indikator für Nutzungshäufigkeit. Um eine weitgehend realistische Vergleichbarkeit von Zitationszahlen zu ermöglichen, wurden ausschließlich Werke aus Zeitschriftenaufsätzen als Surrogate erstellt (zur Problematik der Vergleichbarkeit der Surrogate vgl. Abschnitt 4.2.2).

Als unabhängige Variablen wurden schließlich die Anzahl der Downloads eines Werkes (UV 1), die Anzahl der Zitationen des Werkes (UV 2) und die Anzahl der Zitationen des Autors (UV 3) festgelegt. Diese wurden jeweils auf den Stufen geringhoch – keine Angabe manipuliert, d. h. die Kennzahl ist entweder gering oder hoch oder die Information (das Metadatum) ist nicht vorhanden (siehe Tabelle 4.2). Die UVn decken somit Indikatoren für Nutzungs- und Zitierhäufigkeiten ab und beziehen sich auf Kennzahlen, die sowohl das Werk als auch den Autor betreffen. Mit den drei UVn und jeweils drei Ausprägungen erhält das Design insgesamt 27 experimentelle Bedingungen, in denen alle möglichen Kombinationen aller UV-Stufen abgedeckt sind.

Tabelle 4.2 Anzahl und Stufen der unabhängigen Variablen

Ein früheres Design sah als vierte UV den Impact eines Autors (z. B. h-Index) vor, die ebenfalls auf den Stufen geringer Impacthoher Impactkeine Angabe manipuliert werden sollte. Der Pretest ergab jedoch, dass die aus den 81 resultierenden experimentellen Bedingungen und damit neun zu bearbeitenden Aufgaben mit jeweils neun zu bewertenden Surrogaten einen zeitlich unzumutbaren Bearbeitungsaufwand erfordert. Um die Bearbeitungsdauer von durchschnittlich 39 Minuten wesentlich zu verringen, wurde das Design auf drei UVn reduziert, wodurch anstelle der neun Aufgaben nur noch drei zu bearbeiten waren – eine Anzahl, die zufolge der Pretest-Erkenntnisse in Hinblick auf die Fragebogenseite mit den meisten Abbrüchen (bei Aufgabe 4)Footnote 5 die Motivation der Versuchspersonen scheinbar weitgehend ausschöpft.

Auf die Untersuchung eines möglichen Effekts des Autor-Impacts auf die AV wurde aus zwei Gründen verzichtet: (1) Bei dem Autor-Impact handelt es sich um eine Kennzahl, die im Gegensatz zu den anderen UVn nicht auf einer einfachen Summe beruht, sondern mittels anderer, intellektuell festgelegter Parameter errechnet wird und sich dahingehend von den anderen UVn unterscheidet. (2) Die Manipulation der einzelnen Stufen unterschied sich von der der anderen UVn dadurch, dass dem Surrogat im Pretest keine Zahlen für die Stufen gering und hoch zugewiesen waren, sondern ein prozentualer Wert, der die Zugehörigkeit einer Person zu einer Klasse innerhalb ihres wissenschaftlichen Feldes angibt (als geringer Impact wurde „Top 75 %“ oder „Top 50 %“, als hoher Impact „Top 5 %“ oder „Top 1 %“ festgesetzt). Dadurch wurden von den Versuchspersonen ein Umdenken und somit zusätzlicher kognitiver Aufwand während der Bearbeitung verlangt, denn eine kleine Zahl war in diesem Zusammenhang als höherer Impact, eine größere Zahl als geringerer Impact anzusehen.

4.1.1.1 Skalenniveau

Bei dem Skalenniveau der drei UVn handelt es sich um ein nominales bzw. kategoriales, auch wenn die Ausprägungen gering und hoch eine Rangordnung, also ein ordinales Skalenniveau, vermuten lassen. Wenn den Merkmalsausprägungen der UVn jeweils verschiedene (und immer andere) Zahlen zugeordnet werden, wie im hier beschriebenen Design, liegen ungeordnete Kategorien vor, die eine Nominalskala verlangen (Bortz & Schuster, 2010, S. 13). Tatsächlich verdeutlicht die dritte Stufe keine Angabe den kategorialen Charakter. Diese soll einerseits die Suchergebnisrepräsentation in traditionellen wissenschaftlichen Suchsystemen ohne integrierte Popularitätsdaten widerspiegeln und andererseits eine Baseline für eine eher thematische Relevanzbewertung darstellen. Diesbezüglich besteht die Annahme, dass eine Relevanzbewertung weitgehend auf Basis der thematischen Relevanz erfolgt, wenn die Versuchspersonen derjenigen experimentellen Bedingung ausgesetzt sind, in der alle drei UVn die dritte Ausprägung aufweisen, also die Angaben zu Zitations- oder Downloadzahlen in dem Surrogat fehlen.

4.1.1.2 Operationalisierung

Für die Zuweisung von Zahlen zu den Ausprägungen gering und hoch wurde aus forschungspragmatischen Gründen ein heuristischer Ansatz verfolgt: Für die UV-Stufen wurden Wertebereiche festgelegt, deren Zahlen von den Download- und Zitationszahlen in der internationalen informationswissenschaftlichen Community inspiriert sind.Footnote 6 Dazu wurde in Google Scholar nach viel und wenig zitierten Werken und Personen gesucht. Dabei dienten die Kennzahlen unter anderem von Diane Kelly oder Nick Belkin als weiche Bezugspunkte für die jeweils hohe Ausprägung, die Kennzahlen der Autorin und anderer informationswissenschaftlich Promovierender für die geringe Ausprägung. Zusätzlich wurde bei der Festlegung der Wertebereichsgrenzen darauf geachtet, eine Überschneidung zwischen den UVn zu vermeiden, um sicherzustellen, dass einzelne Zahlen nicht doppelt vorkommen bzw. eindeutig einer bestimmten UV-Stufe zuzuordnen sind. Außerdem kann eine intensivere Dosierung der UV, also eine stärkere Manipulation, einen positiven Einfluss auf die Teststärke haben (Döring & Bortz, 2016, S. 842). Dies motivierte zusätzlich, bei der Festlegung der Wertebereiche eher resolut als zu zaghaft vorzugehen.

Die Wertebereiche (vgl. Tabelle 4.3) weisen bei UV 1 – Anzahl Downloads den größten Abstand auf, was die Dynamik dieser Kennzahl widerspiegelt. Als geringe Anzahl an Downloads wurden Zahlen von 210 bis 440, als hohe Zahlen von 5.400 bis 7.800 festgelegt. UV 2 – Anzahl Zitationen Werk bezieht sich wie UV 1 auf das einzelne Werk, stellt jedoch eine Kennzahl dar, die wesentlich langsamer wachsen kann, weil sie einen längeren Zeitraum benötigt (Kurtz & Bollen, 2010).

Die Anzahl der Zitationen eines Autors sind demzufolge in beiden Stufen der UV 3 höher als in denen der UV 2, weil diese alle zitierfähigen Werke betreffen, die die jeweilige Person bis dato publiziert hat. Anhand dieser Wertebereiche wurde mithilfe des kostenlos verfügbaren Online-Tools Research RandomizerFootnote 7 für alle Teilstichproben (Bedingungen) jeweils eine einmalig vorkommende Zufallszahl ausgewählt (vgl. Tabelle 4.4). Da die Versuchspersonen allen 27 experimentellen Bedingungen ausgesetzt werden sollten und dies der Anzahl der insgesamt zu bewertenden Surrogate entspricht, waren für alle UVn jeweils 9 Werte erforderlich. Ein Surrogat weist in einer bestimmten Bedingungsvariation für jede Stufe einen einmaligen Wert auf, der sich in derselben Stufe einer anderen Bedingung nicht wiederholt. Liegt zum Beispiel für das erste Surrogat die Kombination UV 1 Stufe 1 – UV 2 Stufe 2 – UV 3 Stufe 3 vor, erhält das Surrogat die Werte 240 – 106 – keine Angabe. Die Wertevergabe zu den Surrogaten ergibt sich aus dem faktoriellen Design, in dem die Zuweisung der Surrogate zu den experimentellen Bedingungen in randomisierter Reihenfolge erfolgte (vgl. Abschnitt 4.1.5).

Eine alternative Möglichkeit der Wertezuweisung zu den UV-Stufen A und B läge in einer Ad hoc-Generierung aus den zuvor festgelegten Wertebereichen für die jeweilige Bedingung, also das jeweilige Surrogat, während der Bearbeitung des Online-Fragebogens. Das heißt, dass in dem Fall für eine Versuchsperson kein Surrogat dasselbe wie für eine andere innerhalb derselben Bedingung wäre. Dieser Umstand hätte eine zusätzliche Variation im Experiment bedeutet, die für die spätere statistische Analyse als wenig zielführend erachtet und daher abgelehnt wurde.Footnote 8

Tabelle 4.3 Wertebereiche der UV-Stufen A und B
Tabelle 4.4 Werte der UV-Stufen A und B

4.1.2 Abhängige Variable

Zur Erforschung von Relevanzkriterien gibt es zahlreiche Studien, in denen weder implizite Relevanzbewertungen erfasst noch explizite Relevanzbewertungen von menschlichen Juroren erhoben wurden; stattdessen führten die Forschenden in solchen Studien Interviews durch oder wendeten die Methode des lauten Denkens an (vgl. Abschnitt 2.2.1).

Mit der Forschungsfrage F2 nach dem Effekt von Popularitätsdaten auf die Relevanzbewertung ist bereits festgelegt, dass Relevanzbewertungen zu erheben sind. Implizite Relevanzbewertungen, die in IR-Studien auf Basis von Klicks und/oder Verweildauer abgeleitet wurden, waren als mögliche AV in dieser Studie bereits zu einem frühen Zeitpunkt ausgeschlossen. Klicks sind aufgrund ihrer lediglich binären Ausprägung nicht mit Relevanzbewertungen gleichzusetzen (vgl. Abschnitt 2.2.2); die Verweildauer als Relevanzbewertung zu betrachten ist ebenso wenig angemessen, weil diese Kennzahl nur im Zusammenhang mit tatsächlichen Bewertungen Einblicke in das Bewertungsverhalten bieten kann (Kelly & Belkin, 2004).

Die abhängige Variable ist die explizite Relevanzbewertung der Suchergebnisse, die anhand der von den Versuchspersonen vorgenommenen Kennzeichnungen auf einer Skala erfasst wurden. Diese Skala war mit den Polen 0 (links) und 100 (rechts) versehen, d. h. die AV weist 101 Merkmalsausprägungen auf, wobei die Punkte auf der Skala für die Versuchspersonen nicht sichtbar waren, ebenso wenig die Messwerte der einzelnen Beurteilungen. Diese hohe Zahl an Skalenstufen (Rating-Kategorien) ist nicht nur mit dem nicht-binären Verständnis von Relevanz zu begründen, vielmehr soll auf diese Weise dem Granularitätsanspruch der graded relevance Rechnung getragen werden (Roitero et al., 2018). Der nachfolgende Abschnitt 4.1.2.1 widmet sich den Erkenntnissen bisheriger Studien zur Erhebung von Bewertungen, die graded relevance berücksichtigen und begründet die Wahl der für das hier beschriebene Experiment verwendeten Skalenart. Daran anschließend werden das Skalenniveau und die ausgewählte Skala vorgestellt (Abschnitt 4.1.2.2), bevor die Operationalisierung der abhängigen Variablen erörtert wird (Abschnitt 4.1.2.3).

4.1.2.1 Erhebung von Graded Relevance Assessments

Traditionell wurden in der Information Retrieval-Evaluierung wie in klassischen TREC-Studien ausschließlich binäre Bewertungen erhoben – ein Dokument war entweder relevant oder nicht, was auf die auf dem Cranfield-Paradigma beruhenden, stark vereinfachten Annahmen über die Bewertung von Dokumenten in einer Testkollektion zurückzuführen ist (Buckley & Voorhees, 2005). Da eine dichotome Nominalskala lediglich zwei Kategorien besitzt, wird eine hohe Toleranz bei den Bewertungen von Dokumenten in Kauf genommen. Mehrere Abstufungen bei der Relevanzbewertung sind jedoch sinnvoll zur Unterscheidung von Rankingalgorithmen, um diejenigen Verfahren, die in der Lage sind hochrelevante Ergebnisse auf den höheren Positionen einer Trefferliste zu produzieren, von denjenigen, die nur wenig relevante Ergebnisse erzeugen können, zu unterscheiden (Kekäläinen & Järvelin, 2002). Vor diesem Hintergrund stellt sich die Frage, welche Skalenart bzw. welche Anzahl an Stufen einer Skala am besten zur Erhebung von Relevanzbewertungen geeignet ist.

Studien, die der Frage nachgingen, wie Relevanzbewertungen (im Forschungskontext) am besten Ausdruck verliehen werden kann, wurden bereits in den frühen Jahren der Relevanzforschung durchgeführt (vgl. Mizzaro, 1997). Hervorzuheben sind hier die Arbeiten des Teams um Cuadra und Katter von der damaligen System Development Corporation, das mehrere Experimente zu Relevanzbewertungen und deren Einflussfaktoren durchführte und veröffentlichte (Cuadra & Katter, 1967a, 1967b; Katter, 1968; System Development Corporation, 1967). Die Ergebnisse der Experimente zeigten, dass Relevanzbewertungen unter anderem durch die Art der verwendeten Skala beeinflusst werden (Cuadra & Katter, 1967b). Beispielsweise berichtet Katter (1968) von einem Vergleich zwischen Relevanzbewertungen mittels neunstufiger Ratingskala und Bewertungen mithilfe von paarweisen Dokumenten-Rankings. Die Ergebnisse zeigen eine Verzerrung bei der Bewertung mittels Rankings, die Katter als „cascaded distortion process“ bezeichnet: Während beim Rating ein Wert mehrmals vergeben wird, ist dies beim Ranking nicht möglich, da jede Position nur einmal besetzt werden kann. Solche Einschränkungen können zu Verletzungen der intendierten Relevanzbewertungen führen. Zudem wurde geschlussfolgert, dass die Verwendung einer Ratingskala mit 6 bis 8 Kategorien effektiver war als die von Skalen mit weniger Kategorien (Cuadra & Katter, 1967b). Ähnliches stellten Tang, Shaw, & Vevea (1999) bei einem Vergleich von Skalen mit 2 bis 11 Punkten fest: Sie identifizierten die siebenstufige Skala als diejenige, mit der die Studienteilnehmenden das höchste Maß an Selbstbewusstsein („the highest level of confidence“) bezüglich ihrer Bewertungen zum Ausdruck brachten.

Nichtsdestotrotz werden in Information Retrieval-Studien häufig Ordinalskalen verwendet, die lediglich drei oder ähnlich einer klassischen Likert-Skala fünf Stufen aufweisen (Kelly, 2009, S. 41, 42). Obwohl anhand dieser Abstufungen zwar Aussagen darüber getroffen werden können, dass ein Dokument wesentlich relevanter ist als ein anderes, ist es nicht zulässig, Aussagen über die Differenzen zu treffen. So kann beispielsweise nicht gefolgert werden, dass bei einer 5-Punkte-Skala (nicht relevant – wenig relevant – teilweise relevant – ziemlich relevant – hoch relevant) ein Dokument mit dem Messwert 4 doppelt so relevant ist wie ein Dokument mit dem Messwert 2. Die Stufen auf einer solchen Skala sind demzufolge als Kategorien zu verstehen und bilden dennoch keine Nominalskala, da sie eine Ordnung erlauben. (Kelly, 2009, S. 42)

Eine Form der metrischen Skala, die in jüngeren IR-Studien zur Erhebung von Relevanzbewertungen verwendet wurde, ist die als Verhältnisskala (auch Ratioskala) entwickelte Magnitude Estimation (ME)Footnote 9, die eine feinstufigere Bewertung erlaubt als eine dichotome Skala oder Ordinalskala (Maddalena et al., 2017; Roitero et al., 2018; Turpin et al., 2015). Mit der ME bewerten Jurorinnen und Juroren den subjektiv wahrgenommenen Relevanzwert eines Dokuments in Relation zum jeweils zuvor gesehenen Dokument, ausgehend von einem selbstgewählten Startwert und ohne feste Wertebereichsgrenzen (Turpin et al., 2015). Wenn zum Beispiel ein Dokument 1000 Punkte erhält und das folgende als halb so relevant erachtet wird, vergibt die Person 500 Punkte; ist das darauffolgende wieder wesentlich relevanter, könnte die Person 850 Punkte vergeben. Das bedeutet, dass jeder Juror die Nutzung der ME individuell an die eigenen Präferenzen bzgl. einer Skala anpassen kann. Ein Vorteil dieser Punktevergabe ist, dass den Juroren „niemals die Werte ausgehen“, da immer ein noch kleinerer oder größerer Wert an ein Dokument vergeben werden kann; von Nachteil ist allerdings, dass die Bewertungen zwischen Juroren und Aufgaben ohne eine Normalisierung der Werte nicht miteinander verglichen werden können, und dass diese etwas unnatürliche Form der Bewertung eine gewisse Gewöhnungsphase erfordert (Roitero et al., 2018).

Eine andere Einsatzmöglichkeit der ME erfolgte dagegen in früheren Studien (Bruce, 1994; Eisenberg, 1988; Eisenberg & Hu, 1987; Janes, 1991a), in denen Probanden auf einer 100 Millimeter langen Linie auf einem Blatt Papier ein Kreuz setzten, das den Messwert markiert. Eisenberg (1988) kam zu dem Ergebnis, dass der Einsatz einer solchen ME-Skala mit 101 Abstufungen zur Erfassung von Relevanzbewertungen geeignet und empfehlenswert sei.

Dieselbe Methode wurde verwendet zur Erforschung des break point, also des Punktes, ab dem für die Jurorinnen und Juroren ein Dokument als relevant gilt, im Sinne der Frage „Wie relevant muss ein Dokument sein, damit es als relevant bewertet wird?“ Ergebnisse zweier Studien zeigen, dass bei 41 von 100 Bewertungspunkten (Eisenberg & Hu, 1987) bzw. bei 46 von 100 Punkten (Janes, 1991b) diese Schwelle erreicht ist. Nicht nur Relevanzbewertungen wurden mittels ME erhoben: Bruce (1994) ließ Probanden auf diese Weise Dokumenteigenschaften und Informationsattribute nach ihrer Wichtigkeit bezüglich der wahrgenommenen Relevanz bewerten und resümierte, dass die Methode einen beobachtbaren Effekt des Einflusses der Interaktion mit dem IRS auf die nutzerzentrierte Relevanzbewertung erlaubt.

Neuere Erkenntnisse stützen die Ergebnisse der früheren Studien. So verglichen Roitero u. a. (2018) Relevanzbewertungen, die mittels vier verschiedener Skalen erhoben wurden: dichotome Skala (binäre Sicht auf Relevanz), 4-stufige Ordinalskala, Magnitude Estimation in Form von Relationsbewertungen, und S100, einer fine-grained relevance scale mit 101 Abstufungen, die der Einsatzform von ME als Liniendarstellung entspricht. Die Autoren stellten fest, dass S100 effektiv, robust und brauchbar ist zur Erhebung von feingranulierten Relevanzurteilen.

Zusammengefasst folgt die Auswahl der Skala für die hier beschriebene Studie den Erkenntnissen und Forderungen der frühen Studien zum Einsatz von mehrstufigen Skalen und zugleich den neueren Erkenntnissen in Hinblick auf S100, mit der die Testpersonen feinstufige Relevanzbewertungen vornehmen können.

4.1.2.2 Skalenniveau und Skalenauswahl

Das Skalenniveau in der hier beschriebenen Studie ist metrisch; es liegt eine Intervallskala vor, die eine lineare Transformation und Aussagen über die Gleichheit von Differenzen zulässt im Gegensatz zu Ordinal- und Nominalskalen (Döring & Bortz, 2016, S. 233). Letzteres ist insbesondere vor dem Hintergrund des gewählten Within-Subjects-Designs ein weiteres Argument für die Wahl einer Intervallskala, um Differenzen der Bewertungen innerhalb der Versuchspersonen zwischen den Bedingungen berechnen und auch kleine Effekte einer UV aufdecken zu können.

Konkret handelt es sich in der Umsetzung der Intervallskala um eine Kombination aus visueller Analogskala (visual analogue scales, VAS) und Schiebereglerskala (slider scale) – zwei Skalen, die sich prinzipiell sehr ähnlich sind: Während die Versuchspersonen bei einer visuellen Analogskala nach der point & click-Methode vorgehen, erfolgt die Beurteilung auf einer Schiebereglerskala mittels drag & drop des Schiebereglers (Funke, 2016). Die VAS ist eine Variante der Ratingskala, bei der Versuchspersonen ihre Urteile über Merkmalsausprägungen ohne Abschnitts- bzw. Stufenmarkierungen mit dem Setzen eines Kreuzes bzw. in der computergestützten Befragung mittels Radio Button angeben (Döring & Bortz, 2016, S. 246 ff.). Die Position des Kreuzes bzw. Radio Buttons entspricht dem auf der Skala liegenden Messwert. Dasselbe trifft auch auf die Schiebereglerskala zu (Funke, 2016).

Der Vorteil der Schiebereglerskala kann in einer höheren Sensitivität gesehen werden: Durch das stufenlose Schieben des Reglers zum linken oder rechten Pol hin scheint es leichter, auch feinere Abstände von beispielsweise unter 10 Punkten zwischen bereits gesetzten Bewertungen per drag & drop (oder mittels Pfeiltasten) zu erzeugen und auf diese Weise auch geringe Urteilsdifferenzen (innerhalb der Versuchsperson aufgrund des Within-Subjects-Designs) anzuzeigen als durch erneutes point & click. Nachteilig ist allerdings die höhere Anzahl an Aktionen, die die Versuchsperson beim Setzen des Schiebereglers (Mauszeiger bewegen – Maustaste klicken und halten – Mauszeiger bewegen – Maustaste loslassen) im Vergleich zum Setzen des Wertes bei einer VAS (Mauszeiger bewegen – Maustaste klicken) durchzuführen hat (Funke, 2016, S. 245, 246). Dieser etwas höhere Aufwand erschien allerdings vor dem Hintergrund der als ohnehin anspruchsvoll anzusehenden Bewertungsaufgaben (Informationsbedürfnisse, vgl. Abschnitt 4.2.1) für den Forschungszweck vertretbar.

Ferner kann der Umgang mit einem Schieberegler zu negativen Effekten führen (Toepoel & Funke, 2018), wie z. B. zu einer höheren Abbruchrate und einem höheren Zeitaufwand, wobei Schwierigkeiten im Umgang mit Schiebereglern von dem Bildungsgrad der Teilnehmenden abhängig sind (Funke et al., 2011). So ist davon auszugehen, dass die Versuchspersonen der Zielgruppe in der hier beschriebenen Studie, also Personen mit mindestens einem akademischen Abschluss auf Master-Niveau und in der Wissenschaft tätig (vgl. Abschnitt 4.2), über die erforderlichen kognitiven Fähigkeiten zum korrekten Verständnis der Funktionsweise eines Schiebereglers verfügen.Footnote 10

Ein gravierender Nachteil der Schiebereglerskala besteht in der Vorabpositionierung des Schiebereglers durch die Forschungsleitung, wodurch zum einen eine mögliche Beeinflussung der Versuchspersonen durch die Ausgangsposition nicht auszuschließen ist, zum anderen eine Interpretation des Messwerts schwierig wird, wenn dieser mit dem Wert der Startposition übereinstimmt (Döring & Bortz, 2016, S. 248). Bei der hier berichten Studie wurde diesem Problem dadurch begegnet, dass der Schieberegler als zunächst nicht sichtbar eingestellt war und erst durch Mausklick auf einen Punkt der Skalenlinie erschien (vgl. Abschnitt 4.2.3.3), was dem klassischen VAS-Ansatz entspricht (point & click). Auf diese Weise entschied die Versuchsperson eigenständig über die Ausgangsposition des Schiebereglers.

Weiterhin sollte es möglich sein, eine Bewertung nachträglich zu ändern, also die Position des bereits gesetzten Schiebereglers anzupassen. Somit ist sichergestellt, dass die Relevanzbewertung einzelner Suchergebnisse unter Berücksichtigung aller Suchergebnisse in der jeweiligen Aufgabe vorgenommen werden kann. Der Entscheidung für eine nachträgliche Urteilsanpassung liegt die Annahme zugrunde, dass die Relevanzbewertung eines Dokuments nicht unabhängig von der der anderen Dokumente innerhalb eines Korpus bzw. die Bewertung eines Suchergebnisses nicht losgelöst von der der anderen Ergebnisse in der Trefferliste erfolgt (vgl. Abschnitt 4.1.5.2). Eine erneute Bewertungsmöglichkeit bietet zwar nicht nur der Einsatz eines Schiebereglers, weil diese Einstellung je nach Fragebogensoftware auch bei anderen Messinstrumenten im Rahmen der Fragebogenkonstruktion vorgenommen werden kann; ein Schieberegler impliziert diese Möglichkeit jedoch unmittelbar, ohne dass in den Aufgabeninstruktionen ausdrücklich darauf hinzuweisen wäre.

4.1.2.3 Operationalisierung von Relevanz als Nützlichkeit

Nützlichkeit, also usefulness, wurde von verschiedenen Verfechtern der nutzerzentrierten Relevanzperspektive als angemesseneres Konzept für die Evaluierung von Information Retrieval-Systemen im Gegensatz zu einer rein systembasierten Perspektive auf Relevanz als eine auf Aboutness abzielende Bewertung vorgeschlagen (vgl. Abschnitt 2.1.1 und Abschnitt 3.1.1). Es wurde erläutert, dass relevante Informationen nicht nur thematisch passend zur Suchanfrage oder zum Informationsbedürfnis, sondern auch nützlich zur Befriedigung des Informationsbedürfnisses und darüber hinaus nützlich zur Lösung des Problems bzw. der Bewältigung der Aufgabe sein müssen (Mizzaro, 1997; Saracevic, 2016b).

In Studien, in denen Jurorinnen und Juroren Dokumente in Hinblick auf deren Nützlichkeit oder Nutzen bewerteten, geschah dies im Einklang mit einer ziel- und aufgabenorientierten Definition von Relevanz. So verfolgten Cool, Belkin, Kantor, & Frieder (1993) das Ziel, unter anderem die folgenden Forschungsfragen zu beantworten:

What are the relationships between a person’s goals (or information problems) and the documents used in responding to those goals (problems)? That is, what are the uses that people will make of the documents, and how do they judge (evaluate) documents with respect to those uses? Are there characteristics other than topical relevance which affect a person’s evaluation of a document’s usefulness? (Cool et al., 1993, S. 77)

In einer Studie zu dem Einfluss der Reihenfolge der zu bewertenden Dokumente operationalisierten Xu & Wang (2008) Relevanz ebenfalls als Nützlichkeit in Hinblick auf den aufgabenorientierten Charakter des Informationssuchprozesses:

All returned documents were evaluated based on participants’ perception of relevance. The term “usefulness” was used in place of “relevance” to make the concept more straightforward to the participants […] and corresponds better to the definition of situational relevance in a task-oriented search. (Xu & Wang, 2008, S. 1269)

Im Unterschied zur erstgenannten Studie wurden bei Xu & Wang (2008) die Bewertungen auf Basis von Webseiteninhalten getroffen, also evaluative judgments vorgenommen, während bei Cool, Belkin, Kantor, & Frieder (1993) predictive judgments erbeten wurden, was sich in der Instruktionsformulierung an die Teilnehmenden niederschlägt, denn die Aufgabe bestand darin, „[to] indicate whether they thought that they would use [the document] for their essay“ (S. 78; Kursivdruck im Original nicht enthalten). Analog zum Relevanzkonzept stellt sich die Frage, ob die Nützlichkeit eines Dokuments zum Zeitpunkt der Sichtung der Surrogate oder zu einem wesentlich späteren Zeitpunkt, der weit nach dem Abschluss der interaktiven Suche im IR-System liegt, und nach der tatsächlichen Nutzung des Dokuments beurteilt werden kann.Footnote 11 Letzteres wäre auch unabhängig von einer subjektiven Bewertung feststellbar:

Usefulness or utility could be determined subjectively by the user or objectively by looking at whether or not the user used the document, the contact time with the document, or the results of contact with the document, such as improved productivity, development of a new product, or publication. (Tague-Sutcliffe, 1992, S. 474–475)

Die aufgaben- und zielorientierte Definition von Relevanz, die im Rahmen der Konzeptspezifikation dieser Arbeit zugrunde gelegt wird (vgl. Abschnitt 3.1.1), findet sich in der Formulierung der Bewertungsaufforderung und der Beschriftung der beiden Skalenenden wieder. So wurde auf die Verwendung des Relevanzbegriffs gezielt verzichtet und Relevanz als Nützlichkeit (usefulness) operationalisiert: Der linke Pol der Skala ist als „überhaupt nicht nützlich“, der rechte Pol der Skala als „sehr nützlich“ gekennzeichnet. Die Versuchspersonen sollten beurteilen, für wie nützlich sie jedes Suchergebnis zur Befriedigung des zuvor gelesenen Informationsbedürfnisses halten. Bei den erhobenen Bewertungen handelt es sich daher um predictive judgments, die die vermutete Nützlichkeit im Kontext des Informationsbedürfnisses betreffen und sich auf die Relevanzbewertung des Surrogats beschränken (vgl. Abschnitt 2.1.4).

4.1.3 Hypothesen

Die zu prüfenden Hypothesen stellen Erwartungen hinsichtlich der Beantwortung der Forschungsfrage F2 (Welchen Einfluss haben Popularitätsdaten auf die Bewertung der Relevanz von Suchergebnissen in akademischen Suchsystemen?) dar. Auf der Basis der Erkenntnisse aus der Literaturschau wird davon ausgegangen, dass Popularitätsdaten einen positiven Einfluss auf die Relevanzbewertung haben, was sich in einer höheren Bewertungspunktzahl zeigt.

Diese Annahme wird zum einen mit der Erkenntnis aus der Arbeit von Rieh (2002) begründet, dass anhand zusätzlicher Informationen zu einem Suchergebnis informationssuchende Personen bessere predictive judgments hervorbringen (vgl. Abschnitt 2.1.2.1, S. 30), wobei sich die Güte in der größtmöglichen Übereinstimmung mit dem evaluative judgment ausdrückt, welches in dieser Arbeit jedoch nicht überprüft wird. Zum anderen deckte bereits Wang (1994) im Rahmen ihrer Studie zur Dokumentenauswahl den Bedarf von informationssuchenden Personen auf, Informationen über den Autor eines Werks während der Interaktion mit einem akademischen Suchsystem in die Entscheidungsfindung zur Dokumentenauswahl miteinzubeziehen, welcher auf den besonderen Stellenwert des Kriteriums Autorität hindeutet (vgl. Abschnitt 2.1.4, S. 41).

Für das vorliegende Experiment lassen sich drei Hypothesen über die Haupteffekte, also die Wirkungen der einzelnen unabhängigen Variablen (UVn) unabhängig von den Stufen der jeweils anderen UV (Sedlmeier & Renkewitz, 2018, S. 172), aufstellen:

H1::

Die Downloadhäufigkeit eines Werks hat einen positiven Einfluss auf die Relevanzbewertung. Bei einer hohen Zahl von Downloads eines Werkes ist die Punktzahl der Relevanzbewertung im Durchschnitt größer als bei einer geringen Anzahl oder bei Nichtanzeige (k.A.); bei Nichtanzeige ist die Punktzahl der Relevanzbewertung im Durchschnitt kleiner als bei einer geringen oder hohen Anzahl Downloads.

H2::

Die Zitationshäufigkeit eines Werkes hat einen positiven Einfluss auf die Relevanzbewertung. Bei einer hohen Anzahl von Zitationen eines Werkes ist die Punktzahl der Relevanzbewertung im Durchschnitt größer als bei einer geringen Anzahl oder bei Nichtanzeige (k.A.); bei Nichtanzeige ist die Punktzahl der Relevanzbewertung im Durchschnitt kleiner als bei einer geringen oder hohen Anzahl von Zitationen.

H3::

Die Zitationshäufigkeit des Autors hat einen positiven Einfluss auf die Relevanzbewertung. Bei einer hohen Anzahl von Zitationen eines Autors ist die Punktzahl der Relevanzbewertung im Durchschnitt größer als bei einer geringen Anzahl oder bei Nichtanzeige (k.A.); bei Nichtanzeige ist die Punktzahl der Relevanzbewertung im Durchschnitt kleiner als bei einer geringen oder hohen Anzahl von Zitationen eines Autors.

Die Annahmen lassen sich anhand der beiden experimentellen Bedingungen, in denen alle drei Stufen jeweils am weitesten auseinander liegen, konkreter beschreiben. In der Bedingung, in der alle drei UVn auf der dritten Stufe (keine Angabe) manipuliert sind, dürften die Bewertungen der Probanden für dieses Surrogat im Durchschnitt die geringsten Punktzahlen aufweisen; im Gegensatz dazu werden in der Bedingung, in der alle UVn die Ausprägung mit der hohen Anzahl besitzen, die Bewertungen für dieses Surrogat im Durchschnitt vermutlich die größten Punktzahlen zeigen.

Das mehrfaktorielle Untersuchungsdesign erlaubt es zudem zu prüfen, ob Interaktionseffekte vorliegen, d. h. ob die Wirkung einer UV abhängig ist von der Ausprägung einer anderen UV (Sedlmeier & Renkewitz, 2018, S. 171). Dies trägt insbesondere zu der Beantwortung der Forschungsfrage F3 (Welche Popularitätsdaten beeinflussen die Relevanzbewertung in welchem Maße?) bei. Möglich sind im vorliegenden Experiment Interaktionseffekte der 1. Ordnung zwischen UV1 und UV2, UV1 und UV3 sowie UV2 und UV3, und ein Interaktionseffekt der 2. Ordnung, also zwischen UV1 und UV2 und UV3. Dazu werden die Effekte ermittelt, die zum Beispiel UV 1 auf allen Stufen von UV 2 aufweist, und miteinander verglichen. Sind die Effekte von UV 1 auf den jeweiligen Stufen von UV 2 ungleich groß, liegt eine Interaktion vor; sind die Effekte gleich groß, liegt keine Interaktion vor (Sedlmeier & Renkewitz, 2018, S. 172–173). Da zur Hypothesenaufstellung derartiger Interaktionseffekte Erkenntnisse aus sehr ähnlichen experimentellen Untersuchungen über den Einfluss bestimmter Merkmale von Surrogaten auf die Relevanzbewertung herangezogen werden müssten, solche jedoch nicht vorliegen, lassen sich diesbezüglich keine Hypothesen formulieren.

4.1.4 Umgang mit Störvariablen

Neben den drei unabhängigen Variablen gibt es möglicherweise weitere Variablen, die einen Einfluss auf die abhängige Variable ausüben. Solche DrittvariablenFootnote 12 können zum einen Merkmale sein, die im Zuge des Experiments ebenfalls erhoben, aber nicht durch die Forschungsleitung manipuliert werden, wie beispielsweise soziodemografische Merkmale der Teilnehmenden (Kelly, 2009, S. 38). Zum anderen können potenziell konfundierende Variablen (Störvariablen) auftreten, die es, um der internen Validität und schließlich der Güte des Experiments willen, weitestgehend zu kontrollieren gilt. Das Ziel der Kontrolle möglicher Störvariablen besteht darin, Alternativerklärungen des beobachteten Effekts ausschließen und somit kausale Schlussfolgerungen ableiten zu können (vgl. Abschnitt 2.2.4).

Neben den üblicherweise erhobenen soziodemografischen Merkmalen waren für die hier beschriebene Studie weitere Drittvariablen von Interesse. Dazu zählten unter anderem der bisherige höchste Bildungsabschluss, die wissenschaftliche Fachdisziplin der Versuchspersonen und Informationen über Erfahrungen mit wissenschaftlichen Suchsystemen. Auf diese Drittvariablen wird in Abschnitt 4.2.3 im Zusammenhang mit der Fragebogenentwicklung näher eingegangen.

Mögliche Störvariablen bestehen hinsichtlich der Untersuchungspersonen (personengebundene Störvariablen), der Versuchssituation (z. B. Umgebungseinflüsse) und der Versuchsleitung (Erwartungseffekte) (Sedlmeier & Renkewitz, 2018, S. 139 ff.). Wie oben erwähnt besteht ein Vorteil des Within-Subjects-Designs darin, dass alle personengebundenen Störvariablen „perfekt parallelisiert“ (Sedlmeier & Renkewitz, 2018, S. 157) sind. Somit ist das Problem personengebundener Störvariablen für diese Studie gelöst.

Externe Störeinflüsse auf die Versuchssituation wie Ablenkungen durch Lärm oder Unterbrechungen der Untersuchungspersonen können durch die Versuchsleitung nicht eliminiert werden, da das Online-Experiment im Feld stattfindet. Ein Konstanthalten möglicher Störeinflüsse erfolgt jedoch dadurch, dass alle Teilnehmenden dieselben Instruktionen in allen Bedingungen erhalten und alle dasselbe Interface verwenden, d. h. für alle erfolgt der Versuchsablauf unter identischen Bedingungen. Identische Bedingungen bedeuten jedoch nicht, dass die Versuchspersonen die Aufgaben in identischer Reihenfolge bearbeiten. Stattdessen werden sowohl die Reihenfolge der Aufgaben als auch die Reihenfolge der angezeigten Surrogate während des Online-Experiments ad hoc randomisiert. Auf diese Weise wird vermieden, dass Lerneffekte und Positionseffekte einen unerwünschten Einfluss auf die Ergebnisse bewirken. Generell ist damit zu rechnen, dass die Teilnehmenden während des Experiments Vermutungen über Hypothesen oder erwünschte Ergebnisse anstellen. Merkmale der Instruktionen oder des Stimulusmaterials können bestimmte Hinweise auf den eigentlichen Zweck der Untersuchung geben (sog. demand characteristics), was manche Teilnehmenden dazu veranlassen kann, sich gezielt erwartungskonform zu verhaltenFootnote 13 (Sedlmeier & Renkewitz, 2018, S. 147). Solche Erwartungseffekte sollen durch das Durchführen eines Experiments als Blindversuch kontrolliert werden. Aus diesem Grund wurden die Teilnehmenden erst nach Ende des Experiments über dessen Zweck und vorgenommene Manipulationen aufgeklärt (vgl. Abschnitt 4.2.3).

In der Versuchsleitung können ebenfalls Erwartungseffekte die Ergebnisse des Experiments beeinflussen. Da es sich jedoch um ein Online-Experiment handelt, also das Experiment nicht in einem Labor stattfindet, ist die Versuchsleitung lediglich durch die Instruktionen im Fragebogen bzw. durch die Informationen in den Einladungen zur Teilnahme per E-Mail repräsentiert, aber nicht physisch anwesend. Eine individuelle Interaktion zwischen Versuchsleitung und Versuchsperson findet nicht statt, wodurch eine unerwünschte Beeinflussung der Versuchsperson durch die Versuchsleitung (und umgekehrt) ausgeschlossen werden kann.

4.1.5 Versuchsaufbau

Das mehrfaktorielle Within-Subjects-Design wurde als vollständiger Versuchsplan umgesetzt, in dem alle insgesamt 27 möglichen Kombinationen der Stufen jeder unabhängigen Variablen enthalten sind. Auf diese Weise wird einer möglichen Konfundierung von Versuchsbedingungen begegnet und die interne Validität des Experiments erhöht (Sedlmeier & Renkewitz, 2018, S. 138 ff.). Tabelle 4.5 zeigt den vollständigen faktoriellen Versuchsplan mit allen 27 Kombinationen aller unabhängigen Variablen auf allen Stufen.

In Abbildung 4.1 ist der faktorielle Versuchsplan formalisiert in der weit verbreiteten Notation von Shadish, Cook, & Campbell (2002) dargestellt. Die Notation erhält die folgenden drei Elemente (Döring & Bortz, 2016, S. 102; Shadish u. a., 2002, S. 263):

  • X = Treatmentbedingung/unabhängige Variable;

  • O = Beobachtung/Messung/abhängige Variable und

  • R = Randomisierung

Tabelle 4.5 Vollständiger faktorieller Versuchsplan
Abbildung 4.1
figure 1

Versuchsplan in der Notation der Campbell-Tradition

4.1.5.1 Randomisierung der Surrogate und Aufgaben

Die Reihenfolge der zu bewertenden neun Surrogate in den drei Aufgaben wurde auch hier mithilfe des Online-Tools Research Randomizer ermittelt, indem ein Set aus 27 einmalig vorkommenden Zahlen von 1 bis 27 generiert wurde. Das Ergebnis der randomisierten Reihenfolge zeigt Tabelle 4.6; die manuelle Übertragung dieser Reihenfolge auf die einzelnen Bedingungen resultierte in den in Tabelle 4.7 enthaltenen Werten. Die Surrogate 1 bis 9 wurden in Aufgabe 1, die Surrogate 10 bis 18 in Aufgabe 2 und die restlichen Surrogate 19 bis 27 in Aufgabe 3 durch die Versuchspersonen bewertet. Die Festlegung, welches Surrogat welche Bedingung abdeckt, ist demzufolge für jede Versuchsperson dieselbe, d. h., das Surrogat, für das alle Stufen die geringe Anzahl (Stufe 1) aufweisen, ist immer Surrogat Nr. 16 in Aufgabe 2, jedoch nicht auf derselben Position.

Tabelle 4.6 Randomisierte Reihenfolge der Bedingungen
Tabelle 4.7 Übertragung der randomisierten Reihenfolge auf die Bedingungen
Abbildung 4.2
figure 2

Ablauf des Experiments in schematischer Darstellung

Das Experiment umfasst die Bearbeitung der drei Aufgaben durch die Versuchspersonen in randomisierter Reihenfolge, wobei die Surrogate pro Aufgabe ebenfalls in zufälliger Reihenfolge angezeigt wurden. Zu beachten ist hierbei, dass die Surrogate nicht über die drei Aufgaben hinweg, sondern jeweils immer innerhalb derselben Aufgabe randomisiert wurden. Dieser Ablauf ist schematisch in Abbildung 4.2 dargestellt.

Die Reihenfolge der Anzeige der zu bewertenden Surrogate und der Aufgaben wurde den Merkmalen eines echten Experiments entsprechend während der Bearbeitung des Online-Fragebogens ad hoc durch das Fragebogentool (vgl. Abschnitt 4.2.3) randomisiert, damit die Ergebnisse keinen Reihen- bzw. Positionseffekten unterliegen. Solche Effekte sind bei der Art der Darstellung der zu bewertenden Surrogate zu berücksichtigen, denn Studien konnten zeigen, dass die Relevanzbewertung eines Dokuments durch andere Dokumente, die in dem Ergebnisset bereits zuvor gesehen und bewertet wurden, beeinflusst wird. Diese Studien befassen sich mit den Reihenfolgeneffekten (order effects) und der Frage, wie die Reihenfolge der angezeigten Dokumente (z. B. Eisenberg & Barry, 1988; Purgailis Parker & Johnson, 1990; Scholer et al., 2013; Xu & Wang, 2008) und der zu bearbeitenden Aufgaben in IIR-Studien (Clemmensen & Borlund, 2016), aber auch inwieweit die Anzahl der präsentierten Dokumente (M. Huang & Wang, 2004) die Bewertung beeinflusst.Footnote 14

Abbildung 4.3
figure 3

Möglichkeiten der Surrogate-Darstellung: (A) links in einer gemeinsamen Liste, (B) rechts separat in einer Reihe

In der traditionellen Information Retrieval-Evaluierung werden die zu bewertenden Dokumente den Jurorinnen und Juroren einzeln und nacheinander vorgelegt – eine Darstellung, die der Suchergebnispräsentation in heutigen (wissenschaftlichen) IR-Systemen widerspricht. Ob in dem hier beschriebenen Experiment die neun Surrogate jeder Aufgabe entweder (A) untereinander in einer Liste auf einer Seite oder (B) einzeln und nacheinander auf mehreren Seiten, also in einer Reihe, präsentiert werden (Abbildung 4.3), stellt somit eine wichtige Entscheidung dar. Darstellungsart (A) erlaubt ein Vor- und Zurückscrollen sowie die Bewertungen in einer flexiblen Reihenfolge vorzunehmen, (B) bietet diese Möglichkeit nicht, ohne zwischen einzelnen Seiten navigieren zu müssen, wodurch nie alle oder mehrere Surrogate zusammen betrachtet werden können.

Die Entscheidung für Darstellungsart (A), also eine Listendarstellung der Surrogate pro Aufgabe, und gegen eine separate Reihendarstellung wurde maßgeblich getroffen auf der Basis der Erkenntnisse über Effekte, die bei der Erhebung von Relevanzbewertungen auftreten können. Zur besseren Nachvollziehbarkeit über die Entscheidungsfindung werden diese Effekte im nachfolgenden Abschnitt vorgestellt und im Kontext des Experiments bewertet.

4.1.5.2 Effekte bei der Erhebung von Relevanzbewertungen

Der Prozess der Relevanzbewertung wird durch verschiedene system-, nutzer- und situationsbasierte Faktoren beeinflusst (vgl. Abschnitt 3.2.2). Ferner zeigen Studien, dass Relevanzbewertungen Effekten unterliegen, die bei der Erhebung von expliziten Relevanzbewertungen im Forschungskontext berücksichtigt werden sollten. Diese Effekte sind als ein Zusammenspiel aufzufassen, zum einen bedingt durch die Reihenfolge von (a) experimentellen Bedingungen, (b) zu bearbeitenden Aufgaben und (c) Dokumenten zur Relevanzbewertung, zum anderen durch individuelle Faktoren.

Der Prozess der Relevanzbewertung ist ein Beurteilungsprozess (vgl. Abschnitt 3.1.3), daher ist es sinnvoll, Effekte bei der Erhebung mit Blick auf Urteilsfehler, wie sie beispielsweise beim Einsatz von Ratingskalen auftreten können (Döring & Bortz, 2016, S. 252 ff.), zu betrachten. Einer dieser Effekte ist der Primacy-Recency-Effekt und bezeichnet als Sammelbegriff die Reihenfolgen- bzw. Positionseffekte, die bei der Beurteilung von sequenziell dargebotenen Objekten auftreten können: bei einer Bevorzugung der Objekte auf den Anfangspositionen handelt es sich um den Primacy-Effekt (Primäreffekt); werden Objekte auf den Endpositionen höher gewichtet, spricht man vom Recency-Effekt (Rezenzeffekt) (Döring & Bortz, 2016, S. 254–255). Bezogen auf die Bewertung von Dokumenten beschreiben Xu & Wang (2008) den Reihenfolgeneffekt dadurch, dass die Relevanz eines Dokuments unterschiedlich wahrgenommen wird, wenn es an verschiedenen Positionen innerhalb einer Reihe präsentiert wird. In diesem Zusammenhang definieren sie die Begriffe order effect, primacy effect und recency effect wie folgt:

[W]e define an order effect as a user’s different evaluations towards a document when it is placed in different positions in a list. We define a primacy (recency) effect as the situation when a document is more favorably evaluated when it is placed earlier (later) in a list than when it is placed later (earlier). Primacy and recency effects are two types of order effect outcome. (Xu & Wang, 2008, S. 1266)

Abbildung 4.4 zeigt den Zusammenhang über die Effekte bei der Erfassung von expliziten Relevanzbewertungen basierend auf den Erkenntnissen von informationswissenschaftlichen Studien zu order effects: Reihenfolgeneffekte zeigen sich in Experimenten anhand von Ermüdung und Lerneffekten, die wiederum unerwünschte Effekte im Verhalten der Versuchspersonen nach sich ziehen können. Im Kontext der Relevanzbewertung untersuchten Studien Effekte, die ebenfalls auf Ermüdung und Lerneffekte zurückzuführen sind und mit Modellen über menschliches Verhalten erklärt werden können. Nachfolgend werden diese Effekte und Modelle kurz erläutert und die Maßnahmen, die diesen Erkenntnissen zufolge für die vorliegende Studie ergriffen wurden, dargelegt.

Abbildung 4.4
figure 4

Effekte bei der Erhebung von expliziten Relevanzbewertungen

In Experimenten sind Ermüdung der Probandinnen und Probanden und mögliche Lerneffekte bei der Entwicklung des Untersuchungsdesigns zu berücksichtigen. Ermüdung (fatigue) kann die Ausführung von Tätigkeiten und die Leistung von Personen beeinträchtigen. Dies muss aber nicht zwangsläufig der Fall sein, der Effekt lässt sich beispielsweise durch Enthusiasmus oder in Notsituationen neutralisieren (Clemmensen & Borlund, 2016). Ermüdung wird beeinflusst durch die Anzahl, die Komplexität und den Schwierigkeitsgrad der zu bearbeitenden Aufgaben. Allerdings stellten Clemmensen & Borlund (2016) in ihrer Studie über den order effect in der IIR-Evaluierung fest: „[F]atigue is present, but the effect of it [on performance] is absent“ (S. 210). Ein Lerneffekt kommt durch die kognitive Verarbeitung der wahrgenommenen Objekte zustande und, bezogen auf den Prozess der Informationssuche, durch die Vermehrung des Wissensstands innerhalb dieses Prozesses (siehe psychologische Relevanz, vgl. Abschnitt 3.1.1).

Aufgrund der Reihenfolge, in der Versuchspersonen die verschiedenen Bedingungen in einem Experiment mit Within-Subjects-Design durchlaufen, entstehen Carry-over-Effekte, die eine inhaltliche Beeinflussung der Teilnehmenden in einer Bedingung durch die vorangegangene Bedingung bezeichnen (Sedlmeier & Renkewitz, 2018, S. 168). Solche Carry-over-Effekte treten in Between-Subjects-Designs nicht auf, da jede Versuchsperson ausschließlich einer Bedingung ausgesetzt ist.

Ein weiterer Effekt, der sich aufgrund von Gelerntem durch eine bestimmte Reihenfolge von Aufgaben bzw. Fragen zeigen kann, ist der Good-subject-Effekt (Clemmensen & Borlund, 2016). Die „gute Versuchsperson“ ist geneigt sich erwartungskonform zu verhalten, also in einer Weise zu reagieren, die dazu führt, dass die Ergebnisse die vermutete Hypothese stützen.Footnote 15

Ermüdung kann bei der Erhebung von Relevanzbewertungen den Effekt hervorrufen, dass Versuchspersonen Dokumente hinsichtlich ihres Inhalts auf Basis von vermeintlich eher unbedeutenden, nachrangigen Merkmalen (peripheral cues)Footnote 16 wie des Titels beurteilen; Xu & Wang (2008) bezeichnen diesen Effekt als cursoriness effectFootnote 17, untersuchten diesen in ihrer Studie jedoch nicht individuell, weshalb keine genaueren Aussagen über den Einfluss dieses Effekts getroffen werden können. Die Autoren begründen allerdings den Primacy-Recency-Effekt mit dieser Art der „flüchtigen“ Bewertung:

The cursoriness effect has two consequences: First, documents of lower average subjective relevance receive better evaluations and demonstrate a recency effect; second, documents of higher subjective relevance receive worse evaluations and demonstrate a primacy effect. (Xu & Wang, 2008, S. 1268).

Als Erklärungsmodell für den cursoriness effect verweisen Xu & Wang (2008) auf das Elaborations-Wahrscheinlichkeit-Modell (Elaboration Likelihood Model)Footnote 18: So würden Motivation und kognitive Kapazitäten bestimmen, ob ein Informationsobjekt im Prozess der Informationsverarbeitung ausführlich und detailliert evaluiert wird oder zügig auf der Basis peripherer Hinweisreize. Mit Voranschreiten des Prozesses nehmen die kognitiven Kapazitäten der Versuchspersonen ab und Ermüdung tritt ein. Allerdings beziehen die Autoren sich auf die Bewertung von Dokumenten im Kontext der Websuche, wodurch Webseiten als Volltextdokumente dienen und eine Bewertung anhand des eigentlichen Inhalts (evaluative judgments) tatsächlich ermöglicht wird. Insofern stellt sich die Frage, inwieweit sich diese Theorie generell auf die Bewertung von Suchergebnissen in Form von Surrogaten (predictive judgments) und, mit Blick auf die vorliegende Arbeit, speziell auf Suchergebnisrepräsentationen in akademischen Suchsystemen übertragen lässt. Dieser Forschungsfrage kann im Rahmen dieser Arbeit nicht nachgegangen werden. Für das hier vorgestellte Experiment erschien die folgende Annahme plausibel: Der Cursoriness-Effekt tritt eher bei der Beurteilung von Informationsobjekten auf, die über den Umfang von Surrogaten in wissenschaftlichen Suchsystemen hinaus den eigentlichen Inhalt (zumindest teilweise) abbilden; auch das Abstract ist für eine detaillierte Evaluierung des Dokumenteninhalts nicht ausreichend.

Im Gegensatz zum ermüdungsbedingten Cursoriness-Effekt führt der Lerneffekt bei der Erhebung von Relevanzbewertungen zu zwei weiteren Effekten: dem Subneed-scheduling-Effekt und dem Threshold-Priming.

Den subneed scheduling effect beschreiben Xu & Wang (2008) als Anpassungseffekt, der durch die Bewertung anhand eines subneed, d. h. eines Teilbedürfnisses des Informationsbedürfnisses einer informationssuchenden Person, auftritt in Abhängigkeit von dem Zeitpunkt des Erscheinens eines zu bewertenden Dokuments und somit auch in Abhängigkeit seiner Position: Erscheint ein potenziell relevantes Dokument zu früh, wird es als thematisch weniger relevant erachtet; erscheint es zu spät, wird es ebenfalls als thematisch weniger relevant aber auch mit einem geringeren Neuigkeitswert beurteilt. Im erstgenannten Fall kann die thematische Relevanz nicht „korrekt“ beurteilt werden, weil die informationssuchende Person ihren Wissensstand auf der Basis der ersten Dokumente erweitert und ihr Informationsbedürfnis anpasst oder konkretisiert; im letztgenannten Fall passen die Dokumente in ihrer thematischen Relevanz nicht mehr aus demselben Grund und sie haben ihren Neuigkeitswert verloren. Dieser Anpassungseffekt konnte empirisch nachgewiesen werden bei einem Listenumfang von circa 40 Dokumenten (Xu & Wang, 2008).

Wie im Zusammenhang mit dem Cursoriness-Effekt angeführt, wurden in der Studie Webseiten bewertet, wodurch eine Bewertung des Suchergebnisses über die Metadaten (das Surrogat) hinaus erfolgen konnte. Vor diesem Hintergrund ist auch das von den Autoren als Erklärungsmodell für den Subneed-scheduling-Effekt angebotene Belief-adjustment-ModellFootnote 19 kritisch zu betrachten. Es basiert auf der Annahme, dass ein gegenwärtiger Wahrnehmungszustand mit dem Hinzukommen neuer Informationen angepasst wird und weist somit eine große Ähnlichkeit mit dem ASK-Konzept auf (Clemmensen & Borlund, 2016). Gemeint ist, dass spätere Informationen weniger Aufmerksamkeit erhalten und Anpassungen an diese zu einem verzerrten Einfluss früherer Informationen auf den finalen Zustand führen:

This type of order effect is known as the primacy effect in information integration. Similarly, if a situation leads to more cognitive attention to the later items, a recency effect emerges, with later items being more significant in the final belief. (Xu & Wang, 2008, S. 1266)

Die Frage, die sich daraus ergibt, lautet, wie umfangreich oder inhaltlich detailliert diese neu hinzukommenden Informationen beschaffen sein müssen, damit sich der Wissensstand der informationssuchenden Person in dem Maße vergrößern kann, sodass das subneed tatsächlich angepasst wird. Auch die Bearbeitung dieser Frage würde den Rahmen dieser Arbeit sprengen.

Das Threshold-Priming beschreiben Scholer u. a. (2013) als Effekt, der durch unterschiedliche Kalibrierungen interner Relevanzmodelle (Heuristiken) bei menschlichen Jurorinnen und Juroren auftritt. So würden heuristische Relevanzmodelle gebildet und Relevanzstufen (relevance thresholds) im Kontext der Bewertung beeinflusst durch die Bewertung (des Relevanzgrades) des zuvor gesehenen Dokuments. – „A long sequence of irrelevant documents, for instance, might cause an assessor to lower their threshold of relevance, or alternatively to lose concentration and miss relevant documents“ (Scholer et al., 2013, S. 623). Dieser Effekt kann demnach ebenfalls als Anpassungseffekt betrachtet werden. Ähnlich dem Belief-adjustment-Modell weisen die Autoren auf den AnkereffektFootnote 20 als Erklärungsmodell hin. Hierbei handelt es sich um eine kognitive Verzerrung, welche die menschliche Neigung erklärt, sich bei der Urteils- und Entscheidungsfindung auf zuerst präsentierte Informationen (Anker) zu beziehen. Die Ergebnisse der Studie von Scholer u. a. (2013) zeigen, dass in dem Fall, dass Juroren zu Beginn mit hochrelevanten Dokumenten konfrontiert werden, sie dazu tendieren, späteren Dokumenten niedrigere Relevanzbewertungen zu geben (und umgekehrt). In ihrer Studie zum Ankereffet bei Relevanzbewertungen konnten Shokouhi u. a. (2015) allerdings ein anderes Bewertungsverhalten beobachten: Die Juroren tendierten dazu, einem Dokument die gleiche Relevanzbewertung wie dem Dokument zu geben, das sie unmittelbar davor gesehen hatten. Die Autoren erklären diesen Unterschied mit den verschiedenen Arten von Ankereffekten. Während Scholer u. a. (2013) einen langfristigen Ankereffekt untersuchten, betrachteten Shokouhi u. a. (2015) einen kurzfristigen Ankereffekt:

The differences are caused by the type of anchoring that is considered in the two studies. Scholer et al. focus on long-term anchoring (top k labeled documents as the anchor) and analyze how this affects the relevance labels assigned to the documents judged later. In our work, we focus on the short-term anchoring (last labeled document as the anchor) and analyze how this affects the relevance labels assigned to the document judged immediately after. (Shokouhi et al., 2015, S. 964)

Scholer u. a. (2013) ließen die Dokumente im Stil von TREC einzeln und nacheinander (seitenweise) von Juroren bewerten; Shokouhi u. a. (2015) beschreiben die Form der Dokumentenpräsentation für die Juroren in ihrer Studie zwar nicht ausdrücklich, es ist aber davon auszugehen, dass diese die Dokumente ebenfalls einzeln und nacheinander sahen, da nur so sichergestellt werden konnte, dass ein Dokument zunächst wahrgenommen, dann bewertet und im Anschluss das nachfolgende Dokument betrachtet wird. Mit einer Präsentation der Dokumente als gemeinsame Liste hätte der Einfluss des Ankereffekts nicht untersucht werden können.

Zusammengefasst sind die Effekte, die bei der Erhebung von Relevanzbewertungen in einem Forschungskontext auftreten können, insbesondere auf Ermüdung und Lerneffekte zurückzuführen. In Experimenten wird versucht, Lerneffekte (Störvariablen) zu kontrollieren, z. B. durch Randomisieren, Ausbalancieren und die Durchführung als Blindversuch. Maßnahmen im Umgang mit potenziellen Störvariablen im Rahmen des hier berichteten Online-Experiments wurden bereits in Abschnitt 4.1.4 erläutert. Um einer Ermüdung der Versuchspersonen entgegenzuwirken, sollten Anzahl und Schwierigkeitsgrad der zu bearbeitenden Aufgaben genau abgewägt werden und neben dem Zeitaufwand auch die Motivation der Versuchsperson in den Blick genommen werden. So sind Anreize zu schaffen, die potenzielle Versuchspersonen zunächst zur Teilnahme anregen (vgl. Abschnitt 4.2.5) und schließlich die Teilnehmenden zur Weiterbearbeitung und zum Beenden der Untersuchung motivieren. Demnach sind extrinsische wie intrinsische Faktoren bei der Motivation von Bedeutung.

Motivation kann durch Anregung von Interesse oder einen Neuigkeitswert hervorgerufen werden. Diesbezüglich empfehlen Clemmensen & Borlund (2016), die zu bearbeitenden Aufgaben entsprechend zu gestalten und beispielsweise das Konzept der Simulated work task situations umzusetzen. Ihrer Empfehlung wurde in dem hier vorgestellten Experiment gefolgt, da die Beschreibungen der Informationsbedürfnisse auf dem genannten Konzept basieren (vgl. Abschnitt 4.2.1). Einen intrinsischen Motivationsfaktor stellt das Need for CognitionFootnote 21 (NfC) dar. Es kennzeichnet die Bereitschaft von Menschen, ein hohes Maß an kognitiven Kapazitäten bei der Bearbeitung von Aufgaben bzw. der Lösung von Problemen aufzuwenden und dabei Vergnügen zu empfinden; kurz bedeutet es die Freude am Denken. Neben dem Einfluss des Ankereffekts untersuchten Scholer u. a. (2013) auch den Einfluss des NfC. In ihrer Studie stellten sie fest, dass Personen mit einem niedrigeren NfC niedrigere Relevanzbewertungen vergaben und Personen mit einem höherem NfC mehr Zeit auf Relevanzbewertungen verwendeten und eher mit den Expertenbewertungen überein stimmtenFootnote 22. Da die Zielgruppe der vorliegenden Studie in der Wissenschaft tätige Akademikerinnen und Akademiker umfasst, ist bei den Teilnehmenden von einem hohen NfC auszugehen. Motivationsfaktoren sind dabei eher als Einflussparameter in Hinblick auf das erfolgreiche Abschließen des Fragebogens (das Durchhalten der Teilnehmenden) zu sehen, da personenbezogene Störvariablen mit der Durchführung des Experiments als Within-Subjects-Design ohnehin perfekt ausbalanciert sind und sich derartige Effekte in den Ergebnissen nicht wiederfinden sollten.

Abschließend lässt sich die Frage, ob im Rahmen des hier vorgestellten Experiments die Surrogate einer Aufgabe als gemeinsame Liste untereinander oder einzeln und nacheinander den Versuchspersonen präsentiert werden sollten, mit Blick auf den Subneed-Scheduling-Effekt und das Threshold-Priming beantworten: Beide Effekte wurden in Studien untersucht, in denen die Juroren keine Listendarstellung der zu bewertenden Dokumente erhielten. Für das Experiment im Rahmen dieser Studie wurde eine Listendarstellung gewählt, um solche Effekte zu verhindern. Bei einer gemeinsamen Darstellung der Surrogate in einer Liste werden diese nicht separat wahrgenommen, sondern können im Kontext der anderen Ergebnisse betrachtet und bewertet werden. Aufgrund der Möglichkeit, ein nachträgliches Anpassen der Bewertung mit dem Schieberegler oder das Bewerten in einer von den Versuchspersonen frei gewählten Reihenfolge vorzunehmen, ließen sich eventuelle Auffälligkeiten in den Ergebnisdaten nicht eindeutig auf die genannten Effekte zurückführen.

Durch die zusätzliche Randomisierung der Reihenfolge der angezeigten Surrogate lassen sich mögliche Reihenfolge- bzw. Positionseffekte aus den Ergebnissen herausrechnen. Dies ist zwar unabhängig von einer Entscheidung für oder gegen eine Listendarstellung, sei um die Vollständigkeit der Argumente willen dennoch an dieser Stelle erwähnt.

Schließlich birgt die Listendarstellung den Vorteil, den realen Suchergebnisrepräsentationen in modernen akademischen Suchsystemen zu entsprechen und den Teilnehmenden eine dahingehend weniger künstliche oder ungewohnte Suchumgebung bieten zu können.

4.2 Planung und Umsetzung der Datenerhebung

Wie bei vielen bisherigen Studien zur Erforschung von Relevanzkriterien (vgl. Abschnitt 2.2) erfolgte die Datenerhebung durch Befragung der Versuchspersonen, wobei die Befragung bei dieser Studie die Erhebung von expliziten Relevanzbewertungen in den Fokus nimmt.

Konkret handelt es sich bei der Befragungsmethode um einen multifaktoriellen Online-Survey, der auch als (Online-)Vignettenanalyse, bezeichnet wird. Vignetten sind kurze Beschreibungen von Situationen mit variierenden Merkmalen, die von den Teilnehmenden beurteilt werden (Berger & Wolbring, 2015, S. 46). In dem vorliegenden Experiment können die Beschreibungen der Informationsbedürfnisse als Vignetten gesehen werden, wobei die Variationen in den zu bewertenden Surrogaten mit den manipulierten Popularitätsdaten liegen. Multifaktorielle Surveys stellen allerdings das einzige Experiment dar, in dem kein tatsächliches Verhalten, sondern Verhaltensintentionen wie Einstellungen oder Präferenzen erfasst werden, ohne dass Konsequenzen zu erwarten wären (Berger & Wolbring, 2015, S. 46). Das Bewerten von Surrogaten bezüglich ihrer Relevanz (Nützlichkeit) zur Befriedigung des Informationsbedürfnisses im Rahmen des Experiments kann als eine Erfassung von Verhaltensintentionen (Auspurg & Hinz, 2007, S. 295) gesehen werden. Diese Auffassung geht mit der Annahme einher, den Prozess der Relevanzbewertung von Suchergebnissen als einen Beurteilungsprozess zu begreifen und stellt ein inhaltliches Argument für die Wahl eines experimentellen Designs in Form eines (multi)faktoriellen Surveys zur Erforschung von Kriterien bei der Relevanzbewertung von Surrogaten dar.

In den nachfolgenden Abschnitten wird dargelegt, wie die Umsetzung des experimentellen Designs (vgl. Abschnitt 4.1) für die Datenerhebung konkret erfolgte. Die dem entwickelten Modell zur subjektiven Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen zugrunde gelegte Relevanzdefinition (vgl. Abschnitt 3.1.1) schlägt sich nicht nur in der Operationalisierung der abhängigen Variable nieder, sie steuert ebenfalls die Darstellungsart für die Datenerhebung: So wird der ziel- und aufgabenorientierten Relevanzdefinition dadurch Rechnung getragen, dass im Online-Fragebogen die Beschreibungen der Informationsbedürfnisse den zu bewertenden Surrogaten vorangestellt sind, um die Versuchspersonen als erstes auf die Kontextinformationen hinzuweisen, bevor sie durch Herunterscrollen die Surrogate sehenFootnote 23. Ferner beschränkt sich die Bewertung auf Surrogate, also auf predictive judgments, die die Einbindung oder Zugänglichmachung von Volltexten durch Verlinken verbietet. Diese und weitere Entscheidungen, die bezüglich der Herkunft der als Vorlage dienenden Dokumente für die Erstellung der Surrogate sowie der Art der Darstellung innerhalb der Suchergebnisliste getroffen wurden, beschreibt Abschnitt 4.2.2. Zunächst wird in Abschnitt 4.2.1 die Entwicklung der Aufgaben, die jeweils mit der Beschreibung eines Informationsbedürfnisses beginnen, erläutert; das Konzept der Simulated Work Task Situations diente dabei als Vorlage (Abschnitt 4.2.1.1). Des Weiteren werden das Vorgehen bei der Auswahl der Themen für die Aufgaben beschrieben (Abschnitt 4.2.1.2) sowie die Beschreibungstexte der drei Aufgaben angeführt (Abschnitt 4.2.1.3).

Neben der Entwicklung der Beschreibungen der Informationsbedürfnisse und der Erstellung der Surrogate gingen mit der Konstruktion des Fragebogens (Abschnitt 4.2.3) weitere Überlegungen in Hinblick auf zusätzliche Fragen einher. So wurden zunächst demografische Angaben der Teilnehmenden erfasst (Abschnitt 4.2.3.1), bevor ein Vorabfragebogen Items zum Informationssuchverhalten zeigte (Abschnitt 4.2.3.2). Zusätzlich zum eigentlichen Experiment, also der Erfassung der expliziten Relevanzbewertungen (Abschnitt 4.2.3.3), wurden den Teilnehmenden auch im Anschluss weitere Fragen gestellt, deren Antworten unter anderem den Nachteil quantitativer Methoden mildern sollten, indem teilweise offene Fragen Freitexteingaben verlangten, die für eine Auswertung vorab zu codieren sind (Abschnitt 4.2.3.4). Der Fragebogen schloss mit der Aufklärung über den tatsächlichen Zweck der Studie und der Möglichkeit zur Teilnahme an einem Gewinnspiel (Abschnitt 4.2.3.5).

Die Zielgruppe dieses Online-Experiments sind Personen, die Kenntnisse über den wissenschaftlichen Publikationsprozess und praktische Erfahrung im Umgang mit akademischen Suchsystemen besitzen. Es ist davon auszugehen, dass dies auf Personen zutrifft, die in einem Umfeld tätig sind, in dem sie zu eigenen Forschungszwecken regelmäßig mit akademischen Suchsystemen interagieren. Als potenzielle Teilnehmende kommen daher Personen infrage, die bereits erfolgreich eine umfangreiche, wissenschaftliche Arbeit eigenständig verfasst haben, d. h. mindestens einen Studienabschluss als Master, DiplomFootnote 24 oder Magister besitzen und aktuell an Hochschulen oder außeruniversitären Forschungseinrichtungen affiliiert sind. Dies trifft zu auf Promovierende, wissenschaftliche Mitarbeiterinnen und Mitarbeiter, Professorinnen und Professoren.

Die Zugehörigkeit zu einer bestimmten wissenschaftlichen Fachdisziplin stellt in Bezug auf die unterschiedlichen Forschungskulturen und deren Zitationsverhalten einen weiteren EinflussfaktorFootnote 25 auf den Prozess der Relevanzbewertung von Surrogaten in wissenschaftlichen Suchsystemen dar (vgl. Abschnitt 3.2.2). Vor diesem Hintergrund verlangte die Entscheidung, ob die Auswahl der Teilnehmenden auf eine zuvor festgelegte Wissenschaftsdisziplin begrenzt oder unabhängig einer Disziplinzugehörigkeit sein sollte, eine sorgfältige Abwägung.

Letztlich wurde darauf verzichtet, die Stichprobe auf Personen einer bestimmten Fachdisziplin einzugrenzen, sondern es sollten Teilnehmende aus möglichst allen wissenschaftlichen Disziplinen gewonnen werden, um den optimalen Stichprobenumfang zu erzielen und erste Erkenntnisse über den generellen Einfluss von Popularitätsdaten als Bestandteil von Suchergebnissen auf die Relevanzbewertung zu erlangen. Die einzige Ausnahme bestand darin, dass die Probanden keinen bibliotheks- oder informationswissenschaftlichen Hintergrund mitbringen sollten. Begründet wird diese Ausnahme im Zusammenhang mit der Frage, welche Themen die Informationsbedürfnisse und Surrogate abdecken sollten. Ferner kommt der externen Validität des Experiments zugute, dass die Versuchspersonen nicht alle derselben Fachdisziplin oder derselben Statusgruppe (z. B. Studierende) angehören (Berger & Wolbring, 2015, S. 46). Die Stichprobe in dieser Studie gehört somit zur Population der Wissenschaftlerinnen und Wissenschaftler an Universitäten in Deutschland. Die Berechnung des erforderlichen Stichprobenumfangs erfolgt in Abschnitt 4.2.4, das Vorgehen bei der Gewinnung der Studienteilnehmenden wird in Abschnitt 4.2.5 ausführlich erläutert.

Vor der Durchführung der Studie wurde geprüft, ob eine formale Genehmigung von der Ethikkommission der Universität HildesheimFootnote 26 einzuholen ist. Da die Probandinnen und Probanden während der Teilnahme keinen gesundheitlichen oder zu Beeinträchtigungen führenden Risiken ausgesetzt waren (Döring & Bortz, 2016, S. 130 f.), wurde darauf verzichtet, eine entsprechende Anfrage zu stellen. Ferner wurden forschungsethische sowie datenschutzrechtliche Bestimmungen im Zuge der Datenerhebung und auch bei der späteren Datenanalyse befolgt. Diese wurden bei der Fragebogenkonstruktion (vgl. Abschnitt 4.2.3) und der Probandenakquise (vgl. Abschnitt 4.2.5) unter anderem in Hinblick auf Freiwilligkeit und mit dem Hinweis auf die Speicherung personenbezogener Daten explizit berücksichtigt.

4.2.1 Entwicklung der Informationsbedürfnisse

Obwohl die Studie vom Untersuchungsdesign her dem klassischen Ansatz der Information Retrieval-Evaluierung folgt, wurde aus verschiedenen Gründen auf eine Nachnutzung bestehender Topics aus dem TREC- oder IIR-Kontext verzichtet. Eine Nachnutzung von TREC-Topics wurde hauptsächlich aus dem folgenden Grund ausgeschlossen: Wie bereits in mehreren Abschnitten erwähnt, wird die dem Cranfield-Paradigma folgende, traditionelle IR-Evaluierung dem dynamischen und kontextabhängigen Relevanzkonzept aus der subjektiven Perspektive einer informationssuchenden Person nicht gerecht. Dieses wird insbesondere anhand der inzwischen veralteten TREC-Aufgaben deutlich, denn diese enthielten neben allgemeinen Informationen zum Thema unter anderem eine explizite Definition eines als relevant zu bewertenden Dokuments, wie zum Beispiel die folgende Beschreibung aus den ersten Tracks TREC-1 und TREC-2 zeigt (Harman, 2005, S. 30):

<num> Number: 053

<dom> Domain: International Economics

<title> Topic: Leveraged Buyouts

<desc> Description:

Document mentions a leveraged buyout valued at or above 200 million dollars.

<smry> Summary:

Document mentions a leveraged buyout valued at or above 200 million dollars.

<narr> Narrative:

A relevant document will cite a leveraged buyout (LBO) valued at or above 200 million dollars. The LBO may be at any stage, e.g., considered, proposed, pending, a fact. The company (being) taken private must be identified. The offer may be expressed in dollars a share.

<con> Concept(s):

1. leveraged buyout, LBO

2. take private, go private

3. management-led leveraged buyout

<fac> Factor(s):

<price> Price: >= 200 million dollars </fac>

<def> Definition(s):

Leveraged Buyout (LBO) – Takeover of a company using borrowed funds, with the target company’s assets serving as security for the loans taken out by the acquiring firm, which repays the loans out of the cash flow of the acquired company or from the sale of the assets of the acquired firm.

Das Aussehen der traditionellen TREC-Topics hat sich inzwischen verändert; so werden seit 2015 neue, elaborierte Topics eingesetzt, wie beispielsweise dieser Task zeigt (Quelle: https://trec.nist.gov/data/tasks/subtasks.txt):

Task id: 7

disneyland paris [I’m planning my visit to Disneyland Paris]

* Information about Disneyland Paris

* Disneyland Paris entrance fee

* Book a hotel

* Choose the right tickets and buy them

* Book flights/trains

* Avoid queues

* Plan your visit, what to do, when

* Plan meals and drinks in and out of the park

Diese neueren Tasks beinhalten zwar eine Ziel- bzw. Aufgabenbeschreibung, wie sie auch für den Einsatz in Interactive Information Retrieval (IIR)-Studien gefordert wird (Wildemuth et al., 2014), zeigen jedoch eher eine Auflistung von untergeordneten Aufgaben zu einem Thema, als dass sie Kontextinformationen über die Situation oder Motivation hinter dem eigentlichen Informationsbedürfnis böten. Für das hier beschriebene Online-Experiment wurde daher auf das Konzept der Simulated Work Task Situations zurückgegriffen, das einen narrativen Ansatz verfolgt. Tasks, die diesem Konzept folgen und bereits in IIR-Studien entwickelt und erprobt wurden, kamen für eine Nachnutzung in dem hier beschriebenen Experiment allerdings ebenfalls nicht infrage, da nicht alle Eigenschaften bestehender Tasks den Anforderungen hinsichtlich der Zielgruppe, des Suchkontexts und des Kontexts in Hinblick auf akademische Suchsysteme entsprachen.Footnote 27

4.2.1.1 Simulated Work Task Situations

Das Konzept der simulierten Arbeitsaufgabensituation (simulated work task situation, SWTS) wurde von Borlund & Ingwersen (1997) eingeführt und später als wesentlicher Bestandteil in das von Borlund (2003b) entwickelte Framework zur Evaluierung von IIR-Systemen aufgenommen.

Dabei handelt es sich um kurze Beschreibungstexte von Informationsbedürfnissen im Kontext einer bestimmten Situation, die die Testpersonen zur Suche in einem IR-System motivieren sollen (Borlund, 2003a). Zum einen dienen die Beschreibungstexte dazu, bei den Testpersonen ein simuliertes Informationsbedürfnis hervorzurufen, zum anderen liefern sie den Rahmen zur Bewertung von situativer Relevanz; konkret erhalten die Testpersonen Informationen über das Informationsbedürfnis, den Kontext der jeweiligen Situation, das hinter dem Bedürfnis stehende Informationsproblem sowie das zu erreichende Ziel der Suche (Borlund & Ingwersen, 1997).

Eine simulated work task situation sieht beispielsweise wie folgt aus (Borlund, 2016, S. 396):

Simulated work task situation: after your graduation you will be looking for a job in industry. You want information to help you focus your future job seeking. You know it pays to know the market. You would like to find some information about employment patterns in industry and what kind of qualifications employers will be looking for from future employees.

Borlund (2016) definiert die folgenden fünf Voraussetzungen für den Einsatz von SWTSs (S. 406–407):

  1. (1)

    To tailor the simulated work task situation to the test participants:

    • a situation the test participants can relate to and identify themselves with;

    • a situation the test participants find topically interesting and/or of relevance to them; and

    • a situation that provides enough imaginative context in order for the test participants to be able to apply the situation.

  2. (2)

    To include test participants’ personal information needs as baseline.

  3. (3)

    To rotate the order of simulated work task situation and personal information needs (counterbalancing).

  4. (4)

    To pilot test prior to actual testing (often more than once).

  5. (5)

    To display the used simulated work task situations when reporting the study.

Diesen Voraussetzungen zufolge sollen Beschreibungen von SWTSs auf die Zielgruppe zugeschnitten sein, sodass die Situation für die Testpersonen authentisch, realistisch und relevant ist, was eine gewisse Homogenität der Zielgruppe voraussetzt (Borlund, 2016, S. 396 ff.). Sind die unter Punkt (1) genannten Voraussetzungen an die Entwicklungen der Aufgaben erfüllt, resultiert dies in einer sinnvollen Balance zwischen weitgehend realistischen Bedingungen einerseits und dem in Experimenten notwendigen Maß an Kontrolle andererseits, unter der Voraussetzung, dass die Aufgaben für alle Testpersonen (auch im Wortlaut) gleich sind, und wie in Punkt (3) gefordert, in unterschiedlicher Reihenfolge angezeigt werden (Borlund, 2016, S. 396).

Vor diesem Hintergrund stellt jedoch die Integration von persönlichen Informationsbedürfnissen der Testpersonen (Punkt 2) die experimentelle Kontrolle vor ein Problem: Dadurch, dass die Testpersonen jeweils zusätzlich ein eigenes Informationsbedürfnis mitbringen, können diese Daten als Baseline nur für die jeweilige Person individuell betrachtet werden; ein Vergleich mit den Daten der anderen Testpersonen bezüglich deren persönlicher Informationsbedürfnisse kann aufgrund der zu erwartenden Unterschiede hinsichtlich Komplexität und Schwierigkeitsgrad nicht getroffen werden.

Die Forderung nach einem Pretest oder mehreren Testläufen (Punkt 4) zielt auf die mögliche Anpassung insbesondere der Aufgabenbeschreibungen, welche durch die Erhebung qualitativer Daten (z. B. Interview, Methode des lauten Denkens, halb-standardisierter Fragebogen mit offenen Fragen) erfüllt werden kann. Punkt (5) bezieht sich auf die Verwertung der Forschungsergebnisse und verlangt, die den Testpersonen vorgelegten Aufgabenbeschreibungen als Bestandteil des Studiendesigns exakt abzubilden; auf diese Weise können sich Leserinnen und Leser der Publikation ein eigenes Urteil über die Angemessenheit der Aufgaben und die Validität der Ergebnisse bilden. Auch in Hinblick auf die Durchführung von Replikationsstudien ist diese Forderung sinnvoll und nützlich.

Das Konzept der SWTSs kann als ein inzwischen etabliertes Instrument bei der Datenerhebung in IIR-Studien gesehen werden, denn bereits in mehr als sechzig empirischen Studien wurden SWTSs verwendet, auch wenn nicht alle Anforderungen an deren Erstellung und Umsetzung im Untersuchungsdesign erfüllt wurden (Borlund, 2016).

Die vorliegende Forschungsarbeit befasst sich mit dem Relevanzkonzept, das im Kontext des Interactive Information Retrieval ein zentrales Thema darstellt (vgl. Kapitel 1), allerdings ohne, dass die Probanden im Rahmen des Experiments selbständig eine Suchanfrage formulierten und mit dem System interagierten. Obwohl die zu bearbeitenden Aufgaben ausschließlich in der Bewertung von Suchergebnissen bestanden, wurden für die Nutzerstudie Aufgaben entwickelt, die die Voraussetzungen für den Einsatz von simulated work task situations bestmöglich erfüllen, wie in Tabelle 4.8 aufgelistet. Lediglich auf die Einbindung persönlicher Informationsbedürfnisse der Probanden musste aufgrund des experimentellen Designs in Hinblick auf Manipulation und Kontrolle verzichtet werden.

Tabelle 4.8 Überprüfung der Voraussetzungen von SWTSs für das Online-Experiment

4.2.1.2 Themenauswahl

Die Auswahl der Themen war maßgeblich beeinflusst von der Population, die die Stichprobe repräsentiert. Die Teilnehmenden konnten unabhängig ihrer Disziplinzugehörigkeit mitwirken, als einzige Ausnahme waren Personen mit einem bibliotheks- oder informationswissenschaftlichen Hintergrund von der Teilnahme ausgeschlossen. Der Grund dafür bestand darin, dass die Informationsbedürfnisse Themen aus diesem Fachgebiet behandeln sollten. Das Ziel bestand darin, solche informationswissenschaftlichen Themen zu identifizieren, die auch für Personen mit einem nicht-informationswissenschaftlichen Hintergrund interessant und verständlich sind.

Die Motivation hinter dieser Entscheidung soll anhand eines Beispiels veranschaulicht werden: Bei einem biologischen Thema, wie beispielsweise dem Jagdverhalten von Katzen als möglicher Forschungsgegenstand der Zoologie, könnte es sein, dass eine Versuchsperson zufällig mit genau diesem Thema (wissenschaftlich) vertraut ist und die vielzitierten Quellen sowie bekannte Forschende auf diesem Gebiet oder angrenzender Gebiete in der Zoologie kennt. Dies könnte dazu führen, dass die manipulierten Popularitätsdaten zu einem Autor oder Werk als falsche Angaben entlarvt würden, wodurch der eigentliche Zweck des Experiments mit hoher Wahrscheinlichkeit korrekt von der Versuchsperson vermutet würde. In diesem Fall würde sie sich möglicherweise bewusst anders verhalten als die anderen Versuchspersonen, denen diese Hinweise auf das Ziel der Befragung entgehen, und es könnte ein Good-subject-Effekt auftreten. Somit wäre die interne Validität des Experiments gefährdet. Zudem wäre die Erstellung der Surrogate mit der Schwierigkeit verbunden, Quellen zu finden, deren Beurteilung hinsichtlich ihrer Güte und Angemessenheit ohne entsprechende Fachkenntnisse nur mit einem weitaus höheren Aufwand (z. B. Einholgen von Experten-Feedback) zu realisieren gewesen wäre. Als Informationswissenschaftlerin kann die Autorin entsprechende Quellen zu informationswissenschaftlichen Themen besser bewerten als beispielsweise zoologische oder astrophysikalische Quellen.

Zusammengefasst basiert die Themenauswahl auf dieser Anforderung: Die Versuchspersonen sollten Informationsbedürfnisse zu Themen erhalten, die sie zwar kennen, um die Suchergebnisse verstehen und bewerten zu können, derartige Themen aber nicht im Rahmen ihrer Forschung behandeln, um die Gefahr einer möglichen Identifikation der manipulierten Zitations- und Downloadzahlen bestmöglich ausschließen zu können. Die Themen wurden im Zusammenhang mit der Herkunft der Dokumente, die als Vorlage für das Stimulusmaterial in Form der zu bewertenden Surrogate dienten (vgl. Abschnitt 4.2.2), abgeleitet; wenn nicht genügend Dokumente zu einem potenziell geeigneten Thema gefunden werden konnten, wurde jenes Thema nicht weiterverfolgt.

Für den Pretest wurden zunächst Beschreibungstexte und Surrogate zu neun informationswissenschaftlichen Themen entwickelt:

  1. 1.

    Altmetrics

  2. 2.

    Peer Review

  3. 3.

    Wikipedia

  4. 4.

    Data Citation

  5. 5.

    Open Access

  6. 6.

    Google

  7. 7.

    Information Literacy & Gaming

  8. 8.

    Visual Information Seeking

  9. 9.

    Scholarly Communication

Nach der Anpassung des experimentellen Designs auf Basis der Erkenntnisse aus dem Pretest wurden schließlich die drei Themen ausgewählt, die von der Autorin (auch aufgrund der Rückmeldungen aus dem Pretest) als am besten geeignet und gut verständlich erachtet wurden: Altmetrics, Peer Review, Wikipedia.Footnote 28

4.2.1.3 Formulierung der Aufgaben

Die Entwicklung der Beschreibungstexte der Informationsbedürfnisse erfolgte nach einem zuvor festgelegten Schema. Zunächst sollte der inhaltliche Rahmen, in dem sich das Thema befindet, eingegrenzt und die Motivation hinter dem Bedürfnis verdeutlich werden. Anschließend wurde der Wunsch, nach welchen Information gesucht wird, beschrieben. Dieser stellt das Informationsbedürfnis dar. Die Beschreibungstexte (Vignetten) bestehen aus zwei Teilen: (1) dem Kontext und (2) dem expliziten Informationsbedürfnis. Die Überleitung zu den Suchergebnissen erfolgte mit der Aufforderung zur Bewertung, deren Wortlaut für alle drei Aufgaben identisch ist. Um eventuellen Unklarheiten bezüglich der Aufgabeninstruktion vorzubeugen, wurde das Informationsbedürfnis explizit als solches gekennzeichnet. Aufgabe 1 zum Thema Altmetrics beinhaltete den folgenden Text:

Soziale Medien wie Twitter und Facebook sind aus dem Internet, wie wir es heute kennen, nicht mehr wegzudenken. Auch in der wissenschaftlichen Kommunikation werden soziale Medien genutzt. Vor diesem Hintergrund wurde vor einigen Jahren die Forderung nach neuen, alternativen Forschungsindikatoren (neben u.a. Publikationen und Drittmitteln) basierend auf Aktivitäten in sozialen Medien laut. Ihr Informationsbedürfnis: Sie möchten herausfinden, inwieweit diese altmetrics (alternative metrics) als Forschungsindikator geeignet sind.

Die Aufgabe 2 zum Thema Peer Review wurde wie folgt formuliert:

Qualität in der Wissenschaft soll durch Peer Review gesichert werden. Die Diskussion über die Vor- und Nachteile von Peer Review ist nicht neu. Menschen werden in ihrer Urteilsfindung oft unbewusst beeinflusst (kognitive Verzerrung), was im Peer Review-Prozess dazu führen kann, dass Gutachten als ungerecht wahrgenommen werden. Ihr Informationsbedürfnis: Sie möchten herausfinden, welche Arten von Verzerrungen (Bias) im Peer Review-Prozess auftreten (können) bzw. wie mit diesen Verzerrungen umgegangen werden kann.

Die Aufgabe 3 zu dem Thema Wikipedia wurde folgendermaßen beschrieben:

Viele Menschen nutzen die Online-Enzyklopädie Wikipedia – die deutschsprachige Webseite wird eigenen Angaben zufolge täglich Millionen Mal aufgerufen. Trotz ihrer Beliebtheit wird Wikipedia im Bildungskontext und im Hochschulbereich gemeinhin nicht als zitierfähige Informationsquelle erachtet, da Zweifel an der Güte bzw. Qualität von Wikipedia-Artikeln bestehen. Ihr Informationsbedürfnis: Sie möchten herausfinden, ob diese Zweifel in Hinblick auf Wikipedia und Lehre berechtigt sind.

Die Instruktion zur Bewertung folgte jeweils direkt im Anschluss an die Beschreibungen:

Auf Basis dieser Beschreibung wurde eine Suchanfrage formuliert, die die nachfolgenden Suchergebnisse erzielte. Bitte beurteilen Sie, für wie nützlich Sie jedes Suchergebnis zur Befriedigung des Informationsbedürfnisses halten! (Zur Erinnerung: Die Reihenfolge der Suchergebnisse ist rein zufällig!)

Der Hinweis auf die zufällige Reihenfolge sollte die Versuchspersonen motivieren, bewusst nicht dem typischen Verhalten auf Ergebnisseiten bei der Websuche – das Bevorzugen der ersten drei Treffer – zu folgen, sondern die Möglichkeiten des Hochscrollens und Anpassens von Bewertungen zu nutzen. Ein solcher Hinweis ist zwar in der traditionellen (I)IR-Forschung nicht üblich, da mit diesem Experiment jedoch weder ein Ranking-Algorithmus noch ein IR-System in irgendeiner Weise evaluiert wurde, sondern Kenntnisse über das Verhalten informationssuchender Personen bezüglich der Anwendung von Kriterien bei der Relevanzbewertung erzielt werden sollen, steht ein derartiger Hinweis nicht im Konflikt mit dem Zweck des Experiments.

Die Informationsbedürfnisse wurden formuliert mit dem Ziel, sich inhaltlich mit den dazugehörigen Surrogaten zu decken. Die Anforderung bestand darin, bei der Auswahl der Surrogate auf eine hohe thematische Relevanz auf der Basis der Aboutness (vgl. Abschnitt 2.1.1) der Surrogate zu achten, um die Bewertungen durch die Versuchspersonen möglichst auf die manipulierten Zitations- und Downloadzahlen zurückführen und andere Faktoren ausschließen zu können. Neben den Variationen der drei UVn sollten alle anderen potenziellen Einflussfaktoren, die jedoch nicht als separate UV manipuliert und untersucht wurden, wie beispielsweise das Erscheinungsjahr und der Zeitschriftentitel, als weitgehend homogen wahrgenommen werden. Demzufolge wurden zunächst die Quellen für die Erstellung der Surrogate ausgewählt und anschließend die Informationsbedürfnisse formuliert.

4.2.2 Erstellung der Surrogate als Bewertungsgegenstand

Die im Rahmen des Experiments zu bewertenden Surrogate basieren auf realen Publikationen, die anhand von Überblicksartikeln (Literaturschauen) zu ausgewählten Themen (vgl. Abschnitt 4.2.1) mittels dem Verfolgen von zitierten und zitierenden Quellen, also dem backward chaining und forward chaining – einer üblichen Suchstrategie in Information Retrieval-Systemen (Ellis, 1989), die ebenfalls für die Literaturschau der vorliegenden Arbeit (vgl. Kapitel 2) – identifiziert wurden. Diese Vorgehensweise wurde gewählt, weil davon auszugehen ist, dass Quellen in Überblicksartikeln von den Autorinnen und Autoren aufgrund ihrer thematischen Relevanz zitiert werden, d. h. die Bewertung dieser Quellen hinsichtlich ihrer thematischen Relevanz ist bereits durch Experten erfolgt, die sich mit dem Inhalt der zitierten Dokumente auseinandergesetzt (evaluative judgments) und deren Eignung, als Quelle in den entsprechenden Überblicksartikel mit aufgenommen zu werden, festgestellt hatten.

Ein alternatives Vorgehen wäre die Auswahl geeigneter Quellen aus Suchergebnislisten nach Eingabe einer Suchanfrage in einem wissenschaftlichen Suchsystem (predictive judgments). Es erschien jedoch sinnvoller, auf die bereits als thematisch relevant zu erachtenden Quellen in den Überblicksartikeln zurückzugreifen.

Unabhängig von dem Vorgehen bei der Quellenauswahl wurde auf das Einbinden einer Suchanfrage in die Aufgabenbeschreibung verzichtet, weil die Vermutung bestand, dass die Versuchspersonen eher auf mit der Suchanfrage übereinstimmende Begriffe im Titel und Abstract achten würden als auf die manipulierten Popularitätsdaten. Es erschien für das Erreichen valider Ergebnisse sinnvoll, diese potenzielle Ablenkungsursache auszuschließen.

Für die drei ausgewählten Themen dienten die folgenden Artikel als Quellen:

  1. (1)

    Altmetrics:

    Sugimoto, C. R., Work, S., Larivière, V., & Haustein, S. (2017). Scholarly use of social media and altmetrics: A review of the literature. Journal of the Association for Information Science and Technology, 68(9), 2037–2062. http://doi.org/10.1002/asi.23833

  2. (2)

    Peer Review:

    Lee, C. J., Sugimoto, C. R., Zhang, G., & Cronin, B. (2013). Bias in peer review. Journal of the American Society for Information Science and Technology, 64(1), 2–17. http://doi.org/10.1002/asi.22784

  3. (3)

    Wikipedia:

    Mesgari, M., Okoli, C., Mehdi, M., Nielsen, F. Å., & Lanamäki, A. (2015). “The sum of all human knowledge”: A systematic review of scholarly research on the content of Wikipedia. Journal of the Association for Information Science and Technology, 66(2), 219–245. http://doi.org/10.1002/asi.23172

    Okoli, C., Mehdi, M., Mesgari, M., Nielsen, F. Å., & Lanamäki, A. (2014). Wikipedia in the eyes of its beholders: A systematic review of scholarly research on Wikipedia readers and readership. Journal of the Association for Information Science and Technology, 65(12), 2381–2403. http://doi.org/10.1002/asi.23162

Die Auswahl geeigneter Publikationen aus den Überblicksartikeln erfolgte anhand von sechs Kriterien, die zum Teil erst während des Auswahlprozesses aufgestellt wurden:

  1. 1.

    Dokumenttyp: Es sollen ausschließlich Forschungsartikel in wissenschaftlichen Zeitschriften oder Konferenzbänden aus Gründen der Vergleichbarkeit und des Vorhandenseins gleichwertiger Abstracts ausgewählt werden, d. h. keine Monografien, Reports, graue Literatur, Abschlussarbeiten, Workshop-Beiträge oder Poster auf Konferenzen.

  2. 2.

    Quelle: Die Zeitschrift bzw. der Konferenzband soll eine informationswissenschaftliche Quelle sein.

  3. 3.

    Erscheinungsjahr: Die Publikation soll in den Jahren 2010 bis 2016 erschienen sein, was zum Zeitpunkt der Entwicklung der Studie als jung genug erachtet wurde, um als aktuell zu gelten, und als alt genug, um je nach experimenteller Bedingung hohe Download- bzw. Zitationszahlen angesammelt haben zu können; dabei zählt die Angabe der gedruckten Quelle, nicht das Datum eines eventuell vorab online veröffentlichten Dokumentes.

  4. 4.

    Autorenschaft: Es sollen keine Veröffentlichungen von Organisationen, Arbeitsgruppen oder ähnlichen ausgewählt werden, um autorenbezogene Zitationsangaben zu ermöglichen.

  5. 5.

    Autoren: Innerhalb eines Tasks, also innerhalb einer Liste von Surrogaten, soll jeder Autorenname nur einmal vorkommen, um die Wirkung der manipulierten Zitationsangaben nicht zu gefährden; ggf. ist der jüngere Aufsatz zu wählen.

  6. 6.

    Titel: Es sollen keine Quellen mit fachspezifischen Abkürzungen im Titel, die nicht aufgelöst sind, ausgewählt werden.

Da die Überblicksartikel in internationalen, englischsprachigen Publikationen erschienen sind, ist auch die Auswahl der Quellen auf Zeitschriften- und Konferenzbeiträge in englischer Sprache begrenzt. Englisch gilt als Wissenschaftssprache und so war davon auszugehen, dass die Versuchspersonen keine Schwierigkeiten mit dem Verstehen der Surrogate haben würden.

Für die Erstellung der 27 Surrogate wurde eine Vorlage entwickelt, die sich am Design der Suchergebnisdarstellung in Google Scholar orientiert, zum Beispiel bezüglich der blauen und grünen Schriftfarbe; die englischsprachigen Bezeichnungen der Popularitätsdaten und der Systemfunktionalitäten (Hinzufügen zu einer Merkliste, Zitieren und Suche nach ähnlichen Dokumenten) suggerieren die Oberfläche eines internationalen wissenschaftlichen Suchsystems (vgl. Abbildung 4.5). In diese Vorlage wurden jeweils die Metadaten der ausgewählten Publikationen eingefügt. Dafür wurden die in Tabelle 4.4 gelisteten Werte der UV-Ausprägungen zu den einzelnen Surrogaten anhand der in Tabelle 4.7 aufgezeigten Reihenfolge manuell zugewiesen. Zu beachten ist hierbei, dass die Surrogate alle dieselbe, angemessene Länge aufweisen sollten und die Einbindung des vollständigen Abstracts daher nicht möglich war. Zudem konnte jedes Werk nur die Angaben zu einem Autor erhalten; aus diesem Grund wurde bei Publikationen mit mehr als einem Autor oder einer Autorin der erstgenannte Name verwendet unter Berücksichtigung des 5. Auswahlkriteriums, womit ein mehrmaliges Auftreten eines Namens ausgeschlossen werden sollte.

Schließlich wurden die Surrogate als einzelne Bilddateien abgespeichert, wodurch eine randomisierte Präsentation im Fragebogen erfolgen konnte (vgl. Abschnitt 4.2.3). Abbildung 4.6 zeigt exemplarisch das erste Surrogat der ersten Aufgabe Altmetrics in der experimentellen Bedingung, in der die Zahl der Downloads hoch, die Zitationszahl des Werkes nicht bekannt und die Anzahl der Zitationen des Autors ebenfalls hoch ist. Der vollständige Fragebogen mit allen Surrogaten ist im Anhang 2 im elektronischen Zusatzmaterial enthalten.

Abbildung 4.5
figure 5

Surrogat-Template

Abbildung 4.6
figure 6

Beispiel-Surrogat Nr. 1 aus Aufgabe 1

4.2.3 Konstruktion des Online-Fragebogens

Der Fragebogen wurde mit der Software EFS Survey entwickelt. EFS (Enterprise Feedback Suite) Survey ist eine webbasierte Softwarelösung in dem akademischen Programm Unipark der Questback GmbH, mit deren Hilfe sich Online-Befragungen konzipieren, organisieren, durchführen und bis zu einem gewissen Grad auch auswerten lassen. Das Tool ersetzt jedoch nicht spezielle Statistik-Software wie SPSS, mit deren Hilfe sich komplexe statistische Verfahren anwenden lassen. EFS Survey wurde für die Konstruktion des Fragebogens und die Erhebung der Daten verwendet, weil diese Software vielfältige Funktionen bietet, die insbesondere in Hinblick auf die Anforderungen des entwickelten experimentellen Untersuchungsdesigns erforderlich sind, wie beispielsweise die Randomisierung der Fragebogenseiten und der einzelnen Items, ohne zusätzlichen Programmieraufwand zu betreiben. Des Weiteren sind Hilfestellungen durch Tutorials, den Support und Fragen und Antworten im Community-Bereich gegeben. Zudem ist es möglich, die Ergebnisdaten in unterschiedliche Dateiformate zu exportieren, sodass ein Bearbeiten und Auswerten der Daten mit Statistiksoftware wie SPSS problemlos erfolgen kann.

Der vollständige Fragebogen jeweils vor der Freischaltung in der Editor-Ansicht sowie nach der Freischaltung zur Teilnahme ist abgebildet in Anhang 2 im elektronischen Zusatzmaterial und online im Open Science Framework (OSF)Footnote 29 abrufbar; ebenso im OSF sind das aus EFS Survey exportierte Codebuch mit den Variablennamen und Item-Eigenschaften.

Dem Fragebogen voran gestellt war das Einwilligungsformular mit Informationen über die Studie und den Kontaktdaten der Autorin als Ansprechperson. Hervorzuheben ist an dieser Stelle die Formulierung des Studienziels. Um die interne Validität des Experiments nicht zu gefährden, ist es notwendig, die Teilnehmenden nicht über dessen wahren Zweck oder zu prüfende Hypothesen aufzuklären. Daher wurde als Untersuchungsziel die Erforschung der Nutzung wissenschaftlicher Suchsysteme genannt. Eine derartige Täuschung widerspricht zwar dem forschungsethischen Prinzip der bewussten Einwilligung, ist jedoch aufgrund der „methodischen Alternativlosigkeit einerseits sowie des Ausschlusses von Nachteilen für die Probanden andererseits“ (Döring & Bortz, 2016, S. 126) als Begründung zulässig.

Für die Bearbeitung des Fragebogens waren als Zeitaufwand 20 bis 30 Minuten im Einwilligungsformular genannt; dieser zeitliche Rahmen wurde anhand der auf den Pretest-Ergebnissen beruhenden Design-Anpassungen geschätzt und erschien in Relation zur Bearbeitungsdauer von den ursprünglich entwickelten neun Aufgaben realistisch. Die Informationen in dem Einwilligungsformular sahen alle Interessierten, bevor sie der Teilnahme ausdrücklich zustimmten oder eine solche ablehnten.

Nach Zustimmung startete die Befragung, die in insgesamt fünf Teile gegliedert ist: Demografische Angaben, Vorabfragebogen, Experiment, Anschlussfragebogen und Abschluss. Diese sind in Abbildung 4.7 auf Basis der Abbildung 4.2 (vgl. Abschnitt 4.1.5) schematisch dargestellt und werden nachfolgend beschrieben.

Abbildung 4.7
figure 7

Schematischer Aufbau des Online-Fragebogens mit dem Experiment als Hauptteil

4.2.3.1 Demografische Angaben

Neben der Erhebung von GeschlechtFootnote 30 und Alter dienten die Fragen nach der Muttersprache und dem Bildungsabschluss als Filter für die Teilnahme an der Befragung. Die Personen, die angaben, nicht mindestens ein gutes Verständnis der deutschen Sprache oder nicht mindestens einen Abschluss als Master, Magister oder Diplom zu besitzen, wurden zu einer Abbruchseite geleitet und von der weiteren Teilnahme ausgeschlossen. Obwohl es sich bei den zu bewertenden Items um Surrogate in englischer Sprache handelte, waren gute Sprachkenntnisse in Deutsch erforderlich, um die Kontextbeschreibungen und die Informationsbedürfnisse zu verstehen. Die Fragen nach dem aktuellen Status der Teilnehmenden, der Zugehörigkeit zur wissenschaftlichen Fachdisziplin und Art der Einrichtung (Universität, Fachhochschule oder ähnliche) zielten auf ein besseres Verständnis von der Zusammensetzung der Stichprobe und sollten in Teilen der Evaluierung der verfolgten Maßnahmen zur Probandengewinnung dienen. Zudem können mithilfe dieser Angaben die Daten der Versuchspersonen gruppenweise betrachtet werden.

4.2.3.2 Vorabfragebogen

Dieser Teil sollte hauptsächlich die Teilnehmenden auf den Kontext der nachfolgenden Aufgaben vorbereiten und die Behauptung über das vermeintliche Studienziel untermauern. Die Frage nach der Häufigkeit der Nutzung ausgewählter, fachübergreifender akademischer Suchsysteme erlaubt, Erkenntnisse über den Erfahrungsumfang der Versuchspersonen zu gewinnenFootnote 31. Zusätzlich bestand die Möglichkeit, fachspezifische Recherchetools mittels Freitextfeld und deren Nutzungshäufigkeiten anzugeben. Wie häufig bei der Interaktion mit akademischen Suchsystemen auch englischsprachige Quellen berücksichtigt werden, kann Erkenntnisse über die Erfahrungsstufe der jeweiligen Versuchsperson liefern. Zu erwarten wäre, dass ein Großteil der Teilnehmenden diese Frage mit der höchsten Stufe der Skala (5 – immer) beantwortet, wobei sprachliche Präferenzen auch in Abhängigkeit mit der Fachdisziplin oder dem Forschungsgebiet zu betrachten wären. Die Antworten in diesem Teil liefern weitere Informationen über die Teilnehmenden und können für weiterführende, explorative AnalysenFootnote 32 genutzt werden.

4.2.3.3 Experiment

Die Bearbeitung der drei Aufgaben, die in der Bewertung der jeweils neun Surrogate bestand, stellte den Hauptteil der Befragung dar (vgl. Abschnitt 4.1.5). Vorab lasen die Versuchspersonen eine ausführliche Instruktion und sahen ein exemplarisches Surrogat, dessen Aufbau zusätzlich erläutert war. Die Erklärung zur Verwendung der Schiebereglerskala erfolgte ebenfalls anhand von Screenshots und es bestand die Möglichkeit des Ausprobierens. Im Anschluss wurden die Aufgaben jeweils in randomisierter Reihenfolge präsentiert. Zusätzlich erhielten die Teilnehmenden vor Bearbeitung der ersten Aufgabe den ausdrücklichen Hinweis, dass die Reihenfolge der einzelnen Suchergebnisse keinem Ranking folgt, sondern rein zufällig entsteht. Dieser Hinweis wiederholte sich im Anschluss an die Präsentation der jeweiligen Informationsbedürfnisse.

Die Schiebereglerskala, mit der die Versuchspersonen ihre Bewertung kennzeichneten, war im Ausgangszustand ohne den Regler dargestellt, der sich erst durch Klick mit der linken Maustaste auf die Skala (dargestellt als hellgraue Gerade) zeigte (Abbildung 4.8), um die Versuchspersonen nicht mit einer Voreinstellung in ihrer Beurteilung zu beeinflussen (vgl. Abschnitt 4.1.2). Sowohl in der Druckversion des aus EFS Survey exportierten Fragebogens als auch im Codebuch werden die Items leider ohne Schiebereglerskala angezeigt.

Abbildung 4.8
figure 8

Schiebereglerskala im Ursprungszustand (oben) und nach dem Anklicken (unten)

4.2.3.4 Anschlussfragebogen

Dieser Teil umfasste eine Freitextabfrage über die Kriterien, anhand derer die Versuchspersonen vermuteten, die Bewertung der Surrogate vorgenommen zu haben sowie ein letztes Item mit einer 5-stufien Skala, das nach der Wichtigkeit der drei Arten von Popularitätsdaten (Anzahl der Downloads, Anzahl der Zitationen eines Werkes, Anzahl der Zitationen eines Autors) fragte. Beide Items erschienen in Hinblick auf eine mögliche Diskrepanz der eigenen Wahrnehmung der Versuchspersonen gegenüber ihren tatsächlichen Beurteilungen für eine nähere Betrachtung und ebenfalls für weiterführende, explorative Analysen interessant. Da insbesondere die Abfrage der Wichtigkeit von Zitations- und Downloadzahlen als Bestandteil von Suchergebnissen bei den Teilnehmenden korrekte Annahmen über den wahren Zweck der Befragung zulässt, konnten diese Fragen nur im Anschluss an das Experiment gestellt werden.

4.2.3.5 Abschluss

Vor dem Beenden der Befragung hatten die Teilnehmenden die Möglichkeit über ein Freitextfeld Anmerkungen zum bisherigen Befragungsverlauf einzugeben. Anschließend wurde über den wahren Zweck des Experiments aufgeklärt. Weil die Täuschung über das tatsächliche Studienziel dem forschungsethischen Prinzip der bewussten Einwilligung widerspricht, ist die Aufklärung am Ende zwingend erforderlich und den Teilnehmenden muss die Möglichkeit gegeben werden, nach der Aufklärung ihre Einwilligung zurückzuziehen (Döring & Bortz, 2016, S. 126). Diese war mit dem freiwilligen Selbstausschluss gegeben, mit dem Hinweis, dass eine Zurücknahme der Einwilligung zur Verwendung der erhobenen Daten keine Auswirkung auf die Verlosung hat. Dadurch sollte auch denjenigen Teilnehmenden, die vorrangig wegen der Verlosung den Fragebogen bearbeiteten, die Chance geboten werden, ihre eventuell nicht gewissenhaft getätigten Eingaben von der Auswertung auszuschließen; dabei wurde auf die Ehrlichkeit der Teilnehmenden gesetzt. Zuletzt konnten die Versuchspersonen ihre E-Mail-Adresse hinterlassen, um an der Gutscheinverlosung teilzunehmen.

Mit dem Erreichen der Endseite war die Befragung abgeschlossen und die Eingaben der Teilnehmenden gespeichert. Diese letzte Seite enthielt neben einer Danksagung nochmals die Kontaktdaten der Autorin, um den Teilnehmenden die Möglichkeit zu geben, Feedback zu geben oder Nachfragen zu stellen, nachdem sie über den Zweck der Befragung aufgeklärt worden waren, da das Freitextfeld für eventuelle Anmerkungen bereits vor der Aufklärung zum Zweck der Studie gezeigt wurde.

4.2.4 Berechnung des erforderlichen Stichprobenumfangs

Die Berechnung des optimalen Stichprobenumfangs vor der Durchführung der Datenerhebung (a priori) ist für einen aussagekräftigen Signifikanztest bei der späteren Datenauswertung von besonderer Bedeutung (Döring & Bortz, 2016, S. 815). Die optimale Stichprobengröße setzt sich aus den drei Parametern Effektgröße, Signifikanzniveau und Teststärke zusammen.

Die Effektgröße ist der Parameter, der auf der Basis von Ergebnissen und ermittelter Effektgrößen aus inhaltlich vergleichbaren Studien geschätzt wird. Wie bei der Formulierung von Hypothesen über Interaktionseffekte der UVn (vgl. Abschnitt 4.1.3) ist dies für das vorliegende Experiment aufgrund fehlender Referenzstudien nicht möglich. Bei der erwarteten Effektgröße wird allgemein der klassischen Einteilung nach Cohen gefolgt (Döring & Bortz, 2016, S. 820). So lassen sich kleine, mittlere und große Effekte unterscheiden. Eine Effektstärke von f = 0.2 kann nach Cohen als klein interpretiert werden, bei f = 0.25 ist bereits von einem mittleren Effekt auszugehen (Lenhard & Lenhard, 2016). Um im Rahmen des hier beschriebenen Experiments auch kleine Effekte aufdecken zu können, wird in der Berechnung der Parameter f auf 0.2 gesetzt.

Traditionell wird bei quantitativen Studien von einem Signifikanzniveau α = 0.05 und einer Teststärke 1 – β = 0.80 ausgegangen (Döring & Bortz, 2016, S. 841); ersteres wird für die Berechnung beibehalten, die Teststärke jedoch folgt dem Wert, der im für die Berechnung verwendeten Tool G*PowerFootnote 33 (Faul et al., 2007) auf 0.95 voreingestellt ist. Abbildung 4.9 zeigt einen Screenshot der Eingabeoberfläche von G*Power mit den ausgewählten Parametern und eingesetzten Werten der A-priori-Analyse: Als statistischer Test wurde die Art der Varianzanalyse (Analysis of Variance, ANOVA) ausgewählt, die das Prüfen von Haupteffekten und Interaktionen in einem mehrfaktoriellen Design zulässt. Die dem statistischen Modell zugrunde liegende Methode der Mehrebenenanalyse (auch Hierarchisches Lineares Modell) (vgl. Abschnitt 4.3), kann in G*Power nicht ausgewählt werden; da diese letztlich auch als eine Form der Varianzanalyse gesehen werden kann (Hoffman & Rovine, 2007, S. 103), wird für die Berechnung des optimalen Stichprobenumfangs die genannte ANOVA zugrunde gelegt.

Der Numerator df setzt sich laut HandbuchFootnote 34 aus der Anzahl der Faktoren jeweils um 1 subtrahiert und dann multipliziert zusammen, für das vorliegende 3 × 3 × 3-Design ergibt sich demzufolge der Wert 8 (2 × 2 × 2). Das Feld Number of groups verlangt die Anzahl der zu untersuchenden Teilstichproben, also der experimentellen Bedingungen.

Die optimale Stichprobengröße beträgt n = 577. Für die im folgenden Abschnitt beschriebene Probandenakquise war von einer gewissen Abbruchrate auszugehen, daher war zu berücksichtigen, dass eine weitaus größere Anzahl potenziell Teilnehmender eingeladen werden musste.

Abbildung 4.9
figure 9

Berechnung des optimalen Stichprobenumfangs mit G*Power (Screenshot)

4.2.5 Probandenakquise

Die Auswahl möglicher Probandinnen und Probanden folgte keinem probabilistischen Verfahren, wodurch sie eine eingeschränkte Repräsentativität aufweist; stattdessen stellt die Stichprobe eine Gelegenheitsstichprobe dar (Döring & Bortz, 2016, S. 305 ff.), für deren Zustandekommen ein systematisches Vorgehen gewählt wurde, um einer repräsentativen Stichprobe zumindest nahezukommen.

Während die Probandenakquise für den Pretest auf die Wahl einer Hochschule begrenzt war, wurden für die eigentliche Erhebung gruppenweise adressierte E-Mails an Wissenschaftliche Angestellte, Promovierende und Postdocs in verschiedenen Universitäten von der Autorin verschickt. Laut HochschulkompassFootnote 35 gibt es in Deutschland 87 Universitäten in öffentlich-rechtlicher Trägerschaft. Die Reihenfolge, in der das Einholen von E-Mail-Adressen der 87 Universitäten erfolgte, wurde erneut mithilfe des Tools Research Randomizer festgelegt. Neben dem Ausschluss von Bibliotheks- und Informationswissenschaftlichen Instituten sowie Einrichtungen mit dem Namen Informations- und Wissensmanagement (aufgrund der Nähe zur Informationswissenschaft) erfolgt die Erfassung der E-Mail-Adressen anhand forschungspragmatischer Kriterien: Um den Aufwand so gering wie möglich zu halten, sollten die E-Mail-Adressen leicht zugänglich sein, also möglichst blockweise kopierbar und ohne zusätzliches Aufrufen der jeweiligen Webseiten von Einzelpersonen. Beispielsweise konnten von der Universität Hamburg insgesamt 1.734 E-Mail-Adressen von Wissenschaftlichen Mitarbeiterinnen und Mitarbeitern relativ mühelos erfasst werden; bei anderen Universitätswebseiten waren die E-Mail-Adressen von Mitarbeitenden vermutlich aus Schutz vor Spam mit Kopierschutzmaßnahmen versehen, auf deren Erfassen in einem solchen Fall verzichtet und stattdessen die nächste Universitätswebseite besucht wurde.

Der Text der E-Mail-Einladung lautete folgendermaßen und wurde mit den jeweils auszutauschenden Elementen (Name des Instituts bzw. des Fachbereichs, der Universität sowie die jeweilige URL als Quelle der E-Mail-Adresse aus Gründen der Transparenz) entsprechend manuell angepasst:

Betreff: Teilnehmende für Online-Umfrage zur Nutzung wissenschaftlicher Suchsysteme gesucht Sehr geehrte Wissenschaftlichen Mitarbeiterinnen und Mitarbeiter am <Institut für/Fachbereich XY> der <ABC-Universität>, für eine groß angelegte Studie zum Thema "Nutzung von wissenschaftlichen Suchsystemen" suchen wir eine hohe Zahl an Teilnehmenden unterschiedlicher Fachrichtungen, die einen Online-Fragebogen bearbeiten. Die Studie wird im Rahmen eines Forschungsprojekts an der Hochschule für Angewandte Wissenschaften Hamburg in Kooperation mit der Universität Hildesheim durchgeführt. Die Bearbeitungszeit des Online-Fragebogens beträgt ca. 20 bis 30 min. Nach Abschluss der Umfrage haben Sie die Möglichkeit, an einer Verlosung von insgesamt 444 Gutscheinen von Amazon.de im Wert von jeweils 10 EUR teilzunehmen! Weitere Informationen und den Fragebogen finden Sie hier: https://ww3.unipark.de/uc/Studie_Nutzung_wiss_Suchsysteme2019/ Sie erhalten diese E-Mail, weil Ihre Adresse über die Webseite Ihrer Universität (<URL>) manuell erfasst wurde, wobei die Auswahl der Universität zufällig erfolgte und insbesondere Wissenschaftliche Mitarbeiterinnen und Mitarbeiter bzw. Promovierende oder PostDocs für die Teilnahme gesucht werden. Die Teilnahme ist selbstverständlich freiwillig und ohne Angabe von Namen möglich; eine Registrierung ist nicht erforderlich. Mit freundlichen Grüßen aus Hamburg Christiane Behnert -- Christiane Behnert, M.A. Wissenschaftliche Mitarbeiterin T +49 40 428 75 3642 christiane.behnert@haw-hamburg.de HOCHSCHULE FÜR ANGEWANDTE WISSENSCHAFTEN HAMBURG Fakultät Design, Medien & Information Department Information Finkenau 35 / 22081 Hamburg haw-hamburg.de http://searchstudies.org/christiane-behnert/ http://orcid.org/0000-0002-4863-6118

Insgesamt wurden 16.137 E-Mail-Adressen manuell ermittelt und in 1.145 E-MailsFootnote 36 an Angehörige von 31 Universitäten in dem Zeitraum vom 6. Juni bis 12. Juli 2019Footnote 37 versendet. Von diesen E-Mail-Adressen waren 545 fehlerhaft oder ungültig und daher unzustellbar; von den 15.592 gültigen Adressen erreichten die Autorin 126 Abwesenheitsinformationen aufgrund von Urlaub oder Mutterschutz- und Elternzeiten. Somit wurden insgesamt 15.466 E-Mail-Empfängerinnen und -Empfänger erreicht.

Die Zahl der Teilnehmenden wurde während der FeldzeitFootnote 38 in EFS Survey überwacht, um im Falle eines Nichterreichens der angestrebten Stichprobengröße eine alternative Rekrutierungsstrategie zu verfolgen. Diese bestand darin, die Studie in SurveyCircleFootnote 39 zu teilen. SurveyCircly ist eine Online-Crowdsourcing-Plattform für das Anbieten von und Teilnehmen an empirischen Studien, die von Questback empfohlen wird, jedoch nur maximal 100 Teilnehmende pro Studie erlaubt. Diese Strategie zur Probandenakquise musste jedoch nicht umgesetzt werden, da sich zum 12. Juli 2019 abzeichnete, dass eine mehr als ausreichend große Anzahl an Teilnehmenden erreicht werden würde; so hatten bis dato 675 Versuchspersonen den Fragebogen abschließend bearbeitet.

Als Anreiz zur Teilnahme standen 444 Gutscheine für den Online-Shop Amazon.de im Wert von jeweils 10 EUR zur Verfügung, die im Rahmen einer Verlosung an 444 Personen nach Abschluss der Feldzeit per E-Mail versendet wurden. Dieser Wert wurde lediglich als Geste der Dankbarkeit gewählt und ist nicht als eine realistische Aufwandsentschädigung zu betrachten.

Die hier beschriebene Strategie zur Probandenakquise war mit einem hohen Zeit- und Kostenaufwand verbunden, sie ist jedoch aufgrund des erreichten Stichprobenumfangs als erfolgreich zu bewerten.

4.3 Datenaufbereitung und statistische Analyse

In diesem Abschnitt wird das Vorgehen bei der Aufbereitung und der Analyse der Daten beschrieben – für beides wurde die Statistik-Software SPSS von IBM in der Version 25 verwendet.

Die Datenbereinigung und Datenaufbereitung sind in Abschnitt 4.3.1 dokumentiert. Hierzu zählt auch die Codierung der Angaben der Versuchspersonen zu ihrem jeweiligen wissenschaftlichen Fachgebiet bei der Bearbeitung des Vorabfragebogens.

Für die statistische Auswertung experimentell erhobener Daten wird in der Psychologie oft auf die Varianzanalyse (auch ANOVA – Analysis of Variance) zurückgegriffen (Sedlmeier & Renkewitz, 2018, S. 430). Für das hier berichtete Online-Experiment wurden die Daten nicht mithilfe der Varianzanalyse ausgewertet, sondern es wurde eine Mehrebenenanalyse durchgeführt. Der Grund für die Wahl dieser statistischen Analysemethode und das Vorgehen in SPSS werden in Abschnitt 4.3.2 näher beleuchtet.

4.3.1 Datenaufbereitung

Die erhobenen Rohdaten wurden zunächst mithilfe der automatischen Datenbereinigungsfunktion in EFS Survey von eventuell enthaltenen irrelevanten Werten befreit. Das Ziel der manuellen Datenbereinigung war es, den Datensatz um die Eingaben der Versuchspersonen zu bereinigen, die zum einen den Fragebogen tatsächlich nicht beendet hatten (n = 58), obwohl EFS Survey diese fälschlich als beendet identifizierte, und die zum anderen den Fragebogen zwar beendet, aber aufgrund des gewählten freiwilligen Selbstausschlusses (n = 32) ihre Eingaben nicht für die statistische Analyse freigegeben hatten. Von den insgesamt 717 durch EFS Survey als beendet deklarierte Fragebögen konnten die Daten von 627 Teilnehmenden in die Auswertung einfließen.Footnote 40

Ferner wurden im Rahmen der Verlosung der 444 Amazon-Gutscheine die E-Mail-Adressen der Teilnehmenden entfernt. Wie Tabelle 4.9 zeigt, nahmen an der Verlosung 530 Versuchspersonen teil, 129 hinterließen keine E-Mail-Adresse, wodurch sie nicht an der Verlosung teilnahmen. Der Anteil der Teilnehmenden, die den Selbstausschluss wählten und zugleich an der Verlosung teilnahmen (n = 20) ist zwar relativ gering, darf aber als nicht unerheblich gesehen werden; insofern ist die Entscheidung, die Verlosung unabhängig von einem Selbstausschluss zu erlauben, als richtig zu beurteilen.

Tabelle 4.9 Anteil der Versuchspersonen mit gewähltem Selbstausschluss und Teilnahme an der Verlosung

Im Anschluss an die Datenbereinigung erfolgte die eigentliche Aufbereitung. Hierunter fallen die Codierung der Eingaben in Freitextfelder im Vorabfragebogen. So wurden die Angaben zu den Fachdisziplinen durch die Versuchspersonen auf der Grundlage der Field of Science and Technology Classification der OECD codiert. Diese Klassifikation besitzt insgesamt sechs Hauptklassen und 42 Unterklassen; die Codierung der Angaben beschränkte sich jedoch auf die sechs Hauptklassen, weil diese für eine erste Gruppierung der Ergebnisse nach Fachzugehörigkeit als angemessen erachtet wurden. Die Hauptklassen sind nachfolgend aufgelistet; zum besseren Verständnis der Einordnung der Fachgebiete werden die Unterklassen zu den Hauptklassen ebenfalls aufgezählt (OECD, 2007, S. 6 ff.):

  1. 1.

    Natural sciences:

    Mathematics; Computer and information sciences; Physical sciences; Chemical sciences; Earth and related Environmental sciences; Biological sciences (Medical to be 3, and Agricultural to be 4); Other natural sciences

  2. 2.

    Engineering and technology

    Civil engineering; Electrical engineering, Electronic engineering, Information engineering, Mechanical engineering; Chemical engineering; Materials engineering; Medical engineering; Environmental engineering; Environmental biotechnology; Industrial biotechnology; Nano-technology; Other engineering and technologies

  3. 3.

    Medical and Health sciences

    Basic medicine; Clinical medicine; Health sciences; Medical biotechnology; Other medical sciences

  4. 4.

    Agricultural sciences

    Agriculture, Forestry, and Fisheries; Animal and Dairy science; Veterinary science; Agricultural biotechnology; Other agricultural sciences

  5. 5.

    Social sciences

    Psychology; Economics and Business; Educational sciences; Sociology; Law; Political science; Social and economic geography; Media and communications; Other social sciences

  6. 6.

    Humanities

    History and Archaeology; Languages and Literature; Philosophy, Ethics and Religion; Arts (arts, history of arts, performing arts, music); Other humanities

Während die überwiegende Anzahl der Angaben eindeutig zu einer Hauptkategorie zuordbar waren, gab es Begriffe, die unscharf oder nicht codierbar waren. Unscharfe Begriffe waren beispielsweise „Energiewirtschaft“ und „Energieeffizienz“ – während ersteres eher dem Bereich Management und Industrie und demzufolge der Hauptklasse (5) zuzurechnen ist, zählt letztgenannter als Bereich des Environmental engineering zur Hauptklasse (2). Nicht codierbar waren aufgrund von Unsicherheit Angaben wie „Visualisierung“ oder „Grundlagenforschung“, allerdings auch „Geographie“, da diese generell zwei verschiedenen Hauptklassen zugeordnet werden kann (physical geography zählt zu den Naturwissenschaften, economic geography zu den Sozialwissenschaften).

Enthielten die Angaben mehrere Begriffe, wurde nach dem Fachgebiet codiert, das vordergründig das intendierte Fachgebiet zu sein schien, zum Beispiel wurde „Veterinärphysiologie, Aminosäuretransport“ als Hauptklasse (4) codiert, da davon auszugehen ist, dass das Thema Aminosäuretransport sich nicht auf den Menschen, sondern auf Tiere oder Pflanzen bezieht. Bei mehreren genannten Fachgebieten, die zu verschiedenen Hauptgruppen gehören, zählte das erstgenannte, beispielsweise wurde „Elektrotechnik, Informatik“ mit einer 2 (für Elektrotechnik) anstelle einer 1 (für Informatik) codiert.

Abschließend erfolgte für die Analyse eine Umstrukturierung der Daten, um diese in eine für die Mehrebenenanalyse mit SPSS erforderliche Form zu bringen. Die Übertragung der im Wide-Format vorliegenden Daten in das Long-Format geschah mithilfe des SPSS-Assistenten für die Datenumstrukturierung, indem ausgewählte Variablen (Daten spaltenweise) in Fälle (Daten zeilenweise) umgesetzt wurden. Dazu wurde jeweils eine zusätzliche Spalte für jede UV manuell eingefügt und zu jeder Bewertung jeweils die Ausprägung (1 – gering, 2 – hoch, 3 – k.A.) zugeordnet. Das Ergebnis dieser Umstrukturierung besteht darin, dass zu jeder Person die jeweils 27 Bewertungen untereinander gelistet sind, wodurch nun der Datensatz im Long-Format nicht mehr 627 Fälle, sondern 16.929 Fälle beinhaltet. Ferner erfolgte die Umbenennung einiger Variablen in aussagekräftigere Bezeichnungen, wie z. B. die Variablen a für Alter und g für Geschlecht.

Der vollständige Datensatz steht für Forschungszwecke jeweils im Wide-Format mit den codierten Angaben zur Variable Fachdisziplin der 627 Fälle sowie im Long-Format mit den 16.929 Fällen zum Zweck der Forschungstransparenz und zur Nachnutzung im Open Science FrameworkFootnote 41 zur Verfügung, ebenso der vollständig erhobene Rohdatensatz ohne die E-Mail-Adressen der Versuchspersonen.

4.3.2 Mehrebenenanalyse in SPSS

Die aufbereiteten Daten des Experiments wurden einer Mehrebenenanalyse unterzogen, da eine dreifaktorielle Varianzanalyse mit Messwiederholung (RM-ANOVA) aufgrund der Beschaffenheit der Daten nicht infrage kam. Die RM-ANOVA kommt zum Einsatz bei mehreren abhängigen (verbundenen) Stichproben. Abhängige Stichproben liegen dann vor, wenn mehrere Messwerte aus verschiedenen (Teil-)Stichproben voneinander beeinflusst werden und sich diese Abhängigkeiten systematisch über die Stichproben verteilen (Eid et al., 2017, S. 367 ff.). Das ist beispielsweise der Fall bei Messwerten, die von den gleichen Personen unter verschiedenen (experimentellen) Bedingungen, also auf Basis von intraindividuellen Bedingungsvariationen, oder zu unterschiedlichen Zeitpunkten (Messwiederholungen) erhoben wurden. Eine RM-ANOVA berücksichtigt wiederholte Messungen zu unterschiedlichen Zeitpunkten an demselben Objekt bzw. Subjekt, d. h. die Bedingungen, unter denen die Beobachtung am Objekt oder Subjekt vorgenommen werden, sind immer dieselben, nur der Zeitpunkt der Messung ändert sich. Ein Beispiel wäre die Untersuchung der Wirkung eines Medikaments (UV) auf den Menschen (AV) bei einer Experimentalgruppe und einer Kontrollgruppe, wobei den Probanden in der Experimentalgruppe das Medikament (Stufe A der UV) und den Probanden der Kontrollgruppe ein Placebo (Stufe B der UV) verabreicht wird. Werden nun verschiedene Kennzahlen an den Probanden wiederholt erhoben, geschieht dies unter den gleichen Bedingungen, da es sich immer um dasselbe Medikament bzw. Placebo in derselben Dosierung an derselben Person handelt.

In der vorliegenden Studie sind die Stichproben zwar auch verbunden, da die 27 Relevanzbewertungen jeweils von denselben Personen erhoben wurden. Die Erhebung fand jedoch unter 27 unterschiedlichen experimentellen Bedingungen statt, d. h. es gibt zwar übertragen auf die Logik der Varianzanalyse mit Messwiederholung 27 Messwerte zu jeder Versuchsperson; die Relevanzbewertungen beruhen aber auf 27 verschiedenen Bedingungen. Konkret handelt es sich um 27 intraindividuelle Bedingungsvariationen, wobei die Variable „Zeit“ keinen zu untersuchenden Einflussfaktor darstellt. Somit liegen genau genommen keine Messwiederholungen im Sinne einer RM-ANOVA vor (Sedlmeier & Renkewitz, 2018, S. 155–156), sondern hierarchische Datenstrukturen, für deren Auswertung eine Mehrebenenanalyse angemessen ist. Die Logik der Varianzanalyse mit Messwiederholung lässt sich allerdings auf hierarchische Datenstrukturen übertragen (Eid et al., 2017, S. 730); Hoffman & Rovine (2007) bezeichnen die RM-ANOVA als restriktive Version der Mehrebenenanalyse.

Die Mehrebenenanalyse (multilevel analysisFootnote 42) stellt eine Form der Regressionsanalyse dar, die zwei oder mehr Ebenen einer Datenstruktur berücksichtigt (Eid u. a., 2017, S. 727). Mit dieser Analysestrategie werden Daten in ein hierarchisches lineares Modell überführt. Die einfachste hierarchische Datenstruktur weist zwei Ebenen auf: Level 1 ist die Mikroebene, auch Individualebene (Richter & Naumann, 2002, S. 155), Level 2 die Makroebene, auch Kontextebene, wobei Level 1 Level 2 untergeordnet ist. In der Literatur wird häufig zur Veranschaulichung der Methode das Beispiel einer Schulklasse vorgebracht: Die Schulklasse wäre ein Merkmal der Ebene 2 und erhobene Merkmale der Schülerinnen und Schüler innerhalb dieser Klasse wären Daten der Ebene 1 (Eid et al., 2017, S. 727 ff.). Übertragen auf die Datenstruktur in dem hier berichteten Experiment stellt eine Versuchsperson die Ebene 2 und die 27 erfassten Bewertungen dieser Person die Daten der Ebene 1 dar (Nezlek et al., 2006, S. 218).

Die Methode der Mehrebenenanalyse wurde bisher selten in IIR-Studien genutzt, ist aber aufgrund verschiedener Vorteile gegenüber Standardverfahren wie der Varianzanalyse auch für IIR-Studien mit experimentellen Designs zu empfehlen (Crescenzi et al., 2016). So können neben den manipulierten unabhängigen Variablen weitere Einflussfaktoren, wie das Suchverhalten der Teilnehmenden, auf die abhängige Variable berücksichtigt werden und es ist nicht notwendig, Haupt- und Interaktionseffekte separat zwischen den einzelnen Kennzahlen zu suchen – beide können gleichzeitig untersucht werden.

Weitere Vorteile dieser Analysemethode für Daten mit einer hierarchischen Struktur, wie sie durch Within-Subjects-Designs entstehen können, bestehen insbesondere in der größeren Flexibilität, Abhängigkeiten zwischen den beobachteten Messwerten zu berücksichtigen und in der Toleranz fehlender Werte – ob unerwünscht oder bedingt durch das Forschungsdesign (Hoffman & Rovine, 2007). Diese Fehlertoleranz kann für das Design künftiger Experimente sehr nützlich sein, da beispielsweise nicht alle Versuchspersonen immer allen Bedingungen ausgesetzt sein müssen, wodurch die Anzahl der zu bearbeitenden Aufgaben und somit der zeitliche Aufwand für die Teilnehmenden reduziert würde, ohne Einbußen bei der Effektstärke hinzunehmen.

Hierarchische lineare Modelle werden in SPSS als „lineare gemischte Modelle“ bezeichnet und mithilfe der Funktion MIXED (SPSS-Syntax) erstellt. Da nicht von konstanten Abhängigkeiten zwischen den Teilstichproben (Bedingungen) ausgegangen wird, bedeutet dies, dass die Wirkung der Faktoren nicht für alle Versuchspersonen gleich angenommen wird, sondern Faktoren zwischen den Personen verschieden wirken können. Dies zeigt sich in der als diagonal gewählten Kovarianzstruktur (vgl. Tabelle 4.10) im Gegensatz zur identischen Kovarianzstruktur.

Die SPSS-Syntax der Mehrebenenanalyse ist zu finden in Anhang 3 im elektronischen Zusatzmaterial sowie im Open Science FrameworkFootnote 43. Tabelle 4.10 gibt einen Überblick über die Modelldimension laut SPSS-Ausgabe. Als feste Effekte gelten die unabhängigen Variablen, deren jeweilige Haupteffekte sowie in Kombination untereinander mögliche Interaktionseffekte (vgl. 4.1.3) untersucht wurden. Dabei sind alle Bewertungen (ID_B) aller Personen (ID_P) enthalten, wobei die 27 Bewertungen der jeweils 627 verarbeiteten Fälle als wiederholte Effekte behandelt wurden. Die Korrektur, die zur Kompensation der alpha-Fehlerkumulierung genutzt wurde, ist die Anpassung nach Sidak.

Die Grafiken der Mittelwerte zu den einzelnen unabhängigen Variablen und in Kombination werden mit der MIXED-Funktion in SPSS nicht automatisch erstellt und müssen manuell erzeugt werden. Zur Vermeidung von Fehlern im Zuge einer manuellen Anpassung wurde für die Erzeugung der Grafiken auf die ANOVA mit Messwiederholung (GLM-RepFootnote 44-Funktion in SPSS) zurückgegriffen. Dies ist durchführbar, weil die berechneten Mittelwerte die gleichen wie bei der Mehrebenenanalyse sind.

Tabelle 4.10 SPSS-Ausgabe der Modelldimension

4.4 Ergebnisse des Experiments

In diesem Abschnitt werden die Ergebnisse der Studie vorgestellt, beginnend mit der Beschreibung der demografischen Merkmale der Teilnehmenden (Abschnitt 4.4.1). Anschließend erfolgt die Vorstellung und Erläuterung der Ergebnisse der statistischen Mehrebenenanalyse. Das Ziel der Analyse bestand darin, Haupteffekte der unabhängigen Variablen und mögliche Interaktionseffekte aufzuzeigen und Kovarianzen (Abhängigkeiten zwischen den Bewertungen pro Person) zu berücksichtigen.

In Abschnitt 4.4.2 werden die Haupteffekte, also die Wirkungen der einzelnen unabhängigen Variablen, beschrieben. Jeder Haupteffekt hat einen statistisch signifikanten Einfluss auf die Relevanzbewertung. Allerdings zeigt sich, dass aufgrund der bestehenden Interaktionseffekte (Abschnitt 4.4.3) diese Haupteffekte allein wenig Aussagekraft besitzen, denn „[e]ine Interaktion bedeutet stets, dass der Haupteffekt einer UV nicht über die Stufen der anderen UV generalisiert werden kann“ (Sedlmeier & Renkewitz, 2018, S. 178). Neben der Darstellung der Mittelwerte sind die statistischen Ergebnisse der paarweisen Vergleiche wichtig für die Bestimmung von Richtung und Stärke eines Effekts. Die Effekte zeigen sich jedoch nicht in der erwarteten Richtung, wie im anschließenden Abschnitt 4.5 ausführlich diskutiert wird.

4.4.1 Beschreibung der Stichprobe

Im Zuge der Datenbereinigung und -aufbereitung wurde die Anzahl der Datensätze (n = 627) ermittelt, die für die weitere Analyse verwendet werden können (vgl. Abschnitt 4.3.1). Die Stichprobe besteht aus 291 (46,86 %) Frauen, 329 (52,98 %) Männern, eine Person wählte bei der Frage nach dem Geschlecht die Antwortkategorie divers, sechs Personen gaben ihr Geschlecht nicht an (Abbildung 4.10). Insgesamt gaben 573 (91,39 %) Deutsch als Muttersprache an, 54 (8,61 %) Versuchspersonen gaben an, dass sie mindestens ein gutes Verständnis der deutschen Sprache besitzen, unabhängig ihrer Muttersprache (Abbildung 4.11).

Von den 627 Versuchspersonen (VPn) bilden Promotionsstudierende bzw. wissenschaftliche Mitarbeiterinnen und Mitarbeiter mit 448 (71,45 %) den größten Anteil, gefolgt mit deutlichem Abstand von der Gruppe der Postdocs (145; 23,13 %) und der Gruppe der wissenschaftlich Mitarbeitenden ohne Promotionsabsicht (28; 4,47 %); von den sechs Versuchspersonen, die einen anderen Status nannten, gaben zwei VPn „Lehrkraft für besondere Aufgaben“ an, die weiteren Freitextangaben lauten: „Akad. Rat“, „Akademische Oberrätin, Gruppenleiterin“, „Habilitand“, „Studienreferendar, externer Doktorand“ (Abbildung 4.12). Als höchsten Bildungsabschluss nannten 477 (76,08 %) Personen den Master-, Magister- bzw. Diplomabschluss, 150 (23,92 %) gaben den Doktortitel an (Abbildung 4.13).

Zum Zeitpunkt der Datenerhebung gehörten 620 (98,9 %) VPn einer Universität an, 7 VPn gaben an, einer Fachhochschule bzw. Hochschule für Angewandte Wissenschaften anzugehören, wobei alle VPn bis auf eine zugleich einer Universität angehört. Diese Verteilung der Angaben zur Affiliation ist aufgrund der Art der Probandenakquise wenig überraschend, die Überlappung der zeitgleichen Zugehörigkeit einer Universität und einer Fachhochschule lässt sich mit der Durchführung kooperativer Promotionen begründen. Des Weiteren wählten 18 VPn die außeruniversitäre Forschungseinrichtung, 5 Probanden Non-Profit-Organisation, 8 Personen die Kategorie Firma und 15 VPn Selbständigkeit bzw. Freiberuflichkeit aus. Fünf Versuchspersonen nannten jeweils die folgenden sonstigen Einrichtungen: „Gymnasium“, „Institut“, „öffentlicher Dienst“, „Schulpsychologische Beratungsstelle“, „Stipendium“; aufgrund erlaubter Mehrfachnennungen übersteigt die Zahl der Angaben die Anzahl der Teilnehmenden (Abbildung 4.14).

Die Stichprobe setzt sich aus Angehörigen aller sechs Fachdisziplinen nach der verwendeten OECD-Klassifikation (vgl. Abschnitt 4.3.1) zusammen: Den größten Anteil bilden mit 264 (42,1 %) die Naturwissenschaften, gefolgt von den Sozialwissenschaften mit 155 (24,7 %) Versuchspersonen und den Technischen Wissenschaften mit 97 (15,5 %) Versuchspersonen; weniger als ein Drittel der Stichprobe gab einen geisteswissenschaftlichen (48; 7,7 %), humanmedizinischen (27; 4,3 %) oder einen agrarwissenschaftlichen bzw. veterinärmedizinischen (22; 3,5 %) Hintergrund an, die Angaben von 14 (2,2 %) VPn waren nicht codierbar (Abbildung 4.15).

Abbildung 4.10
figure 10

Angaben der Teilnehmenden zum Geschlecht (n = 627)

Abbildung 4.11
figure 11

Angaben der Teilnehmenden zur Erstsprache (n = 627)

Abbildung 4.12
figure 12

Angaben der Teilnehmenden zum Status (n = 627)

Abbildung 4.13
figure 13

Angaben der Teilnehmenden zum Bildungsabschluss (n = 627)

Abbildung 4.14
figure 14

Angaben der Teilnehmenden zur Affiliation (n = 678)

Abbildung 4.15
figure 15

Anteile der in der Stichprobe vertretenen Fachdisziplinen (n = 627)

4.4.2 Haupteffekte

Tabelle 4.11Footnote 45 enthält die Testergebnisse für die Haupteffekte und Interaktionseffekte, die alle jeweils einen statistisch signifikanten Wert von p < 0,001 aufweisen. Das heißt, es gibt mindestens einen statistisch signifikanten Unterschied auf mindestens zwei Stufen der jeweiligen unabhängigen Variablen. Demnach lassen sich zwar Effekte feststellen, für die Richtung (positiv oder negativ) und Stärke eines Effekts müssen die Differenzen zwischen den Mittelwerten (paarweise Vergleiche) für alle Stufen der UVn jeweils näher betrachtet werden. Im Folgenden werden zunächst die Wirkungen der einzelnen unabhängigen Variablen (Haupteffekte) untersucht, bevor in dem anschließenden Abschnitt 4.4.3 ihre Wechselwirkungen (Interaktionen) näher betrachtet werden.

Tabelle 4.11 Tests auf Haupt- und Interaktionseffekte, Typ III

4.4.2.1 Die Wirkung von UV 1 – Anzahl Downloads

Tabelle 4.12 zeigt die Mittelwerte der Bewertungen für UV 1 – Anzahl Downloads, die in Abbildung 4.16 grafisch dargestellt sind. Die Ergebnisse der paarweisen Vergleiche der Stufen für UV 1 untereinander sind in Tabelle 4.13 enthalten. An diesen Werten lässt sich ablesen, wo genau sich die statistisch signifikanten Unterschiede des Haupteffekts zeigen, die Differenz der Mittelwerte (I-J) zeigt jeweils das Ausmaß der Unterschiede an: Die durchschnittliche Punktzahl der Bewertungen fällt für Stufe 3 statistisch signifikant höher aus im Vergleich mit Stufe 1 (50,35 vs. 56,85) und Stufe 2 (51,26 vs. 56,85); im Vergleich zwischen Stufe 1 mit 2 gibt es keine signifikanten Unterschiede (p = 0,189). Somit besteht entgegen der in Hypothese 1 formulierten Vermutung ein negativer Effekt. Es ist nicht der Fall, dass bei Nichtanzeige (Stufe 3) die Punktzahl der Relevanzbewertung im Durchschnitt kleiner ist als bei einer geringen (Stufe 1) oder hohen (Stufe 2) Anzahl Downloads. Jedoch sind die Differenzen in den Mittelwerten von < 7 inhaltlich als relativ gering zu erachten. Vor diesem Hintergrund stellt sich die Frage, ab wann Unterschiede in den Bewertungen unabhängig von statistischer Signifikanz überhaupt auf einer inhaltlichen bzw. theoretischen Ebene als groß genug angesehen werden und von Bedeutung sein können. Auf diese Problematik wird im Zusammenhang mit den Interaktionseffekten in Abschnitt 4.4.3 genauer eingegangen.

Tabelle 4.12 Mittelwerte für UV 1 – Schätzungen
Tabelle 4.13 Mittelwerte für UV 1 – Paarweise Vergleiche
Abbildung 4.16
figure 16

Mittelwerte der Bewertungen auf den Stufen von UV 1

4.4.2.2 Die Wirkung von UV 2 – Zitationen Werk

Die Mittelwerte der Bewertungen für UV 2 – Zitationen Werk zeigen Tabelle 4.14 und Abbildung 4.17. Auch hier liegen diese Werte sehr nah beieinander und zeigen entgegen der Vermutung, dass die Punktzahl der Bewertung bei einer hohen Anzahl von Zitationen mit 52,18 im Durchschnitt zwar größer ist als bei einer geringen Anzahl (50,95), aber nicht größer als bei Nichtanzeige der Zitationszahl (55,34). Stattdessen sind die durchschnittlichen Bewertungen auf Stufe 3 – keine Angabe auch für UV 2 am höchsten. Wie in Tabelle 4.15 ersichtlich, sind die geringen Differenzen der Mittelwerte statistisch signifikant bei p < 0,001, im Vergleich der Stufen gering und hoch sind sie statistisch signifikant bei p = 0,042.

Tabelle 4.14 Mittelwerte für UV 2 – Schätzungen
Tabelle 4.15 Mittelwerte für UV 2 – Paarweise Vergleiche
Abbildung 4.17
figure 17

Mittelwerte der Bewertungen auf den Stufen von UV 2

4.4.2.3 Die Wirkung von UV 3 – Zitationen Autor

Während die Durchschnittsbewertungen für UV 1 – Anzahl Downloads und UV 2 – Zitationszahl Werk in Abbildung 4.17 und Abbildung 4.17 dasselbe Muster zeigen, weicht es für UV 3 – Zitationszahl Autor in Abbildung 4.18 aufgrund der Werte in Stufe 3 – keine Angabe leicht davon ab: Die Punktzahl der Bewertung ist bei einer geringen Anzahl Zitationen des Autors im Durchschnitt kleiner (49,40) als bei einer hohen Anzahl (54,63) und bei einer hohen Anzahl etwas größer als bei Nichtanzeige; allerdings ist sie bei Nichtanzeige entgegen der Erwartung mit 54,43 höher als bei einer geringen Anzahl (vgl. Tabelle 4.16). Die Mittelwertdifferenzen (vgl. Tabelle 4.17) sind auch im Vergleich der Stufen von UV 3 gering, aber für Stufe 1 – gering mit Stufe 2 – hoch und Stufe 3 – keine Angabe statistisch signifikant (p < 0,001). Die äußerst geringe Differenz der Mittelwerte von Stufe 2 und Stufe 3 weist hingegen keine statistische Signifikanz auf.

Tabelle 4.16 Mittelwerte für UV 3 – Schätzungen
Tabelle 4.17 Mittelwerte für UV 3 – Paarweise Vergleiche

Zusammengefasst lässt sich feststellen, dass die unabhängigen Variablen auf Stufe 3 – keine Angabe entgegen den Erwartungen im Durchschnitt höhere Relevanzbewertungen bewirken als auf den Stufen 1 – gering und 2 – hoch. Die Annahmen über die Haupteffekte lassen sich nicht in Gänze bestätigen; allerdings können keine allgemeingültigen Aussagen zu den Wirkungen der unabhängigen Variablen getroffen werden, weil ebenfalls statistisch signifikante Interaktionen vorliegen, die näher zu untersuchen sind.

Abbildung 4.18
figure 18

Mittelwerte der Bewertungen auf den Stufen von UV 3

4.4.3 Interaktionseffekte

Für die in diesem Experiment untersuchten drei unabhängigen Variablen (UVn) konnten sowohl Interaktionseffekte der 1. Ordnung (2-fach-Interaktionen) als auch Interaktionseffekte der 2. Ordnung (3-fach-Interaktionen) nachgewiesen werden.

Das Vorhandensein von Interaktionen lässt sich (üblicherweise bei unabhängigen Variablen mit zwei Kategorien) anhand grafischer Darstellungen in Form von Liniendiagrammen gut ablesen, obwohl die Linien in den Diagrammen suggerieren, dass es Messwerte zwischen den Stufen der UV gibt, die gar nicht erhoben wurden (Sedlmeier & Renkewitz, 2018, S. 173, 174). Würden die Linien der Faktoren parallel verlaufen, lägen keine Wechselwirkungen, sondern eine Nullinteraktion vor, d. h. die Haupteffekte eines Faktors wären auf allen Stufen eines anderen Faktors gleich groß. Dies ist weder für die hier vorliegenden 2-fach-Interaktionen noch für die 3-fach-Interaktionen bis auf wenige Ausnahmen der Fall. Stattdessen wird bereits anhand der beiden Liniendiagramme für die Darstellung der Wechselwirkungen zwischen zwei UVn ein komplexes Ergebnismuster sichtbar: Jede UV besitzt drei Kategorien (gering – hoch – keine Angabe), deren Linien häufig zwischen den Kategorien gering – hoch und den Kategorien hoch – keine Angabe gegensätzliche Richtungen in unterschiedlich starken Anstiegen aufzeigen. Für eine bessere Unterscheidung der Linienverläufe werden in allen nachfolgenden Diagrammen die Linien auf den UV-Stufen gering und hoch von denen auf der Stufe keine Angabe getrennt beschrieben. Diese separate Betrachtung der Kategorie keine Angabe soll jeweils mithilfe der gestrichelten vertikalen Linie bei Stufe 2 in den Diagrammen vereinfacht werden. Konkret bedeutet dies, dass zunächst der Vergleich der Mittelwerte auf den Stufen gering und hoch erfolgt und im Anschluss der Vergleich auf den Stufen hoch und keine Angabe sowie gering und keine Angabe, wodurch ein Vergleich der Mittelwerte in jeder Stufenkombination hergestellt werden kann.

Für die Beschreibung der Interaktionseffekte sei an dieser Stelle erneut auf die Frage hingewiesen, ab wann ein Bewertungsunterschied zwischen den Stufen einer UV im Vergleich zu einer anderen UV (2-fach-Interaktion) bzw. zu den anderen beiden UVn (3-fach-Interaktion) als groß genug gilt, unabhängig davon, ob der Unterschied statistisch signifikant ist oder nicht. Im vorangegangenen Abschnitt 4.4.2 wurden die Haupteffekte anhand der Mittelwerte und der paarweisen Vergleiche beschrieben. Es wurde festgestellt, dass die Unterschiede in den Bewertungen auf den Stufen der einzelnen UVn untereinander überaus gering waren – die größte Differenz mit −6,51 weist UV 1 bei dem Vergleich der Messwerte in Stufe 1 – gering mit Stufe 3 – keine Angabe auf (vgl.

Tabelle 4.13). Sehr geringe Unterschiede von zwei oder drei Punkten lassen sich vermutlich weniger auf inhaltlich begründete, intendierte Bewertungen zurückführen, sondern mit hoher Wahrscheinlichkeit auf die Handhabung des Schiebereglers mit der Maus. Ob auch Unterschiede von fünf oder sieben Punkten diesem Umstand geschuldet sind, kann nur spekuliert werden.

Obwohl solche geringen Unterschiede teilweise statistisch signifikant sind (beispielsweise die Differenz von −1,23 bei UV 2 in den Stufen gering und hoch mit p = 0,042, vgl. Tabelle 4.15), scheint es naheliegend, diese als inhaltlich unbedeutend zu beurteilen. Vor diesem Hintergrund werden derart geringe Unterschiede inhaltlich gleichgesetzt und in den nachfolgenden Ausführungen vernachlässigt.Footnote 46 Stattdessen werden Differenzen in den Bewertungen von mindestens 10 und 20 Punkten vornehmlich betrachtet. Diese Schwellen bei den Differenzen lassen sich mit ihrem Verhältnis zur Anzahl der Abstufungen der verwendeten Schiebereglerskala argumentieren: Unterschiede von 10 Punkten nehmen ein Zehntel der Gesamtskala ein, Unterschiede von 20 Punkten sind ein Fünftel der Gesamtskala; im Vergleich mit einer 5-Punkte-Skala entsprechen 20 Punkte einem Punkt. Differenzen dieser Größe bieten daher eine sinnvollere Grundlage für die Interpretation der Ergebnisse.

In diesem Abschnitt wird auf eine ausführliche Darstellung der 2-fach-InteraktionenFootnote 47 verzichtet, stattdessen wird der Fokus auf die 3-fach-Interaktionen gelegt. Wie bereits bei den Haupteffekten festgestellt, entsprechen die Wechselwirkungen zwischen UV 1 und UV 2, UV 2 und UV 3 sowie UV 1 und UV 3 nicht den Erwartungen. Vor dem Hintergrund, dass die Nichtanzeige von Download- oder Zitationszahlen im Durchschnitt zu höheren Relevanzbewertungen führt als die Anzeige geringer oder höherer Zahlen, wird zusätzlich ein komplexes Ergebnismuster sichtbar, welches keine generalisierenden Aussagen über die Wirkung einer einzelnen UV auf den Stufen einer zweiten UV zulässt. Es ist zu prüfen, ob sich hinsichtlich der 3-fach-Interaktionen das komplexe Ergebnismuster fortsetzt oder sich ein klareres Bild abzeichnet, auf dessen Basis Aussagen über die Wirkungen der einzelnen unabhängigen Variablen auf den Stufen aller weiteren unabhängigen Variablen getroffen werden können.

In den nachfolgenden Abschnitten 4.4.3.1, 4.4.3.2 und 4.4.3.3 werden die paarweisen Vergleiche der Wechselwirkungen aller drei UVn und insbesondere die Differenzwerte, die mehr als 10 bzw. 20 Bewertungspunkte aufweisen, berichtet. Da sich die Schätzungen der Mittelwerte für die 3-fach-Interaktion lediglich in der Reihenfolge der Anzeige unterscheiden, wird auf eine redundante Darstellung der Mittelwerte pro Wechselwirkung verzichtet. Am Ende jedes Abschnitts werden die Interaktionen mithilfe der Liniendiagramme erläutert.

Tabelle 4.18 zeigt die Mittelwerte der Bewertungen in allen 27 experimentellen Bedingungen, die einen Gesamtmittelwert von 52,82 bilden, wobei der Median bei 54,36 liegt. Zusätzlich beinhaltet sie die Nummer der jeweiligen experimentellen Bedingung (Merkmalskombination), durch die die Kombination aller Stufen der drei unabhängigen Variablen eine eindeutige Bezeichnung aufweist. Den höchsten Wert bietet die Merkmalskombination S322 mit 67,29 in der Kombination UV 1 – keine Angabe, UV 2 – hoch und UV 3 – hoch, den kleinsten Mittelwert mit 29,87 weist S221 auf in der Kombination UV 1 – hoch, UV 2 – hoch, UV 3 – gering. Die Kombination gering – gering – gering (S111) zeigt mit 41,71 einen wesentlich kleineren Mittelwert als die Kombination keine Angabe – keine Angabe – keine Angabe (S333) mit einem Wert von 51,30; die Kombination hoch – hoch – hoch (S222) hat einen Mittelwert von 50,08, welcher etwas geringer ausfällt als die durchschnittliche Bewertung in S333. Derartige Abweichungen von den Hypothesen zeigten sich bereits bei den Betrachtungen der Einzelwirkungen (Haupteffekte) und den Wechselwirkungen der 1. Ordnung.

Die Verteilung der Mittelwerte über alle 27 Teilstichproben mit Gesamtmittelwert und Median ist in Abbildung 4.19 grafisch dargestellt. Die Zuordnung einer Bedingung zu einer Aufgabe ist in Klammern angegeben. Gut erkennbar ist die Lage der Mittelwerte von S111, S222 und S333, die alle sowohl unter dem Gesamtmittelwert (52,82) als auch unter dem Median (54,36) liegen.

Bevor die jeweiligen Wirkungen aller drei unabhängigen Variablen auf den Stufen der jeweils anderen zwei UVn beschrieben werden, bietet Tabelle 4.19 eine Übersicht über die quantitative Verteilung der insgesamt 36 inhaltlich bedeutsamen Differenzwerte. Diese zeigt bereits die weniger starke Wirkung von UV 3 – Zitationszahl Autor im Vergleich zu den Wirkungen von UV 1 – Anzahl Downloads und UV 2 – Zitationszahl Werk: So weisen letztere insgesamt eine höhere Anzahl bedeutender Unterschiede auf, von denen sogar jeweils ein Wert bei ≥ 30 liegt.

Abbildung 4.19
figure 19

Diagramm der Mittelwerte aus den Bewertungen aller 27 Bedingungen (Teilstichproben)

Tabelle 4.18 Mittelwerte für UV 1 * UV 2 * UV 3 – Schätzungen
Tabelle 4.19 Inhaltlich bedeutsame Differenzwerte der 3-fach-Interaktionen

4.4.3.1 Die Wirkung von UV 1 – Anzahl Downloads auf den Stufen von UV 2 – Zitationszahl Werk und UV 3 – Zitationszahl Autor

Das Ausmaß der Unterschiede der Bewertungen von UV 1 – Anzahl Downloads auf den Stufen von UV 2 – Zitationszahl Werk zeigen die paarweisen Vergleiche in Tabelle 4.20Footnote 48. Im Gegensatz zu den paarweisen Vergleichen für die Interaktionseffekte 1. Ordnung werden nun deren Wechselwirkungen zusätzlich auf jeder Stufe von UV 3 – Zitationszahl Autor betrachtet. Die Hinzunahme der dritten UV führt dazu, dass die Tabellen jeweils 27 Differenzwerte beinhalten, während es für die 2-fach-Interaktionen im vorangegangenen Abschnitt nur jeweils 9 Werte waren. Obwohl diese nun vollständige Abdeckung von Differenzwerten zu einer ebenso vollständigen Betrachtung der einzelnen Differenzen verleiten mag, werden die inhaltlich bedeutsamen Differenzwerte, d. h. Werte größer 10 bzw. 20, in den Fokus genommen.

Tabelle 4.20 zeigt, dass 7 der 27 paarweisen Vergleiche nicht statistisch signifikant sind, 20 hingegen sind signifikant bei p < 0,001. Die nicht statistisch signifikanten Werte sind jedoch ohnehin vernachlässigbar gering, während unter den statistisch signifikanten Werten 7 Differenzen größer als 10 sind, größer als 20 sind 6 Differenzwerte und somit sind 13 Werte auch von inhaltlicher Bedeutung. Diese Werte verteilen sich über die Stufen von UV 3 – Zitationszahl Autor und UV 2 – Zitationszahl Werk folgendermaßen:

  • Bei einer geringen Anzahl an Autoren-Zitationen (UV 3 – Stufe 1) sind 3 Werte > 10 und 2 Werte > 20, wobei letztere jeweils bei einer hohen Anzahl Werks-Zitationen (UV 2) auftreten: Die Relevanzbewertung fällt hier entgegen den Erwartungen um durchschnittlich 25,35 Bewertungspunkte höher aus, wenn die Anzahl der Downloads (UV 1) gering ist im Vergleich zu einer hohen Anzahl Downloads und um durchschnittlich 26,87 Punkte höher, wenn die Anzahl der Downloads nicht angezeigt wird im Vergleich zur Anzeige einer hohen Anzahl Downloads. Bei einer geringen Anzahl Werks-Zitationen (UV 2) fällt die Relevanzbewertung im Durchschnitt um 17,32 Punkte größer aus, wenn die Anzahl der Downloads nicht angezeigt wird im Vergleich zu einer geringen Anzahl Downloads und ebenso um 16,31 Punkte größer im Vergleich zu einer hohen Anzahl Downloads. Wird die Anzahl der Zitationen eines Werks nicht angezeigt, ist die Relevanzbewertung im Mittel um 10,46 Punkte größer, wenn die Anzahl der Downloads hoch ist im Vergleich zur Nichtanzeige.

  • Bei einer hohen Anzahl an Autoren-Zitationen (UV 3 – Stufe 2) sind 3 Werte > 10 und 1 Wert > 20, letztere tritt ebenfalls bei einer hohen Anzahl Werks-Zitationen (UV 2) auf: Die Bewertung fällt um durchschnittlich 24,76 Punkte höher aus, wenn die Anzahl der Downloads (UV 1) nicht angezeigt wird im Vergleich zur Anzeige einer geringen Anzahl Downloads. Zudem ist die Bewertungspunktzahl im Durchschnitt 17,21 größer bei Nichtanzeige der Anzahl der Downloads im Vergleich zur Anzeige einer hohen Anzahl Downloads. Ist die Anzahl der Werks-Zitationen (UV 2) nicht angegeben, ist bei einer hohen Anzahl Downloads die Bewertung im Durchschnitt 16,34 Punkte höher im Vergleich zu einer geringen Anzahl Downloads und 13, 51 Punkte größer als bei Nichtanzeige der Downloadzahl.

  • Bei Nichtanzeige der Autoren-Zitationen (UV 3 – Stufe 3) sind 4 Werte inhaltlich relevant, wobei 1 Wert > 10 und 3 Werte > 20 sind. Die größte durchschnittliche Differenz liegt bei einer geringen Anzahl Werks-Zitationen: Die Bewertung fällt im Mittel um 30,02 Punkte höher aus bei einer hohen Anzahl Downloads und um 23,07 Punkte höher bei Nichtanzeige im Vergleich zu einer geringen Anzahl Downloads. Bei einer hohen Anzahl Werks-Zitationen fällt die Punktzahl der Relevanzbewertung im Durchschnitt um 21,26 Punkte kleiner aus, wenn die Anzahl der Downloads hoch ist im Vergleich zu einer geringen Anzahl Downloads; die Bewertung ist durchschnittlich 18,79 Punkte höher, wenn die Anzahl der Downloads nicht angegeben ist im Vergleich zur Anzeige einer hohen Anzahl Downloads. Bei Nichtanzeige der Werks-Zitationen liegen die Differenzwerte unter zehn Bewertungspunkten und können daher vernachlässigt werden.

Hervorzuheben ist hier der Differenzwert von −30,02 bei einem Vergleich der Kategorien gering und hoch bei UV 1 – Anzahl Downloads auf den Stufen 1 – gering von UV 2 – Zitationszahl Werk und 3 – keine Angabe von UV 3 – Zitationszahl Autor. Dieser Wert ist konform mit der Annahme, dass eine hohe Anzahl Downloads (UV 1) zu einer höheren Relevanzbewertung führt als eine geringe Anzahl Downloads. Ähnliches ist der Fall in der Kombination gering und hoch bei UV 1 auf der Stufe 3 – keine Angabe von UV 2 – Zitationszahl Werk und auf der Stufe 2 – hoch von UV 3 – Zitationszahl Autor mit dem Wert −6,34. Dagegen finden sich bei zwei Kombinationen von UV 1 – Anzahl Downloads Differenzwerte, die eine höhere Durchschnittsbewertung für die Stufe 1 – gering im Vergleich mit der Stufe 2 – hoch aufweisen: Dies betrifft den Vergleich von gering und hoch bei Stufe 2 – hoch von UV 2 und bei Stufe 1 – gering von UV 3 (25,35) sowie bei Stufe 2 – hoch von UV 2 – Zitationszahl Werk und auf Stufe 3 – keine Angabe bei UV 3 – Zitationszahl Autor (21,26). Zudem fällt auf, dass UV 3 auf Stufe 3 – keine Angabe die häufigsten Differenzwerte > 20 bei Stufe 1 – gering von UV 2 und Stufe 2 – hoch bei UV 2 hervorruft.

Die Liniendiagramme zur Darstellung der 3-fach-Interaktionen zeigen die Wirkung der jeweiligen UV (auf der y-Achse) auf den Stufen einer zweiten UV (auf der x-Achse) für jede Stufe der dritten UV in einem separaten Diagramm.

In Abbildung 4.20 sind die durchschnittlichen Bewertungen von UV 1 – Anzahl Downloads jeweils auf den Stufen von UV 2 – Zitationszahl Werk und UV 3 – Zitationszahl Autor dargestellt. Im ersten Diagramm der oberen Reihe verlaufen bei einer geringen Anzahl Autoren-Zitationen die Linien von UV 1 auf der Stufe 1 – gering im Vergleich mit Stufe 2 – hoch von UV 2 erneut gegensätzlich und entgegen der Erwartung: Die Linie gering weist einen starken positiven Anstieg auf, die Linie hoch zeigt eine eindeutige negative Richtung, während die Linie der Kategorie keine Angabe leicht negativ verläuft. Auf den Stufen 2 – hoch und 3 – keine Angabe von UV 2 (rechts der Trennlinie) weist die Linie hoch hingegen einen starken positiven Anstieg auf, während die Linien gering leicht negativ und keine Angabe negativ verlaufen. Bei dem Vergleich von Stufe 1 – gering und 3 – keine Angabe liegen die Kategorien gering und hoch mit einem ähnlich positiven Anstieg zueinander, die Kategorie keine Angabe hingegen verläuft negativ.

Im ersten Diagramm der unteren Reihe zeigt die Linie keine Angabe bei einer geringen Anzahl Werks-Zitationen einen ähnlich negativen Verlauf auf den Stufen von UV 3 – Zitationszahl Autor. Die Linien gering und hoch verlaufen nahezu gleich positiv auf der Stufe 1 – gering und 2 – hoch von UV 3, wohingegen die Linie hoch im Vergleich der Stufen 2 – hoch und 3 – keine Angabe stark ansteigt, die Linie gering stark abfällt. Von den Stufen 1 und 3 her betrachtet verhalten sich die Kategorien gering leicht negativ und hoch stark positiv.

Bei einer hohen Anzahl an Autoren-Zitationen (im zweiten Diagramm der oberen Reihe) verläuft die Linie hoch auf den Stufen 1 – gering und 2 – hoch von UV 2 – Zitationszahl Werk weder positiv noch negativ, während die Linie gering leicht negativ und die Linie keine Angabe positiv verläuft. Bei dem Vergleich von Stufe 2 – hoch und 3 – keine Angabe rechts von der Trennlinie zeigen die Linien gering und hoch entgegen der Erwartung einen positiven Anstieg, die Linie keine Angabe verläuft hingegen erwartungsgemäß negativ. Die Unterschiede der Kategorien gering und keine Angabe bei dem Vergleich der Stufen 1 – gering und 3 – keine Angabe von UV 2 sind nur minimal negativ, die Kategorie hoch verhält sich dagegen deutlich positiv.

Tabelle 4.20 Mittelwerte für UV 3 * UV 2 * UV 1 – Paarweise Vergleiche
Abbildung 4.20
figure 20

Mittelwerte der Bewertungen von UV 1 auf den Stufen von UV 2 bei UV 3 (obere Reihe) und auf den Stufen von UV 3 bei UV 2 (untere Reihe)

Im zweiten Diagramm der unteren Reihe verlaufen die Linien hoch und keine Angabe auf den Stufen 1 – gering und 2 – hoch von UV 3 – Zitationszahl Autor bei einer hohen Anzahl Werks-Zitationen (UV 2) nahezu parallel mit einem positiven Anstieg, die Linie gering verläuft negativ. Rechts von der Trennlinie, auf den Stufen 2 – hoch und 3 – keine Angabe von UV 3, setzt sich der parallele Verlauf der Linien hoch und keine Angabe fort, allerdings in negativer Richtung, während die Linie gering stark ansteigt. Der Vergleich der Kategorien auf den Stufen 1 – gering und 3 – keine Angabe zeigt, dass alle drei Linien nahezu parallel verlaufen.

Im dritten Diagramm der oberen Reihe, bei Nichtanzeige der Autoren-Zitationen, verläuft die Linie keine Angabe auf den Stufen 1 – gering und 2 – hoch von UV 2 – Zitationszahl Werk leicht positiv, die Linie gering dagegen stark positiv und die Linie hoch stark negativ. Rechts von der Trennlinie, auf den Stufen 2 – hoch und 3 – keine Angabe von UV 2, verlaufen die Linien gering und keine Angabe leicht negativ, während die Linie hoch einen starken Anstieg aufweist. Bei dem Vergleich der Kategorien auf den Stufen 1 – gering und 3 – keine Angabe zeigt sich, dass die Linien hoch und keine Angabe nahezu parallel, also ohne Interaktion, leicht negativ verlaufen, während die Linie gering stark positiv verläuft.

Ebenfalls nahezu parallel verlaufen im dritten Diagramm der unteren Reihe die Linien hoch und keine Angabe mit einem leicht positiven Anstieg auf den Stufen 1 – gering und 2 – hoch von UV 3 – Zitationszahl Autor, die Linie gering zeigt einen leicht negativen Verlauf. Auf den Stufen 2 – hoch und 3 – keine Angabe von UV 3 (rechts von der Trennlinie) sind die Linien hoch und keine Angabe leicht negativ gerichtet, während die Linie gering leicht positiv verläuft. Der Vergleich der Kategorien von UV 1 – Anzahl Downloads auf den Stufen 1 – gering und 3 – keine Angabe von UV 3 – Zitationszahl Autor zeigt erneut einen annähernd parallelen Verlauf für die Linien gering und keine Angabe bei einem leicht positiven Anstieg, die Linie hoch zeigt einen kaum merklichen Unterschied auf.

4.4.3.2 Die Wirkung von UV 2 – Zitationszahl Werk auf den Stufen von UV 1 – Anzahl Downloads und UV 3 – Zitationszahl Autor

In diesem Abschnitt werden die Wechselwirkungen von UV 2 – Zitationszahl Werk auf den Stufen von UV 1 – Anzahl Downloads und wiederum auf den einzelnen Stufen von UV 3 – Zitationszahl Autor betrachtet. Die Ergebnisse der paarweisen Vergleiche in Tabelle 4.21 zeigen, dass lediglich vier Differenzwerte nicht statistisch signifikant sind, während von den anderen Werten 19 statistisch signifikant sind bei p < 0,001 und vier Werte bei p < 0,05. 10 Differenzwerte sind im Durchschnitt > 10, bei 4 Werten sind die Differenzen > 20. Diese 14 inhaltlich bedeutsamen Werte verteilen sich über die Stufen von UV 3 und UV 2 folgendermaßen:

  • Bei einer geringen Anzahl an Autoren-Zitationen (UV 3 – Stufe 1) sind 5 Differenzwerte > 10, bei einem paarweisen Vergleich ist die Differenz größer als 20. Hier ist der höchste Differenzwert zu finden bei einer hohen Anzahl an Downloads: Die Relevanzbewertung fällt im Durchschnitt 27,85 Punkte höher aus bei Nichtanzeige der Werks-Zitationen im Vergleich zu einer hohen Anzahl; ebenfalls höher ist die Bewertung bei Nichtanzeige im Vergleich zur Anzeige einer geringen Anzahl Werks-Zitationen (im Durchschnitt 15,00 Punkte) während sie bei einer hohen Anzahl im Durchschnitt 12,85 Punkte kleiner ausfällt im Vergleich zu einer geringen Anzahl Werks-Zitationen. Bei einer geringen Anzahl Downloads treten beide Differenzwerte > 10 bei dem Vergleich mit einer geringen Anzahl Werks-Zitationen auf: Die Relevanzbewertung ist durchschnittlich 13,51 Punkte höher bei einer hohen Anzahl Werks-Zitationen und 12,65 Punkte höher, wenn die Anzahl Werks-Zitationen nicht angegeben ist. Ist hingegen die Anzahl der Downloads nicht angegeben, gibt es nur einen inhaltlich bedeutsamen Wert: Die Punktzahl der Relevanzbewertung ist im Mittel 11,76 höher, wenn die Anzahl der Werks-Zitationen gering ist im Vergleich zu deren Nichtanzeige.

  • Bei einer hohen Anzahl an Autoren-Zitationen (UV 3 – Stufe 2) liegen drei Werte über der 10-Punkte-Schwelle. Der höchste Differenzwert ist zu finden bei einer hohen Anzahl an Downloads (UV 1 – Stufe 2): Die Bewertung ist im Mittel 17,03 Punkte kleiner bei einer geringen Anzahl Werks-Zitationen und ebenfalls kleiner um 16,95 Punkte bei einer hohen Anzahl im Vergleich zu der Nichtanzeige der Werks-Zitationen. Ist die Anzahl der Downloads nicht angegeben, ist die Punktzahl der Relevanzbewertung im Durchschnitt 13,77 Punkte größer, wenn die Anzahl der Werks-Zitationen hoch ist im Vergleich zur Nichtanzeige der Werks-Zitationen.

  • Bei Nichtanzeige der Autoren-Zitationen (UV 3 – Stufe 3) sind für die Interaktionen der drei UVn auch in dieser Konstellation (analog zu den Differenzwerten in Tabelle 4.20) die meisten Differenzwerte > 20 festzustellen, von denen zwei Werte auf der Stufe 1 – gering von UV 1 – Anzahl Downloads liegen: Die Bewertung fällt um 30,07 Punkte im Durchschnitt größer aus, wenn die Anzahl der Werks-Zitationen hoch ist und um 24,99 Punkte größer bei deren Nichtanzeige im Vergleich zu einer geringen Anzahl Werks-Zitationen. Ein weiterer Differenzwert > 20 liegt bei einer hohen Anzahl an Downloads (UV 1 – Stufe 2): Die Punktzahl der Bewertung fällt im Mittel 21,21 kleiner aus, wenn die Anzahl der Werks-Zitationen hoch ist im Vergleich zu einer geringen Anzahl an Werks-Zitationen. Ebenfalls bei einer hohen Anzahl Downloads ist die Bewertung um 14,93 Punkte höher, wenn die Anzahl der Werks-Zitationen nicht angegeben ist im Vergleich zu einer hohen Anzahl Werks-Zitationen. Bei Nichtanzeige der Anzahl an Downloads fällt die Bewertung im Durchschnitt 10,10 Punkte größer aus bei einer hohen Anzahl an Werks-Zitationen im Vergleich zu deren Nichtanzeige.

Auffallend ist hier der höchste aller Differenzwerte von −30,07 bei einem Vergleich der Kategorien gering und hoch bei UV 2 – Zitationszahl Werk auf der Stufe gering von UV 1 – Anzahl Downloads und analog zu den paarweisen Vergleichen von UV 3 * UV 2 * UV 1 in Abschnitt 4.4.3.1 ebenfalls auf der Stufe keine Angabe von UV 3 – Zitationszahl Autor. Auch dieser Vergleichswert stützt die Erwartung, dass eine hohe Anzahl Werks-Zitationen zu einer höheren Punktzahl bei der Bewertung führt als eine geringe Werks-Zitationen, ebenso in der Kombination gering und hoch bei UV 2 auf den Stufen von UV 1 – gering und UV 3 – gering, in der die Differenz −13,51 beträgt. Das Gegenteil ist der Fall bei zwei Kombinationen von UV 2, bei denen ein höherer Wert für die Stufe gering im Vergleich mit der Stufe hoch vorliegt. So weist der Vergleich von gering und hoch bei UV 1 – hoch und UV 3 – keine Angabe den Wert 21,21 auf, bei UV 1 – hoch und UV 3 – gering den Wert 12,85. Des Weiteren trifft erneut zu, dass UV 3 – keine Angabe die häufigsten Differenzwerte > 20 sowohl bei UV 2 – gering als auch bei UV 2 – hoch erzielt; UV 3 – hoch bewirkt keine, UV 3 – gering lediglich eine Differenz > 20.

In Abbildung 4.21 sind die Liniendiagramme über die Mittelwerte der Bewertungen von UV 2 – Zitationszahl Werk jeweils auf den Stufen von UV 1 – Anzahl Downloads und UV 3 – Zitationszahl Autor dargestellt. Im ersten Diagramm der oberen Reihe verlaufen die Linien der Kategorien von UV 2 bei einer geringen Anzahl Autoren-Zitationen auf den Stufen 1 – gering und 2 – hoch von UV 1 gegensätzlich: Die Linie keine Angabe hat einen leicht positiven Anstieg; die Linie gering zeigt kaum erkennbar einen ebenfalls leicht positiven Anstieg, wodurch der Eindruck eines annähernd parallelen Verlaufs entsteht. Die Linie der Kategorie hoch zeigt entgegen der Erwartung einen stark negativen Verlauf. Rechts von der Trennlinie weisen die Linien gering und hoch auf den Stufen 2 – hoch und 3 – keine Angabe von UV 1 einen stark positiven Anstieg auf, während die Linie keine Angabe negativ verläuft. Vergleicht man die Kategorien von UV 2 – Zitationszahl Werk auf den Stufen 1 – gering und 3 – keine Angabe von UV 1 – Anzahl Downloads, ist für die Kategorie hoch eine leicht positive Richtung, für die Kategorie keine Angabe eine leicht negative Richtung erkennbar; für die Kategorie gering lässt sich hingegen ein positiver Anstieg feststellen.

Im ersten Diagramm der unteren Reihe verlaufen die Linien der Kategorien von UV 2 – Zitationszahl Werk bei einer geringen Anzahl Downloads (UV 1) auf den Stufen 1 – gering und 2 – hoch von UV 3 – Zitationszahl Autor ebenfalls ungleich: Die Linien hoch und keine Angabe verlaufen leicht negativ, wobei die Linie hoch einen stärken Abstieg aufweist als die Linie keine Angabe; die Linie gering weist einen positiven Anstieg auf. Auf den Stufen 2 – hoch und 3 – keine Angabe von UV 3 hingegen verlaufen die Linien hoch und keine Angabe positiv, die Linie gering stark negativ. Im Vergleich der Kategorien von UV 2 – Zitationszahl Werk auf den Stufen 1 – gering und 3 – keine Angabe von UV 1 – Anzahl Downloads lässt sich für hoch und keine Angabe ein leicht positiver Unterschied und für die Kategorie gering ein leicht negativer Unterschied feststellen.

Tabelle 4.21 Mittelwerte für UV 3 * UV 1 * UV 2 – Paarweise Vergleiche
Abbildung 4.21
figure 21

Mittelwerte der Bewertungen von UV 2 auf den Stufen von UV 1 bei UV 3 (obere Reihe) und auf den Stufen von UV 3 bei UV 1 (untere Reihe)

Im zweiten Diagramm der oberen Reihe verlaufen die Linien der Kategorien hoch und keine Angabe von UV 2 – Zitationszahl Werk bei einer hohen Anzahl von Autoren-Zitationen (UV 3) auf den Stufen 1 – gering und 2 – hoch von UV 1 positiv, die Linie gering hingegen leicht negativ. Auf den Stufen 2 – hoch und 3 – keine Angabe (rechts von der Trennlinie) verläuft die Linie hoch ebenfalls positiv, die Linie gering zeigt einen leicht positiven Anstieg und die Linie keine Angabe verläuft stark negativ. Bei dem Vergleich der Kategorien von UV 2 auf den Stufen 1 – gering und 3 – keine Angabe von UV 1 – Anzahl Downloads wird deutlich, dass zwischen gering und keine Angabe ein kaum erkennbarer Unterschied vorliegt. Für die Kategorie hoch ist hingegen ein deutlich positiver Unterschied erkennbar, der nicht der Erwartung entspricht.

Ein ähnlich paralleler Verlauf der Linien gering und keine Angabe von UV 2 – Zitationszahl Werk auf den Stufen 1 – gering und 2 – hoch von UV 3 – Zitationszahl Autor ist bei einer hohen Anzahl Downloads (UV 1) (im zweiten Diagramm der unteren Reihe) erkennbar; die Linie hoch weist erwartungsgemäß einen deutlichen Anstieg auf. Auf den Stufen 2 – hoch und 3 – keine Angabe verlaufen die Linien hoch und keine Angabe nahezu parallel und erwartungsgemäß leicht negativ; die Linie gering verläuft positiv. Vergleicht man die Unterschiede der Kategorien von UV 2 auf den Stufen 1 – gering und 3 – keine Angabe von UV 3 – Zitationszahl Autor, lässt sich für keine Angabe nur ein vernachlässigbar geringer negativer Unterschied erkennen. Für die Kategorien gering und hoch zeigt sich ein deutlich positiver Anstieg, der den Erwartungen erneut widerspricht.

Auch im dritten Diagramm der oberen Reihe, also bei Nichtanzeige der Autoren-Zitationen, verlaufen die Linien der Kategorien von UV 2 – Zitationszahl Werk auf den Stufen 1 – gering und 2 – hoch von UV 1 – Anzahl Downloads ungleich: Die Linie gering zeigt einen starken positiven Anstieg, die Linie hoch verläuft stark negativ und die Linie keine Angabe zeigt nur einen leicht negativen Verlauf. Ebenso gibt es einen parallelen Verlauf der Linien gering und keine Angabe auf den Stufen 2 – hoch und 3 – keine Angabe von UV 1 (rechts der Trennlinie), während die Linie hoch stark ansteigt. Die Kategorien hoch und keine Angabe lassen bei dem Vergleich der Stufen 1 – gering und 3 – keine Angabe von UV 1 einen leicht negativen Unterschied bei annähernder Parallelität erkennen, die Kategorie gering hingegen zeigt einen stark positiven Unterschied.

Im dritten Diagramm der unteren Reihe, also bei Nichtanzeige der Anzahl an Downloads, zeigen die Linien hoch und keine Angabe von UV 2 – Zitationszahl Werk auf den Stufen 1 – gering und 2 – hoch von UV 3 ebenfalls einen nur leichten Anstieg bei annähernder Parallelität; die Linie gering zeigt einen vernachlässigbar geringen negativen Verlauf. Rechts von der Trennlinie, also auf den Stufen 2 – hoch und 3 – keine Angabe von UV 3 – Zitationszahl Autor, verlaufen alle drei Linien annähernd gleich in negative Richtung, wobei die Linie hoch etwas stärker abfällt, während die Linien gering und keine Angabe nahezu parallel verlaufen. Deutlich parallel verhalten sich die Unterschiede zwischen den Kategorien hoch und keine Angabe auf den Stufen 1 – gering und 3 – keine Angabe von UV 3, für die Kategorie gering ist der Unterschied nur minimal in negativer Richtung.

4.4.3.3 Die Wirkung von UV 3 – Zitationszahl Autor auf den Stufen von UV 1 – Anzahl Downloads und UV 2 – Zitationszahl Werk

Tabelle 4.22 zeigt, dass lediglich fünf Differenzwerte nicht statistisch signifikant sind, während von den anderen Werten 18 statistisch signifikant sind bei p < 0,001 und vier Werte bei p < 0,05. Lediglich 6 Differenzwerte sind im Durchschnitt > 10, bei 3 Werten sind die Differenzen > 20. Diese 9 inhaltlich bedeutsamen Werte verteilen sich auf die Stufen von UV 2 und UV 1 folgendermaßen:

  • Bei einer geringen Anzahl Werks-Zitationen (UV 2 – Stufe 1) liegt der größte Differenzenwert bei Stufe 2 – hoch von UV 1, also einer hohen Anzahl an Downloads, und gibt an, dass im Durchschnitt die Bewertung um 21,09 Punkte größer ausfällt, wenn die Anzahl der Autoren-Zitationen nicht angezeigt wird im Vergleich zu einer geringen Anzahl an Zitationen des Autors. Ebenfalls bei einer hohen Anzahl an Downloads ist der Differenzwert von 13,82 Punkten zu finden, der aussagt, dass die Bewertung um 13,82 Punkte größer ist bei Nichtanzeige der Autoren-Zitationen im Vergleich zu einer hohen Anzahl. Bei einer geringen Anzahl an Downloads (UV 1 – Stufe 1) fällt die Relevanzbewertung durchschnittlich um 18,50 Punkte größer aus, wenn die Anzahl der Autoren-Zitationen hoch ist im Vergleich zu deren Nichtanzeige; dabei ist sie um 10,58 Punkte höher, wenn die Anzahl der Autoren-Zitationen hoch ist im Vergleich zu einer geringen Anzahl.

  • Bei einer hohen Anzahl Werks-Zitationen (UV 2 – Stufe 2) ist die höchste Differenz von −21,33 Punkten bei der Relevanzbewertung auf Stufe 1 – gering von UV 1 – Anzahl Downloads zu finden. Dieser Wert gibt an, dass die Bewertung im Mittel um 21,33 Punkte höher ausfällt, wenn die Zitationszahl des Autors nicht angegeben ist im Vergleich mit einer hohen Anzahl Autoren-Zitationen. Ebenso ist bei einer geringen Anzahl Downloads (UV 1 – Stufe 1) die Punktzahl der Relevanzbewertung um 12,69 größer, wenn die Anzahl an Autoren-Zitationen gering ist im Vergleich zu einer hohen Anzahl Autoren-Zitationen. Bei einer hohen Anzahl Downloads (UV 1 – Stufe 2) liegt ein weiterer Differenzwert über der 20-Punkte-Schwelle. So ist die Bewertung um 20,20 Punkte größer, wenn die Autoren-Zitationen eine hohe Anzahl darstellen im Vergleich zu einer geringen Anzahl Autoren-Zitationen. Ebenfalls größer ist die Bewertung um 12,73 Punkte, wenn die Anzahl der Autoren-Zitationen nicht angegeben ist im Vergleich zu der Anzeige einer geringen Anzahl. Auf Stufe 3 – keine Angabe von UV 1 liegt lediglich ein Differenzwert über der 10-Punkte-Schwelle: Ist die Anzahl der Downloads nicht angegeben, fällt die Relevanzbewertung im Durchschnitt um 10,54 Punkte größer aus bei einer hohen Anzahl an Autoren-Zitationen im Vergleich zu einer geringen Anzahl Autoren-Zitationen.

  • Bei Nichtanzeige der Werks-Zitationen (UV 2 – Stufe 3) gibt es weder einen Differenzwert > 20, noch einen Differenzwert > 10 bei den paarweisen Vergleichen von UV 3.

Tabelle 4.22 Mittelwerte für UV 2 * UV 1 * UV 3 – Paarweise Vergleiche
Abbildung 4.22
figure 22

Mittelwerte der Bewertungen von UV 3 auf den Stufen von UV 1 bei UV 2 (obere Reihe) und auf den Stufen von UV 2 bei UV 1 (untere Reihe)

Im Vergleich mit den paarweisen Vergleichen in Tabelle 4.20 und Tabelle 4.21 sind hier die wenigsten Differenzwerte enthalten, die über der Schwelle zu den inhaltlich bedeutsamen Werten liegen. Zudem fällt auf, dass der höchste Differenzwert nur geringfügig größer ist als 20 (21,33). Allerdings sind auch hier Differenzwerte vorhanden, die bei einem Vergleich der Kategorien gering und hoch bei UV 3 – Zitationszahl Autor wie vermutet zeigen, dass eine hohe Anzahl Autoren-Zitationen zu einer höheren Punktzahl bei der Bewertung führt als eine geringe Autoren-Zitationen: Jeweils auf der Stufe gering von UV 1 und UV 2 (−10,58), bei der Stufe hoch von UV 1 und der Stufe hoch von UV 2 (−20,20) sowie bei der Stufe keine Angabe von UV 1 und UV 2 – hoch (−10,54) sind die Differenzwerte negativ. Positiv und somit entgegen der Erwartung ist der Differenzwert in der Kombination gering und hoch von UV 3 bei UV 1 – gering und UV 2 – hoch mit 12,69. Ferner sticht die Stufe keine Angabe von UV 2 hervor, da hier bei dem Vergleich der Werte auf den Stufen von UV 3 keinerlei Differenzwerte > 10 vorhanden sind.

Abbildung 4.22 zeigt die Liniendiagramme der durchschnittlichen Bewertungen von UV 3 – Zitationszahl Autor auf den jeweiligen Stufen von UV 1 – Anzahl Downloads und UV 2 – Zitationszahl Werk. Im ersten Diagramm der oberen Reihe verlaufen die Linien bei einer geringen Anzahl von Werkszitationen auf den Stufen 1 – gering und 2 – hoch von UV 1 erneut gegensätzlich: Die Linie gering zeigt einen leicht positiven Anstieg, die Linie hoch einen leicht negativen Abstieg und die Linie keine Angabe einen stark positiven Anstieg. Auf den Stufen 2 – hoch und 3 – keine Angabe von UV 1 (rechts von der Trennlinie) hingegen verläuft die Linie keine Angabe leicht negativ, die Linie hoch leicht positiv und die Linie gering stark positiv. Bei einem Vergleich der Kategorien von UV 3 auf den Stufen 1 – gering und 3 – keine Angabe von UV 1 – Anzahl Downloads ist für alle ein positiver Unterschied erkennbar, wobei alle relativ nah beieinander liegen und der größte Unterschied für die Kategorie keine Angabe besteht. Das heißt, dass bei Nichtanzeige der Anzahl von Downloads (UV 1) und einer geringen Anzeige von Werks-Zitationen (UV 2) die durchschnittlichen Relevanzbewertungen von UV 3 – Zitationszahl Autor zum einen nur einen sehr geringen Abstand zueinander aufweisen und zum anderen alle entgegen der Erwartung höher ausfallen als bei einer geringen Anzahl Downloads.

Im ersten Diagramm der unteren Reihe ähnelt der Verlauf der Linien der Kategorien von UV 3 – Zitationszahl Autor sehr dem Linienverlauf im ersten Diagramm der oberen Reihe links von der Trennlinie: Die Linie keine Angabe zeigt auf den Stufen 1 – gering und 2 – hoch von UV 2 – Zitationszahl Werk bei einer geringen Anzahl Downloads (UV 1) einen stark positiven Anstieg, die Linie gering einen positiven Anstieg und die Linie hoch verläuft negativ. Rechts von der Trennlinie, also auf den Stufen 2 – hoch und 3 – keine Angabe von UV 2 – Zitationszahl Werk, verlaufen die Linien gering und keine Angabe nahezu gleich leicht negativ, wobei der Unterschied in der Kategorie gering von UV 3 – Zitationszahl Autor kaum zu erkennen ist; die Linie hoch zeigt hier erneut einen leicht positiven Anstieg. Bei dem Vergleich der Kategorien von UV 3 – Zitationszahl Autor auf den Stufen 1 – gering und 3 – keine Angabe von UV 2 – Zitationszahl Werk ist für die Kategorie hoch ein leicht negativer Abstieg, für die Kategorie gering ein leicht positiver und für die Kategorie keine Angabe ein etwas stärkerer positiver Unterschied erkennbar.

Im zweiten Diagramm der oberen Reihe verlaufen bei einer hohen Anzahl Werkszitationen (UV 2) auf den Stufen 1 – gering und 2 – hoch von UV 1 – Anzahl Downloads erneut zwei Linien der Kategorien von UV 3 – Zitationszahl Autor ähnlich: Die Linien gering und keine Angabe verlaufen stark negativ bei annähernder Parallelität, während die Linie hoch einen leichten positiven Anstieg zeigt. Dieser nahezu parallele Verlauf setzt sich auf den Stufen 2 – hoch und 3 – keine Angabe von UV 1 – Anzahl Downloads bei einem stark positiven Anstieg fort, wobei hier auch die Linie hoch parallel zu den anderen verläuft. Auch bei dem Vergleich der Kategorien gering und keine Angabe auf den Stufen 1 – gering und 3 – keine Angabe von UV 1 wird ein paralleler Verlauf ersichtlich, wobei jedoch die Kategorie gering einen kaum wahrnehmbaren Unterschied aufweist, während für die Kategorie keine Angabe der Unterschied minimal gering ausfällt; die Kategorie hoch hingegen zeigt einen großen Unterschied in positive Richtung, was nicht der Erwartung entspricht.

Im zweiten Diagramm der unteren Reihe verlaufen die Linien der Kategorien gering und keine Angabe von UV 3 – Zitationszahl Autor auf den Stufen 1 – gering und 2 – hoch von UV 2 – Zitationszahl Werk ähnlich negativ wie im zweiten Diagramm der oberen Reihe auf den Stufen 1 – gering und 2 – hoch von UV 1 – Anzahl Downloads; die Linie hoch verläuft dagegen weder positiv noch negativ. Auf den Stufen 2 – hoch und 3 – keine Angabe von UV 2 (rechts von der Trennlinie) verlaufen erneut die Linien hoch und keine Angabe parallel bei positivem Anstieg, die Linie gering verläuft ebenfalls positiv bei einem stärkeren Anstieg. Bei dem Vergleich der Kategorien von UV 3 – Zitationszahl Autor auf den Stufen 1 – gering und 3 – keine Angabe von UV 2 – Zitationszahl Werk kann ein nahezu paralleler Verlauf für gering und hoch festgestellt werden, wobei auch hier die Werte auf der Stufe 3 – keine Angabe von UV 2 höher liegen als auf Stufe 1 – gering. Für die Kategorie keine Angabe ist ein geringer Unterschied in negativer Richtung erkennbar.

Im dritten Diagramm der oberen Reihe verlaufen die Linien der Kategorien gering und keine Angabe von UV 3 – Zitationszahl Autor bei Nichtanzeige der Werks-Zitationen (UV 2) auf den Stufen 1 – gering und 2 – hoch von UV 1 – Anzahl Downloads zwar sehr nah beieinander, allerdings gegensätzlich: Die Linie gering verläuft leicht positiv, die Linie keine Angabe leicht negativ. Die Linie hoch hat dagegen einen deutlich positiven Anstieg. Rechts von der Trennlinie, also auf den Stufen 2 – hoch und 3 – keine Angabe, verlaufen alle drei Linien gleich negativ, wobei die Linie keine Angabe den geringsten Abstieg zeigt und die Linien gering und hoch nahe parallel verlaufen. Ebenfalls gleich und parallel zeigt sich der Unterschied in den Kategorien gering und keine Angabe bei dem Vergleich der Stufen 1 – gering und 3 – keine Angabe von UV 1 – Anzahl Downloads, während der Unterschied für die Kategorie hoch lediglich minimal positiv ausfällt.

Im dritten Diagramm der unteren Reihe zeigt sich ein ähnliches Ergebnismuster wie in dem dritten Diagramm der oberen Reihe: Bei Nichtanzeige der Downloads (UV 1) verlaufen die Linien der Kategorien hoch und keine Angabe von UV 3 – Zitationszahl Autor auf den Stufen 1 – gering und 2 – hoch von UV 2 – Zitationszahl Werk leicht positiv, die Linie gering leicht negativ. Auf den Stufen 2 – hoch und 3 – keine Angabe (rechts von der Trennlinie) zeigt sich auch hier ein annähernd paralleler Verlauf aller drei Linien in erwartungskonform negativer Richtung. Die Unterschiede der Kategorien von UV 3 – Zitationszahl Autor auf der Stufe 1 – gering von UV 2 – hoch im Vergleich zur Stufe 2 – hoch von UV 2 – Zitationszahl Werk sind erneut nur minimal in negativer Richtung; zwischen den Kategorien gering und hoch kann bei großzügiger Betrachtung von einem parallelen Verlauf ausgegangen werden.

Sowohl bei den Haupteffekten als auch bei den Interaktionseffekten der 1. Ordnung konnte ein komplexes Ergebnismuster festgestellt werden, das den Erwartungen nicht entspricht. Die Ergebnisse der 2-fach-Interaktionen zeigen, dass sich dieses komplexe Muster bei dem Vergleich aller unabhängigen Variablen untereinander auf den drei Stufen gering – hoch – keine Angabe fortsetzt.

Betrachtet man ausschließlich die als inhaltlich bedeutsam zu beurteilenden Differenzwerte der paarweisen Vergleiche, die einen Unterschied von mindestens 10 Punkten und 20 Punkten aufweisen, fällt auf, dass die beiden höchsten Differenzwerte > 30 beide auf der Stufe 3 – keine Angabe von UV 3 – Zitationszahl Autor liegen: Ist zusätzlich die Zitationszahl Werk gering (UV 2 – Stufe 1), ist die Bewertung durchschnittlich 30,02 Punkte höher, wenn die Anzahl der Downloads hoch (UV 1 – Stufe 2) ist im Gegensatz zu einer geringen Anzahl (UV 1 – Stufe 1) (vgl. Tabelle 4.20); ist dagegen zusätzlich die Anzahl der Downloads gering (UV 1 – Stufe 1), fällt die Bewertung im Durchschnitt um 30,07 Punkte höher aus, wenn die Zitationszahl Werk hoch (UV 2 – Stufe 2) ist im Vergleich zu einer geringen Anzahl (UV 2 – Stufe 1) (vgl. Tabelle 4.21).

Sehr ähnlich sind zudem die Differenzwerte im Vergleich der Stufen 1 – gering mit 2 – hoch jeweils für UV 1 und UV 2: Die Durchschnittsbewertung ist um 23,07 Punkte höher bei Nichtanzeige der Anzahl Downloads (UV 1 – Stufe 3) im Vergleich mit einer geringen Anzahl Downloads (UV 1 – Stufe 1) (vgl. Tabelle 4.20), um 24,89 Punkte ist sie höher bei Nichtanzeige der Zitationszahl Werk (UV 2 – Stufe 3) im Vergleich mit einer geringen Anzahl Werkszitationen (UV 2 – Stufe 1) (vgl. Tabelle 4.21). Ein ebenso ähnliches und den Erwartungen nicht entsprechendes Bild zeigt sich beispielsweise auf der Stufe 2 – hoch jeweils für UV 1 und UV 2 bei Nichtanzeige der Autorenzitationen (UV 3 – Stufe 3): Die Bewertung ist um 21,26 Punkte im Durchschnitt kleiner bei einer hohen Anzahl Downloads im Vergleich zu einer geringen Anzahl Downloads, wenn die Anzahl der Werkszitationen hoch ist (vgl. Tabelle 4.20); um 21,21 Punkte ist sie kleiner bei einer hohen Anzahl Werkszitationen im Vergleich mit einer geringen Anzahl Werkszitationen, wenn die Anzahl der Downloads hoch ist (vgl. Tabelle 4.21). Die Besonderheit von Kategorie 3 – keine Angabe wird hier erneut deutlich.

4.5 Diskussion der Ergebnisse im Kontext der Studienmethodik

Dieser Abschnitt beginnt mit einer Zusammenfassung des Vorgehens bei der Entwicklung des experimentellen Untersuchungsdesigns (vgl. Abschnitt 4.1), der Datenerhebung (vgl. Abschnitt 4.2) und der Datenauswertung (vgl. Abschnitt 4.3). Anschließend werden die in Abschnitt 4.4 berichteten Ergebnisse diskutiert. Dabei werden mögliche Gründe für die Uneindeutigkeit der statistischen Ergebnisse erörtert. Zu beachten ist hierbei, dass aufgrund fehlender vergleichbarer Studien zur Erforschung von Relevanzkriterien anhand eines experimentellen Designs (vgl. Abschnitt 2.2.4) keine Erkenntnisse anderer Untersuchungen in die hier vorgenommene Ergebnisdiskussion einfließen können.

Die Begründung für die Entwicklung und Durchführung eines experimentellen Designs wurde bereits im Zusammenhang mit der Entwicklung der Forschungsfrage F1 in Abschnitt 2.3 diskutiert. Das Hauptargument liegt hierbei darin, unter Berücksichtigung von Manipulation und Kontrolle kausale Schlussfolgerungen über den Zusammenhang zwischen Ursache und Wirkung zweier Variablen ableiten zu können. Der Vorteil eines mehrfaktoriellen Designs gegenüber mehreren einfaktoriellen Untersuchungen besteht in der Feststellung von Interaktionen, die Abhängigkeiten von den verschiedenen Ausprägungen der einzelnen unabhängigen Variablen sichtbar machen. Bedenkt man die Komplexität von Relevanz und die diversen Elemente eines Suchergebnisses, die als Relevanzmerkmale dienen können und durch ihr Zusammenwirken die Relevanzbewertung beeinflussen, wäre ein einfaktorielles Design wenig zielführend.

Die in diesem Experiment untersuchten unabhängigen Variablen UV 1 – Anzahl Downloads, UV 2 – Zitationszahl Werk und UV 3 – Zitationszahl Autor mit jeweils drei Ausprägungen (gering – hoch – keine Angabe) stellen die operationalisierten Relevanzkriterien für Popularität bzw. im Fall der Zitationszahl Autor für Autorität dar. Ihr Einfluss auf die Relevanzbewertung von Suchergebnissen (Surrogaten) in akademischen Suchsystemen als zu messende abhängige Variable wird als positiv angenommen. Die abhängige Variable Bewertung wurde operationalisiert als Punktzahl der Bewertung über die Nützlichkeit des Surrogates hinsichtlich eines Informationsbedürfnisses, die mithilfe einer Schieberegler-Skala mit 101 Abstufungen durch die Versuchspersonen explizit angezeigt wurde. Konkret bestand die Annahme, dass eine höhere Anzahl an Downloads oder Zitationen eines Werks bzw. eines Autors mit den Bewertungen der Suchergebnisse positiv korreliert.

Die Entscheidung für ein Within-Subjects-Designs und gegen ein Between-Subjects-Design beruhte zum einen auf inhaltlichen Gründen hinsichtlich des Zusammenhangs der Variablen und zum anderen auf dem Argument, einen höheren Stichprobenumfang erreichen zu können. Zudem stellten personengebundene Störvariablen kein Problem dar, weil diese in einem Within-Subjects-Design vollständig parallelisiert und mögliche unerwünschte Effekte über alle Bedingungen ausgeglichen sind.

Das mehrfaktorielle Within-Subjects-Design wurde vollständig als Online-Fragebogen umgesetzt, d. h. die Versuchspersonen wurden allen 27 möglichen Bedingungskombinationen der drei UVn auf jeweils drei Stufen gleichermaßen ausgesetzt. Die Reihenfolge der angezeigten Bedingungen wurde randomisiert, um möglichen Reihenfolge- und Positionseffekten vorzubeugen. Eine Bedingung bestand in der Präsentation eines Surrogates, das die manipulierten Popularitätsdaten enthält. Die insgesamt 27 Surrogate wurden auf 3 nacheinander zu bearbeitenden Aufgaben zu den Themen Altmetrics, Peer Review und Wikipedia verteilt, wobei nicht nur die Reihenfolge der Surrogate innerhalb einer Aufgabe, sondern auch die Reihenfolge der drei Aufgaben im Online-Fragebogen randomisiert wurde. Eine Aufgabe beinhaltete eine kurze Situationsbeschreibung gefolgt von der Beschreibung eines Informationsbedürfnisses, zu dem die gelisteten Suchergebnisse in Hinblick auf deren Nützlichkeit zur Befriedigung des beschriebenen Bedürfnisses bewertet werden sollten. Die Entwicklung dieser Beschreibungstexte, die auch als Vignetten bezeichnet werden können, orientierte sich an dem im Interactive Information Retrieval häufig verwendeten Konzept der Simulated Work Task Situation. Für die Erstellung der Surrogate wurde anhand zuvor entworfener Auswahlkriterien auf real existierende Dokumentsurrogate zurückgegriffen. Das Ergebnis der Fragebogenkonstruktion stellt ein multifaktorielles Online-Survey (auch Online-Vignettenanalyse) dar, das im Gegensatz zur oft als zu künstlich empfundenen Laborsituation in einem realen Umfeld der Versuchspersonen durchgeführt wird. Da hier dennoch „die experimentelle Situation in hohem Ausmaß kontrolliert werden kann“ (Berger & Wolbring, 2015, S. 46), darf von einer höheren externen Validität ausgegangen werden.

Um die mithilfe des Statistik-Tools G*Power a-priori berechnete optimale Stichprobengröße von n = 577 zu erreichen, wurden mehr als 15.000 Wissenschaftliche Mitarbeiterinnen und Mitarbeiter sowie (Post-)Doktorandinnen und (Post-)Doktoranden unterschiedlicher Fachrichtungen an verschiedenen Universitäten Deutschlands zur Teilnahme an der Studie per E-Mail eingeladen. Über den wahren Zweck des Experiments wurden die Teilnehmenden nicht vor Beginn, sondern am Ende der Befragung aufgeklärt, um eine mögliche unerwünschte Beeinflussung auf die erhobenen Daten zu verhindern. Stattdessen wurde die Umfrage unter dem Titel „Teilnehmende für Online-Umfrage zur Nutzung wissenschaftlicher Suchsysteme“ beworben.

Die in einem Zeitraum von 36 Tagen im Sommer 2019 erhobenen Daten wurden aufbereitet, bereinigt und mit SPSS 25 einer Mehrebenenanalyse unterzogen. Mithilfe der Mehrebenenanalyse können die Wirkungen der einzelnen unabhängigen Variablen (Haupteffekte) analysiert sowie die Abhängigkeiten dieser einzelnen Effekte von den Stufen der jeweils anderen unabhängigen Variablen (Interaktionseffekte) geprüft werden.

Das Experiment zur Untersuchung des Einflusses von Popularitätsdaten auf die Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen führte nicht zu den – wie angenommen – eindeutigen Ergebnissen. Dass die inhaltlichen Hypothesen nicht bestätigt werden können, wurde bereits an mehreren Stellen erwähnt. Eine statistische Hypothesenprüfung entfällt aufgrund der fehlenden statistischen Hypothesen über konkrete Erwartungen zur Effektgröße, denn für deren Aufstellung hätten statistische Ergebnisse bzw. statistische Parameter aus vergleichbaren Studien herangezogen werden müssen. Da diese jedoch weder für die Haupteffekte noch für die Interaktionseffekte vorlagen, wurden lediglich inhaltliche bzw. empirische Hypothesen über die Haupteffekte formuliert. Diese beschreiben einen positiven Einfluss der UV 1, UV 2 und UV 3 auf die AV (vgl. Abschnitt 4.1.3):

  1. H1: Die Downloadhäufigkeit eines Werks hat einen positiven Einfluss auf die Relevanzbewertung.

  2. H2: Die Zitationshäufigkeit eines Werkes hat einen positiven Einfluss auf die Relevanzbewertung.

  3. H3: Die Zitationshäufigkeit des Autors hat einen positiven Einfluss auf die Relevanzbewertung.

Sowohl die Haupteffekte als auch die Interaktionseffekte 1. Ordnung (2-fach-Interaktionen) und 2. Ordnung (3-fach-Interaktionen) sind statistisch signifikant. Das bedeutet, dass der Nachweis des Effekts der jeweils einzelnen unabhängigen Variablen aufgrund der statistisch signifikanten Wechselwirkungen mit den anderen UVn nicht (mehr) standhalten kann. Dadurch sind die Haupteffekte – exklusiv betrachtet – wenig aussagekräftig. Stattdessen stellt die 3-fach-Interaktion das zentrale Ergebnis der gesamten Mehrebenenanalyse dar.

Die Schwierigkeit der Interpretation der Daten besteht unter anderem aufgrund der zahlreichen paarweisen Vergleiche, die für die 3-fach-Interaktion analysiert wurden. Die hohe Anzahl an paarweisen Vergleichen ergibt sich aus der Anzahl der unabhängigen Variablen und der Anzahl der Stufen. Da in dem Experiment drei unabhängige Variablen mit jeweils drei Stufen untersucht wurden, liegen die Daten aus 27 verschiedenen Bedingungen vor, die für die 3-fach-Interaktion für jede UV auf allen Stufen der jeweils anderen beiden UVn auszuwerten sind.

Damit die statistischen Ergebnisse sinnvoll interpretiert werden können, wurde der Versuch unternommen, diese in Bezug auf ihre inhaltliche Relevanz einzugrenzen. So wurde der Fokus auf diejenigen Ergebnisse der paarweisen Vergleiche gelegt, die Unterschiede zwischen den Bewertungen von mindestens 10 bzw. 20 Punkten legten. Im Zusammenspiel der drei unabhängigen Variablen zeigte sich, dass die beiden werksbezogenen Variablen, d. h. die Anzahl der Downloads (UV 1) und die Anzahl der Zitationszahl eines Werks (UV 2), im Vergleich zur Anzahl der Zitationen eines Autors (UV 3), eine größere Anzahl dieser inhaltlich bedeutsamen Unterschiede aufweisen, von denen jeweils ein Wert sogar über 30 Punkte liegt (vgl. Tabelle 4.19). Die Zitationszahl Werk liegt hierbei mit insgesamt 14 inhaltlich bedeutsamer Differenzwerte vor der Anzahl der Downloads mit 13 Werten und vor der Zitationszahl des Autors mit 9 Werten. Dies mag zu der Schlussfolgerung verleiten, die Zitationszahl Werk (UV 2) von den drei unabhängigen Variablen als diejenige mit dem größten Effekt auf die Relevanzbewertung zu beurteilen; dies lässt sich anhand der statistischen Ergebnisse insbesondere bei der 3-fach-Interaktion jedoch nicht eindeutig nachweisen.

Insbesondere die Differenzwerte, die auf Stufe 3 – keine Angabe hervorgerufen wurden, weichen von den im Rahmen der Hypothesenformulierung erläuterten Annahmen deutlich ab. Vermutet wurde, dass (a) bei Stufe 2 – hoch die Punktzahl der Relevanzbewertung im Durchschnitt größer als bei Stufe 1 – gering oder Stufe 3 – keine Angabe wäre und (b) bei Stufe 3 – keine Angabe die Punktzahl der Relevanzbewertung im Durchschnitt kleiner als bei Stufe 1 – gering oder Stufe 2 – hoch wäre. Die Hypothesen lassen demzufolge eine Ordinalskala vermuten, obwohl es sich tatsächlich um eine Nominalskala handelt, da den drei Kategorien ihre Werte aus einem bestimmten Wertebereich zugewiesen wurden. Diese vermutete Rangfolge der Kategorien lässt sich anhand der statistischen Ergebnisse nicht bestätigen. Es ist nicht der Fall, dass die Differenzwerte bei den paarweisen Vergleichen auf Stufe 3 – keine Angabe immer niedriger sind als die Werte auf Stufe 1 – gering oder Stufe 2 – hoch. Es ist auch nicht der Fall, dass die Differenzwerte auf Stufe 2 – hoch immer höher sind als die Werte auf Stufe 1 – gering oder Stufe 3 – keine Angabe.

Die Eingrenzung der Differenzwerte auf inhaltlich bedeutsame Unterschiede von mindestens 10 Punkten hat diesbezüglich keine klareren Erkenntnisse bewirkt; dennoch kann sie als sinnvolle Maßnahme für die Interpretation der Ergebnisse bewertet werden, weil diese Eingrenzung mit der Beschäftigung mit dem Unterschied zwischen Ergebnissen, die statistisch signifikant (statistisch bedeutsam) sind und Ergebnissen, die inhaltlich bedeutsam sind, einherging. In diesem Zusammenhang schreiben Döring & Bortz:

Häufig wird ein statistisch signifikantes Ergebnis automatisch für ein bedeutsames Ergebnis gehalten, insbesondere wenn es auf einer großen Stichprobe basiert. Gerade bei großen Stichproben können jedoch auch sehr kleine, praktisch unbedeutende Effekte statistisch signifikant werden. (2016, S. 668)

Auch bei einer Aufteilung der Gesamtstichprobe in die sechs fachdisziplinspezifischen Gruppen (vgl. Abschnitt 4.4.1) und deren statistischer Mehrebenenanalyse zeigt sich kein klareres Bild. Hier liegen zwar ebenfalls statistisch signifikante Ergebnisse, aber auch nicht statistisch signifikante Ergebnisse vor, die über die Richtung der Effekte keine eindeutigen Aussagen zulassen. Die Haupteffekte sowie die Interaktionseffekte 2. Ordnung für jede der sechs Fachdisziplinen sind den Tabellen der Mittelwerte und paarweisen Vergleiche in Anhang 4.2 im elektronischen Zusatzmaterial zu entnehmen. Bei der Betrachtung dieser statistischen Ergebnisse ist zu beachten, dass die jeweilige Anzahl der analysierten Fälle und Versuchspersonen (zu einer Versuchsperson liegen jeweils 27 Fälle, d. h. bewertete Surrogate, vor) zwischen den Gruppen sehr stark variiert, sodass ein direkter Gruppenvergleich untereinander sowie ein Vergleich einer Gruppe aus einer verhältnismäßig geringen Anzahl an Versuchspersonen (z. B. Humanmedizin mit n = 27 bzw. 4,3 % der Gesamtstichprobe) mit den Ergebnissen der Gesamtstichprobe nicht sinnvoll ist. Neben den beiden größten Gruppen der Naturwissenschaften (n = 264 bzw. 42,1 % der Gesamtstichprobe) und Sozialwissenschaften (n = 155 bzw. 24,7 % der Gesamtstichprobe) zeigen die restlichen vier einen jeweils kleineren Stichprobenumfang mit n < 100. Auf die erneute Mehrebenenanalyse unter Hinzunahme der anderen erhobenen demografischen Variablen, wie Alter und Geschlecht, in das Mehrebenenmodell wurde verzichtet, um das ohnehin komplexe Ergebnismuster nicht weiter zu verkomplizieren.

Die Tatsache, dass die statistischen Ergebnisse kein eindeutiges Bild über den Einfluss der untersuchten Popularitätsdaten auf die Relevanzbewertung von Surrogaten im akademischen Kontext liefern, kann unter anderem mit der Variation der unabhängigen Variablen auf Stufe 3 als keine Angabe begründet werden.

Motiviert war die Hinzunahme der Ausprägung keine Angabe zu den drei unabhängigen Variablen zum einen damit, dass diese die Präsentation von Suchergebnissen in traditionellen akademischen Suchsystemen, d. h. ohne integrierte zusätzliche Daten wie Popularitätsdaten, wiedergeben; zum anderen wurden die Bewertungen des Surrogats, das die Bedingung, in der alle UVn auf Stufe 3 – keine Angabe variiert sind (S333), repräsentiert, als „Baseline“ für die Bewertung der thematischen Relevanz erachtet (Abbildung 4.23). Zunächst hebt sich diese Kategorie von den anderen beiden Kategorien gering und hoch dahingehend ab, dass ihr kein quantitativer Wert zugewiesen wurde. Daher stellt sich die Frage, an welchen Elementen des Surrogats sich die Versuchspersonen orientierten, wenn für die UV kein Wert angegeben war, sondern das Kürzel n. a. (not available) angezeigt wurde. In der Erläuterung zu den Aufgaben im Fragebogen wurde ausdrücklich darauf hingewiesen, dass dieses Kürzel nicht gleichbedeutend ist mit Null, sondern das Fehlen eines Wertes kennzeichnet. Ob jede VPn den Erläuterungstext aufmerksam gelesen und diesen Hinweis tatsächlich berücksichtigt hat, ist ungewiss.

Abbildung 4.23
figure 23

Surrogat mit der Bedingung S333 aus Aufgabe 1 – Altmetrics

Im Zusammenhang mit dem Aspekt der thematischen Relevanz ist die Auswahl der Surrogate in Hinblick auf die Beschreibung der Informationsbedürfnisse kritisch zu betrachten. Es stellte sich heraus, dass das Surrogat S221 im Durchschnitt die geringste Anzahl an Bewertungspunkten (29,87) erzielte (vgl. Tabelle 4.18 und Abbildung 4.19), obwohl die Kombination der Stufen hoch – hoch – gering einen höheren Wert vermuten lassen würde; der Grund ist vermutlich der, dass das Basiskriterium der thematischen Relevanz für die VPn ausschlaggebend war für die Bewertung, dieses jedoch als verhältnismäßig gering erachtet wurde. Dies ist bei einer eingehenden Prüfung des Surrogats (Abbildung 4.24) im Zusammenhang mit der Beschreibung des Informationsbedürfnisses durchaus nachvollziehbar; der Beschreibungstext bzw. die Aufgabe lauteten:

Viele Menschen nutzen die Online-Enzyklopädie Wikipedia – die deutschsprachige Webseite wird eigenen Angaben zufolge täglich Millionen Mal aufgerufen. Trotz ihrer Beliebtheit wird Wikipedia im Bildungskontext und im Hochschulbereich gemeinhin nicht als zitierfähige Informationsquelle erachtet, da Zweifel an der Güte bzw. Qualität von Wikipedia-Artikeln bestehen.

Ihr Informationsbedürfnis: Sie möchten herausfinden, ob diese Zweifel in Hinblick auf Wikipedia und Lehre berechtigt sind.

Abbildung 4.24
figure 24

Surrogat mit der geringsten Durchschnittsbewertung aus Aufgabe 3 – Wikipedia

Die Aufnahme dieses Surrogats als eines der zu bewertenden Suchergebnisse war demzufolge ein Fehler, der vermutlich auf das Vorgehen bei der Auswahl der Surrogate als ersten Schritt und der darauffolgenden Entwicklung der Informationsbedürfnisse zurückzuführen ist: Die ausgewählten Surrogate behandeln zwar alle das Thema Wikipedia, aber die Beschreibung des Informationsbedürfnisses in Hinblick auf den Kontext des Hochschulbereichs bzw. der Lehre trifft auf das betreffende Surrogat (Titel und Abstract) weniger zu.

Um einer Diskrepanz bei der Auswahl der Surrogate und der Formulierung der Informationsbedürfnisbeschreibungen in Hinblick auf die thematische Übereinstimmung (Aboutness), anhand derer die thematische Relevanz abgeleitet werden kann, vorzubeugen, hätte die Übereinstimmung der Aboutness der Surrogate mit den Beschreibungen der Informationsbedürfnisse gesondert durch unabhängige Dritte, also Personen mit einem bibliotheks- oder informationswissenschaftlichen Hintergrund, überprüft werden müssen.

In diesem Zusammenhang liegt es nahe, nicht nur Unterschiede bei den Bewertungen einzelner Surrogate genauer zu betrachten, sondern auch zu prüfen, ob Auffälligkeiten bei den Bewertungen zwischen den Aufgaben bestehen. Ein varianzanalytischer Vergleich der durchschnittlichen Bewertungen aller Surrogate innerhalb einer Aufgabe mit den durchschnittlichen Bewertungen der Surrogate der jeweils anderen Aufgaben zeigt, dass statistisch signifikante Unterschiede bei p < 0,001 zwischen den Bewertungen der drei Aufgaben existieren: So wurden die Surrogate von Aufgabe 1 von allen Versuchspersonen im Durchschnitt mit 57,3 Punkten bewertet, die Surrogate von Aufgabe 2 mit 53,6 Punkten und die Surrogate der Aufgabe 3 wurden mit durchschnittlich 47,5 Punkten am geringsten bewertet (Abbildung 4.25). Die Mittelwerte und paarweisen Vergleiche sowie die Tafel der Varianzanalyse sind enthalten in Anhang 4.3 im elektronischen Zusatzmaterial. Eine Aufnahme der Aufgabenzugehörigkeit als weiterer Faktor in das statistische Mehrebenenmodell wäre nur möglich, wenn die experimentellen Bedingungen in jeder Aufgabe dieselben wären. Dies ist hier jedoch nicht der Fall, denn die insgesamt 27 experimentellen Bedingungen wurden über die 3 Aufgaben zufällig verteilt, sodass in jeder Aufgabe jeweils 9 verschiedene Bedingungen vorlagen.

Die statistisch signifikanten Unterschiede der Bewertungen zwischen den Aufgaben deuten zum einen auf einen inhaltlichen Effekt der jeweiligen Beschreibungstexte hin, da aufgrund der Randomisierung der Reihenfolge der den VPn angezeigten Aufgaben sowie der Surrogate innerhalb einer Aufgabe ein Reihenfolgeneffekt ausgeschlossen werden kann. Zum anderen können Ursachen für die Unterschiede in der Zusammenstellung der Surrogate einer Aufgabe liegen, wie bereits in Hinblick auf deren thematische Übereinstimmung mit den jeweiligen Beschreibungstexten anerkannt wurde.

Abschließend bleibt als wichtige Erkenntnis zu betonen, dass bei der Entwicklung eines experimentellen Untersuchungsdesigns zur Erforschung von Relevanzkriterien in Hinblick auf das Konstanthalten der thematischen Relevanz bzw. Aboutness als potenzielle Störvariable besondere Vorsicht geboten ist, um eine unerwünschte Konfundierung dieser Drittvariable mit einer höheren Wahrscheinlichkeit ausschließen zu können.

Abbildung 4.25
figure 25

Mittelwerte der Bewertungen pro Aufgabe

4.6 Grenzen der Studie

Die Grenzen des hier vorgestellten Experiments, in dem mittels Befragung die Daten von Versuchspersonen erhoben wurden, liegen zunächst in den Grenzen quantitativer Erhebungsverfahren allgemein. Die vollstrukturierte Befragung lässt keinen Raum für Flexibilität oder individuell abgestimmte Anpassungen auf die Versuchspersonen; ein solch offenes Vorgehen lässt sich naturgemäß nicht mit explanativen Studien vereinbaren, insbesondere vor dem Hintergrund der Anforderungen an ein echtes Experiment in Hinblick auf die erforderlichen Bedingungen für Kausalität durch Manipulation und Kontrolle.

Die Erhebung der expliziten Relevanzbewertungen in diesem Experiment erfolgte in Form eines multifaktoriellen Online-Survey (Online-Vignettenanalyse), dessen Nachteil darin besteht, dass die zeitliche Präzedenz der Wirkung der UV gegenüber dem beobachteten Effekt der AV als eine der drei Voraussetzungen zum Ableiten kausaler Schlussfolgerungen nicht garantiert werden kann. Der Grund dafür ist, dass mit einer Online-Vignettenanalyse Einstellungen befragt werden bzw. intendiertes anstelle von tatsächlichem Verhalten beobachtet wird (Berger & Wolbring, 2015, S. 46). Es besteht keine Gewissheit darüber, dass die Versuchspersonen tatsächlich zuerst die Kontextbeschreibungen der Bewertungsaufgaben lasen und im Anschluss die Surrogate bewerteten. Es wäre möglich gewesen, ohne das Lesen der Beschreibungstexte sofort den Bildschirminhalt nach unten zu scrollen. Nichtsdestotrotz besteht die Annahme, dass die Versuchspersonen sich diesbezüglich erwartungsgemäß verhalten haben und die zeitliche Präzedenz als gegeben angesehen werden kann.

Unklar bleibt der Einfluss der Fachdisziplin der Versuchspersonen, da Unterschiede im Publikations- und Zitierverhalten zwischen wissenschaftlichen Forschungskulturen bestehen und die Höhe der Zitationszahlen in verschiedenen Fächern unterschiedlich wertgeschätzt werden könnte. Um den Einfluss unterschiedlicher, fachdisziplinspezifischer Aspekte auf die Relevanzbewertung zu untersuchen, wären diese entsprechend als unabhängige Variablen zu variieren.

Die untersuchte Stichprobe lieferte Daten von 627 Versuchspersonen, die in die Datenanalyse miteinbezogen wurden. Dieser Stichprobenumfang ist im Vergleich zu anderen Studien zu Relevanzkriterien sehr hoch, hauptsächlich aufgrund der designbedingten Einschränkung der Anzahl von Teilnehmenden bei den explorativen Studien, die oft einen qualitativen Ansatz verfolgten. Obgleich des großen Stichprobenumfangs handelt es sich nicht um eine repräsentative Stichprobe, sondern um eine homogene Gruppe in Hinblick auf deren soziodemografische Merkmale (Bildungsstand, Status, Affiliation an einer Universität oder Forschungseinrichtung).

Eine Vielzahl an verschiedenen Merkmalen, Kriterien und Faktoren spielen im Prozess der Relevanzbewertung eine Rolle, die für eine experimentelle Erforschung zwangsläufig auf eine Auswahl bestimmter, als vielversprechend vermuteter Variablen eingegrenzt werden muss. In dem Experiment wurde lediglich eine geringe Anzahl untersucht, d. h. nur eine begrenzte Auswahl an als ursächlich vermutete Variablen wurden in Hinblick auf das Kriterium Popularität für das Stimulusmaterial manipuliert. Dennoch lassen sich die Bewertungen nicht ausschließlich auf diese unabhängigen Variablen zurückführen, da beispielsweise das Publikationsdatum (Kriterium Aktualität) oder Schlüsselwörter im Titel oder Abstract (Kriterium thematische Relevanz) nicht variiert wurden, diese aber dennoch die Bewertung beeinflusst haben können und somit mögliche konfundierende Variablen darstellen, d. h. es ist möglich, dass durch die Vielzahl der verschiedenen Einflussparameter die tatsächlich verwendeten Kriterien bei der Relevanzbewertung nicht aufgedeckt wurden. Die Versuchspersonen haben notwendigerweise in jeder der drei Bewertungsaufgaben jeweils verschiedene Suchergebnisse gesehen, wobei mittels verschiedener Maßnahmen versucht wurde, den Versuchspersonen die Surrogate nach dem Ceteris-Paribus-Prinzip (Döring & Bortz, 2016, S. 99) zur Bewertung vorzulegen: Wie in Abschnitt 4.2.2 ausführlich beschrieben, wurde das Ziel verfolgt, beispielsweise die thematische Relevanz, Aktualität und die Länge des Abstract-Ausschnitts konstant zu halten.

Abschließend sei erwähnt, dass in groß angelegten quantitativen Studien sehr viele Daten erhoben wurden, die naturgemäß im Rahmen einer einzelnen Arbeit nicht alle ausgewertet werden können. Mit der Durchführung der hier vorgestellten Studie liegen neben den experimentell erhobenen Relevanzbewertungen weitere Informationen über die Versuchspersonen vor, die Analysen auf der Ebene der einzelnen Individuen und Einblicke in das akademische Informationssuchverhalten erlauben. Auf derartige tiefergehende, explorative Auswertungen wurde verzichtet, da sie nicht zur Beantwortung der Forschungsfragen der vorliegenden Arbeit beitragen.