Die Erforschung von Kriterien, anhand derer informationssuchende Personen die Relevanz von Dokumenten bewerten, ist Gegenstand vieler – hauptsächlich explorativer – informationswissenschaftlicher Studien. In den bisherigen Studien werden unterschiedliche Begriffe als Einflussparameter auf die Relevanzbewertung verwendet, die keiner einheitlichen Definition folgen und sich auch konzeptuell nicht eindeutig voneinander abgrenzen lassen. Diese Forschungslücke wurde im Rahmen der vorliegenden Arbeit mit der Beantwortung der Forschungsfrage F1a (Wie lassen sich Merkmale, Kriterien und Faktoren als Einflüsse im Prozess der Relevanzbewertung für die Entwicklung eines experimentellen Untersuchungsdesigns definitorisch und konzeptuell voneinander abgrenzen?) und mit der in direktem Zusammenhang stehenden Forschungsfrage F1b (Wie können Kriterien bei der Relevanzbewertung von Suchergebnissen für eine experimentelle Studie operationalisiert werden?) geschlossen. Diese Unterforschungsfragen wurden als Voraussetzung für die Bearbeitung der übergeordneten Forschungsfrage F1 (Wie können Nutzerkriterien bei der Relevanzbewertung anhand eines experimentellen Untersuchungsdesigns erforscht werden?) bereits ausführlich im Abschnitt 3.3 erläutert.

In dem nachfolgenden Abschnitt 5.1 erfolgt die Beantwortung der Forschungsfragen F1, F2 und F3. Anschließend werden die Ergebnisse der hier berichteten Forschung im Kontext der Gesamtmethodik reflektiert (Abschnitt 5.2). Die Schlussbetrachtungen schließen mit einem Ausblick auf künftige Forschungsvorhaben ab (Abschnitt 5.3).

5.1 Beantwortung der Forschungsfragen

F1 :

Wie können Nutzerkriterien bei der Relevanzbewertung anhand eines experimentellen Untersuchungsdesigns erforscht werden?

Die Entwicklung eines experimentellen Untersuchungsdesigns setzt voraus, dass nicht wie mit explorativen Studien offene Forschungsfragen bearbeitet, sondern Hypothesen über operationalisierbare Variablen geprüft werden. Die Nutzerkriterien bei der Relevanzbewertung lassen sich mit den Elementen eines Surrogats (Relevanzmerkmale) operationalisieren, wie beispielsweise das Element Publikationsdatum, anhand dessen das Kriterium Aktualität abgeleitet wird. Relevanzkriterien können also gezielt durch die Variation der (potenziellen) Relevanzmerkmale experimentell untersucht werden, die mithilfe des Modells in Hinblick auf ihre definitorische und konzeptuelle Abgrenzung als Antwort auf die Forschungsfrage F1a (vgl. Abschnitt 3.2) veranschaulicht wurden.

Wie die Ergebnisse der Literaturschau zu den Studien zu Relevanzkriterien zeigen, beeinflussen mehrere Kriterien und somit auch mehrere Elemente im Surrogat in ihrem Zusammenwirken die Relevanzbewertung. Aus diesem Grund ist ein mehrfaktorielles Design einem einfaktoriellen Design vorzuziehen, da nur mit mehrfaktoriellen Designs Interaktionen aufgedeckt und nicht nur die Wirkungen der einzelnen unabhängigen Variablen (Haupteffekte) untersucht werden können. Gerade das hier vorgestellte Experiment verdeutlicht die Notwendigkeit, Interaktionen zu berücksichtigen; wäre die Analyse nur mit Blick auf die Haupteffekte der Anzahl der Downloads (UV 1), der Anzahl der Zitationen des Werks (UV 2) und der Anzahl der Zitationen des Autors (UV 3) auf die Relevanzbewertung als abhängige Variable erfolgt, würden die Ergebnisse zwar ein klares Bild zeigen, jedoch zu falschen Schlussfolgerungen führen. Hinzu kommt, dass erst beim Betrachten der Wechselwirkungen die Ergebnisse der paarweisen Vergleiche die Unterschiede zwischen den statistisch signifikanten und inhaltlich bedeutsamen Differenzwerten aufzeigen; nur bei den Interaktionen zeigen die paarweisen Vergleiche Differenzwerte mit mindestens 10 bzw. 20 Punkten, bei den Einzelwirkungen der unabhängigen Variablen liegen die Differenzwerte maximal bei 6,51 Punkten und sind teilweise sogar vernachlässigbar gering, obwohl sie statistisch signifikant sind (wie zum Beispiel der Wert -1,23 bei p = 0,042 für UV 2 in Tabelle 4.15).

Eine besondere Herausforderung bei der Planung eines Experiments zur Erforschung von Relevanzkriterien liegt in der Variation des Stimulusmaterials, konkret in der Operationalisierung der einzelnen Stufen der zu untersuchenden unabhängigen Variablen. Das Ziel besteht darin, die Balance zu finden zwischen einer zu schwachen und einer zu starken Manipulation – erstere kann zu einer zu geringen Effektstärke führen, letztere zu einer verfrühten Offenbarung des eigentlichen Zwecks des Experiments, die ein unerwünschtes Verhalten der Versuchspersonen bewirken und die Ergebnisse in einer Weise beeinflussen kann, die die interne Validität des Experiments gefährdet. Vor diesem Hintergrund ist auch bei der Auswahl der zu untersuchenden Grundgesamtheit zu berücksichtigen, in welchem Kontext diese agiert und über welches Wissen sie vermutlich verfügt.

In dem hier vorgestellten Experiment im akademischen Kontext wurde diese Problematik bei der Auswahl der Surrogate und Suchaufgaben in Abhängigkeit der Probandenakquise erläutert. So wurden gezielt Personen mit einem nicht-informationswissenschaftlichen Hintergrund rekrutiert, die Suchergebnisse zu Themen, mit denen sich die Bibliotheks- und Informationswissenschaft beschäftigt, aus ausschließlich bibliotheks- und informationswissenschaftlichen Quellen bewerten sollen. Auf diese Weise sollte verhindert werden, dass stark manipulierte Daten zu möglicherweise bekannten Autorinnen und Autoren oder Quellen den realen Zweck des Experiments entlarven.

Eine weitere Voraussetzung für die experimentelle Erforschung von Relevanzkriterien wird dahingehend ersichtlich, dass zwischen predictive judgments (Bewertungen auf Basis des Surrogats) und evaluative judgments (Bewertungen auf Basis des Volltexts) zu unterscheiden ist. Die Operationalisierung der Kriterien anhand der Elemente im Surrogat ist nicht gleichzusetzen mit der Operationalisierung der Kriterien, die bei der Bewertung des eigentlichen Inhalts angewendet werden. In Hinblick auf die in einem experimentellen Design zu manipulierenden unabhängigen Variablen dürfte eine Variation von Volltexten für die Untersuchung des Einflusses bestimmter Aspekte auf evaluative judgments die Forschungsleitung vor große Herausforderungen stellen.

Wie oben beschrieben, zeigen die statistischen Ergebnisse der Mehrebenenanalyse ein komplexes Muster, das keine eindeutigen Schlussfolgerungen über den Einfluss der Anzahl der Downloads eines Werks (UV 1), der Zitationszahl eines Werks (UV 2) und der Zitationszahl eines Autors (UV 3) auf die Relevanzbewertung von Surrogaten in akademischen Suchsystemen (AV) zulässt. Demzufolge lassen sich die Forschungsfragen F2 und F3 nicht mit eindeutigen Aussagen beantworten. Nachfolgend werden zum Zweck der Vollständigkeit die beiden Forschungsfragen dennoch getrennt adressiert.

F2 :

Welchen Einfluss haben Popularitätsdaten auf die Bewertung der Relevanz von Suchergebnissen in akademischen Suchsystemen?

Oberflächlich lässt sich feststellen, dass alle drei UVn einen statistisch signifikanten Effekt auf die Relevanzbewertung ausüben; allerdings besitzen diese Haupteffekte unter Berücksichtigung der diversen Interaktionseffekte keine Gültigkeit. Hieran zeigt sich der Nachteil von Studiendesigns, in denen nur eine einzige unabhängige Variable untersucht oder mehrere unabhängige Variablen nur in Hinblick auf deren Haupteffekte betrachtet werden. Die vermeintlich eindeutigen Ergebnisse führen zu falschen Schlussfolgerungen, wenn nicht zusätzlich das Vorhandensein von Wechselwirkungen überprüft wird. Zudem ergibt sich anhand der paarweisen Vergleiche kein klares Bild über die Richtung eines Effekts. Es lässt sich daher nicht feststellen, ob die untersuchten Popularitätsdaten die Bewertungen der Versuchspersonen positiv oder negativ beeinflusst haben.

F3 :

Welche Popularitätsdaten beeinflussen die Relevanzbewertung in welchem Maße?

Die Ergebnisse der Literaturschau in Abschnitt 2.1 und die Darstellung der Nutzerkriterien im Prozess der Relevanzbewertung mithilfe des Modells in Abschnitt 3.2 verdeutlichen den besonderen Stellenwert der thematischen Relevanz. Diese stellt die Basis für die Relevanzbewertung dar, auf der weitere Kriterien wie Aktualität und Qualität im Zusammenhang mit Autorität, Glaubwürdigkeit und schließlich Popularität aufsetzen. Der thematischen Relevanz kommt unstrittig die höchste Gewichtung bei der Anwendung von Relevanzkriterien im Prozess der Relevanzbewertung zu. In welcher Weise die weiteren Kriterien gewichtet werden, bleibt unklar. Dass Popularitätsdaten als integrierter Bestandteil der Suchergebnispräsentation in akademischen Suchsystemen als operationalisiertes Kriterium der Popularität gesehen werden können, wurde im Zusammenhang mit der wahrgenommenen Qualität von Suchergebnissen erläutert (vgl. Abschnitt 2.1.2). Welches Maß an Beeinflussung die jeweiligen untersuchten Popularitätsdaten auf die Relevanzbewertung bewirken, kann aufgrund der uneindeutigen statistischen Ergebnisse des Online-Experiments nicht beantwortet werden (vgl. Abschnitt 4.4).

5.2 Reflexion der Ergebnisse im Kontext der Gesamtmethodik

Mit der hier beschriebenen Forschung wurde der Einfluss von Popularitätsdaten als Bestandteil der Suchergebnispräsentation in akademischen Suchsystemen, wie sie in heutigen Systemen wie Google Scholar oder der ACM Digital Library üblich sind, auf die Relevanzbewertung empirisch untersucht. Der Zweck der Untersuchung bestand darin, Kenntnisse über die nutzerseitigen Kriterien, anhand derer informationssuchende Personen die Relevanz von Suchergebnissen bewerten, zu gewinnen. Die Methodik der Arbeit folgte einem quantitativen Forschungsansatz, in dessen Zentrum die Entwicklung und Durchführung eines Online-Experiments stand.

Zunächst wurde mithilfe einer umfassenden Literaturschau zu Studien, in denen Relevanzkriterien erforscht wurden, der aktuelle Stand der Forschung dargelegt. Dabei wurden die bisherigen Studien aus einer inhaltlichen und einer methodischen Perspektive betrachtet und drei konkrete Forschungslücken identifiziert: In den bisherigen Studien wurden (a) die Begriffe Relevanzmerkmale (relevance clues/cues), Relevanzkriterien (relevance criteria) und Relevanzfaktoren (relevance factors) im Kontext der Relevanzbewertung verwendet, die keiner allgemeingültigen Definition folgen und oft nicht klar voneinander abgegrenzt sind, (b) nur selten experimentelle Designs zugrunde gelegt, in denen jedoch Kriterien nicht als konkrete, unabhängige Variablen untersucht wurden, (c) den Teilnehmenden keine Suchergebnisse mit Popularitätsdaten wie die Anzahl von Downloads oder Zitationen eines Werks, wie sie heutzutage Bestandteil moderner akademischer Suchsysteme sind, zur Bewertung vorgelegt.

Diese Lücken sollten mit der Beantwortung der daraus abgeleiteten Forschungsfragen geschlossen werden. Mithilfe der Erkenntnisse aus der Literaturschau wurden die inhaltlichen und methodischen Voraussetzungen für die Entwicklung eines experimentellen Designs zur Erforschung von Relevanzkriterien geschaffen. So erfolgte zunächst die Spezifikation des Relevanzkonzepts, mit der die Definition von Relevanz für diese Arbeit und die Konkretisierung des Prozesses der Relevanzbewertung von Suchergebnissen als ein Prozess des Urteilens einherging. In diesem Zusammenhang wurden die verschiedenen Einflüsse, die im Prozess der Relevanzbewertung eine Rolle spielen, identifiziert.

Zur Veranschaulichung dieser verschiedenen Einflussgrößen wurde ein Modell zur subjektiven Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen erstellt. Hierin liegt ein Neuheitswert der vorliegenden Arbeit, denn mit dem Modell liegt erstmals eine systematische Übersicht über die Elemente von Surrogaten als Relevanzmerkmale, sich daraus abzuleitenden Relevanzkriterien durch die informationssuchende Person und deren Zusammenwirken sowie die diesen Prozess beeinflussenden Relevanzfaktoren vor. Auf diese Weise trägt das Modell zu einem besseren Verständnis des Bewertungsprozesses bei. Mit der systematischen Darstellung der Surrogatelemente, den subjektiven Kriterien und den Faktoren, die im weiteren Sinn den Kontext der informationssuchenden Person zum Zeitpunkt der Suche bilden, wurde ein Kernproblem der informationswissenschaftlichen Relevanzforschung adressiert. Das Modell stellt somit zugleich eine Definitionsempfehlung der Begriffe Relevanzmerkmale, Relevanzkriterien und Relevanzfaktoren dar und bietet einen theoretischen Rahmen, der für zukünftige Forschungsvorhaben im Kontext des Relevanzbewertungsprozesses berücksichtigt werden sollte. Zusätzlich leistet das Modell einen praktischen Nutzen, indem es als Hilfsmittel zur Operationalisierung in künftigen Untersuchungen zu Relevanzkriterien dienen kann.

Unabhängig von der definitorischen Abgrenzung zwischen Merkmalen, Kriterien und Faktoren berücksichtigt das Modell explizit Popularitätsdaten, wie die Anzahl von Downloads oder Zitationen eines Werkes, die heutzutage in akademischen Suchsystemen wie Google Scholar in die Suchergebnispräsentation integriert sind. Da in bisherigen Studien zu Relevanzkriterien, in denen Jurorinnen und Juroren Surrogate zur Bewertung vorgelegt wurden, solche Popularitätsdaten nicht Bestandteil des Untersuchungsgegenstands waren, wurde im Rahmen dieser Arbeit ein Experiment durchgeführt, um den Einfluss von Popularitätsdaten auf die Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen zu untersuchen. In dieser inhaltlichen Ausrichtung der Studie liegt daher ebenfalls ein Neuheitswert der vorliegenden Arbeit.

Für die Entwicklung des experimentellen Within-Subjects-Designs wurden die Popularitätsdaten operationalisiert als die Anzahl der Downloads (UV 1), die Anzahl der Zitationen des Werks (UV 2) und die Anzahl der Zitationen des Autors (UV 3). Die Datenerhebung erfolgte mithilfe eines Online-Fragebogens, zu dessen Bearbeitung mehr als 700 Forschende an verschiedenen Universitäten in Deutschland motiviert werden konnten. Mithilfe des statistischen Verfahrens der Mehrebenenanalyse wurden in SPSS die Daten von 621 Teilnehmenden ausgewertet. Die Größe der untersuchten Stichprobe übertrifft somit die Stichprobengrößen anderer Studien, in denen explizite Relevanzbewertungen erhoben wurden, um Erkenntnisse über den Prozess der Relevanzbewertung zu gewinnen; sie stellt damit neben der sorgfältigen Zusammenstellung der Stichprobe eine besondere Stärke dieser Arbeit dar.

Die Ergebnisse der statistischen Analyse zeigen, dass es einen statistisch signifikanten Einfluss der Anzahl von Downloads, der Anzahl der Zitationen eines Werks und der Anzahl der Zitationen eines Autors als integrierter Bestandteil der Suchergebnispräsentation in akademischen Suchsystemen auf die Relevanzbewertung dieser Suchergebnisse gibt. Unklar ist, inwiefern es sich dabei um einen negativen oder positiven Einfluss handelt, d. h. ob die Popularitätsdaten zu einer höheren oder niedrigeren Relevanzbewertung unter sonst gleichen (experimentellen) Bewertungsbedingungen führen.

Rückblickend stellt sich die Frage, ob die Ergebnisse der hier beschriebenen Forschung ein klareres Bild liefern könnten, wenn neben dem Online-Experiment weitere Untersuchungen stattgefunden hätten, also ein Mixed-Methods-Ansatz verfolgt worden wäre.

Mithilfe des Mixed-Methods-Ansatzes werden mehrere Teilstudien unterschiedlicher Designs durchgeführt (Döring & Bortz, 2016, S. 184 f.). Für die hier beschriebene Forschung wäre vermutlich eine qualitative Vorstudie, mit deren Hilfe beispielsweise die Einstellung von Forschenden zu dem Konzept Popularität bzw. zu Popularitätsdaten als Bestandteil von Suchergebnissen explorativ untersucht hätte werden können, sinnvoll gewesen, um weitere Informationen für die Hypothesengenerierung zu erhalten. Für die gezielte Untersuchung des Einflusses von Popularitätsdaten auf die Relevanzbewertung, d. h. zur Beantwortung der Forschungsfragen F2 und F3, wäre ein Mixed-Methods-Ansatz weniger geeignet, da sich nur mit experimentellen, quantitativen Designs ein kausaler Zusammenhang zwischen Ursache und Wirkung durch die systematische Manipulation des Stimulusmaterials und der Kontrolle potenzieller Störvariablen herstellen lässt – an dieser Stelle zeigt sich ein weiterer Neuheitswert der hier beschriebenen Forschung. Allerdings wäre in Hinblick auf die Umsetzung des experimentellen Designs für die Datenerhebung mithilfe des Online-Fragebogens eine zusätzliche Studie zur Evaluierung der ausgewählten Surrogate bezüglich ihrer thematischen Übereinstimmung mit den Beschreibungen der Informationsbedürfnisse nützlich gewesen, um einen inhaltlichen Effekt der Aufgabenbeschreibungen mit höherer Gewissheit ausschließen zu können (vgl. Abschnitt 4.5).

Obwohl die uneindeutigen Befunde des Experiments zunächst den Anschein erwecken mögen, dass die Studie nicht erfolgreich war, leistet sie einen positiven Beitrag für die informationswissenschaftliche Relevanzforschung: Die Ergebnisse liefern einen Hinweis darauf, dass thematische Relevanz auch bei dem Vorhandensein von Popularitätsdaten für die Bewertung von Suchergebnissen das Hauptkriterium ist, anhand dessen die informationssuchende Person die Bewertung vornimmt. Ebenfalls zeigen sie, dass die ausschließliche Untersuchung von Haupteffekten zwar eindeutige, statistisch signifikante Befunde hervorbringen kann, diese jedoch eigentlich keine Aussagekraft besitzen, wenn nicht das Vorhandensein möglicher Wechselwirkungen bereits zu Beginn des Studiendesigns in Betracht gezogen wird.

Ein ebenfalls positiver Beitrag des Experiments liegt in dem empirischen Nachweis über die Komplexität des Relevanzkonzepts und des Relevanzbewertungsprozesses, der sich in dem komplexen Ergebnismuster der statistischen Resultate ausdrückt. Ferner kann das anspruchsvolle und komplexe Design, das im Rahmen dieser Arbeit erstmals zur experimentellen Erforschung von Relevanzkriterien im akademischen Kontext entwickelt wurde, nachgenutzt und adaptiert werden.

5.3 Künftige Forschung

Eine konkrete Erkenntnis für künftige experimentelle Studien zu Relevanzkriterien ergibt sich zunächst in Hinblick auf die Anzahl der zu untersuchenden unabhängigen Variablen (UVn) und der Anzahl ihrer Stufen, auf denen sie variiert werden: Der Vorteil von weniger als drei UVn und jeweils weniger als drei Stufen liegt in einer geringeren Anzahl an experimentellen Bedingungen und daraus resultierend eine geringere Anzahl an Ergebnissen der statistischen paarweisen Vergleiche, wodurch diese Ergebnisse weniger komplex und damit leichter interpretierbar sein können. Eine Möglichkeit wäre, auf eine Stufe wie „keine Angabe“ zu verzichten, wenn die weiteren Stufen eine andere (quantitative) Dimension betreffen, wie es in der hier beschriebenen Studie der Fall ist.

Die Auswertung zeigte wiederum, dass aufgrund der Vielzahl an Merkmalen, Kriterien und Faktoren, welche bei der Relevanzbewertung von Suchergebnissen eine Rolle spielen, ein mehrfaktorielles Design im Vergleich zu mehreren einfaktoriellen Designs in Hinblick auf mögliche Interaktionen vorzuziehen ist. Das bedeutet, dass prinzipiell eher mehr unabhängige Variablen (zu einem Kriterium oder weiteren Kriterien) in einem Experiment variiert werden müssten, damit diese Wechselwirkungen überhaupt aufgedeckt werden können. Unter Umständen erhält die Forschungsleitung dadurch verhältnismäßig viele experimentelle Bedingungen, die, bezogen auf das hier beschriebene Experiment, zu einer hohen Zahl an zu bewertenden Suchergebnissen und zu einem sehr großen zeitlichen Aufwand führen. Probandinnen und Probanden für die Teilnahme an einer zeitlich sehr aufwendigen Studie zu gewinnen und zu einem erfolgreichen Abschluss zu motivieren, dürfte recht schwierig und gegebenenfalls nur mit einem relativ hohen (finanziellen) Anreiz realisierbar sein. Des Weiteren sind unerwünschte Effekte durch Ermüdung zu berücksichtigen.

Die Lösung kann in dem hier gewählten statistischen Auswertungsverfahren liegen: Da die Mehrebenenanalyse fehlende Werte toleriert, kann bereits bei der Entwicklung des Studiendesigns eingeplant werden, nicht jede Versuchsperson allen Bedingungen im Experiment auszusetzen, sondern gezielt nur einer bestimmten Auswahl an Bedingungen. Dadurch lässt sich der zeitliche Aufwand für die Bearbeitung der Bewertungsaufgaben eingrenzen, ohne dass die Daten an Validität einbüßen.

Der Einfluss der thematischen Relevanz als Fundament der Relevanzbewertung eines Suchergebnisses im akademischen Kontext ist bisher nicht experimentell untersucht worden. Insbesondere in Hinblick auf die Gewichtung weiterer Kriterien, die auf dem Kriterium der thematischen Relevanz aufbauen, ist deren experimentelle Untersuchung vielversprechend. In diesem Zusammenhang sei nochmals auf die in Abschnitt 4.5 diskutierte Notwendigkeit verwiesen, die zu bewertenden Surrogate in Bezug auf die Übereinstimmung ihrer Aboutness als Basis, anhand derer die thematische Relevanz abgeleitet wird, mit den entwickelten Beschreibungstexten zu dem jeweiligen Kontext bzw. Informationsbedürfnis vorab durch Dritte prüfen zu lassen.

Ausgehend von dem Forschungsdesign des hier vorgestellten Experiments im akademischen Kontext ist eine Idee für eine künftige Studie, den Versuchspersonen gezielt Suchergebnisse mit manipulierten Popularitätsdaten, die nicht oder sehr wenig thematisch relevant sind, zur Bewertung vorzulegen. Die zu prüfende inhaltliche Hypothese könnte lauten: Ist die thematische Relevanz eines Suchergebnisses in Relation zu einem Informationsbedürfnis nicht gegeben, ist die Punktzahl der Relevanzbewertung bei einer hohen Anzahl an Downloads/Werkszitationen/Autorenzitationen höher als bei einer niedrigen Anzahl. Dies würde bedeuten, dass die Basis für die Relevanzbewertung nicht vorhanden wäre. Eine weitere Vermutung wäre, dass das für das Fachgebiet notwendige Wissen zur Ableitung der thematischen Relevanz bei wenig erfahrenen Studierenden (z. B. Erstsemester) fehlt, im Gegensatz zu Promovierenden oder Postdocs. Somit ließen sich zwei Gruppen mit einem unterschiedlichen Erfahrungsstand miteinander vergleichen.

Ein weiteres Experiment zur Untersuchung der Abhängigkeit von Bewertungen von thematischer Relevanz auch unabhängig von einem akademischen Kontext könnte als Between-Subjects-Design konzipiert werden, in welchem drei Gruppen verschiedenartige Suchergebnisse zur Bewertung vorgelegt werden: eine Experimentalgruppe erhält Suchergebnisse mit Autorennamen und Erscheinungsjahr und ausgewählten Popularitätsdaten, aber ohne Abstract und eventuell ohne Titel, eine zweite Experimentalgruppe bekommt die gleichen Suchergebnisse mit Titel, Abstract und Popularitätsdaten, einer Kontrollgruppe werden die gleichen Suchergebnisse mit Titel und Abstract, jedoch ohne Popularitätsdaten präsentiert. Die Annahme ist, dass nur die Kontrollgruppe überhaupt in der Lage ist, die thematische Relevanz beurteilen zu können; diesbezüglich können die Unterschiede in der Punktzahl der Relevanzbewertungen aus den drei Teilstichproben zeigen, wie nah Relevanzbewertungen der Suchergebnisse ohne Popularitätsdaten im Vergleich zu denen mit Popularitätsdaten an den als thematisch relevant beurteilten Suchergebnissen liegen.

Schließlich können künftige Studien die im Rahmen dieser Arbeit erhobenen RohdatenFootnote 1 nachnutzen, zum Beispiel für:

  • Explorative Analysen, um mögliche Korrelationen aufzudecken;

  • Die gezielte Analyse der mithilfe des Vorab- und Anschlussfragebogens erhobenen Daten bezüglich des Informationssuchverhaltens von Forschenden, beispielsweise in Hinblick auf die Nutzung von akademischen Suchsystemen oder die Einstellung gegenüber den Kriterien bei der Relevanzbewertung insbesondere in Bezug auf die in der Arbeit untersuchten Popularitätsdaten;

  • Studien zu Replikationszwecken.

Die weitere Untersuchung des Einflusses von Popularitätsdaten ist im Kontext der akademischen Informationssuche von besonderem Interesse, weil anhand solcher potenzieller Relevanzmerkmale das Kriterium der Popularität und wiederum das der Qualität abgeleitet werden können. Insbesondere im akademischen Kontext ist davon auszugehen, dass Informationsobjekte neben der thematischen Relevanz vordergründig nach ihrer (vermuteten) Qualität beurteilt werden. Thematische Relevanz ist von einer informationssuchenden Person jedoch mitunter schwierig zu beurteilen, wenn sie nicht über das notwendige Wissen über das Thema verfügt. Im akademischen Kontext betrifft dies zum Beispiel eher unerfahrene Forschende, die am Beginn ihrer Promotionsforschung stehen, und nicht so sehr Forschende, die bereits über mehrere Jahre auf einem wissenschaftlichen Gebiet Erfahrungen gesammelt haben. Wenn thematische Relevanz als das Basiskriterium der Relevanzbewertung nicht in ausreichender Güte bedient werden kann, stellt sich die Frage, an welchen Merkmalen und Kriterien sich informationssuchende Personen stattdessen orientieren, um die Qualität eines Werkes anhand seines Surrogats abzuleiten.

Allerdings können Popularitätsdaten wie Angaben zu Zitations- und Downloadhäufigkeiten einen Matthäuseffekt herbeiführen, d. h. bereits vielzitierte Werke werden als qualitativ wertvoller erachtet und erlangen weitere Zitationen, während wenig zitierten Werken eine geringere Qualität zugesprochen wird, was wiederum ein Grund für ausbleibende Zitationen sein kann. In Bezug auf die Anzahl an Downloads bedeutet dies, dass eine hohe Anzahl zu weiteren Downloads führt und die Zahl der Downloads sich weiter erhöht. Eine Beurteilung der (vermuteten) Qualität eines Werkes anhand solcher Popularitätsdaten entspricht nicht den vier Kriterien für Qualität in der Wissenschaft (inhaltliche Relevanz, methodische Strenge, ethische Strenge, Präsentationsqualität) (Döring & Bortz, 2016, S. 90), welche weniger auf Basis von Surrogaten, sondern ausschließlich anhand des Volltexts vollständig beurteilt werden können und ein hohes Maß an Wissenschaftskompetenz und Erfahrung erfordern. Umso wichtiger ist die weitere Erforschung von Relevanzkriterien bei der Bewertung von Suchergebnissen, wenn die Beurteilung von Qualität maßgeblich anhand der Popularität – über einen akademischen Kontext hinausgehend – nicht als erstrebenswert gilt.

Neben der Erforschung von Relevanzkriterien sollte in künftigen Studien der Einfluss von Relevanzfaktoren in Kombination mit ausgewählten Kriterien untersucht werden. Insbesondere der disziplinspezifische Hintergrund der Versuchspersonen ist – wie in Abschnitt 4.6 beschrieben – in Hinblick auf die Beurteilung von Zitationszahlen von besonderem Interesse, ebenso wie ihr soziokultureller Kontext bezüglich des Einflusses von Machtdistanz bzw. Autoritätswahrnehmung auf die Anwendung der Kriterien Popularität und kognitive Autorität. Anregungen für Relevanzmerkmale und Relevanzkriterien als potenzielle unabhängige Variablen kann hier das in Abschnitt 3.2 vorgestellte Modell zur subjektiven Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen liefern. Generell ist zu bedenken: Mit jedem neuen Element, das künftig in die Suchergebnisdarstellung von (akademischen) Suchsystemen integriert wird, liegt ein weiteres potenzielles Relevanzmerkmal vor, dessen Effekt auf die Relevanzbewertung zu untersuchen wäre.