Heutzutage ist das Nutzerverhalten bei der Informationssuche sehr stark durch die Websuche geprägt: Menschen berücksichtigen in der Regel nur die erste Suchergebnisseite und legen ihr Hauptaugenmerk auf die ersten drei Treffer, d. h. sie vertrauen dem Rankingalgorithmus der Websuchmaschine, die für sie relevanten Ergebnisse auf den obersten Positionen anzuzeigen (Asher et al., 2013; C. Barry & Lardner, 2011; Jansen & Spink, 2006; Nicholas et al., 2008; Pan et al., 2007; Schultheiß et al., 2018). Aus diesen Studien lässt sich schließen, dass das Relevanzranking die menschliche Relevanzbewertung maßgeblich beeinflusst. Doch nicht nur das Ranking der Suchergebnisse nimmt einen sehr großen Stellenwert bei der Informationssuche und der Auswahl der Suchergebnisse ein; auch deren Darstellung liefert Hinweise darüber, wie diese von informationssuchenden Personen bewertet werden. So zeigten beispielsweise Kammerer & Gerjets (2014), dass die Beurteilung der Glaubwürdigkeit von Informationsquellen durch die Darstellung der Suchergebnisse als Raster im Vergleich zur Präsentation als Liste positiv beeinflusst wird.

Zu verstehen, wie Menschen Informationen nach deren Relevanz bewerten, ist für die informationswissenschaftliche Forschung von großer Bedeutung. Einerseits stellt die Relevanzbewertung einen Teilprozess des gesamten Informationssuchprozesses dar, d. h., um den Informationssuchprozess in Gänze verstehen zu können, muss auch dieser Teilprozess erforscht werden. Zum anderen werden Relevanzbewertungen in der (Interactive-)Information-Retrieval (IR)-Forschung erhoben, um die Effektivität von Suchsystemen anhand von relevanzbasierten Kennzahlen zu messen.

Gegenstand der vorliegenden Arbeit ist der Prozess der Relevanzbewertung von Suchergebnissen in IR-Systemen. Dieser Prozess ist durch diverse Einflüsse gekennzeichnet, wodurch Relevanzbewertungen als Produkt des Bewertungsprozesses oft inkonsistent sind. So zeigten Buckley & Voorhees (2005), dass Bewertungen in Information-Retrieval-Studien zwischen Jurorinnen und Juroren – aber auch durch dieselbe Person zu unterschiedlichen Zeitpunkten – nicht zwangsläufig dieselben sind. Erklären lässt sich dies mit dem dynamischen, multidimensionalen und subjektiven Konzept von Relevanz, das in der Informationswissenschaft einerseits in der Informationsverhaltensforschung (information behaviour research), genauer im Bereich des Informationssuchverhaltens (information searching behaviour), andererseits im Bereich des (Interactive) Information Retrieval, (I)IR, theoretisch verortet ist. Vor diesem Hintergrund lässt sich die vorliegende Arbeit sowohl der Informationsverhaltensforschung als auch der (I)IR-Forschung zuordnen. Sie greift ein Kernkonzept der Informationswissenschaft auf, welches mit der Problemdarstellung im nachfolgenden Abschnitt 1.1 näher beleuchtet wird. Das Ziel dieser Arbeit, die bearbeiteten Forschungsfragen sowie deren Neuheitswert werden anschließend in Abschnitt 1.2 vorgestellt. Der Aufbau der Arbeit orientiert sich an dem gesamtmethodischen Vorgehen und wird in Abschnitt 1.3 dargelegt.

1.1 Problemdarstellung

Relevanz gilt bis heute als Kernkonzept der Informationswissenschaft (Greisdorf, 2000; Hjørland, 2000; Saracevic, 2016a, 2016b, 2015; White, 2009). Die Informationswissenschaft beschäftigt sich mit dem Relevanzkonzept, da ihm im Kontext der Suche und des Wiederauffindens von InformationenFootnote 1 eine zentrale Bedeutung zukommt: Das menschliche Verhalten während der Informationssuche ist motiviert durch den Wunsch, relevante Informationen zu finden; das Ziel von Information-Retrieval-Systemen besteht darin, relevante Suchergebnisse zu produzieren (Saracevic, 2015).

Unser Verständnis von Relevanz beruht auf Erkenntnissen aus jahrzehntelanger informationswissenschaftlicher, insbesondere Information-Retrieval-Forschung, die im Wesentlichen 1958 im Rahmen der International Conference on Scientific Information (ICSI) ihren Anfang nahm, als das Relevanzkonzept in den Arbeiten von Vickery (1959a, 1959b) zum ersten Mal im IR-Kontext diskutiert wurde (Mizzaro, 1997). Seit langem werden zwei grundsätzliche Perspektiven auf Relevanz eingenommen (Borlund, 2003b; Saracevic, 2007a): Relevanz aus Sicht des Systems (system’s view), auch objektive oder algorithmische, logische RelevanzFootnote 2, und Relevanz aus Sicht des Nutzers (user’s view), auch subjektive Relevanz. Allerdings wird die Dualität der beiden Sichtweisen seit längerem als kurzsichtig kritisiert (Mizzaro, 1997); Hjørland (2010) verlangt eine neue Interpretation der beiden Sichtweisen und Saracevic (2007a) plädiert für eine engere Verzahnung beider. Dass es schon lange nicht mehr ausschließlich die systembasierte Perspektive gibt, zeigt unter anderem die Etablierung des Interactive Information Retrieval (IIR) als Forschungsfeld, das die Interaktion der suchenden Person mit dem System in den Fokus nimmt (Belkin, 2015; Borlund, 2013; Cool & Belkin, 2011; Ruthven, 2008).

Die traditionelle Information Retrieval (IR)-Forschung betrachtet Relevanz von der Systemseite her und zielt auf die Ermittlung der Relevanz zwischen einer Suchanfrage und einem Dokument ab, d. h. dieser Betrachtung liegt eine anfrageorientierte Sichtweise zugrunde. Dabei wird ein Dokument anhand des Grads der thematischen Übereinstimmung mit der Suchanfrage als (thematisch) relevant oder irrelevant angesehen (Baeza-Yates & Ribeiro-Neto, 2011; Borlund, 2003b; Dervin & Nilan, 1986). Was aus Systemsicht als thematisch relevant bewertet wird, ist allerdings vielmehr mit Aboutness zu beschreiben und nicht gleichzusetzen mit thematischer Relevanz aus Nutzersicht; Aboutness beschreibt den thematischen Gegenstand des Dokumenteninhalts und wird einem Dokument zugeschrieben unabhängig von einer Suchanfrage; somit ist Aboutness als statisch anzusehen, im Gegensatz zu Relevanz, die als hoch dynamisch gilt (Saracevic, 2012).

Gegen eine exklusiv anfrageorientierte Sichtweise argumentierte Bookstein (1979): „For one, it is the patron, not the request, that is being served, so a request-oriented definition has no practical content. Also, there is no way of asking the request what it thinks about the document“ (S. 270). Tatsächlich setzt die Bestimmung von thematischer Relevanz (topical relevance, topicality) zwischen einer Suchanfrage und einem Suchergebnis Wissen über Begriffe und Konzepte, die ein Thema repräsentieren, voraus (Hjørland & Christensen, 2002); sie erfordert daher einen komplexen kognitiven Prozess (Huang & Soergel, 2013), wodurch thematische Relevanz nicht der systemseitigen, sondern eher der nutzerseitigen Sicht zuzuordnen ist. Thematische Relevanz kann allerdings oft mithilfe des vom System erzeugten Ergebnisses abgeleitet werden (Saracevic, 1996).

Vertreterinnen und Vertreter der Nutzerseite hingegen betrachten Relevanz aus der Perspektive der suchenden Person unter Berücksichtigung ihres Kontexts, insbesondere ihres Informationsbedürfnisses in der jeweiligen Situation (Bookstein, 1979; Cosijn & Ingwersen, 2000; Kemp, 1974; Schamber et al., 1990; P. Wilson, 1973) und den kognitiven Veränderungen des Menschen, die mit Voranschreiten des Suchprozesses einhergehen (Belkin, 1980; Harter, 1992). Gegen eine reine Nutzerperspektive allerdings spricht, dass Nutzerinnen und Nutzer auch mit weniger als optimalen Suchergebnissen zufrieden sein können (siehe satisficing, Case & Given, 2016, S. 36; Mansourian & Ford, 2007; Prabha et al., 2007; Savolainen, 2016) und die Sicht der einzelnen Person zum Zeitpunkt der Suche nicht zwangsläufig die relevanteste ist (Hjørland, 2010, S. 223).

Der Relevanzbegriff steht für ein komplexes Konzept, das vom Menschen intuitiv verstanden wird (Saracevic, 1996), wohingegen das Ziel von IR-Systemen darin besteht, die Nutzersicht auf Relevanz abzubilden – „All the algorithms in all the systems in the world are trying to approximate, with various degrees of success, the human notion of relevance“ (Saracevic, 2012, S. 49). Zu diesem Zweck werden nutzungsbasierte Faktoren (Signale des menschlichen Suchverhaltens) in den Ranking-Algorithmus integriert, was sich seit der Einführung des PageRank-VerfahrensFootnote 3 durch die Erfinder von Google (Brin & Page, 1998) etabliert hat.

Für die Evaluierung der Retrieval-Effektivität von IR-Systemen werden menschliche Relevanzbewertungen im Rahmen von Retrieval-Studien erhoben. Anhand dieser Relevanzbewertungen werden auch heutzutage relevanzbasierte Kennzahlen (z. B. Normalised Discounted Cumulative Gain, NDCG, die die Treffersortierung berücksichtigt, oder Graded Average Precision, GAP) errechnet. Aus diesen Gründen braucht die Systemseite die Nutzerseite und profitiert von ihr. Abbildung 1.1 veranschaulicht die Arten von Relevanzbewertungen, nach denen sie in Abhängigkeit der system- oder nutzerbasierten Perspektive unterschieden werden können. Aus Systemsicht sind Relevanzbewertungen formalisierte relevance scores, die der Rankingalgorithmus errechnet; aus Nutzersicht sind Relevanzbewertungen das Ergebnis eines kognitiven Bewertungsprozesses.Footnote 4 Dabei besteht die Annahme, dass die Bewertungen, die informationssuchende Personen in ihrem beruflichen oder privaten Kontext (Alltag) vornehmen, den im Forschungskontext erhobenen Relevanzbewertungen entsprechen. Erstgenannte können lediglich implizit anhand von Logdaten, wie beispielsweise Klickdaten und Verweildauer, abgeleitet werden (Agichtein et al., 2006; Joachims et al., 2005), während letztere mithilfe einer zwei- oder mehrstufigen Skala auch explizit erfassbar sind.

Abbildung 1.1
figure 1

Unterscheidung von Relevanzbewertungen nach Relevanzperspektive

Dass sich Relevanzbewertungen je nach Perspektive unterschiedlich definieren lassen, spiegelt sich in der Forschungsliteratur widerFootnote 5. Mizzaro (1997) definiert Relevanzbewertungen (relevance judgments) aus Sicht menschlicher Juroren („by a judge“), sodass von einer Definition im Forschungskontext ausgegangen werden kann: „A relevance judgment is an assignment of a value of relevance […] by a judge at a certain point of time” (S. 812).

Harter (1992) kritisiert, Relevanzbewertungen, die im Rahmen von Studien zur Evaluierung der Retrieval-Effektivität erhoben werden, als statische Grundlage zur Berechnung von Retrieval-Kennzahlen zu behandeln. Er begründet dies damit, dass dieser Ansatz der traditionellen, anfrageorientierten Systemsicht folgt und seiner Definition von psychologischer Relevanz als Beziehung zwischen dem psychologischen Zustand einer informationssuchenden Person zu einem bestimmten Zeitpunkt und dem Informationsobjekt widerspricht:

A definition of relevance that relies on fixed-for-all-time, unchanging relevance judgments – such as those characterizing nearly all retrieval tests that have been conducted to now – must be seen as wrong. For relevance judgments are a function of one’s mental state at the time a reference is read. They are not fixed; they are dynamic. Recording such judgments, treating them as permanent, unchanging relations between a document set and a question set, and then using them to compute such measures as recall and precision to evaluate retrieval effectiveness, is contrary to the meaning of psychological relevance. (S. 612)

Harters Argumentation folgend kann infrage gestellt werden, inwieweit explizite Relevanzbewertungen realen Relevanzbewertungen entsprechen können bzw. ob der Gegenstand der Bewertung im Forschungskontext überhaupt eine Relevanzbeziehung sein kann. Andere Definitionen betonen den Zusammenhang zwischen Nutzerinnen und Nutzern („users“, „the human user“) und deren Informationsbedürfnissen:

From our perspective, relevance judgments are users’ evaluations of information (from internal or external sources) in relation to their information need situations at particular points in time. (Schamber u. a., 1990, S. 771; Kursivdruck im Original)

Relevance judgments can be seen as a subjective process where the human user decides on the relevance of retrieved documents in relation to the work task that he/she has to fulfill. (Cosijn, 2009, S. 4513)

Die Definition von Cosijn geht darüber hinaus auf den subjektiven Prozesscharakter ein, der im Kontext von Relevanzbewertungen durch menschliche Nutzerinnen und Nutzer zwangsläufig vorliegt. Dieser Prozess der Relevanzbewertung unterliegt verschiedenen Einflüssen, die mitunter dazu führen, dass Inkonsistenzen bei expliziten, im Forschungskontext erhobenen Relevanzbewertungen auftreten: So sind Relevanzbewertungen zwischen Jurorinnen und Juroren (Interrater-Reliabilität, inter-rater reliability) sowie bei wiederholten Bewertungen durch dieselbe Person (Intrarater-Reliabilität, intra-rater reliability) nicht immer gleich (Buckley & Voorhees, 2005, S. 68 ff.), was ein starkes Argument für das kontextabhängige und dynamische Relevanzverständnis ist (Saracevic, 2016b, S. 69 ff.).

Zusammengefasst stellen Relevanzbewertungen das Produkt eines menschlichen, kognitiven Beurteilungsprozesses dar. Dieser Prozess kann wiederum als sequenzielle Anwendung von Relevanzkriterien definiert werden: „A relevance judgement process is […] defined as the sequential use of relevance criteria as delimited by interactions“ (Beresi et al., 2010, S. 199). Um den Prozess der Relevanzbewertung zu verstehen, ist es demnach unerlässlich, detaillierte Kenntnisse über Relevanzkriterien aus der Perspektive von Nutzerinnen und Nutzern zu besitzen.

Viele informationswissenschaftliche Studien untersuchten gezielt, anhand welcher Kriterien Menschen Relevanzbewertungen vornehmen. Als einige der einflussreichsten Untersuchungen gelten die Arbeiten von Carol Barry und Linda Schamber (Barry, 1994; Barry & Schamber, 1998; Schamber, 1991), die unter anderem zeigen, dass thematische Relevanz die Basis für die Relevanzbewertung darstellt und dass weitere Kriterien wie Qualität, Validität und Aktualität auf dieser Basis aufsetzen. An diese Erkenntnisse knüpfen weitere Studien an und untersuchen teilweise gezielt ausgewählte Kriterien insbesondere vor dem Hintergrund der zunehmenden Nutzung von Websuchmaschinen. Besonders hervorzuheben ist die Arbeit von Rieh (2002) zur Bewertung von Qualität und kognitiver Autorität bei der Websuche – zwei Konzepten, die bei der Suche nach wissenschaftlichen Informationen, d. h. im Kontext akademischer Informationssuche, einen besonderen Stellenwert einnehmen dürften (Rieh & Belkin, 1998).

Das Konzept der kognitiven Autorität besagt, dass eine Person nicht nur als Experte gilt, sondern auch eine kognitive Autorität ist, wenn ihre Aussagen von anderen als wahr akzeptiert werden und sie zugleich Denken und Handeln anderer Menschen beeinflusst (Wilson, 1983). Die Einschätzung der kognitiven Autorität von Autorinnen und Autoren basiert auf deren Ruf und Leistungen (Rieh, 2009). Kennzahlen für den Einfluss von Forschenden bzw. deren Publikationen sind u. a. als Gegenstand des informationswissenschaftlichen Teilgebiets der Bibliometrie bzw. der Szientometrie – und mit der Forderung nach sogenannten alternativen Metriken (altmetricsFootnote 6) in der Wissenschaftsevaluierung – auch disziplinübergreifend bekannt.

Bei der Informationssuche in akademischen Suchsystemen kann das Wissen über den Einfluss der Autorin oder des Autors hilfreich sein für die Bewertung der Ergebnisse durch die informationssuchende Person. Moderne akademische Suchsysteme integrieren zusätzliche Daten in ihre Ergebnispräsentation: Die Ergebnisse von Google Scholar enthalten zum Beispiel die Anzahl der Zitationen, die ACM Digital Library zeigt zusätzlich die Anzahl der Downloads des jeweiligen Werks in der Suchergebnisliste an. Obwohl Autorität als beeinflussendes Element bei der Relevanzbewertung in akademischen Suchsystemen bereits in einer Studie zur Dokumentenauswahl (Wang, 1994) in Betracht gezogen wurde, gibt es zum Zeitpunkt der Erstellung dieser Arbeit keine Studien zu Relevanzkriterien, in denen den Teilnehmenden Suchergebnisse mit angereicherten Daten wie Popularitätsdaten zur Bewertung vorgelegt wurden. Daher stellt sich die Frage, inwieweit die Ergebnisse der früheren Studien zu Relevanzkriterien auf den heutigen Kontext moderner akademischer Suchsysteme übertragen werden können, wenn bestimmte Elemente eines Suchergebnisses keine Berücksichtigung in damaligen Untersuchungen fanden, weil sie zu dem Zeitpunkt noch nicht existierten.

Bisherige Studien zeigen neben den von informationssuchenden Personen angewendeten Kriterien (relevance criteria) die Existenz weiterer Einflüsse auf den gesamten Bewertungsprozess auf, welche aus Einflussfaktoren (relevance factors) und Merkmalen oder Hinweisen auf Relevanz (relevance clues, relevance cues) bestehen (siehe z. B. Literaturüberblicke bei Mizzaro, 1997; Saracevic, 2016b). Zwischen den Begriffen Kriterien, Faktoren und Merkmalen gibt es in der Literatur weder eine definitorische und konzeptuelle Abgrenzung noch eine allgemeingültige Definition. Dadurch bedingte terminologische Differenzen erschweren die Einordnung und Vergleichbarkeit der Ergebnisse aus verschiedenen empirischen Studien zu Relevanzkriterien (Bales & Wang, 2006; Saracevic, 2016b; Wang, 2010). So listen manche Studien beispielsweise Aktualität als Einflussfaktor auf (z. B. Schamber, 1994), während andere Aktualität als Kriterium ausweisen (z. B. Barry, 1994).

Inhaltlich vergleichbare Primärstudien zu derselben Fragestellung oder demselben Effekt sind von besonderer Bedeutung für die Durchführung von Metaanalysen, die die Studienergebnisse zusammenfassen und statistisch auswerten; Metaanalysen bzw. Forschungssynthesen sind sowohl für den wissenschaftlichen Erkenntnisfortschritt als auch für die Anwendbarkeit wissenschaftlicher Erkenntnisse in der Praxis notwendig (Döring & Bortz, 2016, S. 894 ff.). Des Weiteren ist für eine empirische, quantitative Untersuchung von Relevanzkriterien die Operationalisierung der Untersuchungsvariablen unabdingbar. Ohne eine Definition dessen, was unter einem Relevanzkriterium zu verstehen ist, lässt sich dieses Konstrukt als Untersuchungsgegenstand nicht angemessen operationalisieren, d. h. die Definition muss der Operationalisierung vorausgehen, bevor sich an diese die Datenerhebung anschließt (Döring & Bortz, 2016, S. 222 ff.).

Bei den bisherigen empirischen Studien zu Relevanzkriterien handelt es sich zumeist um explorative Studien, die offene Forschungsfragen anhand eines qualitativen Ansatzes bearbeiteten (z. B. Fitzgerald & Galloway, 2001; Schamber, 1991; Wang, 1994; I. Xie et al., 2010), wesentlich seltener um hypothesenprüfende, quantitative Studien, denen ein experimentelles Design zugrunde liegt (z. B. Hamid et al., 2016; Regazzi, 1988; Xu & Chen, 2006). Ein Experiment ist jedoch die einzige Möglichkeit, um kausale Schlussfolgerungen zwischen einer vermuteten Ursache und einer beobachteten Wirkung ableiten zu können (Döring & Bortz, 2016, S. 192). Experimentelle Studien gelten daher als Goldstandard in der sozialwissenschaftlichen Forschung (Döring & Bortz, 2016, S. 102) und kommen insbesondere zum Erforschen von menschlichem Erleben und Verhalten in der Psychologie zum Einsatz.

Die informationswissenschaftlichen Literatur zu Relevanz und Relevanzkriterien liefert ebenfalls Hinweise auf den Verhaltensaspekt: So ist in einigen Publikationen die Rede von der Erforschung des Relevanzverhaltens (relevance behavior/behaviour) (z. B. Balatsoukas et al., 2010; Borlund, 2003b; Cook, 1971; Ruthven, 2014; Saracevic, 2007b, 1996; Scholer et al., 2013; Wang, 2011), auch die Bezeichnung Relevanzbewertungsverhalten (relevance judgment behaviour) (Balatsoukas & Demian, 2009; Balatsoukas & Ruthven, 2012) findet Verwendung. Saracevic erläutert den Begriff Relevanzverhalten im Kontext der Informationsverhaltensforschung:

Strictly speaking, relevance does not behave. People behave. A number of studies examined a variety of factors that play a role in how humans determine relevance of information or information objects. Relevance behavior studies are closely related to information seeking studies and to the broad area of human information behavior studies. […] Many studies on various aspects of human information behavior are related to relevance behavior... (2007b, S. 2127)

Der subjektive Prozess der Relevanzbewertung als Teil des menschlichen Informationssuchprozesses ist als Gegenstand der Information Searching Behavior-Forschung und zugleich als Relevanzverhalten anzusehen. Somit erscheint es naheliegend, methodisch dem Ansatz der Psychologie zur Erforschung menschlichen Verhaltens zu folgen und den Bewertungsprozess als Anwendung verschiedener Relevanzkriterien anhand eines experimentellen Designs zu untersuchen.

1.2 Ziel und Relevanz der Arbeit

Das Ziel der vorliegenden Arbeit ist es, Kenntnisse über die Kriterien, anhand derer informationssuchende Personen die Relevanz von Suchergebnissen in akademischen Suchsystemen bewerten, zu erlangen. Dieses Ziel stellt die übergeordnete Forschungsfrage dar, welche die hier beschriebene Forschung anleitet.

Das in dieser Arbeit behandelte Forschungsproblem (vgl. Abschnitt 1.1) lässt sich wie folgt zusammenfassen: In den bisherigen – explorativen wie experimentellen – Studien zu Relevanzkriterien, die Relevanzbewertungen auf der Basis von Suchergebnissen erhoben, enthielten die von den Teilnehmenden zu bewertenden Suchergebnisse keine Popularitätsdaten, wie sie heutzutage in Form von Informationen über Download- oder Zitierhäufigkeit in modernen akademischen Suchsystemen als integraler Bestandteil der Ergebnispräsentation zu finden sind. Daher ist ungewiss, in welcher Weise solche Popularitätsdaten die Relevanzbewertung beeinflussen und welche Bedeutung der Popularität als Relevanzkriterium zugesprochen werden kann.

An dieser Stelle setzt die vorliegende Arbeit an, deren Hauptziel darin besteht, den Einfluss von Popularitätsdaten auf die Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen empirisch zu ermitteln. Zu diesem Zweck wird ein Experiment entwickelt, denn nur mit Experimenten ist es möglich, kausale Schlussfolgerungen über Zusammenhänge zwischen Ursache und Wirkung abzuleiten. Die Frage nach dem Zusammenhang zwischen Popularitätsdaten als Bestandteil von Suchergebnissen (Surrogaten) in akademischen Suchsystemen (Ursache) und der Relevanzbewertung ebendieser Suchergebnisse (Wirkung) führt zu insgesamt drei Forschungsfragen, die mit dieser Arbeit beantwortet werden sollen. Aufgrund fehlender vergleichbarer Studien zur experimentellen Erforschung von Relevanzkriterien bei der Bewertung von Suchergebnissen erfolgt zunächst die Auseinandersetzung mit den methodischen Anforderungen an die empirische Studie:

F1:

Wie können Nutzerkriterien bei der Relevanzbewertung anhand eines experimentellen Untersuchungsdesigns erforscht werden?

Für die Entwicklung eines experimentellen Designs zur Erforschung von Relevanzkriterien sind zwei wesentliche Voraussetzungen zu erfüllen, die mit den folgenden Unterforschungsfragen bearbeitet werden:

F1a:

Wie lassen sich Merkmale, Kriterien und Faktoren als Einflüsse im Prozess der Relevanzbewertung für die Entwicklung eines experimentellen Untersuchungsdesigns definitorisch und konzeptuell voneinander abgrenzen?

F1b:

Wie können Kriterien bei der Relevanzbewertung von Suchergebnissen für eine experimentelle Studie operationalisiert werden?

Bisherigen Studien, in denen die nutzerseitigen Kriterien zur Relevanzbewertung erforscht wurden, mangelt es an einer eindeutigen und allgemeingültigen Definition dessen, was als Relevanzkriterium zu verstehen ist. Diese fehlende, kontextunabhängige Definition geht mit einer Vermischung von weiteren Begriffen als die Relevanzbewertung beeinflussenden Größen einher. So werden in der Literatur ebenfalls die Begriffe Relevanzfaktoren und Relevanzmerkmale gebraucht, deren Elemente eine klare Abgrenzung vermissen lassen. Diese Abgrenzung wird anhand eines Modells zur subjektiven Relevanzbewertung grafisch dargestellt. Dabei liegt der Fokus auf Surrogaten, die als Ergebnisse von informationsorientierten Anfragen, also thematischen Suchen, von einem textbasierten Information Retrieval-System produziert werden und die in der Regel mehrere Dokumente zur Befriedigung des Informationsbedürfnisses benötigen, im Gegensatz zu navigationsorientierten Suchanfragen, die gezielt ein (bekanntes) InformationsobjektFootnote 7 verlangen und damit eine Relevanzbewertung im Sinne einer subjektiven Beurteilung überflüssig machenFootnote 8. Den konkreten Kontext bilden dabei akademische Suchsysteme, die zusätzliche Daten wie Popularitätsdaten in die Suchergebnispräsentation integrieren. Dies wird durch das Modell explizit berücksichtigt, wodurch es eine zeitgemäße Sichtweise auf die Relevanzbewertung von Surrogaten in akademischen Suchsystemen bietet. Zudem stellt das Modell ein Hilfsmittel für die Operationalisierung von Relevanzkriterien dar, die für deren experimentelle Erforschung im Allgemeinen und im Rahmen der hier vorgestellten Studie notwendig ist. Mit der Beantwortung der Unterforschungsfragen F1a und F1b geht das Erreichen zweier Teilziele einher, die in einem für die Beantwortung der Forschungsfrage F1 entwickelten methodischen Framework münden, welches wiederum ein essenzielles Teilergebnis der hier beschriebenen Forschung darstellt.

Die inhaltlichen Erkenntnisse aus der experimentellen Studie zielen auf die Ermittlung des Einflusses von Popularitätsdaten auf die Relevanzbewertung ab:

F2:

Welchen Einfluss haben Popularitätsdaten auf die Bewertung der Relevanz von Suchergebnissen in akademischen Suchsystemen?

Die Forschungsfrage F2 lässt sich in zwei Schritten beantworten. Zunächst ist zu prüfen, ob ein statistisch signifikanter Effekt vorhanden ist, bevor die Richtung des Effekts festgestellt werden kann. Ist der Effekt positiv, bedeutet dies, dass Popularitätsdaten zu einer höheren Relevanzbewertung führen; ein negativer Effekt liegt hingegen vor, wenn Popularitätsdaten eine geringere Relevanzbewertung bewirken. Forschungsfrage F3 nimmt die Effekte der untersuchten Popularitätsdaten einzeln in den Fokus:

F3:

Welche Popularitätsdaten beeinflussen die Relevanzbewertung in welchem Maße?

Unterschiedliche Einflüsse bei den untersuchten Popularitätsdaten liefern Erkenntnisse über deren jeweiligen Stellenwert und können als Basis für Schlussfolgerungen über die Gewichtung von Popularität als Relevanzkriterium dienen. Die Beantwortung der Forschungsfrage F3 setzt voraus, dass ein statistisch signifikanter Einfluss von Popularitätsdaten nachgewiesen wird.

Mit der Bearbeitung dieser Forschungsfragen leistet die vorliegende Arbeit einen Beitrag zum besseren Verständnis des Prozesses der Relevanzbewertung. Da die Arbeit diesen als Teilprozess der Informationssuche betrachtet, unterstützt sie damit nicht nur die informationswissenschaftliche Relevanzforschung, sondern indirekt auch die Informationsverhaltensforschung und die Interactive Information Retrieval-Forschung. Zugleich möchte sie mit dem verfolgten experimentellen Ansatz zur Erforschung von Relevanzkriterien einen methodischen Impuls für weitere Studien setzen und bietet einerseits mit dem Modell zur Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen, andererseits mit dem methodischen Framework zwei nachnutzbare Hilfsmittel für die Operationalisierung von Variablen und die Entwicklung experimenteller Untersuchungsdesigns.

Der Neuheitswert der vorliegenden Arbeit für die Informationswissenschaft liegt zum einen in dem methodischen Framework, anhand dessen erstmalig eine experimentelle Studie zur Untersuchung des Einflusses von Popularitätsdaten auf die Relevanzbewertung entwickelt wird. In diesem Zusammenhang ist die Durchführung der Studie als Online-Experiment zu betonen, denn diese ermöglicht unter anderem, eine im Vergleich zu bisherigen Studien zu Relevanzkriterien sehr große Stichprobengröße zu erreichen. Zum anderen besteht der Neuheitswert in der erstmaligen Untersuchung des Einflusses von Popularitätsdaten, wie der Anzahl von Zitationen einer Autorin oder eines Autors oder die Anzahl der Downloads zu einem Zeitschriftenartikel, auf die Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen.

1.3 Vorgehensweise und Aufbau der Arbeit

Die vorliegende Arbeit verfolgt einen quantitativen, experimentellen Ansatz zur Erforschung von Relevanzkriterien. Dabei stützt sie sich zunächst auf bestehende Forschungsliteratur, um das Konzept von Relevanz und Relevanzkriterien inhaltlich zu durchdringen sowie das methodische Vorgehen bei der Untersuchung von Relevanzkriterien bisheriger Studien zu beleuchten. Für die Entwicklung eines experimentellen Designs zur Erforschung von Relevanzkriterien müssen Voraussetzungen in Hinblick auf die Operationalisierbarkeit des zu untersuchenden Gegenstands erfüllt sein, die auch dessen Definition beinhalten. Um diese Voraussetzungen zu erfüllen, wird mithilfe eines literaturorientierten Ansatzes ein Modell entwickelt, welches den subjektiven Prozess der Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen darstellt. Anhand des Modells werden die Einflüsse, die in dem Bewertungsprozess eine Rolle spielen, veranschaulicht und deren Zusammenwirken beschrieben. In diesem Zusammenhang werden die Forschungsfragen F1a und F1b beantwortet, ohne die die Entwicklung eines Experiments zur Erforschung von subjektiven Relevanzkriterien und die Beantwortung der Forschungsfrage F1 nicht möglich sind.

Den Kern dieser Arbeit bildet die experimentelle Studie, mit der der Einfluss von Popularitätsdaten als integraler Bestandteil der Suchergebnispräsentation in akademischen Suchsystemen untersucht wird. Aufgrund fehlender vergleichbarer, experimenteller Studien kann bei der Entwicklung des Designs und insbesondere der Erstellung des Stimulusmaterials nicht auf bereits vorhandene methodische Frameworks zurückgegriffen werden. Aus diesem Grund liegt ein Schwerpunkt der Studie in der detaillierten Beschreibung des methodischen Vorgehens, für das jede Entscheidung in Hinblick auf das Design und die Datenerhebung sowie die Datenauswertung ausführlich begründet wird. Die statistische Analyse der erhobenen Daten erfolgt mithilfe der Software SPSS, mit der eine Mehrebenenanalyse (multi-level analysis) durchgeführt wird, welche die statistischen Signifikanzen von Haupteffekten und Interaktionseffekten aufdeckt. Aufgrund des komplexen Designs nimmt die Darstellung der statistischen Ergebnisse des Experiments entsprechend viel Raum ein, daher ist eine Vielzahl an Tabellen separat im Anhang im elektronischen Zusatzmaterial enthalten. Zum Zweck der Transparenz dieser Forschung und zur Ermöglichung von Replikationsstudien sind die im Rahmen des Online-Experiments erhobenen Forschungsdaten im Open Science Framework hinterlegt und unter der folgenden URL abrufbar: https://doi.org/10.17605/OSF.IO/NTWQD.

Der strukturelle Aufbau der Arbeit folgt dem Vorgehen zur Bearbeitung der Forschungsfragen. Zunächst wird in Kapitel 2 der Stand der Forschung dargelegt, der sich in zwei Teile gliedert. Der erste Teil (Abschnitt 2.1) beleuchtet die Kriterien bei der Relevanzbewertung aus einer inhaltlichen Perspektive heraus, wobei die Kriterien in allgemeine Kriterien (Abschnitt 2.1.1), Kriterien im Kontext der Websuche (Abschnitt 2.1.2) und in Kriterien im Kontext akademischer Suchsysteme (Abschnitt 2.1.3) unterteilt werden. Schließlich wird der Fokus auf Surrogate als Bewertungsgegenstand bisheriger Studien zu Relevanzkriterien gelegt (Abschnitt 2.1.4), bevor eine Zusammenfassung über die Kriterien bei der Relevanzbewertung aus inhaltlicher Sicht erfolgt (Abschnitt 2.1.5). Der zweite Teil (Abschnitt 2.2) beschreibt die Methoden, die in bisherigen Studien zur Erforschung von Relevanzkriterien verwendet wurden. Dieser Teil ist jeweils in zwei Methoden der Datenerhebung und in zwei Methoden der Untersuchungsart gegliedert: Zunächst werden Befragungen (Abschnitt 2.2.1) und Beobachtungen (Abschnitt 2.2.2) beleuchtet, anschließend werden explorative Untersuchungsdesigns (Abschnitt 2.2.3) und schließlich experimentelle Untersuchungsdesigns (Abschnitt 2.2.4) vorgestellt. Daran schließt sich die Zusammenfassung der Methoden bisheriger Studien zur Erforschung von Relevanzkriterien an (Abschnitt 2.2.5). Auf der Basis der Erkenntnisse der Literaturschau werden die Forschungslücken aufgezeigt und die Forschungsfragen abgeleitet (Abschnitt 2.3).

Im anschließenden Kapitel 3 werden die Voraussetzungen zur experimentellen Erforschung von Relevanzkriterien herausgearbeitet, indem das informationswissenschaftliche Relevanzkonzept spezifiziert wird (Abschnitt 3.1). Zu der Spezifikation gehören die Erläuterung verschiedener Relevanzformen und der dieser Arbeit zugrunde gelegten Relevanzdefinition (Abschnitt 3.1.1), die Darstellung von Relevanz als ein multidimensionales Konstrukt (Abschnitt 3.1.2), und die Argumentation, den Prozess der Relevanzbewertung von Suchergebnissen als einen Prozess des Urteilens zu betrachten (Abschnitt 3.1.3). Des Weiteren werden in diesem Kapitel die Einflüsse, die im Bewertungsprozess von Bedeutung sind, identifiziert und mithilfe eines Modells veranschaulicht (Abschnitt 3.2). Diese Einflüsse lassen sich in drei Aspekte unterteilen – Elemente des Surrogats als potenzielle Relevanzmerkmale, subjektive Relevanzkriterien und Relevanzfaktoren: Zum einen stellen die Attribute eines Suchergebnisses die Elemente bzw. Merkmale dar, anhand derer informationssuchende Personen die Kriterien zur Bewertung bilden (Abschnitt 3.2.1); zum anderen wirken Einflussfaktoren als Kontext der Bewertung auf diesen Bewertungsprozess ein (Abschnitt 3.2.2). Das Kapitel endet mit der Zusammenfassung und Beantwortung der Forschungsfragen F1a und F1b (Abschnitt 3.3).

Den Hauptteil der vorliegenden Arbeit bildet Kapitel 4 mit der Beschreibung der empirischen Studie zur Untersuchung des Einflusses von Popularitätsdaten auf die Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen. Das Kapitel ist in insgesamt sechs Abschnitte gegliedert und beginnt mit der Entwicklung des experimentellen Untersuchungsdesigns (Abschnitt 4.1). Zu diesem gehören die Auswahl und Operationalisierung der unabhängigen Variablen (Abschnitt 4.1.1), die Bestimmung der abhängigen Variable (Abschnitt 4.1.2) sowie die Bildung der mit dem Experiment zu überprüfenden Hypothesen (Abschnitt 4.1.3). Ergänzend dazu wird der Umgang mit Drittvariablen, die als potenzielle Störvariablen mit den zu untersuchenden Variablen konfundieren könnten, erläutert (Abschnitt 4.1.4). Der Abschnitt zum Untersuchungsdesign schließt mit der ausführlichen Beschreibung des Versuchsaufbaus ab (Abschnitt 4.1.5).

Im Anschluss werden die Planung und Umsetzung der Datenerhebung ausführlich erläutert (Abschnitt 4.2). Hierzu zählen die Entwicklung der durch die Versuchspersonen zu bearbeitenden Aufgaben, die Beschreibungstexte zu Informationsbedürfnissen (Abschnitt 4.2.1) und zu bewertende Surrogate (Abschnitt 4.2.2) beinhalten. Die Daten wurden mithilfe eines Online-Fragebogens erhoben, dessen Kern das eigentliche Experiment neben der Erfassung zusätzlicher Angaben der Stichprobe darstellt (Abschnitt 4.2.3). Schließlich wird die Berechnung der erforderlichen Stichprobengröße vorgestellt (Abschnitt 4.2.4) und das Vorgehen bei der Probandenakquise dargelegt (Abschnitt 4.2.5). Nach dem Abschnitt zur Datenerhebung werden die Aufbereitung (Abschnitt 4.3.1) und statistische Analyse der Daten (Abschnitt 4.3.2) beschrieben, bevor die Ergebnisse des Experiments vorgestellt werden (Abschnitt 4.4). Dieser Abschnitt beginnt mit der Betrachtung der Stichprobe (Abschnitt 4.4.1), an die sich die Vorstellung der Haupteffekte (Abschnitt 4.4.2) schließt. Das Hauptaugenmerk der Ergebnisdarstellung liegt in der Erläuterung der Interaktionseffekte zwischen den untersuchten unabhängigen Variablen (Abschnitt 4.4.3). Die Diskussion der Ergebnisse erfolgt zunächst im Kontext der Studienmethodik (Abschnitt 4.5), anhand derer auch die Grenzen der Studie aufgezeigt werden (Abschnitt 4.6).

Kapitel 5 beinhaltet die Schlussbetrachtungen dieser Arbeit. Diese beginnen mit der Beantwortung der Forschungsfragen F1, F2 und F3 (Abschnitt 5.1). Anschließend werden die Ergebnisse der Arbeit im Kontext der Gesamtmethodik reflektiert (Abschnitt 5.2), bevor ein Ausblick auf künftige Forschung erfolgt (Abschnitt 5.3).

Dem Anhang im elektronischen Zusatzmaterial zu entnehmen sind eine Übersicht der analysierten Studien zu Relevanzkriterien (Anhang 1), der Fragebogen zur Datenerhebung (Anhang 2), die SPSS-Syntax der statistischen Mehrebenenanalyse (Anhang 3) und weitere Ergebnisse der Datenauswertung (Anhang 4).