Die Darstellung des Forschungsstands in diesem Kapitel erfolgt aus zwei Perspektiven – einer inhaltlichen und einer methodischen Perspektive auf die Kriterien, die informationssuchende Personen bei der Relevanzbewertung von Suchergebnissen anwenden. Der erste Teil dieses Kapitels (Abschnitt 2.1) widmet sich den Kriterien aus inhaltlicher Sicht. Dazu wird einleitend auf das Problem einer fehlenden definitorischen Abgrenzung der in der Literatur verwendeten Begriffe „Kriterien“, „Faktoren“ und „Merkmale“ eingegangen und aufgezeigt, welche Konsequenzen sich diesbezüglich für die Auswahl und Betrachtung der für die Erläuterungen der Relevanzkriterien herangezogenen Studien in den nachfolgenden Abschnitten 2.1.1, 2.1.2 und 2.1.3 ergeben. Anschließend wird der Fokus auf Surrogate als zu bewertendes Informationsobjekt in Studien zu Relevanzkriterien gelegt und deren besonderer Stellenwert bei der Relevanzbewertung verdeutlicht (Abschnitt 2.1.4). In Abschnitt 2.1.5 erfolgt eine Zusammenfassung der Erkenntnisse über die Kriterien bei der Relevanzbewertung, anhand derer die mit dieser Arbeit adressierte Forschungslücke deutlich wird.

Die separate Betrachtung der Methoden zur Erforschung von Relevanzkriterien im zweiten Teil dieses Kapitels (Abschnitt 2.2) erfolgt vor dem Hintergrund der besonderen Herausforderung, ein komplexes Konzept wie Relevanz zu messen. Buckland (2017) betont, dass Relevanz keine direkt messbare, physische Einheit darstellt wie beispielsweise Messeinheiten in den Naturwissenschaften, sondern aufgrund der subjektiven und dynamischen Natur von Relevanz diese im direkten Zusammenhang mit menschlicher kognitiver Aktivität steht. Damit ein Dokument als relevant gilt, „[muss es] useful to an actual human being’s mental activity [sein]“ (Buckland, 2017, S. 161). Es ist davon auszugehen, dass mentale Aktivität eng verknüpft ist mit menschlichem Verhalten. Um menschliches Erleben und Verhalten zu erforschen, werden in Disziplinen, die sozialwissenschaftliche Methoden anwenden, wie der Psychologie, häufig Experimente durchgeführt. Mithilfe von Experimenten sollen kausale Zusammenhänge zwischen einer Ursache (Stimulus) und deren Wirkung (beobachteter Effekt) hergestellt werden. Dabei werden die als ursächlich auf eine Wirkung vermuteten Faktoren manipuliert und können systematisch und isoliert untersucht werden.

Die Bibliotheks- und Informationswissenschaft greift traditionell auf Methoden und Verfahren zur Erhebung und Analyse von Daten aus anderen Fachdisziplinen zurück. Dies sind vor allem sozialwissenschaftliche Methoden und Verfahren (z. B. bei Umfragen, Nutzerstudien) sowie Anwendungen aus dem Bereich Informatik (z. B. Programmierung von Software-Tools). Um Effekte auf tatsächliches menschliches Verhalten zu untersuchen, werden auch in der IIR-Forschung Experimente durchgeführt (Kelly, 2009; Kelly & Cresenzi, 2016). Studien, in denen verschiedene Faktoren, die eine Rolle dabei spielen, wie Menschen die Relevanz von Informationen beurteilen, untersucht werden, bezeichnet Saracevic (2007b) als relevance behavior studies und hebt damit den Verhaltensaspekt in diesen Studien hervor. In einigen Publikationen zu Relevanz und Relevanzkriterien werden zudem konkret die Begriffe Relevanzverhalten (relevance behavior/behaviour) verwendet (z. B. Balatsoukas et al., 2010; Borlund, 2003b; Cook, 1971; Ruthven, 2014; Saracevic, 2007b, 1996; Scholer et al., 2013; Wang, 2011). Vor diesem Hintergrund erscheint es sinnvoll, zu analysieren, welche Methoden bisherige Studien zur Erforschung von Relevanzkriterien verwendeten und insbesondere, ob unter ihnen ebenfalls Experimente sind.

Am Ende des Kapitels werden die sich anhand der Betrachtung des Forschungsstands eröffneten Forschungslücken zusammengefasst und die sich daraus ableitenden Forschungsfragen, die mit der hier vorgestellten Forschung untersucht wurden, formuliert (Abschnitt 2.3).

2.1 Kriterien bei der Relevanzbewertung

Ein tiefgehendes Verständnis der Kriterien, die der subjektiven Relevanzbewertung von Informationsobjekten zugrunde liegen, ist notwendig, um zu erkennen, wodurch sich ein Dokument als mehr oder weniger relevant zu einer Suchanfrage oder dem Informationsbedürfnis einer Person gegenüber einem anderen Dokument auszeichnet. Jahrzehntelange Relevanzforschung hat gezeigt, dass es einfacher scheint zu beschreiben, was ein irrelevantes Dokument ausmacht, als zu definieren, was ein relevantes Dokument ist (Hjørland, 2000). Aufgrund des hohen Maßes an Subjektivität, Dynamik und Multidimensionalität, welches das informationswissenschaftliche Relevanzkonzept kennzeichnet (Mizzaro, 1997) und des Fehlens seiner allgemein gültigen Definition (Saracevic, 2016b), lässt sich der Begriff des Relevanzkriteriums offenbar ebenso wenig eindeutig und universell definieren. In den Studien zu Relevanzkriterien sind unterschiedliche Definitionen des Begriffs Relevanzkriterien (relevance criteria) zu finden, zum Beispiel:

  • „[C]riteria for relevance judgments […] are reasons underlying human assessments“ (Schamber, 1994, S. 13).

  • „A relevance criterion can be defined as the parameter or value by which users determine the relevance of a retrieved object at a certain point in time“ (Balatsoukas & Ruthven, 2012, S. 1728).

  • „Relevance criteria are defined as the factors or reasons that influence users’ relevance judgments“ (Schamber & Bateman, 1999, S. 382).

Diese exemplarisch ausgewählten Zitate bieten neben Gründen und Parametern oder Werten auch den Begriff Faktoren an; in einer weiteren Erläuterung im Zusammenhang mit der Suche nach Gesundheitsinformationen ist von Regeln zur Auswahl von Quellen die Rede: „Criteria are rules by which users select a source“ (Zhang, 2014, S. 915). Für eine klare Definition des Begriffs Kriterium kommt erschwerend hinzu, dass neben den Relevanzkriterien in der Literatur ebenfalls die Begriffe Relevanzfaktoren (relevance factors, factors of relevance) und Relevanzmerkmale (relevance clues, clues to relevance, relevance cues) auftauchen. Beispielsweise findet sich bei Saracevic (2016b) eine unglückliche Vermischung von Attributen und Kriterien: „[C]lues research aims to uncover and classify attributes or criteria that users concentrate on while making relevance inferences“ (2016b, S. 50). Aufgrund von terminologischen Differenzen lassen sich die Ergebnisse aus unterschiedlichen empirischen Studien zu Relevanzkriterien nur schwer einordnen und miteinander vergleichen, wie bereits Bales & Wang (2006) und Wang (2010) beschreiben, wodurch insbesondere systematische Literaturschauen oder Metaanalysen anfällig für Fehlinterpretationen oder das Ziehen falscher Schlüsse sind. So listen manche Studien beispielsweise Aktualität als Einflussfaktor auf (z. B. Schamber, 1994), während andere Aktualität als Kriterium ausweisen (z. B. Barry, 1994). In seiner Synthese über jahrzehntelange informationswissenschaftliche Relevanzforschung stellt Saracevic fest:

Criteria, language, measures, and methods used in […] studies [that contain data directly addressing relevance] were not standardized and they varied widely. In that sense, although no study was an island, each study was done more or less on its own. Thus, the results are only cautiously comparable. (2016b, S. 57)

Das Definitionsproblem offenbart sich insbesondere in der Übersicht der 80 Faktoren in 6 Kategorien (Tabelle 2.1), die basierend auf einer umfassenden Literaturschau zusammengetragen wurden (Schamber, 1994, S. 11). Die Kategorien Judgment conditions und Choice of scale zeigen, dass es sich um Faktoren, die im Forschungskontext zur Erhebung expliziter Relevanzbewertungen beobachtet wurden, handelt. Auffällig sind Begriffe wie Pertinence, Usefulness und Difficulty level als Faktoren der Kategorie Documents, die im Gegensatz zu Aboutness in derselben Kategorie nicht unveränderbar mit dem Dokument verbunden sind, sondern veränderbare Konzepte bezeichnen, deren Werte bzw. Urteile abhängig von der Person sind, durch die die Bewertung vorgenommen wird. Auch ob der Inhalt des Dokuments interessant ist (Interesting content), kann ohne den Bezug zum Subjekt nicht beurteilt werden. Die als Faktoren aufgeführten Begriffe in dieser Kategorie Documents vermischen objektiv erfassbare Eigenschaften des Dokuments wie Aboutness oder Recency mit den subjektiv zu bestimmenden Eigenschaften, die einem Dokument ausschließlich in Abhängigkeit mit dem Kontext der bewertenden Person und ihrem subjektiven Informationsbedürfnis zugeschrieben werden können. Des Weiteren sind manche Begriffe unklar in ihrer genauen Bedeutung, zum Beispiel in Hinblick auf den Unterschied zwischen Novelty und Recency; unscharf sind Begriffe wie Cognitive style in der Kategorie Judges und Authorship in der Kategorie Documents. Aus diesen Gründen lassen die gelisteten Faktoren keine eindeutige Definition und Abgrenzung gegenüber Kriterien zu, sondern erlauben einen relativ weiten Interpretationsspielraum.

Tabelle 2.1 Relevanzfaktoren aus dem Literaturbericht von Schamber (1994, S. 11)

Saracevic (2016b) fasst in seiner Literaturschau die Erkenntnisse aus jahrzehntelanger informationswissenschaftlicher Relevanzforschung zusammen und beschreibt unter anderem die Faktoren, die Effekte auf Relevanzbewertungen ausüben, als: (a) Faktoren im Zusammenhang mit den Jurorinnen und Juroren, wie Erfahrung mit thematisch-relevanten Fragen, Kenntnis über und Interesse an einem Thema, spezielles Fachwissen, Sprache; und (b) Faktoren im Zusammenhang mit den Relevanzbewertungen, wie die Position des Treffers in der Ergebnisliste, Design und Usability des IR-Systems, Art der Suchaufgabe/-ergebnisse (Schwierigkeitsgrad, Informationen) und die Art der Bewertung (Skala) bei der Erhebung expliziter Relevanzbewertungen (Saracevic, 2016b, S. 77 ff.). Diese Einteilung von Faktoren stellt bereits eine konkrete Abgrenzung des Begriffs Relevanzfaktor von dem Begriff Relevanzkriterium dar und erleichtert die Identifizierung der Studien, die Relevanzkriterien erforschen, dadurch, dass diese nicht auf Einflussfaktoren, sondern auf andere, subjektiv ableitbare Parameter fokussiert sind.

Die Erkenntnisse der nachfolgenden Abschnitte beruhen zum einen auf den bedeutenden und in der informationswissenschaftlichen Literatur zu Relevanz vielzitierten Arbeiten von Stefano Mizzaro (z. B. Mizzaro, 1997) und Tefko Saracevic (z. B. Saracevic, 2016b), zum anderen auf den Ergebnissen von informationswissenschaftlichen, empirischen Studien zu Relevanzkriterien, die vordergründig für die Auseinandersetzung mit den methodischen Aspekten in Abschnitt 2.2 mithilfe der Chaining-MethodeFootnote 1 identifiziert und anhand vorab festgelegter KriterienFootnote 2 ausgewählt wurden. Für die Betrachtung von Relevanzkriterien aus inhaltlicher Sicht wurden neben diesen analysierten Studien weitere herangezogen, die für die Analyse in Hinblick auf methodische Aspekte aufgrund der Auswahlkriterien nicht infrage kamen. Aus diesem Grund werden in den nachfolgenden Abschnitten auch Quellen zitiert, die in Abschnitt 2.2 nicht berücksichtigt werden.

Die Ergebnisse der Studien zu Relevanzkriterien lassen sich chronologisch anhand ihrer Veröffentlichung in allgemeine Kriterien (Abschnitt 2.1.1) und Kriterien im Kontext der Websuche (Abschnitt 2.1.2) gruppieren, da in frühen Studien, insbesondere in denen der 1990er Jahre, anhand von offenen Forschungsfragen sehr allgemein untersucht wurde, welche Kriterien bei der Relevanzbewertung auftreten; später wuchs mit dem Aufkommen elektronisch zugänglicher Inhalte über das WWW das Forschungsinteresse nach den Kriterien bei der Websuche, die insbesondere durch Autorität und Glaubwürdigkeit gekennzeichnet sind, unabhängig von dem Kontext der gesuchten Informationen (Abschnitt 2.1.2.1). In diesem Zusammenhang kann Popularität als Indikator für Qualität eine besondere Bedeutung zugesprochen werden. Zum Zeitpunkt der Erfassung dieses Forschungsstands gibt es allerdings keine Studien zu Relevanzkriterien in textbasierten IR-Systemen, die Popularität als Kriterium bei der Bewertung explizit berücksichtigen. Aus diesem Grund beschränkt sich Abschnitt 2.1.2.2 auf die Erläuterung des Konzepts der Popularität und gibt den theoretischen Rahmen für die Betrachtung der Studien zu Relevanzkriterien in den nachfolgenden Abschnitten 2.1.3 und 2.1.4 vor: Die Konzepte Autorität und Popularität lassen sich auf die Relevanzbewertung in akademischen Suchsystemen (z. B. Websuchmaschinen mit wissenschaftlichen Inhalten, fachdisziplinspezifische oder fachübergreifende Datenbanken) übertragen (Abschnitt 2.1.3).

Anhand welcher Kriterien Nutzerinnen und Nutzer bewusst oder unbewusst ein Informationsobjekt bewerten, sollte stets im Zusammenhang mit den vorhandenen Attributen oder Eigenschaften des zu bewertenden Objektes untersucht werden. So zeigen Studien, dass der Titel und eine Zusammenfassung (Abstract) die wichtigsten Attribute für das Ableiten von thematischer Relevanz sind; Kriterien und deren Gewichtung bei der Relevanzbewertung sind nach der Art (und somit auch des Umfangs) des Bewertungsgegenstands nicht immer dieselben, wenngleich ähnlich (Saracevic, 2016b, S. 58). Daher ist es ebenfalls erforderlich zu präzisieren, ob die Relevanzbewertung auf der Bewertung des Surrogats oder des Volltexts beruht. Watson (2014) nimmt eine Einteilung von Relevanzkriterien in Kriterien vor dem Zugang (pre-access criteria of relevance) und Kriterien nach dem Zugang (post-access criteria of relevance) zu einem Volltext-Dokument vor. Diese Art der Unterscheidung impliziert jedoch, dass eine klare Trennung der Kriterien vor und nach dem Zugriff auf den Volltext ohne eine mögliche Überschneidung vorgenommen werden kann.

Eine alternative Unterscheidungsart, die ebenfalls den Gegenstand und somit auch den Zeitpunkt der Bewertung berücksichtigt, stellt die Einteilung der Art der Relevanzbewertungen in predictive judgments und evaluative judgmentsFootnote 3 dar: Die Relevanzbewertung erfolgt entweder anhand des Surrogates und somit vor dem Zugang zum Volltext (predictive judgment) oder auf der Basis des Dokumenteninhalts nach dem Zugang zum Volltext (evaluative judgment) (Rieh, 2002). Nicht alle Studien zu Relevanzkriterien nehmen eine Unterscheidung zwischen predictive judgments und evaluative judgments vor, wie es bei beispielsweise bei Rieh (2002) der Fall ist. In wenigen Studien wird die Tatsache berücksichtigt, dass der Zeitpunkt der Bewertung (vor oder nach dem Zugang zum Volltext) zugleich Aufschluss über das Aussehen und den Umfang der Grundlage der Relevanzbewertung und somit über die Grundlage für die Ableitung oder Bildung von Relevanzkriterien gibt. Vor diesem Hintergrund sind Surrogate als Bewertungsgrundlage von besonderem Interesse (Abschnitt 2.1.4), denn diese enthalten mitunter Informationen, die beispielsweise auf die Popularität des repräsentierten Werkes hindeuten sollen und somit bei der Bildung von predictive judgments eine Rolle spielen können.

2.1.1 Allgemeine Kriterien

Thematische Relevanz gilt übereinstimmend als Grundbedingung für Relevanz (Cosijn & Ingwersen, 2000; Greisdorf, 2003; A. R. Taylor et al., 2007; Wang & Soergel, 1998; Xu & Yin, 2008) und als Basis für diverse weitere Kriterien, die auf ebendieser aufbauen:

All relevance judgments start with topically relevant materials (which is an appropriate first step of systems), but then diverse criteria come into play operating dynamically in a process in which certain citations are rejected or accepted on one or more criteria (Froehlich, 1994, S. 129).

Thematische Relevanz (topical relevance, subject relevance) kennzeichnet die Beziehung zwischen dem Thema einer Suchanfrage und dem Thema des gefundenen Informationsobjekts (Saracevic, 1996). Dabei sind die Begriffe nicht zu verwechseln mit der Bezeichnung subjective relevance, die auf die subjektive Sichtweise von Relevanz abzielt. Hjørland (2010) verortet topicality eindeutig auf der Seite der Nutzer (user’s view) und nicht auf der Seite des Systems (system’s view).

Das Konzept von AboutnessFootnote 4 ist in diesem Zusammenhang von zentraler Bedeutung, weil es aus systemseitiger Sicht gleichgesetzt wird mit objektiver Relevanz – ein Dokument ist objektiv relevant zu einer Suchanfrage, wenn es von dem Inhalt der Suchanfrage handelt –, obwohl der Begriff Relevanz in diesem Zusammenhang unangemessen ist (Harter, 1992).

Aboutness und Relevanz sind zwar verwandte Konzepte, unterscheiden sich aber dahingehend, dass sich Aboutness auf Fachgebiete oder Themen bezieht, Relevanz auf ein (Informations-)Problem – „The fundamental notion in organization of information is aboutness, while the fundamental notion in searching is relevance“ (Saracevic, 2012, S. 58). Aboutness ist im Gegensatz zu Relevanz nicht dynamisch und kann für ein Dokument unabhängig von einer Suchanfrage oder einem Informationsbedürfnis bestimmt werden. Das bedeutet: „Documents can, however, have the same subject (or the same aboutness) without having the same relevance“ (Hjørland, 2001, S. 777).

Vor diesem Hintergrund führt Borlund (2003b) den Begriff intellectual topicality ein, der sich von der als algorithmisch oder objektiv bestimmten Relevanz aus Systemsicht von der intellektuell bestimmten thematischen Relevanz durch den Menschen klar abgrenzt. In ihrer Studie greifen Xu & Chen (2006) auf eine ähnliche Unterscheidung zurück und definieren topicality nicht als thematische Relevanz, sondern als Eigenschaft des Dokuments und somit im Sinne von Aboutness:

In this study, topicality is regarded as a document attribute rather than relevance itself; the term relevance refers to the portion of the relevance continuum beyond topicality; it encompasses both cognitive and situational relevance. We define it as the perceived cognitive and pragmatic impact of the content of a document in relation to the user’s problem at hand. (Xu & Chen, 2006, S. 962)

Studien zu Relevanzkriterien zeigen, dass Menschen für ihre Relevanzbewertungen eine Vielzahl an Kriterien identifizieren, die über die thematische Relevanz hinausgehen. Saracevic (2016b) gibt einen Überblick über 21 empirische Studien zu Relevanzkriterien, die er in sieben Kategorien und zwei Gruppen zusammenfasst (Tabelle 2.2): Content, Object, Validity im Zusammenhang mit den Eigenschaften des Informationsobjekts; Usefulness or situational match, Cognitive match, Affective match, Belief match im Zusammenhang mit den Eigenschaften der informationssuchenden Person. Dabei fügt er unter anderem topic, quality, depth, scope als Relevanzkriterien der Kategorie Content hinzu. Qualität als eigenständiges Relevanzkriterium ist allerdings sehr zu hinterfragen, weil es wesentlicher breiter gefasst ist als beispielsweise scope und dies zu der Frage führt, anhand welcher Kriterien wiederum die Qualität des Informationsobjekts beurteilt wird. Xie & Benoit (2013) ordnen hingegen scope und depth der thematischen Relevanz zu.

Tabelle 2.2 Relevanzkriterien aus Saracevic (2016b, S. 57 ff.)

Des Weiteren betont Saracevic (2016b) die Interaktion zwischen den jeweiligen Kriterien, d. h. Relevanzkriterien können nicht getrennt voneinander betrachtet werden. Die von ihm vorgestellten Studien wurden zwischen 1990 und 2015 veröffentlicht, unter ihnen sind die bedeutenden Arbeiten von Barry und Schamber (Barry, 1994, 1998; Barry & Schamber, 1998; Schamber, 1991; Schamber & Bateman, 1999), die einen wichtigen Grundstein für nachfolgende Studien zu Relevanzkriterien lieferten.

Barry & Schamber (1998) verglichen die Ergebnisse ihrer empirischen Studien zu den Kriterien, nach denen Testpersonen die Relevanz eines Dokuments bewerteten, miteinander. Auf Basis von Inhaltsanalysen der Interviews von 18 (Barry, 1994) bzw. 30 Testpersonen (Schamber, 1991) entwickelten sie jeweils 23 bzw. 10 Kategorien von Kriterien und verglichen diese nach der Häufigkeit ihrer Nennung in den Interviews. Sie gelangten zu der Schlussfolgerung, dass Relevanzbewertungen abhängig sind von der individuellen Wahrnehmung der jeweiligen Person bezüglich ihres Informationsproblems und ihrer Informationsumgebung. Dabei sind etliche Relevanzkriterien zusätzlich zum Inhalt des Informationsobjekts von Bedeutung, wie beispielsweise Validität, Aktualität, Verfügbarkeit und Vertrauenswürdigkeit der Informationsquelle (Barry & Schamber, 1998). Als besonders wichtiges Ergebnis aus diesem Studienvergleich ist die Tatsache zu nennen, dass Barry und Schamber zwei verschiedene Nutzergruppen in unterschiedlichen Kontexten (Studierende im akademischen Kontext bzw. Personen im berufsbezogenen Kontext) untersuchten und sich herausstellte, dass sich die verwendeten Relevanzkriterien bei den Gruppen überschneiden. Dies lässt die Schlussfolgerung zu, dass es eine begrenzte Menge an Kriterien (a finite range of criteria) gibt, die universell wirken und je nach Kontext entsprechend angepasst werden (Barry & Schamber, 1998, S. 234).

Insgesamt benennen die bisherigen Studien sehr viele verschiedene Kriterien, die zusammengenommen eine eher unübersichtliche Menge darstellen. Anhand der Zahl der verwendeten Relevanzkriterien wird erneut die Komplexität des Relevanzbewertungsprozesses deutlich (Beresi, 2011). Um dieser Vielzahl systematisch zu begegnen, entwickelten Xu & Chen (2006) ein Fünf-Faktoren-Modell von Relevanz (five-factor model of relevance), bei dem es sich jedoch vielmehr um ein Kriterien-Modell handelt. Diese fünf Kriterien bezeichnen die Autoren als Schlüsselkriterien: topicality, novelty, reliability, understandability, scope. Zu beachten ist hier, dass topicality und scope nicht gleichgesetzt, sondern als sich ergänzende Kriterien aufgezählt werden.

Die in diesem Abschnitt vorgestellten Kriterien können als universell geltende Kriterien betrachtet werden. Allerdings kommt manchen Kriterien eine besondere Bedeutung bei der Bewertung von Suchergebnissen während der Websuche zu, daher werden sie nachfolgend in einem eigenen Abschnitt näher erläutert.

2.1.2 Kriterien im Kontext der Websuche

Bei den Studien, die nach der Jahrtausendwende veröffentlicht wurden, fällt auf, dass sich der Forschungsfokus von der Identifizierung allgemeiner Relevanzkriterien entfernt und auf spezielle oder einzelne Kriterien in einem bestimmten Kontext richtet. Manche Studien zu Relevanzkriterien berücksichtigen gezielt den Kontext der Websuche, wie beispielsweise die Studie von Tombros, Ruthven, & Jose (2003, 2005), für die 24 Testpersonen die Nützlichkeit (usefulness) von Webseiten bewerteten, und neben dem Inhalt der Webseiten deren Struktur (z. B. Layout) als wichtiges Kriterium für die Auswahl ermittelt wurde. Savolainen & Kari (2006) untersuchten Kriterien für die Auswahl von Hyperlinks und Webseiten, indem sie Videoaufnahmen von 9 Testpersonen bei der Websuche und unter Nutzung der Think-aloud-MethodeFootnote 5 auswerteten. Diese Studien konnten zeigen, dass auch für das Aufrufen von Webseiten thematische Relevanz als Hauptkriterium gesehen werden kann.

Rieh & Belkin (1998) argumentieren, dass durch die enorme und vor allem dynamische Menge an Informationsobjekten ein vollständiger Recall im Web nicht möglich ist, sodass sehr viele Informationen gefiltertFootnote 6 werden müssen, die oft keiner Qualitätskontrolle (wie beispielsweise dem Peer Review bei wissenschaftlichen Publikationen) unterzogen wurden. Daher gelten neben thematischer Relevanz insbesondere im Kontext der Websuche die Kriterien der Qualität und Autorität. Rieh & Belkin (1998) wollten herausfinden, wie Menschen die Informationsqualität und Autorität von Informationen im Web bewerten und ob sie im Web andere Kriterien dabei anwenden als in traditionellen IR-Systemen. Auf der Basis von Interviews mit 14 Wissenschaftlerinnen und Wissenschaftlern identifizierten sie Autorität als zugrundeliegendes Konzept für die Glaubwürdigkeit einer Quelle im Web.

Da die Beurteilung von Autorität, Vertrauenswürdigkeit und Glaubwürdigkeit ausschließlich auf den individuellen Erfahrungen, dem Wissensstand und den persönlichen Überzeugungen der informationssuchenden Person beruhen (Rieh, 2009), stellen sie ebenfalls ausschließlich subjektive Relevanzkriterien dar. Diese werden in dem nachfolgenden Abschnitt 2.1.2.1 näher betrachtet. Daran anschließend wird in Abschnitt 2.1.2.2 das Konzept der Popularität beleuchtet, welches insbesondere bei der Websuche einen einflussreichen Faktor darstellt.

2.1.2.1 Glaubwürdigkeit und Autorität

Rieh (2009) definiert Glaubwürdigkeit (credibility) als „people’s assessment of whether information is trustworthy based on their own expertise and knowledge“ (S. 1338). Xu & Chen (2006) betonen, dass Glaubwürdigkeit (credibility) nicht gleichzusetzen ist mit Zuverlässigkeit (reliability) – „the credibility of the source can be regarded as an external cue of document reliability […], we define reliability as the degree to which the content of a retrieved document is perceived to be true, accurate, or believable“ (Xu & Chen, 2006, S. 964).Footnote 7

Wathen & Burkell (2002) beleuchten in ihrem Literaturüberblick die Faktoren Glaubwürdigkeit und Vertrauenswürdigkeit (credibilityFootnote 8) von Informationsobjekten während der Websuche und betrachten Vertrauenswürdigkeit im Zusammenhang mit kognitiver Autorität (cognitive authority).

Das Konzept der kognitiven Autorität in der Informationswissenschaft wurde geprägt durch Patrick Wilson (1983)Footnote 9. Er beschreibt, dass Menschen sich auf zwei Arten Wissen aneignen – einerseits aus der eigenen Erfahrung, andererseits aus dem durch andere Personen erfahrenen Wissen, was er als „second-hand knowledge“ bezeichnet. Dabei gelten nur die Personen als glaubwürdig, deren Aussagen als wahr bzw. richtig anerkannt werden. Wenn diese Personen durch ihre Aussagen das Denken und Handeln anderer Personen beeinflussen, handelt es sich um kognitive Autoritäten: „The person whom I recognize as having cognitive authority is one whom I think should be allowed to have an influence on my thinking“ (P. Wilson, 1983, S. 14). Olaisen (1990) ergänzt: „Others who are not cognitive authorities may also influence me. The difference between them and the cognitive authorities is that I recognise the latter’s influence as proper and the former’s as not proper“ (Olaisen, 1990, S. 94).

Kognitive Autorität beinhaltet im Kern die beiden Konzepte Vertrauenswürdigkeit und Expertise bzw. Kompetenz (Rieh & Danielson, 2007, S. 312). Je höher der (wahrgenommene) Grad der Expertise einer Person (z. B. eines Autors), desto höher ist ihr Ansehen, was wiederum eine höhere Qualität der von dieser Person stammenden Information (z. B. in einem wissenschaftlichen Artikel) impliziert.

Abbildung 2.1
figure 1

Unterscheidung zwischen wahrgenommener Qualität, Glaubwürdigkeit und kognitiver Autorität von Informationen

Allgemein können die Konzepte Glaubwürdigkeit und Autorität als eng miteinander verknüpft verstanden werden. Dennoch stellt sich die Frage, ob Glaubwürdigkeit als Basis für kognitive Autorität dient oder ob kognitive Autorität das grundlegende Konzept hinter Glaubwürdigkeit darstellt, wie Rieh & Belkin (1998) schreiben.

Rieh & Danielson (2007) stellen in ihrem ausführlichen Literaturüberblick die Zusammenhänge von Glaubwürdigkeit und verwandten Konzepten wie Qualität, Autorität, Vertrauen und Persuasion dar und zeigen auf, dass Glaubwürdigkeit als multidisziplinäres Framework zu verstehen ist, denn nicht nur in den informationswissenschaftlichen Bereichen Informationssuche und IR dient dieses Konzept als Forschungsgegenstand, sondern beispielsweise auch in den Medienwissenschaften, Gesundheitswissenschaften und der Kaufverhaltensforschung. Die Autoren erläutern, dass Informationen, die als glaubwürdig beurteilt werden, eine Teilmenge von Informationen sind, die als qualitativ hochwertig wahrgenommen werden und verorten Informationen, von denen informationssuchende Personen kognitive Autoritäten ableiten können, als Teilmenge von glaubwürdigen Informationen (Rieh & Danielson, 2007, S. 345). Abbildung 2.1 veranschaulicht diese Einteilung von Informationen in einzelne Teilmengen.

Die Arbeit von Olaisen (1990) betraf zwar nicht den Kontext der Websuche, ist aber vermutlich die erste empirische Studie, die explizit auf kognitive Autorität und Glaubwürdigkeit von elektronischen Informationen bei der Informationssuche abzielt (Rieh & Danielson, 2007, S. 317). Olaisen (1990) untersuchte die Faktoren zur Beurteilung von Informationsqualität von Personen im Finanz- bzw. Versicherungssektor Norwegens mithilfe von Fragebögen und Interviews. Das Ergebnis besteht unter anderem aus einem Ranking der fünf Faktoren, die einer Quelle kognitive Autorität zuschreiben: Glaubwürdigkeit im Sinne von Vertrauenswürdigkeit, Relevanz, Zuverlässigkeit, Validität und Bedeutung über die Zeit hinaus (Olaisen, 1990, S. 119). Zu beachten ist hierbei die Nennung von Relevanz als Faktor auf einer Ebene mit Vertrauenswürdigkeit und Zuverlässigkeit, was den Erkenntnissen der informationswissenschaftlichen Forschung zu Relevanz als Konzept und Relevanzkriterien widerspricht – werden doch Vertrauenswürdigkeit, Zuverlässigkeit und Validität als Kriterien für die Bewertung von Relevanz erachtet (vgl. Abschnitt 2.1.1).

Rieh (2002) untersuchte, wie Menschen Qualität und kognitive Autorität bei der Websuche evaluieren. Sie argumentiert, dass Menschen die Qualität und Autorität von gedruckten Materialien im Gegensatz zu Dokumenten im Web generell leichter beurteilen könnten, weil ihnen Wissen aus langjährigen Erfahrungen über traditionelle Informationsquellen zur Verfügung stünden, um die ihnen bekannten Indikatoren für Qualität (z. B. redaktionelle Auswahl) und Autorität (z. B. Autoren, Verlage) heranziehen zu können. Für Informationen im Web würden diese Indikatoren nicht in demselben Maß gelten, da die Inhalte vor Veröffentlichung nicht zwingend eine Qualitätskontrolle (im Gegensatz zu wissenschaftlichen Artikeln in seriösen Fachzeitschriften) durchlaufen. Auch Daten über die Verantwortlichen des Inhalts (z. B. im Impressum eines Webauftritts) könnten fehlerhaft sein. Zur Überprüfung bzw. Bewertung von Qualität und Autorität im Web müssten informationssuchende Personen einen höheren Aufwand betreiben als in anderen Information Retrieval-Systemen (Rieh & Belkin, 1998).

Rieh folgte R. S. Taylor (1986) in der Definition von Informationsqualität, nach der Qualität ein Nutzerkriterium ist und bestimmte Werte (values) beinhaltet: Richtigkeit (accuracy), Vollständigkeit (comprehensiveness), Aktualität (currency), Zuverlässigkeit (reliability) und Gültigkeit (validity). Diese Werte sind größtenteils schwer bestimmbar, denn „we tend to be suspicious of a system or a package which needs to advertise its reliability or its accuracy by words only. These are characteristics earned over time and by reputation“ (R. S. Taylor, 1986, S. 62). Für ihre Studie operationalisierte Rieh (2002) allerdings das Konzept von Qualität unter Hinzunahme von NützlichkeitFootnote 10 und verwendet damit – ähnlich wie Olaisen (1990) den Begriff Relevanz – ein Konzept, das sich von den anderen, als Kriterien der Relevanzbewertung, in seiner Bedeutung unterscheidet:

At an operational level, information quality is identified as the extent to which users think that the information is useful, good, current, and accurate. Cognitive authority is operationalized as to the extent to which users think that they can trust the information. (S. 146)

Rieh untersuchte den interaktiven IR-Prozess im Web mithilfe von menschlichen Jurorinnen und Juroren, die auf Basis ihrer eigenen Suchanfragen zu vier verschiedenen Aufgaben Webseiten evaluierten. Die Aufgabenbeschreibungen enthielten Formulierungen über die gewünschten relevanten Suchergebnisse entsprechend der operationalisierten Definition von Qualität und Autorität, wie „good papers“, „useful information“, „credible information“, „best price“ (Rieh, 2002, S. 149):

(1) For the research project in which you are currently engaged, you would like to find some good papers which are new to you, which you think will be useful (research task).

(2) You are planning for the next conference that you are going to attend, and would like to find useful information about hotels, restaurants, and features of interest in that city (travel task).

(3) A friend of yours has just been diagnosed as having schistosomiasis, and you want to find credible information about the disease itself, and the best methods of treatment (medicine task).

(4) You’ve decided that you want to buy a new computer to use at home, and now you need to find the best price for it (computer task).

Obwohl die Begriffe Relevanz oder relevant in den Aufgabenstellungen nicht auftauchen, ist das Gesamtkonzept von Relevanz impliziert durch Kriterien wie Güte und Vertrauenswürdigkeit. Nützlichkeit (usefulness) wird für die Aufgabe (2) verwendet, welche konkrete faktenorientierte Antworten außerhalb eines akademischen Kontexts verlangt. Für die Aufgabe (1) im akademischen Kontext hingegen wird Güte als Kriterium genannt, während die Aufgabe (3) auf vertrauenswürdige Informationen im Gesundheitsbereich abzielt und Aufgabe (4) als navigations- bzw. transaktionsorientierte Suche verstanden werden kann, weil nur der beste Preis gefunden werden soll (im Gegensatz zu beispielsweise den besten drei Preisen).

Die Daten wurden mittels qualitativer Befragungsverfahren (Think-Aloud-Protokollen, Anschlussinterviews) und einer technikgestützten Beobachtung (Logfiles der Suchsitzungen) erhoben. An der Studie nahmen 16 Fakultätsangehörige bzw. Promovierende teil. Es wurden die Daten von 15 Teilnehmenden ausgewertet, die zu insgesamt 1.321 evaluierten Webseiten vorlagen.

Die Erkenntnisse ihrer Studie fasst Rieh (2002) in einem Modell zur Bewertung der Informationsqualität und kognitiven Autorität (Model of Judgment of Information Quality and Cognitive Authority) im Kontext der Websuche zusammen (Abbildung 2.2). In dem Modell wird der Bewertungsprozess als zentraler Aspekt im gesamten interaktiven Prozess der Informationssuche im Web hervorgehoben, wobei dieser aus mehreren Iterationen von predictive judgments (Bewertung von Suchergebnissen) und evaluative judgments (Bewertung der Webseiten) bestehen kann.

Abbildung 2.2
figure 2

Modell zur Bewertung der Informationsqualität und kognitiven Autorität (übersetzt aus Rieh, 2002, S. 158)

Das Modell stellt den Zusammenhang zwischen den Kriterien Informationsqualität und kognitiver Autorität und deren vielfältige Facetten im Kontext verschiedener Faktoren wie Aufgabe, Nutzerwissen sowie den Attributen (Charakteristika) der zu bewertenden Informationsobjekte und Quellen her. Positiv hervorzuheben ist, dass dabei zwischen den Zeitpunkten der Bewertung bzw. der damit einhergehenden Bewertungsgrundlage (Suchergebnis oder Webseite) explizit unterschieden wird, wobei ein direkter Zusammenhang zwischen der Bewertungsgrundlage und den Kriterien hergestellt wird. So unterscheidet Rieh die Eigenschaften von Informationen im Web anhand zweier Kategorien: (a) Eigenschaften des Informationsobjekts (Charakteristika von Informationsobjekten) sind der Typ, Titel, Inhalt, die Organisation/Struktur, Präsentation, Abbildungen und Funktionalität; (b) zu den Eigenschaften der Quelle (Charakteristika von Quellen) zählen die URL-Domäne, der Typ, die Reputation der Quelle, Referenzen zu Autor/Urheber und ob es sich um die Arbeit einer einzelnen Person oder mehrere Personen als Kollektiv handelt. Zugleich wird eine klare Trennung bei der Zuweisung zu den Kriterien vorgenommen: Anhand der Eigenschaften des Informationsobjekts beurteilen informationssuchende Personen die Informationsqualität, die Eigenschaften der Quelle dienen als Basis für die Bewertung der kognitiven Autorität.

Allerdings zeigen die Studienergebnisse, dass die Bewertung der Informationsqualität und kognitiven Autorität stark aufgabenabhängig war. Informationsqualität scheint von größerer Bedeutung bei den Aufgaben zu dem Forschungsprojekt und dem Computerkauf gewesen zu sein, kognitive Autorität hingegen bei der medizinischen Aufgabe (Rieh, 2002, S. 151). Aufgrund der relativ kleinen Stichprobe (n = 15) wären jedoch weitere Untersuchungen notwendig, um aussagekräftige Ergebnisse zu erhalten.

Riehs Modell zeigt auf, anhand welcher Hinweise bzw. Merkmale eines Suchergebnisses während der Websuche dessen Qualität und kognitive Autorität abgeleitet werden. Zu unterscheiden sind dabei die Erwartungen an die eigentliche Webseite, die sich in Form der predictive judgments ausdrücken, und die tatsächliche Evaluierung der aufgerufenen Webseite, im Rahmen derer überprüft wird, inwieweit die Erwartungen erfüllt wurden, d. h. das predictive judgment dem evaluative judgment entspricht. Rieh zieht folgende Schlussfolgerung aus den Ergebnissen ihrer Studie:

Web users would make their predictive judgments more effectively if they could see more clues that indicate the facets of information quality and cognitive authority. […] If information objects and sources on results page were more detailed, users would make better predictive judgments, and they would be less likely to have to return to the search results to open another page. This study confirms this, showing that information about sources at institutional (name or type of source) and individual (author/creator) levels could be very helpful for users who tend to make predictive judgments based on characteristics of sources. (2002, S. 159)

Erwartungen an ein Dokument auf Basis seines Surrogates hinsichtlich dessen Qualität werden bereits bei Wang & Soergel (1998) thematisiert. Sie weisen das Kriterium der erwarteten Qualität (expected quality) als geschätzte Güte eines Dokuments im Zusammenhang mit der Qualität eines Journals und einer Autorin oder eines Autors nach. Die Nutzung dieses Kriteriums ist zwangsläufig auf die Surrogatbewertung (predictive judgment) beschränkt, sie erfolgt „before consulting the full document“ und setzt dabei auf die Bewertung der thematischen Relevanz auf – „if the topic did not match, quality was not judged“ (Wang & Soergel, 1998, S. 123).

Hinweise für die Bewertung der kognitiven Autorität eines Textes sieht Olaisen (1990) in der kognitiven Autorität seiner Autorin oder seines Autors und in der Reputation des Verlags, die ebenfalls Elemente eines Surrogates darstellen und entsprechende Kenntnisse über die Autorin, den Autor und den Verlag voraussetzen.

Wenn eine informationssuchende Person jedoch nicht über die zur Beurteilung von Qualität, Glaubwürdigkeit und Autorität notwendigen Kenntnisse verfügt, stellt sich die Frage, anhand welcher Elemente sie die Glaubwürdigkeit von Informationsobjekten – bewusst oder unbewusst – ableitet. An dieser Stelle kommt das Konzept der Popularität zum Tragen: So simulieren Anbieter von Suchsystemen über Popularität die Glaubwürdigkeit ihrer Suchergebnisse, indem sie Popularitätsfaktoren in ihre Rankingalgorithmen integrieren (Lewandowski, 2012). Im nachfolgenden Abschnitt wird das Konzept von Popularität als Indikator für die (erwartete) Qualität eines Suchergebnisses näher betrachtet. Aufgrund fehlender Studien zum Einfluss von Popularität auf die Relevanzbewertung, können zur Betrachtung entsprechende Erkenntnisse empirischer Studien nicht herangezogen werden.

2.1.2.2 Popularität als Indikator für Qualität

Das Konzept der Popularität im Kontext der Informationssuche lässt sich mit dem Konzept der Weisheit der Vielen (wisdom of crowds)Footnote 11 beschreiben: Das Wissen und die Erfahrungen von vielen können als bedeutsamer erachtet werden als das Wissen des Einzelnen; das bedeutet, je größer die Anzahl an Personen, die ein Dokument als relevant erachten, desto höher ist die Wahrscheinlichkeit, dass dieses Dokument für einen weiteren Einzelnen ebenfalls relevant ist. Obwohl diese Darlegung weder den hohen Grad an Subjektivität (Beziehung zum individuellen Informationsbedürfnis) noch die Kontextabhängigkeit von Relevanz aus nutzerbasierter Sicht berücksichtigt, kann das Konzept von Popularität in der Websuche als äußerst erfolgreich beurteilt werden: Seit der Einführung des PageRank-Verfahrens (Page et al., 1998) stellt es eines der grundlegenden Konzepte hinter dem Ranking bekannter Websuchmaschinen wie Google dar.

Im Zusammenhang mit dem Ranking in (wissenschaftlichen) Bibliothekskatalogen taucht das Konzept der Popularitätsfaktoren bereits bei Lewandowski (2009) auf und wird von Behnert & Lewandowski (2015) – inspiriert von Rankingfaktoren bei der Websuche – weiter vertieft, die beispielsweise Klickhäufigkeiten, Verweildauer, Nutzungshäufigkeiten und Zitationszahlen (im Gegensatz zu Impact-Kennzahlen wie der h-Index) als potenzielle Faktoren nennen. Diese Kennzahlen können als PopularitätsdatenFootnote 12 (popularity data) bezeichnet werden, wie es Richardson et al. (2010) im Zusammenhang mit dem Ranking von Suchergebnissen erstmals in ihrem 2005 angemeldeten US-Patent taten:

The Subject application relates to a system(s) and/or methodology that facilitate using popularity data to improve the ranking of objects and ultimately, to obtain more relevant search results. More specifically, the system and method involve tracking which objects have been viewed, visited, or accessed to determine a measure for each and using the measure or some function thereof to determine a popularity based ranking for each of the objects. (Richardson et al., 2010, Sp. 1)

Zudem wird deutlich, dass das Ranking anhand dieser Popularitätsdaten letztendlich auf die Verbesserung der Qualität abzielt, denn es ist das Ziel, „to improve or enhance the quality and/or accuracy of search results“ (Richardson et al., 2010, Sp. 2). Mithilfe solcher Popularitätsdaten wird die Reihenfolge, in der die Suchergebnisse präsentiert werden, beeinflusst und damit auch die Relevanzbewertung, ohne diese Daten der informationssuchenden Person explizit anzuzeigen. So konnten etliche Studien zeigen, dass Menschen die Suchergebnisse auf den obersten Trefferpositionen bevorzugen, weil sie dem Ranking von Suchmaschinen im Web viel Vertrauen entgegenbringen und sich zumeist darauf verlassen, dass die Ergebnisse mit der für sie höchsten Relevanz auf den ersten Positionen angezeigt werden (vgl. z. B. C. Barry & Lardner, 2011; Jansen & Spink, 2006; Pan et al., 2007; Schultheiß et al., 2018).

Als expliziter Bestandteil der Suchergebnisdarstellung sind Popularitätsdaten aus den sozialen Medien (Likes) und aus dem E-Commerce-Bereich bekannt, zum Beispiel die Sterne-Bewertungen (in Relation zur Anzahl der Produktrezensionen) bei Amazon.de und ähnlichen Online-Shops.Footnote 13

Die zum Zeitpunkt der Erfassung des Forschungsstands einzige bekannte Studie zu Relevanzkriterien, in der explizite Popularitätsdaten berücksichtigt und Popularität als Relevanzkriterium erachtet werden, ist die Tagebuchstudie von Albassam & Ruthven (2018). Diese Studie bezieht sich jedoch nicht auf Suchergebnisse eines textbasierten IR-SystemsFootnote 14: Im Zusammenhang mit der Auswahl von YouTube-Videos im Freizeitkontext operationalisieren die Autoren Popularität als die Anzahl von Aufrufen und Gefällt-mir-Anzeigen (Likes) und fanden heraus, dass das KriteriumFootnote 15 Popularität als Beurteilung der (vermuteten) Qualität genutzt wurde: „It could be noticed from some responses that participants predict some level of video’s quality based on its popularity. For example, ‘it had over 2 million views so I could safely assume it was a reliable link’…“ (Albassam & Ruthven, 2018, S. 72). Des Weiteren zeigte sich, dass viele der allgemeinen Kriterien, die aus früheren Studien zu Relevanzkriterien bekannt sind, ebenfalls unter den Kriterien zur Auswahl der Videos sind; dagegen konnten keine Hinweise auf Kriterien, welche die Autoren eher dem akademischen Kontext zuordnen wie beispielsweise Autorität, gefunden werden. Vor diesem Hintergrund stellt sich die Frage, inwiefern sich die Kriterien Glaubwürdigkeit, kognitive Autorität und Popularität generell auf die Suche nach und Bewertung von Surrogaten in akademischen Suchsystemen übertragen lassen.

2.1.3 Kriterien im Kontext akademischer Suchsysteme

Die in Abschnitt 2.1.1 vorgestellten, allgemein geltenden Kriterien sind auf den KontextFootnote 16 der Informationssuche in akademischen Suchsystemen übertragbar; auch hier bildet die Beurteilung der thematischen Relevanz die Basis der Relevanzbewertung. Die Bewertung von Suchergebnissen in akademischen Suchsystemen unterscheidet sich von der Bewertung während der Websuche, d. h. in allgemeinen Websuchmaschinen, dahingehend, dass die Suchergebnisse andere Informationen über das eigentliche Dokument in einer anders strukturierten Darstellungsform bieten, die den Bedürfnissen und Erwartungen der Zielgruppe (Personen mit einem Informationsbedürfnis im akademischen Kontext) eher entsprechen.

Es ist davon auszugehen, dass das Kriterium der Qualität einen besonderen Stellenwert im akademischen Kontext einnimmt. So wählten beispielsweise Rieh & Belkin (1998) sowie Rieh (2002) für ihre Untersuchungen zur Bewertung der Informationsqualität und kognitiven Autorität gezielt Wissenschaftlerinnen und Wissenschaftler als Grundgesamtheit aus unter der Annahme, dass diese sich mit größerer Wahrscheinlichkeit stärker als andere Bevölkerungsgruppen mit Informationsqualität und kognitiver Autorität auseinandersetzen dürften.

Qualität ist ein unentbehrliches Konzept in der Wissenschaft, das innerhalb und außerhalb des Wissenschaftssystems beachtet wird. Innerhalb der eigenen wissenschaftlichen Community bewerten Kolleginnen und Kollegen die Qualität von Publikationen und Forschungsanträgen im Rahmen des Peer Review, für die eigene Arbeit bewerten Forschende die Qualität von Publikationen anderer; außerhalb des Wissenschaftssystem beurteilen verschiedene Akteure aus Politik, Medien und Gesellschaft die Qualität wissenschaftlicher Forschung (Döring & Bortz, 2016, S. 84).

Für die Beurteilung wissenschaftlicher Güte gelten vier Qualitätskriterien, die Döring & Bortz (2016) im Zusammenhang mit Qualität in der empirischen Sozialforschung erläutern. Allerdings sind sie als „paradigmen- und disziplinübergreifend zu betrachten, müssen jedoch disziplin- und paradigmenspezifisch konkretisiert werden“ (S. 89–90): (a) inhaltliche Relevanz des Forschungsproblems in Hinblick auf die theoretische/wissenschaftliche Relevanz im einem bestimmten Forschungsfeld bzw. praktische Relevanz in der Anwendungsforschung, (b) methodische Strenge im wissenschaftlichen Forschungsprozess, (c) ethische Strenge hinsichtlich wissenschafts- und forschungsethischer Aspekte, (d) Präsentationsqualität in Hinblick auf die Dokumentation des Forschungsprozesses und Darstellung seiner Ergebnisse (Döring & Bortz, 2016, S. 89 ff.).

Vor diesem Hintergrund stellt sich die Frage, ob und in welcher Weise die Kriterien für Qualität in der Wissenschaft als Relevanzkriterien bei der Bewertung von Suchergebnissen in akademischen Suchsystemen herangezogen werden können. Hjørland & Christensen, (2002) sehen einen direkten Zusammenhang zwischen den Vorgaben innerhalb und außerhalb des Wissenschaftssystems und dem Kontext sowie der Situation einer informationssuchenden Person (situational relevance):

[T]he basic paradigms have been developed by the research institutions and universities where professionals are trained. Such institutions may be more or less depending on and indirectly influenced by financial support from outside sources. Those paradigms set the frames within which the situational relevance may be defined. They also influence the terminology, the research methodology, relevance criteria, the citation patterns, the publication – and the retrieval system. The more influential the view, the more dominating will its conceptualization and relevance criteria be. The dominating view looks “natural,” and minority conceptions tend to look strange and less professional. (Hjørland & Christensen, 2002, S. 962)

Studien zu Relevanzkriterien im akademischen Kontext bauen oft auf den Arbeiten von Barry und Schamber auf, deren Bedeutung bereits im Zusammenhang mit allgemeinen Kriterien betont wurde (vgl. Abschnitt 2.1.1). Barry (1994) führte Interviews mit 18 Studierenden bzw. Angehörigen des Lehrpersonals einer Universität aus fünf verschiedenen Fachbereichen durch: Geographie und Anthropologie, Psychologie, Englisch, Geschichte und Literatur. Sie ließ die Teilnehmenden Suchergebnisse in DIALOGFootnote 17 beurteilen, indem diese die Teile der Surrogate zu den Dokumenten, die sie näher betrachten wollten, markierten; im Anschluss wurden sie von der Forschungsleitung nach den Gründen für die Auswahl der markierten Elemente bzw. Bereiche befragt. Als Ergebnis der Datenauswertung gruppierte Barry 23 Kriterienkategorien und ordnete sie 7 Kriterienklassen zu (Tabelle 2.3). Unter ihnen finden sich neben dem Kriterium für Qualität (Source quality) auch Hinweise auf Kriterien der Autorität bzw. kognitiven Autorität (Source reputation/visibility, Relationship with author).

Tabelle 2.3 Kriterien aus der Studie von Barry (1994, S. 154)

Choi & Rasmussen (2002) verwendeten diese Kriterien als Vorlage zur Ermittlung einer Kriteriengewichtung, Tang & Solomon (2001) orientierten sich an den identifizierten Kriteriengruppen. Beresi et al. (2010) ließen für ihre Studie Versuchspersonen aus drei unterschiedlichen Fachdisziplinen/-bereichen (Informatik, Informationsmanagement, Pharmazie) Surrogate bewerten, um unter anderem mögliche Unterschiede zwischen den Personen der verschiedenen Fachdisziplinen bezüglich der Verwendung von Relevanzkriterien aufzudecken. Sie nutzten die von Barry (1994) und Barry & Schamber (1998) ermittelten Relevanzkriterien nach und stellten fest:

We can immediately observe that tangibility and depth/scope/specificity are the most mentioned criteria […] while participants from the School of Computing have a distinguishable preference for tangible data, members of the other two schools prefer other aspects of the information such as its depth, scope and specificity. Furthermore, we can also observe that members from all three schools share the same interest (in terms of proportions) for the novelty of the documents found. (Beresi et al., 2010, S. 202–203)

Zudem verweisen sie auf die Notwendigkeit der Kriterien als messbare Variablen und zeigen beispielhaft Möglichkeiten der Operationalisierung für die zwei häufigsten genannten Kriterien:

Relevance criteria are not theoretical concepts, but rather tangible and operationalising them can potentially impact positively on search services. […] If, and only if, we can measure them. Tangibility, may be approximated, for instance, by looking at the number of tables in a document, and depth/scope/specificity, by looking at the number of pages in a document (document length has been mentioned frequently as a relevance criteria [sic]). (Beresi et al., 2010, S. 206, Kursivdruck im Original)

Die oben beschriebenen vier Kriterien der wissenschaftlichen Qualität lassen sich in Gänze nur anhand des tatsächlichen Dokumenteninhalts ableiten, ein Surrogat hingegen kann zur Bewertung der erwarteten Qualität (vgl. Abschnitt 2.1.2.1) dienen. Stellvertretend für den Dokumenteninhalt beinhalten Surrogate in akademischen Suchsystemen heutzutage zusätzliche Elemente, anhand derer Relevanzkriterien bzw. Kriterien für die erwartete Qualität abgeleitet werden können. Diese zusätzlichen Elemente sind beispielsweise Popularitätsdaten (vgl. Abschnitt 2.1.2.2). Im akademischen Kontext können die Anzahl von Zitationen eines Werkes, einer Autorin oder eines Autors, die als Faktoren für die Qualität und wiederum die Glaubwürdigkeit gesehen werden können, als Popularitätsdaten dienen. Downloadhäufigkeiten oder Ausleihzahlen – wie speziell im Bibliothekskontext verankert – kommen als Indikatoren der Nutzungsintensität ebenfalls als Popularitätsdaten im akademischen Kontext infrage, auch wenn sie nicht explizit als Bestandteil der Suchergebnispräsentation angezeigt, sondern als Rankingfaktor in bibliothekarischen Informationssystemen herangezogen werden (Plassmeier et al., 2015).

Der Stellenwert solcher Popularitätsdaten, wie die Anzahl von Zitationen, ist jedoch vor dem Hintergrund des MatthäuseffektsFootnote 18 kritisch zu hinterfragen: Werke anerkannter Persönlichkeiten erlangen eine höhere Anerkennung bereits dadurch, dass ihre Autorinnen und Autoren eine gewisse Reputation besitzen. Die explizite Anzeige solcher zusätzlichen Informationen in Suchergebnissen akademischer Suchsysteme bewirkt möglicherweise, dass bereits viel zitierte Werke als qualitativ wertvoller beurteilt werden, obwohl die Beurteilung der tatsächlichen Qualität in Hinblick auf die oben genannten Kriterien der wissenschaftlichen Qualität auf der Basis des Dokumenteninhalts unter Umständen von der der erwarteten Qualität stark abweicht. Im besten Fall entspricht die erwartete Qualität voll und ganz der tatsächlichen Qualität, im schlechtesten Fall stimmt sie überhaupt nicht überein. Dass Diskrepanzen bei der Relevanzbewertung von Surrogaten und der Relevanzbewertung der dazugehörigen Volltexte durchaus vorkommen, zeigt die Studie von Lewandowski (2008) zur Retrieval-Effektivität von Websuchmaschinen unter Berücksichtigung von SnippetsFootnote 19, die als Surrogate der verlinkten Webseiten und anderer Dokumente dienen. Da Popularitätsdaten auf die Anzeige in Surrogaten begrenzt sind, bedeutet dies, dass Popularität als Relevanzkriterium im Zusammenhang mit predictive judgments zum Tragen kommt; jedoch ist nicht auszuschließen, dass Popularität auch das evaluative judgment beeinflusst.

Im Zusammenhang mit Qualität und kognitiver Autorität wurde zuvor bereits die Erkenntnis von Rieh (2002) zitiert, dass weitere, detailliertere Informationen, die einen Hinweis auf die zu erwartende Qualität eines Suchergebnisses liefern können, zu einem besseren predictive judgment führen (vgl. Abschnitt 2.1.2.1). Vor diesem Hintergrund werden im nachfolgenden Abschnitt Surrogate als Bewertungsgrundlage in Studien zu Relevanzkriterien (im akademischen Kontext) in den Fokus genommen.

2.1.4 Surrogate als Grundlage der Bewertung

In bibliothekarischen Informationssystemen werden Dokumente seit jeher anhand ihrer Metadaten zu den gedruckten Materialien repräsentiert. Diese Dokumentrepräsentationen (Surrogate) liefern somit allein durch die bibliographischen Angaben wichtige Merkmale für die erste Relevanzbewertung, die von einer informationssuchenden Person vorgenommen wird. Die Repräsentation von Dokumenten als Bewertungsgrundlage stellt einen wichtigen Aspekt in Studien zu Relevanzkriterien dar. In einigen von ihnen wurde gezielt die Verwendung von Relevanzkriterien zu unterschiedlichen Zeitpunkten, also vor und nach dem Zugang zum Volltext, untersucht (z. B. Crystal & Greenberg, 2006; Tang & Solomon, 2001). In Hinblick auf die Relevanzbewertung kann dahingehend zwischen predictive und evaluative judgments unterschieden werden – eine Einteilung von Bewertungen, die auf die entscheidungspsychologischen Arbeiten von Hogarth (1987) zurückgeht und bei Rieh (2002) Anwendung im Kontext der Websuche findet (vgl. Abschnitt 2.1.2.1).

In Bezug auf den Zeitpunkt der Bewertung erfolgt die erste Bewertung anhand des Surrogats, noch bevor die suchende Person entschieden hat, welche Auswahl sie hinsichtlich des Volltextaufrufs treffen wird:

In the model […], a predictive judgment guides a decision about what kind of action the user is going to take given multiple choices (alternatives). As a result of this judgment, a new Web page is presented to the user, and when she/he looks at it, an evaluative judgment is made. (Rieh, 2002, S. 146–147)

Mit ihrer Studie zeigte Rieh (2002), dass ein (positives) predictive judgment zu dem Aufrufen einer Webseite führt, anhand derer das evaluative judgment vorgenommen wird. Während der Bewertungen nannten die Teilnehmenden unter Anwendung der Methode des lauten Denkens verschiedene Schlüsselwörter, welche die Erwartungshaltung des predictive judgment bzw. die Gegebenheit des evaluative judgments ausdrücken:

The keywords and phrases that appeared often in the subjects’ predictive judgments included: “It would be a good search engine;” “It is likely to be good;” “It will give me reliable databases;” “It sounds like a generic name.” Note that the phrases indicate expectations, anticipations, and predictions regarding the page that the subjects decided to look at. (Rieh, 2002, S. 150; Kursivdruck im Original enthalten)

On the other hand, the keywords and phrases which appeared in the evaluative judgments included: “It turned out it wasn’t what I expected;” “I did find this article interesting;” “It looks scholarly;” “It seems to be a kind of authentic organization.” Here, the phrases indicate evaluations of the page based on the information presented within. (Rieh, 2002, S. 151; Kursivdruck im Original enthalten)

Diese Notwendigkeit zur Unterscheidung zwischen predictive und evaluative judgments sieht auch Taraborelli, (2008), der kritisiert, dass Studien zu Glaubwürdigkeit im Web bis dato die Rolle von predictive judgments vernachlässigen, obwohl eine Fülle an zentralen Hinweisen (proximal cues) im Web bestehen, anhand derer Informationsquellen ausgewählt werden. Solche proximal cues gelten als wesentliche Bestandteile für information scentFootnote 20 (Pirolli & Card, 1999), einer Kennzahl der wahrgenommenen Profitabilität einer externen Quelle vor ihrer Auswahl. Auch Rieh & Danielson (2007) betonen, dass Beurteilungen von Glaubwürdigkeit an menschliche Bewertungen gebunden sind und Attribute von Dokumenten lediglich Hinweise für solche Bewertungen liefern können. Da predictive judgments unabhängig davon, ob ein Dokument nach dessen Relevanz, Nützlichkeit, Glaubwürdigkeit oder Autorität zu beurteilen ist, auf den Elementen eines Surrogates beruhen, können sie lediglich Vermutungen oder Schätzungen über die tatsächliche – wenngleich immer noch subjektiv bewertete – Nützlichkeit, Relevanz oder Qualität darstellen, die erst mit den evaluative judgments der Dokumenteninhalte zu einem späteren Zeitpunkt verifiziert werden. Auch in traditionellen IR-Studien zur Evaluierung der Retrieval-Effektivität von Suchsystemen blieben predictive judgments lange unberücksichtigt, während der Fokus auf der Erhebung von evaluative judgments lag, ungeachtet dessen, dass predictive judgments einen integralen Bestandteil des Informationssuchprozesses darstellen (Lewandowski, 2008).

Neben Rieh (2002) unterscheiden auch Crystal & Greenberg (2006) und Tang & Solomon (2001) in ihren Studien explizit zwischen predictive judgments und evaluative judgments. Tang & Solomon (2001) legten beispielsweise für ihre Studie zur Wichtigkeit und Häufigkeit verwendeter Relevanzkriterien 90 Studierenden ein Surrogat inkl. Abstract und anschließend das Volltextdokument vor. Die Teilnehmenden sollten die von ihnen verwendeten Kriterien für die Auswahl der Volltexte nach deren Wichtigkeit beurteilen. Die Ergebnisse deuten darauf hin, dass die Relevanzbewertungen je nach Untersuchungsgegenstand (Abstract oder Volltext) auf unterschiedlich gewichteten Kriterien beruhen.

Tombros et al. (2005) und Savolainen & Kari (2006) fokussierten hingegen die Kriterien, die Nutzerinnen und Nutzer im Rahmen von evaluative judgments anwenden, im Gegensatz zu Balatsoukas & Ruthven (2012), die ausschließlich auf die Erhebung von predictive judgments abzielten. Für ihre Eye-Tracking-Studie gab es zwar weder Vorgaben hinsichtlich der Suchanfragen oder Informationsbedürfnisse noch zu dem verwendeten Suchsystem; ihre Analyse bezieht sich allerdings auf Suchergebnisse in Google. Die Autoren fanden einen Zusammenhang zwischen der Wahrnehmung von Surrogatkomponenten (Titel, Abstract und URL) und der Verwendung von 12 Relevanzkriterien (Balatsoukas & Ruthven, 2012, S. 1741):

  • Topicality

  • Scope

  • User Background

  • Quality

  • Tangibility

  • Resource Type

  • Affectiveness

  • Recency

  • Ranking

  • Serendipity

  • Format

  • Document Characteristics

Anhand dieser Kriterien wird erneut das Problem der fehlenden definitorischen und konzeptuellen Abgrenzung deutlich, zum Beispiel werden Ranking, Serendipity, User Background und Format als Kriterien betrachtet. Andere Studien konnten aufzeigen, dass diverse Aspekte die Relevanzbewertung in irgendeiner Weise beeinflussen; dennoch erscheint es wenig angemessen, die genannten Kriterien mit Topicality und Scope derselben Ebene zuzuweisen, vielmehr scheinen Kriterien wie Serendipity eine andere Ebene bzw. Bedeutungsdimension darzustellen.

Surrogate wurden auch in den Studien von Wang (1994), Howard (1994) und Maglaughlin & Sonnenwald (2002) als Bewertungsgrundlage gewählt, wenngleich der Begriff predictive judgments nicht verwendet wurde. Jede dieser Studien bezieht sich auf den akademischen Kontext.

Howard (1994) untersuchte Kriterien, die für die Operationalisierung von Pertinenz eine Rolle spielen und schlussfolgerte, „topicality appears to be more salient than informativeness“ (S. 184).

Maglaughlin & Sonnenwald (2002) fanden mithilfe von Interviews mit 12 Studierenden und einer Inhaltsanalyse 29 Kriterien und kategorisierten diese in sechs Gruppen (Abstract, Author, Content, Full Text, Journal, Participant), wobei inhaltsbezogene Kriterien der Gruppe Content die am häufigsten genannten Kriterien waren. Ähnlich zu der Identifizierung der Kriterien bei Balatsoukas & Ruthven (2012) zeigt sich auch hier eine unerwünschte Vermischung von Bedeutungsebenen unterschiedlicher Kriterien, wie beispielsweise Kriterien der Gruppe Participant im Vergleich mit den anderen Gruppen.

Die Arbeit von Wang (1994) wird im vorliegenden Abschnitt ausführlicher als andere Studien beleuchtet, da sie zwei wichtige Aspekte vereint: (1) Die Elemente eines Surrogats werden explizit erforscht und (2) die Auswahl von Dokumenten wird als ein Entscheidungsprozess basierend auf Kriterien und Merkmalen dargestellt, in welchem der Prozess der Relevanzbewertung mitinbegriffen ist. Diese Abgrenzung der Dokumentenauswahl von der Relevanzbewertung verweist auf den Unterschied zwischen Bewerten und Entscheiden; sie stellt eine wichtige Annahme und Voraussetzung für die experimentelle Erforschung von Relevanzkriterien dar und wird in Abschnitt 3.1.3 erneut aufgegriffen.

Für ihre Studie ließ Wang von 25 Teilnehmenden (Professoren und Professorinnen sowie Studierende der Agrarökonomie) Suchergebnisse aus DIALOG bewerten, nachdem die Teilnehmenden vorab ihre eigenen wissenschaftlichen Informationsbedürfnisse der Studienleitung im Rahmen von Interviews kommunizierten. Anhand der Informationsbedürfnisse wurden die Surrogate ermittelt und den Teilnehmenden zur Bewertung und Auswahl vorgelegt. Während dieses Prozesses wurden mithilfe der Methode des lauten DenkensFootnote 21 Aufnahmen erstellt, die für die Analyse herangezogen wurden. Das Ziel der Studie bestand unter anderem darin herauszufinden, welche Kriterien zur Bewertung bzw. Dokumentenauswahl herangezogen werden und welche Elemente eines Surrogats dabei eine Rolle spielen. Die Elemente eines Surrogats bezeichnet Wang (1994) als Dokumentinformationselemente (document information elements – DIEs), die sie folgender Einteilung unterzieht:

Descriptive DIEs give clues to topicality, orientation, subject area, novelty, and recency, which can be interpreted straightforwardly. These DIEs are title, abstract, descriptors, geographical location, and publication date. Inferential DIEs, however, were used to judge orientation, quality, authority, and relation/origin, and, occasionally, topicality and subject area. Their interpretations depend on the users’ personal knowledge and situation. Main inferential DIEs are author, author’s affiliation, journal, and document type. Some DIEs, such as author and journal, may serve as both descriptive and inferential information elements. More-experienced users tended to use both types of DIEs to judge the documents. Less-experienced users tended to use only descriptive DIEs and occasionally inferential DIEs. (Wang, 1994, S. 190–191; Kursivdruck im Original nicht enthalten)

Von den Kriterien, welche die ableitbaren Elemente (inferential DIEs) umfassen, stellte sich Autorität als ein Kriterium heraus, das von erfahreneren Teilnehmenden angewendet wurde; als weiteres Ergebnis wurde festgestellt, dass Titel und Abstract die zwei wichtigsten Elemente darstellen und dass anhand dieser die thematische Relevanz (topicality) hauptsächlich bewertet wurde. Allerdings ist aufgrund der geringen Anzahl an Untersuchungspersonen (n = 25) und der Homogenität dieser Gruppe hinsichtlich des fachlichen Hintergrunds (Professorinnen/Professoren und Studierende aus dem Department Agrarökonomie) nicht davon auszugehen, dass es sich diesbezüglich um eine allgemeingültige Aussage handeln kann. Vor dem Hintergrund entscheidungstheoretischer Erkenntnisse entwickelte sie ein Modell, welches den kognitiven Prozess der Dokumentauswahl ab der Sichtung der Suchergebnisse bis zur Entscheidung darüber, ob das Surrogat ausgewählt wird, darstellt (Abbildung 2.3).

Für die Entwicklung ihres Modells bezieht sich Wang (1994) unter anderem auf das von dem Psychologen Egon Brunswik (1952) entwickelte Linsenmodell (lens model) zur Entscheidungsfindung (auch cue theory). Das Linsenmodell besagt, dass Menschen zur Beurteilung eines Objekts, einer Variablen oder eines Kriteriums verschiedene Hinweise (cues) heranziehen und diese Informationen aggregiert betrachten – ähnlich wie eine optische Linse, die Licht bündelt, werden auch die Hinweisreize gebündelt. Wang (1994) nennt als Beispiele: „For example, disease (as a distal object or variable or criterion) can be judged by a series of symptoms (cues). Weather can be predicted by temperature, wind speed, and barometric pressure“ (S. 28). Im Prozess der Dokumentenauswahl sind demnach die Elemente des Surrogats die vom Menschen wahrgenommenen Hinweisreize, welche die Basis für die Auswahlentscheidung bilden. Diese Elemente werden unter Anwendung von verschiedenen Kriterien kognitiv verarbeitet und interpretiert. Dabei wird das individuelle Wissen herangezogen, z. B. über das Fachgebiet, Personen (Autor-, Herausgeberschaft), Organisationen (Körperschaft, Verlag), das Publikationsorgan (Zeitschrift).

Abbildung 2.3
figure 3

(nach Wang & Soergel, 1998)

Kognitives Modell zur Dokumentenauswahl

Wang (1994) legt in ihrem Modell elf Kriterien zugrunde, die in vorangegangen Studien, unter anderem von Linda Schamber und Carol Barry, ermittelt wurden (vgl. Abschnitt 2.1.1). Die Kriterien werden genutzt, um dem Dokument einen Wert zuzuweisen. Diese Zuweisung erfolgt anhand von Werten, die aus der volkswirtschaftlichen Theorie über das Konsumverhalten (consumer choice theory) übernommen sind. Die Theorie beruht auf der Annahme, dass das Kaufverhalten von fünf Werten (consumption values) beeinflusst wird: functional value, conditional value, social value, emotional value und epistemic value (Sheth et al., 1991, S. 160). Diese Werte überträgt Wang auf den Prozess der Dokumentenauswahl. Sie argumentiert, dass informationssuchende Personen – in Analogie zu Menschen, die ein Konsumgut wählen – ein Dokument auswählen, wenn sie es als wertvoll im Sinne von nützlich empfinden. Die Nützlichkeit (utility) eines Dokuments definiert Wang im Rahmen ihrer Studie als „the potential that the document has to satisfy an information need as perceived by the user in the situation“ (Wang, 1994, S. 43). Nachfolgend sind die fünf Arten des Dokumentenwertes (document value/worth) aufgelistet (Wang & Soergel, 1998, S. 121–122):

  • Epistemic value – the perceived utility of a document to satisfy a desire for knowledge or information that is unknown […]

  • Functional value – the perceived utility of a document to make a contribution to the specific task at hand […]

  • Conditional value – the perceived utility of a document is yet to be decided circumstantially […]

  • Social value – the perceived utility of a document in association with specific social groups or with individuals such as academic advisor, famous figures in the field, etc. […]

  • Emotional value – the perceived utility of a document stemming from its capacity to arouse feelings or affective states […]

Im Anschluss an die Bewertung der Dokumente erfolgt die Entscheidung in drei Ausprägungen: (1) das Dokument wird akzeptiert, also ausgewählt, (2) das Dokument wird vielleicht zu einem späteren Zeitpunkt akzeptiert, es besteht Unsicherheit, (3) das Dokument wird abgelehnt, also nicht ausgewählt. Diese Entscheidungsprozesse werden von bestimmten Regeln geleitet (Montgomery, 1983; Svenson, 1979), mit dem Ziel, kognitiven Aufwand zu verringern. Für den Prozess der Dokumentenauswahl identifizierte Wang auf Basis bestehender Literatur sechs Entscheidungsregeln (Wang & Soergel, 1998, S. 127–128):

  1. 1.

    Elimination rule – to reject a document, the user looks for an aspect of the document that enables him/her to quickly reject a document […]

  2. 2.

    Multiple-criteria rule – as a contrast to elimination rule, the user applies several criteria to accept or reject a document […]

  3. 3.

    Dominance rule – of similar documents, the user selects the one document which excels in at least one aspect and is not worse in the other aspects […]

  4. 4.

    Scarcity rule – when the user wants more documents, but only a few are retrieved, he/she tends to apply less stringent criteria so that even marginal documents are accepted […]

  5. 5.

    Satisfice rule – when the user feels that enough documents on a topic or facet have been selected, he/she may stop accepting relevant documents or terminate the selection process on that topic or facet […]

  6. 6.

    Chain rule – when the user identifies documents that are on a special chain, he/she tends to make a collective decision on the set […]

Für die Beschreibung der Entscheidungsregeln greift Wang auf ein volkswirtschaftliches Modell (consumer choice theory) zurück, das davon ausgeht, dass Menschen ihre Entscheidungen logisch und rational treffen. Wang selbst weist darauf hin, dass diese Annahmen nicht der Realität entsprechen, wie insbesondere durch die Arbeiten von Tversky und Kahnemann (z. B. Tversky & Kahneman, 1974) gezeigt werden konnte.

Gleichwohl ist Wangs Arbeit für die hier beschriebene Forschung von besonderer Bedeutung, da die gezielte Betrachtung der Elemente eines Surrogats als Grundlage der vorgenommenen Bewertung und ihre Wahrnehmung für die Anwendung von Kriterien im Kontext akademischer Suchsysteme wesentlich ist für die Identifikation der Einflüsse auf die Relevanzbewertungen und ihre definitorische Abgrenzung, worauf Kapitel 3 im Rahmen der Voraussetzungen zur experimentellen Erforschung von Relevanzkriterien abzielt. Ferner zeigt sich anhand von Wangs Untersuchung ein besonderer Punkt, der für die Einordnung früherer Studien zu Relevanzkriterien und für die Erforschung von Relevanzkriterien anhand von predictive judgments zentral ist:

In den frühen Studien enthielten die zu bewertenden Surrogate die klassischen Metadaten, wie sie beispielsweise in der Studie von Wang (1994) den Teilnehmenden vorgelegt wurden. Abbildung 2.4 zeigt exemplarisch eines der Surrogate aus der Studie aus einer DIALOG-Online-Datenbank, das vermutlich aus dem Jahr 1992 stammt, da die Datenerhebung im Sommer 1992 erfolgte (Wang & Soergel, 1998, S. 119). Inzwischen hat sich die Gestaltung der Suchergebnisse und Suchinterfaces von Websuchmaschinen und anderen IR-Systemen nicht nur in Hinblick auf das Design und die Nutzerfreundlichkeit geändert. So sind heutzutage Popularitätsdaten wie die Anzahl der Zitationen und die Anzahl der Downloads eines Werkes ein integraler Bestandteil der Suchergebnisdarstellung in diversen akademischen Suchsystemen, wie beispielsweise in der fachübergreifenden Suchmaschine Google ScholarFootnote 22 (Abbildung 2.5), die bereits seit ihrer Einführung im November 2004 die Angabe „Cited by“ anbietet (Jacsó, 2005), oder in der fachspezifischen Digitalen Bibliothek der Association for Computing Machinery (ACM Digital Library)Footnote 23 (siehe Abbildung 2.6, Stand 2017 bzw. Abbildung 2.7, Stand 2020).

Exemplarisch für die klassische Darstellung von Surrogaten in wissenschaftlichen Bibliothekskatalogen zeigt Abbildung 2.8 einen Screenshot des Online-KatalogsFootnote 24 der Universitätsbibliothek Hildesheim; zusätzliche Daten wie Popularitätsdaten sind hier nicht integriert. Die Überprüfung einiger Kataloge wissenschaftlicher Bibliotheken in Deutschland durch die Autorin zeigt, dass diese zum Zeitpunkt der Erfassung des Forschungsstands keine Popularitätsdaten in die Suchergebnispräsentation ihrer Suchsysteme integriert haben.

Abbildung 2.4
figure 4

Surrogat aus DIALOG zu Beginn der 1990er Jahre (Wang, 1994, S. 85)

Abbildung 2.5
figure 5

Surrogat aus Google Scholar aus dem Jahr 2017

Abbildung 2.6
figure 6

Surrogat aus der ACM Digital Library aus dem Jahr 2017

Abbildung 2.7
figure 7

Surrogat aus der ACM Digital Library aus dem Jahr 2020

Abbildung 2.8
figure 8

Suchergebnisdarstellung im Online-Katalog der Universitätsbibliothek Hildesheim aus dem Jahr 2020

Auch in jüngeren Studien zu Relevanzkriterien, welche predictive judgments im akademischen Kontext erhoben, enthielten die Surrogate keine Popularitätsdaten. Eine Ausnahme bildet das von Bruza & Chang (2014) durchgeführte Experiment zur menschlichen Wahrnehmung der Relevanz von Dokumenten anhand von Surrogaten aus Google Scholar, inklusive der Anzahl an Zitationen als Popularitätsdatum. Die Autoren bezeichnen Relevanzkriterien als Dimensionen (dimensions) von Relevanz und führen beispielhaft die von Barry & Schamber (1998) identifizierten Kriterien an. Für ihr Experiment legten sie die folgenden sechs Dimensionen fest, von denen sie jeweils zwei anhand einer 4-Punkte-Skala durch Jurorinnen und Juroren pro Surrogat bewerten ließen: Topicality, Credibility, Understandability, Believability, Interest, Sentimentality (Bruza & Chang, 2014, S. 4,5). Die Ergebnisse implizieren, dass die Wahrnehmung der Relevanz von Snippets die kognitive Verarbeitung einer Vielzahl von Faktoren beinhaltet, zu denen die untersuchten Dimensionen (Kriterien) ebenfalls zählen. Welche Rolle einzelne Surrogatelemente, insbesondere die Anzahl der Zitationen, bei dieser kognitiven Verarbeitung spielen, wurde in dem Experiment weder gezielt untersucht noch ihr möglicher Einfluss auf die Relevanzwahrnehmung anerkannt.

2.1.5 Zusammenfassung

Bei der Suche nach relevanten Informationsobjekten in Suchsystemen wenden informationssuchende Personen verschiedene Kriterien an, anhand derer sie die Relevanz von Suchergebnissen in Form von Surrogaten oder Volltexten bewerten. Jahrzehntelange informationswissenschaftliche Relevanzforschung hat eine Fülle an verschiedenen Einflussfaktoren und Relevanzkriterien ermittelt. Dabei fällt auf, dass die Bezeichnungen der Kriterien und Faktoren zum Teil sehr verwirrend sind (Bales & Wang, 2006; Maglaughlin & Sonnenwald, 2002; Wang, 2010; Xu & Chen, 2006) und durch die synonyme Verwendung von Kriterienbegriffen, die jedoch auf demselben Konzept beruhen, wie beispielsweise currency, recency, novelty, timeliness (Maglaughlin & Sonnenwald, 2002), eine definitorische und konzeptuelle Abgrenzung der beiden Begriffe Kriterium und Faktor erschwert wird.

Studien zu Relevanzkriterien stellten übereinstimmend die thematische Relevanz als Basiskriterium fest, die anhand der Aboutness von Dokumenten abgeleitet werden kann. Darauf aufbauend kommen weitere Kriterien hinzu, wie beispielsweise Validität, Aktualität und Glaubwürdigkeit. Letztere nimmt insbesondere im Webkontext im Zusammenhang mit Autorität bzw. kognitiver Autorität einen besonderen Stellenwert ein, da Informationen und Inhalte im Web vor ihrer Veröffentlichung nicht immer eine Qualitätskontrolle durchlaufen, wie dies im akademischen Kontext beispielsweise im Rahmen des Peer Review bei Manuskripten vor der Publikation oder bei Forschungsanträgen der Fall ist. Qualität taucht ebenfalls in der Literatur auf – manchmal als beeinflussender Faktor und in anderen Studien als Kriterium bei der Relevanzbewertung – obwohl Qualität als Oberbegriff oder Kriterienkategorie zu verstehen ist. So können Glaubwürdigkeit und Vertrauenswürdigkeit als Indikatoren für die Qualität eines Dokuments dienen, die beispielsweise mithilfe von Popularität als Rankingfaktor in Websuchmaschinen ermittelt werden soll.

Das Konzept der Popularität beruht auf dem Prinzip der Weisheit der vielen und findet auch Anwendung in linkbasierten Ranking-Verfahren (z. B. PageRank). Nutzersignale wie die Anzahl von Klicks oder auch die Verweildauer stellen Popularitätsdaten dar, die ebenfalls in das Ranking miteinfließen, jedoch nicht als sichtbarer Bestandteil in die Suchergebnispräsentation integriert sind und dennoch die Relevanzbewertung beeinflussen. Allerdings gibt es Popularitätsdaten, die als sichtbarer Bestandteil in die Ergebnispräsentation moderner akademischer Suchsysteme integriert werden, wie die Anzahl von Zitationen bei Ergebnissen in Google Scholar oder zusätzlich die Downloadhäufigkeit eines Artikels in der ACM Digital Library. Demzufolge sind Surrogate mit zusätzlichen Daten wie Popularitätsdaten neben den erschließungstypischen Metadaten (Titel, Autor, Quelle, Erscheinungsjahr) als Grundlage der Relevanzbewertung von besonderem Interesse in Hinblick auf den möglichen Einfluss von Popularitätsdaten auf die Bewertung.

Die Ergebnisse früherer Studien zu Relevanzkriterien mit erhobenen Relevanzbewertungen auf der Basis von Surrogaten, also mithilfe von predictive judgments im Gegensatz zu evaluative judgments auf der Basis des vollständigen Inhalts, deuten darauf hin, dass Titel und Abstracts die meisten Hinweise für die Relevanzbewertung (Relevanzmerkmale) liefern. Diese früheren empirischen Studien zu Relevanzkriterien beruhen auf Surrogaten als Bewertungsgrundlage, die zu dem damaligen Zeitpunkt – wie es der Realität entsprach – keine Popularitätsdaten enthielten.

Aus diesem Grund stellt sich die Frage, inwieweit sich die Erkenntnisse zu den Kriterien, die Nutzerinnen und Nutzer akademischer Suchsysteme bei der Bewertung von Surrogaten anwenden, auf heutige Suchsysteme übertragen lassen. Bisher gibt es keine veröffentlichten Studien zu Relevanzkriterien auf der Basis von Surrogaten in akademischen Suchsystemen, die neben der Anzeige erschließungstypischer Metadaten mit zusätzlichen Daten wie Popularitätsdaten als (potenzielle) Relevanzmerkmale angereichert sind. Ob die Erkenntnisse aus diesen damaligen Studien zu Relevanzkriterien bei der Bewertung von Surrogaten im akademischen Kontext immer noch Gültigkeit besitzen, ist demzufolge unklar, wenngleich weiterhin von der thematischen Relevanz als Basiskriterium auszugehen ist.

2.2 Methoden zur Erforschung von Relevanzkriterien

Die vorliegende Arbeit beschäftigt sich mit den Kriterien, die informationssuchende Personen während der Interaktion mit einem Suchsystem der Relevanzbewertung anwenden. Relevanzkriterien werden dabei als rein subjektiv erachtet (vgl. 2.1). Das bedeutet, dass Relevanzkriterien nicht unabhängig vom Menschen untersucht werden können. Für die Erforschung von Relevanzkriterien ist die Verwendung sozialwissenschaftlicher Methoden sinnvoll, da sozialwissenschaftliche Methoden generell verwendet werden, um Sachverhalte, die das Erleben und Verhalten von Menschen betreffen, zu ergründen (Döring & Bortz, 2016, S. 4). Insbesondere die sozialwissenschaftliche Fachdisziplin der Psychologie erforscht menschliches Erleben und Verhalten mithilfe von empirischen Studien.

Zu unterscheiden sind bei empirischen Studien die Art des Untersuchungsdesigns und die Art der Datenerhebung. Bezüglich ihres Erkenntnisinteresses lassen sich empirische Studien als deskriptive, explorative und explanative Untersuchungsdesigns kategorisieren (Döring & Bortz, 2016, S. 192). Sozialwissenschaftliche Methoden der Datenerhebung lassen sich in fünf Gruppen unterteilen: (a) Befragung, (b) Beobachtung, (c) psychologischer Test, (d) physiologische Messungen und (e) Dokumentenanalyse. Bei allen Methoden kommen sowohl qualitative als auch quantitative Verfahren zum Einsatz, nur bei der physiologischen Messung gibt es ausschließlich quantitative Verfahren (Döring & Bortz, 2016, S. 312–577). Im Mittelpunkt stehen die Verfahren der Befragung und Beobachtung, die auch in der bibliotheks- und informationswissenschaftlichen Forschung am häufigsten Anwendung finden (Connaway & Radford, 2017, S. 17–19).

Die nachfolgenden Abschnitte betrachten Studien zu Relevanzkriterien aus methodischer Perspektive. Unterschieden werden diese nach der Art der Datenerhebung in Befragungen (Abschnitt 2.2.1) und Beobachtungen (Abschnitt 2.2.2) sowie nach der Art des UntersuchungsdesignsFootnote 25 in explorative (Abschnitt 2.2.3) und experimentelleFootnote 26 (Abschnitt 2.2.4) Studien. Die Erkenntnisse beruhen auf der Analyse von 47 informationswissenschaftlichen StudienFootnote 27 zu Relevanzkriterien. Ausgehend von publizierten Literaturschauen und den darin zitierten Quellen (z. B. Mizzaro, 1997; Saracevic, 2016b) wurden mittels backward chaining und forward chaining (Ellis, 1989) Studien, die zwischen 1988 und 2016 erschienen, für die Analyse ausgewählt. Da die Literaturschauen nur englischsprachige Quellen, insbesondere aus dem angloamerikanischen Raum, beinhalten, ist die Auswahl der Studien für die hier vorgestellte Analyse ebenfalls auf englischsprachige Publikationen beschränkt.

Die Auswahl der Studien erfolgte anhand zweier grundsätzlicher Kriterien, die beide erfüllt sein mussten: (1) Die Studie beschreibt (unter anderem) Kriterien, die Nutzerinnen und Nutzer während der Bewertung oder Auswahl von Dokumenten anwenden; (2) es handelt sich um eine empirische Studie, die auf den von menschlichen Nutzerinnen und Nutzern erhobenen Daten beruht. Zusätzlich zur Art des Forschungsdesigns und der Methode der Datenerhebung bestand ein Interesse an weiteren methodischen Merkmalen, die ein besseres Bild über das Vorgehen bei der Erforschung von Relevanzkriterien erlauben. So wurden die 47 ausgewählten Studien systematisch erfasst hinsichtlich:

  1. (a)

    der verwendeten Methode zur primären Datenerhebung;

  2. (b)

    der Art des Untersuchungsdesigns;

  3. (c)

    der Anzahl der Teilnehmenden;

  4. (d)

    der Frage, ob die Relevanzkriterien gegeneinander gewichtet wurden;

  5. (e)

    der Art der Skala für die Erfassung expliziter Relevanzbewertungen;

  6. (f)

    des Kontexts der Suchaufgaben (z. B. akademisch, schulisch, AlltagFootnote 28).

Die Anzahl der Studienteilnehmenden, also der Stichprobenumfang, gibt Aufschluss über die Aussagekraft der Ergebnisse, wobei zum einen eine größere Anzahl von Teilnehmenden nicht zwangsläufig zu besseren Ergebnissen führt und zum anderen die erforderliche Stichprobengröße von weiteren Parametern abhängt.Footnote 29 Informationen darüber, ob die ermittelten Relevanzkriterien gegeneinander gewichtet wurden, sind erforderlich in Hinblick auf die Wichtigkeit oder Nachrangigkeit verwendeter Kriterien. Zusätzlich wurde der Kontext der Suchaufgaben erfasst, da diese Information für die inhaltliche Einordnung der Kriterien und Eingrenzung der Studien erforderlich war (vgl. Abschnitt 2.1).

Die Analyse ergab, dass in den häufigsten durchgeführten Studien (n = 21) die Teilnehmenden Suchaufgaben im akademischen Kontext bearbeiteten. Abbildung 2.9 veranschaulicht die Häufigkeiten der Studien im akademischen Kontext (AKAD), im Alltagskontext (ELIS), im Arbeitskontext bzw. beruflichen Umfeld (ARB), im schulischen Kontext (SCHUL) sowie übergreifend (AKAD/ELIS bzw. ARB/ELIS); in drei Studien wurde der Kontext weder genannt, noch konnte er aus der Beschreibung abgeleitet werden (N. a.).

Abbildung 2.10 gibt einen Überblick über die Stichprobengrößen der einzelnen Studien, die von 3 bis 350 reichen, wobei der Durchschnitt 48 Teilnehmende und der Median 24 betragen.

Anhand von Abbildung 2.11 lässt sich ein stetiges Interesse an der Erforschung von Relevanzkriterien in den letzten Jahrzehnten erkennen: Zwar wurden die bekanntesten Studien zu Relevanzkriterien (z. B. von Barry und Schamber, siehe Abschnitt 2.1.1) in den 1990er veröffentlicht, doch auch nach der Jahrtausendwende wurden Relevanzkriterien weiterhin erforscht, insbesondere im Kontext der Websuche (vgl. Abschnitt 2.1.2).

Abbildung 2.9
figure 9

Anzahl der Studien nach Aufgabenkontext (N = 47)

Abbildung 2.10
figure 10

Anzahl der Teilnehmenden pro Studie (N = 47)

Abbildung 2.11
figure 11

Publikationsjahre der 47 Studien, einzeln (links) und aggregiert (rechts)

2.2.1 Befragungen

Zur Befragung zählt die Erhebung mittels Fragebogen, welche sowohl schriftlich als auch mündlich erfolgen kann und auch als Umfrage (survey) oder Umfrageforschung (survey research) bezeichnet wird (Döring & Bortz, 2016, S. 356 ff.). Interviews stellen ebenso eine Befragungsart dar. Beide Befragungsmethoden werden nach dem Grad ihrer Strukturierung unterteilt in un- und halbstrukturierte (qualitative) sowie vollstrukturierte (quantitative) Verfahren. Als eine besondere Form des unstrukturierten Interviews wird die Methode des lauten Denkens (think aloud) gezählt, bei der die Testpersonen ihre Gedanken während einer Handlung verbalisieren. Dieser Vorgang wird aufgezeichnet, sodass ein Think-aloud-Protokoll entsteht, welches analog zu Interviewtranskripten von den Forschenden analysiert wird (Döring & Bortz, 2016, S. 371). Begründet wird die Zuordnung der Methode des lauten Denkens zu den Befragungsmethoden wie folgt:

Die Methode des lauten Denkens ist insofern den mündlichen Befragungsmethoden zuzuordnen, als die Untersuchungspersonen ihre Gedanken in Worte fassen und mündliche verbale Daten generiert werden, die ohne den Forschungsprozess nicht existieren würden. Im Unterschied zu anderen qualitativen Interviewvarianten spielt jedoch beim lauten Denken die Interaktion zwischen Auskunftspersonen und Interviewenden keine Rolle, vielmehr ergeben sich die Äußerungen als Kommentare zu einem selbst absolvierten Handlungsablauf. (Döring & Bortz, 2016, S. 370–371).

Eine Variante der halbstrukturierten Befragung sind Diskussionen in Fokusgruppen. Im Gegensatz zum Einzelinterview können in Fokusgruppen unterschiedliche Meinungen und Aussagen der einzelnen Mitglieder hervortreten und innerhalb der Gruppe – zum Teil auch kontrovers – diskutiert werden, wobei das dabei im Fokus stehende Thema durch die Forschungsleitung vorgegeben wird (Döring & Bortz, 2016, S. 359). Die halbstrukturierte Tagebuchmethode stellt eine Form der schriftlichen Befragung dar und besteht in der Erhebung von Daten aus Tagebucheinträgen zu bestimmten Themen durch die befragten Personen (Döring & Bortz, 2016, S. 405). Dagegen handelt es sich bei der vollstrukturierten Tagebuchmethode um das Ausfüllen vollstandardisierter schriftlicher Fragebögen durch die Untersuchungspersonen (Döring & Bortz, 2016, S. 418).

Die Analyse der 47 ausgewählten Studien zu Relevanzkriterien ergab, dass die Befragung die meistverwendete Methode zur Datenerhebung darstellt, die in jeder der Studien vorgenommen wurde. In 30 Studien wurden Daten ausschließlich mittels Verfahren der Befragung erhoben (Tabelle 2.4). Fokusgruppeninterviews wurden lediglich in zwei der untersuchten Studien durchgeführt (vgl. Tabelle 2.4). So führten beispielsweise Walraven, Brand-Gruwel, & Boshuizen (2009) Fokusgruppeninterviews mit 23 Schülerinnen und Schüler der Sekundarstufe aus zwei Schulen durch, unter anderem mit dem Ziel, über deren Wissen und konzeptuelle Vorstellungen zu den Kriterien bei der Evaluierung von Suchergebnissen, Quellen und Informationen auf einer Webseite zu erfahren. Sie fanden beispielsweise heraus, dass die Kriterien zur Beurteilung von Suchergebnissen sich auf diese Elemente bezogen: (1) Titel/Snippet, (2) Art (Webseite/PDF), (3) URL/Domäne, (4) Position in der Ergebnisliste (Ranking), (5) Bekanntheit, (6) Sprache.

Ein großer Teil der Studien (n = 20) verwendet die Methode des lauten Denkens (Tabelle 2.5), die auch häufig in IIR-Studien verwendet wird; der Nachteil dieser Methode besteht darin, dass die Teilnehmenden oft Schwierigkeiten bei der Artikulation ihrer Gedanken während der Bearbeitung einer Suchaufgabe haben, sodass die Forschungsleitung nachfragen muss, was die Künstlichkeit der Situation vermutlich verstärkt (Kelly, 2009, S. 84 ff.). Vor diesem Hintergrund erscheint es fragwürdig, Kinder mithilfe dieser Methode zu befragen, um die von ihnen genutzten Kriterien bei der Suche nach Quellen für ein Schulprojekt herauszufinden, wie es in der Studie von Hirsh (1999) erfolgte. Allerdings zeigten die wenigsten der zehn Kinder im Alter von 10 bis 11 Jahren Probleme bei der Begründung ihrer ausgewählten Informationsobjekte; Jungen hatten weniger Schwierigkeiten bei der Verbalisierung der ihren Entscheidungen zugrunde liegenden Kriterien oder Faktoren als Mädchen (Hirsh, 1999, S. 1277), jedoch können insbesondere vor diesem Hintergrund und in Hinblick auf die sehr geringe Stichprobengröße keine allgemeingültigen Schlussfolgerungen getroffen werden.

Die Tagebuchmethode fand lediglich in drei der 47 Studien Anwendung (Tabelle 2.6). Watson (2014) bat 37 Schülerinnen und Schüler im Alter von 14 bis 17 Jahren, Tagebucheintragungen in Form eines Journals für die Bearbeitung ihrer Schulaufgaben vorzunehmen, führte Interviews mit ihnen durch und zeichnete Suchprozesse auf, die zusätzlich mithilfe der retrospektiven Methode des lauten Denkens durch die teilnehmenden Kinder kommentiert wurden. Die Auswertung folgte dem Grounded-Theory-Ansatz, der in der qualitativen Forschung häufig Anwendung findet. Das Forschungsziel bestand darin, die Kriterien zur Bewertung der Relevanz und Zuverlässigkeit von Informationsobjekten aufzudecken (Watson, 2014).

Tabelle 2.4 Studien mit Verfahren der Befragung (ohne Beobachtung)
Tabelle 2.5 Studien mit der Think-aloud-Methode
Tabelle 2.6 Studien mit der Tagebuchmethode

Die Erfassung von expliziten Relevanzbewertungen stellt ebenfalls eine Form der Befragung dar und es erscheint naheliegend zu erwarten, dass zur Erforschung von Relevanzkriterien auch Relevanzbewertungen erhoben werden. Dies ist jedoch bei den untersuchten Studien nicht immer der Fall. In nur 20 der 47 Studien wurden von den Teilnehmenden explizit vorgenommene Relevanzbewertungen erfasst und ausgewertet. Zumeist erfolgte die Erfassung mittels Rating-Skalen, wobei drei Kategorien (nicht relevantteilweise relevantrelevant bzw. nicht relevantrelevantweiß nicht/bin unsicher) am häufigsten verwendet wurden; binäre Relevanzbewertungen mithilfe einer dichotomen Skala wurden nur in zwei Studien erfasst; in ebenso wenigen wurde die Methode der Magnitude EstimationFootnote 30 angewandt (Abbildung 2.12).

Obgleich in 27 Studien auf die Erhebung expliziter Relevanzbewertungen verzichtet wurde, bedeutet dies nicht, dass keine Form der Bewertung stattfand. Auch mithilfe der Methode des lauten Denkens, bei der es um das Erfassen kognitiver Prozesse während der Wahrnehmung von Informationsobjekten geht, findet eine Form von mündlicher, subjektiver Bewertung statt, die sich in den Erläuterungen (dem lauten Denken) der Teilnehmenden niederschlägt. Es kann demnach geschlussfolgert werden, dass sich Relevanzkriterien nicht unabhängig von einer Bewertung erforschen lassen, auch wenn die Bewertung implizit stattfindet bzw. nicht explizit erfasst wird.

Abbildung 2.12
figure 12

Anteil der Studien mit erhobenen Relevanzbewertungen (N = 47) und Art der Skalenerhebung

2.2.2 Beobachtungen

Während bei der Befragung verbale Äußerungen der Untersuchungspersonen in schriftlicher oder mündlicher Form erfasst werden, zielt die Beobachtung auf die „Dokumentation und Interpretation von Merkmalen, Ereignissen oder Verhaltensweisen mithilfe menschlicher Sinnesorgane und/oder technischer Sensoren zum Zeitpunkt ihres Auftretens“ (Döring & Bortz, 2016, S. 324). Qualitative Verfahren weisen dabei keine oder nur eine geringe Strukturierung auf (z. B. ethnografische Feldbeobachtung, autoethnografische Selbstbeobachtung); quantitative Verfahren der Beobachtung sind dagegen stark strukturiert und finden oft in einem Labor zur Erfassung von Verhaltensreaktionen statt (z. B. bei einer experimentellen Laborstudie). Das erhobene Datenmaterial liegt in Form von Beobachtungsprotokollen vor.

Werden zu Beobachtungszwecken technische Hilfsmittel oder Software eingesetzt, handelt es sich um technikvermittelte Beobachtungen, wie beispielsweise das Speichern von Klickdaten bei Online-Tests und Daten aus Logfiles (transaction logs). Die Erfassung mit technischen Hilfsmitteln bedeutet zudem, dass auch die physiologische Messung eine Form der quantitativen Beobachtung darstellt (Döring & Bortz, 2016, S. 523 ff.). Hierzu zählt beispielsweise das Messen von Blickbewegungen (eye-tracking), bei der mithilfe eines Eye-Trackers die Bewegungen der Pupillen der Untersuchungspersonen während einer Handlung (z. B. der Interaktion mit einer Suchmaschine) aufgezeichnet werden.

Von den 47 analysierten empirischen Studien zu Relevanzkriterien wurden in 17 zusätzlich zur Befragung Verfahren der Beobachtung angewendet. Von diesen bezogen sechs Studien die Auswertung von Klickdaten aus Logfiles mit ein, in zwei Studien wurden die Augenbewegungen der Testpersonen mithilfe einer Eye-Tracking-Software gemessen (Tabelle 2.7).

Logfile-Analysen werden in Interactive Information Retrieval-Studien häufig genutzt, um Interaktionen von Nutzerinnen und Nutzern mit einem IR-System aufzuzeichnen und dabei jedes Event (z. B. Eingaben, Klicks und Adressen der geklickten Objekte) nachverfolgen zu können (Kelly, 2009, S. 87 ff.). Diese Aufzeichnungen liefern zusätzliche Informationen wie Zeitstempel, anhand derer Erkenntnisse zum Informationssuchverhalten erzielt werden sollen. Die Grenze der Methode allgemein liegt darin, dass Klickdaten abgesehen von der übermittelten Suchanfrage keine näheren Informationen über den Kontext oder das konkrete Informationsbedürfnis bzw. das Informationsproblem der informationssuchenden Person liefern (Kelly, 2009, S. 91) und die Interpretation solcher Daten eine Herausforderung für Forschende bedeutet. Dies ist somit ein Grund, warum in jeder der 47 Studien zu Relevanzkriterien mindestens die Form der Befragung als Erhebungsmethode verwendet wurde.

Tabelle 2.7 Studien mit Verfahren der Beobachtung (zugleich Befragung)

Ein weiterer Punkt, den es im Zusammenhang mit Klickdaten zu berücksichtigen gilt, besteht bei der Erhebung von Relevanzbewertungen: Als Alternative zur Erhebung expliziter Bewertungen ist die Erfassung der Anzahl von Dokumenten, die angeklickt oder nicht angeklickt wurden, wenig sinnvoll, weil ein Klick ein binäres Verständnis von RelevanzFootnote 31 widerspiegelt. Vielmehr zeigt ein Klick eine Entscheidung für oder gegen die Auswahl eines Treffers an; dieser Entscheidung geht eine Beurteilung voraus, die als Ergebnis des BewertungsprozessesFootnote 32 betrachtet werden kann.

Im Gegensatz zur Analyse von Klickdaten erlaubt das Messen von Blickbewegungen nachzuverfolgen, welche Elemente auf dem Bildschirm wie lange und in welcher Reihenfolge die Aufmerksamkeit der Testpersonen auf sich zogen. In Studien zur Erforschung des Informationssuchverhaltens oder in IR-Studien sind dabei die sakkadischen Blickbewegungen von Interesse, bei denen es sich um schnelle, ruckartige Bewegungen handelt, die typischerweise beim Lesen auftreten (Döring & Bortz, 2016, S. 522). Ein Nachteil bei diesem Messverfahren bestand bei den damaligen Studien darin, dass sich Eye-Tracking für die Testpersonen seltsam anfühlen konnte (Kelly, 2009, S. 199) und unter Umständen die ohnehin als wenig realistisch empfundene Situation in einem Testlabor auf die Teilnehmenden noch künstlicher wirkte. Moderne Eye-Tracker für den Desktop-Bereich sind verhältnismäßig wenig störend. Dennoch besteht der Nachteil dieser Art der Datenerhebung wie bei allen Studien, in deren Rahmen die Teilnehmenden ein Labor aufsuchen müssen, in der Herausforderung der Probandenakquise und dem Erreichen einer ausreichend großen Stichprobe.

In der Studie von Balatsoukas & Ruthven (2012) wurden 24 Teilnehmende bei ihrer Interaktion mit Google unter Nutzung eines Eye-Trackers beobachtet und zugleich der Methode des lauten Denkens unterzogen, um herauszufinden, welcher Zusammenhang zwischen der Anwendung von Relevanzkriterien und bestimmten Elementen der Suchergebnisse besteht. Mithilfe einer 3-Punkte-Rating-Skala wurden explizite Relevanzbewertungen von Surrogaten (predictive judgments) erhoben und eine Verbindung von Surrogat-Komponenten und Relevanzkriterien im Zusammenhang mit der Anzahl der Fixationen hergestellt. Die Ergebnisse zeigen unter anderem, dass im Durchschnitt die größte Anzahl an Fixationen für das Kriterium der thematischen Relevanz (topicality) auf Basis des Titels und des Abstracts aufgewendet wird (vgl. Abschnitt 2.1.4). Die Autoren merken an, dass die größte methodische Herausforderung bei der Datenanalyse darin bestand, eine Verbindung der Blickbewegungsdaten (Anzahl und Dauer der Fixationen) mit den qualitativen Daten (z. B. Arten von Relevanzkriterien, Relevanzstufen) herzustellen (Balatsoukas & Ruthven, 2012, S. 1743).

In den restlichen neun der 17 Studien, in denen mittels Beobachtungsverfahren Daten erhoben wurden, kamen folgende Beobachtungsverfahren zum Einsatz: Twait (2005) notierte ihre Beobachtungen von 13 Studierenden, während diese ihre Informationssuche mithilfe der Methode des lauten Denkens verbalisierten; Crystal & Greenberg (2006) und Savolainen & Kari (2006) hingegen nutzten das Aufzeichnen von Bildschirmaktivitäten ihrer Teilnehmenden während der Bearbeitung von Suchaufgaben (mittels screen capture software), das ebenfalls zu den Verfahren der Beobachtung zählt und insbesondere eine sinnvolle Ergänzung zur Auswertung von Logdateien darstellt (Kelly, 2009, S. 86 ff.). Eine derartige Kombination aus quantitativen und qualitativen Verfahren erfolgte in allen Studien zu Relevanzkriterien, die unter anderem Daten aus Logfiles auswerteten, bis auf die Studie von Vakkari & Hakala (2000). Das Ergebnis solcher Bildschirmaufzeichnungen sind Videodateien, die von den Forschenden auch nachträglich oder wiederholt angesehen werden können.

Von der Art der Datenerhebung unabhängig werden in den beiden folgenden Abschnitten die zwei in den 47 Studien verwendeten Forschungsdesigns erläutert. Der Fokus wird dabei der Argumentation zu Beginn dieses Kapitels folgend auf experimentelle Untersuchungsdesigns gelegt, auch wenn den wenigsten Studien zu Relevanzkriterien tatsächlich ein experimentelles Design zugrunde liegt.

2.2.3 Explorative Untersuchungsdesigns

Die Mehrheit (n = 41) der analysierten empirischen Studien zu Relevanzkriterien wurde als explorative Untersuchung durchgeführt (Tabelle 2.8). Unter ihnen sind zudem Studien, die mitunter als Experiment vorgestellt werden, sich nach eingehender Prüfung jedoch als explorative Studie herausstellten. Auf diese Tatsache wird in Abschnitt 2.2.4 ausführlich eingegangen.

Explorative Studien dienen dazu, einen bis dato wenig erforschten Gegenstand zu erkunden und diesen zu beschreiben, und um überhaupt Hypothesen aufstellen oder Theorien bilden zu können. Zu diesem Zweck werden offene Forschungsfragen formuliert, die häufig mithilfe qualitativer Verfahren der Datenerhebung bearbeitet werden. Liegen erste Theorien und Hypothesen über den zu erforschenden Gegenstand vor, können diese in explanativen Studien, zu denen Studien mit experimentellen Designs zählen, geprüft werden. (Döring & Bortz, 2016, S. 192 ff.)

Die Voraussetzung für die Durchführung experimenteller Studien ist demnach das Vorhandensein von Erkenntnissen aus explorativen Studien. Bei den bisherigen Studien zur Erforschung von Relevanzkriterien handelt es sich überwiegend um explorative Untersuchungen. Betrachtet man die Forschungsfragen dieser Studien, wird schnell deutlich, dass sie als offene Fragen formuliert sind, dabei jedoch eine große Ähnlichkeit untereinander aufweisen, zum Beispiel:

  • „What criteria do users mention when they evaluate the results of information searches in a multimedia environment?“ (Schamber, 1991);

  • „What criteria allow users to determine whether connections or lack of connections exist between the information within documents and the users’ information need situations?“ (Barry, 1994);

  • „What are the criteria applied in judging the value of retrieved documents?“ (Wang, 1994);

  • „What relevance criteria do children use to evaluate information found when searching electronic resources for a school project?“ (Hirsh, 1999);

  • „How do participants judge relevance in a virtual library environment?“ (Fitzgerald & Galloway, 2001);

  • „What criteria do students use when making relevance judgments about sources?“ (Twait, 2005);

  • „Which criteria do students use for evaluating search results, sources, and information on a website?“ (Walraven et al., 2009);

  • „What criteria do users apply in evaluating an individual document?“ (I. Xie et al., 2010);

Tabelle 2.8 Studien mit explorativen Untersuchungsdesigns

Zwar wurden in diesen Studien Kriterien in verschiedenen Kontexten untersucht, jedoch ist die Arbeit von Rieh (2002) zu den Kriterien Glaubwürdigkeit und kognitive Autorität bei der Websuche (vgl. Abschnitt 2.1.2.1) die einzige der 41 explorativen Studien, die auf die Erforschung ausgewählter Kriterien abzielte im Gegensatz zu den anderen, die offen nach allgemeinen Kriterien fragen.

Die Ergebnisse der explorativen Studien tragen zu einem besseren Verständnis der Kriterien bei der Relevanzbewertung bzw. bei der Dokumenten- bzw. Quellenauswahl bei (vgl. Abschnitt 2.1). Allerdings ist die Gesamtzahl der Kriterien und die der beeinflussenden Aspekte (Faktoren) verhältnismäßig groß, wie Xu & Chen (2006) kritisieren, und wie sich insbesondere an der Übersicht der Faktoren von Schamber (1994) (siehe Tabelle 2.1 auf S. 30) zeigt. Die Tatsache, dass bisherige Studien eher explorativ vorgehen und nicht hypothesenprüfend, nennen Xu & Chen (2006) als weiteren Kritikpunkt.

Die Besonderheiten solcher explanativen bzw. experimentellen Untersuchungen werden im nachfolgenden Abschnitt aufgezeigt; auf die Erläuterungen zur Entwicklung eines experimentellen Designs wird jedoch zunächst verzichtet, da diese im Zusammenhang mit dem in Kapitel 4 beschriebenen Online-Experiment umfassend und detailliert erfolgen.

2.2.4 Experimentelle Untersuchungsdesigns

Mithilfe von explanativen Studien werden Hypothesen über Effekte geprüft. Dabei steht die Herstellung eines Nachweises über den Zusammenhang zwischen einer Ursache und einer beobachtbaren (messbaren) Wirkung im Vordergrund. Kausale Schlussfolgerungen über den Zusammenhang zwischen Ursache und Wirkung sind nur mithilfe von Experimenten möglich. (Döring & Bortz, 2016, S. 192)

Um kausale Schlüsse ziehen zu können, müssen drei Voraussetzungen erfüllt sein:

  1. (a)

    zwei Variablen kovariieren, d. h. zwischen ihnen besteht ein nachweislicher Zusammenhang;

  2. (b)

    die als Ursache vermutete Variable tritt zeitlich vor derjenigen Variablen auf, deren Wirkung beobachtet wird, denn zeitliche Präzedenz ist unerlässlich für die Bestimmung der Kausalrichtung zwischen zwei kovariierenden Variablen;

  3. (c)

    alternative Erklärungen für die beobachtete Wirkung können ausgeschlossen werden (Sedlmeier & Renkewitz, 2018, S. 133 ff.).

Diese Voraussetzungen lassen sich nur durch die korrekte Planung und Durchführung eines echten Experiments erreichen. Dabei sind Manipulation und Kontrolle die beiden Wesensmerkmale eines Experiments, ohne die eine empirische Studie kein echtes Experiment ist. Echte Experimente gelten sowohl in der sozialwissenschaftlichen Grundlagen- als auch in der Anwendungsforschung als Goldstandard (Döring & Bortz, 2016, S. 102).

Bei einem Experiment wird der Effekt eines Stimulus (die unabhängige Variable, die als ursächlich vermutet wird) auf ein bestimmtes Ergebnis (die abhängige Variable) untersucht, indem die unabhängige Variable in irgendeiner Weise manipuliert wird (z. B. der Rankingalgorithmus A und B bei einem IR-System). Um alternative Gründe oder Bedingungen, die zu der Wirkung (z. B. Retrievaleffektivität) geführt haben, ausschließen zu können, müssen mögliche Störvariablen kontrolliert werden (Sedlmeier & Renkewitz, 2018, S. 124–127). Personengebundene Störvariablen, wie Alter und Einkommen, werden beispielsweise durch die zufällige Verteilung (Randomisierung) der Testpersonen auf die verschiedenen, mindestens zwei Versuchsgruppen ausbalanciert (Sedlmeier & Renkewitz, 2018, S. 134 ff.).

Der Vorteil von experimentellen Designs kann konkret am Beispiel der in Abschnitt 2.1.2.1 vorgestellten Studie zur Glaubwürdigkeit und kognitiven Autorität bei der Websuche von Rieh (2002) demonstriert werden: Die explorative Studie hätte von einem experimentellen Design profitiert, denn die Aufgabenbeschreibungen enthielten Formulierungen über die gewünschten relevanten Suchergebnisse entsprechend der operationalisierten Definition von Qualität und Autorität, wie „good papers“, „useful information“, „credible information“, „best price“. Diese Unterschiedlichkeit der Benennungen könnte die Testpersonen auf unerwünschte Weise beeinflusst und die Ergebnisse verfälscht haben, d. h. den beobachteten Effekt alternativ erklären, wodurch eine der drei Voraussetzungen für Kausalität nicht gegeben wären. Mit einem experimentellen Design hätten beispielsweise die Adjektive jeweils als unabhängige Variablen für alle vier Aufgaben manipuliert werden können, indem eine Gruppe von Untersuchungspersonen in Aufgabe 1 die Formulierung good papers, eine zweite Gruppe useful papers, eine dritte Gruppe credible papers und eine vierte Gruppe best papers zu sehen bekommen hätte, wobei die Personen zu den einzelnen Gruppen randomisiert zugewiesen worden wären. Für die weiteren Aufgaben hätte man ebenso verfahren und den Teilnehmenden diese zusätzlich in randomisierter Reihenfolge anzeigen können.

Experimentelle Studien erlangen inzwischen auch allgemein in der Bibliotheks- und Informationswissenschaft zunehmend an Bedeutung (Connaway & Radford, 2017, S. 157), sie gelten traditionell als Hauptmethode bei der Evaluierung von Information Retrieval-Systemen (Kelly, 2009, S. 27). Das Experiment zu Relevanzbewertungen von Cuadra & Katter (1967a) gilt als klassisches Beispiel für ein echtes Experiment der Relevanzforschung: 140 Testpersonen, die 14 Versuchsgruppen (14 unterschiedliche Experimentalbedingungen) zufällig zugewiesen wurden, bearbeiteten Suchaufgaben mit manipulierten Beschreibungen von Informationsbedürfnissen und Nutzungskontexten. Die Ergebnisse zeigen, dass Relevanzbewertungen leicht zu Artefakten der jeweiligen Testinstruktionen und Bedingungen werden können und sie somit nicht in absoluten Zahlen miteinander zu vergleichen sind (Cuadra & Katter, 1967a, S. 302).

Allerdings werden im klassischen Information Retrieval, also auch im Zusammenhang mit TREC, die Begriffe ExperimentFootnote 33 und Evaluation oft synonym verwendet (Kelly, 2009, S. 26), wodurch zum Teil auch Untersuchungen als Experimente bezeichnet werden, die die Bedingungen an ein Experiment nicht erfüllen. Dabei ist die Kontrolle von möglichen Störvariablen bei der Evaluierung von IIR-Systemen besonders wichtig zur Vermeidung von Positionseffekten: Beispielsweise sollte die Reihenfolge der zu bearbeitenden Suchaufgaben randomisiert werden, um mögliche Lerneffekte oder Effekte durch Ermüdung der Testpersonen zu vermeiden (Clemmensen & Borlund, 2016).

Kelly & Cresenzi bieten als Erklärung für die synonyme Verwendeung der Begriffe Experiment und Evaluation an: „IR researchers often lack formal training in the behavioral sciences and have a difficult time understanding and incorporating this perspective into their IIR experiments“ (2016, S. 1207); zugleich verweisen sie auf die Notwendigkeit von Experimenten: „[This perspective] is critical if we want more valid and reliable evaluations of interactive IR systems and more basic knowledge about how people interact with IR systems“ (2016, S. 1207).

Nicht alle als Experiment bezeichneten Untersuchungen erfüllen auch tatsächlich alle Anforderungen an ein echtes Experiment (auch: klassisches Experiment). Oftmals handelt es sich um Quasi-Experimente, bei denen die Reihenfolge der Testpersonen oder der zu bearbeitenden Aufgaben nicht randomisiert wurde. Dadurch sind nicht alle potenziellen Störvariablen vollständig kontrolliert, wodurch die interne Validität der Forschung gefährdet ist (Sedlmeier & Renkewitz, 2018, S. 176 ff.). Explanative Studien, denen es neben der Randomisierung auch an der Manipulation von Variablen fehlt, die aber mindestens zwei Gruppen miteinander vergleichen, werden als natürliches Experiment bzw. nicht-experimentelle Studie bezeichnet (Döring & Bortz, 2016, S. 201). Über die verschiedenen Typen eines Experiments und deren Abgrenzung zueinander gibt Tabelle 2.9 einen Überblick.

Auch in früheren Literaturstudien bzw. in den Veröffentlichungen der Studien zu Relevanzkriterien werden manche Studien als Experiment bezeichnet, obwohl es ihren Untersuchungsdesigns teilweise an Manipulation und/oder Kontrolle mangelt. Die korrekte Identifizierung der Studien, die die Anforderungen an ein (echtes) Experiment aus sozialwissenschaftlicher Sicht erfüllen, stellte die größte Herausforderung bei der Sichtung und Auswertung der ausgewählten Studien zu Relevanzkriterien dar und erforderte eine intensive Auseinandersetzung mit den in den Publikationen berichteten Methoden.

Tabelle 2.9 Typen des Experiments
Tabelle 2.10 Studien zu Relevanzkriterien mit einem experimentellen Design

Von den 47 analysierten Studien weisen nur sechs tatsächlich ein experimentelles Design auf (Tabelle 2.10), wobei eine von diesen eine Korrelationsstudie darstellt. Korrelationsstudien beschränken sich auf Erklärungen über die Art und Intensität des Kovariierens zweier Variablen und erlauben keine kausalen Schlussfolgerungen (Döring & Bortz, 2016, S. 677). Die Korrelationsstudie (auch confirmatory study) von Xu & Chen (2006) prüft Hypothesen zu fünf ausgewählten Kriterien (scope, novelty, reliability, topicality, understandibility), die in Form von Fragebogenitems den Untersuchungspersonen zur Beurteilung vorgelegt wurden. Ein Item für das Kriterium oder Konstrukt novelty bestand beispielsweise aus der Aussage „In this document, the amount of new information to me is ____“, zu der die Probandin/der Proband auf einer 7-stufigen Skala zwischen Small (1) und Substantial (7) ihre/seine Antwort kennzeichnete (Xu & Chen, 2006, S. 972). Hieran wird der bedeutende Unterschied im Vergleich zu explorativen Untersuchungen deutlich: Explanative und experimentelle Studien erfordern eine Variable (hier: novelty), die es zu operationalisieren gilt (hier: amount of new information), wofür wiederum eine eindeutige Definition des betreffenden Konstrukts vorhanden sein muss.

In Anbetracht der Schwierigkeiten bei der Benennung und Abgrenzung einzelner Relevanzkriterien untereinander und im Zusammenhang mit Faktoren, die die Relevanzbewertung beeinflussen (vgl. Abschnitt 2.1.5), wird hier bereits eine weitere Forschungslücke hinsichtlich der Operationalisierbarkeit der zu untersuchenden Variablen sichtbar.

Von den fünf weiteren experimentellen Studien wurden in zwei Studien den Teilnehmenden Suchergebnisse in einem akademischen Kontext zur Bewertung vorgelegt. Regazzi (1988) ließ 32 Forschende und Studierenden aus den Bereichen Biomedizin und Sozialwissenschaften insgesamt 16 Dokumente zum Thema Alkohol unter Verwendung einer 3-Punkte-Skala bewerten. Das Hauptziel der Studie bestand darin, anhand des Vergleichs von Bewertungen unterschiedlicher Gruppen von Juroren zu jeweils 4 Aufgaben mit jeweils 4 verschiedenen Dokumenten Rückschlüsse auf geeignete Kennzahlen zur Performanz bibliographischer Informationssysteme zu ziehen. So bewertete eine Gruppe die Dokumente nach deren Relevanz, die anderer Gruppe bewertete deren Nützlichkeit. Zusätzlich sollten die Teilnehmenden Aussagen über die Wichtigkeit einzelner Elemente der zu bewertenden Dokumente treffen; diese Elemente waren allerdings nicht manipuliert, sodass diese streng genommen keinen zu untersuchenden Faktor im Experiment darstellten. Der Verzicht auf diesen Faktor ist aufgrund des ohnehin komplexen Designs der Studie nachvollziehbar; jedoch muss dies beim Bewerten der Studienergebnisse berücksichtigt werden. So sind kausale Schlussfolgerungen zwischen den Elementen der Dokumente auf die Bewertungen nicht möglich.

Choi & Rasmussen (2002) ließen 18 Fakultätsangehörige und 20 Studierende amerikanischer Geschichte Bilder und dazugehöriger Metadaten in Form von Textinformationen eines Fotoarchivs bewerten. Die Untersuchungspersonen wurden zufällig zwei Gruppen zugeteilt: In Gruppe A wurden den Teilnehmenden zuerst die Bilder gezeigt, welche mithilfe eines Fragebogens beurteilt wurden und im Anschluss wurden die Metadaten zu einer weiteren Bewertung offengelegt. Die Teilnehmenden in Gruppe B sahen zuerst die Metadaten, gaben ihre Bewertung ab, bevor sie das Bild sahen, welches sie ebenfalls bewerteten. Mit diesem Vorgehen wurde der Effekt des Hinzufügens bestimmter Bilder oder Textinformationen auf die Bewertung untersucht, indem geprüft wurde, ob sich die Bewertungen nach dem Hinzufügen der neuen Informationen verändert hatten oder nicht. Die Bewertungen wurden anhand einer 7-stufigen Skala erhoben.

Manipuliert wurde in dem Experiment somit die Reihenfolge der den Teilnehmenden präsentierten Informationen (Metadaten und Bild), die Metadaten an sich wurden nicht variiert. Daher lassen sich auch hier keine kausalen Schlüsse über den Effekt der (jeweiligen) Metadaten auf die Bewertung folgern. Ungeachtet dessen zeigten die Ergebnisse keine statistisch signifikanten Unterschiede zwischen den Bewertungen vor und nach dem Hinzufügen der Bilder bzw. der Textinformationen. Allerdings verdeutlichen die Ergebnisse den besonderen Stellenwert eines Bild-Surrogats für die Relevanzbewertung: Den Teilnehmenden in Gruppe A gelang es sehr häufig nicht, eine Bewertung ausschließlich anhand des Bildes vorzunehmen, ohne dessen Metadaten zu berücksichtigen. Im Gegensatz zu anderen Studien zu Relevanzkriterien, in denen rein textbasierte Dokumente bewertet wurden, war den Teilnehmenden die Person, die als Urheber der jeweiligen Fotographie gilt, nicht wichtig für die Bewertung (Choi & Rasmussen, 2002, S. 711).

Mit der Bewertung von Bildern beschäftigten sich auch Hamid et al. (2016). In ihrer experimentellen Studie baten sie 48 Studierende unterschiedlicher Fachdisziplinen um eine Bewertung von Bildern der Google-Bildersuche mit einem realen Bezug zu ihrer Arbeit. Daten zum Such- und Bewertungsverhalten wurden mithilfe eines Fragebogens sowie einer Screen-Capture-Software (technikvermittelte Beobachtung). Die Testpersonen bearbeiteten jeweils insgesamt vier Aufgaben aus vier verschiedenen Aufgabentypen, wobei jede Testperson einem Aufgabentyp randomisiert zugewiesen wurde, die Person allerdings eine Aufgabe innerhalb dieses Typs frei wählen konnte. Anschließend wurde den Testpersonen eine Liste der folgenden 10 Relevanzkriterien (in Form von Selbstaussagen) vorgelegt, die sie bezüglich ihrer Bildbewertung nach deren Wichtigkeit beurteilen sollten (Hamid et al., 2016, S. 6):

  • Topicality (The images I selected were relevant to the search topic.)

  • Accuracy (The images I selected were an accurate representation of what I was looking for on the search topic.)

  • Suggestiveness (The images I selected gave me new ideas or new insights about the search topic.)

  • Appeal of information (The images I selected were interesting in regards [sic] to the search topic.)

  • Completeness (The images I selected contained the kinds of details I could use to clarify important aspects of the search topic.)

  • Technical attributes (The images I selected had technical attributes (such as colour, perspective or angle) that were important to me for this search topic.)

  • Emotion (The images I selected evoked an emotional response in me regarding the search topic.)

  • Textual information (The images I selected had useful text descriptions on the search topic.)

  • Consequence (The images I selected contained consequences or implications of the search topic.)

  • Composition (The images I selected have a strong visual impact regarding the search topic.)

Somit sind auch bei dieser experimentellen Studie keine kausalen Schlussfolgerungen in Hinblick auf den Effekt von (ausgewählten) Relevanzkriterien möglich, da diese den Testteilnehmenden vorgelegt und nicht variiert wurden. Die subjektive Beurteilung der Kriterien nach deren Gewichtung war demzufolge auch bei dieser Studie nicht Gegenstand des eigentlichen experimentellen Designs.

2.2.5 Zusammenfassung

Die Analyse der Methoden von 47 Studien zu Relevanzkriterien ergab, dass die bisherige Erforschung von Relevanzkriterien überwiegend auf explorativen Studien beruht, die offene Forschungsfragen anhand von Daten, die mit Verfahren der Befragung erhoben wurden, bearbeiteten. Zu den verwendeten Verfahren zählen häufig die Methode des lauten Denkens und die anschließende Analyse der dabei entstandenen Thinking-aloud-Protokolle, seltener Tagebucheinträge und Fokusgruppeninterviews. Nicht in allen Studien wurden explizite Relevanzbewertungen erfasst, jedoch sind auch implizit ausgedrückte Bewertungen, wie bei der Methode des lauten Denkens, analysierbare Relevanzbewertungen.

Während alle 47 Studien mindestens eine Form der Befragung durchführten, wurden in 17 Studien zusätzlich Verfahren der Beobachtung zur Datenerhebung genutzt. Diese sind Bildschirmaufzeichnungen von Interaktionen während des Suchprozesses, Eye-Tracking-Studien zur Analyse von Blickbewegungen sowie die Auswertung von Logfiles bzw. Klicks (technikvermittelte Beobachtung), wie sie häufig in der Interactive Information Retrieval-Forschung zum Einsatz kommen.

Jüngere Studien bauen oft auf den Erkenntnissen der explorativen Studien der 1990er Jahre auf, welche somit eine wichtige Grundlage für nachfolgende Studien und auch weiterhin für zukünftige Forschungsvorhaben zu Relevanzkriterien darstellen. Der Vorteil von explorativen Studien liegt in der Offenheit der Forschungsfragen, die erforderlich sind, wenn keine Hypothesen oder bestehenden Theorien über den zu untersuchenden Gegenstand existieren oder diesen unzureichend beschreiben. Aufgrund der Vielzahl inzwischen erkannter Kriterien erscheint es ein Versäumnis, nicht hypothesenprüfend vorzugehen.

Als Goldstandard hypothesenprüfender, explanativer Studien gilt das Experiment, wie es in den Sozialwissenschaften oder der Psychologie häufig zum Einsatz kommt. Ein Experiment ist die beste Methode, um kausale Schlussfolgerungen über Ursache-Wirkungszusammenhänge ziehen zu können. Bezogen auf den Forschungsgegenstand der Relevanzkriterien sind kausale Schlüsse über den Zusammenhang zwischen den bei der Bewertung von Informationsobjekten verwendeten subjektiven Kriterien und den beobachteten Unterschieden bei den Relevanzbewertungen nur bei Studien mit einem echten experimentellen Design möglich. Insgesamt weisen lediglich sechs der 47 Studien ein experimentelles Forschungsdesign auf. Keine dieser Studien erlaubt Rückschlüsse über die Wirkung der Relevanzkriterien auf die Relevanzbewertung aufgrund einer fehlenden Manipulation von Kriterien. In keiner der sechs Studien wurde explizit der Einfluss mehrerer Kriterien oder eines bestimmten Kriteriums als unabhängige Variable(n) auf die Relevanzbewertung als abhängige Variable untersucht.

2.3 Fazit und Forschungsfragen

In diesem Abschnitt werden die mithilfe der Betrachtung des Forschungsstands identifizierten Forschungslücken dargelegt. Auf eine erneute Zusammenfassung des Forschungsstands aus der inhaltlichen und methodischen Perspektive wird an dieser Stelle verzichtet. Direkt anknüpfend an den vorhergehenden Abschnitt wird zunächst die Forschungslücke aus der methodischen Sichtweise auf den Forschungsstand beleuchtet:

In Hinblick auf die Verwendung experimenteller Untersuchungsdesigns in Studien zu Relevanzkriterien wurde aufgezeigt, dass Studien zu Relevanzkriterien überwiegend einen explorativen Ansatz verfolgen; nur in wenigen Studien wurde ein Experiment durchgeführt. Ein experimentelles Design ist jedoch die einzige Möglichkeit, kausale Schlussfolgerungen über Ursache-Wirkungszusammenhänge wie den Einfluss von Relevanzkriterien auf die Bewertung von Informationsobjekten ableiten zu können. Mithilfe experimenteller Untersuchungen werden Hypothesen geprüft, während explorative Studien offene Forschungsfragen bearbeiten. Inzwischen sind auf der Basis der Erkenntnisse der zahlreichen explorativen Studien diverse Kriterien aufgedeckt worden, sodass sich Hypothesen über die konkrete Verwendung ausgewählter Relevanzkriterien aufstellen lassen. Von den bisherigen experimentellen Studien zu Relevanzkriterien beziehen sich lediglich zwei Studien auf die Relevanzbewertung im akademischen Kontext; zusätzliche Daten wie Popularitätsdaten waren nicht Bestandteil der von den Jurorinnen und Juroren bewerteten Suchergebnisse. Zudem untersuchten diese Studien nicht gezielt den Einfluss bestimmter Kriterien auf die Relevanzbewertung, da diese Kriterien nicht als unabhängige Variablen manipuliert wurden. Diese Forschungslücke soll mit der folgenden Forschungsfrage bearbeitet werden:

F1:

Wie können Nutzerkriterien bei der Relevanzbewertung anhand eines experimentellen Untersuchungsdesigns erforscht werden?

Die Betrachtung des Forschungsstands zu Relevanzkriterien aus inhaltlicher Perspektive zeigt zwei konkrete Forschungslücken auf, von denen nachfolgende in direktem Zusammenhang mit der Bearbeitung der Forschungsfrage F1 steht:

Es gibt keine definitorische und konzeptuelle Abgrenzung der Begriffe Merkmale (clues, cues), Kriterien (criteria) und Faktoren (factors). Diese Begriffe werden in der Literatur zur Erforschung von Kriterien und Einflussfaktoren unterschiedlich verwendet und oft nicht eindeutig definiert. Oftmals taucht in der Literatur zur Erläuterung des Begriffs Kriterium die Formulierung „Gründe für die Bewertung“ (underlying reasons behind relevance judgments) auf; allerdings ist diese Bezeichnung sehr breit, denn Gründe können in Hinblick auf alle drei Begriffe Merkmal, Kriterium und Faktor genannt werden. Zudem lässt sich anhand der Begriffe, die als Merkmale, Kriterien oder Faktoren ausgewiesen werden, aufgrund der Verwendung von Synonymen und Homonymen keine genaue Zuweisung zu den drei genannten Gruppen vornehmen. Diese fehlenden Definitionen und die ungenaue Abgrenzung der Begrifflichkeiten erschweren es, Ergebnisse aus bisherigen Studien zu Relevanzkriterien einzuordnen und zu analysieren. Für systematische Literaturschauen oder Metaanalysen ist es daher nicht möglich, ein klares Bild über die Zusammenhänge der die Relevanzbewertung beeinflussenden Aspekte zu erhalten, ohne dass die Gefahr besteht, aufgrund von Fehlinterpretationen durch unklare Terminologie falsche Schlussfolgerungen zu ziehen. Demzufolge ist die Klärung der Begriffe Kriterien, Faktoren und Merkmale sowie deren eindeutige Unterscheidung die Voraussetzung für die Durchführung einer hypothesenprüfenden Studie, für die die untersuchten Variablen operationalisiert werden müssen. Ohne eine eindeutige Definition des Begriffs Kriterium im Kontext der Relevanzbewertung, die mit der konzeptuellen Abgrenzung zu den anderen Begriffen Faktor und Merkmal einhergeht, ist es nicht operationalisierbar und somit nicht messbar (Döring & Bortz, 2016, S. 224 ff.). Diese Forschungslücke soll mit der Beantwortung der folgenden Unterforschungsfragen geschlossen werden:

F1a:

Wie lassen sich Merkmale, Kriterien und Faktoren als Einflüsse im Prozess der Relevanzbewertung für die Entwicklung eines experimentellen Untersuchungsdesigns definitorisch und konzeptuell voneinander abgrenzen?

F1b:

Wie können Kriterien bei der Relevanzbewertung von Suchergebnissen für eine experimentelle Studie operationalisiert werden?

Die Beantwortung der beiden Unterforschungsfragen F1a und F1b ist die Voraussetzung für die Bearbeitung und Beantwortung der Forschungsfrage F1, die mit dem Ziel einhergeht, ein nachnutzbares methodisches Framework zur experimentellen Erforschung von Relevanzkriterien zu entwickeln.

Zusätzlich zu der Beantwortung der Forschungsfrage F1 zielt das Experiment auf der inhaltlichen Ebene auf die Beantwortung zweier weiterer Forschungsfragen ab, die sich aus der zweiten Forschungslücke bei der inhaltlichen Betrachtung des Forschungsstands ergeben:

In den bisherigen Studien, in denen die Erkenntnisse über Relevanzkriterien auf Relevanzbewertungen, die von den Studienteilnehmenden auf Basis von Surrogaten in akademischen Suchsystemen vorgenommen wurden, beruhen, enthielten die Surrogate neben den erschließungstypischen Metadaten keine zusätzlichen Informationen wie Popularitätsdaten, die die Bewertung ebenfalls beeinflussen können. Heutzutage sind in modernen akademischen Suchsystemen Popularitätsdaten wie die Anzahl von Downloads und die Anzahl von Zitationen eines Werks in die Suchergebnisdarstellung als zusätzliche Metadaten integriert. Diese Informationen können Hinweise beispielsweise über die Autorität einer Autorin oder eines Autors liefern und damit einen Indikator für die zu erwartende Qualität des Werks darstellen. Unklar ist, in welcher Weise solche Popularitätsdaten die Relevanzbewertung in akademischen Suchsystemen beeinflussen. Diese Forschungslücke führt zu der folgenden Forschungsfrage:

F2:

Welchen Einfluss haben Popularitätsdaten auf die Bewertung der Relevanz von Suchergebnissen in akademischen Suchsystemen?

Wenn ein Einfluss von Popularitätsdaten als sichtbarer Bestandteil der Suchergebnisdarstellung auf die Relevanzbewertung experimentell nachgewiesen wird, kann dieser positiv oder negativ sein. Vermutet wird ein allgemeiner positiver Einfluss von Popularitätsdaten, der sich in einer höheren Relevanzbewertung niederschlägt. Diese Vermutung stützt sich insbesondere auf die Ergebnisse der Arbeiten von Rieh (2002) und Wang (1994) hinsichtlich der Bedeutung von zusätzlichen Informationen in einem Suchergebnis und den besonderen Stellenwert von Glaubwürdigkeit und Autorität auf der Basis von Informationen bzw. Wissen über die Autorin / den Autor eines Werkes. Die Annahme eines positiven Einflusses von Popularitätsdaten auf die Relevanzbewertung findet Ausdruck in den inhaltlichen Hypothesen, die im Rahmen der Entwicklung des experimentellen Designs aufgestellt werden.

Für ein differenzierteres Bild werden unterschiedliche Arten von Popularitätsdaten, also mehr als eine unabhängige Variable, untersucht. Die letzte Forschungsfrage zielt daher auf die Gewichtung dieser verschiedenen Popularitätsdaten ab:

F3:

Welche Popularitätsdaten beeinflussen die Relevanzbewertung in welchem Maße?

Da bisherige Studien zeigen, dass diverse Relevanzkriterien im Prozess der Relevanzbewertung eine Rolle spielen, stellt sich die Frage, wie diese Kriterien gewichtet werden. Unabhängig von dem Kriterium der thematischen Relevanz als Basis für die Bewertung ist unklar, welchen Stellenwert das Kriterium Popularität einnimmt. Diese Lücke lässt sich mit Beantwortung dieser Forschungsfrage zwar nicht schließen, bildet jedoch einen wichtigen Baustein zur Klärung der Frage, wie die unterschiedlichen Arten von Popularitätsdaten, anhand derer sich das Kriterium der Popularität ableiten lässt, zusammenwirken. Es besteht die Annahme, dass nicht alle Popularitätsdaten den gleichen, positiv vermuteten Effekt auf die Relevanzbewertung bewirken.

Eine systematische Gegenüberstellung der identifizierten Forschungslücken mit den Forschungsfragen, die jeweils auf die Schließung der Forschungslücke abzielen, bietet Tabelle 2.11.

Tabelle 2.11 Gegenüberstellung der Forschungslücken und Forschungsfragen

Im nachfolgenden Kapitel 3 werden zunächst die Voraussetzungen zur experimentellen Erforschung von Relevanzkriterien mit der Bearbeitung der Unterforschungsfragen F1a und F1b bearbeitet, welche in Abschnitt 3.3 konkret beantwortet werden. Daran schließt sich mit Kapitel 4 der Kern der vorliegenden Arbeit an, in dem die experimentelle Studie zur Untersuchung des Einflusses von Popularitätsdaten auf die Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen beschrieben wird. Dies führt zur Beantwortung der Forschungsfragen F1, F2 und F3 im anschließenden Abschnitt 5.1.