1 Einleitung

Welche Filme, Konsumartikel, potenzielle LiebespartnerinnenFootnote 1 oder Werbungen uns online zur Auswahl präsentiert werden, ist nicht zufällig. „Everything is a Recommendation“, schreibt Xavier Amatriain (2013), Teamleiter des Machine Learning und Recommender Teams bei Netflix von 2011–2015, über die Benutzeroberfläche von Netflix. Plattformen und Webseiten überlassen immer weniger dem Zufall, wie sie ihren Nutzerinnen ihr Angebot präsentieren.Footnote 2 „The ubiquity of [recommendation] systems … quietly structures every choice made online as a recommendation“ (Cohn 2019, S. 48). Zufällige (z. B. alphabetische) oder rein chronologische Ordnungen existieren, sind aber oftmals nur schwer auffindbare Ordnungsmöglichkeiten, die sich hinter den Standardeinstellungen einer Sortierung nach „persönlicher Relevanz“ verbergen.

Im digitalen Alltag sprechen uns Unternehmen immer öfter als singuläre Individuen an: „Filme, die dich interessieren könnten“; „Songs extra für dich“; „Weil du jenen Artikel gelesen hast, könnte dich auch dieser Artikel interessieren“. Die Ordnung des für die Nutzerinnen sichtbaren Netzes wird zu einer „personalisierten“ Ordnung der Empfehlung, die sich jeder Nutzerin auf unterschiedliche Weise darstellt: Gemäß Netflix, Amazon oder Facebook sind für mich andere Dinge relevant als für andere. Scheinbar übermächtige „Algorithmen“ schneiden das Angebot so genau auf uns persönlich zu, dass wir es fast gezwungenermaßen annehmen. Mit meinem Beitrag möchte ich die Sicht auf Empfehlungssysteme als Ordnungsgeneratoren des Internets erweitern und vertiefen. Erstens ist nicht jede Empfehlung notwendigerweise auch eine personalisierte Empfehlung. Auch nicht personalisierte oder schwach personalisierte Empfehlungen werden weiterhin eingesetzt. Netflix’ „Top 10 in Switzerland Today“ oder diverse Bestsellerranglisten sind nicht personalisierte Empfehlungen. Schwache Personalisierung berücksichtigt z. B. kategoriale Gruppenzugehörigkeiten wie Geschlecht, sodass z. B. Actionfilme bei männlichen oder Chick-Flicks bei weiblichen Nutzern weit oben auf der Liste präsentiert werden. Inhaltsbasierte Empfehlungen berücksichtigen mein aktuelles, flüchtiges Interesse. Wer sich den ersten Harry Potter Film angesehen hat, wird vermutlich nicht mit Harry Potter 3 weiterfahren.

Zweitens erscheint Personalisierung auf der Vorderbühne oftmals als eine Singularisierung, d. h. als Berücksichtigung der höchst individuellen Identität, Interessen und Geschmäcker. Dieses Verständnis von Personalisierung als Singularisierung erscheint mit Blick auf die verschiedenen Benutzeroberflächen und Kommunikationsweisen von (Streaming‑)Plattformen plausibel, adressieren sie ihre Nutzerinnen doch mit Angeboten extra „für dich“. Die verschiedenen Varianten der Empfehlung zeigen aber, dass auf der Hinterbühne nicht die Nutzerin in ihrer Einzigartigkeit betrachtet wird, sondern in Relation zu anderen Nutzerinnen und Dingen. „Collaborative Filtering“ als paradigmatisches Beispiel für personalisierte Empfehlungen macht deutlich, dass im Kern der Personalisierung nicht das Individuum oder die Nutzerin „in splendid isolation“ (Prey 2018, S. 1090) steht, sondern Nutzerinnen in paarweisen Relationen zu Dingen und in „Nachbarschaften“ als einer Form algorithmischer Sozialität. In der genaueren Betrachtung der Empfehlungssysteme zeigt sich ein ambigues Schillern zwischen Allgemeinem und Individuellem, zwischen Einzelnen, Gruppierungen und Kategorien.Footnote 3

Da die Hinterbühne von Empfehlungssystemen – ihre algorithmischen Funktionsweisen – normalerweise in „Black Boxes“ (Pasquale 2015) verschwindet, stellt sich die Frage, wie sich diese Blackbox öffnen lässt. Jenna Burrell (2016) demonstriert in ihrer Arbeit zu Machine-Learning-Algorithmen, dass Bildungsangebote, wie „Massive Open Online Courses“, Handbücher und computerwissenschaftliche Artikel, zwar keinen Zugang zu den komplexen Algorithmen von Google und anderen ermöglichen, aber einen Einblick in die grundsätzlichen Logiken der technischen Funktionsweise von Algorithmen geben (s. a. Kitchin 2016). Es ist es auch nicht notwendig, Algorithmen und ihre mathematischen Grundlagen bis ins letzte Detail zu verstehen, sondern es reicht aus „to understand them sufficiently enough to approach new research objects from a critical perspective“ (Schäfer und van Es 2017). Es geht mir darum, die algorithmischen Funktionsweisen zu verstehen, um die Logiken der Relationierung der unterschiedlichen Empfehlungssysteme sichtbar zu machen: Wie stellen verschiedene Typen von Empfehlungssystemen Relationen zwischen Nutzerinnen und Dingen her?

Mein empirischer Zugang besteht in der Untersuchung des Onlinekurses „Introduction to Recommender Systems“, der auf Coursera, einer E‑Learning-Plattform, zur Verfügung steht.Footnote 4 Die Computerwissenschaftler John Riedl und Joseph Konstan – bekannt für ihre wissenschaftliche und unternehmerische Pionierarbeit zu Empfehlungssystemen, insbesondere im Bereich des Collaborative Filtering (Cohn 2019) – entwickelten den Kurs für die University of Minnesota. Riedl und Konstan waren 1996 Mitgründer der Firma Netperceptions, die Empfehlungssysteme an Webunternehmen, wie beispielsweise Amazon, einer ihrer ersten Kunden, verkauften (zu Netperceptions siehe auch Cohn 2019). Neben der computerwissenschaftlichen Perspektive auf Empfehlungssysteme wird deshalb auch die Perspektive der wirtschaftlichen Anwendung sehr deutlich.Footnote 5 Joseph Konstan und Michael Ekstrand führten den Kurs durch und entwickelten ihn weiter. In den einzelnen Kursmodulen demonstrieren sie, wie verschiedene Typen von Empfehlungssystemen funktionieren und auf welchen Annahmen sie beruhen. Sie unterscheiden Empfehlungssysteme nach dem Ausmaß von Personalisierung (nicht personalisiert, demografische Personalisierung, flüchtige Personalisierung und persistente Personalisierung) und der algorithmischen Funktionsweise (deskriptive Statistik, inhaltsbasierte Empfehlung, kollaboratives Filtern). Ich unterscheide in Anlehnung an Konstan und Ekstrand vier Idealtypen von Empfehlungssystemen (Abschn. 3).Footnote 6 Mein Ziel besteht darin, die verschiedenen Systeme auf ihre Kategorisierungs‑, Bewertungs- und Vergleichsweisen hin zu befragen und so idealtypisch aufzuzeigen, wie sie Dinge und Nutzerinnen relationieren, d. h. wie sie Nutzerinnen und Dinge in Beziehung zueinander setzen.

Die vier Typen relationieren auf unterschiedliche Weisen. Erstens: Popularitätsmetriken bringen Dinge oder Akteure in Besser/schlechter-Relationen. Solche Ranglisten sind in dem Sinne nicht personalisiert und „objektiv“, da allen Nutzerinnen die gleichen Dinge (z. B. die besten Filme aller Zeiten) angezeigt werden. Zweitens: Stereotypisierende Empfehlungen beruhen auf askriptiven, soziodemografischen Kategorien, wie Alter oder Geschlecht, die über Konventionen oder gruppenspezifische Popularitätsmetriken Relationen zwischen Gruppen und Dingen herstellen: Männer mögen Actionfilme, Frauen mögen Chick-Flicks. Drittens: Inhaltsbasierte Empfehlungen relationieren Nutzerin und Dinge über Matchings, d. h. den Vergleich von Nutzerin/Ding-Relationen (anstatt nur Dinge oder nur Nutzerinnen zu vergleichen). Die ontologische Differenz zwischen Nutzerin und Ding wird dabei irrelevant: In Suchapplikationen ist die Nutzerin als eine Liste von (Such‑)Begriffen repräsentiert, wie auch die Dinge als Kombination von Begriffen repräsentiert sind. Viertens: Collaborative Filtering relationiert Nutzerinnen und Dinge über ein doppeltes Matching. Das Matching von ähnlichen Nutzerpaaren führt zu fluiden, quasikategorialen „Nachbarschaften“ der ähnlichsten Nutzerinnen, die die Grundlage für das zweite Matching bieten: Den Vergleich von Nutzerin/Ding-Relationen.

Aktuell erscheint algorithmische Personalisierung als datenintensive Form der Empfehlung, die mit Überwachung und Kontrolle (Zuboff 2018), Filterblasen (Pariser 2011; kritisch Bruns 2019) und Echokammern (Sunstein 2009) in Verbindung gebracht wird. Damit ist aber noch nicht alles gesagt: Empfehlungssysteme kategorisieren, bewerten und vergleichen auf je unterschiedliche Weisen (Abschn. 3). Mit dem vorliegenden Beitrag unterbreite ich einen Vorschlag, der an Fourcade und Healy (2016, 2017) und Heintz (2010, 2016, 2019) anknüpfend eine vergleichssoziologisch informierte Analyse von digitalen Empfehlungssystemen entwirft (Abschn. 2). Dabei zeige ich, dass Empfehlungssysteme nicht primär Akteure oder Dinge bewerten, wie es beispielsweise Bestenlisten oder Ratings tun, sondern die Relationen von Nutzerinnen und Dingen (Abschn. 4). Unter Bezugnahme auf Viviana Zelizer (2006) verstehe ich Empfehlungen als Versuche von Unternehmen, „good matches“ zwischen Nutzerinnen (Kundinnen, Konsumentinnen, Leserinnen etc.) und Dingen (Produkte, Dienstleistungen, Artikel etc.) herzustellen, die die Beziehung zwischen Unternehmen und Subjekten pflegen und auf Dauer stellen sollen (Abschn. 5).

2 Personalisierung, Kategorisierung, Bewertung, Vergleich

Personalisierung, Überwachung und Algorithmen werden oftmals in einem Atemzug genannt (z. B. Zuboff 2018). Webnutzerinnen hinterlassen bei ihren alltäglichen Streifzügen im Web Daten, die systematisch ausgewertet werden, um Verhaltensweisen vorherzusagen und nahezulegen: „The personalized web uses extensive customer data and predictive algorithms to conform content to the prior actions of the user; one’s digital past is used to personalize new online experiences in real time“ (Bodle 2014, S. 131). Der enge Fokus auf Individuen und Verhaltensdaten mag bei der Betrachtung bestimmter Empfehlungssysteme gerechtfertigt sein, verschleiert aber die genaue Funktionsweise von Empfehlungssystemen tendenziell. Um zu sehen, was Empfehlungssysteme tun, rücke ich die Operationen der Kategorisierung, des Vergleichs und der Bewertung in den Mittelpunkt. Wie zu zeigen sein wird, verwenden personalisierte im Gegensatz zu nicht personalisierten Empfehlungssysteme „implizite“, „temporäre“ Kategorien und führen Matchings durch – eine spezifische Form des Vergleichs.

Dass Empfehlungssysteme vergleichen, erscheint intuitiv evident. Um zu sehen, was sie vergleichen, wie sie das tun und welche Relationen dabei entstehen, braucht es einen analytischen Begriff des Vergleichs. Bettina Heintz (2010, 2016) stellt einen soziologischen Vergleichsbegriff zur Verfügung, der drei Aspekte des Vergleichs unterscheidet: Erstens können Vergleiche nur da durchgeführt werden, wo zuvor die Vergleichbarkeit der Vergleichseinheiten hergestellt wurde. Vergleiche beruhen also auf einer Kategorisierung (und sie können zur Grundlage weiterer Kategorienbildung werden). Zweitens benötigt ein jeder Vergleich ein Vergleichskriterium und dazugehörige Verfahren, um Ähnlichkeiten und Differenzen zwischen den Vergleichseinheiten herzustellen. Drittens funktionieren Vergleiche als „Relationierungsinstrumente“, d. h. sie stellen Relationen zwischen den Vergleichseinheiten her, also kategoriale Relationen, die Sinnzusammenhänge zwischen den Einheiten herstellen, ohne dass die Einheiten sich explizit aufeinander zu beziehen brauchen. Oftmals stellen Vergleiche auch „ordinale“ Relationen (Fourcade 2016; Barnard und Fourcade 2021 in diesem Band) zwischen den Vergleichseinheiten her, wenn die Resultate des Vergleichs beispielsweise in einer Rangliste dargestellt werden (Heintz 2019). Vergleiche bewerten, indem sie die Vergleichseinheiten in Besser/schlechter-Relationen zueinander stellen.

Um digitale Empfehlungen ausgeben zu können, muss Vergleichbarkeit der Dinge und Vergleichbarkeit der Nutzerinnen gegeben sein. Das grundlegende Produktionsmittel, um diese Vergleichbarkeit herzustellen, ist die Datenbank:

By capturing consumer activities ubiquitously and in minute detail, databases become repositories of complex consumer lives by turning behavior into abstract aggregates of individualized and individualizing data points. Once consumption has been dematerialized and been made available as coded, standardized and manipulable data, there are no more limits to the construction of difference, to classification, and to social sorting (Zwick und Denegri Knott 2009, S. 222).

Aber wie kommen Daten in die Datenbank? Die Datafizierung von Personen ist ein Prozess, der ihre Verhaltensweisen und Attribute für die Maschine konstruiert und lesbar macht. Grundsätzlich gilt, dass die Kontinuität des gelebten Alltags und gelebter Identitäten in diskrete Kategorien und Handlungsweisen übersetzt wird, die als solche teilweise erst geschaffen werden müssen (Alaimo und Kallinikos 2017). Empfehlung mithilfe von Collaborative Filtering oder automatisierten inhaltsbasierten Empfehlungen beruht auf einer „Selbsterzeugung“ (Heintz 2021 in diesem Band) der Daten: Digitale Interfaces offerieren ihren Nutzerinnen „grammars of action“ (Agre 1994). Das sind vorgefertigte und standardisierte Handlungsofferten („click“, „share“, „like“, „view“, „rate“ etc.), die bei ihrer Ausführung durch die Nutzerinnen entsprechende Einträge in der Datenbank anlegen. Vergleichbarkeit wird hier durch eine Standardisierung erzeugt, die Differenzen in der Gebrauchsweise z. B. des Likes einebnet (Paßmann und Gerlitz 2014; Gerlitz 2016), d. h. die Bedeutung, die Facebook mit einem Like verbindet, muss nicht die gleiche sein, die die User damit verbinden. Facebook mag den Like als positive emotionale Reaktion definieren. Die User müssen diese Deutung aber keineswegs teilen. Ein Like kann ironisch, als Lesezeichen oder als Geschenk in einer reziproken Like-Ökonomie vergeben werden. Die Stärke und der Wert des Likes bestehen gerade darin, dass auf der Seite der User interpretative Flexibilität möglich ist und auf der Seite der Datenbank die Handlung des Likens gleichzeitig so standardisiert ist, dass Massen unterschiedlichster Nutzerinnen über ihre Likes vergleichbar werden. Die Vergleichbarkeit wird hier hergestellt durch „Encoding“, d. h. ein genau definiertes Modell von Aktionen, Subjekten und Objekten (Alaimo und Kallinikos 2017).

Die Unterscheidung verschiedener Empfehlungssysteme macht deutlich, dass Vergleichbarkeit auf unterschiedliche Weisen hergestellt werden kann. Grundsätzlich lassen sich zwei Typen von Daten unterscheiden. Die von Thurman und Schifferes (2012) vorgelegte Definition von Personalisierung macht darauf aufmerksam, dass nicht nur passiv erzeugte Verhaltensdaten eine Rolle spielen, sondern auch aktiv erhobene Präferenzen der Nutzerinnen. Sie verstehen unter Personalisierung eine

form of user-to-system interactivity that uses a set of technological features to adapt the content, delivery and arrangement of a communication to individual users’ explicitly registered and/or implicitly determined preferences (Thurman und Schifferes 2012, S. 776, meine Hervorhebungen).

Nutzerdaten können sowohl explizit erfragt als auch implizit erschlossen werden (s. a. Seaver 2019, S. 429 f.). Beispielsweise bietet Facebook seinen Nutzerinnen die Möglichkeit, explizite Präferenzen und Kategorien in dafür vorgesehenen Kästchen zu erfassen: Geschlecht, Wohnort, Alter, Ausbildung, Lieblingsbücher etc. Das beste Beispiel für explizite Präferenzen sind aber von Netflix, Amazon oder Webshops nachgefragte Bewertungen: „Wie bewerten Sie Produkt X auf einer Skala von 1–5?“. Gleichzeitig werden Präferenzen, Bewertungen oder soziale Kategorien aber auch aus Verhaltensweisen oder Nutzerrelationen abgeleitet. Wer immer wieder Beiträge zu Kunstausstellungen anklickt, interessiert sich wohl für Kunst; wer immer wieder mit den gleichen Freunden kommuniziert, mag vielleicht auch, was diese schon angeklickt haben (z. B. Seaver 2019 zu Facebooks EdgeRank).

Personalisierung muss auch nicht notwendigerweise heißen, dass Relevanzen nur für einzelne Individuen gelten. Nutzerinnen können auch als Mitglieder kategorialer Gruppen angesprochen werden:

Personalization is a process that changes the functionality, information access and content, or distinctiveness of a system to increase its personal relevance to an individual or category of individuals (Fan und Poole 2006, S. 183, meine Hervorhebung).

Bestimmte Techniken der Empfehlung beruhen auf Kategorisierung ex ante. Zwar sind die Eingabemasken ebenfalls standardisiert, doch müssen die Nutzerinnen sich anhand einer Auswahl konventioneller Kategorien selbst einordnen: männlich, zwischen 25 und 35 Jahren, Schweizer; interessiert an: Eishockey, Innenpolitik, Heimwerken etc. Präsentiert werden dann Empfehlungen von Dingen, die mit denselben Kategorien codiert wurden. In diesem Sinne geht es bei diesen idealtypischen Formen der Empfehlung also nicht um die Erkennung von Verhaltensmustern, sondern um Stereotypisierung, den Zusammenhang von Personenkategorien und Kategorien der Dinge. Fisher und Mehozay (2019, S. 1181 f.) sprechen mit Bezug auf eine sozialwissenschaftliche Episteme von einer „ascriptive conception of the individual“: „the conception of the audience in the mass media was based on a scientific episteme, whereby individuals were cataloged into social categories“ (Fisher und Mehozay 2019, S. 1181 f.). Demgegenüber ist Empfehlung über Collaborative Filtering dem neuen Modus der „algorithmic episteme“ zuzuordnen: Die verwendeten Kategorien unterscheiden sich fundamental: „[T]hey represent not social categories, but patterns of data“ (Fisher und Mehozay 2019, S. 1185 f.).

Während die Surveillance Studies (z. B. Lyon 2003), aber auch die Marktsoziologie (z. B. Fourcade und Healy 2017) davon ausgehen, dass Nutzerinnen verglichen werden, zeigt der Blick auf die algorithmische Hinterbühne deren Dezentrierung. Im Unterschied zu anderen bewertenden Vergleichen, wie sie z. B. klassische Rankings vornehmen, bewerten inhaltsbasierte und Collaborative-Filtering-Empfehlungssysteme nicht lediglich die Vergleichseinheiten an sich, sondern die Matches – die Passung – von Personen und Dingen. Traditionelle Vergleiche setzen nur die Vergleichseinheiten in eine ordinale Relation, indem sie z. B. Individuen anhand ihrer Testscores vergleichen. Demgegenüber vergleichen Matchings paarweise Kombinationen. Personalisierung heißt dementsprechend, dass die Passung (d. h. die Relation in Form eines Ähnlichkeitsscores) zwischen einer Nutzerin und Dingen (z. B. Filme) zum Vergleichskriterium wird, nach dem die Filme verglichen werden, um den passendsten vorzuschlagen. Oder umgekehrt: Die Passung zwischen einem Film und allen Nutzerinnen wird zum Vergleichskriterium, nach dem die Nutzerinnen verglichen werden. In Anlehnung an Zelizer (2006) lassen sich personalisierte Empfehlungen deshalb als „good matches“ konzeptualisieren, die dazu dienen, die (wirtschaftlichen) Beziehungen zwischen Unternehmen, Nutzerinnen, Dingen und Kundinnen aufrechtzuerhalten und zu pflegen (genauer Abschn. 4).

3 Die Vielfalt der Empfehlung

3.1 Nicht personalisierte Popularitätsmetriken

Leserinnen von Onlinemedien können wählen zwischen meistgelesenen, meistkommentierten oder meistgeteilten Artikeln (Die Zeit). Wer sich überlegt, welcher Film die geeignete Feierabendunterhaltung sein könnte, kann aus der Liste von populären oder aktuell aufstrebenden (trending) Filmen auswählen (Netflix: „Popular on Netflix“, „Trending Now“). Musikstreaming-Anbieter wie Spotify haben zahlreiche Listen im Angebot, die der Logik der Musikcharts folgen, z. B. Today’s Top Hits, Deutsche Charts oder die beliebtesten Songs einer Künstlerin. Onlineshops zeigen ihren potenziellen Kundinnen Bestseller, angesagte Neuheiten oder Top-10-Kategorien. Bei der Auswahl von Restaurants oder Hotels helfen mir Seiten wie Yelp.com oder Booking.com, die durchschnittliche User-Ratings aufbereiten.

Nicht personalisierte Empfehlungen erscheinen im Gegensatz zur vieldiskutierten Personalisierung unspektakulär, doch sind sie allgegenwärtig. Für Konstan und Ekstrand heißt „nicht personalisiert“, dass allen Nutzerinnen dieselben Items angezeigt werden. Alle erhalten die gleichen Empfehlungen: Die „aggregierten Präferenzen“ der klickenden oder explizit bewertenden Nutzerinnen dienen als „predictions“ für die Präferenzen aller Nutzerinnen. Diese Art der Empfehlung beruht auf der Grundannahme (oder für Konstan und Ekstrand auf einer der Not geschuldeten Arbeitshypothese, da zu wenig Daten über die Nutzerinnen vorhanden sind), dass die besten oder populärsten Dinge für alle gleichermaßen relevant sind. Gemäß Tarleton Gillespie identifizieren Trending-Algorithmen nicht, „was spezifisch für ‚dich‘ relevant sein könnte“, sondern „was bei ‚uns‘ allgemein populär ist“ (Gillespie 2017, S. 78).

Auf Coursera beschreiben Konstan und Ekstrand verschiedene Varianten, wie nicht personalisierte Empfehlungen hergestellt und dargestellt werden können. Je nach „domain“ – also den Anwendungsbereichen, wie etwa News-Webseiten, E‑Commerce oder Empfehlungsportale (Ribes et al. 2019), – eignen sich unterschiedliche Arten der Berechnung von Popularität. Die vermeintliche Logik nicht personalisierter Empfehlungen ist so verlockend einfach wie irreführend: Es handelt sich mitnichten darum, einfach zu zählen, wie viele Nutzerinnen etwas angeklickt oder mit einem Like versehen haben. Ein einfaches Beispiel vermag das zu verdeutlichen. Würde die Webseite einer Tageszeitung die meistgelesenen Artikel aller Zeiten auf der Startseite anordnen, hätte sie wohl bald keine Leserinnen mehr, da sich auf der Startseite kaum je etwas ändern würde. „Meistgelesen“ oder ähnliche Rankingkriterien sind meistens mit einem Zeitindex versehen: am meisten gelesen in den letzten 24h.Footnote 7 Da in den meisten Fällen nicht absolute Popularität, sondern Informationen über zeitlich, räumlich und sozial begrenzte Popularität erwünscht ist, müssen Popularitätsmetriken festlegen, welches Zeitfenster, welche Nutzerinnen und welche Beiträge wie gezählt werden (Gillespie 2017 zu Twitter-Trends). Dies lässt sich am Beispiel von Hackernews explorativ darstellen.

Ekstrand bespricht das Beispiel, wie die Webseite HackernewsFootnote 8 ihre Beiträge auf der Webseite ordnet. Die Nutzerinnen der Webseite konnten Beiträge mit Upvotes und Downvotes bewerten. Eine naheliegende Variante, die Beiträge zu sortieren, bestünde darin, die Differenz von Upvotes und Downvotes als Score oder als Vergleichskriterium zu verwenden. Da es aber das Ziel ist, „to highlight hot or new stuff“ (Salihefendic 2015, k. S.), ist die Zeit in der Formel zur Berechnung des Scores zentral. In die Formel ist deshalb ein „decay factor“ eingebaut, der dafür sorgt, dass der Score mit zunehmendem Alter zuerst sehr schnell und dann immer langsamer abnimmt. Das bedeutet auch, so Ekstrand, dass frühe Up- und Downvotes einen höheren Einfluss haben als spätere. Damit die Items auf Hackernews in Bezug auf die Kriterien „Hotness“ und „Neuheit“ vergleichbar sind, reicht die Aggregation nominaler Nutzerbewertungen (+1, −1) oder die reine Sortierung nach Alter des Artikels nicht aus. Nutzerbewertungen und Alter müssen in einer mathematischen Formel zur Berechnung des „Hotness/Newness“-Scores zusammengezogen werden. Erst dann lassen sie sich in ein ordinales Ranking einsortieren, das den Ansprüchen von Hackernews genügt.

Bei manchen nicht personalisierten Empfehlungen fällt auf, dass der angegebene Score nicht mit der Positionierung im Ranking übereinstimmt. Auf Hackernews stehen Items mit niedrigeren Punktezahlen vor höheren; auf Spotify steht nicht unbedingt derjenige Song mit den meisten „listens“ an erster Stelle der populären Songs einer Künstlerin.Footnote 9 Die Ordnung des Rankings (wie die Dinge angeordnet sind) unterscheidet sich von der Ordnung der aggregierten Ratings (welchen Score die Dinge ausweisen). Verschiedene Ordnungslogiken können sich überlagern, wie die Differenz zwischen „Prediction“ und „Recommendation“ zeigt:

We typically focus on two tasks. The first is the predict task: given a user and an item, what is the user’s likely preference for the item? … The second task is the recommend task: given a user, produce the best ranked list of n items for the user’s need. An n‑item recommendation list is not guaranteed to contain the n items with the highest predicted preferences, as predicted preference may not be the only criteria used to produce the recommendation list (Ekstrand et al. 2011, S. 86 f.).

Die Unschärfe in der angezeigten Ordnung der Dinge verweist auf ein epistemisches Problem. Popularität, Qualität oder Trends sind nicht Dinge, die irgendwo da draußen existieren und sich mit den richtigen Methoden beobachten und messen lassen.

Trends sind keine unabhängigen Phänomene: Anders als beispielsweise Abonnentenzahlen oder die Anzahl an Likes, beanspruchen sie noch nicht einmal, verifizierbare Fakten darzustellen. „Trends“ können hunderte Bedeutungen annehmen oder auch gar nichts bedeuten (Gillespie 2017, S. 85).

Popularitätsmetriken werden hergestellt, indem kontingente, möglicherweise aber auch institutionalisierte Entscheidungen getroffen werden, was als Indikator für Popularität oder Qualität wie gezählt und verrechnet und wie für die Nutzerinnen aufbereitet wird. Sobald das einmal festgelegt ist, nehmen die Scores als vermeintlich objektive Repräsentationen einer Realität da draußen ein Eigenleben an.Footnote 10

Popularitätsmetriken stellen einerseits kategoriale Relationen von vergleichbaren Einheiten und andererseits ordinale Relationen zwischen den verglichenen Einheiten her, die das Populärere vom weniger Populären unterscheiden. Als Form der Empfehlung beziehen sich Popularitätsmetriken auf ein diffuses Wir, in dessen Namen und für dessen Erwägung sie Relevanz, Präferenz, Qualität oder Interessantheit suggerieren. Obwohl die Popularität oder Qualität nicht personalisierter Empfehlungssysteme sich auf eingegrenzte Nutzergemeinschaften beziehen, werden sie oftmals als Ausdruck einer allgemeinen Popularität (Gillespie 2017) oder einer den Dingen inhärenten Qualität gelesen.

Dominique Cardon (2016) betrachtet die Logik der Popularität als eine Bestärkung von Konformismus und Mainstream. Seine Kritik verweist auf die Grundannahme nicht personalisierter Empfehlung, dass es sinnvoll sein kann, die Inhalte einer Webseite nach Popularität zu ordnen, da Popularität (zumindest in Abwesenheit besserer, personalisierter Alternativen) ein guter Prädiktor der Präferenzen aller Nutzerinnen oder einer durchschnittlichen Nutzerin ist. Cardons Kritik des Mainstreaming ist die Kehrseite des Argumentes, dass Personalisierung zur Fragmentierung der Öffentlichkeit führt, die geteilte Erfahrungen zunehmend unwahrscheinlich machen. Vor dem Hintergrund der Fragmentierungsdiagnose erscheinen Ordnungslogiken, die sich an allgemeiner Popularität und inhärenter Qualität orientieren, in einem positiveren Licht: „Anstatt sie zu zerreißen, rufen Trending-Algorithmen Öffentlichkeiten eher zusammen“ (Gillespie 2017, S. 85). Nicht personalisierte Empfehlungen generieren keine formalen Relationen zwischen den Nutzerinnen, deren Aktivitäten aggregiert werden, und den Nutzerinnen, denen die Popularitätsrankings oder aggregierten Ratings angezeigt werden. Die Logik der Popularität erzeugt zwar die Suggestion eines gemeinsamen Wirs, das aber diffus im Sinne einer „imagined community“ bleibt.Footnote 11

3.2 Stereotypisierung: „I’m not a 15-year-old girl“

Die Stärke von Popularitätsmetriken liegt darin, dass sie auch dann Empfehlungen machen können, wenn über die Nutzerin nichts bekannt ist.Footnote 12 Was populär ist, treffe aber womöglich nicht den Geschmack der Nutzerin, der Empfehlungen präsentiert werden sollen:

Popularity as I said can be useful. If I’m looking for popular new songs, I might look at the top 10 chart or the top 100 chart. On the other hand that chart might be dominated by songs popular among high schools girls. And I don’t know how well you can see me in these videos but I’m not a 15-year-old girl (C1W2-01A).

Eine Lösung könne darin bestehen, „to loosely personalize if not to the individual then to some attributes of the individual“ (C1W2-03A). Etablierte Kategorien, wie Geschlecht, Alter, Wohnort, Einkommen etc., aber auch Kombinationen davon wie Lebensstile, könnten als Proxies für Geschmack, Interessen und Konsumentscheide dienen. Solche Informationen werden bei der Registrierung erhoben oder können von Drittanbietern erworben werden (Bivens und Haimson 2016; Crain 2018). Gemäß Konstan sind demografische Daten für Empfehlungssysteme eine wertvolle Ressource, weil sie relativ einfach zu erheben sind und für neue Nutzerinnen, über die sonst wenig bekannt ist, stereotypisierende Empfehlungen generieren können. Ich bezeichne solche Empfehlungen als „stereotypisierend“ (statt „stereotypisch“), da sie auf Konvention und vermeintlichen Selbstverständlichkeiten beruhende Relationen zwischen Gruppen und Dingen herstellen.

Die Herstellung einer stereotypisierenden Empfehlung schließt in ihrer Logik an Popularitätsmetriken an. Anstatt Popularität über die Gesamtpopulation von Nutzerinnen zu erheben, lässt sich diese mithilfe demografischer Kategorien „desaggregieren“. Damit wird eine weitere Vergleichsebene eingeführt. Ein einfaches Beispiel: Eine Population von Nutzerinnen bewertet Filme auf einer Skala von 1–5. Aus diesen Bewertungen lassen sich Durchschnittswerte für alle bewerteten Filme berechnen, um sie dann absteigend nach bester Bewertung zu sortieren. Es resultiert ein Vergleich, konkret eine Bestenliste, der von der Community bewerteten Filme. Da die Nutzerinnen bei der Registrierung ihr Geschlecht angegeben haben, lassen sich die „global averages“ nach den Kategorien männlich und weiblich aufschlüsseln, wodurch zwei weitere Bestenlisten entstehen: „Beliebt bei Frauen“ und „Beliebt bei Männern“.

You’re selling things, and it turns out that the most popular products for women are different from the most popular products for men. Break down those summary statistics, and display the relevant products on your page when a man or woman arrives (C1W2-03A).

Die Liste „Populäre Filme bei Frauen“ behauptet nicht eine allgemeine Relevanz, sondern bringt spezifische Nutzerkategorien mit spezifischen, für diese Gruppe relevanten Dingen in eine Relation. Stereotypisierende Empfehlungen unterstellen die Gleichheit aller einer Kategorie zugehörigen Nutzerinnen und einen Zusammenhang zwischen kategorialen Gruppen und zugehörigen Dingen.

Kategoriale Zugehörigkeiten dienen als Indikatoren für bestimmte Interessen und Geschmackspräferenzen der Webseitenbesucher. Diese Intuition schließt sowohl an sozialwissenschaftliche Erkenntnisse und Methoden als auch an Methoden des „mass marketing“ des 20. Jahrhunderts an (Fisher und Mehozay 2019). Riedl und Konstan (2002) verweisen auf historische Vorläufer und Abgrenzungsfolien, von denen sich Technologien der Personalisierung rhetorisch abgrenzen – obwohl sie nach wie vor damit verquickt sind (Pridmore und Hämäläinen 2017). Joseph Turow (2003) erzählt die Geschichte der Segmentationspraktiken in der Werbebranche als eine der langen Präsenz, aber zögerlichen Anwendung: Demografisches „Targeting“ – „Personalisierung“ avant la lettre – war zwar als Technik bereits bekannt, doch erschien es in der ersten Hälfte des 20. Jahrhunderts als ineffizient, da Werber mit möglichst wenig Aufwand ein möglichst großes Publikum erreichen wollten. Targeting beginnt in den USA erst mit einer Ausdifferenzierung von Konsumprodukten und einer Ausdifferenzierung der Medienlandschaft Fuß zu fassen: Produzenten materieller Güter versuchen mit leicht unterschiedlichen Varianten derselben Produkte unterschiedliche Marktsegmente zu erreichen (Turow 2000, S. 240 f.) beziehungsweise überhaupt erst ihre Produkte von generischen zu Produkten mit Wiedererkennungswert, d. h. Markenprodukten, zu machen (Beniger 1986, Kap. 8). Radiosender, Magazine und später Kabelsender richten sich an spezifische demografische Segmente, die mit spezifischen Lebensstilen und Produktpräferenzen in Verbindung gebracht werden (Turow 2003, Kap. 2; Fisher und Mehozay 2019). Demografisches und dann auch Lifestyle-Targeting setzt sich aber erst durch, als sich (unter Werbeleuten) Theorien einer zunehmend fragmentierten Gesellschaft verbreiten. Die kulturelle Plausibilisierung, dass unterschiedliche Gruppen unterschiedlich konsumieren, und die technischen Entwicklungen der Computerisierung und statistischer Methoden der Konsumentenforschung waren verbunden mit einer faktischen Ausdifferenzierung von Öffentlichkeiten (Turow 2003, Kap. 3).

Sowohl die Publikumsforschung des „mass-marketing“ als auch die stereotypisierenden Empfehlungssysteme stellen Interessen und Präferenzen nicht nur beschreibend dar. Turow in seiner historischen Aufarbeitung von Segmentationspraktiken wie auch Konstan und Ekstrand selbst weisen auf das ko-konstitutive Verhältnis von Konsumentenkategorien und Produkten hin. Unternehmen stellen nicht nur Produkte her, sondern in Zusammenarbeit mit Marketingabteilungen und Datenbanken auch die zugehörigen Konsumentinnen (Zwick und Denegri Knott 2009). Konstan argumentiert in Form einer Anekdote, dass stereotypisierende Empfehlungen in vielen Fällen funktionieren, weil schon in der Produktion an bestimmte Zielgruppen gedacht wurde.

[The recommender] worked way too well to believe that the machine learning could simply learn your preferences in many cases. With six or seven preferences, it nailed people’s television watching behaviors. And as they explored this, part of what they explained was, this is not an accident. Television programs … are targeted towards particular demographics. If you watched back then 60 Minutes and Murder She Wrote, you were probably a senior citizen. If you watch certain sports programs, you have a 70 % or 80 % chance of being male. If you watch certain soap operas, you had a 70 % or 80 % chance of being female. … the reason that content was created to reach audiences was because advertisers were trying to reach audiences. And the history of mass media was advertisers driving content so that, that content could be used to pitch advertisements for products and generate sales (C1W2-03A).

Produktkategorien erzeugen nicht nur Differenz gegen Außen und Homogenität gegen Innen. Sie beinhalten oftmals auch relationale Komponenten, über die Produkte mit Personenkategorien in Beziehung gesetzt werden. Ein Beispiel dafür ist die Unterscheidung zwischen „white goods“, langweiligen, simplen Haushaltsgeräten, für (Haus‑)Frauen, und „technischen“, zur Unterhaltung gedachten, interessanten „brown goods“ für Männer (Cockburn und Ormrod 1993, Kap. 4). Lien schreibt in ihrer Studie zu den Marketingpraktiken eines norwegischen Nahrungsmittelherstellers: „[T]here is a marked tendency to describe the product in terms of its consumers (and vice versa) thus blurring the conceptual distinction between product and consumer“ (Lien 2000, S. 162).

Konstan und Ekstrand beschreiben eine Art der stereotypisierenden Empfehlung, die dem Paradigma der Demografie- und Marktforschung verhaftet ist. Demografische Kategorien werden explizit abgefragt und über Häufigkeitsauswertungen oder Regressionsanalysen mit spezifischen Verhaltensweisen, Interessen und Werten in Verbindung gebracht. Fisher und Mehozay (2019) sprechen von einer „ascriptive conception of the individual: each individual could be assigned to a category, which could then be sociologically and culturally characterized“ (Fisher und Mehozay 2019, S. 1181). Soziale Kategorien sind weiterhin relevant: Werbekundinnen von Plattformen fragen binäre Genderkategorien nach. Bivens und Haimson (2016) konnten aufzeigen, dass auf der Nutzeroberfläche von Facebook mittlerweile zwar zum Teil aus über 50 Genderkategorien ausgewählt werden kann, diese aber im Hintergrund für Werbekunden wieder binarisiert werden. Sie unterscheiden drei Arten, wie Genderkategorien auf sozialen Netzwerkplattformen zugeschrieben werden. Erstens, Nutzerinnen sortieren sich selbst bei der erstmaligen Anmeldung auf der Plattform in ihre präferierte Genderkategorie ein. Zweitens, Gender wird indirekt zugeschrieben über Daten von Drittanbietern, die beispielsweise über E‑Mailadressen zugeordnet werden können. Drittens, aus datafizierten Verhaltensweisen wird (beispielsweise) auf Genderkategorien rückgeschlossen, d. h. die Relation zwischen Nutzerin und Ding wird nicht mehr über stereotype Kategorisierung hergestellt, sondern über den Vergleich von Verhaltensweisen mit einem etablierten Muster:

While Twitter and LinkedIn maintain genderless sign-up pages and profile pages, both of these platforms use user data and actions to algorithmically infer a binary gender category to satisfy their advertising and marketing clients (Bivens und Haimson 2016, S. 6).

Zwischen diesen beiden Arten der Zuschreibung von Genderkategorien und der dritten besteht eine qualitative Differenz. Während demografische Identitätskategorien oftmals essenzialistisch gedacht sind, sind Identitätskategorien als „patterns of data“ (Fisher und Mehozay 2019) formbarer und gewissermaßen agnostisch (Cheney-Lippold 2011). Cheney-Lippold beschreibt solche Proto-Kategorien als „measurable types“:

A measurable type is a data template, a nexus of different datafied elements that construct a new, transcoded interpretation of the world. These templates are most often used to assign users an identity, an algorithmic identification that compares streams of new data to existing datafied models. Categorical membership is assigned based on algorithmic fit: if one’s data is spoken for ‚as if‘ it was produced by a ‚terrorist‘, for example, one is seen to be a terrorist. And fit is subsequently based only on what data is available to be measured, so membership – and identity at large – is based exclusively on data (Cheney-Lippold 2017, S. 47).

Der Referenzpunkt von „measurable types“ ist aber nach wie vor die soziale Kategorie, zumindest wenn das Identitätsmodell mit Verfahren des „supervised-learning“ erstellt wurde. Demografische Kategorien werden also nicht gänzlich überflüssig. Solange Kunden von Werbeplattformen mit stereotypisierenden Segmenten arbeiten, werden demografische Kategorien relevant bleiben. Sie müssen aber nicht mehr explizit nachgefragt werden, sondern lassen sich aus Mustern in den Daten ableiten.

3.3 Inhaltsbasierte Empfehlungen: User = Item?

Stereotypisierende Empfehlungen verwenden demografische Variablen als Proxies für Interessen und Präferenzen. Die Zugehörigkeit zu verschiedenen kategorialen Gruppen wie Frauen, Bi-Sexuelle oder über 65-Jährige kann ein Prädiktor sein für Risikoverhalten, Konsumentscheidungen oder Einstellungen. Von solchen Zusammenhängen gehen auch Disziplinen wie die Versicherungsstatistik, die Marktforschung oder die empirische Sozialforschung aus.

Im Gegensatz dazu greifen inhaltsbasierte Empfehlungen nicht auf solche kategorialen Zugehörigkeiten zurück, um daraus Rückschlüsse auf Interessen oder Verhaltensweisen zu ziehen. Bei inhaltsbasierten Empfehlungen spielt Similarität zwischen Nutzerinnen keine Rolle. Die Nutzerinnen werden weder kategorialen Kollektiven zugeordnet noch zu einer Nachbarschaft von ähnlichen Nutzerinnen in Relation gesetzt wie beim Collaborative Filtering (Abschn. 3.4). Was für den Einzelnen als relevant oder interessant eruiert wird, basiert auf einem Matching, d. h. einem Vergleich von paarweisen User-item-Ähnlichkeiten. Dementsprechend können sogar dann Empfehlungen berechnet werden, wenn nur eine einzige Nutzerin im System ist (Jannach et al. 2011, S. 51). In dieser Hinsicht ließen sich inhaltsbasierte Empfehlungen auch als personalisierteste aller Empfehlungen beschreiben, da sie die Nutzerin tatsächlich „in splendid isolation“ betrachten. Bezeichnenderweise bezieht sich Nicolas Negroponte, Mitbegründer des MIT Media Lab, mit seinem Konzept der personalisierten Zeitung Daily Me (Negroponte 1996, S. 153) auf das damals am MIT entwickelte inhaltsbasierte Empfehlungssystem „Fishwrap“ (Harper 2009; zu Fishwrap s. Chesnais et al. 1995).Footnote 13

Bei inhaltsbasierten Empfehlungssystemen geht es aber nur am Rande um die Nutzerinnen. Im Zentrum steht die Katalogisierung von Dingen. Ein einfaches Beispiel eines fiktiven Empfehlungssystems für wissenschaftliche Fachartikel soll zeigen, dass es für die inhaltsbasierte Empfehlung praktisch kein Wissen über die Nutzerin braucht.

Der Katalog des Empfehlungssystems für wissenschaftliche Fachartikel umfasst 1000 Artikel. Jeder Artikel ist formal durch mehrere Schlagwörter definiert, die entweder die Autorin, eine „Crowd“ von „Taggern“ oder ein automatisiertes „Pre-Processing“Footnote 14 dem Text zugewiesen haben (Jannach et al. 2011, S. 52 f.; Lops et al. 2011, S. 94 f.). Nun landet eine Nutzerin per Internetsuche auf dem Artikel „Die Ordnung der Empfehlung“. Das System weiß nichts über diese Nutzerin, außer dass sie sich für diesen einen Artikel mit den Schlagworten „Empfehlungssysteme“, „Vergleich“ und „Digitale Ökonomie“ interessiert. Welche weiteren Artikel sollen ihr angezeigt werden? Artikel, die möglichst ähnlich sind. Das heißt, um der Nutzerin eine Empfehlung anzubieten, matcht das System das Profil der Nutzerin mit passenden Artikeln (User-Item-Matching). Da die Nutzerin aber über den betrachteten Artikel definiert ist, besteht im Prinzip kein wesentlicher Unterschied zu einem Item-Item-Matching. Das System berechnet zuerst die Ähnlichkeit dieses Artikels mit allen anderen Artikeln,Footnote 15 d. h. für jede paarweise Kombination von „Nutzerprofil“ (verstanden als Profil des betrachteten Artikels) und Artikel wird ein Ähnlichkeitsscore bestimmt. Damit lassen sich die 999 Items hinsichtlich ihrer „Similarität zum aktiven Nutzerprofil“, d. h. zum aktiven Artikel, vergleichen und für die Nutzerin sortiert nach Ähnlichkeit anordnen. Am Ende könnten ihr z. B. die drei ähnlichsten Artikel auf der Seite präsentiert werden.Footnote 16 Inhaltsbasierte Empfehlungssysteme scheinen zwar die einzelnen Nutzerinnen in „splendid isolation“ zu betrachten, tatsächlich behandeln sie sie aber als Äquivalent zu Dingen.

3.4 Collaborative Filtering: Eine algorithmische Sozialität

Stereotypisierende Empfehlungen brauchen kategoriale Informationen über die Nutzerinnen; inhaltsbasierte Empfehlungen benötigen Informationen über die „Substanz“, d. h. den Inhalt von Dingen. Collaborative Filtering braucht weder das eine noch das andere.

In Collaborative Filtering, we ignore the user and item attributes. We don’t care what’s in the item. We don’t care who the user is. We only look at the interactions between users and items. And we mine patterns from these, such as looking at what people like you also bought (C2W1-01A).

Mit „interactions“ sind hier die Bewertungen durch die Nutzerinnen gemeint. Das klassische Collaborative Filtering benötigt solche Bewertungen als Grundlage aller Berechnungen. Die Nutzerinnen werden entweder aufgefordert, explizite Bewertungen abzugeben oder implizite Bewertungen werden aus Verhaltensdaten abgeleitet (Seaver 2018). Damit radikalisiert Collaborative Filtering das schon in der Stereotypisierung angelegte dualistische Verständnis von Individuen. Eine Nutzerin ist durch ihre Bewertungen von Dingen, ein Ding ist durch die Bewertungen der Nutzerinnen definiert (Seaver 2012). John Riedl und Joseph Konstan sehen in diesem Verzicht auf Identitätskategorien eine Chance, Empfehlungen nicht mehr aus diskriminierenden Stereotypisierungen ableiten zu müssen und grenzen das Verfahren des Collaborative Filtering explizit von den Segmentationstechniken des Marketings ab:

The problem is, simple demographics don’t begin to tell the story of individuals. People who like chess can also like football and chili contests. People cross taste lines all the time if they’re permitted to. … The vestiges of mass marketing still hound us, however. Businesses insist on feeding the same products and ads to people who share the same age, race, gender, and class. … If it’s drilled into us that because we’re young, white, middle-class girls we should drink Pepsi and like Britney Spears, we probably will. But it doesn’t mean, in a world where we weren’t pigeonholed, that we wouldn’t buy something else. … Racial profiling and profiling your customers both spring from the same lazy, prejudiced philosophy (Riedl und Konstan 2002, S. 112 f.).

Stereotypisierung beruht auf einer Relationierung von Nutzerinnen und Dingen über kategoriale Zugehörigkeit. Wie aber wird eine Relation hergestellt, ohne sich auf Kategorien zu berufen? Collaborative Filtering eruiert „patterns of data“ über zweifache Matchings – als eine spezifische Variante des Vergleichs, die die paarweise Relationierung von Einheiten (Nutzerinnen, Dinge) als Vergleichskriterium verwenden: Erstens durch ein Matching der Nutzerinnen (User-User), um „Nachbarschaften“ festzulegen; zweitens durch ein Matching von Nutzerinnen und Items, um Empfehlungen zu generieren (User-Item).Footnote 17

Im ersten Matching, dem User-User-Matching, wird eine Nutzerin Alice mit allen anderen Nutzerinnen Barbara, Carla und Nora paarweise in Relation gesetzt, um ihre Ähnlichkeit mit den anderen Nutzerinnen festzustellen. Es wird berechnet, wie ähnlich sich Alice und Barbara, wie ähnlich sich Alice und Carla und wie ähnlich sich Alice und Nora (usw.) sind. Ähnlichkeit mit Alice wird zum relationierenden Vergleichskriterium, nach dem Barbara, Carla und Nora verglichen und als temporäre Nachbarinnen („people like you“) von Alice „kategorisiert“ und von „people unlike you“ unterschieden werden können. Die Nachbarinnen bilden die Berechnungsgrundlage für das zweite Matching, das User-Item-Matching. Bei diesem zweiten Schritt wird ein Item ausgewählt, das Alice noch nicht bewertet hat, ihre Nachbarinnen aber schon. Aufgrund der Bewertungen ihrer Nachbarinnen wird eine Vorhersage berechnet, die darüber Auskunft gibt, wie gut Alice dieses Item bewerten wird. Für alle Items, die Alice noch nicht bewertet hat, wird diese Berechnung durchgeführt. Die noch nicht bewerteten Items können jetzt mit dem Kriterium höchste vorhergesagte Bewertung durch Alice verglichen werden. Dasjenige Item mit der höchsten vorhergesagten Bewertung wird Alice auf der Benutzeroberfläche präsentiert.

Steht Stereotypisierung exemplarisch für ein askriptives Verständnis von Individuen, so drückt sich im hier präsentierten Empfehlungsmodus des User-User-Collaborative-Filtering ein algorithmisches Verständnis von Individuen aus (vgl. Fisher und Mehozay 2019; Cheney-Lippold 2011). Im Gegensatz zu den relativ fixen und benennbaren Identitätskategorien transformieren sich algorithmische Identitäten „from one click to the next“ (Cohn 2019, S. 46) und tauchen gar nicht erst als benennbare Kategorien auf. Sobald Alice und die anderen Nutzerinnen zusätzliche Bewertungen abgeben, lassen sich Nachbarschaften und vorhergesagte Bewertungen neu berechnen. Nachbarschaften mögen sich durch eine relative Persistenz auszeichnen,Footnote 18 die „patterns of data“ sind aber prinzipiell fluide und nicht durch die Grenzen sozialer Kategorien fixiert. Alice wird bei der nächsten Berechnung von Empfehlung möglicherweise neue Nachbarinnen dazugewinnen und andere verlieren.

Collaborative Filtering beinhaltet nicht nur eine algorithmische Identität, sondern vor allem auch eine algorithmische Sozialität (vgl. Bucher 2013, S. 490). Genügt für inhaltsbasierte Empfehlungen eine einzige Nutzerin in „splendid isolation“, ist hier die Relationierung zu allen anderen der Ausgangspunkt einer Empfehlung. Personalisierung im Sinne einer singularisierenden Adressierung auf der Nutzungsoberfläche beruht ironischerweise auf algorithmischer, technisch hergestellter Sozialität; einer Sozialität, die in digitalen Infrastrukturen ohne das Wissen der Nutzerinnen hergestellt wird. Nutzerinnen, die nie in direkten Kontakt getreten sind oder jemals treten werden, „kooperieren“ insofern, als ihre Bewertungen von Dingen zur Ressource für Empfehlungen für andere werden. Collaborative Filtering ermöglicht Kollaboration ohne Gemeinschaft. Die Empfehlungen für Alice kommen nur zustande, weil andere Nutzerinnen ebenfalls Dinge bewerten.

Matchings als spezifische Form des Vergleichs verdeutlichen, dass Nutzerinnen auf der Hinterbühne des User-User-Collaborative-Filtering nur in Relationen vorkommen. Um zu sehen, was mit algorithmischer Sozialität gemeint ist, also was das Kollaborative an Collaborative Filtering ist, ist es instruktiv, die ersten Collaborative-Filtering-Empfehlungssysteme in den Blick zu nehmen, die damals noch als Online-Interessengemeinschaften konzipiert wurden. Eine frühe, nichtautomatisierte Variante von Collaborative Filtering war „Tapestry“, ein Empfehlungssystem für Dokumente.

Collaborative filtering simply means that people collaborate to help one another perform filtering by recording their reactions to documents they read. Such reactions may be that a document was particularly interesting (or particularly uninteresting). These reactions, more generally called annotations, can be accessed by others’ filters (Goldberg et al. 1992, S. 61).

Diese frühe Form des Collaborative Filtering hebt dessen soziale Komponente hervor (Cohn 2019, S. 72 ff.): Der Filter ist ein kollektives Produkt, das ermöglicht wird, indem unterschiedliche Leute mit den Dokumenten „interagieren“ (Kommentare schreiben, antworten, weiterleiten etc.). Vorausgesetzt ist, dass Nutzerinnen für andere Nutzerinnen identifizierbar und untereinander bereits bekannt sind:

you know that Smith, Jones and O’Brien read all of comp.unix-wizards newsgroup material, and reply to the more interesting documents. Tapestry allows you to filter on ‚documents replied to by Smith, Jones, or O’Brien‘ (Goldberg et al. 1992, S. 62).

Tapestry verlangte von den Nutzerinnen, explizite Filter zu definieren, indem sie sich auf bekannte und vertrauenswürdige Beziehungen beziehen: Es brauchte „human effort to establish the relationship between the people making and the people receiving the recommendation“ (Riedl und Konstan 2002, S. 5 f.).

Das Musikempfehlungssystem RINGO und seine Weiterentwicklung Firefly automatisierten „Word-of-mouth“-Empfehlungen: „[I]nstead of having to ask a couple friends about a few items, a social information filtering system can consider thousands of other people“ (Shardanand und Maes 1995, S. 211). Pattie Maes entwickelte RINGO zu Firefly weiter, das zu einem der ersten sozialen Netzwerke werden sollte. Collaborative Filtering, so Maes, habe großes Potenzial in „fostering community“ (zit. in Cohn 2019, S. 74). Um das Potenzial auszuschöpfen, ermöglichte Firefly über eine Chat-Funktion, mit ähnlichen Nutzerinnen Kontakt aufzunehmen (Cohn 2019, S. 74). In diesem Sinne empfahl Firefly nicht nur Musik, sondern auch ähnliche Nutzerinnen. Der Begriff „Collaborative Filtering“ kommt daher, dass tatsächlich einige dieser frühen Systeme als Interessengemeinschaften konzipiert waren: Nutzer kollaborierten miteinander, um Empfehlungen für Musik und andere Dinge auszutauschen – vermittelt über das Empfehlungssystem.

Im Unterschied zu Bestenlisten, von denen ich auch profitieren kann, wenn ich selbst keine Bewertungen abgebe, ist das bei Collaborative Filtering gerade nicht möglich. Im Gegensatz zu inhaltsbasierten Empfehlungen reicht es auch nicht aus, wenn das System zwar über mein Profil verfügt, aber keine Informationen über andere besitzt. Und die Relationierungsmethode der Stereotypisierung, auf der Basis von kategorialen Zugehörigkeiten auf Präferenzen zu schließen, erscheint im Vergleich zum Collaborative Filtering als diskriminierend. Demgegenüber ist das User-User-Matching eine algorithmische Form der Relationierung, die mich (verstanden als „interactions“ mit Dingen) und andere (verstanden als ihre „interactions“ mit Dingen) in Bezug auf „Ähnlichkeit“ vergleicht. Relationen zu ähnlichen Nutzerinnen dienen als Ressource für die Berechnung von Empfehlungen. Am Beispiel von Tapestry – dem ersten Empfehlungssystem, das unter der Bezeichnung Collaborative Filtering figurierte – lässt sich erkennen, dass diese Art der Empfehlung auf sozialen Beziehungen beruht. Collaborative Filtering automatisiert die Erzeugung dieser Beziehungen unter dem Motto: „Wir wissen nicht, ob zwischen Euch zwei eine Beziehung besteht, beruhend auf Euren Gewohnheiten, Eurem Geschmack oder Ähnlichem tun wir aber so, als ob es eine Beziehung gäbe, um daraus eine Empfehlung zu generieren“. Algorithmische Relationen treten an die Stelle sozialer Beziehungen. Wie Bucher für Facebook argumentiert, haben unsere digitalen Freundschaften Konsequenzen dafür, was uns angezeigt wird: „The [digital] connections we forge with other people may have real consequences as the conditions of the intelligible and sensible is increasingly calculated on the basis of who our friends are, what they have done, and how many of them there are“ (Bucher 2013, S. 490). Collaborative Filtering nimmt uns sogar die Aufgabe ab, digitale „Freundschaften“ selbst zu artikulieren.

4 Relationierung statt Singularisierung

Die Analyse verschiedener Empfehlungssysteme ging von einem Alltagsverständnis von Personalisierung aus: „Ich sehe andere Dinge als du“. Auf der Benutzeroberfläche werden wir zwar als Individuen angesprochen, die Annahme, dass Empfehlungssysteme das einzelne und einzigartige Individuum für sich betrachten, erweist sich aber als unhaltbar. Kallinikos und Alaimo (2019) haben auf die Widersprüche der Personalisierung hingewiesen. Einerseits beruht Personalisierung auf in hohem Maße standardisierten Verhaltensangeboten, die die Nutzerinnen und Dinge als vergleichbare Datenprofile überhaupt erst hervorbringen. Andererseits sind Nutzerinnen auch in personalisierten Systemen nicht individualisiert, sondern immer über „interactions between users and items“ und/oder über potenziell stetig wechselnde „ähnliche“ Nutzerinnen definiert. Auf der algorithmischen Hinterbühne steht die Nutzerin also nicht für sich, sondern sie steht auf ganz unterschiedliche Weisen in Relationen zu anderen Nutzerinnen und zu Dingen. Erst auf dieser Ebene wird sichtbar, wie sich die Modi der Relationierung unterscheiden.

Popularitätsmetriken stellen ordinale Relationen von Dingen her und suggerieren ein diffuses Wir. Sie pauschalisieren: Was populär ist, wird allen als gleichermaßen relevant empfohlen. Stereotypisierende Empfehlungen richten sich dagegen nicht pauschal an alle, sondern an spezifische Gruppen. Sie stellen kategoriale Relationen zwischen Nutzerinnen und Dingen her unter der Annahme, dass Personen gleicher kategorialer Zugehörigkeit ähnliche Interessen haben. Inhaltsbasierte Empfehlungssysteme und Collaborative Filtering verzichten auf kategoriale Vorentscheidungen und sind deshalb gezwungen, Relationen auf andere Weise herzustellen. Die von mir vorgestellte Variante eines inhaltsbasierten Empfehlungssystems erscheint auf den ersten Blick als personalisierteste Empfehlungsform: Die Nutzerin scheint in Isolation betrachtet zu werden, da es weder eine kategoriale noch eine algorithmische Relationierung zu anderen Nutzerinnen braucht. Trotzdem steht nicht die Nutzerin im Fokus, sondern die Dinge oder der Katalog der Dinge und ihre Eigenschaften. Die Differenz von Nutzerin und Ding wird eingeebnet: Die Nutzerin ist, was sie sich zuletzt angesehen hat. Die Dinge werden dann in Bezug auf ihre Ähnlichkeit zu diesem zuletzt angesehenen Ding verglichen und die ähnlichsten Dinge präsentiert. Das Matching von User und Item ist äquivalent zu einem Matching von Item und Item. Die einfache Variante des User-User-Collaborative-Filtering braucht weder Nutzerkategorien noch Wissen über die inhaltliche Beschaffenheit von Dingen, sondern explizite (z. B. über Sterne) oder implizite (zu Ende lesen, teilen etc.) Bewertungen. Collaborative Filtering erzeugt Relationen zwischen Nutzerinnen und zwischen Nutzerinnen und Dingen über zwei Matchings: User-User und User-Item. Das User-User-Matching wird als funktionales Äquivalent zu Vertrauensbeziehungen zwischen einander bekannten Nutzerinnen eingesetzt. Die automatisierte, algorithmische Sozialität von „Nachbarinnen“, die die Dinge auf ähnliche Weise bewerten, ist die Ressource für das User-Item-Matching.

Insgesamt ist eine Tendenz zu einer reflexiven Definitionsweise auszumachen: Personen werden über ihre Beziehungen zu Dingen definiert und umgekehrt können Dinge über ihre Beziehungen zu Personen definiert werden. Diese Tendenz kündigt sich bereits bei der Verwendung von Segmentationstechniken an, wie sie von Lien (2000, 1997) in ihrer Studie zu den Marketingpraktiken eines norwegischen Nahrungsmittelherstellers beschrieben werden: Konsumentinnen sind beispielsweise darüber definiert, welche Art von Tiefkühlpizza (z. B. vegetarisch oder „real American pan pizza“) sie konsumieren, und umgekehrt sind Tiefkühlpizzen durch ihre Konsumentinnen charakterisiert. Seaver parallelisiert Liens Analyse von Segmentationspraktiken mit Collaborative Filtering:

[D]emographic marketing is a way of understanding groups of people through their correspondences with groups of things … [In Collaborative Filtering] users are known as a collection of relations to items and items are known as a collection of relations to users. Persons and things enjoy no separate modes of existence in the matrix, which is indeed a function for translating one into the other (Seaver 2012, k. S.).

Im Fall von Collaborative Filtering ist die wechselseitige Definition von Personen und Dingen fundamentaler. Nutzerinnen sind nichts anderes als die durch ihre Handlungen (kaufen, liken, „views“ etc.) indizierten Relationen zu den Items und umgekehrt. Collaborative Filtering beruht, wie Riedl und Konstan (2002) betonen, nicht auf Annahmen über kategoriale Merkmale oder Gruppenzugehörigkeiten von Nutzerinnen oder Attributen von Dingen. Es gibt keine kategorial benennbaren Differenzen mehr, sondern nur noch temporäre Similaritäten, die über Affinitätsmetriken eruiert werden. Soziale Kategorien werden tendenziell unwichtiger. Temporäre, algorithmische „Proto“-Kategorien rücken an ihre Stelle (Fisher und Mehozay 2019).

5 „Good matches“

Anstelle von pauschalen oder kategorialen Relationierungen von Nutzerinnen und Dingen verwenden inhaltsbasierte Empfehlungen und Collaborative Filtering paarweise Matchings, um Relationen zwischen Nutzerinnen und Dingen herzustellen. Es werden nicht nur einzelne Dinge oder einzelne Personen bewertet, sondern der „Fit“ von spezifischen Dingen mit spezifischen Nutzerinnen. Traditionelle Vergleiche beobachten die Vergleichseinheiten für sich. Im Unterschied dazu beobachten und bewerten Matchings Zweierkombinationen von Nutzerin und Nutzerin, Nutzerin und Ding oder Ding und Ding anhand von „Ähnlichkeit“. Um Empfehlungen zu berechnen, werden nicht Nutzerinnen verglichen, sondern Relationen zwischen Nutzerinnen und Dingen (Produkte, News-Artikel, Filme etc.). Diese Relationen werden dann miteinander verglichen, um entscheiden zu können, welche Nutzerinnen als Nachbarinnen gelten, welche potenziellen Partner zuerst angezeigt (vgl. Peetz 2021 zu Tinder in diesem Band) oder welche Relationen von Nutzerinnen und Dingen die höchsten Chancen auf eine positive Rezeption haben (welcher Film motiviert die Nutzerin, weiter zu konsumieren; welche Werbung motiviert die Nutzerin, zu klicken).

Fourcade und Healy (2016) schlagen vor, Viviana Zelizers (2006) Konzept der „good matches“ auf digitale Daten anzuwenden. Wie Zelizer (1994) darlegt, markieren Formen des Zahlens Beziehungen zwischen den Austauschenden. In einer späteren Arbeit spricht sie von „good matches“ zwischen verschiedenen Geldern/Zahlungsweisen und Kategorien von Personen oder Arten von Beziehungen. Durch ökonomische Transaktionen werden Beziehungen von anderen Beziehungen unterschieden: „Good matches“ „[get] the economic work of the relationship done and [sustain] the relationship“ (Zelizer 2006, S. 307). Daran anknüpfend wendet Levy (2013, S. 75) das Konzept auf Daten an: „People constitute and enact their relations with one another through the use and exchange of data“. Levy legt den Fokus auf persönliche Beziehungen zwischen Nutzerinnen von datenbasierten Systemen. Sie gibt dazu das Beispiel einer Smartphone-App, die es den Nutzerinnen erlaubt, den Standort von Freunden in Echtzeit zu überwachen. Damit differenzieren die Überwacherinnen zwischen denjenigen Freundinnen, die sie überwachen, und allen anderen. Fourcade und Healy (2016, S. 17) gehen einen Schritt weiter. Die Nutzung von digitalen Angeboten generiert Daten, die die Nutzerinnen hinter ihrem Rücken z. B. als kreditwürdig oder als gesundheitsbewusst „markieren“.Footnote 19 Unternehmen nutzen diese Daten, um „good matches“ zwischen Konsumentinnen und Produkten herzustellen – z. B. zwischen einer wohlhabenden Kundin und einer Kreditkarte mit hohem Limit.

Der Fokus auf Empfehlungssysteme verdeutlicht, dass der Wert von Personendaten für die Unternehmen der digitalen Ökonomie darin besteht, Nutzerinnen und Dinge, Nutzerinnen und Nutzerinnen und Dinge und Dinge zueinander in Beziehung setzen zu können. Die Produktion von Empfehlungen kann als ein über Relationierung operierender Prozess angesehen werden, der eine Passung von Nutzerinnen und Dingen herstellt. „Good matches“ gehen über das Matching von Nutzerinnen und Dingen hinaus. Sie involvieren auch Unternehmen und Drittparteien wie Werbekundinnen oder Entwicklerinnen. „Good matches“ sollen die Beziehungen zwischen all diesen Parteien via Empfehlung (und weiterem Konsum) aufrechterhalten.Footnote 20 Die datenbasierten Relationierungsweisen von Empfehlungssystemen sind der Kitt, der Unternehmen und Nutzerinnen (und Dritte) über „good matches“ von Nutzerinnen und Dingen zusammenhalten soll. Aus dieser Perspektive lässt sich Personalisierung als eine organisationale Praxis (Kallinikos und Alaimo 2019) verstehen, in der paarweise Relationen (Daten) die Grundlage eines größeren, möglicherweise reziproken (Fourcade und Kluttz 2020) Beziehungsgeflechts zwischen Unternehmen, Nutzerinnen, Dingen (und je nachdem auch Werbekundinnen und Entwicklerinnen) bilden.Footnote 21 Digitale Empfehlung oder Personalisierung ist in diesem Sinne nicht bloß eine Technologie, die Nutzerinnen als Individuen in algorithmischen Feedback-Loops positioniert (Kant 2020), sondern vor allem auch eine, die gute Beziehungen zwischen Unternehmen, Nutzerinnen und Dritten (Werbekundinnen, Entwicklerinnen) via „good matches“ zwischen Nutzerinnen und Dingen erzeugen soll.

Die Rekonzeptualisierung von Empfehlungssystemen als Systemen des „good matching“ korrespondiert mit einer rhetorischen Rahmung durch die Unternehmen selbst. Datensammlungsaktivitäten werden oftmals als eine Austauschbeziehung gerechtfertigt. Die Kundinnen überlassen den Unternehmen ihre Daten und erhalten im Gegenzug relevantere Angebote (Fourcade und Kluttz 2020). Obwohl diese Rahmung wohl weitgehend eigennützig ist, verweist sie auf die stets notwendige Arbeit an der Beziehung zwischen Unternehmen und Kunden, die mit den Mitteln der Empfehlung geleistet wird. Unternehmen und Kundinnen rücken dadurch in ein intimeres Verhältnis zueinander, was Ruckenstein und Granroth (2019) als „intimacy of surveillance“ bezeichnen. Aufseiten der Nutzerinnen kann es durchaus lustvoll sein, von den Unternehmen richtig erkannt und eingeschätzt zu werden: „Good matches“, die die Beziehung aufrechterhalten und vertiefen. Gleichermaßen kann es aber auch zu negativen Erlebnissen kommen: Falsche, unpassende, zu gut passende, unangemessene oder die Privatsphäre verletzende Empfehlungen sind Alltag von Internetnutzerinnen.

6 Fazit

Meine Untersuchung der verschiedenen Typen von Empfehlungssystemen hat drei Dinge gezeigt. Erstens werden soziale Kategorien tendenziell unwichtiger. Kategoriale Zugehörigkeit wird nicht mehr ex ante zugeschrieben. Stattdessen werden temporäre Übereinstimmungen von Verhaltensweisen und „measurable types“ bestimmt oder auf benennbare Kategorien wird ganz verzichtet wie im Collaborative Filtering. Zweitens werden Nutzerinnen und Dinge zunehmend formal und relational gedacht: Eine Nutzerin ist definiert über ihre Interaktionen mit Dingen; ein Ding ist definiert über die Interaktionen mit Nutzerinnen (Kallinikos und Alaimo 2019; Seaver 2012). Drittens beruhen Empfehlungen auf einer spezifischen Form des Vergleichs, die insbesondere im Mechanismus des „Matchings“ zum Ausdruck kommt: Verglichen werden nicht Nutzerinnen oder Dinge, sondern Relationen von Nutzerinnen und Dingen.

Für die Untersuchung von algorithmischen Technologien der Personalisierung ist es wenig hilfreich, Personalisierung mit einer Tendenz zu Individualisierung und Singularisierung gleichzusetzen. Im Kern der Personalisierung stehen nicht das Individuum oder die Nutzerin „in splendid isolation“, sondern Nutzerinnen in pauschalen, kategorialen oder paarweisen Relationen zu anderen Nutzerinnen oder Dingen. Auf der algorithmischen Hinterbühne lässt sich also das Gegenteil von Isolierung beobachten: Die Nutzerinnen werden in immer dichtere Netze von Relationen eingesponnen, die nicht nur andere Nutzerinnen und Dinge umfassen, sondern auch Unternehmen und Drittparteien (Werbekundinnen, Entwicklerinnen, Content-Producer etc.).