Netzwerkanalyse

Jünger, Jakob; Gärtner, Chantal

doi:10.1007/978-3-658-37747-2_10

4585 Accesses

Zusammenfassung

Dieses Kapitel führt in die Methode der Netzwerkanalyse ein. Sie lernen Grundbegriffe und Kennwerte der Netzwerkanalyse kennen und erlernen Techniken zur Erhebung, Aufbereitung und Analyse von Netzwerkdaten.

Im Online-Repositorium unter https://github.com/strohne/cm finden Sie begleitend zum Kapitel weitere Materialien, auf die wir im Text mit ☛ verweisen.

You have full access to this open access chapter, Download chapter PDF

Schlüsselwörter

Die Welt lässt sich in vielen Bereichen als Netzwerk begreifen. Menschen stehen über Kommunikation in Beziehung zueinander, Begriffe stehen zueinander in semantischen Beziehungen und selbst die Abfolge von Ereignissen lässt sich als zeitliche Beziehung interpretieren (Albrecht 2013; Wasserman und Faust 1994, S. 9). Die Netzwerkanalyse bietet Werkzeuge und Ansätze, um solche Beziehungsdaten auszuwerten.

Netzwerkanalysen sind ein typisches Anwendungsfeld automatisierter Methoden und werden sowohl in den Sozial- als auch in den Geisteswissenschaften vielfältig eingesetzt (Amaral 2017; Cioffi-Revilla 2010, S. 260). Das liegt möglicherweise daran, dass mittlerweile in vielen Lebensbereichen umfangreiche Beziehungsdaten anfallen, die manuell kaum zu bewältigen sind. Es gibt aber noch einen weiteren Grund dafür, dass gängige statistische Verfahren hier an Grenzen stoßen. Klassischerweise wird in der Statistik meist unterstellt, dass Beobachtungen voneinander unabhängig sind. Das ist bei Beziehungsdaten grundsätzlich nicht der Fall – ganz im Gegenteil, die Rolle einer Person als Mutter ergibt sich erst daraus, dass sie auch mindestens ein Kind geboren, adoptiert oder umsorgt hat. Die Netzwerkanalyse stellt Methoden bereit, um solche Abhängigkeiten zu berücksichtigen.

Netzwerkanalyse ist dabei sowohl Methode als auch Theorie (Beckert 2005, S. 287 ff.). Sie umfasst unterschiedliche Verfahren, um Netzwerke zu konzipieren, zu beschreiben und auszuwerten. Gleichzeitig gehen mit methodischen Aspekten auch grundlegende theoretische Positionen einher, wie aus der Akteur-Network-Theory (Latour 1996), der relationalen Soziologie (White 2008) oder aus Feldtheorien (Bourdieu 1985). Zum Beispiel führte die Analyse von Netzwerkdaten zu der theoretischen Erkenntnis der Strength of Weak Ties, wobei lose, schwache Bekanntschaftsbeziehungen im Gegensatz zu engen, starken Freundschaftsbeziehungen in sozialen Netzwerken eine entscheidende Relevanz für den Gesamtzusammenhalt des Netzwerks haben (Granovetter 1973).

In den Sozial- und Geisteswissenschaften können grundsätzlich drei Arten von Netzwerken unterschieden werden, die je andere Gegenstände als Netzwerk betrachten und entsprechend unterschiedliche Fragen aufwerfen:

In sozialen Netzwerken interessieren Beziehungen zwischen Akteuren (Wasserman und Faust 1994, S. 20), also zwischen Einzelpersonen, kollektiven oder korporativen Akteuren. Dadurch kann beispielsweise betrachtet werden, wie sich soziale Ungleichheit formiert (Jansen 2003, S. 237 ff.) oder wie Identität in sozialen Bewegungen ausgehandelt wird (Diani und McAdam 2003).
Semantische Netzwerke bilden stattdessen die Beziehungen zwischen Konzepten ab. So können beispielsweise Informationen zur Repräsentation von Wissen (Quillian 1967) oder Frames in Nachrichtenartikeln (Schultz et al. 2012) netzwerkanalytisch konzipiert und analysiert werden. Zur Modellierung von Wissensstrukturen eignet sich auch das Resource Description Framework (siehe Abschn. 3.7).
Um Prozesse zu untersuchen, können diese als raumzeitliche Netzwerke modelliert werden. Hiermit kann unter anderem die Abfolge von Kommunikationsereignissen (Albrecht 2013; Malsch und Schlieder 2004) erfasst werden. Will man etwa Verläufe der Webseitennutzung analysieren, so lassen sich die Übergangswahrscheinlichkeiten von einer Webseite zu einer anderen als sogenannte Markov-Kette (Markov 2006) erfassen, um dann typische Verläufe zu extrahieren. Auch bei der Navigation greift man auf netzwerkanalytische Verfahren zurück, so lässt sich etwa der kürzeste Weg zwischen zwei Orten mit dem Dijkstra-Algorithmus (Dijkstra 1959) berechnen.^{Footnote 1}

Im Kontext von Kommunikationsprozessen fallen alle drei Beziehungsarten immer zusammen. Kommunikation findet zwischen Akteuren statt, enthält Aussagen mit Referenzen auf Konzepte und ist durch einen Mitteilungs- und einen Rezeptionsakt raumzeitlich verortet. Dennoch kann es sinnvoll sein, diese Ebenen analytisch zu trennen und je nach Fragestellung einen Aspekt zu fokussieren,

1 Grundlegende Konzepte der Netzwerkanalyse

Netzwerke können auf unterschiedlichste Weise konzipiert werden, die dafür eingesetzten Begrifflichkeiten und Konzepte sind jedoch weitestgehend einheitlich. Nachfolgend werden zunächst aus graphentheoretischer Sicht die Bestandteile und Eigenschaften von Netzwerken beschrieben und einige Kennwerte zur Analyse von Netzwerken eingeführt. Beschrieben werden die Elemente und Maße anhand des Beispielnetzwerks in Abb. 10.1. Je nachdem, welche Bedeutung den Kreisen zugeschrieben wird, könnte das Netzwerk gemeinsam auftretende Wörter in Texten, Zugverbindungen zwischen Orten oder auch Freundschaftbeziehungen zwischen Menschen abbilden.

1.1 Elemente und Eigenschaften von Netzwerken

Netzwerke bestehen aus Akteuren oder Konzepten, die durch Beziehungen miteinander verbunden sind. Wenn die Kreise in Abb. 10.1 für Personen und die Linien zwischen ihnen für Freundschaften stehen, dann handelt es sich um ein Freundschaftsnetzwerk. Neben solch einer bildlichen Visualisierung von Netzwerken werden Netzwerke formal als Graph beschrieben. Ein Graph ist eine Menge von Knoten (die Menschen) und Kanten zwischen den Knoten (die Freundschaften). Es können zudem unterschiedliche Arten von Knoten in einem Netzwerk enthalten sein, etwa einerseits Menschen und andererseits die Geschäfte, in denen sie einkaufen. Netzwerke mit nur einer Art von Knoten heißen unimodal, wenn zwei Arten enthalten sind, spricht man von bimodalen oder bi-partiten Netzwerken, sind mehr als zwei Arten vorhanden, nennt man die Netzwerke multimodal.

Die Knoten und Kanten weisen unterschiedliche Eigenschaften auf. Wenn Menschen als Knoten aufgefasst werden, dann haben sie etwa soziodemografische Eigenschaften wie das Alter oder ein Geschlecht. Auf Ebene der Beziehungen kann man grundlegend die Stärke der Beziehungen, die Richtung sowie Reziprozität und die Multiplexität unterscheiden. Die Stärke gibt etwa an, wie häufig zwei Menschen miteinander in Kontakt kommen. Sie kann als sogenanntes Kantengewicht im Netzwerk angegeben werden. Spielt die Richtung keine Rolle, wie im Freundschaftsnetzwerk von Abb. 10.1, dann spricht man von ungerichteten Netzwerken, ansonsten von gerichteten. Das kann etwa auftreten, wenn man in jemanden verliebt ist, aber nicht zurückgeliebt wird. In Netzwerkabbildungen werden solche gerichteten Beziehungen durch Pfeile dargestellt, die in eine oder beide Richtungen weisen können. Liegen beide Richtungen vor, spricht man von reziproken oder symmetrischen Beziehungen. Multiplexe Beziehungen liegen vor, wenn mehrere Arten von Beziehungen gleichzeitig untersucht werden, beispielsweise die Freundschaft, der Umfang der Kommunikation und der Umfang gegenseitiger Unterstützung zwischen zwei Menschen.

In bimodalen Netzwerken, beispielsweise bestehend aus Personen und Veranstaltungen, können die Kanten darüber hinaus aus indirekten Beziehungen abgeleitet werden. Dazu unterstellt man, dass Personen, die auf der gleichen Party oder der gleichen Konferenz waren, mit einer gewissen Wahrscheinlichkeit in Beziehung zueinander stehen oder zumindest die Gemeinsamkeit aufweisen, am gleichen Ort gewesen zu sein. Umgekehrt geht man davon aus, dass eher keine Beziehung vorliegt, wenn sich zwei Menschen noch nie begegnet sind. Die gemeinsame Teilnahme wird dann als Beziehungsindikator gewertet, man spricht von Affiliationsnetzwerken. Auch Kooperationen können so erfasst werden, beispielsweise indem Autor:innen, die zusammen Aufsätze oder Bücher publiziert haben, in Beziehung zueinander gesetzt werden. Das gleiche Verfahren lässt sich zur Konstruktion semantischer Netzwerke einsetzen. Zwischen Wörtern oder Konzepten, die häufig im gleichen Satz oder im gleichen Dokument auftreten, wird ein Zusammenhang unterstellt, sodass aus gemeinsamer Okkurrenz ein Kookkurrenznetzwerk entsteht (siehe Abschn. 9.1). Egal ob Kookkurrenz, Kooperation oder Affiliation, in allen Fällen werden aus den Verbindungen zwischen zwei Sorten von Knoten die Verbindungen zwischen einer Sorte von Knoten abgeleitet. Die Grundidee lässt sich vielfältig erweitern, indem man beliebige gemeinsame Eigenschaften als Verbindung begreift, etwa was Personen mögen und nicht mögen oder wo sie sich aufhalten und welche Orte sie meiden. Auf dieser Grundidee bauen Empfehlungssysteme von Onlineplattformen auf.

Durch die Verbindungen zwischen den Knoten entstehen innerhalb eines Netzwerks untereinander stark oder weniger stark verbundene Teilnetze, wobei sich mehrere Arten von Teilnetzwerken unterscheiden lassen:

Der einfachste Fall besteht aus einer Dyade, das heißt, man betrachtet genau zwei Knoten und fragt danach, ob sie miteinander verbunden sind oder nicht.
Das Konzept lässt sich auf drei Knoten erweitern, dann spricht man von Triaden – wie in der Abb. 10.1 zwischen G, H und I oder auch zwischen B, C und D. Auf dieser Grundlage lässt sich zum Beispiel untersuchen, inwiefern Freunde von Freunden auch Freunde sind.
Wird die Bedingung, dass alle mit allen verbunden sein müssen, etwas gelockert, lassen sich über mehrere Ecken verbundene Teilnetze identifizieren. Je nach Verfahren spricht man von Cliquen, Cores, Communities oder Komponenten (zur Differenzierung siehe Jansen 2003, S. 193 ff.).
Interessiert man sich nur für die Knoten und Beziehungen rund um einen einzelnen Knoten, dann spricht man von dem Egonetzwerk des Knotens. Ein Egonetzwerk erster Ordnung umfasst lediglich die direkt verbundenen Knoten, in zweiter bzw. höherer Ordnung werden auch die nachfolgenden Beziehungen zu weiteren Knoten erfasst.

1.2 Maße zur Analyse von (Teil-)Netzwerken

Um die Strukturen zwischen mehreren oder allen Knoten zu untersuchen und zu beschreiben, haben sich in der Netzwerkanalyse einige Maße etabliert (umfassend siehe Wasserman und Faust 1994):

Größe: Zunächst kann man auszählen, wie viele Knoten ein Netzwerk umfasst. Das Gesamtnetzwerk aus Abb. 10.1 hat eine Größe von neun Knoten.
Dichte: Über die Dichte wird angegeben, wie viele Beziehungen von allen möglichen Beziehungen tatsächlich realisiert sind.^{Footnote 2} Das Beispielnetzwerk weist eine Dichte von 0,28 auf, somit sind ein Drittel aller möglichen Beziehungen realisiert.
Reziprozität: Weist ein Netzwerk gerichtete Beziehungen auf, kann über die Reziprozität angegeben werden, wie viele der Beziehungen ein- und wechselseitig sind.
Entfernung: Wie viele Kanten zwischen zwei Knoten liegen, wird über die Pfadlänge angegeben. Um im Beispielnetzwerk von F zu E zu gelangen, benötigt man drei Schritte, von F zu B dagegen nur einen. Wie groß die Distanzen im gesamten Netzwerk sind, wird über die durchschnittliche Pfadlänge zwischen allen Knoten errechnet.^{Footnote 3}
Komponenten: Die Anzahl der einzelnen Komponenten in einem Netzwerk zeigt, wie viele Teilnetzwerke untereinander in keiner Beziehung stehen. Im Beispielnetzwerk aus Abb. 10.1 finden sich zwei Komponenten (einmal die Knoten A bis F, dann die Knoten G bis I).

Ein wichtiges Konzept, um Netzwerke zu analysieren, ist die Zentralität. Zentralitätsmaße können zum einen für Netzwerke als Ganzes berechnet werden, um zu betrachten, wie stark alle Knoten von einigen wenigen Knoten abhängen. Netzwerke sind also nicht zwangsläufig flach, auch Hierarchien, Ketten oder Gitter lassen sich als Netzwerk darstellen. Hierarchische Beziehungen zwischen über- und untergeordneten Begriffen treten beispielsweise in semantischen Netzwerken auf. Zum anderen können Zentralitätsmaße auch für einzelne Knoten ermittelt werden, um Knoten in Schlüsselpositionen zu finden. Demnach ergeben sich die Eigenschaften von Akteuren und Konzepten aus der Netzwerkstruktur.

Um die Zentralität eines Knotens zu bestimmen, haben sich unterschiedliche Verfahren etabliert. Bevor Sie weiterlesen: Betrachten Sie einmal das Beispielnetzwerk (Abb. 10.1) und überlegen Sie, welchen Knoten Sie besonders wichtig finden und weshalb!

Typische Zentralitätsmaße sind der Degree, die Betweenness und die Closeness:^{Footnote 4}

Auf Knotenebene wird beim Degree die Anzahl der Beziehungen eines Knotens, etwa die Freunde im Freundschaftsnetzwerk, ausgezählt. Ein Knoten mit einem hohen Degree kann als ein populärer oder prestigeträchtiger Knoten interpretiert werden. So hat beispielsweise der Knoten B den höchsten Degree von 4, er hat also die meisten Beziehungen. Im Gegensatz dazu, kennen E und F je eine Person aus dem abgebildeten Netzwerk und haben damit einen Degree von 1.
Ein Knoten kann auch dadurch eine zentrale Rolle spielen, dass er verschiedene Teilnetze verbindet, sodass viele Wege innerhalb des Netzwerks über ihn laufen. Er hat dann eine vermittelnde oder überbrückende Position. Möchte beispielsweise Knoten B den Knoten E kennenlernen, so könnte C die beiden miteinander bekannt machen. Ein solcher Knoten hat eine hohe Betweenness, ohne dass damit zwangsläufig ein hoher Degree einhergehen muss. Die Betweenness eines Knotens berechnet sich aus der Anzahl der kürzesten Pfade zwischen allen anderen Knoten, die über diesen Knoten laufen.
Knoten sind auch dann zentral, wenn sie im Durchschnitt schnell alle anderen Knoten im Netzwerk erreichen. Diese indirekte Einbindung in das gesamte Netzwerk wird über die Closeness bestimmt. Sie berechnet sich entsprechend aus der durchschnittlichen Entfernung zu allen anderen Knoten. Im Freundschaftsnetzwerk können ebensolche Knoten schnell Informationen aus dem gesamten Netzwerk verbreiten oder erhalten.

Insgesamt können also unterschiedliche Analyseeinheiten in der Netzwerkanalyse herangezogen werden: die Knoten und Kanten jeweils für sich genommen, die verschiedenen Arten von Teilnetzwerken oder das Gesamtnetzwerk. Weil die Eigenschaften von Gesamtnetzwerken von den einzelnen Teilen abhängen und umgekehrt, spricht man von Emergenz: Das Ganze ist mehr als die Summe seiner Teile. Die Dichte des gesamten Netzwerks hängt von den Beziehungen zwischen einzelnen Akteuren ab, ohne dass die Akteure selbst schon eine Dichte hätten.

1.3 Hypothesentests und Netzwerkmodellierung

Das bislang vorgestellte Vokabular ist vor allem zur Beschreibung von Netzwerken geeignet. Netzwerkanalysen werden auch durchgeführt, um Zusammenhänge und Unterschiede zu erklären. So könnte man danach fragen, inwiefern das gleiche Geschlecht oder gemeinsame Interessen verschiedener Personen dazu beitragen, dass sich Freundschaften ausbilden. Diese Fragestellungen lassen sich mit der klassischen Statistik nur eingeschränkt beantworten – zum einen, weil die Beobachtungen nicht unabhängig voneinander sind (eine grundlegende Annahme vieler statistischer Verfahren), und zum anderen, weil ein soziales Netzwerk immer schon typische Strukturmerkmale aufweist. So zeichnen sich Freundschaftsnetzwerke üblicherweise durch einen gewissen Anteil reziproker Beziehungen und lokaler Cluster aus. Auch ist in der Regel erwartbar, auf schiefe Degree-Verteilungen zu stoßen, das heißt, einige wenige Knoten sind deutlich stärker verbunden als die meisten anderen.^{Footnote 5}

Will man solche Aussagen (inferenz)statistisch überprüfen, so bieten sich Simulationen anstelle von klassischen Wahrscheinlichkeitsberechnungen an. Aus dem Vergleich von simulierten Welten mit der empirischen Welt lässt sich dann abschätzen, wo in der empirischen Welt überzufällige Zusammenhänge bestehen.^{Footnote 6} Um solche Zusammenhänge zwischen Eigenschaften von Knoten und Kanten unter Berücksichtigung struktureller Eigenschaften zu untersuchen, eignen sich beispielsweise Exponential Random Graph Models (Robins et al. 2007) oder Agentenbasierte Simulationen (siehe Kap. 11). Die Herausforderung besteht also darin, das Erwartbare vom Besonderen zu trennen.

1.4 Die Erhebung von Netzwerkdaten

Bei der Erhebung von Netzwerkdaten besteht das Ziel darin, Knoten und Kanten systematisch zu erfassen und in eine auswertbare Form zu bringen. Dabei sollte man sich vor Augen führen, dass Netzwerke nicht einfach vorliegen, sondern Beziehungen gezielt für die Datenanalyse konstruiert werden. Dafür können unterschiedliche Datenquellen herangezogen werden (Kap. 2). Prozessgenerierte Daten fallen unabhängig von wissenschaftlichen Projekten etwa bei der Nutzung von Onlineplattformen an und können teilweise über Webscraping oder Programmierschnittstellen (APIs) erhoben werden (siehe Kap. 7). Auch Datenbanken wie WikiData stellen eine Fundgrube für Netzwerkanalysen bereit, da die Daten bereits in einer relationalen Struktur erfasst werden (siehe Abschn. 3.7). Netzwerkanalytische Daten lassen sich zudem auch gezielt im Forschungsprozess über eigene Befragungen generieren. Sekundärdatenanalysen verwenden schließlich Daten, die in vorherigen Projekten erfasst wurden.

Einige Konstrukte, die Gegenstand sozial- oder geisteswissenschaftlicher Fragestellungen sind, verweisen unmittelbar auf Beziehungen, die direkt erhoben werden können. Solche expliziten Beziehungen werden zum Beispiel sichtbar, wenn sich Nutzer:innen auf sozialen Medien gegenseitig folgen oder liken. Darüber hinaus können Beziehungen auch indirekt abgeleitet werden. Wenn Nutzer:innen unter dem gleichen Post kommentieren, bauen sie nicht zwangsläufig bewusst eine Beziehung zueinander auf – allerdings kann ein Zusammenhang zwischen den Akteuren über das Kokommentieren konstruiert werden. Ebenso kann man bei gemeinsam auftretenden Wörtern in einem Text unterstellen, dass die räumliche Nähe auch eine semantische Nähe widerspiegelt, sodass sich daraus eine einfache Form semantischer Netzwerke konstruieren lässt (siehe Kap. 9). In der Netzwerkanalyse unterscheidet man deshalb zwischen einer realistischen und einer nominalistischen Perspektive. Erstere unterstellt, dass die untersuchten Netzwerke tatsächlich auch in der Wirklichkeit vorzufinden sind, während letztere von einem auf die jeweilige Fragestellung zugeschnittenen Konstruktionsprozess ausgeht (Laumann et al. 1983).

Je nach Umfang wird zwischen verschiedenen Erhebungsverfahren unterschieden (siehe auch Jansen 2003, Kap. 4). Bei einer Vollerhebung werden alle Knoten und Beziehungen eines Netzwerks erfasst. Man könnte beispielsweise eine Liste aller Mitglieder einer Universität erstellen und dann jede einzelne Person dazu befragen, welche anderen Personen sie kennt. Häufig stößt dieses Verfahren an praktische Grenzen. Eine Liste aller Webseiten gibt es beispielsweise nicht. Deshalb werden Sampling-Verfahren angewendet, um gezielt Netzwerkausschnitte zu erheben. Eine gängige Variante ist das Erheben von egozentrierten Netzwerken. Man beginnt bei einer Person oder Webseite und folgt dann schrittweise den Beziehungen. Je nachdem, wie viele Schritte man vom Ausgangspunkt weggeht, spricht man von Egonetzwerken der ersten, zweiten oder n-ten Ordnung. Genau dieses Verfahren wird von Suchmaschinen bzw. von den Webcrawlern der Suchmaschinen verwendet, um nach und nach alle Webseiten aufzufinden und in einer Datenbank abzuspeichern. Ego-Netzwerke sammeln in höheren Ordnungen oft schneeballmäßig eine große Zahl von Knoten, wodurch man bei der Verarbeitung dieser Daten schnell an Limitationen der verfügbaren Ressourcen stößt. Deswegen müssen häufig weitere Sampling-Entscheidungen getroffen werden, um möglichst systematisch und dennoch repräsentative oder zumindest informative Netzwerke zu erheben – beispielsweise wird für jeden Erhebungsschritt nur ein bestimmter Anteil von Knoten oder Kanten ausgewählt, der dann im nächsten Schritt weiterverfolgt wird (siehe zum Beispiel Leskovec und Faloutsos 2006 oder Salamanos et al. 2017).

Netzwerkdaten können durch Erhebung und Aufbereitung in unterschiedlichen Formen abgespeichert werden. Netzwerke lassen sich zunächst als Matrizen erfassen, bei denen Zeilen und Spalten die Knoten sind und eine Beziehung zwischen den Knoten durch 0 oder 1 in den Zellen markiert wird (siehe Abschn. 3.1; Abb. 10.2).^{Footnote 7} Die Diagonale der Matrix kann dazu verwendet werden, Beziehungen der Knoten zu sich selbst festzuhalten.^{Footnote 8} Bei ungerichteten Netzwerken, wie im Beispiel, sind die beiden Hälften oberhalb und unterhalb der Diagonalen identisch. Es macht dann also keinen Unterschied, ob man von der Zeile ausgehend die Spalte sucht oder umgekehrt. Bei gerichteten Netzwerken ist jeweils die eine Richtung (ausgehende Beziehungen) und die andere Richtung (eingehende Beziehungen) auf der unteren bzw. oberen Hälfte erfasst.

Soziale und semantische Netzwerke bestehen oft aus sehr vielen Knoten, wobei nur ein kleiner Anteil der möglichen Beziehungen realisiert ist. Matrizen enthalten deshalb häufig viele Nullen, sie sind nur spärlich besetzt (engl. sparse), was zu einer Platzverschwendung beim Abspeichern führt. Alternativ lassen sich Netzwerke so erfassen, dass nur die bestehenden Beziehungen aufgelistet werden (Abb. 10.2). In der ersten Spalte einer solchen Kantenliste (engl. adjacency list oder edge list) wird die Quelle und in einer zweiten Spalte das Ziel aufgeführt. Die Stärke der Beziehung kann bei Bedarf in einer weiteren Spalte angegeben werden. Zusätzlich zur Liste aller Kanten wird gegebenenfalls eine Knotenliste erstellt, um weitere Eigenschaften zu erfassen, zum Beispiel neben einer Nummer für jeden Knoten auch eine Bezeichnung oder eine Kategorie.

Matrizen eignen sich gut, um bimodale Kookkurrenz- oder Affliationsnetzwerke (siehe oben) in unimodale Netzwerke umzuformen – etwa wenn das Auftreten von Wörtern in verschiedenen Texten in ein Netzwerk zwischen Wörtern umgewandelt oder aus dem gemeinsamen Besuch von Veranstaltungen eine soziale Beziehung abgeleitet werden soll. Stehen die Zeilen für Personen und die Spalten für Veranstaltungen bzw. die Zeilen für Dokumente und die Spalten für Wörter, kann man dies durch Matrixmultiplikation in ein unimodales Netzwerk umformen, in welchem es nur noch Personen oder Veranstaltungen bzw. Dokumente oder Wörter gibt.^{Footnote 9} Auch aus bimodalen Kantenlisten lassen sich unimodale Netzwerke erstellen. Wenn etwa Personen immer in der ersten Spalte aufgeführt sind und Veranstaltungen immer in der zweiten, zählt man aus, wie häufig bei immer zwei Personen die gleiche Veranstaltung angeführt ist. Diese Anzahl kann dann als Gewicht der Beziehung abgespeichert werden.^{Footnote 10}

1.5 Die Visualisierung von Netzwerken

Auch wenn soziale, semantische oder raumzeitliche Beziehungen mit unseren Sinnen nicht direkt wahrnehmbar sind, werden Netzwerke häufig durch visuelle Darstellungen erschlossen. Dabei gilt es zu beachten, dass die Visualisierung von Netzwerkdaten stets eine konstruierte Darstellung ist, das Bild eines Netzwerks ist nicht das Netzwerk selbst. Je nachdem, welche Aspekte eines Netzwerks betont werden sollen, eignen sich unterschiedliche bildliche Darstellungen (Abb. 10.3):

Eine vordefinierte Anordnung ergibt sich aus Matrixdarstellungen. In einer visualisierten Adjazenzmatrix kann man erkennen, ob eine Beziehung vorhanden ist oder nicht. Wenn die Kanten ein Gewicht haben, können die Schnittpunkte aus Zeilen und Spalten auch eingefärbt werden, wodurch eine Heatmap entsteht.
Graphenorientierte Darstellungen bilden alle Knoten ab, wobei die Kanten zwischen den Knoten als Linien visualisiert werden. Wichtig für die Interpretation ist die räumliche Anordnung (engl. layout) von Kanten und Knoten. Die Knoten werden im einfachsten Fall in einer Reihe oder einem Kreis angeordnet und durch Linien oder Bögen verbunden. Hierarchische Netzwerke lassen sich auch gut als Bäume abbilden, um schnell über- und untergeordnete Knoten sichtbar zu machen. Sind die Netzwerke weniger klar geordnet, wird die Anordnung meist durch die Simulation physikalischer Kräfte zwischen den Knoten bestimmt. Eine Variante solcher force-directed Layouts stellen Spring-Embedder-Layouts dar (siehe zum Beispiel Fruchterman und Reingold 1991): Die Knoten stoßen sich durch simulierte elektrische Ladungen ab (repulsion), während sie gleichzeitig durch simulierte Zugfedern zusammengehalten werden (attraction). Lässt man eine entsprechende Simulation eine Zeitlang laufen, ordnen sich stark verbundene Knoten in unmittelbarer Nähe zueinander an. Solche Darstellungen sind in Programmen wie Gephi (Bastian et al. 2009) interaktiv implementiert, wodurch man in ein Netzwerk eintauchen und es explorieren kann. Nachteil solcher Abbildungen ist allerdings, dass Netzwerke schnell unübersichtlich werden, wenn sie groß sind. Sie sehen dann aus wie Hair Balls, aus denen man nur wenige nützliche Informationen herauslesen kann.
Um strukturelle Eigenschaften großer Netzwerke übersichtlich zusammenzufassen, werden Hive Plots eingesetzt (Krzywinski et al. 2012). Auf den Achsen sind Werte wie der Degree abgebildet. Über die bestehenden Verbindungen zwischen den Achsen werden Eigenschaften des Netzwerks sichtbar. So kann beispielsweise schnell erkannt werden, welche Knoten degree-übergreifende Beziehungen aufbauen oder ob vielmehr eine Präferenz für andere Knoten mit einem ähnlichen Degree besteht (Assortativität bzw. Homophilie, siehe zum Beispiel Newman 2003).

2 Erhebung, Analyse und Visualisierung von Netzwerken

Im Folgenden wird ein Beispiel zur Erhebung, Analyse und Visualisierung von Netzwerkdaten durchgespielt. Das Verfolgen und Abspeichern von Beziehungen nennt sich Crawling. Ausgehend von einem YouTube-Video werden weitere, von YouTube empfohlene Videos erfasst. Es werden also direkt die auf YouTube durch das Empfehlungssystem implementierten Beziehungen verfolgt und als Netzwerk aufbereitet. Wie solche Empfehlungen zustande kommen, ist teilweise bei Covington et al. (2016) sowie Davidson et al. (2010) nachzulesen.

Das Beispiel demonstriert eine Kombination von Computational Methods, die sich auch auf andere Anwendungsfälle übertragen lässt. Für die Datenerhebung wird Facepager eingesetzt, um Daten über die API von YouTube zu erheben (siehe Abschn. 7.2). Zur Datenaufbereitung kommt die statistische Programmiersprache R zum Einsatz (siehe Abschn. 5.1). Die Visualisierung findet schließlich mit Gephi statt, einem Tool für Netzwerkanalyse.

Für die Netzwerkanalyse findet sich eine Vielzahl nützlicher Werkzeuge, weitere Softwares sind etwa Neo4j (2022), RSiena (Snijders et al. 2021) oder Cytoscape (Shannon et al. 2003). Wichtig ist nicht so sehr, welches Tool verwendet wird – die Programme können, wenn Sie diesen Text lesen, schon längst anders aussehen oder sogar eingestellt worden sein –, sondern einen typischen Workflow nachzuvollziehen und dabei Anregungen für eigene Analysen zu gewinnen. Eine gute Anlaufstelle für weitere Software stellt die in der weiterführenden Literatur verlinkte Awesome List (Briatte 2021) dar.

2.1 Datenerhebung über die YouTube-API

Facepager ist ein Open-Source-Programm, mit dem ohne eigene Programmierung Daten über Programmierschnittstellen erhoben werden können. Das Programm ist vollständig in Python (siehe Abschn. 5.2) geschrieben und auf GitHub verfügbar.^{Footnote 11} Dort finden Sie auch ein Wiki mit kurzen Einführungen in verschiedene APIs (Getting Started). Die Parameter von APIs ändern sich immer wieder. Wenn Sie diesen Text lesen, müssen die folgenden Schritte möglicherweise bereits angepasst werden. Das Prinzip lässt sich aber auf andere APIs und Parameter übertragen, weitere Hinweise finden Sie dazu im ☛ Repositorium des Buchs. Installieren Sie zunächst eine aktuelle Version von Facepager.

Schritt 1: Startknoten hinzufügen

Nach dem Starten von Facepager legen Sie mit dem Button New Database eine neue Datenbank an. Suchen Sie sich dann ein YouTube-Video als Startpunkt für das Netzwerk aus, zum Beispiel https://www.youtube.com/watch?v=4f9yC4ug8ZU. Der letzte Teil der URL, der auf watch?v= folgt, ist die eindeutige ID 4f9yC4ug8ZU des Videos. Diese ID fügen Sie in Facepager über den Button Add Nodes in der Menü-Leiste als Startknoten (engl. seed node) ein.

Schritt 2: Ähnliche Videos abfragen

Um empfohlene Videos abzufragen, kann das Preset „Get related videos“ verwendet werden, welches Sie über den Button Presets in der Kategorie „YouTube“ finden. In der Beschreibung des Presets erhalten Sie auch Hinweise zur Verwendung und insbesondere einen Link zur Dokumentation der API bei Google. Für den Moment können Sie das Preset einfach über Apply laden. Dabei werden die Voreinstellungen in das YouTube-Modul unten links übertragen (Abb. 10.4). Facepager setzt aus diesen Einstellungen eine URL zusammen, ruft diese URL auf und speichert das Ergebnis in einer Datenbank ab.

Um die YouTube-API nutzen zu können, müssen Sie sich mit einem Google-Konto ausweisen. Zusätzlich muss das Konto mit einem eigenen Channel verbunden sein, den Sie ggf. direkt auf YouTube anlegen. Klicken Sie schließlich in Facepager auf den Login-Button und loggen Sie sich ein. Das Passwort wird dabei nicht von Facepager abgefragt, sondern direkt von Google.^{Footnote 12} Facepager erhält anschließend ein sogenanntes Access Token, um sich gegenüber Google in Ihrem Namen auszuweisen. Wenn Sie das Feld mit dem Access Token später wieder leeren, ist keine weitere Anfrage möglich und Sie müssen sich bei Bedarf neu einloggen.

Nach dem Einloggen klicken Sie in der Nodes View – dem Bereich, in dem die einzelnen Datensätze dargestellt werden – den Startknoten „4f9yC4ug8ZU“ an und anschließend auf Fetch Data. Das Ergebnis wird in der Datenansicht eingeblendet, ggf. müssen Sie den Knoten erst mit dem Dreieck links neben dem Knoten oder über Expand nodes aufklappen. In der Übersichtstabelle auf der linken Seite sind nur ausgewählte Daten angezeigt. Alle für einen Knoten abgefragten Daten, wie die Video-ID, das Veröffentlichungsdatum, den Titel oder die Videobeschreibung, sehen Sie in der Detailansicht auf der rechten Seite. Welche Spalten in der Tabelle erscheinen, wird über das Colum Setup rechts festgelegt.

Von diesem Egonetzwerk erster Ordnung können Sie nun weitergehen und die Videos der Videos abfragen. Sie müssen das nicht manuell für jeden einzelnen Knoten durchführen, Facepager unterstützt sie dabei. Wählen Sie wieder den Knoten „4f9yC4ug8ZU“ auf der obersten Ebene aus und erhöhen Sie in den Einstellungen das Node level (Abb. 10.4, rechts). Um die Videos der Videos abzufragen, stellen Sie das Node level auf 2 – da sich die abzufragenden Knoten auf der untergeordneten, zweiten Ebene des ersten Knotens befinden. Soll nach der zweiten Erhebung anschließend noch das Egonetzwerk der dritten Ordnung erhoben werden, setzen Sie das Node level anschließend auf 3 (Abb. 10.5). Sie können diese Schritte so lange wiederholen, wie Sie wollen, und die Ebene immer weiter erhöhen, müssen aber zunehmend mehr Zeit einplanen. Schon in der dritten Ebene sind im Beispiel über 2000 Knoten enthalten, sodass man schnell an die Rate Limits der API gerät (siehe Abschn. 7.2.3).^{Footnote 13}

Schritt 3: Daten exportieren und aufbereiten

Wenn Sie die Datenerhebung abgeschlossen haben, können Sie die Daten über Export Data exportieren. Achten Sie darauf, dass in den Spalten alle Informationen enthalten sind, die für die Netzwerkanalyse und die Interpretation der Daten wichtig sind, wie die Namen der Kanäle und der empfohlenen Videos. Achten Sie in den Einstellungen des Exportfensters auch darauf, alle Knoten zu exportieren.

Die exportierte CSV-Datei können Sie zum Beispiel mit Excel öffnen, darin finden sich die in Facepager in der Übersicht angezeigten Daten. Zusätzlich ist jeder Datensatz durch eine ID gekennzeichnet. Die Hierarchie zwischen den Datensätzen ist dadurch gekennzeichnet, dass im Feld „parent_id“ die ID der übergeordneten Seite enthalten ist (Abb. 10.6). Das hat bereits Netzwerkcharakter – für die weitere Analyse erstellen Sie daraus eine Kanten- und eine Knotenliste. Die Daten müssen dazu so umgeformt werden, dass nicht die Beziehungen zwischen Datensätzen der Tabelle (von Facepager vergebene IDs), sondern zwischen den Videos (Video IDs bzw. Object IDs) abgebildet werden.

Die Kantenliste und eine Knotenliste lassen sich zum Beispiel mit R erzeugen. Im folgenden Beispiel wird davon ausgegangen, dass die Daten in der Datei videos.export.csv mit einem Semikolon als Trennzeichen im UTF8-BOM-Format abgespeichert wurden (☛ Repositorium):^{Footnote 14}

library(tidyverse) videos <- read_csv2("videos.export.csv", na = "None")

Nach dem Einlesen in R werden zunächst mit filter() die relevanten Datensätze und über select() die nötigen Spalten ausgewählt. Neben den IDs zur Erfassung der Hierarchie werden die ID und der Name des Videos erfasst:^{Footnote 15}

videos <- videos %>% filter(object_type == "data") %>% select(id, parent_id, object_id, snippet.title)

Daraus lässt sich nun eine Kantenliste gewinnen. Über einen left_join wird an jede Zeile die übergeordnete Zeile angehängt. Anschließend werden die relevanten Spalten ausgewählt und direkt in der select()-Funktion umbenannt. Abschließend werden Duplikate über distinct() und unvollständige Zeilen mittels na.omit() entfernt:

edges <- videos %>% left_join(videos, by = c("parent_id" = "id")) %>% select(source = object_id.y, target = object_id.x) %>% distinct()%>% na.omit()

Dadurch wurde jedem Video (als Ziel der Empfehlung) das übergeordnete Video (als Quelle der Empfehlung) zugeordnet. Die Kantenliste besteht dann nur noch aus zwei Spalten mit den IDs der Videos (Abb. 10.7).

In einer Knotenliste können zusätzlich zu den IDs die Namen der Videos oder weitere Merkmale wie der Kanalname festgehalten werden (Abb. 10.8). Da Videos mehrfach empfohlen werden können, entstehen bei der Erhebung Duplikate, die mit distinct() bereinigt werden sollten. Der Parameter .keep_all sorgt dafür, dass die anderen Spalten erhalten bleiben – die Angaben werden dann aus dem jeweils ersten Duplikat übernommen:

nodes <- videos %>% select(id = object_id, label = snippet.title) %>% distinct(id, .keep_all = T)

Um die so aufbereiteten Daten aufzubewahren oder in anderen Programmen weiterzuverarbeiten, können sie schließlich wieder als CSV-Dateien abgespeichert werden:

write_csv2(edges, "videos.edges.csv", na = "") write_csv2(nodes, "videos.nodes.csv", na = "")

2.2 Statistische Analyse von Netzwerken

Auf diesem Datensatz können nun Netzwerkanalysen durchgeführt werden. Innerhalb von R stehen dafür Packages wie igraph zur Verfügung (Nepusz 2022). Die unterschiedlichen Netzwerk-Packages verwenden in der Regel eigene Datenstrukturen, um die Netzwerke zu verwalten. Als Brücke zwischen igraph und dem Tidyverse (siehe Kap. 5) bietet sich tidygraph an (Pedersen 2022). Mit nur einer Zeile lässt sich so aus der Knoten- und Kantenliste ein Netzwerkobjekt erzeugen:

library(igraph) library(tidygraph) graph <- tbl_graph(nodes, edges)

Sobald eine Knotenliste und eine Kantenliste vorliegen, eingelesen und in ein Netzwerkobjekt überführt wurden, kann das Netzwerk statistisch analysiert werden. Das igraph-Package hält dafür eine Vielzahl an Funktionen für alle Ebenen eines Netzwerks bereit (Tab. 10.1). Rufen Sie die Hilfe zum igraph-Package und zu den einzelnen Funktionen auf, um sich einen Überblick über die Möglichkeiten zu verschaffen.

Tab. 10.1 Funktionen für die Netzwerkanalyse in R

Full size table

Ein weiterer typischer Analyseschritt besteht darin, die zentralen Knoten zu bestimmen. Je nach Erkenntnisinteresse werden Zentralitätsmaße wie der Degree, die Betweenness und die Closeness^{Footnote 16} verwendet. Mit den folgenden Funktionen aus dem tidygraph-Package werden diese Werte berechnet und im Netzwerkobjekt abgespeichert:

graph <- graph %>% activate("nodes") %>% mutate(degree = centrality_degree()) %>% mutate(betweenness = centrality_betweenness()) %>% mutate(closeness = centrality_closeness())

Die activate()-Funktion legt fest, ob die folgenden Operationen auf den Knoten oder den Kanten ausgeführt werden. Für die Interpretation kann die Knotenliste mit den neu berechneten Werten aus dem Netzwerkobjekt extrahiert werden. Dazu werden die Knoten aktiviert und in einen Dataframe (=ein Tibble) überführt:

nodes <- graph %>% activate("nodes") %>% as_tibble()

Anschließend lassen sich diese Daten mit typischen Funktionen aus dem Tidyverse exportieren, analysieren oder visualisieren. Geben Sie die Knotenliste beispielsweise mit der arrange()-Funktion nach den verschiedenen Zentralitätsmaßen (absteigend) sortiert aus:

nodes %>% arrange(-degree) nodes %>% arrange(-betweenness) nodes %>% arrange(-closeness)

Wenn Sie die Ergebnisse miteinander vergleichen, finden Sie eventuell Videos, die weniger prominent sind (geringer Degree), aber dennoch eine Schlüsselposition einnehmen und über die Nutzer:innen beim Verfolgen der Empfehlungen von einem Thema zu einem anderen gelangen (hohe Betweenness oder Closeness).

2.3 Visualisierung von Netzwerken

Sobald die Netzwerke in R eingelesen sind, können sie mit einem einfachen Befehl visualisiert werden. Bei großen Netzwerken kann man vorher mit filter() die Knoten mit einem kleineren Degree aussortieren, um die Grafik überschaubar zu halten:

graph <- filter(graph, degree > 1) plot(graph)

Für schönere Grafiken lohnt sich ein Blick in das Package ggraph (Pedersen 2021). Interaktive Grafiken, zum Beispiel für die Einbettung in Webseiten, lassen sich dagegen mit dem Package visNetwork (Almende 2021) erzeugen (☛ Repositorium).

Für die Exploration von Netzwerken eignet sich insbesondere das Programm Gephi. Um die Daten dort weiterzuverarbeiten, benötigen Sie wie oben beschrieben jeweils eine CSV-Datei mit der Knotenliste und mit der Kantenliste. Sie können das Netzwerk auch zunächst mit R vorfiltern und eine übersichtlichere Knoten- und Kantenliste abspeichern. Bevor die Möglichkeiten zur Visualisierung von Netzwerken mit Gephi besprochen werden, ein Wort der Warnung: Stützen Sie Interpretationen nicht allein auf Grafiken. Netzwerkbilder helfen dabei, sich abstrakte Zusammenhänge besser vorzustellen. Es gibt jedoch so viele Möglichkeiten, dass kaum verbindliche und reproduzierbare Visualisierungen herstellbar sind. Versuchen Sie im Zweifelsfall, die Exploration der Bilder mit anderen Verfahren zu validieren. Die Visualisierung können Sie dazu nutzen, in der Analyse herausgearbeitete Erkenntnisse ansprechend darzustellen. Insbesondere die statistische Analyse liefert gut replizierbare Kennzahlen, mit denen die Eigenschaften eines Netzwerks auf den Punkt gebracht werden.

Schritt 1: Daten einlesen

Gephi ist ein Programm, das für die Darstellung und Analyse umfangreicher Netzwerkdaten entwickelt wird. Laden Sie es von der Projektseite herunter und installieren Sie es auf Ihrem Computer.^{Footnote 17} Gephi ist in der Programmiersprache Java geschrieben, deshalb benötigen Sie, falls auf Ihrem Computer noch nicht vorhanden, die Java-Laufzeitumgebung, achten Sie darauf die 64Bit-Version herunterzuladen.^{Footnote 18} Beim Start von Gephi werden Sie aufgefordert, ein Projekt zu öffnen oder ein neues anzulegen. Legen Sie zunächst ein neues Projekt an.

In Gephi lassen sich drei Bereiche unterscheiden, die über die Schaltflächen am oberen Fensterrand umgeschaltet werden:^{Footnote 19}

1.
Im Overview werden die Optionen für die Visualisierung festgelegt (Farbe, Größe, Layout) und das Netzwerk dargestellt. Es können Daten gefiltert und Funktionen zur Berechnung von Kenndaten aufgerufen werden (Abb. 10.9).
2.
Im Data Laboratory werden die Kanten- und die Knotenliste aufgeführt. Hier lassen sich Daten importieren, filtern und bearbeiten.
3.
Im Preview-Fenster werden druckfähige Grafiken erstellt.

Wechseln Sie in den Bereich Data Laboratory und klicken Sie dort in der oberen Leiste auf Import Spreadsheet. Importieren Sie als erstes die Knotenliste und dann auf die gleiche Weise die Kantenliste. Achten Sie darauf, dass die Einstellung Import as jeweils auf „Nodes table“ bzw. auf „Edges table“ steht und hangeln Sie sich durch die Dialoge. Wichtig ist, dass Sie alle Daten in den gleichen Arbeitsbereich importieren. Sie müssen dazu unbedingt die Option Append to existing workspace auswählen (Abb. 10.10).

Für Gephi müssen in den importierten Dateien einige Konventionen eingehalten werden:

In der Knotenliste muss es für jeden Knoten in der Spalte „id“ eine eindeutige Kennung geben. Diese Kennung muss in der Kantenliste in den Spalten „source“ und „target“ zur Kennzeichnung der Beziehungen verwendet werden.
Es sollten möglichst keine Knoten und keine Kanten doppelt vorkommen. Die Stärke von Beziehungen kann stattdessen numerisch über die Spalte „weight“ angegeben werden. Die Bezeichnung der Knoten wird in der Spalte „label“ abgelegt.
Es können zusätzliche Spalten importiert werden, um zum Beispiel Knoten oder Kanten nach weiteren Merkmalen zu filtern oder grafisch unterschiedlich darzustellen.

Wenn Sie mit den oben erstellten Dateien videos.nodes.csv und videos.edges.csv arbeiten, dann können Sie die Voreinstellungen belassen.

Schritt 2: Die Knoten anordnen

Zu Beginn sind die Knoten des Netzwerks zufällig verteilt. Je nach Zielstellung muss man sich zunächst für ein Layout entscheiden.^{Footnote 20} Folgende Schritte führen zu einer Darstellung, in der a) miteinander verbundene Knoten dichter beieinander sind als andere (force-directed layout), b) die Größe der Knoten durch die Anzahl der Beziehungen (degree) bestimmt wird und c) untereinander stark verbundene Bereiche durch eine gemeinsame Farbe gekennzeichnet werden (communities).

Wechseln Sie als Erstes in den Bereich Overview und wählen Sie im Abschnitt Layout unter Choose a layout den Algorithmus ForceAtlas 2 aus (Abb. 10.9). Dieser Algorithmus verwendet eine für umfangreiche Netzwerkdaten geeignete physikalische Simulation: Knoten stoßen sich grundsätzlich voneinander ab, die Kanten wirken aber wie Federn und ziehen die Knoten wieder zusammen (Jacomy et al. 2014). Klicken Sie auf Run, um die Simulation zu starten und die Darstellung über die Parameter des Algorithmus optimieren:

Verändern Sie das Scaling: Mit höheren Werten gehen die Knoten weiter auseinander.
Verändern Sie die Gravity: Mit höheren Werten werden die Knoten stärker in die Mitte gezogen. Bei unverbundenen Graphen mit mehreren Komponenten hält eine starke Gravitation die Teilnetzwerke in der Mitte der Grafik.
Wählen Sie abschließend Prevent Overlap, damit die Knoten nicht übereinander liegen. Prüfen Sie, ob die Option LinLog mode die Darstellung verbessert.

Solange die Simulation läuft, können Sie einzelne Knoten mit der Maus verschieben und so die wirkenden Kräfte nachvollziehen. Wenn Sie das Netzwerk bei Ihren Versuchen aus den Augen verlieren, zentrieren Sie die Ansicht mit dem Lupen-Werkzeug (Abb. 10.9). Sobald Sie mit der Anordnung zufrieden sind, klicken Sie auf Stop.

Schritt 3: Größe, Farben und Beschriftungen

Mit einer passenden Gestaltung der Knoten lassen sich die Eigenschaften des Netzwerks optisch schneller erfassen. In Gephi können vor allem Farbe und Größe der Knoten festgelegt werden. Als Grundlage können zum einen importierte Daten verwendet werden, zum Beispiel Kategorien. Es lassen sich zum anderen netzwerkanalytische Eigenschaften verwenden, die direkt mit Gephi berechnet werden. Öffnen Sie auf der rechten Seite den Abschnitt Statistics und berechnen Sie dort Average Degree und Modularity, indem Sie jeweils auf Run klicken. Dabei wird für jeden Knoten der Degree berechnet und eine Zuordnung zu einem Cluster (Modularitätsklasse) vorgenommen. Das Ergebnis wird in die Datentabelle übernommen – schauen Sie im Bereich Data Laboratory nach!

Um die ermittelten Werte für die Visualisierung zu verwenden, wechseln Sie im Bereich Overview in den Abschnitt Appearance (Abb. 10.11). Wählen Sie dort den Punkt Nodes, klicken Sie auf die Schaltfläche für die Größe, wählen Sie Ranking entsprechend dem Degree. Ein Klick auf Apply setzt die Änderungen um. Passen Sie die minimale und maximale Größe so an, dass Sie eine brauchbare Darstellung erreichen.

Im gleichen Bereich lässt sich auch die Farbe der Knoten auf die Modularitätsklasse einstellen (Abb. 10.12). Wählen Sie Nodes und klicken Sie dieses Mal auf das Symbol für die Farben. Da die Clusterzugehörigkeit ein kategorisches und kein kontinuierliches Merkmal ist, wählen Sie Partition und stellen das Merkmal Modularity Class ein. Die Auswahl der Farben können Sie mit der Schaltfläche Palette verändern. Standardmäßig stehen nur acht unterschiedliche Farben zur Verfügung. Sie können die Anzahl erhöhen, indem Sie mit Generate eine neue Palette erzeugen (und ggf. die Option Limit number of colors ausschalten). Mit einem Klick auf Apply werden die Einstellungen übernommen.

Mit einem günstigen Layout und etwas Farbe lässt sich zwar die Gesamtstruktur eines Netzwerks überblicken. Um in die Details einzutauchen, muss man aber die Bedeutung der einzelnen Knoten kennen. Blenden Sie deshalb über die Symbolleiste unter dem Graphen die Label der Knoten ein (Abb. 10.13). Wenn Sie die Größe auf Node size einstellen, können Sie die Label mit dem Schieberegler an die Größe der Knoten anpassen.

Nun können Sie mit dem Scrollrad (oder auf dem Touchpad mit zwei Fingern) in das Netzwerk hineinzoomen und sich mit der Struktur vertraut machen. Mit der rechten Maustaste verschieben Sie den Ausschnitt. Sollten Sie verloren gehen, dann klicken Sie links unten in der Symbolleiste auf die Lupe, um die Darstellung in die Fenstergröße einzupassen.

Schritt 4: Mit Teilnetzwerken arbeiten

Die Merkmale der Knoten und Kanten können nicht nur zur Visualisierung verwendet werden, sondern auch zum Reduzieren des Netzwerks, das heißt zum Herausarbeiten von Teilnetzen. Schauen Sie sich dazu den Filter-Bereich auf der rechten Seite von Gephi genauer an:

Kontinuierliche Eigenschaften wie der Degree von Nodes oder das Gewicht von Kanten werden über die unter Attributes eingeordnete Range eingeschränkt. So können Sie das Netzwerk auf besonders stark verbundene Knoten eingrenzen.
Kategorische Eigenschaften, zum Beispiel importierte Kategorien, lassen sich über Attributes und anschließend Partition verwenden.
Mit den Topologie-Filtern lässt sich die Ansicht auf Egonetzwerke oder untereinander stark verbundene Teilnetze einschränken – probieren Sie zum Beispiel k-Cores aus!

Die Filter werden mit der Maus per Drag & Drop in den Queries-Bereich gezogen. Mehrere Filter können als Subfilter hintereinandergeschaltet werden. Das Filtern wird mit der entsprechenden Schaltfläche aktiviert oder deaktiviert. Die so ausgewählten Teilnetze lassen sich schließlich in einen eigenen Arbeitsbereich kopieren und dort weiterverwenden. Dazu wählen Sie im Data Laboratory alle Knoten aus, klicken mit der rechten Maustaste auf einen der Knoten und wählen den Punkt Copy to aus. Dort können Sie mit der weiteren Analyse und Visualisierung des Teilnetzwerks fortfahren.

2.4 Nächste Schritte

Netzwerkanalyse ist nicht einfach ein Methode unter vielen, sondern wendet sich der Welt mit einem spezifischen Blick auf die Beziehungen zwischen Akteuren, Konzepten und Ereignissen zu. Abstrahiert man von einzelnen Knoten und Kanten und betrachtet deren Einbettung in die Netzwerkstrukturen, lassen sich besondere Positionen und Eigenschaften herausarbeiten. So werden etwa strukturelle Unterschiede zwischen Vorgesetzen und Mitarbeiter:innen in Unternehmen sichtbar. Dabei kann man nicht nur einzelne Knoten und Kanten gegenüberstellen, sondern gesamte Netzwerke miteinander vergleichen – beispielsweise die Empfehlungswelten verschiedener Nutzer:innen. Auch Analysen im Zeitverlauf sind möglich, um die Evolution von Beziehungen und Strukturen zu erforschen.

Hier gibt es viel zu entdecken – die in diesem Kapitel angesprochenen Themen bewegen sich vorrangig auf der deskriptiven Ebene und schaffen dadurch eine Voraussetzung für weitere Explorationen. Die netzwerkanalytische Perspektive lässt sich auf nahezu beliebige Daten anwenden. Das gilt auch für Texte, wenn man die Kookkurrenz von Wörtern (siehe Kap. 9) als Netzwerke modelliert – versuchen Sie selbst einmal, auf diese Weise ein semantisches Netzwerk zu erstellen!

Übungsfragen

1.
Was versteht man unter Knoten und Kanten?
2.
Was ist der Unterschied zwischen den Maßen Degree, Betweenness und Closeness?
3.
Was sagt eine Dichte von 0,6 über ein Netzwerk aus?
4.
Stellen Sie sich vor, Sie wollen die Figuren aus Ihrem Lieblingsbuch als Netzwerk abbilden. Was können Sie als Kanten operationalisieren? Um welche Attribute könnten Sie Knoten und Kanten erweitern?
5.
Sie haben ein Netzwerk in R konstruiert und wollen nun die zentralsten Knoten mit der Funktion centrality_degree() bestimmen. Weil Sie die Funktion noch nicht gut kennen, schlagen Sie in der Hilfe die möglichen Parameter nach. Wann geben Sie dabei den Parameter directed = FALSE an?
6.
Wie werden Netzwerke in einem force-directed Layout angeordnet?
7.
Warum sollten Sie Erkenntnisse nicht allein aus Netzwerkgrafiken ableiten und für welche Zwecke eignet sich die Visualisierung von Netzwerken?

Weiterführende Literatur

Barabási, A.-L. (2016). Network Science. Cambridge: Cambridge University Press.
Briatte. (2021). Awesome Network Analysis. An awesome list of resources to construct, analyze and visualize network data. Zugriff am 19.04.2022. https://github.com/briatte/awesome-network-analysis
Jansen, D. (2003). Einführung in die Netzwerkanalyse. Grundlagen, Methoden, Forschungsbeispiele (2., erw. Aufl.). Opladen: Leske+Budrich.
Luke, D. A. (2015). A user’s guide to network analysis in R. Cham: Springer.
Wasserman, S. & Faust, K. (1994). Social network analysis. Methods and application. Cambridge: Cambridge University Press.

Notes

1.
Tatsächlich hat Leonhard Euler bereits Anfang des 18. Jahrhunderts einen wichtigen Grundstein der Netzwerkanalyse gelegt, indem er ein Raumproblem graphentheoretisch löste: Das Königsberger Brückenproblem bestand in der Frage, ob es in Königstein einen Rundweg gibt, bei dem man jede von sieben Brücken genau einmal überquert (Euler 2000).
2.
Berechnet wird sie für gerichtete Netzwerke durch\( \frac{Anzahl\ Kanten}{Anzahl\ Knoten\times \left( Anzahl\ Knoten-1\right)} \). Für ungerichtete Netzwerke wird die Anzahl der Kanten doppelt gezählt.
3.
Dabei werden die jeweils kürzesten Pfade (sogenannte Geodäten, engl. geodesics) betrachtet.
4.
Für eine detaillierte Einführung in Zentralitätsmaße auf Knoten- und Netzwerkebene siehe beispielsweise Jansen (2003) und Freeman (1978).
5.
Daraus ergibt sich ein interessanter Effekt: im Durchschnitt haben die eigenen Freund:innen mehr Freund:innen als man selbst (Feld 1991).
6.
Für eine Einführung in die Welt der Zufallsnetzwerke siehe Barabási (2016).
7.
Diese Form der Matrix wird auch als Adjazenzmatrix (engl. adjacency matrix) bezeichnet. Netzwerke können alternativ als Distanzmatrizen dargestellt werden, in denen die Zeilen und Spalten den Knoten entsprechen und in den Zellen die Pfadlängen – die Anzahl der Kanten, die zwischen zwei Knoten liegen – enthalten sind.
8.
Die Diagonale wird mitunter auch dazu verwendet, die Gesamtzahl der Beziehungen eines Knotens festzuhalten (Degree).
9.
Die Matrix wird mit der transponierten (= gedrehten) Matrix multipliziert. Je nachdem welche Matrix transponiert und ob links- oder rechtsmultipliziert wird, wird das Netzwerk zwischen den Zeilen oder zwischen den Spalten erzeugt (siehe Abschn. 4.2.4).
10.
Dabei entsteht zunächst ein ungerichtetes Netzwerk. Dieses lässt sich relativ unkompliziert in ein gerichtetes Netzwerk umrechnen, indem gemäß der Definition bedingter Wahrscheinlichkeiten die Anzahl gemeinsamen Auftretens an der Anzahl des Auftretens des einen Knotens standardisiert wird (siehe zum Beispiel van Atteveldt 2008). Die Beziehungen geben dann bedingte Wahrscheinlichkeiten an und lassen sich teilweise leichter interpretieren als absolute Häufigkeiten (siehe Kap. 9).
11.
Siehe Jünger und Keyling (2022; https://github.com/strohne/Facepager).
12.
Das Verfahren nennt sich Open Authorization (OAuth 2.0) und ist unter anderem im Wiki von Facepager (Jünger 2020) erläutert.
13.
Da zu dem Startknoten keine weiteren Informationen erhoben wurden, weist er im Export nur die ID auf. Um auch Angaben wie den „snippet.title“ zu bekommen, fragen Sie vor der Erhebung der ähnlichen Videos mit dem YouTube-Preset „Get video statistics“ die Details ab. Dadurch entsteht eine weitere Ebene, die Abfrage der ähnlichen Videos würde dann auf Node level 3 beginnen.
14.
BOM steht für Byte Order Mark, siehe Abschn. 3.2. In Facepager lässt sich beim Exportieren wählen, ob eine BOM ausgegeben werden soll. Eine BOM ist normalerweise entbehrlich, erleichtert aber das Öffnen der Dateien mit Excel. Im Wiki von Facepager sind weitere Optionen für die Datenaufbereitung mit R aufgeführt.
15.
Die Datei enthält ggf. mehrere gleichbenannten ID-Spalten (einmal Facepager-IDs und einmal YouTube-IDs). In verschiedenen Package-Versionen werden diese durch read_csv() unterschiedlich behandelt, sodass Sie das Skript ggf. darauf anpassen müssen.
16.
Bei der Berechnung der Closeness kann die Warnung auftreten: closeness centrality is not well-defined for disconnected graphs. Dies ist auf unverbundene Komponenten zurückzuführen. Da die Closeness die Entfernung eines Knoten zu allen anderen Knoten ermittelt und diese in unverbundenen Netzwerken unendlich ist, verwendet igraph als Alternative die größtmögliche Entfernung im Netzwerk, das heißt die Anzahl aller Knoten − 1. Bei der Interpretation der Werte ist das zu berücksichtigen.
17.
Siehe Bastian et al. (2009; https://gephi.org/users/download/).
18.
Zum Download siehe Oracle (2022a; https://www.java.com/de/download/).
19.
Für die Beispiele wird angenommen, dass die Benutzeroberfläche englischsprachig ist, stellen Sie die Sprache ggf. über den Menüpunkt Tools > Language auf Englisch um.
20.
Die in Gephi vorhandenen Layout-Möglichkeiten lassen sich über Plugins erweitern.

Literatur

Albrecht, S. (2013). Kommunikation als soziales Netzwerk? Anreize und Herausforderungen der Netzwerkanalyse von Kommunikationsprozessen. In B. Frank-Job, A. Mehler & T. Sutter (Hrsg.), Die Dynamik sozialer und sprachlicher Netzwerke. Konzepte, Methoden und empirische Untersuchungen an Beispielen des WWW (S. 23–46). Wiesbaden: Springer VS. https://doi.org/10.1007/978-3-531-93336-8_2
Almende B.V. and Contributors. (2021). visNetwork. Network Visualization using ‘vis.js’ Library (Version 2.1.0) [Computer software]. https://cran.r-project.org/package=visNetwork
Amaral, I. (2017). Computational Social Sciences. In L. A. Schintler & C. L. McNeely (Hrsg.), Encyclopedia of Big Data (S. 1–3). Cham: Springer. https://doi.org/10.1007/978-3-319-32010-6_41
Barabási, A.-L. (2016). Network science. Cambridge: Cambridge University Press. http://networksciencebook.com/
Bastian, M., Heymann, S. & Jacomy, M. 2009. Gephi: An open source software for exploring and manipulating networks. International AAAI Conference on Weblogs and Social Media. https://doi.org/10.13140/2.1.1341.1520
Beckert, J. (2005). Soziologische Netzwerkanalyse. In D. Kaesler (Hrsg.), Aktuelle Theorien der Soziologie. Von Shmuel N. Eisenstadt bis zur Postmoderne (S. 286–312). München: C.H. Beck.
Google Scholar
Bourdieu, P. (1985). Sozialer Raum und Klassen. Zwei Vorlesungen. Frankfurt a. M.: Suhrkamp.
Google Scholar
Briatte. (2021). Awesome Network Analysis. An awesome list of resources to construct, analyze and visualize network data. Zugriff am 19.04.2022. https://github.com/briatte/awesome-network-analysis
Cioffi-Revilla, C. (2010). Computational social science. Wiley Interdisciplinary Reviews: Computational Statistics, 2(3), 259–271. https://doi.org/10.1002/wics.95
Article Google Scholar
Covington, P., Adams, J. & Sargin, E. (2016). Deep Neural Networks for YouTube Recommendations. In S. Sen, W. Geyer, J. Freyne & P. Castells (Hrsg.), Proceedings of the 10th ACM Conference on Recommender Systems (S. 191–198). New York: Association for Computing Machinery (ACM). https://doi.org/10.1145/2959100.2959190
Davidson, J., Livingston, B., Sampath, D., Liebald, B., Liu, J., Nandy, P. et al. (2010). The YouTube video recommendation system. In X. Amatriain (Hrsg.), Proceedings of the fourth ACM conference on Recommender systems (S. 293–296). New York: Association for Computing Machinery (ACM). https://doi.org/10.1145/1864708.1864770
Diani, M. & McAdam, D. (2003). Social Movements and Networks. Relational Approaches to Collective Action. Oxford: Oxford University Press. https://doi.org/10.1093/0199251789.001.0001
Dijkstra, E. W. (1959). A note on two problems in connexion with graphs. Numerische Mathematik, 1(1), 269–271. https://doi.org/10.1007/BF01386390
Article Google Scholar
Euler, L. (2000). The seven bridges of Königsberg. In J. R. Newman (Hrsg.), The world of mathematics (Bd. 1, S. 573–580). Mineola: Dover Publications.
Google Scholar
Feld, S. L. (1991). Why Your Friends Have More Friends Than You Do. American Journal of Sociology, 96(6), 1464–1477. https://doi.org/10.1086/229693
Article Google Scholar
Freeman, L. C. (1978). Centrality in social networks conceptual clarification. Social Networks, 1(3), 215–239. https://doi.org/10.1016/0378-8733(78)90021-7
Article Google Scholar
Fruchterman, T. M. J. & Reingold, E. M. (1991). Graph drawing by force-directed placement. Software: Practice and Experience, 21(11), 1129–1164. https://doi.org/10.1002/spe.4380211102
Article Google Scholar
Granovetter, M. S. (1973). The Strength of Weak Ties. American Journal of Sociology, 78(6), 1360–1380. http://www.jstor.org/stable/2776392
Jacomy, M., Venturini, T., Heymann, S. & Bastian, M. (2014). ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software. PloS One, 9(6), e98679. https://doi.org/10.1371/journal.pone.0098679
Jansen, D. (2003). Einführung in die Netzwerkanalyse. Grundlagen, Methoden, Forschungsbeispiele (2. Aufl.). Wiesbaden: Springer Fachmedien. https://doi.org/10.1007/978-3-663-09875-1
Jünger, J. (2020). Facepager. Wiki. Zugriff am 03.05.2022. https://github.com/strohne/Facepager/wiki
Jünger, J. & Keyling, T. (2022). Facepager. An application for automated data retrieval on the web. (Version 4.4.4) [Computer software]. https://github.com/strohne/Facepager/
Krzywinski, M., Birol, I., Jones, S. J. M. & Marra, M. A. (2012). Hive plots. Rational approach to visualizing networks. Briefings in Bioinformatics, 13(5), 627–644. https://doi.org/10.1093/bib/bbr069
Article Google Scholar
Latour, B. (1996). On actor-network theory. A few clarifications. Soziale Welt, 47(4), 369–381. https://www.jstor.org/stable/40878163
Laumann, E. O., Marsden, P. V. & Prensky, D. (1983). The boundary specification problem in network analysis. In R. S. Burt & M. J. Minor (Hrsg.), Applied network analysis. A methodological introduction (S. 18–34). Beverly Hills: Sage.
Google Scholar
Leskovec, J. & Faloutsos, C. (2006). Sampling from large graphs. In L. Ungar, M. Craven, D. Gunopulos & T. Eliassi-Rad (Hrsg.), KDD ‘06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining (S. 631–636). New York: Association for Computing Machinery (ACM). https://doi.org/10.1145/1150402.1150479
Malsch, T. & Schlieder, C. (2004). Communication without Agents? From Agent-Oriented to Communication-Oriented Modeling. In G. Lindemann, D. Moldt & M. Paolucci (Hrsg.), Regulated Agent-Based Social Systems. First International Workshop, RASTA 2002, Bologna, Italy, July 16, 2002, Revised Selected and Invited Papers (S. 113–133). Berlin: Springer. https://doi.org/10.1007/978-3-540-25867-4_7
Markov, A. A. (2006). An Example of Statistical Investigation of the Text Eugene Onegin Concerning the Connection of Samples in Chains. Science in Context, 19(4), 591–600. https://doi.org/10.1017/S0269889706001074
Article Google Scholar
Neo4j. (2022). Neo4j (Version 4.4.7) [Computer software]. https://neo4j.com/
Google Scholar
Nepusz, T. (2022). igraph. Network Analysis and Visualization (Version 1.3.2) [Computer software]. https://cran.r-project.org/package=igraph
Newman, M. E. J. (2003). Mixing patterns in networks. Physical Review, 67(2), 26126. https://doi.org/10.1103/PhysRevE.67.026126
Oracle. (2022a). Get Java for desktop applications. https://www.java.com/de/download/
Pedersen, T. L. (2021). ggraph. An Implementation of Grammar of Graphics for Graphs and Networks (Version 2.0.5) [Computer software]. https://cran.r-project.org/package=ggraph
Pedersen, T. L. (2022). tidygraph. A Tidy API for Graph Manipulation (Version 1.2.1) [Computer software]. https://cran.r-project.org/package=tidygraph
Quillian, M. R. (1967). Word concepts: a theory and simulation of some basic semantic capabilities. Behavioral Science, 12(5), 410–430. https://doi.org/10.1002/bs.3830120511
Robins, G., Pattison, P., Kalish, Y. & Lusher, D. (2007). An introduction to exponential random graph (p*) models for social networks. Social Networks, 29(2), 173–191. https://doi.org/10.1016/j.socnet.2006.08.002
Salamanos, N., Voudigari, E. & Yannakoudakis, E. J. (2017). Deterministic graph exploration for efficient graph sampling. Social Network Analysis and Mining, 7, 24. https://doi.org/10.1007/s13278-017-0441-6
Article Google Scholar
Schultz, F., Kleinnijenhuis, J., Oegema, D., Utz, S. & van Atteveldt, W. (2012). Strategic framing in the BP crisis. A semantic network analysis of associative frames. Public Relations Review, 38(1), 97–107. https://doi.org/10.1016/j.pubrev.2011.08.003
Article Google Scholar
Shannon, P., Markiel, A., Ozier, O., Baliga, N. S., Wang, J. T., Ramage, D. et al. (2003). Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Research, 13(11), 2498–2504. https://doi.org/10.1101/gr.1239303
Article Google Scholar
Snijders, T. A. B., Ripley, R., Steglich, C., Koskinen, J., Niezink, N., Amati, V. et al. (2021). RSiena. Siena – Simulation Investigation for Empirical Network Analysis (Version 1.3) [Computer software]. https://cran.r-project.org/package=RSiena
Van Atteveldt, W. (2008). Semantic network analysis. Techniques for extracting, representing and querying media content. Charleston: BookSurge.
Google Scholar
Wasserman, S. & Faust, K. (1994). Social network analysis. Methods and applications. Cambridge: Cambridge University Press.
Book Google Scholar
White, H. C. (2008). Identity and Control. How Social Formations Emerge (2. Aufl.). Princeton: Princeton University Press.
Google Scholar

Download references

Author information

Authors and Affiliations

Universität Münster, Münster, Deutschland
Jakob Jünger & Chantal Gärtner

Authors

Jakob Jünger
View author publications
You can also search for this author in PubMed Google Scholar
Chantal Gärtner
View author publications
You can also search for this author in PubMed Google Scholar

Rights and permissions

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Jünger, J., Gärtner, C. (2023). Netzwerkanalyse. In: Computational Methods für die Sozial- und Geisteswissenschaften. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-37747-2_10

Download citation

DOI: https://doi.org/10.1007/978-3-658-37747-2_10
Published: 15 July 2023
Publisher Name: Springer VS, Wiesbaden
Print ISBN: 978-3-658-37746-5
Online ISBN: 978-3-658-37747-2
eBook Packages: Social Science and Law (German Language)

Publish with us

Policies and ethics