Schlüsselwörter

Computational Methods, wie sie in diesem Buch verstanden werden, bringen eine spezielle Perspektive auf die Welt mit sich. Sie sind einerseits ganz im Sinne der statistischen Tradition Werkzeuge, mit denen umfangreiche Daten erhoben, aufbereitet und analysiert werden, um so die Komplexität der Wirklichkeit auf wesentliche Aspekte zu reduzieren. Andererseits sind sie viel mehr als das: Praktiken, die sich zunehmend in den Alltag einweben, etwa durch die Etablierung sogenannter künstlicher Intelligenz in Anwendungsbereichen innerhalb und außerhalb der Wissenschaft. Dabei treten neue Komplexitäten auf und wer auf Arbeitserleichterung durch Automatisierung setzt, wird schnell enttäuscht. Nicht nur die Aufbereitung der Daten und das Debugging der Algorithmen sind zeitintensiv, sondern auch die Ergebnisse erfordern eine hermeneutische Auseinandersetzung mit Daten und Code (Jünger et al. 2022). Diese Beschäftigung ist allerdings lohnenswert und wenn Sie sich dafür entschieden haben, im vorliegenden Buch zu lesen, dann haben Sie im besten Fall viel Freude dabei, die Stringenz formaler Verfahren kreativ zu nutzen.

Was liegt aus dieser Perspektive näher, als die Zusammenfassung des Buchs automatisiert durch eine Maschine erstellen zu lassen? Die Basistechniken einer solchen Zusammenfassung sind in den einzelnen Kapiteln beschrieben. Im einfachsten Fall wählt man analog zum Extrahieren von Schlüsselwörtern (grundlegend siehe Turney 2000) besonders relevante Sätze aus und streicht alle anderen. Ein neu formulierter Text ließe sich daraus erstellen, indem die Sätze in eine semantische Repräsentation geparsed werden, aus der schließlich mit einem neuronalen Netz die Zusammenfassung generiert wird. Bis ein solches Encoder-Decoder-System überzeugende und spannende Ergebnisse produziert hat, ist allerdings viel Entwicklungsarbeit nötig, in dieser Zeit hat man das Buch mehrfach durchgelesen. Entsprechende Entwicklungsarbeit haben andere bereits geleistet und stellen öffentliche APIs zur Verfügung.Footnote 1

Eine etwas andere, komprimierte Sicht auf das Buch ergibt sich, wenn man die Verweise zwischen den Kapitel nachverfolgt (Abb. 12.1). Auch für diese Art der Zusammenfassung sind die Basistechniken in den einzelnen Kapiteln zu finden. Irgendwie hängt alles mit allem zusammen, dennoch lassen sich hieraus instruktive Hinweise für die Lektüre gewinnen. Verfolgt man die Pfeile im Netzwerk rückwärts, ergeben sich mögliche Lesepfade. Zunächst wird deutlich, dass die beiden vorgestellten Programmiersprachen Python und R zu den zentralen Ausgangspunkten gehören, wobei wir je nach Anwendungsfall unterschiedliche Schwerpunkte gesetzt haben. Wollen Sie in die automatisierte Datenerhebung und speziell in das Webscraping einsteigen, dann dürfte es hilfreich sein, sich vorher die Grundlagen von Python anzueignen. In Bezug auf die verschiedenen Analyseverfahren, insbesondere die Textanalyse, setzen die Kapitel dagegen eher R voraus. Diese Einteilung hat sich aus der Arbeit in verschiedenen Forschungsprojekten heraus entwickelt, ist aber natürlich nicht zwingend und Sie werden vermutlich bei der Wahl der Sprachen eigene Vorlieben haben.

Abb. 12.1
figure 1

Verweise zwischen den Kapiteln dieses Buchs. Die Kanten entsprechen Verweisen zwischen Kapiteln, die Kapitelnummer ist in den Knoten dargestellt. Die Hauptkapitel sind jeweils mit einer eigenen Farbe gekennzeichnet. Die Größe der Knoten und die Dicke der Kanten spiegeln die Anzahl der Verweise (Indegree) wider. (Quelle: eigene Darstellung)

In jedem Fall empfiehlt es sich, die jeweils verknüpften Grundlagenkapitel zurate zu ziehen. Automatisierte Datenerhebung über Webscraping setzt ein Grundverständnis von HTML voraus und auch ein Überblick über Datenformate und Selektionsverfahren dürfte eine sinnvolle Ergänzung sein. Da bei der Datenanalyse häufig Daten umgeformt werden müssen, etwa vom Wide- in das Long-Format und wieder zurück, erscheint die Verknüpfung der R-Einführung mit dem Transformationskapitel naheliegend. Einige Themen bauen zudem durch die gewählten Beispiele aufeinander auf, so empfiehlt sich entsprechend der Kapitelreihenfolge erst ein Blick auf überwachte und anschließend auf unüberwachte Lernverfahren. Der einleitend vorgestellte Werkzeugkoffer wiederum enthält die für die Organisation von Daten und Skripten unverzichtbare Kommandozeile. Sie werden Ihren eigenen Weg finden oder gefunden haben und dabei wünschen wir viel Vergnügen!