Unter dem Schlagwort „Big Data“ versammelt sich eine Vielzahl von Bedeutungen, die von unterschiedlichen Akteur_innen aus Politik, Wissenschaft, Medien, Wirtschaft usw. in verschiedenen Kontexten diskutiert werden und dementsprechend einem fortlaufenden Wandel unterliegen. In solchen Diskursen wird neben weiteren Punkten vielfach das Risiko eines verantwortungslosen Umgangs und einer manipulativ wirkenden Nutzung großer Datenmengen kritisch betrachtet, aber auch das Potential benannt, zuvor unüberschaubar anmutende Datenmengen mit wissenschaftlichen Analysemethoden verarbeiten und auswerten zu können. Wie kann dieses Potential für die Soziale Arbeit fruchtbar gemacht werden?

Eine in den letzten Jahren immer wichtiger werdende Bezugswissenschaft für die Soziale Arbeit ist die Informatik. Dabei werden im Zuge der Ausbreitung digitaler Informations- und Kommunikationstechnologien („Digitalisierung“) Grundlagen und Methoden von Informatik bisher vorwiegend im Kontext der Handlungsfelder, Methoden und Organisationen Sozialer Arbeit angewendet (beispielsweise vgl. Kreß und Kutscher 2020; vgl. Klein und Pulver 2020; vgl. Kreidenweis 2018). Hingegen verwendet nur eine geringe Anzahl von Autor_innen softwaregestützte Möglichkeiten zur Archivierung, Verarbeitung, Auswertung und Visualisierung von großen Datenmengen, um einen quantitativ-empirischen Blick auf die Soziale Arbeit zu werfen (vgl. Eckl et al. 2020, 2019; vgl. Eckl und Ghanem 2020; vgl. Martínez et al. 2015).

Einen ähnlichen Weg einschlagend, wird im vorliegenden Beitrag exemplarisch untersucht, inwieweit ein Verfahren aus der Data Science für die Soziale Arbeit fruchtbar gemacht werden kann und welche Erkenntnismöglichkeiten darin liegen. David Kriesel (2016) schlägt hierfür den Begriff des „Reverse Engineering“ bzw. „Data Mining“ vor, während ich im Weiteren für das Verfahren den Begriff „Data Mining“ verwende.

Data Mining bietet aufgrund der Sammlung, Verfügbarmachung und Auswertung großer Datenmengen u. a. die Möglichkeit, Ähnlichkeiten in solchen Datenbeständen zu identifizieren, anhand derer Zusammenhänge erschlossen werden können. Kriesel bringt dieses reverse Verfahren auf den Punkt, wenn er postuliert, es gehe darum, „Wissen aus Daten zu generieren“ (Kriesel 2016). D. h. nicht die Forschungsfrage generiert einen Datensatz, sondern ein bestehender Datensatz ermöglicht das „Mining“, das Schürfen nach Informationen in einer großen Menge von Daten. Darin kann nach bestehenden Vorurteilen, nach blinden Flecken oder nach dem Einfluss von Akteur_innen gebohrt werden. Mithilfe von Data Mining gelingt es Kriesel in seinem Projekt, eine Landkarte von Spiegel Online und seiner Themen zu erstellen. Die „dunkle Seite“ des Data Mining ist unter dem Begriff „Vorratsdatenspeicherung“ bekannt. Während dieser umstrittene Ansatz kriminalpolitische Ziele verfolgt, soll die hier vorgestellte Variante die positiven Möglichkeiten erschließen.

Das Projekt: Rezensionen als Datensatz

Gemeinsam mit dem Informatiker Konstantin Kirchheim entstand 2019 die Idee, Kriesels Ansatz auf die Soziale Arbeit anzuwenden. Die technische Seite des Verfahrens, der Aufbereitung und Visualisierung dieser Daten ist Thema einer eigenen Darstellung (vgl. Kirchheim 2020), auf die hier als Grundlage verwiesen sei. Gegenstand der Untersuchung sind 18.010 Rezensionen zu wissenschaftlichen Publikationen aus den Bereichen Soziale Arbeit, Pflege und Sozialwirtschaft, die in einer Rezensionsdatenbank veröffentlicht wurden.

Was erfahren wir über den Diskurs der Sozialen Arbeit, wenn wir mit dem Verfahren des Data Mining „Daten verbinden“? Aus den Rezensionen konnten u. a. Informationen zu im Text hinterlegten Stichwörtern extrahiert werden, die von der Deutschen Nationalbibliothek für die rezensierten Publikationen hinterlegt werden. Auf Grundlage dieses Datensatzes wurde ein Netzwerk aus 7463 Knoten (Stichwörter) und 58.440 Kanten (gemeinsame Nennung von zwei Stichwörtern) gebildet. Die Größe eines Knotens oder einer Kante bildet die Anzahl der Nennungen im Datensatz ab. Mithilfe eines modularitätsbasierten Algorithmus konnten nun die einzelnen Stichwörter 303 Communities zugeteilt werden, die in der Netzwerkkarte unterschiedlich farblich markiert sind. Eine detaillierte Darstellung ist auf der diesen Artikel begleitenden Website https://extra-mining.de einsehbar.

Zu den in den Communities enthaltenen Stichwörtern wurden im Sinne einer induktiven Kategorienbildung Oberbegriffe gebildet, die je einzelne Themenkomplexe darstellen. Beispielsweise finden sich in einer Community die Stichwörter Kind und Jugend, die darin am häufigsten genannt werden. Diese stehen in direkter Verbindung mit Stichwörtern wie Eltern, Schule, Familie und Jugendhilfe, die als Sozialisationsinstanzen in der Kindheits- und Jugendphase fungieren. Anhand dieser Beobachtung liegt der Schluss nahe, die Stichwörter inhaltlich unter dem Themenkomplex Kindheit und Jugend zusammenzufassen. Die Kategorienbildung gestaltete sich stellenweise auch schwierig, da durch das Verfahren z. B. ein Themenkomplex (Gender Studies und Medienpädagogik) entstanden ist, dessen Stichwörter zwei Themen zugeordnet werden können, ohne dass diese eine semantische oder inhaltliche Nähe zueinander aufweisen. Folgend werden zehn Themenkomplexe aufgezeigt, deren dazugehörige Stichwörter im gesamten Datensatz am häufigsten genannt werden. Dahinter sind zehn Stichwörter in der Reihenfolge der Häufigkeit ihrer Nennungen aufgelistet, die dem Themenkomplex zugeordnet sind (Tab. 1).

Tab. 1 Themenkomplexe. (Eigene Darstellung)

Da der vorgegebene Umfang dieses Beitrags es nicht erlaubt, eine umfangreiche Kontextualisierung der Ergebnisse vorzunehmen, beschränkt sich diese exemplarisch auf einige Themenkomplexe. Dabei geben die in einem Themenkomplex enthaltenen Stichwörter bereits erste Hinweise, welche Themen innerhalb eines Themenkomplexes häufig miteinander besprochen werden.

Komplex: Kindheit und Jugend

Beispielsweise deuten die Stichwörter des Themenkomplex Kindheit und Jugend (s. Abb. 1) an, dass in Bezug auf die Adressat_innen von Jugendhilfe und Schule (Kind und Jugend) insbesondere präventive Angebote (Prävention) und psychotherapeutische Interventionen (Psychotherapie) in der professionellen Arbeit mit ihnen bedeutungsvoll zu sein scheinen.

Abb. 1
figure 1

Themenkomplex Kindheit und Jugend. (Eigene Darstellung; s. Website für eine umfangreiche Darstellung der Netzwerkkarte: www.extra-mining.de)

Bemerkenswert ist an dieser Stelle, dass andere Stichwörter (Psychoanalyse und Psychologie) mit einer semantischen Nähe zu Psychotherapie und psychische Störung nicht einen gemeinsamen Themenkomplex abbilden. Jedoch grenzen Psychoanalyse und Psychologie in der Netzwerkanordnung an Stichwörter von Kindheit und Jugend an, was auch bei diesen Stichwörtern eine inhaltliche Nähe zu Kind und Jugend vermuten lässt (s. Abb. 1).

Eine mögliche Lesart dieser Beobachtung könnte sein, dass mit steigender Tendenz Notlagen von Kindern und Jugendlichen nur im Zusammenspiel von Kinder- und Jugendhilfe sowie psychotherapeutischen Bereichen bearbeitbar erscheinen und sich dieses Arbeitsbündnis aufgrund der verschärften Anforderungen des Kinderschutzes auch im Rahmen der Prävention bewähren soll (vgl. Du Bois und Ide-Schwarz 2018, S. 1214). Andererseits kann möglicherweise auch daraus geschlussfolgert werden, dass sich im Bereich der Kinder- und Jugendhilfe zusehends auf das Verhalten des Individuums bezogene Ansätze durchsetzen, die darauf ausgerichtet sind, unter den gegebenen strukturellen Bedingungen gesellschaftlich unerwünschte Lebensweisen und Praktiken verhindern zu können. In diesem Kontext kann auf den theoretischen Diskurs zur „Therapeutisierung des Sozialen“ (vgl. beispielsweise Anhorn und Balzereit 2016, S. 17 ff.) verwiesen werden, in dem – verkürzt gesagt – die „optimierte Selbstführung des Subjektes“ (Dörr und Kratz 2020) kritisiert wird. Die hier beispielhaft skizzierten Pole eines Spektrums an Interpretationsmöglichkeiten sind bewusst gewählt, um auf eine Grenze bei der Analyse der Ergebnisse aus dem Datensatz aufmerksam zu machen. Denn die gewonnenen Daten können lediglich darauf hinweisen, über welche Themen gesprochen wird. Die konkreten Inhalte und Gründe für die Thematisierung lassen sich jedoch nicht ohne Weiteres bestimmen. Demzufolge wäre es erkenntnisfördernd, mithilfe von qualitativen Analysen eines Auszugs der Daten einzelne Themen facettenreicher herauszuarbeiten und darüber hinaus valide Interpretationen über Stichwörter ohne semantischen Bezug zu anderen Stichwörtern eines Themenkomplex treffen zu können (vgl. Eckl und Ghanem 2020, S. 632).

Eine weitere Beobachtung legt Verbindungen zwischen den Themenkomplexen Kindheit und Jugend sowie Frühpädagogik und Bildung offen. Neben der semantischen Nähe von z. B. Kind und Kindertagesstätte, die durch die direkte Nachbarschaft im Netzwerk unterstrichen wird, sind auch inhaltliche Überschneidungen erkennbar. So scheinen sowohl im Themenkomplex Kindheit und Jugend als auch im Themenkomplex Frühpädagogik und Bildung Themen der Inklusion (Inklusion und inklusive Pädagogik) verhandelt zu werden. Da gerade institutionelle Akteur_innen in der Verantwortung stehen würden, im Sinne der Inklusion bestehende Barrieren abzubauen (vgl. Borrmann 2017, S. 253), wäre es an dieser Stelle interessant, die gemeinsamen Nennungen von pädagogischen Institutionen (Schule, Kindertagestätte und Jugendhilfe) mit Themen der Inklusion (Inklusion und inklusive Pädagogik) näher zu betrachten. Hierbei kann die Entwicklung der Stichwörter im zeitlichen Verlauf untersucht werden, um zu differenzieren, wann Themen der Inklusion im Kontext von welchen pädagogischen Institutionen diskutiert werden. Aus diesem Grund wird folgend die Auftretenswahrscheinlichkeit der zu untersuchenden Stichwörter im zeitlichen Verlauf abgebildet. Es wird also grafisch dargestellt, wie hoch die Wahrscheinlichkeit in einem bestimmten Zeitraum ist, dass im Verhältnis zum gesamten Datensatz in einer Rezension beide Stichwörter enthalten sind (Abb. 2).

Abb. 2
figure 2

Auftretenswahrscheinlichkeit von Inklusion mit Schule und Jugendhilfe sowie von inklusiver Pädagogik mit Kindertagestätte im zeitlichen Verlauf. (Eigene Darstellung)

Anhand der Darstellung wird sichtbar, dass die Auftretenswahrscheinlichkeit der Stichwörter Inklusion bzw. inklusive Pädagogik in Verbindung mit Stichwörtern pädagogischer Institutionen zugenommen hat, also ein positiver Trend zu erkennen ist. Ab 2011 werden diese Themen erstmals gemeinsam mit Schule und Kindertagesstätte genannt und nach einem kleinen Rückgang bzw. Stillstand nimmt die Anzahl gemeinsamer Nennungen im Zeitraum von 2015 bis 2016 deutlich zu. Im Gegensatz dazu verzeichnet die Auftretenswahrscheinlichkeit von Inklusion und Jugendhilfe nur einen sehr geringfügigen Anstieg im Zeitraum von 2017 bis 2018. Eine mögliche Erklärung dieses Unterschieds könnte sein, dass Autor_innen ähnliche Begriffe, wie z. B. „Teilhabe“ (beispielsweise Wendt 2018), im Kontext der Jugendhilfe dem Begriff der Inklusion vorziehen. Dass ähnliche Begriffe bei der Darstellung nicht erfasst werden, kann möglicherweise als Schwäche des Verfahrens gelesen werden. Allerdings könnte die Verwendung von ähnlichen Begriffen durch im Kontext von Jugendhilfe Publizierende auch als bewusst gewählte Abgrenzung zum Inklusionsbegriff gedeutet werden.

Komplex: Gesundheitswesen, Pflege und Management

Der Themenkomplex Gesundheitswesen, Pflege und Management (s. Abb. 3) verzeichnet nach Kindheit und Jugend die meisten Nennungen der darin enthaltenen Stichwörter. Hierbei legt die Netzwerkkarte offen, dass das Stichwort Management in der Nähe von Stichwörtern aus dem Gesundheitsbereich (Krankenhaus) und aus dem Sozialbereich (Sozialeinrichtung) liegt.

Abb. 3
figure 3

Themenkomplex Gesundheitswesen, Pflege und Management. (Eigene Darstellung)

Auch an dieser Stelle eröffnet die Visualisierung der Auftretenswahrscheinlichkeit gemeinsamer Nennungen der interessierenden Stichwörter (Management und Krankenhaus sowie Management und Sozialeinrichtung) im zeitlichen Verlauf Möglichkeiten, um die genannten Bereiche miteinander zu vergleichen und möglicherweise auch Trends für diesen Diskursausschnitt Sozialer Arbeit zu entdecken (Abb. 4).

Abb. 4
figure 4

Auftretenswahrscheinlichkeit von Management mit Krankenhaus und Sozialeinrichtung im zeitlichen Verlauf. (Eigene Darstellung)

Bei den hier untersuchten Rezensionen zeigt sich, dass zu Beginn des Untersuchungszeitraums, also von 2001 bis 2006, Management häufiger in Verbindung mit Sozialeinrichtung als mit Krankenhaus genannt wird. Anschließend weisen beide Graphen eine ähnliche Auftretenswahrscheinlichkeit auf, wobei über den gesamten Zeitraum gesehen die Auftretenswahrscheinlichkeit von Sozialeinrichtung und Management leicht gesunken und von Krankenhaus und Management tendenziell gewachsen ist.

Möglichkeiten und Grenzen des methodischen Vorgehens

Ein solcher Beitrag bietet nur die Möglichkeit, oberflächlich auf Beobachtungen zum Datensatz einzugehen und einige wenige Kontextualisierungen vorzunehmen. Dabei erscheint es zudem ohne ein abgestütztes qualitativ-methodisches Vorgehen ratsam, nur tastende Einordnungen der aus dem Mining-Prozess gewonnenen Informationen vorzunehmen und in erster Linie auf der beschreibenden Ebene zu verbleiben. Denn „Big Data verhilft dann höchstens zu einer deskriptiven Erklärung, kann also Zusammenhänge in der Datenmatrix beschreiben, aber eben nicht dazu beitragen, Antworten auf die Frage nach dem ‚Warum‘ derselben zu geben“ (Mayerl 2015). Deswegen sind die zuvor beschriebenen Kontextualisierungen, die Rückbezüge zur Sozialen Arbeit herstellen sollen, nur Angebote, um die Beobachtungen einordnen zu können. Daneben birgt die rein quantitativ bemessene Größe von Datenmengen und der damit scheinbar suggerierten Objektivität die Gefahr, generalisierende Fehlschlüsse zu treffen, obwohl die Datenauswahl, -aufbereitung und -analyse hochgradig selektiv bleibt (vgl. Eckl und Ghanem 2020, S. 636 f.).

Auch die Festlegung auf eine bestimmte Anzahl von Themenkomplexen, die durch den Algorithmus identifiziert werden sollen, wird durch Entscheidungen der Forschenden im Prozess des Data-Mining beeinflusst. Außerdem kann kritisch hinterfragt werden, inwieweit die hier untersuchten Stichwörter überhaupt Aufschluss über den Inhalt von ganzen Texten geben können und passend erscheinen, fachliche Diskurslinien adäquat darzustellen (vgl. Eckl et al. 2020).

Trotzdem besteht in Form von Data-Mining ein in der disziplinären Sozialen Arbeit bisher wenig genutztes Potential, zuvor unüberschaubar anmutende Datenmengen zu nutzen, um vorsichtige Aussagen über Diskurse Sozialer Arbeit treffen zu können. Wenn sich der kontinuierlich fortlaufende Data-Mining-Prozess nicht nur auf die Gewinnung von größeren Datenmengen einer Rezensionsdatenbank beschränkt, sondern weit darüberhinausgehend auch online erscheinende, wissenschaftlichen Gütekriterien unterliegende und auch im englischsprachigen Raum erscheinende Fachzeitschriftenartikel, Monografien und Sammelbände erfassen würde, ergeben sich daraus neue Möglichkeiten der Auf- und Entdeckung des disziplinären Gegenstandsbereiches Sozialer Arbeit. So kann zu den aus Stichwörtern gebildeten Themenkomplexen mit einer höheren Evidenz auf inhaltliche Schwerpunktsetzungen, Trends, und blinde Flecken im disziplinären Diskurs eingegangen werden. Um in einer umfassenden Analyse und Bewertung zu solchen Erkenntnissen gelangen zu können, ist es zwingend erforderlich, dass die Forschenden über Wissen zur Entstehung der Ergebnisse aus automatisierten Analysemethoden und zugleich über den Forschungsgegenstand verfügen (vgl. Eckl und Ghanem 2020, S. 636).

Um ein solches Projekt realisieren zu können, kann es gewinnbringend sein, interdisziplinäre Kooperationen mit Informatiker*innen anzustreben und nicht zwingend selbst Programmieren zu erlernen. Auch erscheint es lohnend, eine Triangulation des Data-Mining mit qualitativen Verfahren vorzunehmen. So können die zuvor beschriebenen Schwächen des Data-Mining ausgeglichen und Fragen nachgegangen werden, wie und warum in Diskursen Sozialer Arbeit über darin verhandelte Themen gesprochen wird. Vor diesem Hintergrund soll dieser Beitrag dazu anregen, weitere interdisziplinäre Projekte anzustoßen und das hier präsentierte Verfahren weiterzudenken.