Zusammenfassung
In den letzten Jahren werden zur Interpretation von Textkorpora vermehrt computergestützte Verfahren des Text Mining genutzt, da Text as Data durch die Nutzung von Volltexten innovative Inhalts- und Diskursanalysen in Aussicht stellt. Text Mining in verstehend-interpretativer Perspektive rekurriert in der Politikwissenschaft häufig auf Methoden und Anwendungen, die in den Digital Humanities entwickelt wurden. Eine Hermeneutik digitaler Daten, als Basis valider Interpretationen, befindet sich in den Digital Humanities jedoch noch in der Entwicklung. Der vorliegende Artikel adressiert dieses Forschungsdesiderat und möchte einen Beitrag zur methodologischen Fundierung leisten, indem interpretative Pfadabhängigkeiten kontingenter methodischer Entscheidungen im digitalen Forschungsprozess identifiziert und problematisiert werden. Pfadabhängigkeiten bei der Interpretation können, wie im Rekurs auf die New Visual Hermeneutics herausgearbeitet wird, aus kontingenten methodischen Entscheidungen in jeder der distinkten, aber miteinander verbundenen, sechs Forschungsphasen resultieren. Exemplifiziert werden die interpretativen Pfadabhängigkeiten anhand einer methodenkritischen Analyse unseres Aufsatzes „Die Wahrheit über Postfaktizität“. Der Artikel kommt zu dem Ergebnis, dass die Herausforderungen bei der „digitalen“ Interpretation von Texten grundsätzlich den „analogen“ Herausforderungen – jedoch in verschärfter Form – ähneln. Dies betrifft insbesondere kognitive Biases bei der Auf- und Verarbeitung algorithmisch generierter Ergebnisse. Eine intersubjektive Nachvollziehbarkeit „digitaler“ Interpretationen großer Textkopora kann nur erreicht werden, wenn die methodischen Entscheidungen aller Forschungsphasen transparent sind.
Abstract
Conceptualizing text as data and analyzing full texts with computer-based text mining tools provides innovative perspectives for content and discourse analyses in the humanities and social sciences. Accordingly, they are successively implemented by political scientists who apply methods and research pragmatics as developed in the field of digital humanities. Nevertheless, a hermeneutics explicitly addressing the valid interpretation of digital data still constitutes a research gap. We address this gap and aim at providing a basis for a methodologically sound interpretation of digital data in political science. We are pursuing this goal by systematizing different phases of the interpretation process and the respective methodological choices to be made in the course of interpreting digital data. Based on this, we feature and discuss different path dependencies and outline the potential impact of researchers’ interpretative choices. We illustrate these path dependencies by referring to our previously published article “Die Wahrheit über Postfaktizität”. We argue that the challenges of interpreting digital data partly overlap with widely known challenges of interpreting analogue data. A certain sub-set of these challenges may, however, be aggravated: As researchers are confronted with excessively large amounts of data, complexity-reducing cognitive mechanisms and corresponding cognitive biases are prone to carry more weight in the interpretative process. A valid interpretation of digital data therefore must be transparent about the methodological and interpretative choices as well as potential biases impacting how these choices are made.
Notes
Zustimmend Lemke und Stulpe (2015); Shahin (2016); Burns (2015); Frické (2015); Kitchin (2014); Floridi (2012); Ramsay und Rockwell (2012); Röhle (2012) und Sculley und Pasanek 2008. Ausnahme hiervon sind Rockwell und Sinclair (2016) sowie Kath et al. (2015) und Schaal et al. (2016), siehe Abschn. 3.1.
https://voyant-tools.org sowie sehr fortgeschritten https://www.clarin-d.net/de/auswerten.
Wir rekurrieren auf ein psychologisches Konzept von Bias, das nicht auf die Existenz einer objektiven Wirklichkeit rekurriert – was auch dem konstruktivistischen Grundverständnis unserer Argumentation widersprechen würde. Im Kontext unserer Analyse definieren wir Bias als eine systematische Bewegungsrichtung bei der Interpretation algorithmisch generierter Daten hin zur Mustererkennung, siehe Abschn. 3.2.1.
Wir danken der APuZ, insbesondere Johannes Piepenbrink, für die Genehmigung, Textpassagen des Aufsatzes wortwörtlich zu übernehmen. Die inhaltlichen Analysen sind im Kontext der ursprünglichen Publikation entstanden, aus Platzgründen werden nur zentrale Aspekte wiedergegeben. Der hier vorliegende Artikel soll die analyserelevanten Entscheidungen problematisieren, ohne aber dabei die daraus entstehenden alternativen Interpretationen aufzuzeigen – und so den Originalartikel als Text ernst nehmen. Der komplette Artikel findet sich unter Schaal et al. (2017). Aus Gründen der besseren Lesbarkeit verzichten wir auf die Ausweisung als Zitate.
Bei der Korpuszusammenstellung wurden Doubletten, Leserbriefe usw. ausgeschlossen, sodass das bereinigte Korpus 1515 redaktionelle Zeitungsartikel umfasst. Näheres zum Korpus siehe Schaal et al. (2017).
Zur Software R Core Team (2017). Zur Berechnung der Frequenzen wurde das R‑Paket „tm“ eingesetzt (Feinerer et al. 2008). Für die Berechnung der Topic Modelle, mit der gängigen Methode der latent Dirichlet allocation LDA (Blei et al. 2003), wurde das R‑Paket „topicmodels“ verwendet (Grün und Hornik 2011).
Als Begriffsfeld bezeichnen wir Wörter, die thematisch zusammengehörig sind und durch Grundformreduktion („stemming“) und Inklusion von Komposita definiert wurden.
Der im Folgenden als Postfaktisch-Diskurs bezeichnete Untersuchungsgegenstand basiert auf der Hypothese zur Datenerhebung, dass es sich bei der Diskussion um Postfaktisch um einen eigenständigen Diskurs handelt (Keller und Viehöver 2006, S. 107 f.), der über einen diktionärsbasierten Ansatz erhoben wird. Die Art der Datenerhebung über ein Diktionär verhält sich jedoch nicht neutral zur zentralen Fragestellung der ursprünglichen Analyse, ob ein eigenständiger Diskurs vorliegt, siehe Abschn. 2.4.
Zur Berechnung der Topics wurden die kompletten Artikel des Postfaktisch-Korpus als Grundlage verwendet.
„One core difference between Information Visualization and Visual Analytics lies in the support of analytical workflows and the generation and validation of hypothesis“ (Seifert et al. 2014, S. 197). Eine „allgemeine Visualisierungswissenschaft fehlt bis heute; damit auch ein übergeordneter und etablierter Theorierahmen“ (Burkhard 2006, S. 202).
Smithies (2017, S. 153) kommt zu einer ähnlichen Bewertung von Ihde: „We can use Ihde’s postphenomenological lens to explore software-intensive methods in the humanities“.
Dieses Problem wurde auch in der Forschung zu Topic Modellen erkannt. Verschiedene Verfahren, ein Mindestmaß an Reliabilität und Validität zu gewährleisten, werden u. a. in Maier et al. (2018) diskutiert.
Für das hier verwendete Modell wurde diese durch das R‑Paket „topicmodels“ geschätzt. Für eine nähere Beschreibung der Parameter eines Topic Modells siehe u. a. Binkley et al. (2014).
Hier ist u. a. das Packet „ldatuning“ von Nikita Murzintcev zu nennen, dass für unseren Korpus eine optimale Zahl von 26–27 Topics ermittelte.
Die nicht aufgenommenen Topics beschreiben unserer Ansicht nach Zusammenhänge, die in den fünf analysierten Topics schon aufgegriffen wurden (Topic 15 und 19) und Wortzusammenhänge, die nicht wesentlich sinnvollen Inhalt beitragen, sondern nur allgemein in jedweden Texten vorkommen (Topic 1), oder aber Themenzusammenhänge, die eher auf die gesellschaftlich-künstlerische Aufarbeitung des Postfaktisch-Diskurses rekurrieren (Topic 7).
Wir folgen der Überlegung von van Zundert (2016, S. 344): „The choices of what properties to quantify, what probability distribution functions are chosen, which statistical tests are used, are in essence hermeneutically informed“.
Dass die Art der Visualisierungen im Bereich der Big Data Analyse selbst problematisch sind und eigene Probleme bei der Interpretation hervorrufen können, kann hier nur beiläufige Erwähnung finden. Für eine Beschreibung siehe Schaal und Kath (2014, S. 344 ff.). Für einen experimentellen Nachweis bei Kookkurrenzgraphen siehe Schaal et al. (2016).
Literatur
Binkley, David, Daniel Heinz, Dawn Lawrie, und Justin Overfeld. 2014. Understanding LDA in source code analysis. In Proceedings of the 22nd International Conference on Program Comprehension, 26–36.
Blatter, Joachim, Phil C. Langer, und Claudius Wagemann. 2018. Qualitative Methoden in der Politikwissenschaft. Wiesbaden: Springer VS.
Blei, David M. 2012. Probabilistic Topic Models. Surveying a suite of algorithms that offer a solution to managing large document archives. Communications of the ACM 55(4):77–84.
Blei, David M., Andrew Y. Ng, und Michael I. Jordan. 2003. Latent Dirichlet allocation. Journal of Machine Learning Research 3:993–1022.
Brett, Megan R. 2012. Topic modeling. A basic introduction. Journal of Digital Humanities 2(1):12–15.
Burkhard, Heiko. 2006. Knowledge Visualization. Die nächste Herausforderung für Semantic Web Forschende? In Semantic Web. Wege zur vernetzten Wissensgesellschaft, Hrsg. Tassilo Pellegrini, Andreas Blumauer, 201–212. Berlin: Springer.
Burns, Ryan. 2015. Rethinking big data in digital humanitarianism. Practices, epistemologies, and social relations. GeoJournal 80:477–490.
Cecire, Natalia. 2011. Introduction. Theory and the virtues of digital humanities. Journal of Digital Humanities 1:45–53.
Ceschi, Andrea, Arianna Costantini, Riccardo Sartori, Joshua Weller, und Annamaria Di Fabio. 2018. Dimensions of decision-making. An evidence-based classification of heuristics and biases. Personality and Individual Differences. https://doi.org/10.1016/j.paid.2018.07.033.
Conrad, Klaus. 1958. Die beginnende Schizophrenie. Versuch einer Gestaltanalyse des Wahns. Stuttgart: Thieme.
Dumm, Sebastian. 2014. Topic Modelle. Hamburg, Leipzig: ePol.
Eco, Umberto. 1992. Interpretation and overinterpretation. Cambridge: Cambridge University Press.
Feinerer, Ingo, Kurt Hornik, und David Meyer. 2008. Text mining infrastructure in R. Journal of Statistical Software 25:1–54.
Feldman, Ronen, und James Sanger. 2007. The text mining handbook. Cambridge: Cambridge University Press.
Floridi, Luciano. 2012. Big data and their epistemological challenge. Philosophy & Technology 25:435–437.
Frické, Martin. 2015. Big data and its epistemology. Journal of the Association for Information Science and Technology 66:651–661.
Grün, Bettina, und Kurt Hornik. 2011. Topicmodels. An R package for fitting topic models. Journal of Statistical Software 40:1–30.
Hardin, Russell. 2002. Street-level epistemology and democratic participation. Journal of Political Philosophy 10(2):212–229.
Hendricks, Vincent F., und Mads Vestergaard. 2017. Verlorene Wirklichkeit? An der Schwelle zur postfaktischen Demokratie. APuZ 13:4–10.
Heyer, Gerhard, Uwe Quasthoff, und Thomas Wittig. 2008. Text Mining – Wissensrohstoff Text. Bochum: W3l.
Ihde, Don. 2009. Postphenomenology and technoscience. Albany: State University of New York press.
Ihde, Don. 2012. Experimental phenomenology. Multistabilities. Albany: State University of New York press.
Kahneman, Daniel, und Amos Tversky. 1974. Judgment under uncertainty. Heuristics and biases. Science 185(4157):1124–1131.
Kath, Roxana, Gary S. Schaal, und Sebastian Dumm. 2015. New visual hermeneutics. Zeitschrift für germanistische Linguistik 43:56–25.
Keim, Daniel A., Jörn Kohlhammer, Geoffrey Ellis, und Florian Mansmann. 2010. Mastering the information age. Solving problems with visual analytics. Goslar: Eurographics Association.
Keller, Reiner, und Willy Viehöver. 2006. Diskursanalyse. In Methoden der Politikwissenschaft. Neuere qualitative und quantitative Analyseverfahren, Hrsg. Joachim Behnke, Thomas Gschwend, Delia Schindler, und Kai-Uwe Schnapp, 103–112. Baden-Baden: Nomos.
Kitchin, Rob. 2014. Big data, new epistemologies and paradigm shifts. Big data & society 1. https://journals.sagepub.com/doi/10.1177/2053951714528481. Zugegriffen: 31. Okt. 2018.
Lemke, Matthias, und Alexander Stulpe. 2015. Text und soziale Wirklichkeit. Zeitschrift für germanistische Linguistik 43:54–32.
Lemke, Matthias, und Gregor Wiedemann (Hrsg.). 2016. Text Mining in den Sozialwissenschaften. Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse. Wiesbaden: Springer VS.
Maier, Daniel, Annie Waldherr, Peter Miltner, Gregor Wiedemann, Andreas Niekler, Alexa Keinert, Barbara Pfetsch, Gerhard Heyer, Ueli Reber, Thomas Häussler, Hannah Schmid-Petri, und Silke Adam. 2018. Applying LDA topic modeling in communication research. Toward a valid and reliable methodology. Communication Methods and Measures 12(2–3):93–118.
Manovich, Lev. 2016. The science of culture? Social computing, digital humanities and cultural analytics. In The datafied society. Social research in the age of big data, Hrsg. Mirko T. Schäfer, Karin van Es, 55–68. Amsterdam: Amsterdam University Press.
Mercier, Hugo. 2017. Confirmation bias—myside bias. In Cognitive illusions. Intriguing phenomena in thinking, judgment and memory, Hrsg. Rüdiger F. Pohl, 99–114. London, New York: Routledge.
Moretti, Franco. 2007. Graphs, maps, trees. Abstract models for literary history. London, New York: Verso.
Pohl, Rüdiger F. 2004. Cognitive illusions. A handbook on fallacies and biases in thinking, judgement and memory. Hove: Psychology Press.
R Core Team. 2017. R. A language and environment for statistical computing. Wien: R Core Team.
Ramsay, Stephan. 2010. The hermeneutics of screwing around: or what you do with a million books. https://libraries.uh.edu/wp-content/uploads/Ramsay-The-Hermeneutics-of-Screwing-Around.pdf. Zugegriffen: 31. Okt. 2018.
Ramsay, Stephan. 2011. Reading machines. Toward an algorithmic criticism. University of Illinois Press: Urbana.
Ramsay, Stephen, und Geoffrey Rockwell. 2012. Developing things. Notes toward an epistemology of building in the digital humanities. In Debates in the digital humanities, Hrsg. Matthew W. Gold, 75–84. Minneapolis: University of Minnesota Press.
Rockwell, Geoffrey, und Stéfan Sinclair. 2016. Hermeneutica. Cambrige, London: MIT Press.
Röhle, Theo. 2012. Digital methods. Five challenges. In Understanding digital humanities, Hrsg. David M. Berry, 67–85. London: Palgrave Macmillan.
Schaal, Gary S., und Roxana Kath. 2014. Zeit für einen Paradigmenwechsel in der politischen Theorie? In Die Verfassung des Politischen, Hrsg. André Brodocz, Dietrich Herrmann, Rainer Schmidt, Daniel Schulz, und Julia Schulze Wessel, 331–349. Wiesbaden: Springer VS.
Schaal, Gary S., Sebastian Dumm, und Kelly Lancaster. 2018. Überlegungen zur Epistemologie und Methodologie in den Sozialwissenschaften nach dem Computational Turn. Das Forschungsprogramm der New Visual Hermeneutics. In Computational social science. Die analyse von big data, Hrsg. Andreas Blätte, Joachim Behnke, Kai-Uwe Schnapp, und Claudius Wagemann, 53–80. Baden-Baden: Nomos.
Schaal, Gary S., Dannica Fleuß, und Sebastian Dumm. 2017. Die Wahrheit über Postfaktizität. Aus Politik und Zeitgeschichte 44–45:31–38.
Schaal, Gary S., Roxanna Kath, und Sebastian Dumm. 2016. New visual hermeneutics. Cybernetics and Human Knowing 23(2):51–75.
Schröter, Melani, Caroline Taylor, Marie Veniard, und Andreas Blätte. 2018. A comparative analysis of the keyword multicultural(ism) in French, British, German and Italian migration discourse. In Migration and Media. Discourses about identities in crisis, Hrsg. Andreas Musolff, Lorella Viola, 13–44. Amsterdam: John Benjamins.
Sculley, D., und Bradley M. Pasanek. 2008. Meaning and mining. The impact of implicit assumptions in data mining for the humanities. Literary and Linguistic Computing 23:409–424.
Seifert, Christin, Sabol Vedran, Wolfgang Kienreich, Elisabeth Lex, und Michael Granitzer. 2014. Visual analysis and knowledge discovery for text. In Large-Scale Data Analytics, Hrsg. Aris Gkoulalas-Divanis, Abderrahim Labbi, 189–218. New York: Springer.
Shahin, Saif. 2016. When scale meets depth. Integrating natural language processing and textual analysis for studying digital corpora. Communication Methods and Measures 10:28–50.
Smith, Eliot R., und Jamie DeCoster. 2000. Dual-process models in social and cognitive psychology. Conceptual integration and links to underlying memory systems. Personality and Social Psychology Review 4(2):108–131.
Smithies, James. 2017. The digital humanities and the digital modern. London: Springer.
Van Zundert, Joris J. 2016. Screwmeneutics and hermenumericals. In A new companion to digital humanities, Hrsg. Susan Schreibman, Ray Siemens, und John Unsworth, 331–347. Chichester: John Wiley & Sons.
Wason, Peter C. 1968. Reasoning about a rule. Quarterly Journal of Experimental Psychology 20(3):273–281.
Wiedemann, Gregor. 2016. Text mining for qualitative data analysis in the social sciences. Wiesbaden: Springer.
Wiedemann, Gregor, Matthias Lemke, und Andreas Niekler. 2013. Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentation in der Bundesrepublik Deutschland 1949–2011. Zeitschrift für Politische Theorie 4(1):99–115.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Schaal, G.S., Dumm, S. & Fleuß, D. Die vielen Wahrheiten algorithmenbasierter Interpretation: „Die Wahrheit über Postfaktizität“ dekonstruiert. Z Politikwiss 29, 263–285 (2019). https://doi.org/10.1007/s41358-019-00178-3
Published:
Issue Date:
DOI: https://doi.org/10.1007/s41358-019-00178-3