Analyse qualitativer Daten mit dem „Leipzig Corpus Miner“

Chapter

Zusammenfassung

Der Leipzig Corpus Miner (LCM) ist eine Webanwendung, die verschiedene Text Mining-Verfahren für die Analyse großer Mengen qualitativer Daten bündelt. Durch eine einfach zu bedienende Benutzeroberfläche ermöglicht der LCM Volltextzugriff auf 3,5 Millionen Zeitungstexte, die nach Suchbegriffen und Metadaten zu Subkollektionen gefiltert werden können. Auf dem Gesamtdatenbestand sowie auf den Subkollektionen können verschiedene computergestützte Auswertungsverfahren angewendet und zu Analyseworkflows kombiniert werden. Damit ermöglicht der LCM die empirische Analyse sozialwissenschaftlicher Fragestellungen auf Basis großer Dokumentkollektionen, wobei qualitative und quantitative Analyseschritte miteinander verschränkt werden können. Dieser Artikel gibt einen Überblick über die Analysekapazitäten und mögliche Workflows zur Anwendung des LCM.

Abstract

The Leipzig Corpus Miner (LCM) is a text mining infrastructure which integrates a wide range of computer-assisted text analysis technologies. Via a user-friendly web interface the LCM provides full text access to more than 3.5 million German newspaper documents which can be retrieved by key terms or filtered by meta-data to generate thematically coherent sub-collections. On such sub-collections, a variety of analysis algorithms can be applied – either as single process or integrated into a more complex workflow of multiple analysis steps. In providing such workflows the LCM enables qualitatively oriented social scientists to approach their research questions by analysis of text in new ways. The application of corpus linguistic, lexicometric measures and machine learning algorithms on large document sets enables them to combine qualitative and quantitative perspectives on their data. The article provides an overview of linguistic preprocessing, text analysis capabilities and possible workflows of the LCM.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. Bordag, Stefan, 2008: A Comparison of Co-Occurrence and Similarity Measures as Simulations of Context. In: Alexander Gelbukh (Hg.), Computational Linguistics and Intelligent Text Processing, Bd. 4919, Berlin, 52–63; http://dx.doi.org/10.1007/978-3-540-78135-6_5, 09.04.2015.
  2. Blei, David M., 2012: Probabilistic topic models. In: Communications of the ACM 55, 77–84.CrossRefGoogle Scholar
  3. Burzan, Nicole, 2015: Rezension: Udo Kuckartz (2014). Mixed Methods. Methodologie, Forschungsdesigns und Analyseverfahren. In: Forum Qualitative Sozialforschung / Forum:Qualitative Social Research 16; http://nbn-resolving.de/urn:nbn:de:0114-fqs1501160, 03.02.2015.
  4. Heyer, Gerhard / Quasthoff, Uwe / Wittig, Thomas, 2006: Text Mining: Wissensrohstoff Text – Konzepte, Algorithmen, Ergebnisse, Bochum.Google Scholar
  5. Hopkins, Daniel J. / King, Gary, 2010: A Method of Automated Nonparametric Content Analysis for Social Science. In: American Journal for Political Science 54, 229–247.CrossRefGoogle Scholar
  6. Joachims, Thorsten, 1998: Text Categorization with Support Vector Machines: Learning with Many Relevant Features; http://www.cs.cornell.edu/people/tj/publications/joachims_98a.pdf, 20.01.2015.
  7. Kuckartz, Udo, 2014 (Hg.): Mixed Methods. Methodologie Forschungsdesigns und Analyseverfahren. Wiesbaden.Google Scholar
  8. Lazer, David / Pentland, Alex / Adamic, Lada / Aral, Sinan / Barabási, Albert-László / Brewer, Devon / Christakis, Nicholas / Contractor, Noshir / Fowler James / Gutman, Myron / Jebara, Tony / King, Gary / Macy, Michael / Roy, Deb / Van Alstyne, Marshall, 2009: Computational Social Science. In: Science 323, 721–723; DOI: 10.1126/science. 1167742, 09.04.2015.CrossRefGoogle Scholar
  9. Lemke, Matthias / Niekler, Andreas / Schaal, Gary S. / Wiedemann, Gregor, 2015: Content Analysis between Quality and Quantity. Fulfilling Blended-Reading Requirements for the Social Sciences with a Scalable Text Mining Infrastructure. In: Datenbank Spektrum; DOI: 10.1007/s13222-014-0174-x, 09.04.2015Google Scholar
  10. Lemke, Matthias / Stulpe, Alexander, 2015: Text und soziale Wirklichkeit. Theoretische Grundlagen und empirische Anwendung durch Text Mining Verfahren am Beispiel des Bigrams ‚soziale Marktwirtschaft‘. In: Zeitschrift für Germanistische Linguistik 43, 52–83.Google Scholar
  11. Niekler, Andreas / Wiedemann, Gregor / Heyer, Gerhard, 2014: Leipzig Corpus Miner – A Text Mining Infrastructure for Qualitative Data Analysis. In: Terminology and Knowledge Engineering 2014.Google Scholar
  12. Settles, Burr, 2010: Active Learning Literature Survey; http://burrsettles.com/pub/settles.activelearning.pdf, 28.01.2015.
  13. Turney, Peter D. / Pantel, Patrick, 2010: From Frequency to Meaning: Vector Space Models of Semantics. In: Journal of Artificial Intelligence Research 37, 141–188; http://www.jair.org/media/2934/live-2934-4846-jair.pdf, 17.05.2014.
  14. Wiedemann, Gregor, 2013: Opening up to Big Data: Computer-Assisted Analysis of Textual Data in Social Sciences. In: Forum Qualitative Sozialforschung / Forum: Qualitative Social Research 14; http://nbn-resolving.de/urn:nbn:de:0114-fqs1302231, 09.04.2015.

Copyright information

© Springer Fachmedien Wiesbaden GmbH 2016

Authors and Affiliations

  1. 1.LeipzigDeutschland

Personalised recommendations