Zusammenfassung
Am Anfang jeder Datenanalyse steht die Beschaffung und Aufbereitung der Daten in ein Format, welches für statistische Verfahren geeignet ist. Mit dem starken Zuwachs an digitalen Datenbeständen und der Vielfalt an digitalen Datenquellen und der damit verbundenen Vielfalt an hochdimensionalen Datenstrukturen ist dieser erste Teil einer Datenanalyse herausfordernder geworden. Die saubere Planung und Implementierung von Data Pipelines hilft in der Praxis mit diesen Herausforderungen umzugehen. Während Data Pipelines heutzutage im Data Engineering die Grundlage vieler Datenanwendungen sind, ist das Konzept in der wirtschafts- und sozialwissenschaftlichen Forschung noch wenig verbreitet. Dieser Beitrag diskutiert das Potenzial von Data Pipelines für die angewandte empirische Forschung mit dem Fokus auf die sozialwissenschaftliche Datenanalyse (im Kontrast zur Datenapplikationsentwicklung) basierend auf Big Data aus dem programmable Web. Anhand eines Fallbeispiels mit Daten aus der US Politik wird das Data Pipeline Konzept für Big Data Analytics in der wirtschafts- und sozialwissenschaftlichen Forschung Schritt für Schritt aufgezeigt.
Überarbeiteter Beitrag basierend auf Matter (2019) Big Public Data aus dem programmable Web: Chancen und Herausforderungen, HMD – Praxis der Wirtschaftsinformatik, 56(5):1068–1081.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Siehe bspw. (Christensen und Miguel 2018) für eine detaillierte Übersicht über vergangene und aktuelle Praktiken und Empfehlungen hinsichtlich der Reproduzierbarkeit volkswirtschaftlicher Forschung.
- 2.
Siehe bspw. die Empfehlungen/Standards für Projektmitarbeiter/Assistierende des Gentzkow Shapiro Lab (GSLAB): https://github.com/gslab-econ/ra-manual/wiki.
- 3.
Die Begriffe programmable Web, Web of Data, und Semantic Web werden hier synonym und im Sinne von Swartz (2013) verwendet.
- 4.
Siehe bspw. (Stocker et al. 2010) für eine Betrachtung neuer Geschäftsmodelle im programmable Web.
- 5.
Siehe bspw. den Bericht der Stiftung Datenschutz zur praktischen Umsetzung des Rechts auf Datenübertragbarkeit (https://stiftungdatenschutz.org/fileadmin/Redaktion/Datenportabilitaet/studie-datenportabilitaet.pdf): Im Rahmen der Digitalisierungsbemühungen im Gesundheitswesen, wird unter anderem mittels APIs versucht, die Portabilität von Behandlungsdaten zu erhöhen. Der Zugang zu solchen APIs ist entsprechend den geltenden Regeln zu Patientendaten stark eingeschränkt.
- 6.
Siehe bspw. (Ismail et al. 2019) für eine Übersicht über die Anwendung von Data Pipelines in der verarbeitenden Industrie.
- 7.
- 8.
Die folgende Illustration ist absichtlich einfach gehalten. In der Praxis können professionell aufgesetzte Data Pipelines für moderne Datenanwendungen selbstverständlich viel mehr und komplexere Schritte bei der Sammlung und ersten Verarbeitung der Rohdaten beinhalten.
- 9.
- 10.
Ähnliche Plattformen gibt es seither auch im deutschsprachigen Raum; bspw. der Wahl-O-Mat in Deutschland (http://www.bpb.de/politik/wahlen/wahl-o-mat/) oder smartvote in der Schweiz (www.smartvote.ch).
- 11.
Die hier verwendete Data Pipeline zur Beschaffung und Aufbereitung der Daten könnte auch parallel implementiert werden, was den Prozess um ein Vielfaches beschleunigen würde. Darauf wurde hier bewusst verzichtet, da die benutzte API ursprünglich nicht für diesen Verwendungszweck konzipiert wurde. Zu viele Anfragen von der gleichen Maschine in zu kurzer Zeit würden den Web Server, auf welchem die API läuft, langsamer machen und somit die Qualität der API als Dienstleistung für andere Web-Anwendungen schmälern. Dies ist ein weiterer Hinweis darauf, wie wichtig es ist, bei der Nutzung des programmable Web als Datenquelle für sozialwissenschaftliche Forschungsprojekte, den Hintergrund und ursprünglichen Zweck der verwendeten APIs zu verstehen und zu respektieren.
- 12.
Zum Bible Belt werden üblicherweise die Südstaaten gezählt; insb. Alabama (AL), Mississippi (MS), Tennessee (TN), Missouri (MO), Kentucky (KY), West Virginia (WV) und Virginia (VA).
- 13.
- 14.
- 15.
Literatur
Besley T (2005) Political selection. J Econ Perspect 19(3):43–60
Bodle R (2010) Regimes of sharing. Inf Commun Soc 14(3):320–337
Burden BC (2007) Personal roots of representation. Princeton University Press, Princeton
Christensen G, Miguel E (2018) Transparency, reproducibility, and the credibility of economics research. J Econ Lit 56(3):920–980
Duke JT, Johnson BL (1992) Religious affiliation und congressional representation. J Sci Study Relig 31(3):324–329
Fastnow C, Tobin GJ, Rudolph TJ (1999) Holy roll calls: religious tradition and voting behavior in the U.S. house. Soc Sci Q 80(4):687–701
Feigelson ED, Babu GJ (2012) Big data in astronomy. Significance 9:22–25
Green JC, Guth JL (1991) Religion, representatives, and roll calls. Legis Stud Q 16(4):571–584
Guth JL (2014) Religion in the American Congress: the case of the US house of representatives, 1953–2003. Relig State Soc 42(2-3):299–313
Ismail A, Truong HL, Kastner W (2019) Manufacturing process data analysis pipelines: a requirements analysis and survey. J Big Data 6(1):1
Lazer D, Pentland A, Adamic L, Aral S, Barabási AL, Brewer D, Christakis N, Contractor N, Fowler J, Gutmann M, Jebara T, King G, Macy M, Roy D, Van Alstyne M (2009) Computational social science. Science 323(5915):721–723
Luo J, Wu M, Gopukumar D, Zhao Y (2016) Big data application in biomedical research and health care: a literature review. Biomed Inform Insights 8:1
Mansbridge J (2009) A “selection model” of political representation. J Polit Philos 17(4):369–398
Matter U (2018) RWebData: a high-level interface to the programmable web. J Open Res Softw 6(1):1–12
Matter U, Stutzer A (2015a) pvsR: an open source interface to big data on the American political sphere. PLoS ONE 10(7):e0130501
Matter U, Stutzer A (2015b) The role of lawyer-legislators in shaping the law: evidence from voting on tort reforms. J Law Econ 58(2):357–384
McTague J, Pearson-Merkowitz S (2013) Voting from the pew: the effect of senators’ religious identities on partisan polarization in the US senate. Legis Stud Q 38(3):405–430
Newman B, Guth JL, Cole W, Doran C, Larson EJ (2016) Religion und environmental politics in the US house of representatives. Environ Polit 25(2):289–314
Oldmixon EA (2002) Culture wars in the congressional theater: how the U.S. house of representatives legislates morality, 1993–1998. Soc Sci Q 83(3):775–787
Oldmixon EA (2009) Religion and legislative politics. In: Guth JL, Kellstadt LA, Smidt CE (Hrsg), The Oxford handbook of religion and American politics. Oxford University Press, Oxford
Oldmixon EA (2017) Religious representation und animal welfare in the U.S. senate. J Sci Study Relig 56(1):162–178
R Core Team (2018) R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria
Richardson JT, Fox SW (1972) Religious affiliation as a predictor of voting behavior in abortion reform legislation. J Sci Study Relig 11(4):347–359
Richardson L, Amundsen M (2013) RESTful web APIs. O’Reilly, Sebastopol
Smidt CE, Kellstedt LA, Guth JL (2009) The role of religion in American politics: explanatory theories and associated analytical and measurement issues. In: Guth JL, Kellstadt LA, Smidt CE (Hrsg) The Oxford handbook of religion and American politics. Oxford University Press, Oxford
Stocker A, Tochtermann K, Scheir, P (2010) Die Wertschöpfungskette der Daten: Eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD Prax Wirtsch inform 47(5): 94–104
Swartz A (2013) Aaron Swartz’s a programmable web: an unfinished work. In: Hendler J, Ding Y (Hrsg) Synthesis lectures on the semantic web: theory and technology. Morgan & Claypool Publishers, San Rafael
Wald KD, Wilcox C (2006) Getting religion: has political science rediscovered the faith factor? Am Polit Sci Rev 100(4):523–529
Wolf C, Luvaul LC, Onken CA, Smillie JG, White MC (2018) Developing data processing pipelines for massive sky surveys – lessons learned from SkyMapper. In Astronomical Society of the Pacific Conference Series, 512, S 289
Yamane D, Oldmixon EA (2006) Religion in the legislative arena: affiliation, salience, advocacy, und public policymaking. Legis Stud Q 31(3):433–460
Zhang Y, Zhao Y (2015) Astronomy in the big data era. Data Sci J 14:11
Author information
Authors and Affiliations
Corresponding author
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature
About this chapter
Cite this chapter
Matter, U. (2021). Data Pipelines in Big Data Analytics – Fallbeispiel Religion in der US Politik. In: D'Onofrio, S., Meier, A. (eds) Big Data Analytics. Edition HMD. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-32236-6_9
Download citation
DOI: https://doi.org/10.1007/978-3-658-32236-6_9
Published:
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-32235-9
Online ISBN: 978-3-658-32236-6
eBook Packages: Computer Science and Engineering (German Language)