Skip to main content

Data Pipelines in Big Data Analytics – Fallbeispiel Religion in der US Politik

  • Chapter
  • First Online:
Big Data Analytics

Part of the book series: Edition HMD ((EHMD))

  • 15k Accesses

Zusammenfassung

Am Anfang jeder Datenanalyse steht die Beschaffung und Aufbereitung der Daten in ein Format, welches für statistische Verfahren geeignet ist. Mit dem starken Zuwachs an digitalen Datenbeständen und der Vielfalt an digitalen Datenquellen und der damit verbundenen Vielfalt an hochdimensionalen Datenstrukturen ist dieser erste Teil einer Datenanalyse herausfordernder geworden. Die saubere Planung und Implementierung von Data Pipelines hilft in der Praxis mit diesen Herausforderungen umzugehen. Während Data Pipelines heutzutage im Data Engineering die Grundlage vieler Datenanwendungen sind, ist das Konzept in der wirtschafts- und sozialwissenschaftlichen Forschung noch wenig verbreitet. Dieser Beitrag diskutiert das Potenzial von Data Pipelines für die angewandte empirische Forschung mit dem Fokus auf die sozialwissenschaftliche Datenanalyse (im Kontrast zur Datenapplikationsentwicklung) basierend auf Big Data aus dem programmable Web. Anhand eines Fallbeispiels mit Daten aus der US Politik wird das Data Pipeline Konzept für Big Data Analytics in der wirtschafts- und sozialwissenschaftlichen Forschung Schritt für Schritt aufgezeigt.

Überarbeiteter Beitrag basierend auf Matter (2019) Big Public Data aus dem programmable Web: Chancen und Herausforderungen, HMD – Praxis der Wirtschaftsinformatik, 56(5):1068–1081.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 54.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Siehe bspw. (Christensen und Miguel 2018) für eine detaillierte Übersicht über vergangene und aktuelle Praktiken und Empfehlungen hinsichtlich der Reproduzierbarkeit volkswirtschaftlicher Forschung.

  2. 2.

    Siehe bspw. die Empfehlungen/Standards für Projektmitarbeiter/Assistierende des Gentzkow Shapiro Lab (GSLAB): https://github.com/gslab-econ/ra-manual/wiki.

  3. 3.

    Die Begriffe programmable Web, Web of Data, und Semantic Web werden hier synonym und im Sinne von Swartz (2013) verwendet.

  4. 4.

    Siehe bspw. (Stocker et al. 2010) für eine Betrachtung neuer Geschäftsmodelle im programmable Web.

  5. 5.

    Siehe bspw. den Bericht der Stiftung Datenschutz zur praktischen Umsetzung des Rechts auf Datenübertragbarkeit (https://stiftungdatenschutz.org/fileadmin/Redaktion/Datenportabilitaet/studie-datenportabilitaet.pdf): Im Rahmen der Digitalisierungsbemühungen im Gesundheitswesen, wird unter anderem mittels APIs versucht, die Portabilität von Behandlungsdaten zu erhöhen. Der Zugang zu solchen APIs ist entsprechend den geltenden Regeln zu Patientendaten stark eingeschränkt.

  6. 6.

    Siehe bspw. (Ismail et al. 2019) für eine Übersicht über die Anwendung von Data Pipelines in der verarbeitenden Industrie.

  7. 7.

    https://airflow.apache.org/

  8. 8.

    Die folgende Illustration ist absichtlich einfach gehalten. In der Praxis können professionell aufgesetzte Data Pipelines für moderne Datenanwendungen selbstverständlich viel mehr und komplexere Schritte bei der Sammlung und ersten Verarbeitung der Rohdaten beinhalten.

  9. 9.

    Siehe die Literaturübersicht in (Oldmixon 2009). Beispiele für Beiträge in diesem Bereich sind (McTague und Pearson-Merkowitz 2013); (Guth 2014); (Newman et al. 2016) und (Oldmixon 2017).

  10. 10.

    Ähnliche Plattformen gibt es seither auch im deutschsprachigen Raum; bspw. der Wahl-O-Mat in Deutschland (http://www.bpb.de/politik/wahlen/wahl-o-mat/) oder smartvote in der Schweiz (www.smartvote.ch).

  11. 11.

    Die hier verwendete Data Pipeline zur Beschaffung und Aufbereitung der Daten könnte auch parallel implementiert werden, was den Prozess um ein Vielfaches beschleunigen würde. Darauf wurde hier bewusst verzichtet, da die benutzte API ursprünglich nicht für diesen Verwendungszweck konzipiert wurde. Zu viele Anfragen von der gleichen Maschine in zu kurzer Zeit würden den Web Server, auf welchem die API läuft, langsamer machen und somit die Qualität der API als Dienstleistung für andere Web-Anwendungen schmälern. Dies ist ein weiterer Hinweis darauf, wie wichtig es ist, bei der Nutzung des programmable Web als Datenquelle für sozialwissenschaftliche Forschungsprojekte, den Hintergrund und ursprünglichen Zweck der verwendeten APIs zu verstehen und zu respektieren.

  12. 12.

    Zum Bible Belt werden üblicherweise die Südstaaten gezählt; insb. Alabama (AL), Mississippi (MS), Tennessee (TN), Missouri (MO), Kentucky (KY), West Virginia (WV) und Virginia (VA).

  13. 13.

    https://mediacloud.org/

  14. 14.

    https://daringfireball.net/projects/markdown/

  15. 15.

    https://pandoc.org/

Literatur

  • Besley T (2005) Political selection. J Econ Perspect 19(3):43–60

    Article  Google Scholar 

  • Bodle R (2010) Regimes of sharing. Inf Commun Soc 14(3):320–337

    Article  Google Scholar 

  • Burden BC (2007) Personal roots of representation. Princeton University Press, Princeton

    Book  Google Scholar 

  • Christensen G, Miguel E (2018) Transparency, reproducibility, and the credibility of economics research. J Econ Lit 56(3):920–980

    Article  Google Scholar 

  • Duke JT, Johnson BL (1992) Religious affiliation und congressional representation. J Sci Study Relig 31(3):324–329

    Article  Google Scholar 

  • Fastnow C, Tobin GJ, Rudolph TJ (1999) Holy roll calls: religious tradition and voting behavior in the U.S. house. Soc Sci Q 80(4):687–701

    Google Scholar 

  • Feigelson ED, Babu GJ (2012) Big data in astronomy. Significance 9:22–25

    Article  Google Scholar 

  • Green JC, Guth JL (1991) Religion, representatives, and roll calls. Legis Stud Q 16(4):571–584

    Article  Google Scholar 

  • Guth JL (2014) Religion in the American Congress: the case of the US house of representatives, 1953–2003. Relig State Soc 42(2-3):299–313

    Article  Google Scholar 

  • Ismail A, Truong HL, Kastner W (2019) Manufacturing process data analysis pipelines: a requirements analysis and survey. J Big Data 6(1):1

    Article  Google Scholar 

  • Lazer D, Pentland A, Adamic L, Aral S, Barabási AL, Brewer D, Christakis N, Contractor N, Fowler J, Gutmann M, Jebara T, King G, Macy M, Roy D, Van Alstyne M (2009) Computational social science. Science 323(5915):721–723

    Article  Google Scholar 

  • Luo J, Wu M, Gopukumar D, Zhao Y (2016) Big data application in biomedical research and health care: a literature review. Biomed Inform Insights 8:1

    Google Scholar 

  • Mansbridge J (2009) A “selection model” of political representation. J Polit Philos 17(4):369–398

    Article  Google Scholar 

  • Matter U (2018) RWebData: a high-level interface to the programmable web. J Open Res Softw 6(1):1–12

    Google Scholar 

  • Matter U, Stutzer A (2015a) pvsR: an open source interface to big data on the American political sphere. PLoS ONE 10(7):e0130501

    Article  Google Scholar 

  • Matter U, Stutzer A (2015b) The role of lawyer-legislators in shaping the law: evidence from voting on tort reforms. J Law Econ 58(2):357–384

    Article  Google Scholar 

  • McTague J, Pearson-Merkowitz S (2013) Voting from the pew: the effect of senators’ religious identities on partisan polarization in the US senate. Legis Stud Q 38(3):405–430

    Article  Google Scholar 

  • Newman B, Guth JL, Cole W, Doran C, Larson EJ (2016) Religion und environmental politics in the US house of representatives. Environ Polit 25(2):289–314

    Article  Google Scholar 

  • Oldmixon EA (2002) Culture wars in the congressional theater: how the U.S. house of representatives legislates morality, 1993–1998. Soc Sci Q 83(3):775–787

    Article  Google Scholar 

  • Oldmixon EA (2009) Religion and legislative politics. In: Guth JL, Kellstadt LA, Smidt CE (Hrsg), The Oxford handbook of religion and American politics. Oxford University Press, Oxford

    Google Scholar 

  • Oldmixon EA (2017) Religious representation und animal welfare in the U.S. senate. J Sci Study Relig 56(1):162–178

    Article  Google Scholar 

  • R Core Team (2018) R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria

    Google Scholar 

  • Richardson JT, Fox SW (1972) Religious affiliation as a predictor of voting behavior in abortion reform legislation. J Sci Study Relig 11(4):347–359

    Article  Google Scholar 

  • Richardson L, Amundsen M (2013) RESTful web APIs. O’Reilly, Sebastopol

    Google Scholar 

  • Smidt CE, Kellstedt LA, Guth JL (2009) The role of religion in American politics: explanatory theories and associated analytical and measurement issues. In: Guth JL, Kellstadt LA, Smidt CE (Hrsg) The Oxford handbook of religion and American politics. Oxford University Press, Oxford

    Google Scholar 

  • Stocker A, Tochtermann K, Scheir, P (2010) Die Wertschöpfungskette der Daten: Eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD Prax Wirtsch inform 47(5): 94–104

    Google Scholar 

  • Swartz A (2013) Aaron Swartz’s a programmable web: an unfinished work. In: Hendler J, Ding Y (Hrsg) Synthesis lectures on the semantic web: theory and technology. Morgan & Claypool Publishers, San Rafael

    Google Scholar 

  • Wald KD, Wilcox C (2006) Getting religion: has political science rediscovered the faith factor? Am Polit Sci Rev 100(4):523–529

    Article  Google Scholar 

  • Wolf C, Luvaul LC, Onken CA, Smillie JG, White MC (2018) Developing data processing pipelines for massive sky surveys – lessons learned from SkyMapper. In Astronomical Society of the Pacific Conference Series, 512, S 289

    Google Scholar 

  • Yamane D, Oldmixon EA (2006) Religion in the legislative arena: affiliation, salience, advocacy, und public policymaking. Legis Stud Q 31(3):433–460

    Article  Google Scholar 

  • Zhang Y, Zhao Y (2015) Astronomy in the big data era. Data Sci J 14:11

    Article  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Ulrich Matter .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Matter, U. (2021). Data Pipelines in Big Data Analytics – Fallbeispiel Religion in der US Politik. In: D'Onofrio, S., Meier, A. (eds) Big Data Analytics. Edition HMD. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-32236-6_9

Download citation

Publish with us

Policies and ethics