Verteiltes und Paralleles Datenmanagement pp 203-223 | Cite as
Parallele Analyse großer Datenmengen mit MapReduce
Zusammenfassung
MapReduce ist ein von Google entwickeltes Programmiermodell für die datenparallele Verarbeitung riesiger Datenmengen in Clustern. Aufgrund seiner Einfachheit, hohen Flexibilität und der Möglichkeit, auf vergleichsweise einfache Weise hochparallele Datenverarbeitungs- und Analyseprogramme zu schreiben, hat das MapReduce-Modell in kurzer Zeit eine weite Verbreitung gefunden. Nachdem wir in Kap. 3 bereits am Beispiel von Hadoop auf Architekturaspekte von MapReduce-Systemen eingegangen sind, wollen wir in diesem Kapitel die Techniken zur parallelen Datenverarbeitung mit dem MapReduce-Paradigma vorstellen. Neben dem Grundprinzip und dessen Umsetzung in Hadoop erläutern wir insbesondere die Realisierung von klassischen Datenbankoperationen mit MapReduce. Weiterhin stellen wir auf MapReduce aufbauende Ansätze wie die Datenflusssprache Pig Latin sowie aktuelle Erweiterungen wie Apache Spark vor.
Literatur
- 1.Alexandrov, A., Bergmann, R., Ewen, S., Freytag, J., Hueske, F., Heise, A., Kao, O., Leich, M., Leser, U., Markl, V., Naumann, F., Peters, M., Rheinländer, A., Sax, M.J., Schelter, S., Höger, M., Tzoumas, K., Warneke, D.: The stratosphere platform for big data analytics. VLDB J. 23(6), 939–964 (2014)CrossRefGoogle Scholar
- 2.Beyer, K., Ercegovac, V., Gemulla, R., Balmin, A., Kanne, M.E.C.C., Ozcan, F., Shekita, E.J.: Jaql: A scripting language for large scale semistructured data analysis. PVLDB (2011)Google Scholar
- 3.Blanas, S., Patel, J.M., Ercegovac, V., Rao, J., Shekita, E.J., Tian, Y.: A comparison of join algorithms for log processing in mapreduce Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data, SIGMOD ’10. ACM, New York, NY, USA, S. 975–986 (2010)Google Scholar
- 4.Dean, J., Ghemawat, S.: Mapreduce: simplified data processing on large clusters. OSDI, S. 10– (2004)Google Scholar
- 5.Kleber, M.: The MapReduce Paradigm (2008). http://sites.google.com/site/mriap2008/intro_to_mapreduce.pdf Google Scholar
- 6.Lämmel, R.: Google’s MapReduce Programming Model – Revisited. Sci. Comput. Program. 68(3), 208–237 (2007)Google Scholar
- 7.Okcan, A., Riedewald, M.: Processing theta-joins using mapreduce Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data, SIGMOD ’11. ACM, New York, NY, USA, S. 949–960 (2011)Google Scholar
- 8.Olston, C., Reed, B., Srivastava, U., Kumar, R., Tomkins, A.: Pig latin: a not-so-foreign language for data processing. SIGMOD., S. 1099–1110 (2008)Google Scholar
- 9.The Apache Software Foundation: Apache flink. http://flink.apache.org
- 10.The Apache Software Foundation: Apache Hadoop. http://wiki.apache.org/hadoop/
- 11.The Apache Software Foundation: Apache Oozie (2014). http://oozie.apache.org Google Scholar
- 12.The Apache Software Foundation: Spark – Lightning-fast cluster computing (2014). https://spark.apache.org Google Scholar
- 13.Thusoo, A., Sarma, J.S., Jain, N., Shao, Z., Chakka, P., Anthony, S., Liu, H., Wyckoff, P., Murthy, R.: Hive: a warehousing solution over a map-reduce framework. The VLDB Journal 2(2), 1626–1629 (2009)Google Scholar
- 14.White, T.: Hadoop: The Definitive Guide. O’Reilly Media (2009)Google Scholar
- 15.Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., Franklin, M.J., Shenker, S., Stoica, I.: Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In: Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation, NSDI’12, 2–2. USENIX Association, Berkeley, CA, USA (2012)Google Scholar