Parallele Analyse großer Datenmengen mit MapReduce

Chapter
Part of the eXamen.press book series (EXAMEN)

Zusammenfassung

MapReduce ist ein von Google entwickeltes Programmiermodell für die datenparallele Verarbeitung riesiger Datenmengen in Clustern. Aufgrund seiner Einfachheit, hohen Flexibilität und der Möglichkeit, auf vergleichsweise einfache Weise hochparallele Datenverarbeitungs- und Analyseprogramme zu schreiben, hat das MapReduce-Modell in kurzer Zeit eine weite Verbreitung gefunden. Nachdem wir in Kap. 3 bereits am Beispiel von Hadoop auf Architekturaspekte von MapReduce-Systemen eingegangen sind, wollen wir in diesem Kapitel die Techniken zur parallelen Datenverarbeitung mit dem MapReduce-Paradigma vorstellen. Neben dem Grundprinzip und dessen Umsetzung in Hadoop erläutern wir insbesondere die Realisierung von klassischen Datenbankoperationen mit MapReduce. Weiterhin stellen wir auf MapReduce aufbauende Ansätze wie die Datenflusssprache Pig Latin sowie aktuelle Erweiterungen wie Apache Spark vor.

Literatur

  1. 1.
    Alexandrov, A., Bergmann, R., Ewen, S., Freytag, J., Hueske, F., Heise, A., Kao, O., Leich, M., Leser, U., Markl, V., Naumann, F., Peters, M., Rheinländer, A., Sax, M.J., Schelter, S., Höger, M., Tzoumas, K., Warneke, D.: The stratosphere platform for big data analytics. VLDB J. 23(6), 939–964 (2014)CrossRefGoogle Scholar
  2. 2.
    Beyer, K., Ercegovac, V., Gemulla, R., Balmin, A., Kanne, M.E.C.C., Ozcan, F., Shekita, E.J.: Jaql: A scripting language for large scale semistructured data analysis. PVLDB (2011)Google Scholar
  3. 3.
    Blanas, S., Patel, J.M., Ercegovac, V., Rao, J., Shekita, E.J., Tian, Y.: A comparison of join algorithms for log processing in mapreduce Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data, SIGMOD ’10. ACM, New York, NY, USA, S. 975–986 (2010)Google Scholar
  4. 4.
    Dean, J., Ghemawat, S.: Mapreduce: simplified data processing on large clusters. OSDI, S. 10– (2004)Google Scholar
  5. 5.
  6. 6.
    Lämmel, R.: Google’s MapReduce Programming Model – Revisited. Sci. Comput. Program. 68(3), 208–237 (2007)Google Scholar
  7. 7.
    Okcan, A., Riedewald, M.: Processing theta-joins using mapreduce Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data, SIGMOD ’11. ACM, New York, NY, USA, S. 949–960 (2011)Google Scholar
  8. 8.
    Olston, C., Reed, B., Srivastava, U., Kumar, R., Tomkins, A.: Pig latin: a not-so-foreign language for data processing. SIGMOD., S. 1099–1110 (2008)Google Scholar
  9. 9.
    The Apache Software Foundation: Apache flink. http://flink.apache.org
  10. 10.
    The Apache Software Foundation: Apache Hadoop. http://wiki.apache.org/hadoop/
  11. 11.
    The Apache Software Foundation: Apache Oozie (2014). http://oozie.apache.org Google Scholar
  12. 12.
    The Apache Software Foundation: Spark – Lightning-fast cluster computing (2014). https://spark.apache.org Google Scholar
  13. 13.
    Thusoo, A., Sarma, J.S., Jain, N., Shao, Z., Chakka, P., Anthony, S., Liu, H., Wyckoff, P., Murthy, R.: Hive: a warehousing solution over a map-reduce framework. The VLDB Journal 2(2), 1626–1629 (2009)Google Scholar
  14. 14.
    White, T.: Hadoop: The Definitive Guide. O’Reilly Media (2009)Google Scholar
  15. 15.
    Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., Franklin, M.J., Shenker, S., Stoica, I.: Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In: Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation, NSDI’12, 2–2. USENIX Association, Berkeley, CA, USA (2012)Google Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2015

Authors and Affiliations

  1. 1.Institut für InformatikUniversität LeipzigLeipzigDeutschland
  2. 2.Fakultät für InformatikOtto-von-Guericke UniversitätMagdeburgDeutschland
  3. 3.Fakultät für Informatik und AutomatisierungTechnische Universität IlmenauIlmenauDeutschland

Personalised recommendations