Zusammenfassung
Die Digitalisierung schafft eine stetig steigende Flut von Daten unterschiedlichster Art in Unternehmen, die in den Geschäfts- oder Produktionsprozessen an verschiedenen Stellen benötigt werden. Die Verfügbarkeit und Nutzbarkeit von Daten ist für die Steuerung eines Unternehmens auf verschiedenen Ebenen unentbehrlich. Zwar haben viele Unternehmen diese Notwendigkeit erkannt, jedoch stellen die vielfältigen Daten-Management-Lösungen, die in den letzten Jahren unter dem Schlagwort „Big Data“ entstanden sind, die Unternehmen vor die Herausforderung ein geeignetes „Ökosystem“ für das Daten-Management im Unternehmen aufzubauen.
Data Engineering beschäftigt sich mit verschiedenen Aspekten, die für ein effizientes und effektives Daten-Management notwendig sind. Anhand von verschiedenen Vorgehensmodellen für Data Science werden zunächst die Aufgaben charakterisiert, die zum Data Engineering zählen. Die wesentlichen Aufgaben, wie zum Beispiel die Konzeption einer Architektur für das Daten-Management, Datenmodellierung und Datenintegration, werden dann in den folgenden Abschnitten im Detail diskutiert.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Literatur
Abedjan, Z., Golab, L., Naumann, F., Papenbrock, T.: Data profiling. Synthesis Lectures on Data Management 10(4), 1–154. Morgan & Claypool Publishers, Williston, VT, USA (2018)
Bellahsene Z., Bonifati A., Rahm E.: Schema Matching and Mapping. Springer, Berlin (2011). DOI: https://doi.org/10.1007/978-3-642-16518-4
Brewer E.A.: Towards robust distributed systems (abstract). In Proceedings of the Nineteenth Annual ACM Symposium on Principles of Distributed Computing. Portland (2000). DOI: https://doi.org/10.1145/343477.343502
Brodie M.L.: Data Integration at Scale: From Relational Data Integration to Information Ecosystems In: Proceedings of 24th IEEE International Conference on Advanced Information Networking and Applications (AINA), S. 2–3. Perth, Australia, (2010) DOI: https://doi.org/10.1109/AINA.2010.184
Council J.: Data Challenges Are Halting AI Projects, IBM Executive Says. Wall Street Journal. https://www.wsj.com/articles/data-challenges-are-halting-ai-projects-ibm-executive-says-11559035800 (2019)
Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P.: The KDD Process for Extracting Useful Knowledge from Volumes of Data. Commun. ACM 39(11), 27–34 (1996). https://doi.org/10.1145/240455.240464
Geisler S., Quix C.: Database Management Systems (DBMS). In Schintler, L. A., McNeely, C. L. (Hrsg.). Encyclopedia of Big Data. Springer, Cham. (2020). DOI: https://doi.org/10.1007/978-3-319-32001-4_538-1
Halevy A.Y., Korn F., Noy N.F., Olston C., Polyzotis N., Roy S., Whang S.E.: Goods: Organizing Google’s Datasets. Proceedings of the ACM SIGMOD International Conference on Management of Data S. 795–806. San Francisco (2016). DOI: https://doi.org/10.1145/2882903.2903730
Heer, J., Hellerstein, J.M., Kandel, S.: Data Wrangling, In Encyclopedia of Big Data Technologies, Springer, Cham (2019). https://doi.org/10.1007/978-3-319-63962-8_9-1
Jarke, M., Lenzerini, M., Vassiliou, Y., Vassiliadis, P.: Fundamentals of Data Warehouses, 2. Aufl. Springer, Berlin (2003)
Koudas N., Sarawagi S., Srivastava D.: Record linkage: similarity measures and algorithms. In Proceedings of the ACM SIGMOD International Conference on Management of Data, S. 802–803. Chicago (2006). DOI: https://doi.org/10.1145/1142473.1142599
Lohr S.: For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights. New York Times. https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html (2014)
Ochieng P., Kyanda S.: Large-Scale Ontology Matching: State-of-the-Art Analysis. ACM Computing Surveys, 51(4):75:1–75:35. (2018) DOI: https://doi.org/10.1145/3211871
Press G.: Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Forbes. https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/ (2014)
Quix C., Hai R.: Data Lake. In Sakr S., Zomaya A.Y. (Hrsg.). Encyclopedia of Big Data Technologies. Springer, Cham (2019). DOI: https://doi.org/10.1007/978-3-319-63962-8_7-1
Sadalage P.J., Fowler M.: NoSQL distilled: a brief guide to the emerging world of polyglot persistence. Pearson Education. Upper Saddle River, NJ, USA (2012)
Schulz M., Neuhaus U.: DASC-PM v1.0 – Ein Vorgehensmodell für Data-Science-Projekte. Nordakademie. https://www.nordakademie.de/forschung/data-science-process-model (2020)
Simitsis A., Vassiliadis P.: Extraction, Transformation, and Loading. In: Liu, L., Öszu, M.T. (Hrsg.). Encyclopedia of Database Systems, Bd. 2. Springer, New York, NY, USA, (2018). DOI: https://doi.org/10.1007/978-1-4614-8265-9_158
Thusoo A., Shao Z., Anthony S., Borthakur D., Jain N., Sarma J.S., Murthy R., Liu H.: Data warehousing and analytics infrastructure at Facebook. In: Proceedings of the ACM SIGMOD International Conference on Management of Data S. 1013–1020. Indianapolis, USA. (2010). DOI: https://doi.org/10.1145/1807167.1807278
Thusoo A., Sarma J.S., Jain N., Shao Z., Chakka P., Zhang N., Anthony S., Liu H., Murthy R.: Hive - a petabyte scale data warehouse using Hadoop. In Proceedings of the 26th International Conference on Data Engineering (ICDE 2010) S. 996–1005. Long Beach, California (2010). DOI: https://doi.org/10.1109/ICDE.2010.5447738
Wirth R., Hipp, J.: CRISP-DM: Towards a standard process model for data mining. In: Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining. 1 Aufl., S. 29–40. Springer, London. (2000)
Zaharia, M., Xin, R.S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., Venkataraman, S., Franklin, M.J., Ghodsi, A., Gonzalez, J., Shenker, S., Stoica, I.: Apache Spark: a unified engine for big data processing. Commun. ACM 59(11), 56–65 (2016). https://doi.org/10.1145/2934664
Author information
Authors and Affiliations
Corresponding author
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2021 Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature
About this chapter
Cite this chapter
Quix, C. (2021). Data Engineering. In: Frick, D., et al. Data Science. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-33403-1_5
Download citation
DOI: https://doi.org/10.1007/978-3-658-33403-1_5
Published:
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-33402-4
Online ISBN: 978-3-658-33403-1
eBook Packages: Computer Science and Engineering (German Language)