Self-Service Data Science – Vergleich von Plattformen zum Aufbau von Entscheidungsbäumen

Badura, Daniel; Ossa, Alexander; Schulz, Michael

doi:10.1007/978-3-658-32236-6_10

Daniel Badura¹¹,
Alexander Ossa¹² &
Michael Schulz¹³

Part of the book series: Edition HMD ((EHMD))

15k Accesses

Zusammenfassung

Um das Potenzial der stetig wachsenden Datenmengen in verschiedenen Geschäfts- und Gesellschaftsbereichen verstärkt zur Erkenntnisgewinnung und Entscheidungsunterstützung nutzen zu können, wäre es hilfreich, Big-Data-Analysemethoden für einen größeren Anwenderkreis zugänglich zu machen. Dies kann entweder durch eine stärkere Vermittlung von Datenkompetenzen aus Anwendersicht oder durch eine Vereinfachung der Methoden, insbesondere durch weitere Automatisierung der Prozesse oder Algorithmen mit geringer Komplexität aus Anwendungssicht geschehen. Zu letzteren gehören unter anderem Entscheidungsbäume, da sie leicht nachvollziehbar und die Analyseergebnisse zudem grafisch darstellbar sind. Für die in dieser Arbeit vorgestellte Versuchsreihe wurden sie daher als Anhaltspunkt für die Etablierbarkeit von Self-Service Data Science verwendet. In den Plattformen IBM SPSS Modeler, RapidMiner, KNIME und Weka wurden auf einer einheitlichen Datengrundlage Klassifikationsmodelle erstellt und diese in Bezug auf ihre Genauigkeit und Komplexität miteinander verglichen. Die Ergebnisse deuten darauf hin, dass die Plattformen im Hinblick auf diese beiden Punkte unterschiedliche Stärken und Schwächen im Analyseprozess aufweisen. Gegenwärtig gibt es bereits vielversprechende Ansätze zur Erweiterung des potenziellen Nutzerkreises von Big-Data-Analysen, jedoch sind Entwicklungen in diesem Bereich noch lange nicht abgeschlossen. Um den Prozess weiter voranzutreiben, müssen die Kompetenzen von Anwendern stärker in die Analyse eingebunden werden. In dieser Arbeit soll daher zusätzlich und beispielhaft ein Verfahren vorgestellt werden, um das Wissen von Domänenexperten zur Verbesserung von Entscheidungsbaummodellen einzusetzen.

Überarbeiteter Beitrag basierend auf Badura D, Schulz M (2019) Kleine Barrieren für große Analysen – Eine Untersuchung der Eignung aktueller Plattformen für Self-Service Data Mining, HMD – Praxis der Wirtschaftsinformatik 56:1053–1067.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 54.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Smart Service Systems als Handlungsfeld einer konvergierenden Dienstleistungsforschung

Big Data Services

E-Business-Software – Big-Data-Management mit semantischen Technologien

Notes

1.
Eine Betrachtung unüberwachter Lernverfahren steht an dieser Stelle nicht im Fokus.

Literatur

Alpar P, Schulz M (2016) Self-service business intelligence. Bus Inf Syst Eng 58:151–155
Article Google Scholar
Banker S (2018) The citizen data scientist. https://www.forbes.com/sites/stevebanker/2018/01/19/the-citizen-data-scientist. Zugegriffen am 11.01.2019
Barron A, Rissanen J, Yu B (1998) The minimum description length principle in coding and modeling. IEEE Trans Inform Theory 44:2743–2760
Article MathSciNet Google Scholar
Berthold M, Cebron N, Dill F, Gabriel T, Kotter T, Meinl T, Wiswedel B (2009) KNIME – the Konstanz information miner – version 2.0 and beyond. ACM SIGKDD Explor Newsl 11:26–31
Google Scholar
Breiman L, Friedman J, Olshen R, Stone C (1984) Classification and regression trees. Chapman & Hall, New York
MATH Google Scholar
Chen M, Mao S, Liu Y (2014) Big data: a survey. Mob Netw Appl 19:171–209
Article Google Scholar
Domingos P (2012) A few useful things to know about machine learning. Commun ACM 55:78–87
Article Google Scholar
Fehrman E, Mirkes E, Muhammad A, Egan V, Gorban A (2017) The five factor model of personality and evaluation of drug consumption risk. In: Palumbo F, Montanari A, Vichi M (Hrsg) Studies in classification, data analysis, and knowledge organization. Springer, Berlin
Google Scholar
Freitas A (2014) Comprehensible classification models. ACM SIGKDD Explor Newsl 15:1–10
Article Google Scholar
Fürnkranz J (1997) Pruning algorithms for rule learning. Mach Learn 27(2):139–172
Article Google Scholar
Gesellschaft für Informatik e.V (2018) Data literacy und data science education: digitale Kompetenzen in der Hochschulausbildung. Gesellschaft für Informatik e. V, Berlin
Google Scholar
Gibbs P, Hiroshi S (1997) What is Occam’s Razor? https://www.desy.de/pub/www/projects/Physics/General/occam.html. Zugegriffen am 04.01.2021
Guyon I, Elisseeff A (2003) An introduction to variable and feature selection. J Mach Learn Res 3:1157–1182
MATH Google Scholar
Halper F (2017) TDWI self-service analytics maturity model guide. The Data Warehouse Institute, Renton
Google Scholar
Han J, Kamber M, Pei J (2012) Data mining: concepts and techniques. Elsevier, Waltham
MATH Google Scholar
Hayes-Roth F (1985) Rule-based systems. Commun ACM 28:921–932
Article Google Scholar
Hyafil L, Rivest R (1976) Constructing optimal binary decision trees is NP-complete. Inf Process Lett 5:15–17
Article MathSciNet Google Scholar
IBM (2017) IBM SPSS Modeler Subscription. https://www01.ibm.com/common/ssi/ShowDoc.wss?docURL=/common/ssi/rep_ca/2/897/ENU S217-442/index.html&request_locale=en. Zugegriffen am 11.01.2019
Kass G (1980) An exploratory technique for investigating large quantities of categorical data. Appl Stat 29:119–127
Article Google Scholar
Kohavi R (1995) IJCAI ’95: Proceedings of the 14th international joint conference on Artificial intelligence, S 1137–1143
Google Scholar
Kohavi R, John G (1997) Wrappers for feature subset selection. Artif Intell 97:273–324
Article Google Scholar
Merz C (1996) Dynamical selection of learning algorithms. In: Fisher D, Lenz HJ (Hrsg) Learning from data, Lecture notes in statistics, Bd 112. Springer, New York
Chapter Google Scholar
Miller G (1956) The magical number seven, plus or minus two: some limits on our capacity for processing information. Psychol Rev 63:81–97
Article Google Scholar
Provost F, Fawcett T (2013) Data science and its relationship to big data and data driven decision making. Big Data 1:51–66
Article Google Scholar
Quinlan J (1986) Induction of decision trees. In: Machine learning. Kluwer Academic Publishers, Boston, S 81–106
Google Scholar
Quinlan J (1993) C4.5: programs for machine learning. Morgan Kaufman, San Mateo
Google Scholar
Quinlan J (2017) C5.0: an informal tutorial. http://rulequest.com/see5-unix.html. Zugegriffen am 11.01.2019
RapidMiner (2018) RapidMiner. https://rapidminer.com. Zugegriffen am 11.01.2019
Schuff D, Corral K, St. Louis R, Schymik G (2018) Enabling self-service BI: a methodology and a case study for a model management warehouse. Inf Syst Front 20:275–288
Article Google Scholar
Schulz M, Neuhaus U, Kaufmann J, Badura D, Kerzel U, Welter F, Prothmann M, Kühnel S, Passlick J, Rissler R, Badewitz W, Dann D, Gröschel A, Kloker S, Alekozai EM, Felderer M, Lanquillon C, Brauner D, Gölzer P, Binder H, Rohde H, Gehrke N (2020) DASC-PM v1.0 – Ein Vorgehensmodell für Data-Science-Projekte. NORDAKADEMIE, valantic Business Analytics
Google Scholar
Viaene S (2013) Data scientists aren’t domain experts. IEEE IT Prof 15:12–17
Article Google Scholar
Wallace B, Dahabreh I, Trikalinos TA, Lau J, Trow P, Schmid CH (2012) Closing the gap between methodologists and end-users: R as a computational back-end. J Stat Softw 49:1–15
Google Scholar
Witten I, Frank E, Hall M, Pal C (2017) Data mining: practical machine learning tools and techniques, 4. Aufl. Morgan Kaufmann, Cambridge, MA
Google Scholar

Download references

Author information

Authors and Affiliations

valantic Business Analytics, Hamburg, Deutschland
Daniel Badura
Gruner + Jahr GmbH, Hamburg, Deutschland
Alexander Ossa
valantic Business Analytics, Hamburg und NORDAKADEMIE, Elmshorn, Deutschland
Michael Schulz

Authors

Daniel Badura
View author publications
You can also search for this author in PubMed Google Scholar
Alexander Ossa
View author publications
You can also search for this author in PubMed Google Scholar
Michael Schulz
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Daniel Badura .

Editor information

Editors and Affiliations

IT Business Integration, Genossenschaft Migros Zürich, Zürich, Switzerland
Sara D'Onofrio
Universität Fribourg, Fribourg, Switzerland
Andreas Meier

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Badura, D., Ossa, A., Schulz, M. (2021). Self-Service Data Science – Vergleich von Plattformen zum Aufbau von Entscheidungsbäumen. In: D'Onofrio, S., Meier, A. (eds) Big Data Analytics. Edition HMD. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-32236-6_10

Download citation

DOI: https://doi.org/10.1007/978-3-658-32236-6_10
Published: 02 April 2021
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-32235-9
Online ISBN: 978-3-658-32236-6
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics

Self-Service Data Science – Vergleich von Plattformen zum Aufbau von Entscheidungsbäumen

Zusammenfassung

Access this chapter

Similar content being viewed by others

Smart Service Systems als Handlungsfeld einer konvergierenden Dienstleistungsforschung

Big Data Services

E-Business-Software – Big-Data-Management mit semantischen Technologien

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Editor information

Editors and Affiliations

Rights and permissions

Copyright information

About this chapter

Cite this chapter

Download citation

Publish with us

Navigation

Self-Service Data Science – Vergleich von Plattformen zum Aufbau von Entscheidungsbäumen

Zusammenfassung

Access this chapter

Similar content being viewed by others

Smart Service Systems als Handlungsfeld einer konvergierenden Dienstleistungsforschung

Big Data Services

E-Business-Software – Big-Data-Management mit semantischen Technologien

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Editor information

Editors and Affiliations

Rights and permissions

Copyright information

About this chapter

Cite this chapter

Download citation

Share this chapter

Publish with us

Search

Navigation