Advertisement

Kleine Barrieren für große Analysen – Eine Untersuchung der Eignung aktueller Plattformen für Self-Service Data Mining

  • Daniel Badura
  • Michael SchulzEmail author
Schwerpunkt
  • 112 Downloads

Zusammenfassung

Um das Potential der stetig wachsenden Datenmengen in verschiedenen Geschäfts- und Gesellschaftsbereichen verstärkt zur Erkenntnisgewinnung und Entscheidungsunterstützung nutzen zu können, wäre es hilfreich, Big-Data-Analysemethoden für einen größeren Anwenderkreis zugänglich zu machen. Dies kann entweder durch eine stärkere Vermittlung von Datenkompetenzen aus Anwendersicht oder durch eine Vereinfachung der Methoden, insbesondere durch weitere Automatisierung der Prozesse oder Algorithmen mit geringer Komplexität aus Anwendungssicht geschehen. Zu letzteren gehören unter anderem Entscheidungsbäume, da die verwendeten Algorithmen leicht nachvollziehbar und die Analyseergebnisse zudem grafisch darstellbar sind. Für die in dieser Arbeit vorgestellte Versuchsreihe wurden sie daher als Anhaltspunkt für die Etablierbarkeit von Self-Service Data Mining verwendet. In den Plattformen IBM SPSS Modeler, RapidMiner, KNIME und Weka wurden auf einer einheitlichen Datengrundlage Klassifikationsmodelle erstellt und diese in Bezug auf ihre Genauigkeit und Komplexität miteinander verglichen. Die Ergebnisse deuten darauf hin, dass die Plattformen im Hinblick auf diese beiden Punkte unterschiedliche Stärken und Schwächen im Analyseprozess aufweisen. Gegenwärtig gibt es bereits vielversprechende Ansätze zur Erweiterung des potentiellen Nutzerkreises von Big-Data-Analysen, jedoch sind diese noch nicht flächendeckend etabliert.

Schlüsselwörter

Self-Service Data Mining Entscheidungsbäume Klassifikation Big Data Analytics IBM SPSS Modeler RapidMiner KNIME Weka 

Small Barriers for Big Data – A Closer Look At Current Self-Service Data Mining Platforms

Abstract

To further harness the potential of the growing volume of available data in different areas of business and society, it would be helpful if big data analytics could be made available to a larger group of users. This can be achieved either through an increase in general data literacy or a simplification of the process, especially through further automation or more easily comprehensible algorithms. Decision trees are an example of the latter, since analytical results can be represented in visual form. For the trials presented in this article, they were used as a reference point for the feasibility of self-service analytics. Classification models were constructed in the platforms IBM SPSS Modeler, RapidMiner, KNIME and Weka and were compared with regards to their accuracy and comprehensibility. The results indicate that the platforms possess different strengths and weaknesses at different steps of the process. Currently, there are already some promising self-service solutions, but they are not yet widely established.

Keywords

Self-service data mining Decision trees Classification Big data analytics IBM SPSS Modeler RapidMiner KNIME Weka 

Literatur

  1. Alpar P, Schulz M (2016) Self-service business intelligence. Bus Inf Syst Eng 58(2):151–155.  https://doi.org/10.1007/s12599-016-0424-6 CrossRefGoogle Scholar
  2. Banker S (2018) The citizen data scientist. https://www.forbes.com/sites/stevebanker/2018/01/19/the-citizen-data-scientist. Zugegriffen: 11. Jan. 2019Google Scholar
  3. Barron A, Rissanen J, Yu B (1998) The minimum description length principle in coding and modeling. Ieee Trans Inf Theory 44(6):2743–2760.  https://doi.org/10.1109/18.720554 MathSciNetCrossRefzbMATHGoogle Scholar
  4. Berthold M, Cebron N, Dill F, Gabriel T, Kotter T, Meinl T, Wiswedel B (2009) KNIME—the Konstanz information miner—version 2.0 and beyond. Acm Sigkdd Explor Newsletter 11(1):26–31.  https://doi.org/10.1145/1656274.1656280 CrossRefGoogle Scholar
  5. Breiman L, Friedman J, Olshen R, Stone C (1984) Classification and regression trees. Chapman & Hall, LondonzbMATHGoogle Scholar
  6. Chen M, Mao S, Liu Y (2014) Big data: A survey. Mob Netw Appl 19(2):171–209.  https://doi.org/10.1007/s11036-013-0489-0 CrossRefGoogle Scholar
  7. Domingos P (2012) A few useful things to know about machine learning. Commun ACM 55(10):78–87.  https://doi.org/10.1145/2347736.2347755 CrossRefGoogle Scholar
  8. Fehrman E, Mirkes E, Muhammad A, Egan V, Gorban A (2017) The five factor model of personality and evaluation of drug consumption risk. In: Palumbo F, Montanari A, Vichi M (Hrsg) Studies in classification, data analysis, and knowledge organization. Springer, Heidelberg, Berlin, New YorkGoogle Scholar
  9. Freitas A (2014) Comprehensible classification models. Acm Sigkdd Explor 15(1):1–10.  https://doi.org/10.1145/2594473.2594475 CrossRefGoogle Scholar
  10. Gibbs P, Hiroshi S (1997) What is Occam’s Razor? http://www.physics.adelaide.edu.au/~dkoks/Faq/General/occam.html, Zugegriffen: 11. Jan. 2019Google Scholar
  11. Guyon I, Elisseeff A (2003) An introduction to variable and feature selection. J Mach Learn Res 3(3):1157–1182zbMATHGoogle Scholar
  12. Han J, Kamber M, Pei J (2012) Data mining: Concepts and techniques. Elsevier, WalthamzbMATHGoogle Scholar
  13. Kass G (1980) An exploratory technique for investigating large quantities of categorical data. Appl Stat 29(2):119–127.  https://doi.org/10.2307/2986296 CrossRefGoogle Scholar
  14. Kohavi R, John G (1997) Wrappers for feature subset selection. Artif Intell 97(1-2):273–324.  https://doi.org/10.1016/s0004-3702(97)00043-x CrossRefzbMATHGoogle Scholar
  15. Miller G (1956) The magical number seven, plus or minus two: Some limits on our capacity for processing information. Psychol Rev 63(2):81–97.  https://doi.org/10.1037/h0043158 CrossRefGoogle Scholar
  16. Provost F, Fawcett T (2013) Data science and its relationship to big data and data driven decision making. Big Data 1(1):51–66.  https://doi.org/10.1089/big.2013.1508 CrossRefGoogle Scholar
  17. Quinlan J (1986) Induction of decision trees. In machine learning. Kluwer Academic Publishers, Boston, S 81–106Google Scholar
  18. Quinlan J (1993) C4.5: Programs for machine learning. Morgan Kaufman, San MateoGoogle Scholar
  19. Quinlan J (2017) C5.0: An informal tutorial. http://rulequest.com/see5-unix.html. Zugegriffen: 11. Jan. 2019Google Scholar
  20. RapidMiner (2018) Rapidminer. https://rapidminer.com. Zugegriffen: 11. Jan. 2019Google Scholar
  21. Viaene S (2013) Data scientists Aren’t domain experts. Ieee It 15(6):12–17.  https://doi.org/10.1109/mitp.2013.93 Google Scholar
  22. Wallace B, Dahabreh I et al (2012) Closing the gap between Methodologists and end-users: R as a computational back-end. J Stat Softw 49(5).  https://doi.org/10.18637/jss.v049.i05 Google Scholar
  23. Witten I, Frank E, Hall M, Pal C (2017) Data mining: Practical machine learning tools and techniques, 4. Aufl. Morgan Kaufmann, CambridgeGoogle Scholar

Copyright information

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019

Authors and Affiliations

  1. 1.valantic Business AnalyticsHamburgDeutschland
  2. 2.NORDAKADEMIEElmshornDeutschland

Personalised recommendations