Einsatz von Machine-Learning-Verfahren in amtlichen Unternehmensstatistiken

Originalveröffentlichung

Zusammenfassung

Aufgabe der amtlichen Unternehmensstatistiken ist die Bereitstellung von Informationen über Struktur und Entwicklung der Wirtschaft, die sie durch Erhebungen, die Nutzung von Verwaltungsdaten, den Zukauf kommerzieller Daten und die Verknüpfung von Mikrodaten gewinnt. In jüngster Zeit wurde darüber hinaus auch der Einsatz von Machine-Learning-Verfahren in amtlichen Unternehmensstatistiken experimentell erprobt, und zwar bei Zuordnungsentscheidungen und der Generierung neuer Informationen. In diesem Beitrag wird das Vorgehen im Überblick dargestellt. Dazu werden zunächst die Methodik des maschinellen Lernens in den Grundzügen dargestellt, bisherige Anwendungsgebiete außerhalb und in der amtlichen Statistik beschrieben sowie die in der Unternehmensstatistik experimentell eingesetzten Verfahren erläutert. Anschließend wird die praktische Anwendung von Support Vector Machines und Random Forests auf fünf konkrete Aufgabenstellungen in ausgewählten Unternehmensstatistiken dargestellt. Abschließend werden die bisherigen Erfahrungen zusammenfassend bewertet und potenzielle weitere Aufgabenstellungen sowie absehbare Weiterentwicklungen der maschinellen Lernverfahren aufgezeigt.

Schlüsselwörter

Maschinelles Lernen Random Forest Support Vector Machine Unternehmensstatistik 

Use of machine learning in official business statistics

Abstract

The task of the official business statistics is to provide information on the structure and development of the economy, which is gained through surveys, the use of administrative data, the purchase of commercial data and the linking of micro data. Recently, the use of machine learning methods in official business statistics has also been experimentally tested in the case of classification decisions and the generation of new data. This article provides an overview of the proceeding. To this end, the methodology of machine learning is first presented in the basic principles, previous fields of application are described outside and in official statistics, and the methods used experimentally in the business statistics are explained. Subsequently, the practical application of Support Vector Machines and Random Forests is presented in five concrete tasks in selected business statistics. Finally, the experience gained so far is summarized and potential further tasks as well as foreseeable further developments of the machine learning methods are presented.

Keywords

Machine learning Random Forest Support Vector Machine Business statistics 

Literatur

  1. Bachofer F, Esch T, Klein D (2009) Ableitung von Versiegelungsgraden basierend auf hochaufgelösten Fernerkundungsdaten mittels Support Vector Machines. In: Strobl J, Blaschke T, Griesebner G (Hrsg) Angewandte Geoinformatik. Wichmann, Heidelberg, S 432–441Google Scholar
  2. Bader-El-Den M, Gaber M (2012) GARF: Towards self-optimised random forests. In: Huang T, Zeng Z, Li C, Leung C‑S (Hrsg) ICONIP 2012, Part II. Springer, Berlin, S 506–515Google Scholar
  3. Baldi P, Brunak S (2001) Bioinformatics. MIT Press, CambridgeMATHGoogle Scholar
  4. Bennett KP, Campbell C (2000) Support vector machines: Hype or hallelujah? SIGKDD Explor Newsl 2:1–13CrossRefGoogle Scholar
  5. Boll C, Leppin JS (2015) Die geschlechtsspezifische Lohnlücke in Deutschland: Umfang, Ursachen und Interpretation. Wirtschaftsdienst 95:249–254CrossRefGoogle Scholar
  6. Boser BE, Guyon IM, Vapnik VN (1992) A training algorithm for optimal margin classifiers. Fifth Annual ACM Workshop on Computational Learning Theory, S 144–152 (Proceedings)Google Scholar
  7. Boulesteix A‑L, Janitza S, Kruppa J, König IR (2012) Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics. Wiley Interdiscip Rev Data Min Knowl Discov 2:493–507CrossRefGoogle Scholar
  8. Breiman L (2001) Random forests. Mach Learn 45:5–32CrossRefMATHGoogle Scholar
  9. Breiman L, Friedman JH, Olshen RA, Stone CJ (1984) Classification and regression trees. Chapman & Hall/CRC, Boca RatonMATHGoogle Scholar
  10. Carleo G, Troyer M (2017) Solving the quantum many-body problem with artificial neural networks. Science 355:602–606CrossRefMathSciNetGoogle Scholar
  11. Carrasquilla J, Melko RG (2017) Machine learning phases of matter. Nat Phys 13:431–434CrossRefGoogle Scholar
  12. Caruana R, Niculescu-Mizil A (2006) An empirical comparison of supervised learning algorithms. 23rd International Conference on Machine Learning, S 161–168 (Proceedings)Google Scholar
  13. Caruana R, Karampatziakis N, Yessenalina A (2008) An empirical evaluation of supervised learning in high dimensions. 25th International Conference on Machine Learning, S 96–103 (Proceedings)Google Scholar
  14. Chang X, Lin S‑B, Zhou D‑X (2017) Distributed semi-supervised learning with Kernel Ridge regression. J Mach Learn Res 18:1–22MATHMathSciNetGoogle Scholar
  15. Christmann A, Zhou D‑X (2016a) Learning rates for the risk of kernel based quantile regression estimators in additive models. Analysis Appl 14:449–477MATHMathSciNetGoogle Scholar
  16. Christmann A, Zhou D‑X (2016b) On the robustness of regularized pairwise learning methods based on kernels. J Complex 37:1–33CrossRefMATHMathSciNetGoogle Scholar
  17. Chu K, Poirier C (2015) Machine learning documentation initiative. Statistics Canada. https://statswiki.unece.org/download/attachments/63931489/Machine-Learning-documentation-initiative-v10.docx. Zugegriffen: 3. Juli 2017Google Scholar
  18. Cortes C, Vapnik VN (1995) Support-vector networks. Mach Learn 20:273–297MATHGoogle Scholar
  19. Dubey R, Zhou J, Wang Y, Thompson PM, Ye J (2014) Analysis of sampling techniques for imbalanced data. Neuroimage 87:220–241CrossRefGoogle Scholar
  20. Dumpert F (2017) Universal consistency and robustness of localized support vector machines. https://arxiv.org/abs/1703.06528. Zugegriffen: 11. Juli 2017Google Scholar
  21. Dumpert F, von Eschwege K, Beck M (2016) Einsatz von Support Vector Machines bei der Sektorzuordnung von Unternehmen. WISTA Wirtschaft Stat 2016(1):87–97Google Scholar
  22. Fawagreh K, Gaber MM, Elyan E (2014) Random forests: From early developments to recent advancements. Syst Sci Control Eng 2:602–609CrossRefGoogle Scholar
  23. Fernández-Delgado M, Cernadas E, Barro S (2014) Do we need hundreds of classifiers to solve real world classification problems? J Mach Learn Res 15:3133–3181MATHMathSciNetGoogle Scholar
  24. Feuerhake J, Dumpert F (2016) Erkennung nicht relevanter Unternehmen in den Handwerksstatistiken. WISTA Wirtschaft Stat 2016(2):79–94Google Scholar
  25. Finke C (2011) Verdienstunterschiede zwischen Männern und Frauen. Wirtsch Stat 2011(1):36–48Google Scholar
  26. Finke C, Dumpert F, Beck M (2017) Verdienstunterschiede zwischen Männern und Frauen. WISTA Wirtschaft Stat 2017(2):43–62Google Scholar
  27. Gong J, Kim H (2017) RHSBoost: Improving classification performance in imbalance data. Comput Stat Data Analysis 111:1–13CrossRefMathSciNetGoogle Scholar
  28. Gründler K, Krieger T (2015) Using support vector machines for measuring democracy. https://www.wiwi.uni-wuerzburg.de/fileadmin/12010400/DP_130.pdf. Zugegriffen: 3. Juli 2017 (Discussion Paper)Google Scholar
  29. Hable R (2013) Universal consistency of localized versions of regularized kernel methods. J Mach Learn Res 14:111–144MATHMathSciNetGoogle Scholar
  30. Hamel L (2009) Knowledge discovery with support vector machines. John Wiley & Sons, HobokenCrossRefGoogle Scholar
  31. Himmelreicher R, vom Berge P, Fitzenberger B, Günther R, Müller D (2017) Überlegungen zur Verknüpfung von Daten der Integrierten Erwerbsbiographien (IEB) und der Verdienststrukturerhebung (VSE). RatSWD Working Papers, Bd. 262.Google Scholar
  32. Hyafil L, Rivest RL (1976) Constructing optimal binary decision trees is NP-complete. Inf Process Lett 5:15–17CrossRefMATHMathSciNetGoogle Scholar
  33. James G, Witten D, Hastie T, Tibshirani R (2013) An introduction to statistical learning with applications in R. Springer, New YorkCrossRefMATHGoogle Scholar
  34. Jung S, Käuser S (2016) Herausforderungen und Potenziale der Einzeldatenverknüpfung in der Unternehmensstatistik. WISTA Wirtschaft Stat 2016(2):95–106Google Scholar
  35. Kaus W, Leppert P (2017) Außenhandelsaktive Unternehmen in Deutschland: neue Perspektiven durch Micro data Linking. WISTA Wirtschaft Stat 2017(3):22–38Google Scholar
  36. Kleber B, Sturm R, Tümmler T (2010) Ergebnisse zu Unternehmensgruppen aus dem Unternehmensregister. Wirtsch Stat 2010(6):527–536Google Scholar
  37. Kotsiantis SB (2007) Supervised machine learning: A review of classification techniques. Informatica 31:249–268MATHMathSciNetGoogle Scholar
  38. Kubat M, Holte R, Matwin S (1997) Learning when negative examples abound. In: van Someren M, Widmer G (Hrsg) Machine Learning: ECML-97 1224, S 146–153CrossRefGoogle Scholar
  39. LeCun Y, Bottou L, Bengio Y, Haffner P (1998) Gradient-based learning applied to document recognition. Proc IEEE 86:2278–2324CrossRefGoogle Scholar
  40. Lewis DD, Gale WA (1994) A sequential algorithm for training text classifiers. In: Croft WB, von Rijsbergen CJ (Hrsg) Proceedings Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. Springer, London, S 3–12Google Scholar
  41. Lin W‑J, Chen JJ (2012) Class-imbalanced classifiers for high-dimensional data. Brief Bioinformatics 14:13–26CrossRefGoogle Scholar
  42. Lorenz R, Opfermann R (2017) Verwaltungsdaten in der Unternehmensstatistik. WISTA Wirtschaft Stat 2017(1):49–66Google Scholar
  43. Löw F, Michel U, Dech S, Conrad C (2013) Impact of feature selection on the accuracy and spatial uncertainty op per-field crop classification using support vector machines. ISPRS J Photogramm Remote Sens 85:102–119CrossRefGoogle Scholar
  44. Meister M, Steinwart I (2016) Optimal learning rates for localized SVMs. J Mach Learn Res 17:1–44MATHMathSciNetGoogle Scholar
  45. Mindestlohnkommission (2016) Erster Bericht zu den Auswirkungen des gesetzlichen Mindestlohns. Bericht der Mindestlohnkommission an die Bundesregierung nach § 9 Abs. 4 MindestlohngesetzGoogle Scholar
  46. Murty MN, Raghava R (2016) Support vector machines and perceptrons. Springerbriefs Comput Sci.  https://doi.org/10.1007/978-3-319-41063-0 CrossRefMATHGoogle Scholar
  47. van Renterghem P, Sottas P‑E, Saugy M, van Eenoo P (2013) Statistical discrimination of steroid profiles in doping control with support vector machines. Anal Chim Acta 768:41–48CrossRefGoogle Scholar
  48. van Rijsbergen CJ (1979) Foundation of evaluation. J Documentation 30:365–373CrossRefGoogle Scholar
  49. Rosenski N (2012) Die wirtschaftliche Bedeutung des Dritten Sektors. Wirtsch Stat 2012(3):209–217Google Scholar
  50. Rousseeuw PJ, van den Bossche W (2016) Detecting deviating data cells. https://arxiv.org/abs/1601.07251. Zugegriffen: 24. Juli 2017Google Scholar
  51. Russel S, Norvig P (2012) Künstliche Intelligenz, 3. Aufl. Pearson, MünchenGoogle Scholar
  52. Samuel AL (1959) Some studies in machine learning using the game of checkers. Ibm J 3:210–229CrossRefMathSciNetGoogle Scholar
  53. Schaathun HG (2012) Machine learning in image steganalysis. John Wiley & Sons, ChichesterCrossRefGoogle Scholar
  54. Schölkopf B, Smola AJ (2002) Learning with Kernels. MIT Press, CambridgeMATHGoogle Scholar
  55. Simon HA (1983) Why should machines learn? In: Michalski RS, Carbonell JG, Mitchell TM (Hrsg) Machine learning: An artificial intelligence approach. Tioga Press, Palo Alto, S 25–38Google Scholar
  56. Singh KP, Basant N, Gupta S (2011) Support vector machines in water quality management. Anal Chim Acta 703:152–162CrossRefGoogle Scholar
  57. Statistisches Bundesamt (2012) Mikrozensus 2012 Qualitätsbericht. https://www.destatis.de/DE/Publikationen/Qualitaetsberichte/Bevoelkerung/Mikrozensus2012.pdf?__blob=publicationFile. Zugegriffen: 3. Juli 2017Google Scholar
  58. Statistisches Bundesamt (2016) Verdienststrukturerhebung Qualitätsbericht. https://www.destatis.de/DE/Publikationen/Qualitaetsberichte/VerdiensteArbeitskosten/VerdienststrukturerhebungVSE_2014.pdf. Zugegriffen: 3. Juli 2017Google Scholar
  59. Steinwart I, Christmann A (2008) Support vector machines. Springer, New YorkMATHGoogle Scholar
  60. Steinwart I, Thomann P (2017) liquidSVM: A fast and versatile SVM package. https://arxiv.org/abs/1702.06899. Zugegriffen: 11. Juli 2017Google Scholar
  61. Sturm R, Tümmler T (2006) Das statistische Unternehmensregister – Entwicklungsstand und Perspektiven. Wirtsch Stat 2006(10):1021–1036Google Scholar
  62. Vapnik VN (1995) The nature of statistical learning theory. Springer, New YorkCrossRefMATHGoogle Scholar
  63. Wainberg M, Alipanahi B, Frey BJ (2016) Are random forests truly the best classifiers? J Mach Learn Res 17:1–5MathSciNetGoogle Scholar
  64. Wang L (2016) Discovering phase transitions with unsupervised learning. Phys Rev B 94:195105-1–195105-5Google Scholar
  65. Wasserman L (2004) All of Statistics. Springer, New YorkCrossRefMATHGoogle Scholar
  66. Wyner AJ, Olson M, Bleich J (2017) Explaining the success of AdaBoost and random forests as interpolating classifiers. J Mach Learn Res 18:1–33MATHMathSciNetGoogle Scholar
  67. Xu B, Huang JZ, Williams G, Li MJ, Ye Y (2012a) Hybrid random forests: Advantages of mixed trees in classifying text data. In: Tan P‑N, Chawla S, Ho CK, Bailey J (Hrsg) PAKDD 2012, Part I. Springer, Berlin, S 147–158Google Scholar
  68. Xu B, Huang JZ, Williams G, Wang Q, Ye Y (2012b) Classifying very high-dimensional data with random forests built from small subspaces. Int J Data Warehous Min 8:44–63CrossRefGoogle Scholar
  69. Yu L, Wang S, Lai KK, Zhou L (2008) Bio-inspired credit risk analysis. Springer, BerlinCrossRefGoogle Scholar

Copyright information

© Springer-Verlag GmbH Deutschland 2017

Authors and Affiliations

  1. 1.Fakultät für Mathematik, Physik und Informatik, Lehrstuhl für StochastikUniversität BayreuthBayreuthDeutschland
  2. 2.Gustav-Stresemann-Ring 11Statistisches BundesamtWiesbadenDeutschland

Personalised recommendations