Einsatz von Machine-Learning-Verfahren in amtlichen Unternehmensstatistiken

Dumpert, Florian; Beck, Martin

doi:10.1007/s11943-017-0208-6

Einsatz von Machine-Learning-Verfahren in amtlichen Unternehmensstatistiken

Use of machine learning in official business statistics

Originalveröffentlichung
Published: 12 October 2017

Volume 11, pages 83–106, (2017)
Cite this article

AStA Wirtschafts- und Sozialstatistisches Archiv Aims and scope Submit manuscript

Florian Dumpert¹ &
Martin Beck²

1348 Accesses
4 Citations
Explore all metrics

Zusammenfassung

Aufgabe der amtlichen Unternehmensstatistiken ist die Bereitstellung von Informationen über Struktur und Entwicklung der Wirtschaft, die sie durch Erhebungen, die Nutzung von Verwaltungsdaten, den Zukauf kommerzieller Daten und die Verknüpfung von Mikrodaten gewinnt. In jüngster Zeit wurde darüber hinaus auch der Einsatz von Machine-Learning-Verfahren in amtlichen Unternehmensstatistiken experimentell erprobt, und zwar bei Zuordnungsentscheidungen und der Generierung neuer Informationen. In diesem Beitrag wird das Vorgehen im Überblick dargestellt. Dazu werden zunächst die Methodik des maschinellen Lernens in den Grundzügen dargestellt, bisherige Anwendungsgebiete außerhalb und in der amtlichen Statistik beschrieben sowie die in der Unternehmensstatistik experimentell eingesetzten Verfahren erläutert. Anschließend wird die praktische Anwendung von Support Vector Machines und Random Forests auf fünf konkrete Aufgabenstellungen in ausgewählten Unternehmensstatistiken dargestellt. Abschließend werden die bisherigen Erfahrungen zusammenfassend bewertet und potenzielle weitere Aufgabenstellungen sowie absehbare Weiterentwicklungen der maschinellen Lernverfahren aufgezeigt.

Abstract

The task of the official business statistics is to provide information on the structure and development of the economy, which is gained through surveys, the use of administrative data, the purchase of commercial data and the linking of micro data. Recently, the use of machine learning methods in official business statistics has also been experimentally tested in the case of classification decisions and the generation of new data. This article provides an overview of the proceeding. To this end, the methodology of machine learning is first presented in the basic principles, previous fields of application are described outside and in official statistics, and the methods used experimentally in the business statistics are explained. Subsequently, the practical application of Support Vector Machines and Random Forests is presented in five concrete tasks in selected business statistics. Finally, the experience gained so far is summarized and potential further tasks as well as foreseeable further developments of the machine learning methods are presented.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Notes

Andere Bereiche des maschinellen Lernens sind das nichtüberwachte Lernen (unsupervised learning), das halbüberwachte Lernen (semisupervised learning) und das ver- oder bestärkende Lernen (reinforcement learning), siehe beispielsweise Russel und Norvig (2012, S. 811).
Die nachfolgenden Beschreibungen sind im Wesentlichen jedoch auch für Regression oder die Klassifikation mit mehr als zwei möglichen Optionen gültig.
Bei genauerer Betrachtung ist zu erkennen, dass bislang hauptsächlich auf den Begriff des statistischen Lernens eingegangen wurde. Jede Berechnung einer Regressionsfunktion o. ä. kann im weiteren Sinne als statistisches Lernen bezeichnet werden, erfasst es doch die Informationen im Datensatz um später zu neuen Beobachtungen entsprechende Outputwerte vorherzusagen. Damit wird auch deutlich, dass die vorgestellten Methoden bessere Ergebnisse als die altbewährten liefern können, aber nicht müssen. Der Anteil des „Maschinellen“ wurde hingegen noch nicht verdeutlicht. Dass man von statistischem maschinellen Lernen spricht liegt darin begründet, dass einige der heute unter diesem Begriff firmierenden Methoden vor der Entwicklung entsprechend leistungsstarker Rechner zwar theoretisch denkbar, praktisch jedoch ohne maschinelle Unterstützung nicht oder nicht für große Datenmengen durchführbar waren. Brücken zu den Forschungsgebieten „Big Data“, „Data Mining“, „Künstliche Intelligenz“ und im Hinblick auf die Algorithmen auch zur Informatik könnten an dieser Stelle ohne weiteres geschlagen werden, sollen aber nicht Bestandteil des Aufsatzes sein.
Auf das pruning kann und soll verzichtet werden, wenn der Baum nicht alleine die Klassifikation vornimmt, sondern Eingang in einen Random Forest findet (Wyner et al. 2017).
Zu Hintergründen und weiteren Details zu nachfolgendem Abschnitt siehe Dumpert et al. (2016).
Zu Hintergründen und weiteren Details zu nachfolgendem Abschnitt siehe Feuerhake und Dumpert (2016).
Der Ansatz, Random Forests zur Identifizierung der für den späteren SVM-Algorithmus heranzuziehenden Variablen zu nutzen, wurde unter anderem auch von Löw et al. (2013) gewählt.
Zu Hintergründen und weiteren Details zu nachfolgendem Abschnitt siehe Finke et al. (2017).
Ein alternatives Zielkriterium stellt das sogenannte G‑Maß dar, das geometrische Mittel aus Spezifität und Sensitivität (Kubat et al. 1997).
In Tab. 7 werden die Mittelwerte für die Berechnungen über zehn verschiedene Aufteilungen des Gesamtmaterials in Trainings- und Testdatensatz angegeben.

Literatur

Bachofer F, Esch T, Klein D (2009) Ableitung von Versiegelungsgraden basierend auf hochaufgelösten Fernerkundungsdaten mittels Support Vector Machines. In: Strobl J, Blaschke T, Griesebner G (Hrsg) Angewandte Geoinformatik. Wichmann, Heidelberg, S 432–441
Google Scholar
Bader-El-Den M, Gaber M (2012) GARF: Towards self-optimised random forests. In: Huang T, Zeng Z, Li C, Leung C‑S (Hrsg) ICONIP 2012, Part II. Springer, Berlin, S 506–515
Google Scholar
Baldi P, Brunak S (2001) Bioinformatics. MIT Press, Cambridge
MATH Google Scholar
Bennett KP, Campbell C (2000) Support vector machines: Hype or hallelujah? SIGKDD Explor Newsl 2:1–13
Article Google Scholar
Boll C, Leppin JS (2015) Die geschlechtsspezifische Lohnlücke in Deutschland: Umfang, Ursachen und Interpretation. Wirtschaftsdienst 95:249–254
Article Google Scholar
Boser BE, Guyon IM, Vapnik VN (1992) A training algorithm for optimal margin classifiers. Fifth Annual ACM Workshop on Computational Learning Theory, S 144–152 (Proceedings)
Google Scholar
Boulesteix A‑L, Janitza S, Kruppa J, König IR (2012) Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics. Wiley Interdiscip Rev Data Min Knowl Discov 2:493–507
Article Google Scholar
Breiman L (2001) Random forests. Mach Learn 45:5–32
Article MATH Google Scholar
Breiman L, Friedman JH, Olshen RA, Stone CJ (1984) Classification and regression trees. Chapman & Hall/CRC, Boca Raton
MATH Google Scholar
Carleo G, Troyer M (2017) Solving the quantum many-body problem with artificial neural networks. Science 355:602–606
Article MathSciNet Google Scholar
Carrasquilla J, Melko RG (2017) Machine learning phases of matter. Nat Phys 13:431–434
Article Google Scholar
Caruana R, Niculescu-Mizil A (2006) An empirical comparison of supervised learning algorithms. 23rd International Conference on Machine Learning, S 161–168 (Proceedings)
Google Scholar
Caruana R, Karampatziakis N, Yessenalina A (2008) An empirical evaluation of supervised learning in high dimensions. 25th International Conference on Machine Learning, S 96–103 (Proceedings)
Google Scholar
Chang X, Lin S‑B, Zhou D‑X (2017) Distributed semi-supervised learning with Kernel Ridge regression. J Mach Learn Res 18:1–22
MATH MathSciNet Google Scholar
Christmann A, Zhou D‑X (2016a) Learning rates for the risk of kernel based quantile regression estimators in additive models. Analysis Appl 14:449–477
MATH MathSciNet Google Scholar
Christmann A, Zhou D‑X (2016b) On the robustness of regularized pairwise learning methods based on kernels. J Complex 37:1–33
Article MATH MathSciNet Google Scholar
Chu K, Poirier C (2015) Machine learning documentation initiative. Statistics Canada. https://statswiki.unece.org/download/attachments/63931489/Machine-Learning-documentation-initiative-v10.docx. Zugegriffen: 3. Juli 2017
Google Scholar
Cortes C, Vapnik VN (1995) Support-vector networks. Mach Learn 20:273–297
MATH Google Scholar
Dubey R, Zhou J, Wang Y, Thompson PM, Ye J (2014) Analysis of sampling techniques for imbalanced data. Neuroimage 87:220–241
Article Google Scholar
Dumpert F (2017) Universal consistency and robustness of localized support vector machines. https://arxiv.org/abs/1703.06528. Zugegriffen: 11. Juli 2017
Google Scholar
Dumpert F, von Eschwege K, Beck M (2016) Einsatz von Support Vector Machines bei der Sektorzuordnung von Unternehmen. WISTA Wirtschaft Stat 2016(1):87–97
Google Scholar
Fawagreh K, Gaber MM, Elyan E (2014) Random forests: From early developments to recent advancements. Syst Sci Control Eng 2:602–609
Article Google Scholar
Fernández-Delgado M, Cernadas E, Barro S (2014) Do we need hundreds of classifiers to solve real world classification problems? J Mach Learn Res 15:3133–3181
MATH MathSciNet Google Scholar
Feuerhake J, Dumpert F (2016) Erkennung nicht relevanter Unternehmen in den Handwerksstatistiken. WISTA Wirtschaft Stat 2016(2):79–94
Google Scholar
Finke C (2011) Verdienstunterschiede zwischen Männern und Frauen. Wirtsch Stat 2011(1):36–48
Google Scholar
Finke C, Dumpert F, Beck M (2017) Verdienstunterschiede zwischen Männern und Frauen. WISTA Wirtschaft Stat 2017(2):43–62
Google Scholar
Gong J, Kim H (2017) RHSBoost: Improving classification performance in imbalance data. Comput Stat Data Analysis 111:1–13
Article MathSciNet Google Scholar
Gründler K, Krieger T (2015) Using support vector machines for measuring democracy. https://www.wiwi.uni-wuerzburg.de/fileadmin/12010400/DP_130.pdf. Zugegriffen: 3. Juli 2017 (Discussion Paper)
Google Scholar
Hable R (2013) Universal consistency of localized versions of regularized kernel methods. J Mach Learn Res 14:111–144
MATH MathSciNet Google Scholar
Hamel L (2009) Knowledge discovery with support vector machines. John Wiley & Sons, Hoboken
Book Google Scholar
Himmelreicher R, vom Berge P, Fitzenberger B, Günther R, Müller D (2017) Überlegungen zur Verknüpfung von Daten der Integrierten Erwerbsbiographien (IEB) und der Verdienststrukturerhebung (VSE). RatSWD Working Papers, Bd. 262.
Google Scholar
Hyafil L, Rivest RL (1976) Constructing optimal binary decision trees is NP-complete. Inf Process Lett 5:15–17
Article MATH MathSciNet Google Scholar
James G, Witten D, Hastie T, Tibshirani R (2013) An introduction to statistical learning with applications in R. Springer, New York
Book MATH Google Scholar
Jung S, Käuser S (2016) Herausforderungen und Potenziale der Einzeldatenverknüpfung in der Unternehmensstatistik. WISTA Wirtschaft Stat 2016(2):95–106
Google Scholar
Kaus W, Leppert P (2017) Außenhandelsaktive Unternehmen in Deutschland: neue Perspektiven durch Micro data Linking. WISTA Wirtschaft Stat 2017(3):22–38
Google Scholar
Kleber B, Sturm R, Tümmler T (2010) Ergebnisse zu Unternehmensgruppen aus dem Unternehmensregister. Wirtsch Stat 2010(6):527–536
Google Scholar
Kotsiantis SB (2007) Supervised machine learning: A review of classification techniques. Informatica 31:249–268
MATH MathSciNet Google Scholar
Kubat M, Holte R, Matwin S (1997) Learning when negative examples abound. In: van Someren M, Widmer G (Hrsg) Machine Learning: ECML-97 1224, S 146–153
Chapter Google Scholar
LeCun Y, Bottou L, Bengio Y, Haffner P (1998) Gradient-based learning applied to document recognition. Proc IEEE 86:2278–2324
Article Google Scholar
Lewis DD, Gale WA (1994) A sequential algorithm for training text classifiers. In: Croft WB, von Rijsbergen CJ (Hrsg) Proceedings Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. Springer, London, S 3–12
Google Scholar
Lin W‑J, Chen JJ (2012) Class-imbalanced classifiers for high-dimensional data. Brief Bioinformatics 14:13–26
Article Google Scholar
Lorenz R, Opfermann R (2017) Verwaltungsdaten in der Unternehmensstatistik. WISTA Wirtschaft Stat 2017(1):49–66
Google Scholar
Löw F, Michel U, Dech S, Conrad C (2013) Impact of feature selection on the accuracy and spatial uncertainty op per-field crop classification using support vector machines. ISPRS J Photogramm Remote Sens 85:102–119
Article Google Scholar
Meister M, Steinwart I (2016) Optimal learning rates for localized SVMs. J Mach Learn Res 17:1–44
MATH MathSciNet Google Scholar
Mindestlohnkommission (2016) Erster Bericht zu den Auswirkungen des gesetzlichen Mindestlohns. Bericht der Mindestlohnkommission an die Bundesregierung nach § 9 Abs. 4 Mindestlohngesetz
Google Scholar
Murty MN, Raghava R (2016) Support vector machines and perceptrons. Springerbriefs Comput Sci. https://doi.org/10.1007/978-3-319-41063-0
Article MATH Google Scholar
van Renterghem P, Sottas P‑E, Saugy M, van Eenoo P (2013) Statistical discrimination of steroid profiles in doping control with support vector machines. Anal Chim Acta 768:41–48
Article Google Scholar
van Rijsbergen CJ (1979) Foundation of evaluation. J Documentation 30:365–373
Article Google Scholar
Rosenski N (2012) Die wirtschaftliche Bedeutung des Dritten Sektors. Wirtsch Stat 2012(3):209–217
Google Scholar
Rousseeuw PJ, van den Bossche W (2016) Detecting deviating data cells. https://arxiv.org/abs/1601.07251. Zugegriffen: 24. Juli 2017
Google Scholar
Russel S, Norvig P (2012) Künstliche Intelligenz, 3. Aufl. Pearson, München
Google Scholar
Samuel AL (1959) Some studies in machine learning using the game of checkers. Ibm J 3:210–229
Article MathSciNet Google Scholar
Schaathun HG (2012) Machine learning in image steganalysis. John Wiley & Sons, Chichester
Book Google Scholar
Schölkopf B, Smola AJ (2002) Learning with Kernels. MIT Press, Cambridge
MATH Google Scholar
Simon HA (1983) Why should machines learn? In: Michalski RS, Carbonell JG, Mitchell TM (Hrsg) Machine learning: An artificial intelligence approach. Tioga Press, Palo Alto, S 25–38
Google Scholar
Singh KP, Basant N, Gupta S (2011) Support vector machines in water quality management. Anal Chim Acta 703:152–162
Article Google Scholar
Statistisches Bundesamt (2012) Mikrozensus 2012 Qualitätsbericht. https://www.destatis.de/DE/Publikationen/Qualitaetsberichte/Bevoelkerung/Mikrozensus2012.pdf?__blob=publicationFile. Zugegriffen: 3. Juli 2017
Google Scholar
Statistisches Bundesamt (2016) Verdienststrukturerhebung Qualitätsbericht. https://www.destatis.de/DE/Publikationen/Qualitaetsberichte/VerdiensteArbeitskosten/VerdienststrukturerhebungVSE_2014.pdf. Zugegriffen: 3. Juli 2017
Google Scholar
Steinwart I, Christmann A (2008) Support vector machines. Springer, New York
MATH Google Scholar
Steinwart I, Thomann P (2017) liquidSVM: A fast and versatile SVM package. https://arxiv.org/abs/1702.06899. Zugegriffen: 11. Juli 2017
Google Scholar
Sturm R, Tümmler T (2006) Das statistische Unternehmensregister – Entwicklungsstand und Perspektiven. Wirtsch Stat 2006(10):1021–1036
Google Scholar
Vapnik VN (1995) The nature of statistical learning theory. Springer, New York
Book MATH Google Scholar
Wainberg M, Alipanahi B, Frey BJ (2016) Are random forests truly the best classifiers? J Mach Learn Res 17:1–5
MathSciNet Google Scholar
Wang L (2016) Discovering phase transitions with unsupervised learning. Phys Rev B 94:195105-1–195105-5
Google Scholar
Wasserman L (2004) All of Statistics. Springer, New York
Book MATH Google Scholar
Wyner AJ, Olson M, Bleich J (2017) Explaining the success of AdaBoost and random forests as interpolating classifiers. J Mach Learn Res 18:1–33
MATH MathSciNet Google Scholar
Xu B, Huang JZ, Williams G, Li MJ, Ye Y (2012a) Hybrid random forests: Advantages of mixed trees in classifying text data. In: Tan P‑N, Chawla S, Ho CK, Bailey J (Hrsg) PAKDD 2012, Part I. Springer, Berlin, S 147–158
Google Scholar
Xu B, Huang JZ, Williams G, Wang Q, Ye Y (2012b) Classifying very high-dimensional data with random forests built from small subspaces. Int J Data Warehous Min 8:44–63
Article Google Scholar
Yu L, Wang S, Lai KK, Zhou L (2008) Bio-inspired credit risk analysis. Springer, Berlin
Book Google Scholar

Download references

Author information

Authors and Affiliations

Fakultät für Mathematik, Physik und Informatik, Lehrstuhl für Stochastik, Universität Bayreuth, 95440, Bayreuth, Deutschland
Florian Dumpert
Gustav-Stresemann-Ring 11, Statistisches Bundesamt, 65189, Wiesbaden, Deutschland
Martin Beck

Authors

Florian Dumpert
View author publications
You can also search for this author in PubMed Google Scholar
Martin Beck
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Martin Beck.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Dumpert, F., Beck, M. Einsatz von Machine-Learning-Verfahren in amtlichen Unternehmensstatistiken. AStA Wirtsch Sozialstat Arch 11, 83–106 (2017). https://doi.org/10.1007/s11943-017-0208-6

Download citation

Received: 28 July 2017
Accepted: 28 September 2017
Published: 12 October 2017
Issue Date: October 2017
DOI: https://doi.org/10.1007/s11943-017-0208-6

Schlüsselwörter

Keywords

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Einsatz von Machine-Learning-Verfahren in amtlichen Unternehmensstatistiken

Zusammenfassung

Abstract

Access this article

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Search

Navigation