Advertisement

Springer Nature is making SARS-CoV-2 and COVID-19 research free. View research | View latest news | Sign up for updates

Kausalanalyse mit maschinellem Lernen

Combining Causal Analysis with Machine Learning

Zusammenfassung

Die datenbasierte Kausalanalyse versucht, den kausalen Effekt einer Intervention auf ein interessierendes Ergebnis zu messen, häufig unter Kontrolle beobachtbarer Charakteristiken, die ebenfalls das Ergebnis beeinflussen. Beispiele für kausale Fragestellungen sind: Was ist der Effekt einer Marketingkampagne (Intervention) auf die Verkaufszahlen (Ergebnis) unter ansonsten identischen Marktbedingungen? Was ist der Effekt einer Zinsveränderung (Intervention) auf den Aktienkurs (Ergebnis) unter ansonsten identischen wirtschaftlichen Rahmenbedingungen? Die Kausalanalyse unterscheidet sich deshalb konzeptionell von der statistischen Vorhersage. Letztere versucht aus Kombinationen von Charakteristiken (zum Beispiel Zinssatz, Wirtschaftswachstum, Unternehmensgewinn) möglichst genau das Ergebnis (zum Beispiel Aktienkurs) vorherzusagen, ohne die kausalen Effekte der einzelnen Charakteristiken zu bestimmen. Im Zeitalter von „Big Data“ erfährt die Vorhersage in vielen Bereichen einen qualitativen Quantensprung aufgrund des Einsatzes von maschinellem Lernen. Letzteres vermag in großen Datensätzen jene Kombinationen von Charakteristiken zu lernen, die für die Vorhersage des Ergebnisses entscheidend sind. Dieser Beitrag diskutiert, wie die Vorzüge des maschinellen Lernens auch für die Kausalanalyse in großen Daten genutzt werden können. Die Messung eines kausalen Effektes ist möglich, wenn für Charakteristiken, welche die Intervention und das Ergebnis bedeutend beeinflussen, kontrolliert werden kann. Dies lässt sich durch sogenanntes „doppeltes maschinelles Lernen“ implementieren. Dabei werden sowohl die Intervention, als auch das Ergebnis als Funktion der anderen Charakteristiken vorhergesagt um letztendlich den Effekt der Intervention auf das Ergebnis zu schätzen. Der Beitrag diskutiert diesen Ansatz beispielhaft anhand eines bestimmten statistischen Modells und verweist auf mehrere Praxisbeispiele.

Abstract

Data-based causal analysis aims at evaluating the causal effect of some intervention on an outcome of interest, frequently by controlling for observed characteristics also affecting the outcome. Examples for causal questions are: What is the effect of a marketing campaign (intervention) on sales (outcome) under otherwise identical market conditions? What is the effect of a change in interest rates (intervention) on stock prices (outcome) under otherwise identical economic conditions? Therefore, causal analysis conceptually differs from statistical prediction. The latter aims at predicting an outcome (e.g. stock prices) from a combination of characteristics (e.g. interest rates, economic growth, profits), however, without determining the causal effects of the various characteristics. In the age of “big data”, the use of machine learning has entailed a boost in the quality of predictions in many domains. In sufficiently large data, machine learning is capable of learning those combinations of characteristics that are crucial for the prediction of the outcome. This article discusses how the benefits of machine learning can also be used for causal analysis in big data. Evaluating a causal effect is feasible if any characteristics that importantly affect both the intervention and the outcome can be controlled for. So-called “double machine learning” may achieve this goal. It consists of predicting both the intervention and the outcome as functions of the other characteristics to ultimately estimate the effect of the intervention on the outcome. The article discusses this approach based on a particular statistical model and refers the reader to several empirical examples.

This is a preview of subscription content, log in to check access.

Abb. 1

Literatur

  1. Bühlmann P, van de Geer S (2011) Statistics for high-dimensional data: methods, theory and applications. Springer, Heidelberg

  2. Chernozhukov V, Chetverikov D, Demirer M, Duflo E, Hansen C, Newey W, Robins J (2018) Double/debiased machine learning for treatment and structural parameters. Econom J 21:C1–C68

  3. Imbens GW, Rubin DB (2015) Causal inference for statistics, social, and biomedical sciences: an introduction. Cambridge University Press, Cambridge

  4. Imbens GW, Wooldridge JM (2009) Recent developments in the econometrics of program evaluation. J Econ Lit 47:5–86

  5. Knaus MC (2018) A double machine learning approach to estimate the effects of musical practice on student’s skills. arXiv 10300:1805

  6. Neyman J (1923) On the application of probability theory to agricultural experiments. Essay on principles. Stat Sci 5:463–480 (Reprint)

  7. Pearl J (2000) Causality: models, reasoning, and inference. Cambridge University Press, Cambridge

  8. Rubin DB (1974) Estimating causal effects of treatments in randomized and nonrandomized studies. J Educ Psychol 66:688–701

  9. Semenova V, Goldman M, Chernozhukov V, Taddy M (2018) Orthogonal machine learning for demand estimation: High dimensional causal inference in dynamic panels. Arbeitspapier, MIT

  10. Tibshirani R (1996) Regresson shrinkage and selection via the lasso. J R Stat Soc Series B Stat Methodol 58:267–288

  11. Yang J-C, Chuang H-C, Kuan C-M (2019) Double machine learning with gradient boosting and its application to the big n audit quality effect. Arbeitspapier 19-05, USC Dornsife Institute for New Economic Thinking

Download references

Danksagung

Der Autor bedankt sich bei Michael Knaus und Anthony Strittmatter für wertvolle Anregungen.

Author information

Correspondence to Martin Huber.

Rights and permissions

Reprints and Permissions

About this article

Verify currency and authenticity via CrossMark

Cite this article

Huber, M. Kausalanalyse mit maschinellem Lernen. HMD 57, 106–116 (2020). https://doi.org/10.1365/s40702-019-00557-y

Download citation

Schlüsselwörter

  • Kausalanalyse
  • Maschinelles Lernen
  • Kausales maschinelles Lernen
  • Doppeltes maschinelles Lernen
  • Lasso Regression

Keywords

  • Causal analysis
  • Machine learning
  • Causal machine learning
  • Double machine learning
  • Lasso regression