Skip to main content
Log in

Modellvergleich und Ergebnisinterpretation in Logit- und Probit-Regressionen

Comparing nested models and interpreting results from logit and probit regression

  • Berichte und Diskussionen
  • Published:
KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie Aims and scope Submit manuscript

Zusammenfassung

Logit- und Probitregression werden als multivariate Analyseverfahren zur Analyse von dichotomen abhängigen Variablen in den Sozialwissenschaften routinemäßig eingesetzt. Beide Verfahren können so interpretiert werden, dass sich aus einer linearen Modellierung einer unbeobachteten Variabley* eine nichtlineare Modellierung der Wahrscheinlichkeiten füry = 1 ergibt. Wir zeigen erstens, dass diese Nichtlinearität im Vergleich zu linearen Regressionsverfahren zu Problemen bei der Interpretation der Modellergebnisse führt. Insbesondere die in der logistischen Regression häufig verwendeten odds ratios (exponierte Logit-Koeffizienten) sind unseres Erachtens problematisch. Stattdessen empfehlen wir neben graphischen Interpretationshilfen die Verwendung von (korrigierten) durchschnittlich marginalen Effekten (AME). Zweitens zeigen wir anhand einer Serie von Monte-Carlo-Simulationen, dass die üblichen Regressionskoeffizienten bei Logit- und Probitanalysen nicht zwischen verschachtelten Modellen verglichen werden können. Da in den Sozialwissenschaften bei der Modellbildung jedoch häufig schrittweise vorgegangen wird, wäre ein Verfahren, das einen validen Vergleich von Effektstärken zwischen den Modellen erlaubt, sehr nützlich. Wie wir anhand unserer Simulationsstudie zeigen, führen durchschnittlich marginale Effekte und Koeffizienten, die nach dem Vorschlag von Karlson et al. (Sociological Methodology 42, 2012) korrigiert wurden, in sehr verschiedenen Situationen zu gültigen Ergebnissen.y*-standardisierte Koeffizienten sind für einen Modellvergleich hingegen weniger geeignet und Koeffizienten eines linearen Wahrscheinlichkeitsmodells sollten ausschließlich bei normalverteilten Variablen verwendet werden.

Abstract

In the social sciences logit and probit models are often used multivariate data analysis procedures for binary dependent variables. Both procedures can be thought of as resting on a linear model for an unobserved variable y* from which a nonlinear model for the probability of y = 1 is derived. We first show that compared to linear models this nonlinearity leads to problems of interpreting results from such analysis. In particular odds ratios (exponentiated logit coefficients) often used in logistic regression are problematic in this respect. Instead we recommend using graphical procedures and reporting (corrected) average marginal effects (AME). Based on a series of Monte-Carlo simulations we next demonstrate that the regression coefficients from logit and probit models should not be compared between nested models. Because model building in the social sciences often employs a stepwise procedure a method allowing valid comparisons of effect sizes between models would be advantageous. Results from our simulation study show that average marginal effects and regression coefficients corrected by a method proposed by Karlson et al. (Sociological Methodology 42, 2012) lead to satisfactory results in many different scenarios. In contrast, y*-standardized coefficients are of limited utility and coefficients from a linear probability model should only be used with normally distributed variables.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Notes

  1. Es gilt, dassP(y = 1|x) = P(y*> τ|x) = P(y*> 0|x) = P(x′β + ε > 0|x) = P(ε > − x′β|x) = 1 − G(− x′β) = G(x′β) mit G(·) als kumulativer Verteilungsfunktion der Fehler.

  2. Wir verwenden hier durchgängig die englischen Bezeichnungen odds und odds rations statt „Chancen“ und „Chancenverhältnis“, weil diese Begriffe in der empirischen Sozialforschung in vielen Kontexten sehr unterschiedlich verwendet und verstanden werden. Noch verwirrender wird es, wenn Autoren bei „negativ“ bewerteten Zielvariablen, wie etwa der Arbeitslosigkeit, von Risiken statt von Chancen sprechen, obwohl sie damit odds bzw. odds ratios meinen.

  3. In diesem Sinne schreibt auch Gary King am 26.7.2011 auf der POLMETH E-Mail-Liste: „I don’t think the odds ratio makes any sense to report; it’s used because it is a quantity that happens to be more convenient to estimate in some specialized situations. If the outcome variable is very rare (e.g., almost all 1s and just a couple of 0s) then the odds ratio approximates a relative risk (e.g. Prob(war|democracy)/Prob(war|autocracy)), which does make sense, but in other situations this connection doesn’t work and the odds ratio is merely confusing“.

  4. Das relative Risiko ergibt sich, wenn gruppenspezifische Wahrscheinlichkeiten miteinander ins Verhältnis gesetzt werden, d. h. RR = p1/p2.

  5. Der AME sollte nicht verwechselt werden mit dem marginalen Effekt am Mittelwert (marginal effect at the mean MEM).

  6. Zwei Modelle sind verschachtelt (nested), wenn Modell 1 eine Untermenge von Modell 2 ist. Mit anderen Worten baut Modell 2 auf Modell 1 auf und erweitert es um zusätzliche Parameter.

  7. Zum Subgruppenvergleich siehe insbesondere Allison (1999) oder Auspurg und Hinz (2011). Ein alternativer Vorschlag wurde kürzlich von Breen et al. (2011) vorgetragen.

  8. Es ist zu beachten, dass der marginale Effekt am Mittelwert (marginal effect at meanMEM) diese Eigenschaft nicht besitzt, vielmehr verändert er sich, wenn in ein Logitmodell weitere unkorrelierte Prädiktoren aufgenommen werden. Insofern istMEM für den Vergleich zwischen Modellen nicht geeignet. Wird auf Angaben zu marginalen Effekten zurückgegriffen, die von einem Statistikpaket automatisch berechnet werden, ist daher unbedingt zu prüfen, obAME oderMEM ausgegeben werden (in Stata berechnen beispielsweisemfx als auchprchange denMEM;AME wird durchmargins, dydx(varlist) oder, wichtig bei älteren Programmversionen, das adomargeff zur Verfügung gestellt).

  9. Unter einem reduzierten Modell verstehen wir hier das „Startmodell“ mit wenigen erklärenden Variablen und unter vollem Modell das „Endmodell“ mit vielen unabhängigen Variablen.

Literatur

  • Allison, Paul D. 1999. Comparing logit and probit coefficients across groups.Sociological Methods & Research 28:186–208.

    Article  Google Scholar 

  • Auspurg, Katrin, und Thomas Hinz. 2011. Gruppenvergleiche bei Regressionen mit binären abhängigen Variablen – Probleme und Fehleinschätzungen am Beispiel von Bildungschancen im Kohortenverlauf.Zeitschrift für Soziologie 40:62–73.

    Google Scholar 

  • Bauer, Gerrit. 2010. Graphische Darstellung regressionsanalytischer Ergebnisse. InHandbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof Wolf und Henning Best, 905–927. Wiesbaden: VS Verlag für Sozialwissenschaften.

    Chapter  Google Scholar 

  • Best, Henning, und Christof Wolf. 2010. Logistische Regression. InHandbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof Wolf und Henning Best, 827–854. Wiesbaden: VS Verlag für Sozialwissenschaften.

    Chapter  Google Scholar 

  • Breen, Richard, Kristian Bernt Karlson und Anders Holm. 2011. A reinterpretation of coefficients from logit, probit, and other non-linear probability models: Consequences for comparative sociological research available at SSRN.http://ssrn.com/abstract=1857431.

  • Cornwell, Benjamin, und Edward O. Laumann. 2011. Network position and sexual dysfunction: Implications of partner betweenness for men. American Journal of Sociology 117:172–208.

    Article  Google Scholar 

  • DeMaris, Alfred. 1992.Logit modeling. Practicle applications. Thousand Oaks: Sage.

    Google Scholar 

  • Karlson, Kristian Bernt, Anders Holm und Richard Breen. 2012. Comparing regression coefficients between same-sample nested models using logit and probit: A new method.Sociological Methodology 42.

  • Kohler, Ulrich, Kristian Bernt Karlson und Anders Holm. 2011. Comparing coefficients of nested nonlinear probability models.The Stata Journal 11:420–438.

    Google Scholar 

  • Long, J. Scott. 1997. Regression models for categorical and limited dependent variables. Thousand Oaks: Sage.

    Google Scholar 

  • Long, J. Scott, und Jeremy Freese. 2006. Regression models for categorical dependent variables using stata. College Station: Stata Press.

    Google Scholar 

  • McKelvey, R., und W. Zavoina. 1975. A statistical model for the analysis of ordinal level dependent variables.Journal of Mathematical Sociology 4:103–120.

    Article  Google Scholar 

  • Mood, Carina. 2010. Logistic regression: Why we cannot do what we think we can do, and what we can do about it.European Sociological Review 26:67–82.

    Article  Google Scholar 

  • Winship, Christopher, und Robert D. Mare. 1984. Regression models with ordinal variables.American Sociological Review 49:512–525.

    Article  Google Scholar 

  • Wooldridge, Jeffrey M. 2002.Econometric analysis of cross section and panel data. Cambridge: MIT Press.

    Google Scholar 

Download references

Danksagung

Wir danken Klaus Pforr für hilfreiche Hinweise zu einer früheren Version des Manuskripts.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Henning Best.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Best, H., Wolf, C. Modellvergleich und Ergebnisinterpretation in Logit- und Probit-Regressionen. Köln Z Soziol 64, 377–395 (2012). https://doi.org/10.1007/s11577-012-0167-4

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s11577-012-0167-4

Schlüsselwörter

Keywords

Navigation