Wir beginnen mit einem kleinen einführenden Beispiel: Bei einer Krankheit stellt sich heraus, dass sich ein bestimmter Blutwert bei kranken und gesunden Personen unterscheidet. Während die meisten gesunden Personen einen tiefen Wert haben, ist dieser Wert bei kranken Personen typischerweise erhöht. Ein bedeutender Schritt in der Diagnose der Krankheit ist gelungen, wenn ein Zusammenhang zwischen dem Auftreten der Krankheit und diesem Blutwert modelliert werden kann. Solche sogenannten diagnostischen Tests können zum Teil Krankheiten vor Auftreten von Symptomen erkennen und somit zur Eindämmung der Krankheit beitragen. Ein möglicher Datensatz ist in Abb. 1.1 dargestellt.

Fragestellungen wie diese sind weit verbreitet:

  • Wie hängt der Ausfall einer Maschine von Umweltbedingungen ab?

  • Welche Maßnahmen führen dazu, dass ein Kunde zu einem teureren Produkt wechselt?

  • Wie kann das Auftreten von Nebenwirkungen durch die Dosis eines Medikaments modelliert werden?

  • Wie kann das Bestehen einer Schulprüfung durch die Lernzeit erklärt werden?

All diese Fragestellungen haben eine Gemeinsamkeit: Wie kann eine binäre Zielgröße (z. B. krank oder gesund) durch eine oder mehrere erklärende Variablen (z. B. Blutwerte, Geschlecht, usw.) modelliert werden?

Eine solche Modellierung verfolgt häufig zwei Ziele: Einerseits möchte man Zusammenhänge verstehen und quantifizieren: „Wie verändert sich die Wahrscheinlichkeit für Nebenwirkungen, wenn die Dosis eines Medikaments um eine Einheit erhöht wird?“ Andererseits möchte man präzise Vorhersagen machen können: „Wie groß ist die Wahrscheinlichkeit, dass eine Maschine bei gewissen Umweltbedingungen ausfällt? Wie zuverlässig ist diese Vorhersage?“

Abb. 1.1
figure 1

Illustration eines fiktiven Datensatzes. Eingetragen sind die jeweiligen Blutwerte von 7 kranken und 7 gesunden Patienten auf dem jeweiligen Zahlenstrahl der Messgröße.

Ein erster Versuch der Modellierung könnte die lineare Regression sein. Die lineare Regression verlangt eine kontinuierliche Zielgröße, allerdings haben obige Fragestellungen eine binäre Zielgröße (z. B. krank oder gesund). Die binäre Zielgröße könnte man daher numerisch codieren, z. B. „0“ für krank und „1“ für gesund. Technisch ist dieses Vorgehen zwar möglich, aber die Interpretation der Ergebnisse ist schwierig: Können modellierte Werte zwischen 0 und 1 als Wahrscheinlichkeiten interpretiert werden? Wie interpretiert man negative Werte oder Werte größer als 1? Die lineare Regression ist für solche Fragestellungen also nicht gut geeignet. Es ist ein besseres, passenderes Modell nötig: die logistische Regression.

Dieses essential bietet einen verständlichen Zugang zur logistischen Regression. Zunächst werden in Kap. 2 mit dem Begriff der Odds die theoretischen Grundlagen gelegt. Anschliessend wird in Kap. 3 das Modell der logistischen Regression auf den Skalen der Log-Odds, der Odds und der Wahrscheinlichkeit entwickelt. Die einfache Umsetzung mit der Statistiksoftware R wird in Kap. 4 an Beispielen illustriert. Der Fokus liegt dabei stets auf einer korrekten Interpretation der Modellparameter und der richtigen Formulierung in der Praxis. Nach einem Ausblick zur Klassifikation in Kap. 5 schliesst das Buch in Kap. 6 mit einer Diskussion von häufigen Problemen in der Praxis und zeigt Lösungsansätze auf.