1 Einleitung

Die Vorhersage von Bundestagswahlen ist seit einigen Jahren in den Fokus der politikwissenschaftlichen Debatte gerückt. Dafür gibt es gute Gründe: Politikwissenschaftliche Vorhersagen können die durch Meinungsumfragen und Experten geprägte öffentliche Debatte über den Wahlausgang durch theoretisch und methodologisch fundierte Erkenntnisse ergänzen (Leininger 2015). Darüber hinaus können Wahlvorhersagen der Disziplin helfen, ihre Erkenntnisse „auf den denkbar härtesten Prüfstand“ (Leininger 2015, S. 678) zu stellen. Die Politische Vierteljahresschrift bot deshalb 2017 noch vor der Bundestagswahl mehreren Beiträgen ein Forum, die verschiedene Modelle und Ansätze zur Vorhersage der Wahlergebnisse vorstellten (Gschwend und Norpoth 2017; Kayser und Leininger 2017; Leininger und Kayser 2017; Munzert et al. 2017; Strijbis 2017). Die Beiträge ergänzten dabei existierende Ansätze, die seit einigen Jahren zur Vorhersage von Bundestagswahlen genutzt werden (Gschwend und Norpoth 2000; Kayser und Leininger 2016; Küntzler 2018; Norpoth und Gschwend 2013; Selb und Munzert 2016).

In diesem Beitrag stellen wir einen neuen Ansatz zur Vorhersage der Erststimmenanteile in Bundestagswahlkreisen vor. Nahezu alle existierenden Prognosemodelle für Bundestagswahlen vernachlässigen die Vorhersage der Erststimmenanteile in den Wahlkreisen. Sie fokussieren entweder den Koalitionsstimmenanteil (siehe z. B. Norpoth und Gschwend 2013), um die neue Regierung vorherzusagen, oder die Vorhersage der Zweitstimmen, um die Proportionalität der Sitzverteilung im Parlament abzubilden (siehe z. B. Kayser und Leininger 2016). Ansätze mit einem Fokus auf Wahlkreisergebnisse nutzen hingegen meist Daten, die erst nach der Wahl zugänglich sind, wie zum Beispiel die Zweitstimmenanteile im Wahlkreis bei derselben Wahl (siehe Schneider und Tepe 2011; Mackenrodt 2008). Damit sind diese Ansätze für eine Vorhersage ungeeignet. Munzert (2017) ist bis dato der einzige Beitrag, der sich aus wissenschaftlicher Sicht mit Wahlkreisprognosen in Deutschland befasst. Allerdings sind die dazu verwendeten Umfragedaten nicht öffentlich zugänglich.Footnote 1

Die Erststimmenprognosen sind sowohl für die involvierten Wahlkreiskandidierenden selbst als auch für Kampagnenleitungen, Wähler und Journalisten von zunehmendem Interesse. Mit der Fragmentierung des Parteiensystems ist es generell schwieriger geworden, die Wahlkreissieger abzusehen. Bei der letzten Bundestagswahl errangen Kandidierende von gleich sechs unterschiedlichen Parteien (CDU, CSU, SPD, Linke, AfD und Grüne) mindestens ein Mandat, wobei insbesondere der Erfolg der AfD überraschte. Erststimmenprognosen können in diesem Kontext helfen, Unsicherheit zu reduzieren, die bei der Interpolation von verfügbaren Informationen (z. B. aus veröffentlichten Wahlumfragen auf nationaler Ebene oder aus den genannten wissenschaftlichen Prognosemodellen) auf die Wahlkreisebene zwangsläufig entsteht. Die Vorhersage der Erststimmenanteile erlaubt es uns, präzise Vorhersagen sowohl über den Ausgang einzelner Wahlkreisrennen als auch über die Zusammensetzung des Bundestags und seiner zu erwartenden Größe zu treffen. Somit hat das Modell einen prädiktiven Wert, der über den der existierenden Zweistimmenvorhersageansätze hinausgeht.

Darüber hinaus ermöglicht unser Ansatz, die mit den Vorhersagen verbundene Unsicherheit zu quantifizieren. Unser Modell liefert für alle Wahlkreiskandidierenden eine Aussage zur Einzugswahrscheinlichkeit in den Bundestag (Manow und Nistor 2009; Stoffel und Sieberer 2018). Diese Vorhersage ist im Gegensatz zu gröberen Kategorisierungen (vgl. z. B. Pyschny und Hellmann 2017) ein differenziertes Maß, welches die tatsächliche Konkurrenzsituation im Wahlkreis bereits vor der Wahl gut abbildet. Dadurch hat das Modell auch einen erklärenden Wert für politikwissenschaftliche Forschung zum Einfluss der Kompetitivität in Modellen politischen (Eliten-)Verhaltens oder strategischen Wählens (z. B. Gschwend 2007; Gschwend und Zittel 2018; Herrmann 2015; Shikano 2009).

Unser Wahlkreisvorhersageansatz basiert auf dem Zweitstimmenvorhersagemodell von zweitstimme.org (Munzert et al. 2017; Stoetzer et al. 2019). Um die bundesweite Zweitstimmenvorhersage auf die 299 Wahlkreise zu verteilen, nutzen wir die Annahme, dass die Zweitstimmenergebnisse im Bund mit den Zweitstimmenergebnissen in den Wahlkreisen proportional zusammenhängen. Für den Übergang von Wahlkreiszweitstimmen auf -erststimmen entwickeln wir zwei Erststimmenmodelle, ein lineares Regressionsmodell und ein künstliches neuronales Netzwerk, welche weitere Informationen (z. B. Anzahl und Charakteristiken der Kandidierenden im Wahlkreis oder die geografische Lage des Wahlkreises) berücksichtigen. Dabei sind alle verwendeten Daten vor der jeweiligen Wahl öffentlich verfügbar, was eine transparente Anwendung oder sogar Modifikation der Modelle für echte Vorhersagen ermöglicht und unseren Ansatz von anderen existierenden Ansätzen abhebt.

Im Folgenden beschreiben wir zunächst die drei Komponenten der Wahlkreisvorhersage, die aus (1) dem Zweitstimmenmodell, (2) der proportionalen Swing-Annahme und (3) dem Wahlkreismodell besteht. Am Beispiel der Bundestagswahlen 2009, 2013 und 2017 können wir zeigen, dass unsere Erststimmenmodelle zuverlässige Prognosen liefern. Im Anschluss präsentieren wir verschiedene relevante Größen, die mithilfe des Modells vorhergesagt werden können, zum Beispiel die Gewinnwahrscheinlichkeiten der Parteien in den 299 Wahlkreisen sowie die Größe des Bundestags. Die Anwendungen gehen über eine reine Spielerei hinaus. Diskussionen über die Gestaltung des Wahlrechts haben häufig im Kontext von Wahlen Konjunktur. Für diesen Diskurs, der weiter andauert, liefert unser Modell wertvolle Evidenz im Sinne eines „Barometers der antizipierten Parlamentsgröße“. Außerdem zeigen wir auf, dass insbesondere das künstliche neuronale Netzwerk neue Erkenntnisse über den Zusammenhang verschiedener Prädiktoren der Erststimmen liefern kann. So finden wir zum Beispiel heraus, dass der Amtsinhaberbonus in den neuen Bundesländern stärker ist.

2 Zweitstimmenmodell und Erststimmenvorhersage

2.1 Das Zweitstimmenmodell – ein dynamisches bayesianisches Modell für Mehrparteiensysteme

Zur Schätzung der nationalen Zweitstimmenanteile haben wir ein dynamisches bayesianisches Modell für Mehrparteiensysteme entwickelt (Stoetzer et al. 2019). Das Modell integriert ein strukturelles Modell und ein dynamisches bayesianisches Messmodell.

Hauptzweck des strukturellen Modells ist es, mittelfristige Parteiunterstützung zu messen und damit eine Wahlvorhersage bereits mehrere Monate vor der Wahl treffen zu können. Dazu verwendet es drei Prädiktoren, die bereits 200 Tage vor der Wahl verfügbar sind: den Zweitstimmenanteil bei der letzten Wahl, den Durchschnitt der Umfragen 230 Tage bis 200 Tage vor der Wahl sowie einen Indikator, ob eine Partei den Kanzler bzw. die Kanzlerin stellt. Auf Grundlage dieser drei Prädiktoren schätzen wir den Zweitstimmenanteil für alle Wahlen in Deutschland seit 1953 anhand eines Regressionsmodells. Der empirische Zusammenhang zwischen den Prädiktoren und den Zweitstimmenergebnissen kann dann zur Vorhersage künftiger Wahlen genutzt werden. Wir nennen diesen Teil unseres Modells „strukturell“, da es den Zusammenhang struktureller Prädiktoren und der Wahlergebnisse abbildet.

Zweck des dynamischen bayesianischen Modells ist es, kurzfristige Unterstützungsdynamiken zu messen und in die Vorhersage einfließen zu lassen. Dazu nutzen wir Umfragedaten aus der Kampagnenphase. Die von verschiedenen Instituten veröffentlichten Parteiunterstützungsraten werden dabei mithilfe eines statistischen Modells zusammengeführt und gleichzeitig wird deren Dynamik genutzt, um eine umfragebasierte Vorhersage für die Parteianteile am Wahltag zu treffen.

Um die Vorhersagen beider Komponenten zu kombinieren, werden sie mithilfe bayesianischer Methoden gewichtet. Die Gewichtung berücksichtigt dabei diejenige Komponente stärker, die historisch die präzisere Vorhersage getroffen hat.Footnote 2

Unsere Vorhersage der bundesweiten Zweitstimmenanteile zwei Tage vor der Bundestagswahl 2017 ist in Abb. 1 dargestellt.

Abb. 1
figure 1

Vorhersage der Zweitstimmenanteile zwei Tage vor der Bundestagswahl 2017

2.2 Proportionaler Swing und Kombination von Zweitstimmenmodell und Erststimmenmodell

Um die beiden Komponenten zu kombinieren und eine Erststimmenvorhersage zu erhalten, müssen wir noch eine Annahme darüber treffen, wie sich der bundesweite Swing, also die vorhergesagte Veränderung des Ergebnisses für eine Partei aufgrund unseres Zweitstimmenmodells zwischen zwei Wahlen über alle Wahlkreise verteilt. Wir entscheiden uns für einen gewichteten proportionalen Swing, der im konkreten Fall realistischer scheint als ein sogenannter Uniform Swing. Die Annahme des Uniform Swing hätte zur Folge, dass insbesondere für kleine Parteien in einzelnen Wahlkreisen Vorhersagen von weniger als 0 % möglich sind. Zur Verdeutlichung liefern wir ein Beispiel: Die FDP hat von 2009 auf 2013 bundesweit 9,8 Prozentpunkte an Zweitstimmen verloren. Hätte die FDP jedoch bei der Bundestagswahl 2009 in einem Wahlkreis weniger als 9,8 % (so zum Beispiel im Wahlkreis 63 wo sie 8,9 % erreichte), würde die Uniform Swing Annahme bedeuten, dass die FDP nun 2013 in Wahlkreis 63 einen negativen Zweitstimmenanteil (von −0,9 %) bekäme. Stimmenanteile sind allerdings immer entweder positiv oder tatsächlich 0, können aber niemals negativ sein. Die proportionale Swing Annahme, dass sich Gewinne und Verluste proportional auf die Wahlkreise verteilen, ist dagegen realistischer und vermeidet die Vorhersage von negativen Stimmanteilen. Der proportionale Swing (−9,8/14,6 = −0,67) für das Beispiel der FDP in Wahlkreis 63 bedeutet, dass die FDP hier in etwa 6 Prozentpunkte (−0,67 × 8,9) an Zweitstimmen verlieren würde. Die FDP kann 2013 also nur noch mit etwa 2,9 % der Zweitstimmen rechnen (das tatsächliche Ergebnis 2013 lag bei 2,2 %). Gleichzeitig bedeutet die Annahme des proportionalen Swings auch, dass Parteien in Hochburgen stärker gewinnen (oder verlieren) als in Diaspora-Gebieten.

Zunächst berechnen wir Werte für den bundesweiten proportionalen Swing zwischen dem Wahlergebnis von 2013 und unserer Vorhersage für 2017, also jedem der Simulationsergebnisse unseres Zweitstimmenmodells (Munzert et al. 2017; Stoetzer et al. 2019). Die CDU/CSU hatte 2013 zum Beispiel 41,5 % der Zweitstimmen für sich gewonnen. Erreicht die CDU/CSU in einem Simulationsergebnis unseres Zweitstimmenmodells nun 35 %, dann sind das 6,5 Prozentpunkte weniger als 2013, oder proportional −15,7 % (= −6,5/41,5 %).

Dann übertragen wir diesen proportionalen Swing auf die Zweitstimmenergebnisse der Bundestagswahl 2013 in den Wahlkreisen (umgerechnet auf die Wahlkreise für 2017) und erhalten so sukzessive simulierte Verteilungen von Zweitstimmen für alle Walkreiskandidierenden in jedem der 299 Wahlkreise.

Bezeichnet SWE das simulierte Zweitstimmenergebnis im Wahlkreis, WE das Zweitstimmenergebnis im Wahlkreis, BE das bundesweite Zweitstimmenergebnis, SBE das simulierte bundesweite Zweitstimmenergebnis, dann lässt sich unser Vorgehen mathematisch wie folgt ausdrücken:

$$\textit{SWE}_{\textit{witp}}=WE_{w\left(t-1\right)p}+\frac{\left(\textit{SBE}_{\textit{itp}}-BE_{\left(t-1\right)p}\right)}{BE_{\left(t-1\right)p}}*WE_{w\left(t-1\right)p},$$

wobei w = Indikator des Wahlkreises, i = Indikator der Simulation, t = Indikator der Wahl und p = Indikator der Partei ist. Wie wir im Folgenden genauer beschreiben, werden diese simulierten Zweitstimmenergebnisse für jeden Wahlkreis und jede Partei dann gemeinsam mit den Charakteristika des Wahlkreises und der Kandidierenden für die Vorhersage der Erststimmenanteile verwendet.

2.3 Von Zweitstimmen zum Wahlkreismodell – Variablen zur Vorhersage der Erststimmenanteile

Um von Vorhersagen der nationalen Zweitstimmenverteilung zu Vorhersagen der Erststimmen auf Wahlkreisebene zu gelangen, nutzen wir im Folgenden zwei verschiedene Modelle: ein einfaches lineares Regressionsmodell sowie ein künstliches neuronales Netz. In beiden Modellen nutzen wir zehn unabhängige Variablen:

  • die Vorhersage des Zweitstimmenanteils der Parteien im Wahlkreis, den wir (wie oben beschrieben) anhand des zweitstimme.org-Modells und des proportionalen Swings für alle Wahlkreise berechnen,

  • die Erststimmenanteile der Parteien bei der letzten Wahl,

  • die Anzahl der Kandidierenden im Wahlkreis,

  • ob die Inhaber des Direktmandats erneut antreten oder nicht und

  • ob der Wahlkreis in den alten oder neuen Bundesländern liegt.

Charakteristika der Kandidierenden im Modell sind:

  • der ListenplatzFootnote 3,

  • ob Direktkandidierende bei der letzten Wahl schon einmal angetreten sind (als Listen- oder Direktkandidierende),

  • Amtsinhaberstatus,

  • Geschlecht (d. h. Frau = 1) sowie

  • ob Kandidierende über einen akademischen Grad verfügen (Schneider und Tepe 2011).

Diese Variablen haben wir für alle Direktkandidierenden seit der Bundestagswahl 1983 (N = 20.823) kodiert. Den Datensatz teilen wir in einen Trainingsdatensatz mit allen Beobachtungen vor der jeweiligen Bundestagswahl (2009, 2013 und 2017) und einen Vorhersagedatensatz mit den Beobachtungen zur jeweiligen Bundestagswahl auf. Mithilfe des Trainingsdatensatzes trainieren wir dann unsere Erststimmenmodelle. Für die Vorhersage tauschen wir den Zweitstimmenanteil der Parteien im Wahlkreis durch die Werte aus dem proportionalen Swing aus. Damit sind alle Variablen, die wir für die Vorhersage der Erststimmenanteile auf Wahlkreisebene verwenden, vor der Wahl öffentlich verfügbarFootnote 4.

2.4 Ein einfaches lineares Modell zur Vorhersage der Erststimmenanteile

Wir beginnen mit einem einfachen linearen Regressionsmodell zur Vorhersage des Erststimmenergebnisses \(y_{\textit{twp}}\) zur Bundestagswahl \(t\) im Wahlkreis \(w\) von Kandidierenden einer Partei \(p\). Ziel ist es schließlich, mit Kovariaten, die vor der Wahl t verfügbar sind, die Erststimmenergebnisse der kommenden Wahl \(t\) vorherzusagen. Wie üblich im linearen Regressionsmodell nehmen wir für \(y_{\textit{twp}}\) eine Normalverteilung mit Mittelwert \(\mu_{\textit{twp}}\) und konstanter Varianz \(\sigma ^{2}\) anFootnote 5,

$$y_{\textit{twp}}\sim N\left(\mu_{\textit{twp}},\sigma ^{2}\right),$$

dabei wird \(\mu_{\textit{twp}}\) als eine lineare Funktion der unabhängigen Variablen modelliert:

$$\mu_{\textit{twp}}=X\beta .$$

\(X\) ist dabei eine Matrix mit den Werten der unabhängigen Variablen in Spalten und einer Spalte Einsen zur Schätzung der Konstanten. \(\beta\) ist ein Spaltenvektor der Regressionskoeffizienten. Als unabhängige Variablen verwenden wir die zehn im vorherigen Abschnitt vorgestellten Variablen.

2.5 Ein künstliches neuronales Netz zur Vorhersage der Erststimmenanteile

Künstliche neuronale Netze (artificial neural networks) sind Teil des sogenannten maschinellen Lernens (machine learning) und oft auch Grundlage für Modelle und Applikationen hinter dem Sammelbegriff „künstliche Intelligenz“. Jüngste Fortschritte in der Entwicklung von Computerprozessoren und vor allem Grafikkarten tragen zu einem regelrechten Boom in der Anwendung von künstlichen neuronalen Netzen bei, da inzwischen auch herkömmliche Computer leistungsfähig genug sind, um komplexe künstliche neuronale Netze zu schätzen. Die mathematischen Konzepte und Grundlagen für künstliche neuronale Netze sind schon länger bekannt (Chollet und Allaire 2018). In einer ersten Anwendung haben Beck et al. (2000) ein künstliches neuronales Netz zur Vorhersage von Bürgerkriegen in die Politikwissenschaft eingeführt. Ein wesentlicher Vorteil eines künstlichen neuronalen Netzes gegenüber herkömmlichen statistischen Vorhersagemodellen ist, dass keinerlei Festlegungen über die funktionale Form des Zusammenhangs von unabhängigen Variablen und abhängiger Variable getroffen werden müssen. Eine zugängliche Einführung in die Funktionsweise künstlicher neuronaler Netze findet sich bei Chollet und Allaire (2018) sowie bei Rashid (2017).

Unser künstliches neuronales Netz zur Vorhersage der Erststimmenanteile der Kandidierenden zur Bundestagswahl 2017 in allen 299 Wahlkreisen besteht aus drei hierarchischen Schichten. Die erste Schicht besteht aus 128 Neuronen, die zweite Schicht besteht aus 64 Neuronen und die dritte Schicht ist eine einfache lineare Ausgabeschicht. Die Datenmatrix der Trainingsdaten (X) wird in jedes der 128 Neuronen in der ersten Schicht eingegeben und mit Parametern (β) multipliziert (\(X\beta\)), also ähnlich wie es vom Umgang mit herkömmlichen Beobachtungsdaten bei einer linearen Regression bekannt ist. In jedem Neuron findet dann eine Matrixoperation statt, die mit einer linearen Regression vergleichbar ist, um einen Wert vorherzusagen. Das heißt: Jedes der 128 Neuronen in der ersten Schicht übergibt einen vorhergesagten Wert an jedes der 64 Neuronen in der zweiten Schicht. Vor der Übergabe der Werte an die nächste Schicht werden die Ergebnisse der Neuronen noch durch eine sogenannte Aktivierungsfunktion, hier eine Gleichrichterfunktion (rectifierf (x) = max (0, x), transformiert. Die Aktivierungsfunktionen sorgen im Wesentlichen dafür, dass die funktionale Form des Zusammenhangs flexibel ist und nicht nur lineare Zusammenhänge zwischen den Werten in der Datenmatrix und der abhängigen Variablen, den Erstimmenanteilen, möglich sind. Insgesamt hat unser künstliches neuronales Netz so 9601 Parameter (= (9 unabhängige Variablen + 1 Konstante) × 128 Neuronen + (128 Werte aus den Neuronen + 1 Konstante) × 64 Neuronen + 64 Werte aus den Neuronen + 1 Konstante) (vergleichbar mit Regressionskoeffizienten), die gleichzeitig geschätzt werden. Die Parameter werden iterativ mit einer Variante des stochastic-gradient-descent-Algorithmus gelernt, um so die mittlere quadratische Abweichung von der Erststimmenvorhersage des Modells und beobachteten Erststimmenanteilen im Trainingsdatensatz zu minimieren. Dies ist prozedural ähnlich der Minimierung der Summe der quadrierten Abweichungen in einem linearen Regressionsmodell, wenn dies mit einer iterativen Methode (z. B. Fisher Scoring für Maximum Likelihood) geschätzt wird.

Zudem adressieren wir potenzielles overfittingFootnote 6 des neuronalen Netzes durch sogenannte Dropout-Schichten (Srivastava et al. 2014), die wir in unserer Architektur nach der ersten und der zweiten Schicht hinzufügen. Eine Dropout-Schicht setzt in jeder Trainingsiteration zufällig 10 % der übergebenen Werte aus der vorangegangenen Schicht auf 0. Diese Neuronen fallen sozusagen für die jeweilige Trainingsiteration aus dem Netz heraus, daher Dropout. Auf diese Weise wird bei Anwendungen von neuronalen Netzen versucht, nicht fälschlicherweise idiosynkratische Zusammenhänge zu lernen. Ein hilfreicher Nebeneffekt der Dropout-Schichten ist, dass dieses Verfahren gleichzeitig auch dafür genutzt werden kann, die Schätzunsicherheit (model uncertainty) von neuronalen Netzen abzuschätzen (Gal und Ghahramani 2016). Dafür werden genauso wie im Training auch bei der Vorhersage zufällig 10 % der übergebenen Werte aus der vorangegangenen Schicht auf 0 gesetzt. Das heißt in jeder Vorhersage steckt eine Zufallskomponente, welche die Schätzunsicherheit (model uncertainty) des neuronalen Netzes approximiert.

3 Ergebnisse der Wahlkreisvorhersagen bei den Bundestagswahlen 2009, 2013 und 2017

3.1 Evaluation der Modelle im Vergleich zu einer einfachen Baseline

Um zu verstehen, wie gut unsere Wahlkreisvorhersagen tatsächlich sind, vergleichen wir unsere Modelle mit einer einfachen Vorhersage der Wahlkreise, die wir im Folgenden als Baselinemodell bezeichnen. Als Baselinemodell nehmen wir einfach an, dass dieselbe Partei denselben WahlkreisFootnote 7 bei der nächsten Wahl wiedergewinnen wird. Neu zugeschnittene Wahlkreise stellen für diesen Ansatz eine Herausforderung dar. Da der Ausgang neuer Wahlkreise nicht anhand der vorherigen Ergebnisse vorhergesagt werden kann, werden diese im Baselinemodell als falsch vorhergesagt klassifiziertFootnote 8. Die Anzahl der korrekt vorhergesagten Wahlkreise geteilt durch die Anzahl aller Wahlkreise ergibt dann den sogenannten PCP(percent correctly predicted, Prozent korrekt vorhergesagt)-Wert. Den PCP-Wert des Baselinemodells können wir dann einfach mit den PCP-Werten der Vorhersagemodelle vergleichen. Tab. 1 zeigt, dass bei der Wahl 2017 das einfache Baseline-Modell bereits 90,3 % der Wahlkreisgewinner korrekt vorhersagt. Bei der Wahl 2013 liegt dieser Wert etwas niedriger bei 85,95 % und zur Wahl 2009 sogar nur bei 68,23 %Footnote 9.

Tab. 1 PCP-Werte der einfachen Baseline

Um zu unseren Vorhersagen der Wahlkreisgewinner zu kommen, sagen wir mit jedem unserer Simulationsdurchläufe des Zweitstimmenmodells mithilfe der Erststimmenmodelle die Erststimmenanteile für alle Kandidierenden in jedem Wahlkreis voraus. Zusätzlich berücksichtigen wir sowohl die Schätzunsicherheit (model uncertainty) als auch die grundsätzliche Unsicherheit (fundamental uncertainty) unserer Erststimmenvorhersage. Für das lineare Regressionsmodell simulieren wir vorhergesagte Werte (predicted values) auf der Basis der Regressionskoeffizienten, der geschätzten Varianz-Kovarianz-Matrix zur Evaluierung der Schätzunsicherheit und der geschätzten grundsätzlichen Unsicherheit (King et al. 2000). Für das neuronale Netz simulieren wir die Schätzunsicherheit (model uncertainty) und grundsätzliche Unsicherheit (fundamental uncertainty) durch Dropout in der Vorhersage der Erststimmenanteile. Die Kandidierenden, die am häufigsten in den Simulationsdurchläufen gewinnen, d. h. die meisten Erststimmen im Wahlkreis vorhergesagt bekommen, sagen wir als Wahlkreisgewinner vorher. Mit dieser Vorhersage können wir nun den PCP-Wert für die Vorhersagemodelle berechnen.

Tab. 2 berichtet die PCP-Werte des einfachen linearen Modells (LM) und des neuronalen Netzes (NN). Der Vergleich zeigt, dass beide Modelle – mit drei Ausnahmen bei der Wahl 2017 – an verschiedenen Zeitpunkten der Vorhersage vor der Wahl die einfache Baseline übertreffen. Gerade bei den Wahlen 2013 und 2009 ist der Gewinn durch die Vorhersagemodelle erheblich. So sagt das einfache Baselinemodell zur Wahl 2013 257 der 299 Wahlkreise korrekt voraus, unser Vorhersagemodell sagt zwei Tage vor der Wahl 270 der 299 Wahlkreise korrekt voraus. In Tab. 3 berichten wir die vollständige Kreuztabelle der vorhergesagten und beobachteten Wahlkreisgewinner auf Basis der Vorhersage des neuronalen Netzes zwei Tage vor der Bundestagswahl 2017.

Tab. 2 Evaluation der Erstimmenmodelle
Tab. 3 Zwei Tage vor der Wahl vorhergesagte und beobachtete Wahlkreisgewinner (NN)

3.2 Vergleich von linearem Modell und neuronalem Netz

Mit Tab. 2 lassen sich darüber hinaus auch die beiden Erststimmenmodelle vergleichen. Dafür berechnen wir neben dem PCP-Wert noch den ePCP-Wert (expected percent correctly predicted, erwartete Prozent korrekt vorhergesagt, Herron 1999) sowie den RMSE (root mean square error, Wurzel der mittleren Fehlerquadratsumme) der individuellen Erststimmenvorhersagen, um die Unsicherheit der einzelnen Vorhersagen in den Vergleich zu integrieren. Wir markieren den jeweils besseren Wert kursiv. Bei der Vorhersage der Wahlkreisgewinner sind das lineare Modell und das neuronale Netz gemessen am PCP-Wert gleich auf. Bei drei der insgesamt neun Vorhersagezeitpunkte sagt das lineare Modell mehr Wahlkreise richtig voraus als das neuronale Netz, bei drei Vorhersagezeitpunkten liegen das lineare Modell und das neuronale Netz gleichauf und bei drei Zeitpunkten liegt das neuronale Netz vor dem linearen Modell. Betrachten wir den ePCP-Wert, so zeigt sich ein Vorteil des linearen Modells im Vergleich zum neuronalen Netz. Der ePCP-Wert des linearen Modells liegt bei sechs der neun Zeitpunkte über dem des neuronalen Netzes.

Wir berechnen auch die Erststimmenergebnisse aller Kandidierenden in jedem Wahlkreis. Damit lässt sich der RMSE zwischen den vorhergesagten Werten und den tatsächlichen Erststimmenergebnissen berechnen und gibt uns an, wie weit im Durchschnitt die vorhergesagten Erstimmenergebnisse von den tatsächlichen abweichen. Hier zeigt sich ein klarer Vorteil des neuronalen Netzes. Bei allen neun Vorhersagen ist der RMSE-Wert des neuronalen Netzes niedriger als der Wert des linearen Modells. Für Vorhersagen der Erststimmenergebnisse ist das neuronale Netz damit klar im Vorteil, da es im Durchschnitt präzisere Vorhersagen liefert. Das ist ein eindeutiger Indikator, dass das neuronale Netz eine bessere Vorhersagekraft besitzt, da das Erstimmenergebnis die eigentliche Vorhersagevariable beider Modelle ist. Für abgeleitete Vorhersagen der Wahlkreisgewinner liegen beide Modelle ungefähr gleichauf, mit leichten Vorteilen für das lineare Modell.

Im Folgenden werden wir uns wegen der verbesserten Vorhersagekraft für die Erstimmenergebnisse auf das neuronale Netz stützen und Anwendungsmöglichkeiten unseres Ansatzes beschreiben, die über die reine Vorhersage hinausgehen.

4 Anwendungsmöglichkeiten der Erstimmenvorhersagen

Unser Modell bietet zahlreiche Anwendungsmöglichkeiten, die auf den Erstimmenvorhersagen aller Kandidierenden im Wahlkreis beruhen. Wir wollen im Folgenden vier solcher Anwendungen kurz vorstellen: (1) die Berechnung der individuellen Gewinnwahrscheinlichkeit aller Kandidierenden in ihrem Wahlkreis, als Maß der Kompetitivität eines Wahlkreises bzw. zwischen je zwei Kandidierenden eines Wahlkreises, (2) die Identifikation offener Wahlkreise, (3) die Vorhersage der Parlamentsgröße und (4) die Entdeckung von Interaktionen unter Prädiktoren in der Vorhersage mithilfe des neuronalen Netzwerks.

4.1 Gewinnwahrscheinlichkeit aller Kandidierenden in ihrem Wahlkreis

Unser Ansatz sagt mit jedem der Simulationsdurchläufe des Zweitstimmenmodells Erststimmenanteile für alle Kandidierenden in jedem Wahlkreis voraus. Aus dem Anteil der Gewinne in einem Wahlkreis ergibt sich, erstens, ein Messwert für die Gewinnwahrscheinlichkeit aller Kandidierenden in ihrem Wahlkreis. Die Gewinnwahrscheinlichkeit ergibt sich als relative Häufigkeit, nämlich als Anzahl der simulierten Siege im Wahlkreis relativ zur Anzahl aller Simulationen.

Mithilfe der so ermittelten individuellen Gewinnwahrscheinlichkeit aller Kandidierenden lässt sich, zweitens, ein Maß der Kompetitivität eines Wahlkreises bzw. zwischen je zwei Kandidierenden eines Wahlkreises erstellen. Der Vorteil ist, dass dieses Maß einerseits die Wahlkampfsituation der aktuell Kandidierenden präziser widerspiegelt, als wenn auf das Wahlkreisergebnis der letzten Wahl (z. B Cain 1978) zurückgegriffen wird. Andererseits können diese Werte vor einer jeden Wahl bereitgestellt werden und sind somit exogen, im Gegensatz zu Versuchen mit den tatsächlichen Wahlkreisergebnissen als Proxy zu arbeiten (z. B. Gschwend 2007).

Die Gewinnwahrscheinlichkeiten für die 2017 Wahl, auf Basis der Prognose zwei Tage vor der Wahl, werden in Abb. 2 für jeden Wahlkreis und alle Kandidierenden der Parteien präsentiert. Je dunkler ein Wahlkreis eingefärbt ist, desto wahrscheinlicher ist es, dass der jeweilige Kandidierende dort gewinnt.

Abb. 2
figure 2

Gewinnwahrscheinlichkeiten der kandidierenden Parteien in den Wahlkreisen zwei Tage vor der Bundestagswahl 2017. a CDU/CSU, b SPD, c AfD, d FDP, e LINKE, f GRÜNE

Obwohl die Vorhersagen in einem Großteil der Wahlkreise eintraten, versagte das Modell in einigen wenigen Fällen drastisch: Keines der drei, durch die AfD errungenen Direktmandate wurde antizipiert oder mit einer relevanten Gewinnwahrscheinlichkeit vorhergesagt. Die höchste Wahrscheinlichkeit für den Gewinn eines Direktmandats der AfD sah unser Modell zwei Tage vor der Wahl im Wahlkreis 158 (immerhin liegt diese höchste Wahrscheinlichkeit in einem der drei Wahlkreise, den die AfD tatsächlich gewinnen konnte). Auch wenn andere Prognosen wie election.de hier ebenfalls falsch lagen, bleibt dieser Befund für unseren Ansatz unbefriedigend. Gleichzeitig ist anzunehmen, dass dies kein strukturelles Modellierungsproblem, sondern ein Datenverfügbarkeitsproblem darstellt. Solange präzisere Informationen zu aktuellen politischen Präferenzen auf Wahlkreisebene nicht öffentlich vorliegen (vgl. im Gegensatz dazu Munzert 2017), bleiben solche regional begrenzten Ausreißer schwer vorherzusagen.

4.2 Identifikation offener Wahlkreise

Auf Basis der individuellen Gewinnwahrscheinlichkeiten lassen sich Wahlkreise in einfach zu interpretierende Kategorien einteilen.Footnote 10 Eine solche Einteilung ist insbesondere für die Berichterstattung über den Wahlkampf (bzw. die Fokussierung der Berichterstattung auf bestimmte Wahlkreise) sowie für Parteifunktionäre und Wahlkampfstrategen sinnvoll. Wir teilen die Wahlkreise in vier Kategorien ein. Wir sehen Wahlkreise als offen an, wenn keiner der Kandidierenden eine Wahrscheinlichkeit von mindestens 65 % erreicht. Wenn einer der Kandidierenden eine Wahrscheinlichkeit zwischen 65 % und 85 % zugeschrieben bekommt, dann schätzen wir den Wahlkreis mit einer Tendenz für diese Person ein. Zwischen Wahrscheinlichkeiten von mindestens 85 % und 99 % gehen wir davon aus, dass diese Person den Wahlkreis wahrscheinlich gewinnt. Wahlkreise, in denen Kandidierende mit einer Chance von mindestens 99 % gewinnen, bezeichnen wir als sicher. Tab. 4 zeigt, wie sich unsere Einschätzungen über die Parteien verteilen. Im Online-Appendix evaluieren wir darüber hinaus die von uns als offen vorhergesagten Wahlkreise.

Tab. 4 Einschätzung der Direktmandate zwei Tage vor der Bundestagswahl 2017

4.3 Vorhersage der Parlamentsgröße

Als dritte Anwendung kann unser Ansatz auch die jeweilige Parlamentsgröße vorhersagen, abhängig davon wie die Parteien in Umfragen stehen. Das ist eine zentrale Größe in der aktuellen Wahlrechtsdiskussion (Behnke 2019; Pukelsheim 2019). Für jeden unserer Simulationsdurchläufe können wir die Sitzverteilung, inklusive der daraus resultierenden Sitze zum Ausgleich von entstandenen Überhangmandaten berechnen. Damit lässt sich gleichzeitig die Gesamtzahl der Sitze in einem künftigen Bundestag sowie deren Verteilung auf Länder und Parteien problemlos simulieren. Die vorhergesagte Größe des Bundestags ist übrigens auch für Listenkandidierende ohne Aussicht auf ein Direktmandat relevant, da sie über die Anzahl der Ausgleichsmandate Einfluss auf deren Einzugswahrscheinlichkeit ausübt. Fallen Ausgleichsmandate für eine Partei an, dann erhöht sich die Wahrscheinlichkeit gerade für Listenkandidierende, ohne Aussicht auf ein Direktmandat in den Bundestag einziehen zu können. So kann tagesaktuell ein „Barometer der erwarteten Parlamentsgröße“ bestimmt werden.

So war bereits vor der Wahl 2017 abzusehen, dass der 19. Bundestag deutlich größer als die gesetzliche Mindestanzahl von 598 Mandaten wird. Unsere Simulationen zeigen, dass in fünf von sechs Fällen der Bundestag eine Größe zwischen 641 und 772 Mandaten haben wird. Mit einer Wahrscheinlichkeit von 96,2 % sagen wir etwa zwei Tage vor dem Wahltag einen größeren Bundestag als die 631 Sitze der 18. Legislaturperiode vorher. Auf Basis der Vorhersage beziffern wir eine Größe von 700 Sitzen oder mehr mit einer Wahrscheinlichkeit von 31,8 %. Die dann realisierte Größe von 709 Sitzen im 19. Bundestag lag somit etwas über der mittleren vorhergesagten Größe, schien aber bereits vorher im Bereich des Möglichen. Abb. 3 zeigt, dass die Größe des Bundestags in manchen Simulationen sogar mit mehr als 900 Sitzen (der größte von uns simulierte Bundestag hat 1040 Sitze) berechnet wird.

Abb. 3
figure 3

Simulierte Größen des 19. Bundestags, Prognose 2 Tage vor der Bundestagswahl 2017

Eine detaillierte Evaluation der Sitzverteilung nach Bundesländern und Parteien findet sich im Online-Anhang.

4.4 Das neuronale Netz zur Entdeckung von wichtigen Interaktionen

Zu guter Letzt möchten wir noch darauf eingehen, warum es darüber hinaus lohnenswert ist, die Vorhersage basierend auf dem neuronalen Netz genauer zu betrachten. Neben der guten Vorhersagekraft des neuronalen Netzes können wir auch die gelernten Zusammenhänge im neuronalen Netz betrachten. Im Gegensatz zu klassischen Regressionsmodellen müssen dafür a priori keinerlei Annahmen über den funktionalen Zusammenhang von unabhängigen Variablen und abhängiger Variable getroffen werden. Das heißt, mögliche nichtlineare Effekte werden von einem neuronalen Netz in den Daten „gefunden“. Ein neuronales Netz ist also keineswegs eine Blackbox. Im Gegenteil, wir möchten im Folgenden zeigen, dass wir diese Blackbox aufmachen und einfach nachschauen können.

Wir schätzen dafür speziell den Effekt, Amtsinhaber zu sein, auf das jeweilige Erststimmenergebnis und vergleichen diesen Effekt für Wahlkreise in West- und Ostdeutschland. Dazu nehmen wir die gelernten Koeffizienten des neuronalen Netzes und setzen alle beobachteten Werte für die unabhängigen Variablen ein. Systematisch variieren wir dann die Ausprägungen der Variablen Amtsinhaber und des West-/Ost-Dummys. Sukzessive setzen wir alle Ausprägungen auf West und berechnen die Differenz, in der vorhergesagten Wahrscheinlichkeit Amtsinhaber zu sein oder nicht, und erhalten so den Schätzwert des Amtsinhaberbonus für westdeutsche Wahlkreise. Wir finden, dass Amtsinhaber in westdeutschen Wahlkreisen im Schnitt 0,6 Prozentpunkte (das 5/6 Kredibilitätsintervall reicht von −1,5 Prozentpunkten bis +3,1 Prozentpunkten) mehr Erstimmen erhalten als andere Kandidierende. Analog verfahren wir mit der Berechnung des Amtsinhaberbonus in ostdeutschen Wahlkreisen. Hier finden wir, dass Amtsinhaber im Schnitt 0,8 Prozentpunkte (das 5/6 Kredibilitätsintervall reicht von −1,6 Prozentpunkten bis +3,4 Prozentpunkten) mehr Erstimmen erhalten als andere Kandidierende. Da wir für beide Werte approximierte Verteilungsfunktionen aus dem neuronalen Netz haben, können wir die Differenz der beiden Verteilungen berechnen, um zu sehen, ob sich der Amtsinhabereffekt zwischen Ost und West systematisch unterscheidet. Wir finden, dass der Amtsinhaberbonus mit einer Wahrscheinlichkeit von 96,9 % in ostdeutschen Wahlkreisen größer ist als in westdeutschen Wahlkreisen. Ohne diesen systematischen Unterschied im linearen Modell als Interaktionseffekt zu spezifizieren, würden wir solche interessanten Nichtlinearitäten nicht finden. Welche möglichen weiteren Interaktionen dabei vom künstlichen neuronalen Netz „entdeckt“ werden, eröffnet Raum für weitergehende Forschung insbesondere zu Wiederwahl- und Einzugschancen von individuellen Kandidierenden, die in Verbindung mit entsprechenden individualisierten Kampagnenstrategien (Zittel und Gschwend 2007; Giebler und Wüst 2011; Gschwend und Zittel 2011) oder im Falle von Amtsinhabern in Verbindung zu parlamentarischem Verhalten (Gschwend und Zittel 2018) gebracht werden können (Zittel und Gschwend 2007; Giebler und Wüst 2011; Gschwend und Zittel 2011).

5 Diskussion

In diesem Beitrag stellten wir einen Vorhersageansatz von Wahlkreiserststimmenergebnissen bei Bundestagswahlen vor. Dafür kombinieren wir (1) ein Zweitstimmenmodell, (2) einen proportionalen Swing, um die bundesweite Zweitstimmenvorhersage auf die 299 Wahlkreise zu verteilen und (3) ein Erststimmenmodell (lineare Regression bzw. neuronales Netz). Am Beispiel der Bundestagswahlen 2009, 2013 und 2017 konnten wir zeigen, dass unsere Modelle bereits drei Monate vor der Wahl recht zuverlässige Prognosen liefern.

Als zusätzliches Ergebnis erhalten wir die Gewinnwahrscheinlichkeit für alle Kandidierenden in ihrem Wahlkreis (Anzahl der Siege im Wahlkreis/Anzahl der Simulationen). Wir schlagen vor, diese Werte als Maß für die Wiederwahl- und Einzugschancen von individuellen Kandidierenden in der zukünftigen Forschung zu benutzen.Footnote 11

Darüber hinaus konnten wir exemplarisch an der Simulation der Größen des Bundestags zeigen, dass aus dem Output des Modells weitere Kennzahlen abgeleitet werden können, die von großem Interesse zur Beurteilung der aktuellen Reformvorschläge und ihrer potenziellen Auswirkungen auf die Größe des Bundestags sein kann (Behnke 2007, 2017a, 2017b, 2019; Pukelsheim 2019; Weinmann 2014). Auf diese Weise kann die Politikwissenschaft einen eigenen Beitrag zur Versachlichung der Wahlrechtsreformdebatte leisten, nachdem die Reformbestrebungen im Bundestag erneut gescheitert sind (Schönberger 2019). Das Thema Wahlrechtsreform wird nicht von der Agenda verschwinden. Im Gegenteil, je näher wir an die nächste Bundestagswahl herankommen, desto lauter wird diese Diskussion auch in nichtakademischen Kreisen geführt werden.

Der Nutzen des Modells reicht jedoch über den rein prädiktiven Wert hinaus. Mithilfe der aus den Vorhersagen abgeleiteten Gewinnwahrscheinlichkeit lassen sich Instrumente zur Messung der Kompetitivität eines Wahlkreises und der zu erwartenden Knappheit des Wahlkreisrennens generieren. Gegenüber ex post aus den Wahlergebnissen erzeugten Maßen hat dies den Vorteil, dass die Gewinnwahrscheinlichkeiten Informationen inkorporieren, die bereits vor der Wahl vorliegen und mittelbar oder unmittelbar auch politisches Verhalten beeinflussen. Somit haben diese Wahrscheinlichkeiten auch einen erklärenden Wert in politikwissenschaftlichen Verhaltensmodellen.

Die Vorhersage der Erststimmenanteile ist auch für Listenkandidierende ohne Aussicht auf ein Direktmandat relevant, weil je nach tatsächlicher Sitzzahl des Parlaments mit Überhang- und Ausgleichmandaten der Einzug selbst (von reinen Listenkandidierenden) auf den hinteren Plätzen einer Landesliste wahrscheinlicher (oder unwahrscheinlicher) werden kann. Da unsere Vorhersagen letztlich auf Ebene der Kandidierenden gemacht werden, kann man auch die Ergebnisse vor dem Hintergrund von Wiederwahl- bzw. Einzugschancen von Parteikandidierenden in den Bundestag interpretieren. Künftig können wir auf Basis unseres Ansatzes Aussagen zur personellen Zusammensetzung des neuen Bundestags machen, indem für alle Kandidierenden, ob nur auf einer Liste vertreten, nur in einem bestimmten Wahlkreis antretend oder sowohl in einem Wahlkreis antretend als auch auf einer Liste vertreten, eine Einzugswahrscheinlichkeit berechnet werden kann.

Schließlich eröffnet das künstliche neuronale Netz für Erststimmen die Möglichkeit, den Zusammenhang zwischen Wahlkreischarakteristiken, Kandidierendencharakteristiken und Erststimmenerfolg genauer zu betrachten. Wenn die individuellen Einzugschancen erwartbar knapp sind, sollte sich die Wahlkampfstrategie der Kandidierenden entsprechend anpassen. Umgekehrt lassen sich mit einem solchen Modell auch bestimmte Wahlkampfstrategien systematisch evaluieren und möglicherweise auch parlamentarisches Verhalten einzelner Abgeordneten besser erklären. So hoffen wir, dass die aus unserem Modell ableitbaren Gewinnwahrscheinlichkeiten beispielsweise in der Repräsentationsforschung als erklärendes Maß Anwendung finden wird.