Politische Vierteljahresschrift

, Volume 51, Issue 4, pp 721–749

Experimente in der Politikwissenschaft: Vom Mauerblümchen zum Mainstream

Authors

    • Politikwissenschaft, insbes. WählerverhaltenUniversität Mannheim
  • Sascha Huber
    • Lehrstuhl für Politische Wissenschaft I, Politische SoziologieUniversität Mannheim
Literaturbericht

DOI: 10.1007/s11615-010-0039-3

Cite this article as:
Faas, T. & Huber, S. Polit Vierteljahresschr (2010) 51: 721. doi:10.1007/s11615-010-0039-3

Zusammenfassung

Experimentelle Forschung ist auf dem Vormarsch. Ein Blick in die internationale Forschungslandschaft zeigt in vielerlei Hinsicht – Fachzeitschriften, Bücher, Tagungen – ihre Etablierung. Im deutschsprachigen Raum sind experimentelle Methoden in der Politikwissenschaft bislang aber weniger weit verbreitet. Nach einem Überblick über den Stellenwert von Experimenten in der Politikwissenschaft gehen wir auf Logik und Formen experimenteller Forschung ein, ehe wir uns einigen Beispielen in der Politikwissenschaft zuwenden. Dabei geben wir zunächst einen kursorischen Überblick über experimentelle Forschung in den Bereichen Wahlen und politische Einstellungen, Kollektivgüter und kollektives Handeln, soziales Vertrauen sowie legislative Entscheidungen und Verhandlungen. Daneben stellen wir exemplarisch ein Forschungsfeld im Detail dar: die Erforschung der Wahlbeteiligung mittels Feldexperimenten.

Schlagwörter

ExperimenteMethodenForschungsdesign

Experiments in Political Science: From Wallflower to Mainstream

Abstract

The use of experimental research designs is on the rise. Internationally, experiments are becoming ever more established in the field, as shown by the increasing number of journal articles, books, and conferences. In German political science, however, using experimental methods is still rather uncommon. After a (brief) discussion of the relevance of experiments for political science, we will—in general terms—introduce the logic of experimental research as well as different types of experiments. Then we shall provide a (selective) overview of experimental research in political science that has been conducted: First, we cursorily review the state of (experimental) research done in the fields of elections and public opinion, public goods and collective action, social trust and finally legislative bargaining and decision-making. Following that, we discuss in greater detail the field experimental strand of research studying voter mobilization.

Keywords

ExperimentsMethodsResearch Design

1 Zum Stellenwert von Experimenten in der Politikwissenschaft

Wer vor 15 Jahren in einer sozialwissenschaftlichen Bibliothek das Buch Experimental Foundations of Political Science (Kinder und Palfrey 1993) auslieh, wurde von Kollegen im besten Fall mit Stirnrunzeln bedacht. Politikwissenschaft galt lange Zeit als beobachtende und nicht als experimentelle Wissenschaft (vgl. Lowell 1910, S. 7). Entsprechend konstatierten Kinder und Palfrey (1991, S. 2) damals auch: „Most of what political science does in the name of science has nothing to do with experimentation. Too often experiments are regarded as exotic or silly or simply irrelevant; they are what chemists do or, closer to home, what psychologists or wayward economists do, but not what we political scientists do.“

Das empirische Fundament der Disziplin bestand vielmehr aus amtlichen Statistiken und Archiven, aus Interviews und Fallstudien sowie vor allem aus standardisierten Umfragen. Experimente und ihr Potenzial wurden dagegen weitestgehend vernachlässigt – und dies, obwohl parallel zu dieser praktischen Ignoranz eine Tradition von Publikationen existiert, die die Vorzüge experimenteller Untersuchungsdesigns preisen und folglich einen verstärkten Einsatz von Experimenten auch in der Politikwissenschaft fordern. So beschrieben schon Driscoll und Hyneman (1955, S. 211) Experimente als wenig beschrittenen, aber umso verheißungsvolleren Weg, „lead(ing) to pay dirt“. Lijphart (1971, S. 648) sah in Experimenten „the most nearly ideal method for scientific explanation“. Kinder und Palfrey (1993, S. 1) stellten lapidar fest: „Experimentation should be part of the political scientist’s everyday empirical repertoire“.

Gleichwohl ist der Großteil der Politikwissenschaft diesen Appellen lange Zeit nicht gefolgt. Dies zeigt etwa das Schicksal der Zeitschrift Experimental Study of Politics, die in den 1970er Jahren nach nur vier Jahrgängen wieder eingestellt wurde. Auch in den führenden Zeitschriften des Faches spielen bis in die 1990er Jahre hinein experimentelle Methoden nur eine marginale Rolle (vgl. etwa McGraw und Hoekstra 1994; Druckman et al. 2006).

In den vergangenen 15 Jahren allerdings hat sich dies geradezu dramatisch verändert: Einhergehend mit der Erkenntnis, dass (auch) beobachtende Verfahren Grenzen haben (vor allem im Hinblick auf den Nachweis von kausalen Prozessen) und dass Methodenmix und Triangulation den zukünftigen Weg des wissenschaftlichen Fortschritts weisen, haben Experimente in der internationalen politikwissenschaftlichen Fachdiskussion ihren Platz gefunden. Verstärkend hat dabei sicherlich gewirkt, dass sich die Politikwissenschaft in jüngerer Vergangenheit in starkem Maße ökonomischer (etwa im Bereich der Handlungs- und Entscheidungstheorie) und psychologischer Ideen (etwa im Bereich der Wahl- und Einstellungsforschung) bedient hat. Dass mit solchen inhaltlichen Impulsen auch methodische Anleihen und Innovationen – allen voran in Form des verstärkten Einsatzes experimenteller Methoden – einhergehen können, liegt auf der Hand.

Auch für diese Trendwende in der jüngeren Vergangenheit lassen sich klare Indizien finden. Beginnend auf sehr niedrigem Niveau steigt die Zahl der Publikationen, die auf experimentellen Forschungsdesigns aufbauen, in führenden Fachzeitschriften im Zeitverlauf deutlich an (Druckman et al. 2006).1 Der Trend scheint sich dabei nicht nur fortzusetzen, sondern gar zu beschleunigen (Horiuchi et al. 2007; Morton und Williams 2008). Darüber hinaus finden sich mittlerweile verschiedene Sonderhefte renommierter Fachzeitschriften, die Experimente in der Politikwissenschaft thematisieren: Heft 4 des 17. Jahrgangs (2009) der Zeitschrift Political Analysis war dem Thema „Natural Experiments in Political Science“ gewidmet (s. etwa Robinson et al. 2009), nachdem bereits Heft 4 des 10. Jahrgangs (2002) allgemein das Thema „Experimental Methods in Political Science“ zum Gegenstand hatte (s. Lupia 2002). Heft 5 des 47. Jahrgangs (2004) des American Behavioral Scientist war mit Feldexperimenten einem bestimmten Typus von Experimenten gewidmet (s. Green und Gerber 2004); dies gilt ebenso für Heft 2 des 39. Jahrgangs (2009) von American Politics Research („Quasi-Experiments and Field Experiments in Political Science“). Heft 3 des 27. Jahrgangs (2006) der Zeitschrift Political Psychology hatte dagegen mit dem Thema „Experiments in Political Psychology“ einen substanziellen Fokus (s. McDermott 2006). Mit Political Methods: Experiments & Experimental Design gibt es mittlerweile auch wieder ein (E-)Journal, das experimentellen Methoden in der Politikwissenschaft ein exklusives Forum bietet.

Auch auf dem Buchmarkt finden sich Titel mit einem exklusiv experimentellen Fokus: Neben dem bereits erwähnten klassischen Werk von Kinder und Palfrey (1993) Experimental Foundations of Political Science gibt es mit dem Band von Morton und Williams (2010) Experimental Political Science and the Study of Causality: From Nature to the Lab ein Lehrbuch, das der Thematik gewidmet ist (s. aber auch schon Zimmermann 1972). Ein eindeutiges Signal in Richtung einer Institutionalisierung experimenteller Forschung ist das in Kürze erscheinende und von Druckman et al. (i. E.) herausgegebene Cambridge Handbook of Experimental Political Science. Auf annähernd 1000 Seiten zeigt sich dort eine beeindruckende Bandbreite und Vielfalt der experimentellen Forschung der vergangenen Jahre.2

International zeigt sich somit eine wachsende Bedeutung experimenteller Forschung in der Politikwissenschaft. Für den deutschsprachigen Raum gilt dies allerdings nicht in gleichem Maße. Wirft man etwa – ähnlich wie es Druckman et al. (2006) für die American Political Science Review getan haben – einen Blick auf die Publikationen, die seit 2000 in der Politischen Vierteljahresschrift (PVS), der Österreichischen Zeitschrift für Politikwissenschaft (ÖZfP) oder der Swiss Political Science Review (SPSR) erschienen sind, so ergibt sich ein eher spärliches Bild. Eine Volltextsuche3 nach dem Wortstamm „Experiment“ liefert für die ÖZfP überhaupt nur drei Treffer, von denen bestenfalls der Beitrag von Hofinger und Ogris (2002) auf genuin experimentelle Forschung Bezug nimmt, während die beiden anderen Beiträge das Wort „Experiment“ eher im Sinne von „ausprobieren“ nutzen.

Für die PVS liefert eine Volltextsuche insgesamt 19 Treffer. Sieben davon verwenden das Wort ebenfalls im Sinne von „ausprobieren“ und sieben weitere Beiträge nehmen Bezug zu genuin experimenteller Forschung. In drei Fällen machen sich Autoren Umstände und Rahmenbedingungen zunutze, die „den Charakter eines Feldexperiments“ (Emmer und Vowe 2004) haben oder einem „natürlichen Experiment“ (Behnke 2008; Köllner 2005) entsprechen. Nur zwei PVS-Beiträgen liegt ein (quasi-)experimentelles Forschungsdesign zugrunde (Klein 2006; Faas und Maier 2004). Auch im Falle der SPSR finden sich lediglich zehn Erwähnungen des Worts „Experiment“, die in vier Fällen „Ausprobieren“ entsprechen und in vier Fällen Bezug auf experimentelle Forschung nehmen. In einem Fall führen Autoren eher eine Simulation als ein Experiment durch (Lin 2008). Nur in einem einzigen Fall werden Ergebnisse eigener experimenteller Forschung berichtet (Karpowitz und Mendelberg 2007).

Experimentelle Forschung steckt damit im deutschsprachigen Raum weiterhin in den Kinderschuhen4 – im Gegensatz zu den eindeutigen Trends, die im angelsächsischen Raum zu beobachten sind.5 Ein Argument, das als Erklärung häufig angeführt wird, ist die mangelnde Vertrautheit mit experimentellen Methoden.6 Wir wollen daher im nächsten Schritt auf die Charakteristika und die daraus ableitbaren Vorteile experimenteller Forschungsdesigns eingehen, ehe anschließend ein selektiver Überblick über angewandte experimentelle Forschung gegeben wird, um so die mittlerweile erreichte Bandbreite, aber auch das Potenzial und den Mehrwert experimenteller Forschung aufzuzeigen.

2 Grundlagen experimenteller Forschung

2.1 Zur Logik experimenteller Forschung

Das definierende Merkmal von Experimenten ist die zufällige Verteilung von Beobachtungseinheiten auf verschiedene Experimental- und Kontrollgruppen. Dadurch unterscheiden sich die Gruppen idealerweise nicht voneinander – außer bezüglich einer oder mehrerer erklärender Variablen, die systematisch durch den Forscher variiert werden. Der Aspekt der Kontrolle ist dabei in zweierlei Hinsicht von fundamentaler Bedeutung: Er bezieht sich einerseits auf die zentrale erklärende Variable, die kontrolliert manipuliert wird. Im einfachsten Fall bedeutet dies: Während man der Experimentalgruppe ein Treatment „verabreicht“, erhält die Kontrollgruppe nichts bzw. ein Placebo. Um den Effekt des Treatments isolieren zu können (vgl. Behnke et al. 2006, S. 41; Faas 2009), müssen aber zugleich alle anderen Variablen unter Kontrolle gebracht werden. Dies leistet vor allem die Randomisierung (Fisher 1935), also die zufällige Verteilung auf die Gruppen. Sie ist der „great equalizer“ (McGraw 1996, S. 771) oder auch „the great ‚ceteris paribus‘“ (Cook und Campbell 1979, S. 5) experimenteller Forschung, denn „what randomization succeeds in accomplishing (…) is the conversion of all irrelevant sources of possibly systematic variability into unsystematic variability, that is, into random error“ (Brown und Melamed 1990, S. 3). Die Schlüsse über den Einfluss der erklärenden Variable auf die zu erklärende Variable werden schließlich über den Vergleich verschiedener Versuchsgruppen gezogen.7

Wie lässt sich vor diesem Hintergrund die Ausbreitung experimenteller Methoden in der (angelsächsischen) Politikwissenschaft der vergangenen zwei Jahrzehnte erklären? Der größte Vorteil, der mit experimentellen Designs untrennbar verbunden ist, liegt in der Möglichkeit, kausale Zusammenhänge zwischen verschiedenen Variablen zu untersuchen und zu überprüfen. Experimente eröffnen „a superior insight into causal relationships among variables“ (Brody und Brownstein 1975, S. 220), was andere Forschungsdesigns nur mit Mühe leisten können: Stellt man etwa auf der Grundlage von Beobachtungsdaten einen Zusammenhang zwischen einer unabhängigen Variable x und einer abhängigen Variable y fest, so lässt sich schwer bis überhaupt nicht ausschließen, dass nicht berücksichtigte Drittvariablen für die vermeintliche Kausalität verantwortlich sind, dass Endogenitätsprobleme vorliegen oder dass die kausale Wirkungsrichtung genau umgekehrt ist. In Experimenten dagegen, in denen Beobachtungseinheiten zufällig verschiedenen Gruppen zugeteilt werden, in denen die zu prüfende unabhängige Variable systematisch manipuliert wird, um so ihre Wirkmacht zu testen, scheiden solche alternativen Erklärungen aus. Bei erfolgreicher Randomisierung und Manipulation der unabhängigen Variable x lassen sich unterschiedliche Ausprägungen der abhängigen Variable y in Versuchs- und Kontrollbedingung valide (und exklusiv) auf x zurückführen.

Damit ermöglichen Experimente – im Sinne eines „speaking to theorists“ (Roth 1995, S. 21) – die zielgenaue Überprüfung bestehender Theorien, daraus abgeleiteter Hypothesen und den zugrunde liegenden Annahmen. Politikwissenschaftliche Theorien und Hypothesen müssen dazu möglichst passgenau in entsprechende experimentelle Designs übersetzt werden. Eine zweite Funktion von Experimenten bezeichnet Roth (1995, S. 22) als „searching for facts“. Dabei ist das Ziel weniger die gezielte Überprüfung von Theorien, sondern eher die Untersuchung von verschiedenen Erklärungsfaktoren, etwa infolge widersprüchlicher empirischer Befunde aus vorliegenden Studien. Mittels Experimenten lassen sich dann einzelne Faktoren auf ihre kausalen Effekte hin prüfen, deren Effektgrößen vergleichen und somit mögliche Widersprüche in der bisherigen Forschung auflösen. Experimentelle Forschung kann so in einen Dialog mit traditioneller empirischer Forschung treten. Klassische Beobachtungsdaten aus der realen Welt können durch experimentelle Daten komplettiert werden (s. auch McDermott 2002a, S. 32; Campbell und Stanley 1966, S. 4). Insgesamt hat experimentelle Forschung in der Politikwissenschaft damit das Potenzial, sowohl bestehende Theorien besser testen zu können als auch neue Erkenntnisse für empirische Debatten zu liefern.

Inwieweit dieses Versprechen eingelöst werden kann, hängt zu einem großen Teil davon ab, wie gut experimentelle Forschung auf spezifische politikwissenschaftliche Fragestellungen anzuwenden und wie valide die Umsetzung ist. Als intern valide gilt eine experimentelle Untersuchung, wenn ein signifikanter Unterschied zwischen Kontrollbedingung und Versuchsbedingung tatsächlich auf die experimentelle Manipulation der unabhängigen Variable (und nichts anderes) zurückzuführen ist (Cook und Campbell 1979). Die interne Validität ist untrennbar verknüpft mit der erfolgreichen Randomisierung sowie der Kontrolle und Manipulation der Versuchsbedingungen. Insgesamt stellt die interne Validität in (politikwissenschaftlichen) Experimenten aber ein beherrschbares Problem dar (McDermott 2002b), insbesondere wenn man sie mit anderen gängigen Erhebungsmethoden vergleicht.

Kritischer wird in der Regel die externe Validität von Experimenten bewertet. Sie bezieht sich auf die Generalisierbarkeit von experimentellen Befunden über den konkreten Kontext eines Versuchs hinaus. Ein typischer Einwand ist die vermeintliche Künstlichkeit experimenteller Entscheidungsumgebungen. Extrem gewendet, wird in Frage gestellt, ob experimentelle Untersuchungen reale politische Prozesse oder Entscheidungssituationen adäquat nachbilden können (Peters 1998, S. 48). Eine mögliche Antwort aus Sicht experimenteller Forschung hat Plott (1991, S. 906) gegeben: „[T]he experiment should be judged by the lessons it provides about the theory and not by its similarity with what nature might have happened to have created“. Dieser Argumentation zufolge ist nicht immer ein „mundane realism“ notwendig, sondern eher ein „experimental realism“ (Aronson et al. 1985, S. 485), um valide Ergebnisse zu erlangen.

Allerdings ist gerade die Politikwissenschaft am Einfluss des institutionellen und sozialen Kontexts auf politisches Verhalten interessiert. Für viele politikwissenschaftliche Fragestellungen ist es deshalb sehr wohl relevant, die jeweils wesentlichen Elemente des Kontexts aus der realweltlichen Situation auch in der experimentellen Situation abzubilden. Ein Beispiel ist die experimentelle Forschung zu politischer Kommunikation, in der Versuchspersonen, die mit einer bestimmten Nachricht konfrontiert werden, in ihren Meinungen von deren Inhalt beeinflusst werden – sei es durch Priming oder Framing (vgl. z. B. Kinder 1998). Der Großteil einschlägiger Experimente ignoriert aber den realen Kontext von Medienrezeption außerhalb des Labors, nämlich die Möglichkeit einer Wahl zwischen verschiedenen Quellen und Berichten. Wenn diese Wahlmöglichkeit auch im experimentellen Design gegeben ist, verändern sich die Effekte systematisch (Arceneaux und Johnson 2008). Entscheidend für viele politikwissenschaftliche Fragestellungen ist also nicht unbedingt eine möglichst detailgetreue Imitation der Realität, aber sehr wohl die Übertragung und Berücksichtigung wesentlicher Elemente des sozialen Kontexts politischen Verhaltens.

Ein weiteres mögliches Problem für die externe Validität von Experimenten kann die Auswahl der Versuchspersonen sein. In einem Großteil politikwissenschaftlicher Experimente wird auf sogenannte Convenience-Samples zurückgegriffen, also auf eine (in der Regel nicht repräsentative) Auswahl leicht zugänglicher Versuchspersonen; sehr häufig handelt es sich dabei um Studierende (vgl. Kam et al. 2007; Iyengar 2002, S. 10; Mintz et al. 2006). Die kritische Frage ist dabei, inwieweit von einer solchen Auswahl an Versuchspersonen auf die Bevölkerung insgesamt geschlossen werden kann. In der Psychologie wurde diese Frage immer wieder kontrovers diskutiert (vgl. Sears 1986) – und noch immer basiert ein Großteil der psychologischen Experimente auf studentischen Samples. Ein Hauptargument ist dabei (neben den offensichtlichen Kostengründen), dass sich die untersuchten allgemeinen Prinzipien von Kognition und Verhalten bei Studierenden nicht systematisch von der Restbevölkerung unterscheiden (Shadish et al. 2002).

Bei politikwissenschaftlichen Fragestellungen, die nicht ausschließlich allgemeine kognitive Verarbeitungsmuster, sondern auch konkrete politische Einstellungen und Verhalten untersuchen, ist dieses Argument dagegen nicht immer überzeugend. Studierende in Laborexperimenten, die möglicherweise sehr ähnliche Einstellungen und Werte haben, können beispielsweise systematisch anders auf zu untersuchende soziale Hinweise oder Arten der politischen Kommunikation reagieren als der Rest der Bevölkerung (Gerber und Green 2008, S. 358). Eine wachsende Zahl von politikwissenschaftlichen Experimenten versucht deshalb, nicht ausschließlich auf Studierende zurückzugreifen. Zudem sind verschiedene Typen von Experimenten in unterschiedlichem Ausmaß von Einschränkungen externer Validität betroffen. Im Falle von Surveyexperimenten etwa, die zum Teil mit repräsentativen Bevölkerungsstichproben arbeiten (vgl. Gaines et al. 2007), stehen Experimente herkömmlichen Umfragen in nichts nach. Ähnliches gilt auch für Laborexperimente, für die bewusst auch nicht-studentische Versuchspersonen rekrutiert werden (vgl. Lau und Redlawsk 2006).

Es gibt also durchaus Möglichkeiten, die externe Validität von Experimenten zu verbessern. Die wichtigste ist die Replikation von Studien zu unterschiedlichen Zeitpunkten mit unterschiedlichen Versuchspersonen, unterschiedlichen Spezifikationen der Versuchsbedingungen, unterschiedlichen Entscheidungsumgebungen und unterschiedlichen Designs. Dieser Anspruch sollte nicht nur an experimentelle Forschung, sondern an alle Arten der empirischen Analyse gerichtet werden, wie King (1995) unter der Überschrift „Replication, Replication“ eindrücklich fordert. Nur durch Replikation und Adaption bestehender Forschung besteht die Möglichkeit eines kumulativen Fortschritts. Experimentelle Forschung bietet sich hierfür in idealtypischer Weise an: Durch die jeweils hohe interne Validität einzelner Studien, die genaue Offenlegung der eingesetzten experimentellen Designs, die damit verknüpfte Möglichkeit zielgenauer Änderungen des Designs in Folgestudien und die präzise Rückbindung an zugrunde liegende Theorien und Hypothesen verspricht systematische und kumulative experimentelle Forschung einen hohen Erkenntnisgewinn. „What we will need, then, is programmatic rather than one-shot research“ (McConahay 1973, S. 377).

2.2 Typen von Experimenten

Experimentelle Studien in der Politikwissenschaft unterscheiden sich vor allen Dingen entlang zweier Dimensionen voneinander: dem Ort der Erhebung auf der einen Seite und der grundsätzlichen Art der experimentellen Durchführung auf der anderen Seite, die sich an den beiden Nachbardisziplinen der Psychologie und der Ökonomie orientiert.

Der Ort der Erhebung ist der offensichtlichste Unterschied (s. auch Morton und Williams 2008). Der Großteil der bisherigen Forschung wurde in einem von drei Kontexten erhoben: im Labor, in Umfragen oder in der natürlichen, realen Umgebung der Befragten. Laborexperimente haben die längste Tradition und zeichnen sich durch den Vorteil der bestmöglichen Kontrolle der Versuchspersonen, der Treatments sowie der experimentellen Umgebung aus. Die Kriterien interner Validität lassen sich hier am besten erfüllen – auch bei komplizierten Treatments und experimentellen Designs (vgl. Shadish et al. 2002), weshalb manche Autoren darin auch den „gold standard“ (McDermott 2002a, S. 32) experimenteller Forschung sehen. Mithilfe von Laborexperimenten wurden in den vergangenen Jahren so unterschiedliche Themen bearbeitet wie der Einfluss von Priming und Framing auf die Einstellungsbildung von Bürgern (z. B. Iyengar 1991; Nelson und Kinder 1996), die Überprüfung formaler Modelle und spieltheoretischer Hypothesen zu Entscheidungen in Ausschüssen oder Verhandlungen (z. B. Palfrey 2007), die Bereitstellung von Kollektivgütern (z. B. Isaac und Walker 1988b; Ostrom et al. 1994) oder der Einfluss von Wahlsystemen auf das Wählerverhalten (McKelvey und Ordeshook 1985a, 1985b; Morton und Williams 1999). Auf diesen und vielen anderen Feldern haben Laborexperimente wichtige Ergebnisse geliefert und durch den Nachweis kausaler Zusammenhänge zum Teil entscheidend zur Theoriebildung beigetragen. Dem unbestrittenen Vorteil interner Validität stehen allerdings gerade bei Laborexperimenten Bedenken über die externe Validität gegenüber.

Umfrage- oder Surveyexperimente versuchen dieser Schwachstelle zu begegnen, indem sie mit größeren Samples oder sogar mit repräsentativen Bevölkerungsstichproben arbeiten (Sniderman und Grob 1996). Surveyexperimente haben ihren Ursprung in der Beschäftigung mit methodischen Fragen der klassischen Umfrageforschung, wie der Optimierung von Messverfahren und der Fragebogengestaltung (vgl. Sniderman und Grob 1996; Clarke et al. 1999). Sie werden heute zunehmend auf substanzielle Fragestellungen, insbesondere in der Wahl- und Einstellungsforschung angewandt (vgl. z. B. Sniderman et. al 1991; Peffley und Hurwitz 2007; Kuklinski et al. 2000; Sniderman und Piazza 1993; Berinsky 2002).

Durch die Einführung experimenteller Variation in Bevölkerungsumfragen lassen sich einige Schwachstellen von Laborexperimenten umgehen. Gerade die in der Regel hohe Fallzahl und die Möglichkeit der Erhebung einer Vielzahl weiterer (nicht manipulierter) Variablen eröffnen wertvolle Analysemöglichkeiten, etwa zum Vergleich von Effekten über verschiedene Bevölkerungsgruppen hinweg. Computer- und insbesondere internetgestützte Varianten ermöglichen zudem, auch komplexe Experimentaldesigns (einschließlich multimedialer Treatments) umzusetzen (vgl. Iyengar 2002). Den offensichtlichen Vorteilen stehen aber auch Nachteile gegenüber: Die Kontrolle über die Befragten – gerade bei Surveyexperimenten via Internet – ist deutlich geringer und die Möglichkeiten des Treatments bleiben im Vergleich zu Laborexperimenten – allen skizzierten Entwicklungen zum Trotz – eingeschränkter (Druckman et al. 2006). Zusätzlich besteht bei Surveyexperimenten mit ihrem meist größeren Naturalismus die Gefahr, dass Versuchspersonen Phänomenen bzw. Treatments ausgesetzt werden, die ihnen bereits zuvor aus der realen politischen Welt bekannt waren, was kausale Schlussfolgerungen aus unterschiedlichen Versuchsbedingungen erschwert (Gaines et al. 2007). Der Zugewinn an externer Validität kann also in manchen Fällen mit einem Verlust an interner Validität einhergehen.

Feldexperimente sind der dritte Typus von Experimenten, der in den vergangenen Jahren vermehrt für politikwissenschaftliche Fragestellungen eingesetzt wurde (vgl. Green und Geber 2003; Gerber und Green 2008; Gerber i. E.). Sie bieten die Möglichkeit, die Künstlichkeit vieler Labor- und Surveyexperimente vollständig zu überwinden, indem „reale“ Treatments in der natürlichen Umgebung der Versuchspersonen gesetzt werden. Dabei ist den Versuchspersonen häufig gar nicht bewusst, dass sie an einer Studie teilnehmen (vgl. Harrison und List 2004). Als Folge ergibt sich eine ungleich höhere externe Validität – auch im Vergleich zur klassischen Umfrageforschung. Der Nachteil von Feldexperimenten besteht in der häufig geringen Kontrolle der Versuchsbedingungen und Versuchspersonen. Probleme interner Validität ergeben sich deshalb unter anderem durch Non-Compliance der Versuchspersonen (ihnen kann also kein Treatment „verabreicht“ werden) und durch sogenannte Spillover-Effekte, wonach das Verhalten der Versuchspersonen in der Experimentalgruppe auch das Verhalten der Versuchspersonen in der Kontrollgruppe beeinflussen kann (vgl. Nickerson 2008). Feldexperimente sind zudem offensichtlich nicht für jede Fragestellung anwendbar, sei es aus praktischen, ethischen oder finanziellen Gründen.

Dennoch haben Feldexperimente in den vergangenen Jahren zum besseren Verständnis von erstaunlich vielen und unterschiedlichen Themen beigetragen, wie beispielsweise dem Einfluss unterschiedlicher Arten politischer Kommunikation auf die Wahlbeteiligung (vgl. Gerber und Green 2008), dem Einfluss von Medienkonsum auf Wahlverhalten (Gerber et al. 2009), den Effekten von Wahlbeobachtern auf Wahlbetrug in Entwicklungsländern (Hyde 2010) oder der Rolle direktdemokratischer Institutionen bei der Bereitstellung von öffentlichen Gütern (Olken 2010).

Alle drei Arten von Experimenten haben jeweils spezifische Stärken und Schwächen. Dabei fällt das offensichtliche Spannungsverhältnis zwischen interner und externer Validität auf, das sich in experimenteller Forschung nicht immer auflösen lässt. Wer vollständige Kontrolle über Versuchspersonen und die Bedingungen braucht, muss unter Umständen auf die höhere externe Validität von Feldexperimenten verzichten. Wer umgekehrt sicher sein will, dass gefundene Zusammenhänge auch jenseits des Labors existieren, muss unter Umständen auf die perfekte Kontrolle (und damit vollständige interne Validität) verzichten. Auch an dieser Stelle erscheint es deshalb für zukünftige Forschung vielversprechend, sich nicht mit der einmaligen Untersuchung eines Sachverhalts zufriedenzugeben, sondern unterschiedliche experimentelle (und nicht-experimentelle) Methoden nebeneinander anzuwenden und Ergebnisse, die mit einer Methode gewonnen worden sind, mit einer anderen Methode erneut zu testen.

Neben Art und Ort der Erhebung und dem damit verbundenen „Naturalismus“ (Harrison und List 2004) können Experimente in der Politikwissenschaft auch danach unterschieden werden, inwieweit sie sich in der Durchführung an den Nachbardisziplinen der Psychologie und der Ökonomie orientieren. Die Unterschiede bestehen zum einen in verschiedenen Normen der Durchführung: Während psychologische Experimente häufig eine mehr oder weniger starke Form der Täuschung verwenden (meist im Sinne einer Coverstory, die vom eigentlichen Untersuchungsziel ablenken soll), wird in der Ökonomie jegliche – noch so kleine –Täuschung oder unvollständige Information abgelehnt (Jamison et al. 2008). Ähnlich gibt es unterschiedliche Normen der Bezahlung bei Experimenten. Während bei psychologischen Experimenten meist eine allgemeine Aufwandsentschädigung gezahlt wird, bezahlen Ökonomen ihre Versuchspersonen meist „erfolgsabhängig“, d. h. in Abhängigkeit vom Verhalten während des Experiments (Camerer und Hogarth 1999).

In diesem unterschiedlichen Modus der Bezahlung kommt der größte substanzielle Unterschied zwischen psychologischen und ökonomischen Experimenten zum Ausdruck: In ökonomischen Experimenten wird meist versucht, die Präferenzen von Versuchspersonen genau zu kontrollieren (Kagel und Roth 1995; Morton und Williams 2010). Den Versuchspersonen werden beispielsweise ihre Idealpunkte oder Auszahlungsmatrizen für Interaktionen mit anderen Versuchspersonen vorgegeben, und sie werden dann am Ende auch entsprechend ihres „Erfolgs“ im Laufe des Experiments bezahlt (vgl. Smith 1976). So lassen sich – unter maximaler Kontrolle – beispielsweise spieltheoretische Modelle und Gleichgewichtskonzepte testen.

In psychologischen Experimenten sind die realen Präferenzen und Prädispositionen der Versuchspersonen von entscheidender Bedeutung, wenn Fragen wie Informationsverarbeitung und Einstellungsbildung untersucht werden sollen (Sniderman et al. 2004). Wenn beispielsweise der Einfluss von Framing auf Einstellungen analysiert wird (s. etwa Chong und Druckman 2007), wäre es nicht sinnvoll, Versuchspersonen künstliche Präferenzen vorzugeben. Wenn dagegen der Einfluss von unterschiedlichen institutionellen Regeln auf das Ergebnis von Verhandlungen untersucht wird (z. B. Diermeier und Morton 2005), können vorgegebene Präferenzen für die Versuchspersonen durchaus vorteilhaft sein. Die Orientierung an den unterschiedlichen Paradigmen experimenteller Forschung in Psychologie und Ökonomie sollte deshalb nicht aufgrund eigener Vorlieben erfolgen, sondern aufgrund substanzieller Überlegungen über das bestmögliche experimentelle Design für die jeweilige politikwissenschaftliche Fragestellung (McDermott 2002a).

3 Beispiele experimenteller Forschung in der Politikwissenschaft

Die Bandbreite und Vielzahl experimenteller Studien in der Politikwissenschaft ist mittlerweile um ein Vielfaches zu groß, um im Rahmen eines Literaturberichts auch nur annähernd erschöpfend dargestellt zu werden (s. auch die Überblicksdarstellungen bei McDermott 2002a, 2002b; McGraw und Hoekstra 1994; Sniderman und Grob 1996 sowie die Beiträge in Kinder und Palfrey 1993 sowie Druckman et al. i. E.). Wir werden daher im Folgenden zunächst einige typische Bereiche herausgreifen und diese überblicksartig vorstellen. Abschließend widmen wir uns einer konkreten Fragestellung (nämlich der Mobilisierung von Wahlberechtigten), um an diesem Beispiel das Potenzial und die Entwicklungsmöglichkeiten experimenteller Forschung noch einmal detaillierter zu illustrieren.

3.1 Wahlen und politische Einstellungen

In der Wahl- und Einstellungsforschung hat experimentelle Forschung mittlerweile den größten Umfang erreicht (vgl. Weir 1985; Druckman et al. 2006). Studien zu politischen Einstellungen lassen sich sehr grob danach einteilen, ob sie eher am Prozess der Informationsverarbeitung und Einstellungsbildung interessiert sind oder einzelne wichtige Faktoren – wie das Informationsangebot oder den politischen Kontext – herausgreifen und in seiner jeweiligen Wirkung detailliert untersuchen.

Ansätze, die allgemein am Prozess der politischen Informationsverarbeitung interessiert sind, untersuchen beispielsweise den Einfluss von Entscheidungsheuristiken auf die Meinungsbildung (z. B. Sniderman et al. 1991; Kuklinski und Hurley 1994; Lau und Redlawsk 1997; Lupia und McCubbins 1998). Dabei haben sowohl Surveyexperimente (z. B. Sniderman et al. 1991; Mutz et al. 1996) als auch Laborexperimente (Quattrone und Tversky 1988; Lau und Redlawsk 2001, 2006) bedeutende Erkenntnisse beispielsweise über die Rationalität und Irrationalität von Wahlentscheidungen erbracht. Ein anderer Forschungsstrang, der sich mit Prozessen der Meinungsbildung beschäftigt, unterscheidet zwischen unbewusstem, affektgeladenem online-processing und bewusstem, eher kognitivem memory-based-processing (Hastie und Park 1986; Lodge et al. 1989). Auch hier haben Experimente eine zentrale Rolle bei der Überprüfung und Weiterentwicklung der Theorie eingenommen (McGraw und Steenbergen 1995; Steenbergen und Lodge 2003; Lodge und Taber 2005; Cassino et al. 2007). Interessante Erkenntnisse lassen sich dabei nicht nur für die Informationsverarbeitung verschiedener Wählergruppen gewinnen. Insbesondere aus Experimenten zu impliziten Einstellungen und ihrer Messung8 (Bargh et al. 1996; Mendelberg 2001; Lavine 2002) lassen sich auch Lehren für die klassische Umfrageforschung ziehen, da implizite Varianten häufig validere Ergebnisse liefern als traditionelle explizite Messungen (Swanson et al. 2001; Amodio und Devine 2006).

Neben solchen Ansätzen, die sich mit dem allgemeinen Prozess der Informationsverarbeitung befassen, gibt es unzählige Studien, die spezifische Aspekte und Phänomene der Meinungs- und Einstellungsbildung untersuchen. Ein zentraler Aspekt ist das Informationsangebot und die Möglichkeit von Medien oder politischen Parteien, mehr oder weniger subtilen Einfluss auf die Meinungsbildung von Wählern zu nehmen. Dabei wurde die genaue Untersuchung von Prozessen des Primings (Iyengar und Kinder 1987; Miller und Krosnick 2000) und Framings (Tversky und Kahnemann 1981; Nelson und Kinder 1996) erst durch experimentelle Studien möglich. Insbesondere am Beispiel von Framing-Studien lässt sich der kumulative Fortschritt experimenteller Forschung nachzeichnen. Während die klassischen Laborexperimente von Tversky und Kahnemann (1981) noch sehr abstrakt waren, haben die eher politikwissenschaftlichen Framing-Experimente in den 1990er Jahren (z. B. Nelson et al. 1997) versucht, Elemente des politischen Kontexts hinzuzufügen und auch die Bezugsrahmen von politischen Sachfragen mit unterschiedlichem ideologischen Inhalt zu variieren. So konnte gezeigt werden, dass das unterschiedliche Framing von Sachfragen einen verzerrenden Einfluss auf die Meinungsbildung von Wählern hat. Sniderman und Theriault (2004) haben allerdings in einer einflussreichen Studie darauf hingewiesen, dass das klassische experimentelle Design von Framing-Studien, d. h. einer Versuchsgruppe einen ersten Bezugsrahmen, einer anderen Versuchsgruppe einen zweiten Rahmen zu präsentieren, die politische Wirklichkeit nur ungenügend abbildet. Darauf aufbauend hat Druckman in einer Reihe von Experimenten gezeigt, welchen Einfluss Wettbewerbsbedingungen, Expertise und abweichende Meinungen innerhalb der Gruppe auf die potenzielle Wirkung von Framing haben (Druckman 2001, 2004; Chong und Druckman 2007).

Schließlich wurde in einer großen Anzahl von experimentellen Studien der direkte Einfluss verschiedener Faktoren des politischen Angebots auf das Wahlverhalten untersucht: die Positionierung von Parteien oder Kandidaten (z. B. McKelvey und Ordeshook 1985a, 1985b; Kam 2005), die Eigenschaften von Spitzenkandidaten (z. B. Rosenberg und McCafferty 1987; McGraw et al. 2002), das Geschlecht und die Ethnie von Kandidaten (z. B. Huddy und Terkildsen 1993; Hutchings und Valentino 2004), die physische Attraktivität von Kandidaten (z. B. Klein und Rosar 2009; Verhulst et al. 2010), die Ambiguität der Positionen von Kandidaten (z. B. McGraw et al. 2003; Tomz und van Houweling 2009), Koalitionssignale (z. B. Linhart und Huber 2009; Meffert und Gschwend 2007), die Beschaffenheit von Wahlkämpfen (z. B. Lau und Redlawsk 2006), die Negativität von Wahlkampfstrategien (z. B. Ansolabehere und Iyengar 1995; Lau et al. 2007), institutionelle Unterschiede von Wahlsystemen (z. B. Morton und Williams 1999; Huber 2009), TV-Duelle (z. B. Druckman 2003; Faas und Maier 2004), Wahlwerbung (z. B. Brader 2005; Huber und Arceneaux 2007) bis hin zu Hinweisen von Interessengruppen und Experten (z. B. Lupia und McCubbins 1998).

3.2 Kollektivgüter und kollektives Handeln

Probleme kollektiven Handelns und die Bereitstellung von Kollektivgütern sind die Basis vieler sozialer und politischer Phänomene (Olson 1965). Die spieltheoretische Modellierung dieser Phänomene hat in großem Maße dazu beigetragen, die zugrunde liegenden Mechanismen zu verstehen (Hardin 1968; Taylor 1987). Aber erst experimentelle Studien – zusammen mit detaillierten Feldstudien – ermöglichten es, die empirische Varianz bei Kollektivgutproblemen besser zu erklären.

Nach den Annahmen der Theorie sollten öffentliche Güter, Kollektivgüter und kollektives Handeln fast nie realisiert werden können. Empirisch trifft das aber offensichtlich nicht zu (Ostrom 1990). Experimentelle Studien haben entscheidend dazu beigetragen, jene Faktoren zu identifizieren, die das Zustandekommen von öffentlichen Gütern und Kollektivgütern erleichtern. So wurde beispielsweise gezeigt, dass die Möglichkeit zur Kommunikation einen starken Einfluss auf die Kooperation zwischen Versuchspersonen hat (Isaac und Walker 1988a; Sally 1995). Eine große Anzahl von Experimenten kam hier zu ähnlichen Ergebnissen (Miettinen und Suetus 2008).9

Für Kollektivgüter wurde zudem gezeigt, dass Versuchspersonen – wenn sie die Möglichkeit dazu haben – bereit sind, sich vertraglich zu binden, um effiziente Ergebnisse für die Gruppe zu erreichen und nicht später in Versuchung geführt werden, doch zu defektieren (Ostrom et al. 1994). Gleichzeitig wurde festgestellt, dass Versuchspersonen nicht-kooperatives Verhalten anderer Teilnehmer durchaus bestrafen – selbst wenn diese Sanktionen zum Teil beträchtliche eigene Kosten verursachen (Ostrom et al. 1992). Eine Vielzahl weiterer Faktoren und institutioneller Arrangements wurde in Experimenten untersucht, auf die hier aus Platzgründen nicht eingegangen werden kann (s. dazu Ostrom et al. 1994).

Die Befunde aus Laborexperimenten wurden wiederholt mit Beobachtungen aus Fallstudien und anderen Daten verglichen (z. B. Coleman und Steed 2009). Insgesamt zeigt sich in diesem Forschungsfeld eine geradezu idealtypische Verbindung von unterschiedlichen Methoden, die sich gegenseitig befruchten und insbesondere in ihrer Kombination überzeugende Einsichten in die untersuchten Phänomene erbracht haben (vgl. Poteete et al. 2010). Dabei spielte auch die Tatsache eine Rolle, dass Laborexperimente nicht nur an westlichen Universitäten mit möglicherweise sehr speziellen studentischen Samples durchgeführt wurden, sondern auch „im Feld“ zur Anwendung kamen. Um den Einfluss ethnischer Heterogenität auf die Bereitstellung von Kollektivgütern zu testen, führten Habyarimana et al. (2007) beispielsweise eine Reihe von kontrollierten „Labor“-Experimenten in Uganda durch. Cardenas (2000) untersuchte den Einfluss verschiedener Normen bei der Nutzung von Kollektivgütern bei Versuchspersonen in ländlichen Gebieten Kolumbiens – Versuchspersonen also, die tatsächlich häufig mit Kollektivgutproblemen zu kämpfen haben. Diese und andere Experimente, die in unterschiedlichen Kontexten mit unterschiedlichen Arten von Versuchspersonen durchgeführt wurden, stärkten einerseits das Vertrauen in die ursprünglichen Befunde und halfen andererseits, interessante Variationen aufzudecken und zu erklären.

3.3 Soziales Vertrauen

Soziales Vertrauen ist mittlerweile eines der zentralen Konzepte der Politikwissenschaft. Es wird als elementarer Faktor für die Existenz und Stabilität politischer Institutionen und politischer Beteiligung angesehen (Putnam 1993, 2000). Eine Vielzahl von Studien aus der klassischen Umfrageforschung hat dazu beigetragen, soziales Vertrauen besser zu verstehen und zu erklären (vgl. Nannestad 2008). Gleichzeitig hat sich eine eigene Tradition politikwissenschaftlicher und ökonomischer Forschung herausgebildet, die soziales Vertrauen experimentell untersucht.

Darin wird meist eine Variante sogenannter trust games durchgeführt, bei denen Versuchspersonen freiwillig etwas von dem ihnen zur Verfügung gestellten Guthaben abgeben können – in der Hoffnung, etwas zurückzubekommen (für eine Metaanalyse von mehr als 80 Experimenten in dieser Tradition s. Johnson und Mislin 2008).10 Diese Experimente zeigten zunächst, dass nur die allerwenigsten Versuchspersonen die optimale Strategie spielen, derzufolge sie überhaupt nichts abgeben sollten.11 Zumindest für „Nicht-Spieltheoretiker“ mag dies zunächst wenig erstaunlich sein. Interessant sind diese Experimente aber auch insofern, als sie mit ihrer Durchführung an verschiedenen Orten, mit unterschiedlichen Personengruppen und mit ihren Variationen im Design helfen, Erkenntnisse aus der Umfrageforschung zu ergänzen und zu validieren. So kommen Sutter und Kocher (2007) sowie Bellemare und Kröger (2007) in ihren Experimenten zu ähnlichen Ergebnissen zum Einfluss des Alters bzw. des Einkommens wie Uslaner (2002), der Umfragedaten verwendet.

Noch bemerkenswerter sind solche Experimente, die Antworten auf Fragen geben, die sich mit Umfragedaten kaum beantworten lassen. Eine Reihe von Experimenten hat beispielsweise die Charakteristika des Gegenübers der Versuchspersonen systematisch variiert. Demnach haben Versuchspersonen größeres Vertrauen zu Menschen mit höherer Attraktivität (Wilson und Eckel 2006), zu Menschen mit hellerer Haut (Fershtman und Gneezy 2001) und generell zu Frauen (Croson und Gneezy 2009). Andere Experimente haben den Einfluss unterschiedlicher institutioneller Arrangements auf das soziale Vertrauen in dyadischen Beziehungen untersucht und festgestellt, dass Sanktionsmöglichkeiten einer dritten Partei das Vertrauen innerhalb der Dyade beschädigen können (Bohnert et al. 2001; van Swol 2003). Zum besseren Verständnis von sozialem Vertrauen haben auch Studien beigetragen, die den Einfluss von Kommunikation und „Klatsch“ auf Reputationsbildung und soziales Vertrauen untersuchten, indem sie die Möglichkeit zur Kommunikation zwischen den Versuchspersonen systematisch variierten (Schotter und Sopher 2006; Sommerfeldt et al. 2008).

3.4 Legislative Entscheidungen und Verhandlungen

Experimente zu legislativem Entscheiden gehören zu den ältesten in der Politikwissenschaft. Ausgehend vom theoretischen Befund über die Instabilität von Mehrheitsentscheidungen in Parlamenten oder Ausschüssen (McKelvey 1976) wurde in Experimenten untersucht, welche Faktoren Stabilität bzw. Instabilität beeinflussen. Wie Fiorina und Plott (1978, S. 590) festhalten, ist die ursprüngliche theoretische Hypothese über zyklische Mehrheiten im zweidimensionalen Policy-Raum sehr spezifisch: „McKelvey’s result induces an interesting either-or hypothesis: if equilibrium exists, then equilibrium occurs; if not, then chaos“. Beobachtungsdaten tatsächlicher legislativer Entscheidungen zeigen aber nur in den seltensten Fällen das vorhergesagte Chaos (Riker 1986; Wilkerson 1999). Offensichtlich sind die realen Ausprägungen nicht dichotom (Gleichgewicht oder Chaos), sondern spiegeln graduelle Abstufungen wider. Experimentelle Studien der vergangenen Jahre haben ausgehend von der ursprünglichen experimentellen Überprüfung von Fiorina und Plott (1978) versucht, jene Faktoren zu identifizieren, die den Grad an Stabilität bei Mehrheitsentscheidungen beeinflussen. Wilson (1986, 2008) fand beispielsweise, dass unterschiedliche Arten der Agenda-Kontrolle die Stabilität legislativen Entscheidens systematisch beeinflussen. Bianco et al. (2008) untersuchten den Einfluss von Koalitionsbildung auf die Stabilität von Mehrheitsentscheidungen. Bottom et al. (1996) zeigten, dass Gruppennormen die Stabilität von Entscheidungen begünstigen können.

Ähnlich wie bei der Untersuchung der Stabilität von Mehrheitsentscheidungen wurden Experimente zu legislativen Verhandlungen stark von theoretischen Modellen inspiriert, in diesem Fall insbesondere vom spieltheoretischen Modell von Baron und Ferejohn (1989). In einer Reihe von Experimenten wurde das Modell getestet und zumindest teilweise bestätigt (McKelvey 1991; Fréchette et al. 2003; Diermeier und Morton 2005). Allerdings zeigte sich in diesen Experimenten konsistent ein – im Vergleich zu den Hypothesen des Modells – zu geringer Vorteil für Versuchspersonen mit Vorschlagsrecht. Entsprechend lehnten Versuchspersonen in den Experimenten – häufiger als vom Modell angenommen – Vorschläge ab, die sie als unfair einschätzten. Dieser Befund deckt sich wiederum mit den Ergebnissen von eher psychologisch orientierten Experimenten zu Verhandlungen, die angesichts der Komplexität vieler Verhandlungen den Einfluss einfacher Entscheidungsregeln wie der „Gleichheits“-Heuristik zeigen konnten (Messick 1993; Bazerman et al. 2000). Experimentelle Studien haben also in beiden hier beschriebenen Fällen – legislative Entscheidungen und Verhandlungen – geholfen, vorherrschende theoretische Modelle zu testen und entscheidend zu qualifizieren.

3.5 Ein Beispiel im Detail: Feldexperimente zur Mobilisierung von Wahlberechtigten

Abschließend wollen wir an einem idealtypischen Beispiel aufzeigen, worin die Vorzüge experimenteller Forschung bestehen, wie sie sich in kumulativer Art und Weise verdichten und erweitern lassen und wie daraus ein äußerst produktiver Forschungszweig innerhalb der Politikwissenschaft erwachsen kann. Kurzum: Die feldexperimentelle Erforschung der Möglichkeiten zur Mobilisierung von Wahlberechtigten im Vorfeld von Wahlen ist ein gutes pars pro toto für die Entwicklung experimenteller Forschung insgesamt.12

In den 1920er Jahren war Herbert Gosnell (1927; s. auch Davenport et al. 2010; Michelson und Nickerson i. E.) der erste, der sich der Frage widmete: Lassen sich Wahlberechtigte im Vorfeld von Wahlen durch „Get-out-the-Vote“-Kampagnen mobilisieren? Um die Frage zu beantworten, griff er auf einen experimentellen Ansatz zurück:13 In manchen Bezirken Chicagos ließ Gosnell (überparteiliche) Briefe verteilen, in denen die Wahlberechtigten aufgefordert wurden, zur Wahl zu gehen; in anderen dagegen nicht. Anschließend prüfte er die Wirksamkeit des Wahlaufrufs anhand amtlicher Statistiken – und konnte tatsächlich einen leichten Anstieg der Wahlbeteiligung in den „behandelten“ Bezirken feststellen.

Allerdings fand sein experimenteller Ansatz in der Folgezeit keine Fortsetzung. Erst die Arbeiten von Eldersveld (1956) griffen den Gosnellschen Ansatz wieder auf und verfeinerten ihn zugleich. Seine Liste von Fragen gibt die Richtung der Forschung, die erst 50 Jahre später einsetzen sollte, schon recht präzise vor: „1) What type of personalized canvassing is most effective, and when; and what is the extent and nature of the advantage of personal contact over propaganda efforts of an impersonal type? 2) Does the impact vary in different election contexts and types of campaigns? 3) Can the point of diminishing returns be established? 4) Is the substantive content of the appeal relevant to the effect?“ (Eldersveld 1956, S. 155). Eldersveld griff im Gegensatz zu den Bezirken Gosnells auf Individualdaten zurück. Seine Versuchspersonen verteilte Eldersveld zufällig auf insgesamt sieben Gruppen: Neben der Kontrollgruppe erhielten manche Befragten einen „rationalen“ Wahlaufruf per Post, andere erhielten einen „emotionalen“, ohne dass diese Unterscheidung allerdings Wirkung entfaltet hätte. Die übrigen vier Experimentalgruppen wurden persönlich kontaktiert: entweder durch Studierende, durch Parteimitglieder, per Telefon oder mittels einer Kombination aus Brief und (studentischem) Hausbesuch. Mit diesem Design konnte Eldersveld zumindest einige seiner Fragen – wenn auch basierend auf einer recht kleinen Fallzahl – beantworten. Vor allem wies er den relativen Vorteil persönlichen Kontakts gegenüber postalischen Kontaktaufnahmen nach – ein klassischer Befund dieser Forschung bis zum heutigen Tage.

Auch diese Forschung blieb allerdings lange Zeit ohne Anknüpfung. Erst in den frühen 1980er Jahren widmen sich Adams und Smith (1980) sowie Miller et al. (1981) wieder Arbeiten, die die frühere Tradition fortsetzen. Während Miller et al. (1981) den Fragen nachgehen, ob Mehrfachkontakte besonders verstärkend wirken, ob die zeitliche Taktung der Kontakte moderierend wirkt und ob es intervenierende soziodemografische Variablen gibt, erweitern Adams und Smith (1980) die Perspektive über die Wahlbeteiligung hinaus auf Kandidatenpräferenzen. Sie fanden diesbezüglich allerdings keinerlei Effekte der von ihnen untersuchten telefonischen Überzeugungsversuche.

Nach weiteren 20 ruhigen Jahren verhalfen schließlich Gerber und Green (2000) diesem Forschungsfeld zu seinem endgültigen Durchbruch. Ausgangspunkt ihrer Studie war die Tatsache, dass die einschlägige (beobachtende) Forschung zu den Möglichkeiten der Wählermobilisierung widersprüchliche Ergebnisse geliefert hatte. Vor diesem Hintergrund schien ein groß angelegtes Feldexperiment den Gordischen Knoten zerschlagen zu können. Ein von ihnen 1998 in New Haven durchgeführtes Feldexperiment löste eine Welle weiterer Experimente aus, für die Gerber und Green zugleich den Standard setzten.

Was zeichnete ihr Experiment aus? Basierend auf einer offiziellen Liste aller registrierten Wähler in New Haven wählten Gerber und Green ein bestimmtes Subsample (mit einer Fallzahl von fast 30.000 Personen) aus diesem Universum aus, die sie zufällig auf eine Kontroll- und verschiedene Experimentalgruppen verteilten. Diese unterschieden sich sowohl hinsichtlich der Anzahl von Kontaktversuchen als auch hinsichtlich des Mediums der Kontaktversuche (samt ihrer Mischung) und auch hinsichtlich der gewählten Wähleransprache (normativ vs. informativ vs. sozial). Diesbezüglich stand ihr Experiment in direkter Linie zu den Arbeiten von Eldersveld, hatte allerdings aufgrund der Fallzahl ein Vielfaches an statistischer Aussagekraft.

Dank der Verfügbarkeit von validierten Wahlbeteiligungsdaten auf individueller Ebene im amerikanischen Kontext konnten Gerber und Green zudem sämtliche Probleme sozialer (Un-)Erwünschtheit und von Overreporting umschiffen, die bei Beobachtungsdaten Analysen der Wahlbeteiligung erschweren. Zudem berücksichtigten Gerber und Green den für Feldexperimente typischen Aspekt der Non-Compliance, indem sie – im Gegensatz zu Eldersveld – zusätzlich zum „Intent-to-Treat“-Effekt (ITT) auch einen „Average Treatment on Treated“-Effekt (ATT) ausweisen, der das Ausmaß von Non-Compliance berücksichtigt. Im Ergebnis bestätigen auch Gerber und Green (2000) die schon bei Eldersveld getroffenen Befunde: Mittels persönlicher Ansprache lassen sich Wähler mobilisieren, weniger dagegen durch telefonische und schon gar nicht durch postalische.

Auf diese Initialzündung folgte – ganz im Sinne der Forderung nach „Replication, Replication“ (King 1995) – eine Reihe von Replikationen der ersten Studie. Green et al. (2003, S. 1084) etwa liefern „six replications (…) spanning a range of competitive and uncompetitive local elections“, die die ursprünglichen Ergebnisse weitgehend bestätigen. Arceneaux und Nickerson (2009) bieten einen Überblick über elf Feldexperimente. Bergan et al. (2005) und vor allem auch Green und Gerber (2008) liefern metaanalytische Ergebnisse, die ebenfalls weitgehend im Einklang mit den ersten Ergebnissen stehen. Daneben wurde auch die Übertragbarkeit auf bestimmte Bevölkerungsgruppen überprüft. Michelson (2003, 2005) und Ramirez (2005) haben Mobilisierungsversuche der Latino Vote analysiert. Green (2004) widmete sich speziell der Gruppe afroamerikanischer Wähler, während Trivedi (2005) die Gruppe indischer Einwanderer betrachtete; Wong (2005) sowie Bedolla und Michelson (2009) haben die Gruppe asiatischer Einwanderer insgesamt im Blick. Auch diese Studien ergeben ein recht homogenes Bild, das weitestgehend die ursprünglichen Befunde von Gerber und Green (2000) bestätigt.

Ebenfalls ausgehend von Gerber und Green (2000; s. auch Gerber und Green 2001) hat sich in der Literatur eine Diskussion um die Wirksamkeit verschiedener Medien entfacht.14 Gerade die skeptischen Befunde zu telefonischen und postalischen Kontaktversuchen sind einer kritischen Überprüfung unterzogen worden – mit der Folge einer zumindest partiellen Revision der ursprünglichen Befunde. Dies unterstreicht dabei auch die theoretische Fortentwicklung des Teilgebiets, indem danach gefragt wurde, warum telefonische Kontakte im Gegensatz zu persönlichen Kontakten ohne Effekt bleiben.

Zwar konnten Gerber und Green (2005) zunächst noch einmal ihre skeptischen Ergebnisse bestätigen, verwiesen aber in ihrem Fazit schon darauf, dass es Aufgabe zukünftiger Forschungen sein müsse, „to more systematically assess the extent to which a phone call’s effectiveness is determined by the manner in which the script is delivered“ (Gerber und Green 2005, S. 152). Tatsächlich haben weitere Forschungen gezeigt, dass freiwillige Wahlkampfhelfer am Telefon erfolgreicher sind als professionelle, bezahlte Anrufer und erst recht als automatisierte „Robotcalls“. Nickerson (2007, s. auch Ha und Karlan 2009) hat den zugrundeliegenden Wirkungsmechanismus überzeugend in einem weiteren Experiment nachgewiesen: Er hat darin für bezahlte Anrufer Anreize geschaffen, eine persönliche Beziehung zu den Angerufenen aufzubauen, während umgekehrt freiwillige Anrufer unter einen so hohen Zeitdruck gesetzt wurden, dass dies dort kaum mehr möglich war. So instruiert, drehten sich die Erfolgsquoten um. Das zeigt mit Blick auf den Wirkungsmechanismus: Es kommt tatsächlich darauf an, eine persönliche Beziehung zu den Angerufenen herzustellen, was „normalerweise“ freiwilligen Anrufern besser zu gelingen scheint als professionellen Akkord-Anrufern.

Neben dem Medium ist auch der Inhalt der Botschaft inzwischen wieder stärker in den Vordergrund gerückt. Weder im Ausgangsexperiment von Gerber und Green (2000) noch bei Eldersveld (1956) lösten Manipulationen der Botschaft Unterschiede aus. Unabhängig davon, ob auf die Knappheit der Wahl verwiesen oder an die Wahlpflicht appelliert wurde – ein differenzieller Effekt ließ sich nicht nachweisen. Auch viele der neueren Studien deuten in diese Richtung: Nach Panagopoulos (2009b) wirken parteibezogene Aufforderungen in gleichem Maße mobilisierend wie überparteiliche; Arceneaux und Nickerson (2010; s. auch Gerber et al. 2003) finden keine Unterschiede zwischen positiven und negativen Nachrichten.

Diesen Nullergebnissen steht allerdings eine Manipulation der Wähleransprache gegenüber, die sich in den vergangenen Jahren als äußerst wirksam erwiesen hat: soziale Kontrolle. Bemerkenswerterweise ging auch diese Innovation von Gerber und Green aus (Gerber et al. 2008; s. auch Green und Gerber 2010). Dabei machten sie sich den Umstand zunutze, dass die Wahlbeteiligung (auf der Ebene einzelner Wahlberechtigter) in den USA öffentlich einsehbar ist. Wähler daran zu erinnern, dass ihre Wahlbeteiligung öffentlich sichtbar und nachprüfbar ist, vor allem aber ihnen tatsächlich zu zeigen, ob sie (und andere Mitglieder ihres Haushalts) sich an vorangehenden Wahlen beteiligt haben, führt zu einem signifikanten Anstieg der Beteiligung am Wahltag.

Mit dieser Erweiterung sind den Autoren zwei Dinge gelungen, nämlich einerseits eine erneute Initialzündung für einen Forschungsstrang, andererseits eine noch stärkere Rückbindung der Forschung an bestehende Theorien der Wahlbeteiligung, die soziale Normen in den Mittelpunkt stellen. Mittlerweile liegen zahlreiche Experimente vor, die die Rolle von sozialen Normen weiter prüfen: Gerber und Rogers (2009) etwa zeigen im Sinne von descriptive norms, dass ein Hinweis auf eine hohe zu erwartende Wahlbeteiligung wirksamer ist als ein Hinweis auf eine niedrigere Wahlbeteiligung – was im Gegensatz zu Rational-choice-Theorien des Wahlverhaltens steht. Panagopoulos (2010; s. auch Gerber et al. 2010b) weist dagegen nach, dass negative (individuelle) Sanktionen („shaming“) wirksamer sind als positive („pride“). Mann (2010) schließlich kann zeigen, dass es keine Tendenzen zu Abwehrreaktionen gibt, dass also Appelle an soziale Normen (in Verbindung mit den glaubwürdigen Ankündigungen, deren Einhaltung auch zu kontrollieren) keine rebellischen Gegenbewegungen auslösen, die die Wahlbeteiligung potenziell reduzieren würden. Die Integration dieser Social-surveillance-Mechanismen ist dabei durchweg in Theorien der Sozialpsychologie fundiert (s. auch Nickerson und Rogers 2010).

Stärkere Rückbindung an existierende Theorien – wenn auch anderer Art – ist ebenfalls das Kennzeichen der Arbeiten von Nickerson (2008) und Gerber et al. (2009). Nickerson (2008) knüpft an die Forschung zur „sozialen Logik von Politik“ (Zuckerman 2005, 2007) an und prüft in einem überaus eleganten Experiment, inwieweit die gezielte Mobilisierung eines einzelnen Haushaltsmitglieds dazu führt, dass auch andere Mitglieder dieses Haushalts zur Wahl gehen – und findet erstaunlich große Effekte. Gerber et al. (2009) schließlich legen ihren Fokus auf Theorien der Medienwirkung und weisen ihren Probanden zufällig verschiedene Zeitungsabonnements zu – ohne dabei aber auf größere Effekte zu stoßen.15

Bei allen skizzierten Erweiterungen fehlt bislang allerdings eine, die längst überfällig erscheint: Die Forschung ist bislang nahezu ausschließlich auf den amerikanischen Kontext beschränkt (s. aber John und Brannan 2008) – und dies, obwohl amerikanische Studien existieren, die als Blaupausen für Studien außerhalb der USA dienen können. Insgesamt jedenfalls zeigen die vorliegenden amerikanischen Studien auf beeindruckende Art und Weise, wie weit es ein Forschungsfeld innerhalb eines Jahrzehnts mit Hilfe von klugen (Feld-)Experimenten bringen kann.

4 Fazit

Experimente erfreuen sich in der Politikwissenschaft – allen voran im angelsächsischen Raum – wachsender Beliebtheit. Ihre besondere Stärke liegt bei der im Vergleich zu anderen Methoden überragenden internen Validität, weshalb „das Experiment (…) das Verfahren schlechthin (ist), wenn uns an der Entdeckung kausaler Zusammenhänge gelegen ist“ (Behnke et al. 2006, S. 42). McDermott (2002a, S. 32) fasst die Ansatzpunkte und Vorteile experimenteller Forschung pointiert zusammen: „Experimentation can be particularly useful under certain circumstances: when existing methods of inquiry have produced inconsistent or contradictory results; when empirical validation of formal models is required; when investigators want to triangulate in on specific processes that have already been examined in a more general way using other methodologies; and when evidence is needed to support strong causal claims. Experiments can combine with other methods to provide what Campbell described as a ‚fish scale model of omniscience‘, whereby each methodological layer serves to illuminate and support other component parts“.

Gerade diese Kombination – sowohl im Sinne einer Kombination von Experimenten mit anderen Forschungsdesigns als auch im Sinne einer Kombination (von verschiedenen Typen) von Experimenten – ist zunehmend zu beobachten. Im Idealfall lässt sich so eine hohe interne Validität mit einer hohen externen Validität verbinden und ermöglicht echten – kumulativen – Erkenntnisgewinn in der Politikwissenschaft. Die Beispiele, die wir im Rahmen des Beitrags aufgeführt haben, belegen dies eindrucksvoll, angefangen im Bereich der Wahl- und Einstellungsforschung über die Forschung zu Kollektivgütern und kollektivem Handeln, sozialem Vertrauen bis hin zu legislativen Entscheidungen und Verhandlungen. In all diesen Bereichen waren es Experimente, die den wissenschaftlichen Fortschritt – sowohl im Sinne der Theorieentwicklung als auch im Sinne der Auflösung von Widersprüchen bestehender Forschung – entscheidend vorangebracht haben. Vor diesem Hintergrund scheint auch für die deutsche Politikwissenschaft die Zeit reif für einen verstärkten Einsatz von Experimenten – ganz im Sinne des Appells von Kinder und Palfrey (1991): „An Experimental Political Science? Yes, an Experimental Political Science!“.

Fußnoten
1

Druckman et al. (2006) analysieren dabei die ersten 100 Jahrgänge der American Political Science Review. Bis in die 1950er Jahre hinein wurde der Begriff des „Experiments“ dort nahezu ausschließlich im Sinne eines ‚Ausprobierens‘ verwendet. Die ersten Artikel, die selbst auf einem experimentellen Design aufbauten, erschienen Ende der 1950er Jahre; sprunghaft angestiegen ist der Einsatz von Experimenten in den frühen 1990er Jahren.

 
2

Auch jenseits von Publikationen gibt es deutliche Hinweise auf eine Institutionalisierung und Etablierung eines eigenen Forschungsstrangs, der sich experimenteller Methoden bedient. 2011 wird zum vierten Mal eine Konferenz „Experimental Political Science“ am Center for Experimental Social Sciences der New York University stattfinden. Innerhalb der American Political Science Association hat sich kürzlich eine Sektion „Experimental Research“ gegründet.

 
3

Nicht berücksichtigt wurden dabei Buchbesprechungen sowie Artikel, in denen ausschließlich im Literaturverzeichnis das Wort „Experiment“ aufgetreten ist.

 
4

Das bestätigt der Überblicksartikel von Kittel (2009) zum Stand der Methoden in der deutschen Politikwissenschaft: Experimente finden auch dort – mangels Masse – kaum Erwähnung.

 
5

Erste Anzeichen für einen verstärkten Rückgriff auf Experimente gibt es allerdings auch hier: Meffert und Gschwend (2007) haben den Einfluss von Umfragen und Koalitionssignalen in Laborexperimenten untersucht, Huber (2008) analysierte die Einstellungsbildung zu politischen Kandidaten, Klein und Rosar (2009) untersuchten den Einfluss physischer Attraktivität auf das Wahlverhalten, Linhart und Huber (2009) testeten experimentell ein rationales Kalkül in Mehrparteiensystemen, Faas und Schoen (2010) prüften die Wirkung von Framing auf politische Einstellungen, Huber (2010) analysierte die Effekte von Ideologie-Hinweisen in unterschiedlichen Parteiensystemen.

 
6

Eine Ursache dafür ist sicherlich auch die Ausbildung von Politikwissenschaftlern in Deutschland, in deren Rahmen experimentelle Methoden kaum eine Rolle spielen. Zudem durchlaufen Studierende üblicherweise auch keine zusätzliche psychologische (oder ökonomische) Methodenausbildung, in deren Rahmen sie experimentelle Verfahren kennenlernen könnten – anders als an vielen amerikanischen Universitäten (s. auch Kinder und Palfrey 1993; Druckman et al. 2006).

 
7

Die strikte Logik einer Einteilung in verschiedene Experimental- und Kontrollgruppen stellt das Ideal dar, das aber insbesondere von stärker ökonomisch orientierten Experimenten nicht immer erfüllt wird (vgl. Morton und Williams 2010).

 
8

Während bei der expliziten Messung von Einstellungen die Antworten selbst im Fokus des Interesses stehen, stehen bei der impliziten Messung Aspekte des Antwortprozesses im Vordergrund, beispielsweise die Zeit, die ein Befragter benötigt, um eine Antwort zu geben.

 
9

Eine Rolle spielt dabei auch die Art der Kommunikation. Das persönliche Gespräch von Angesicht zu Angesicht hat einen deutlich größeren Effekt als unpersönliche Arten der Kommunikation (Frohlich und Oppenheimer 1998).

 
10

Die Anreizstruktur in diesen Experimenten ist so gewählt, dass sich der abgegebene Betrag vervielfacht und so dem Empfänger ermöglicht, seinerseits wieder etwas zurückzugeben und auf diese Weise das in ihn gesetzte Vertrauen zu belohnen.

 
11

Tatsächlich geben die Versuchspersonen der Metaanalyse von Johnson und Mislin (2008) zufolge im Durchschnitt circa die Hälfte ihres Guthabens ab, und bekamen auch im Durchschnitt wieder so viel zurück, dass sich ihre ursprüngliche Investition gelohnt hat.

 
12

In den zurückliegenden zehn Jahren sind weit über 100 Artikel erschienen, viele davon in den führenden Zeitschriften des Faches. Die Forschung hat mittlerweile ein Ausmaß erreicht, das nur noch mit Hilfe von Metaanalysen überschaubar bleibt (Green und Gerber 2008).

 
13

Da Gosnell die Zuordnung zu Experimental- und Kontrollgruppe nach einer Matching-Logik vornahm, schlägt Gerber (i. E.) vor, weniger von einem Experiment als von einer „controlled intervention“ zu sprechen.

 
14

Inzwischen finden sich mit Blick auf die Mobilisierungsmedien noch Erweiterungen: Addonizio et al. (2007) prüfen (erfolgreich) die Wirksamkeit von „Election Day Festivals“. Panagopoulos (2009a) prüft die Wirksamkeit von „street signs“, Dale und Strauss (2009) diejenige von SMS.

 
15

Neben diesen substanziellen Erweiterungen hat sich im vergangenen Jahrzehnt auch die Methodik der Analyse der Feldexperimente verfeinert. Gerber et al. (2010a) beschäftigen sich mit dem Einsatz von Placebos. Imai (2005) hat verfeinerte Verfahren zur Analyse von Feldexperimenten (samt einer Kontrolle für die Güte der Randomisierung) vorgeschlagen und Arcineaux und Nickerson (2009) sind speziell der Frage nachgegangen, auf welche Probanden die eingesetzten Treatments wirken.

 

Danksagung

Unser Dank gilt Josephine Hörl, Patrick Kraft, Theresa Leimpek und Anne Schäfer, die uns bei Recherchen und der Fertigstellung des Manuskripts unterstützt haben, sowie den Mitgliedern der PVS-Redaktion für hilfreiche Kommentare und Anregungen. Ebenfalls danken möchten wir Jamie Druckman, der uns eine Vorabversion des Cambridge Handbook of Experimental Political Science zur Verfügung gestellt hat.

Copyright information

© VS Verlag für Sozialwissenschaften 2010