1 Einleitung

In Choice-Experimenten (CE) wählen Befragte aus verschiedenen (Handlungs-) Alternativen, so genannten Choice-Sets, die von ihnen am meisten präferierte aus. Indem in diesen Alternativen Merkmale (Attribute) systematisch variiert werden, lässt sich exakt feststellen, welche Bedeutung ihnen für die abgefragten Auswahlentscheidungen zukommt. Ziehen die Variationen der Merkmale entsprechende Variationen der Entscheidungen nach sich?

Damit versuchen CE ähnlich wie das in der Soziologie weitaus bekanntere Verfahren Faktorieller Surveys (FS) die Vorteile von Experimenten und Umfragen miteinander zu verbinden. Wie bei jedem experimentellen Verfahren ist es besser möglich, theoretisch vermutete kausale Einflüsse zu prüfen. Im Vergleich zu einfachen Itemabfragen werden komplexere Stimuli, damit realistischere und plastischere Urteilsaufgaben geboten und im Gegensatz zur klassischen Laborforschung können Hypothesen vielschichtiger auf der Grundlage größerer (Zufalls-)Stichproben in Bevölkerungsumfragen geprüft werden (Beck und Opp 2001; Nisic und Auspurg 2009). Zudem lässt sich der Anwendungsbereich auf bislang nicht existierende, hypothetische (Handlungs-)Alternativen ausweiten, was für die Evaluation geplanter (politischer) Maßnahmen hilfreich ist. Diese Vorteile haben sich in FS bereits bewährt (Wallander 2009). CE sind im Unterschied zu FS aber weitaus direkter auf die Erhebung von Entscheidungen zugeschnitten und stärker an theoretische und statistische Entscheidungsmodelle angebunden. In anderen Disziplinen haben sich CE daher, anders als die dort weitgehend unbekannten FS, als ein Standardverfahren zur Erhebung von (hypothetischen) Entscheidungen etabliert. Insbesondere für die Ermittlung von Präferenzen und Zahlungsbereitschaften für Güter oder Handlungsoptionen, die (noch) nicht auf Märkten gehandelt werden, sind sie einschlägig. Klassische Einsatzgebiete liegen in der Transportwirtschaft (z. B. Hensher 1998) und in der Umwelt- und Gesundheitsökonomik (z. B. Adamowicz et al. 1994; Ryan und Hughes 1997).

Handlungsentscheidungen, die sich nicht auf Marktgüter im engeren Sinne beziehen, stehen aber ebenso in verschiedenen soziologischen Forschungsgebieten im Fokus. Man denke etwa an Bildungsentscheidungen, Entscheidungen über Familiengründungen oder Vertrauensgewährungen. Wie im vorliegenden Beitrag gezeigt werden soll, bieten CE einen vielversprechenden Ansatz zur Prüfung soziologischer Handlungs- und Entscheidungstheorien. Es wird zunächst die Methode in ihren Grundzügen, ihrer Motivation und theoretischen Fundierung erläutert und mit FS kontrastiert (Abschn. 2). Anschließend werden die Erhebungsschritte und Auswertungsverfahren knapp erläutert (Abschn. 3). Das abschließende Resümee (Abschn. 4) weist auf Grenzen der Methodik hin.

2 Motivation, Grundprinzip und theoretische Einbettung

Angenommen, es interessiert, was Personen zu medizinischen Vorsorgeuntersuchungen motiviert. Sind Personen bereit, höhere Gebühren und Wartezeiten in Kauf zu nehmen, wenn sie dafür sicherere Diagnosen erhalten? Gilt dies für alle Bevölkerungsschichten gleichermaßen?

Zur Beantwortung könnte man die Wichtigkeit der einzelnen Aspekte über Items erfragen. Dabei würden sich dann aber vermutlich alle Aspekte als bedeutsam herausstellen. Mit der Alternative eines Rankings ließe sich die Rangfolge feststellen, das exakte Gewicht der einzelnen Entscheidungsmotive bliebe jedoch verborgen. Ökonominnen und Ökonomen würden versuchen, die Präferenzen anhand von prozessproduzierten Daten (etwa von Krankenkassen) zu bestimmen. Damit verbunden ist das Problem, dass es sich in verschiedenster Hinsicht nicht um einen perfekten Markt mit vollständiger Transparenz und unbeschränkten Wettbewerb handelt. So dürften Patienten nur unzulänglich über den genauen Wert einzelner Behandlungsalternativen informiert sein, und Marktpreise sind aufgrund der starken Subventionen imperfekte Signale für den Nutzen von Alternativen. Zudem kann für neu zu planende Produkte per se noch kein Marktverhalten beobachtet werden (Telser 2002, Kap. 2).

Hier setzt die alternative Erhebungsidee von CE an. In einer gesundheitsbezogenen Anwendung könnten die Choice-Sets wie in Abb. 1 aussehen (vgl. die Studie von Ryan et al. 2008). Die Befragten haben sich hier zwischen dem Status quo, der in einem Verzicht auf jeglichen Test besteht, und einer Diagnostik zu entscheiden, die zwei verschiedene Testalternativen umfasst („Test A“ oder „Test B“). Die vorgegebenen Attribute der Wahlmöglichkeiten – hier der unterschiedlichen Tests – sind der Informationsumfang, die Wartezeit bis zur Ergebnisverkündung und die Kosten. Die Ausprägungen (Levels) dieser Attribute werden über die Alternativen hinweg variiert (vgl. Tab. 1, für die Status-quo-Option nehmen sie stets den Wert Null an). In den Auswertungen lässt sich dann herausfinden, welches Gewicht den einzelnen Attributen in der Entscheidung zukommt. Konkret ist ermittelbar, unter welchen Bedingungen die Befragten überhaupt zu einem Test bereits sind, inwieweit sie willig sind, für sicherere und umfangreichere Tests längere Wartezeiten in Kauf zu nehmen, oder auch wie viel ihnen eine Verkürzung der Wartezeit in Geldeinheiten Wert ist. Es lassen sich die exakten Abwägungen oder Trade-offs bestimmen.Footnote 1 Zusätzlich ist feststellbar, ob diese Parameter zwischen Befragtengruppen variieren.

Abb. 1
figure 1

Beispiel eines Choice-Sets aus einer Umfrage zur Pränatalen Diagnostik

Tab. 1 Attribute und Ausprägungen

Damit weist die Methodik eine hohe Ähnlichkeit zu FS auf. Auch hier werden den Befragten Beschreibungen vorgelegt, die experimentell in ihren Merkmalen variieren (Beck und Opp 2001). Die zwei wesentlichen Unterschiede sind, dass (1) in FS die zu beurteilenden Alternativen (Vignetten) den Befragten sequenziell und nicht simultan wie in den Choice-Sets vorgelegt werden und (2) die Befragten dort die Alternativen jeweils für sich auf Ratingskalen beurteilen. Bei einer Umsetzung unseres Beispiels mit einem FS würden die Befragten also nacheinander für einzelne Testbeschreibungen das Ausmaß ihrer Attraktivität oder die Wahrscheinlichkeit ihrer Wahl auf Ratingskalen beurteilen. Eine derartige Bewertung einzelner Situationen dürfte deutlich schlechter mit realen Entscheidungen korrespondieren, in denen üblicherweise Alternativen direkt gegeneinander abgewogen werden. Damit erscheint das Antwortformat von FS zumindest für die Messung von Auswahlentscheidungen grundsätzlich weniger geeignet als das von CE. Für die Erhebung von sequenziellen Entscheidungen bleibt abzuwarten, welche Methode valider misst.Footnote 2 Zumindest gibt es aber bereits Belege, dass den Befragten explizite Bewertungen einzelner Alternativen schwerer fallen als indirekte Abfragen über Auswahlentscheidungen oder Rankings (Melles 2001, S. 66; Louviere 2006, S. 184). Zudem ist die enge Verbindung zwischen den zu messenden Entscheidungen und dem Erhebungsformat von CE, anders als bei FS, theoretisch begründet.

2.1 Theoretische Fundierung

Die Methode der CE leitet sich aus der Characteristics Theory of Value (CTV, im Wesentlichen Lancaster 1966) sowie der Random Utility Theory ab (RUT, McFadden 1974; Manski 1977; für eine tiefergehende Diskussion: Louviere et al. 2000). Die Kernidee der CTV ist vermeintlich einfach: Nicht ein Gut stiftet per se Nutzen, sondern seine Attribute. Damit eröffnet sich der Blick auf die einzelnen Eigenschaften von Gütern oder Handlungsalternativen. Die RUT geht davon aus, dass der Nutzen von Alternativen ein latentes Konstrukt ist, das (wenn überhaupt) in den Köpfen von Personen existiert.Footnote 3 In Form einer indirekten Messung sei es aber prinzipiell möglich, einen signifikanten Anteil des Nutzens zu erklären. Hinzu kommt stets eine unerklärte Komponente, die durch unbeobachtete zusätzliche Attribute, Messfehler oder interindividuelle Varianz bedingt sein kann (vgl. hierzu und dem Folgenden v. a. Amaya-Amaya et al. 2008, S. 15; Louviere et al. 2000). Formal:

$$ {U_{an}}={V_{an}}+{\varepsilon _{an}}. $$
(1)

U an entspricht dem latenten, nicht beobachtbaren Nutzen der Wahloption a für Person n. V an ist die systematische oder beobachtbare Komponente und e an der unerklärte Anteil. Einfache Umformungen führen zusammen mit der Grundannahme, dass Personen die Alternative mit dem höchsten Nutzen wählen, zu folgender Formalisierung der Auswahlwahrscheinlichkeit von Option a statt j aus dem Choice-Set C n :

$$ P(a|{C_n})=P[({V_{an}}+{\varepsilon _{an}})>({V_{jn}}+{\varepsilon _{jn}})]=P[({V_{an}}-{V_{jn}})>({\varepsilon _{jn}}-{\varepsilon _{an}})]. $$
(2)

Die Wahrscheinlichkeit von Person n, die Option a aus dem Choice-Set C n zu wählen, ist gleich der Wahrscheinlichkeit, dass die Summe aus systematischer und willkürlicher Komponente dieser Option für sie größer ist als die entsprechende Summe für die Option j. Der erklärte Teil wird nun, gemäß der Idee von Lancaster, als additive Funktion der einzelnen Attribute X an der Wahloption aufgefasst:

$$ {U_{an}}=V({X_{an}})+{\varepsilon _{an}}={\beta _a}+{X_{an}}{\beta _n}+{\varepsilon _{an}}. $$
(3)

Je nach Annahme über die Verteilung von (e jn  − e an ) in Gleichung (2) resultieren dann Logit- oder Probit-Modelle, um die Einflussgewichte b n der einzelnen Attribute zu schätzen. In dieser Spezifizierung gilt: Je höher die Ausprägung einer wünschenswerten Eigenschaft ist, desto größer ist der Nutzen dieser Alternative und desto eher wird diese Alternative gewählt.

Wenngleich die theoretische Herkunft der CE eine andere ist, wird speziell mit Gleichung (3) die Nähe zu soziologischen Handlungs- und Entscheidungstheorien offensichtlich. Auch in diesen wird üblicherweise angenommen, dass sich der Nutzen einer Alternative additiv zusammensetzt, sich etwa der Nutzen von Weiterbildung aus der erwarteten Bildungsrendite abzüglich den zu erbringenden Investitionen bestimmt, und dass dieses (latente) Nutzenkalkül die getroffenen Entscheidungen erklärt. CE bedingen durch ihren theoretischen Hintergrund eine engere Verzahnung von Theorie und Empirie, als dies bei herkömmlichen Itembatterien oder FS der Fall ist. Denn Anwender von FS beschränken sich in der Regel auf eine theoretische Ableitung der relevanten Urteils- oder Entscheidungsfaktoren (z. B. Kosten und Nutzen), ohne ihre Verbindung zu den Antworten explizit zu formalisieren. Es wird lediglich postuliert, dass Kosten (Nutzen) die Attraktivität von Alternativen reduzieren (erhöhen), ohne aber das Erhebungsformat und Auswertungsmodell näher theoretisch zu begründen.

3 Durchführung

Es sollen nochmals die zentralen Bestandteile von CE erinnert werden: Die Befragten erhalten Choice-Sets, also tabellarisch gegenüber gestellte Alternativen, aus denen sie die meist präferierte auswählen sollen. Die Alternativen setzen sich aus verschiedenen Attributen zusammen, die in ihren Ausprägungen oder Levels variieren. Gängig ist es überdies, den einzelnen Befragten mehrere Choice-Sets zu präsentieren und dazu mit unterschiedlichen Fragebogenversionen oder Blöcken zu arbeiten.

3.1 Spezifikation der Choice-Sets

Zunächst ist zu überlegen, welche und wie viele Alternativen den Befragten in einem gemeinsamen Choice-Set vorgelegt werden (Amaya-Amaya et al. 2008; Liebe 2007; Louviere et al. 2000 zum Folgenden). Die Alternativen können mit inhaltlichen (z. B. „einfacher Test“, „umfangreicher Test“, sogenannte labeled alternatives) oder allgemeinen Labels überschrieben werden (z. B. „Test A“, „Test B“, sogenannte generic alternatives). In beiden Varianten ist es möglich, eine Alternative mit dem Status-quo zu besetzen, der über die Choice-Sets hinweg konstant bleibt und die derzeitige Situation beschreibt („kein Test“). Die Berücksichtigung einer Status-quo- oder Opt-out-Alternative wird aufgrund der stärkeren Realitätsnähe empfohlen und um keine ungewollten Entscheidungen zu erzwingen. Was die Anzahl der Alternativen betrifft, liegen gute Erfahrungen mit bis zu vier Optionen vor. Unser Beispiel in Abb. 1 beinhaltet drei generische Alternativen, wobei die dritte Alternative, „kein Test“, den Status-quo darstellt.

Als nächstes sind die Attribute festzulegen. Dies geht Hand in Hand mit einer Spezifikation des unterstellten Nutzenmodells und erfolgt damit in sozialwissenschaftlichen Anwendungen theoriegeleitet. Als empirisch bewährte Orientierungsgröße gelten fünf bis maximal neun Attribute. Unser Beispiel in Abb. 1 umfasst drei Attribute („Informationen“, „Wartezeit“ und „Kosten“).

Nachdem die Attribute bestimmt wurden, steht die Festlegung ihrer Levels an. Für die Modellierung nicht-linearer Zusammenhänge sind mindestens drei Levels erforderlich. Mehr sollten es nur im Ausnahmefall sein (wie im Beispiel beim Preisattribut). Zudem sollte auf eine zahlenmäßige Ausgewogenheit der Levels geachtet werden, um nicht einzelnen Attributen überproportionales Gewicht zu verleihen (Wittink et al. 1982). Einsetzbar sind sowohl quantitative Levels (z. B. Wartezeit in Tagen) als auch qualitative („kurze“, „lange“ Wartezeit). Statistisch vorzuziehen sind erstere, denn sie implizieren weniger zu schätzende Parameter. In jedem Fall sollten die Attribute genau beschrieben werden und die Ausprägungen realistisch sein. Zur Beschreibung können auch einleitende Informationen oder eine grafische Darstellung durch Symbole und Bilder verwendet werden.

3.2 Festlegung des experimentellen Designs

Anschließend ist die konkrete Zusammenstellung der Choice-Sets und Alternativen vorzunehmen. Das Universum aller möglichen Kombinationen, das so genannte volle faktorielle Design (full factorial), bildet sich durch Kreuzung aller Levels und Alternativen. In unserem Beispiel ergeben sich bei zwei Attributen à vier Levels und einem Attribut à zwei Levels 4 × 4 × 2 = 32 mögliche Kombinationen für die Bildung einzelner Alternativen. Zudem besteht jedes Choice-Set aus zwei variablen Alternativen. Damit ergeben sich insgesamt (4 × 4 × 2)TestA × (4 × 4 × 2)TestB =1024 mögliche Choice-Sets (wobei hier inhaltlich unsinnige Kombinationen noch zugelassen sind). Der Umfang des full factorial steigt exponenziell mit der Anzahl an Levels an, was die eben ausgesprochene Empfehlung von sparsamen Anzahlen erklärt. In der Regel ist es dennoch nicht praktikabel, den Befragten alle Choice-Sets vorzulegen. Es wird daher mit einer Auswahl, einem fractional factorial gearbeitet.

Durch Auswahlen kommt es unvermeidlich zu Korrelationen oder Konfundierungen von Attributen. Um damit verbundene Qualitätseinbußen gering zu halten (Korrelationen verringern die Genauigkeit, mit der sich separate Einflüsse der einzelnen Attribute schätzen lassen), sollte unbedingt eine bewusste Selektion vorgenommen werden (Steiner und Atzmüller 2006). Als besonders vorteilhaft gelten fraktionalisierte Designs, welche folgende vier Aspekte optimieren (Huber und Zwerina 1996): (1) die maximale Unkorreliertheit der Attribute (orthogonality), (2) die zahlenmäßige Ausgewogenheit ihrer Ausprägungen (level balance), (3) die minimale Überschneidung der Ausprägungen in einem gemeinsamen Choice-Set (minimal overlap), und (4) möglichst gleich aufliegende Nutzenwerte der Alternativen eines Choice-Sets (utility balance). Alle vier Kriterien erhöhen den Informationsgehalt, indem sie die unabhängige Varianz der Attribute maximieren und die Befragten zu stärkeren Abwägungen zwingen.

Für die Zusammenstellung solcher fractional factorials gibt es vorgefertigte Experimentalpläne (Street und Burgess 2007). Alternativ einsetzbare Computeralgorithmen eröffnen höhere Gestaltungsspielräume, weil sich etwa unlogische Kombinationen und interessierende Wechselwirkungen von Attributen gezielt berücksichtigen lassen. Sie sind mit hoher Güte mit den als „Free-Ware“ beziehbaren Zusatzmakros von Warren Kuhfeld zur Statistik-Software SAS umsetzbar (Kuhfeld 2009).Footnote 4 Ideale Stichprobenumfänge lassen sich ebenfalls mit diesen Algorithmen ermitteln. Etwa 100 Choice-Sets bilden eine erste Richtgröße.

Als nächstes sind die ausgewählten Choice-Sets zu Blöcken zu gruppieren, welche dann einzelnen Befragten vorgelegt werden. Der Hauptgrund für die Verwendung von mehreren Choice-Sets pro Befragten sind Einsparungen an Befragungsaufwand und Kosten, da bereits mit verhältnismäßig wenigen Befragten hinreichende Fallzahlen für multivariate Auswertungen erzielt werden. Die komplette Auswahl von Choice-Sets ist aber, selbst wenn sie bereits durch ein fraktionalisiertes Design reduziert wurde, in der Regel immer noch zu umfangreich für einzelne Befragte. Die praktische Lösung besteht in der Bildung unterschiedlicher Fragebogenversionen bzw. Blöcke. Wie viele Blöcke angefertigt werden, ist abhängig von der anvisierten Anzahl an Entscheidungen, Befragten und Choice-Sets. Ein oftmals zu findender Richtwert liegt bei 50 Befragten pro Block (Bennett und Adamowicz 2001, S. 59). Speziell bei homogenen Befragtensamples erscheinen aber bereits fünf Befragte aufwärts hinreichend.Footnote 5 Zu beachten ist, dass bei durchschnittlich komplexen Alternativen (7 ± 2 Attribute) ab etwa dem zehnten Set mit Lern- und Ermüdungserscheinungen zu rechnen ist (Bradley und Daly 1994, S. 180; Caussade et al. 2005, S. 631 f.). Wurde die Entscheidung über die Größe der Blöcke getroffen, bedarf es einer Technik zu ihrer Zusammenstellung. Hierzu können wiederum die genannten Computer-Algorithmen genutzt werden. Abbildung 2 fasst die bis hierhin durchzuführenden Schritte und Kalkulationen der Fallzahlen nochmals zusammen; es handelt sich um Richtlinien, die für den Einzelfall anzupassen sind (z. B. anhand von Vorstudien).

Abb. 2
figure 2

Ablaufschritte und Fallzahlen

3.3 Datenerhebung

Als Befragungsmodus kommen eine persönliche (face-to-face), schriftliche (paper-and-pencil) oder Online-Erhebung in Betracht. Bei einer Vorabzusendung der Unterlagen kann zudem telefonisch befragt werden. Programmierungen der Fragebögen haben den Vorteil, dass zufällige Abfolgen der Choice-Sets, die Reihenfolge- oder Halo-Effekten vorbeugen (Bradley und Daly 1994), einfach zu implementieren sind. Unerlässlich ist in jedem Falle eine zufällige Verteilung der Blöcke auf Befragte, da nur so der experimentelle Charakter (Unabhängigkeit von Befragtenmerkmalen und experimentellen Stimuli) gesichert ist. Diese Randomisierung kann durch eine entsprechende Programmierung oder zufällige Mischung von Papier-Fragebögen erreicht werden.

Die Aufgabe der Befragten ist es dann, pro Choice-Set die von ihnen am meisten präferierte Alternative auszuwählen. Sinnvoll ist es, zusätzlich soziodemografische Merkmale, themenspezifische Einstellungen etc. zu erfragen.

4 Datenauswertung

4.1 Datenstruktur

Einen Auszug aus der Datenmatrix für unser Medizin-Beispiel zeigt Tab. 2. Jede gewählte und nicht gewählte Alternative (hier Variable „Alt“) eines Choice-Sets erhält im Datensatz eine Zeile, in der neben der Entscheidung der Befragten (gewählt versus nicht-gewählt, hier Variable „Wahl“) ebenfalls die einzelnen Ausprägungen der Attribute (hier z. B. die Variable „Zeit“ für Wartezeit) und soziodemografische sowie andere Merkmale der Befragten (hier z. B. Alter) enthalten sind.Footnote 6 Es liegt ein Datensatz mit drei Ebenen vor, bei dem die unterste Ebene die Auswahlentscheidungen bilden, die mittlere die Choice-Sets und die oberste die einzelnen Befragten. Haben beispielsweise 300 Befragte jeweils sechs Choice-Sets mit drei Alternativen bewertet, dann ergeben sich 300 ´ 6 ´ 3 = 5400 Datenzeilen.

Tab. 2 Auszug aus der Datenmatrix

4.2 Auswertungsverfahren

Für die Auswertung von CE können Standard-Verfahren zur Analyse diskreter Entscheidungen genutzt werden (z. B. Maier und Weiss 1990). Handelt es sich um lediglich zwei Alternativen in den Choice-Sets, sind binäre Logit- oder Probit-Modelle gängig, bei höheren Anzahlen an Alternativen konditionale Logit-Modelle (KL, Louviere et al. 2000, S. 13). KL modellieren den Einfluss von Attributen, die zwischen Alternativen variieren, auf die Auswahlwahrscheinlichkeit von Alternativen – und dies unabhängig davon, um welche Alternative es sich handelt. In unserem Anwendungsbeispiel würde also beispielsweise ermittelt, welchen Effekt die Wartezeit auf die Auswahlwahrscheinlichkeit einer Behandlungsform hat, unabhängig davon ob es sich nun um „Test A“, „Test B“ oder „keinen Test“ handelt. KL-Modelle bieten eine hohe Übersichtlichkeit der Ergebnisse, bezahlen diese aber mit den oftmals unrealistischen Annahmen, dass die Einflüsse unabhängig von den konkreten Alternativen sind und eine Unabhängigkeit von irrelevanten Alternativen besteht (Independence of Irrelevant Alternatives, IIA; McFadden 1974, S. 109; Long und Freese 2006) – also das Verhältnis der Auswahlwahrscheinlichkeit von zwei Alternativen unabhängig vom Auftreten anderer Alternativen ist. Dies ist speziell dann unrealistisch, wenn sich einzelne Alternativen in einem Choice-Set grundsätzlich stärker ähneln als die übrigen. In solchen Fällen ist es oftmals schlüssiger, explizit von einer sequenziellen Struktur des Entscheidungsverhaltens auszugehen (etwa zunächst Entscheidung für einen medizinischen Test ja/nein, und erst anschließend Wahl zwischen verschiedenen Testmöglichkeiten). Solche Entscheidungsstrukturen bilden Nested-Logit-Modelle ab. Flexibilität zur Umgehung der IIA- und weiterer Annahmen bieten zudem komplexere Logit-Modellierungen, die auch den Panelcharakter der Daten, also mehrere Bewertungen pro Befragten, berücksichtigen (z. B. mixed-Logit-Modelle; Hensher et al. 2005; Louviere et al. 2000; detailliert Long und Freese 2006). Letzeres ermöglicht korrekte Schätzungen trotz Verletzung der Unabhängigkeitsannahme (die einzelnen Befragten nehmen mehrere Bewertungen vor, weshalb die einzelnen Urteile nicht unabhängig voneinander sind).

Es empfiehlt sich die Aufnahme sogenannter alternativenspezifischer Konstanten. Sie dienen als Platzhalter für systematische Einflüsse der einzelnen Alternativen, die (noch) nicht adäquat modelliert sind. Oftmals ist beispielsweise eine starke Tendenz zum Status-quo zu beobachten, die sich nicht allein über die Attribute erklären lässt. Die Konstanten werden als Dummy-Variablen gebildet, die immer den Wert Eins annehmen, falls die jeweilige Handlungsalternative vorliegt (z. B. Test A), ansonsten den Wert Null. Bei j Handlungsalternativen können j – 1 Konstanten in das Auswertungsmodell aufgenommen werden. In unserer Beispiel-Datenmatrix in Tab. 2 bilden Alt1, Alt2 und Alt0 solche alternativenspezifischen Konstanten. Falls sich Handlungsalternativen stark ähneln, ist es oft zweckmäßig, ihnen eine identische Konstante zuzuordnen. Eine Besonderheit von Regressionsmodellen für diskrete Entscheidungen ist zudem, dass Befragtenmerkmale nicht direkt als Variablen einbezogen werden können. Sie gehen über Interaktionsterme mit den Attributen oder mit den alternativenspezifischen Konstanten in die Auswertungsmodelle ein. Signifikante Interaktionen mit den alternativenspezifischen Konstanten bedeuten, dass Befragtengruppen grundsätzlich eine verschieden starke Präferenz für einzelne Alternativen aufweisen; signifikante Interaktionen mit Attributen zeigen dagegen an, dass einzelnen Attributen eine unterschiedliche Bedeutung zugemessen wird.Footnote 7

Eine Besonderheit bilden zudem Kennziffern wie die bereits häufiger angesprochenen Trade-offs. Einfache Umformungen des RUT-Modells verdeutlichen (s. Abschn. 2), dass sich implizite Preise oder Teilnutzenwerte (TNW; part-worth) nicht-monetärer Attribute k durch Gewichtung ihres Koeffizienten β k mit dem Koeffizientenwert eines monetären Attributs β m bestimmen lassen (multipliziert mit -1):

$$ {\rm{TNW=}}-\displaystyle\frac{{\beta _k}}{{\beta _m}} $$

So wäre in unserem Beispiel berechenbar, wie hoch die mittlere Zahlungsbereitschaft für eine eintägige Verkürzung der Wartezeit ist (β k würde in diesem Falle den Koeffizienten der in Tagen gemessenen Wartezeit darstellen; β m den Koeffizienten für die Kosten des Tests). Ähnlich lassen sich weitere anschauliche Kenngrößen ermitteln, wie die für bestimmte Produkte zu erwartenden Marktanteile oder Wohlfahrtsmaße, welche den gesellschaftlichen „Gewinn“ von (Politik-)Maßnahmen beziffern (ausführlich Bennett und Adamowicz 2001).

5 Diskussion und Resümee

CE können den Erkenntnisfortschritt immer dann anreichern, wenn Entscheidungen zwischen diskreten Alternativen interessieren. Das Verfahren liefert tiefgehende Informationen zum Gewicht einzelner Entscheidungsfaktoren und eignet sich somit für die gezielte Prüfung von (soziologischen) Handlungs- und Entscheidungstheorien. Im Vergleich zu FS bestechen CE durch eine stringentere theoretische Fundierung und stärkere Korrespondenz zwischen den interessierenden Entscheidungen und Antwortformaten.

Gleichwohl sind auch Nachteile zu diskutieren. Zu diesen zählt die vergleichsweise komplexe Urteilsaufgabe. Bekannte Folgen von kognitiven Überforderungen sind geringere Konsistenzen des Antwortverhaltens, der Rückgriff auf Entscheidungsheuristiken (z. B. Ausblendung einzelner Merkmale), vermehrte Wahlen der Status-quo-Option oder völlige Antwortverweigerungen (Auspurg et al. 2009; Deshazo und Fermo 2002; Hensher et al. 2005; Meyerhoff und Liebe 2009; Swait und Adamowicz 2001). Derartige Effekte sind jedoch durch Einhaltung der oben genannten methodischen Richtlinien gering zu halten (Hensher 2006). Heuristiken sind zudem nicht notwendig methodische Artefakte; sie können im Gegenteil mit entsprechenden Strategien bei realen Entscheidungen korrespondieren (Gigerenzer und Todd 1999). Gleichwohl sollten Ergebnisse wie Zahlungsbereitschaften sicher nicht „auf den Cent“ genau ausgelegt werden.

Der Hauptkritikpunkt an CE bezieht sich sicher aber darauf, dass lediglich hypothetische und keine realen Entscheidungen erfasst werden. Eine mangelnde externe Validität wird insbesondere Anreizen zu sozialer Erwünschtheit und einem strategischen Antwortverhalten zugeschrieben (Liebe 2007, S. 134). Die indirekte Bewertungsmethode der Choice-Sets gilt jedoch zumindest als immuner gegenüber solchen Effekten als direkte Abfragen von Präferenzen (Louviere et al. 2000, S. 351 f.). Zudem können CE von einer, gegenüber FS wesentlich ausgereifteren, Methodenforschung profitieren. Die Ergebnisse zur externen Validität weisen insgesamt auf eine erstaunlich hohe Übereinstimmung der hypothetischen mit realen Entscheidungen hin, und dies selbst bei stark sozial erwünschten Verhaltensweisen wie der Bereitschaft, Aufpreise für ökologische Produkte zu zahlen (Blamey und Bennett 2001; Carlsson und Martinsson 2001; Louviere et al. 2000; Louviere und Timmermanns 1992; Telser und Zweifel 2007).

Die recht aufwendige Erstellung der Choice-Sets dürfte sich auf der Erhebungsseite in der Regel durch einen vergleichsweise geringen Aufwand auszahlen. So lassen sich bereits mit wenigen Befragten aussagekräftige Fallzahlen für multivariate Analysen erzielen, und es entfällt eine groß angelegte Suche nach Spezialpopulationen, wenn seltene Entscheidungen, wie etwa Entscheidungen über berufliche Fernumzüge interessieren (hierzu existiert bereits eine Pilotstudie der Autoren). Die Anforderung, ein exaktes Nutzenmodell aufzustellen, diszipliniert den Forscher, seine Hypothesen vorab genau zu spezifizieren. Im Sinne eines effizienten Erkenntnisgewinns und Umsetzung einer analytischen Soziologie (Hedström 2005) ist dies als weiterer Vorteil zu werten. Die mit CE gewonnenen Daten ersetzten zwar nicht reale Beobachtungen, sie bieten aber im Rahmen einer kumulativen Forschungsstrategie eine sinnvolle Ergänzungsmöglichkeit.