1 Einleitung

Die COVID-19 Pandemie hat den langjährigen Trend, sozialwissenschaftliche Befragungen zunehmend im Onlinemodus durchzuführen, noch weiter verstärkt. Einerseits wurden in der Pandemie Face-to-Face Befragungen im Sinne von Kontaktbeschränkungen vermieden, andererseits wurde versucht, durch Online-Befragungen zeitnah Erkenntnisse über Entwicklungen während der Pandemie zu erhalten. Der Onlinemodus wird nicht zuletzt aus Kostengründen immer häufiger eingesetzt und mit anderen Befragungsmodi kombiniert. Durch Mixed-Mode Designs wird versucht, Selektionseffekte unterschiedlicher Befragungsmodi auszugleichen. Im Onlinemodus fällt jedoch die direkte Interaktion zwischen Interviewer*innen und Befragten weg, womit sich die methodische Frage stellt, ob und wie sich der Befragungsmodus auf das Antwortverhalten auswirkt. Unterscheiden sich die Ergebnisse von Online-Befragungen von jenen, die von Interviewer*innen durchgeführt werden?

Die Abwesenheit eine*r Interviewer*in bei Online-Befragungen kann bei Fragen, die dazu verleiten sozial erwünschte Antworten zu geben, gewährleisten, dass Befragte ehrlicher antworten; umgekehrt kann das selbständige Ausfüllen von Online-Umfragen aber auch dazu führen, dass Fragen nicht richtig verstanden oder mit minimalem kognitiven Aufwand beantwortet werden (z. B. schnelles ‚Durchklicken‘, Antworttendenzen zur Mitte oder zu den Rändern von Antwortskalen, cf. Mühlböck et al. 2017). Moduseffekte dieser Art, welche über die unterschiedliche Zusammensetzung von Stichproben je nach Modus hinausgehen, sind Gegenstand der vorliegenden Untersuchung. Wir vergleichen die beiden Befragungsmodi des AKCOVID Panel Surveys (Steiber 2021): computerunterstützte Telefoninterviews (CATI) und computerunterstützte Webinterviews (CAWI).

Nachdem wir in den Abschn. 2 und 3 den Stand der Forschung und das Design der Studie erörtern, legen wir in den Abschn. 4.1–4.3 die Effekte der beiden Befragungsmodi auf das Antwortverhalten dar. In Abschn. 4.4 illustrieren wir anhand eines Beispiels, dass Befragungen auf Basis unterschiedlicher Modi nicht vergleichbar sind, und diskutieren die Bedeutung von heterogenen Moduseffekten in verschiedenen Bevölkerungsgruppen.

2 Stand der Forschung: Moduseffekte in der Umfrageforschung

Die Befundlage zu Moduseffekten ist durchwachsen. Manche Studien kommen zum Schluss, dass Befragungen auf Basis unterschiedlicher Befragungsmodi niemals zu vergleichbaren Ergebnissen führen, weil sich der Modus der Befragung signifikant auf das Antwortverhalten auswirkt – ganz unabhängig vom Thema der Untersuchung, der Art und der ‚normativen Aufladung‘ der Fragestellung (Klausch et al. 2013). Andere Studienautor*innen vertreten die Ansicht, dass CATI und CAWI meist doch sehr ähnliche Ergebnisse liefern und nur geringe Unterschiede im Antwortverhalten festgestellt werden können (Vannieuwenhuyze und Revilla 2013, S. 164; Ansolabehere und Schaffner 2014). Eine dritte Gruppe von Studien zeigt, dass Moduseffekte unter bestimmten Umständen und bei bestimmten Gruppen stärker zu Tage treten und zielt darauf ab, genuine Messeffekte von Selektionseffekten zu unterscheiden (Schouten et al. 2013; Vannieuwenhuyze und Loosveldt 2013).

2.1 Selektionseffekte

Vergleicht man die Ergebnisse von Online-Befragungen mit jenen von persönlichen Interviews, können etwaige Unterschiede im Antwortverhalten teils darauf zurückgeführt werden, dass sich die Stichproben der beiden Befragungsmodi voneinander unterscheiden können (Selektionseffekte). In vielen Mixed-Mode Designs wird eine Online-Stichprobe um eine Telefonstichprobe ergänzt, in der Hoffnung, die Repräsentativität der Gesamtstichprobe auf diesem Weg zu optimieren. Dabei werden meist spezifische Gruppen – wie etwa ältere Personen – bei den Telefoninterviews überrepräsentiert, weil man davon ausgeht, dass diese mittels Onlinebefragung weniger gut abgedeckt werden können. In manchen Studien gibt es gar eine strikte Trennung zwischen den Modi in Bezug auf die befragten Altersgruppen (z. B. der IHS COVID-19 Survey, cf. Grand 2021). Doch auch wenn unterschiedliche Zusammensetzungen der Telefon- und Online-Stichproben nicht intendiert sind, kann nicht ausgeschlossen werden, dass sich die beiden Gruppen anhand von Eigenschaften voneinander unterscheiden, die sich auf das Antwortverhalten auswirken (z. B. Lesekompetenz, digitale Kompetenz, politisches Interesse).

Erfolgt bei CATI oft eine einfache Zufallsauswahl der Befragten (z. B. RDD-Random Digit Dialing), kommen bei Online-Befragungen in der Praxis v. a. aus Kostengründen häufig große Online-Access PanelsFootnote 1 zur Anwendung (z. B. Austrian Corona Panel Project (Kittel et al. 2021), Values in Crisis Austria (Aschauer et al. 2020) sowie auch der CAWI-Teil des AKCOVID Panel Surveys (Steiber 2021)). Für Befragungen auf Basis von Online-Access Panels werden Respondent*innen nicht auf Basis einer Zufallsauswahl rekrutiert, sondern sind bereits in einem Pool an Personen, die sich studienunabhängig bereiterklärt haben, an Online-Umfragen teilzunehmen. Aus diesem Pool werden Personen ohne Onlinezugang klarerweise ausgeschlossen, während webaffine Personen mit überdurchschnittlich hoher Lesekompetenz bzw. stärkerem politischen Interesse überrepräsentiert sind (Prandner 2022, S. 337). Es besteht das zentrale methodische Problem der Selbstselektion in den Pool der möglichen Befragten. Dies kann die Repräsentativität von Teilstichproben aus diesem Pool gefährden.

Über reine Selektionseffekte hinausgehend – bzw. unter Kontrolle der Zusammensetzung der Stichproben unterschiedlicher Befragungsmodi – können Unterschiede im Antwortverhalten je nach Befragungsmodus auch durch genuine Messeffekte bedingt sein. Diese Messeffekte stehen im Zentrum der gegenständlichen Analyse.

2.2 Effekte auf die Item-Non-Response

Messeffekte können durch verschiedene Muster der Antwortverweigerung (Non-Response) entstehen oder durch unterschiedliche Antwortmuster bedingt sein (De Leeuw und Hox 2015, S. 22–34). Befragte tendieren am Telefon beispielsweise eher dazu, die letzte Antwortoption zu wählen, während bei Webinterviews eher die erste gewählt wird, v. a. dann, wenn nur die Endpunkte einer Skala beschriftet sind. Weiters wird berichtet, dass die Option „weiß nicht“ bei CAWI signifikant häufiger gewählt wird als dies bei CATI der Fall ist (De Leeuw und Hox 2015; Bowyer und Rogowski 2017). Das kann bei einem Teil der Befragten ein Problem sein, wenn diese die Befragung mit einem minimalen zeitlichen und kognitiven Aufwand beenden wollen (Callegaro et al. 2015, S. 102). Zudem kann die soziale Situation einer persönlichen Befragung dazu verleiten, Antworten zu geben, auch wenn Befragte keine eindeutige Antwort auf die Frage haben (Atteslander 2008, S. 110–111; Peytchev und Hill 2010). Dieser Argumentation folgend sollten die Non-Response-Raten bei CAWI höher ausfallen als bei CATI (Hypothese 1a).

Umgekehrt wurde argumentiert, dass die Item-Non-Response bei persönlichen Interviews höher ausfallen könnte als bei Online-Befragungen und zwar bei sensitiven Fragestellungen. Manche Fragen werden als zu privat oder aufdringlich empfunden, wie etwa Fragen zu Einkommen oder Partnerschaft und werden deswegen weniger gerne beantwortet (Tourangeau und Yan 2007). Die Rate der Antwortverweigerung auf sensitive Fragen kann dabei bei persönlichen Interviews besonders hoch ausfallen, während die Abwesenheit von Interviewer*innen bei CAWI dazu führen kann, dass mehr Befragte sensitive Fragen beantworten und damit die Rate der Antwortverweigerung niedriger ausfällt (Joinson et al. 2007; Kreuter et al. 2008). Dieser Argumentation folgend sollten die Non-Response-Raten bei sensitiven Fragen generell höher ausfallen und man würde hier stärkere Moduseffekte zugunsten geringerer Non-Response bei CAWI als bei CATI erwarten (Hypothese 1b). Im AKCOVID Panel Survey können Fragen in den Frageblöcken Soziale Beziehungen und Finanzielle Lage als sensitive private Fragen identifiziert werden, bei denen wir im CAWI-Modus weniger Non-Response erwarten.

2.3 Soziale Erwünschtheit

Messeffekte können auch durch sozial erwünschtes Antwortverhalten bedingt sein. Befragte tendieren dazu, in ihren Antworten sozial normierten Erwartungen entsprechen zu wollen (Tourangeau und Smith 1996; Joinson et al. 2007; Kreuter et al. 2008; Malakhoff und Jans 2011). Sozial erwünschtes Antwortverhalten tritt dann verstärkt auf, wenn es um Einstellungen und Verhaltensweisen geht, die stärker durch soziale Normen geregelt werden. Ein gutes Beispiel für einen Themenbereich, in dem soziale Erwünschtheit das Antwortverhalten beeinflusst, sind Fragen zu kriminellem Verhalten. Diese werden häufig sozial erwünscht beantwortet, da hier explizit ein Normbruch thematisiert wird. Es gibt aber auch bei scheinbar weniger sensiblen Fragen die Tendenz, sich selbst positiv darzustellen. Beispielsweise werden Fragen zum persönlichen Wohlbefinden häufig den sozialen Erwartungen entsprechend beantwortet (Reinecke 1991, S. 105) – klassische Antwort: „Mir geht’s gut!“.

Während es bei zu aufdringlichen Fragen zu privaten Lebensbereichen wahrscheinlich eher als legitim empfunden wird, die Antwort zu verweigern (Non-Response, siehe Abschn. 2.2), kann die Verweigerung einer Antwort auch ein Gefühl der Selbstentlarvung hervorrufen. Beispielsweise könnten Befragte die Sorge haben, dass die Nichtbeantwortung von Fragen zum Thema Kriminalität implizit als Indikator für ein bestimmtes Verhalten gewertet werden könnte. Ein anderes Beispiel sind Fragen zum Gesundheitszustand. Die Antwort wird in manchen Fällen daher in Richtung sozialer Erwünschtheit modifiziert werden (Tourangeau und Yan 2007).

Kommt es dabei auf den Befragungsmodus an? Eine Reihe von Studien kommt zum Schluss, dass der Effekt der sozialen Erwünschtheit bei CATI stärker ausgeprägt ist als bei CAWI (Holbrook und Krosnick 2010; Engel et al. 2015; Bowyer und Rogowski 2017). Während durch die akustische Anwesenheit von Interviewer*innen bei telefonischen Befragungen die sozialen Normen in Erinnerung gerufen werden, wird in der völlig anonymen Situation der Web-Befragung eher ‚ehrlich‘ geantwortet. Damit wären bei sensitiven Fragen stärkere Messeffekte zu erwarten. Im AKCOVID Panel Survey können Fragen in den Frageblöcken Finanzielle Lage, Sorgen, Kinder, Gesundheit, Einstellungen und Soziale Beziehungen als jene mit Potenzial für sozial erwünschtes Antwortverhalten eingestuft werden. In diesen Themenblöcken erwarten wir mithin im CAWI-Modus weniger in Richtung sozialer Erwünschtheit verzerrte Antworten, während im CATI-Modus Antworten stärker in Richtung einer sozial erwünschten guten finanziellen Lage und Gesundheit, intakten sozialen Beziehungen und sozialeren Einstellungen erwartet werden (Hypothese 2).

3 Design der vorliegenden Studie: Vergleich CAWI mit CATI

Ziel der vorliegenden Untersuchung ist die Schätzung von Moduseffekten im AKCOVID Panel Survey (Steiber 2021) durch die Analyse unterschiedlichen Antwortverhaltens bei Telefonbefragungen (CATI) im Vergleich zu Online-Befragungen (CAWI). Dazu vergleichen wir die beiden Befragungsmodi des AKCOVID Panel Surveys. Im Rahmen der AKCOVID Studie wurden im Juni 2020 zwei Tausend in Österreich wohnhafte Personen im Alter zwischen 20 und 64 Jahren befragt: 80 % Online ohne Interviewer*in und 20 % mittels Interviewer*in per Telefon, beides computerunterstützt auf Basis eines identen Fragebogens. Die Anteile einzelner Bevölkerungsgruppen (definiert nach Alter, Bildung, Geschlecht und Bundesland) in der CATI Stichprobe wurden so gewählt, dass die Gesamtstichprobe der Befragung (CAWI plus CATI) der Struktur der Gesamtbevölkerung nach diesen Kriterien entsprach. Im Jänner 2021 wurden rund 70 % der in der Ersterhebung Teilnehmenden ein zweites Mal befragt.

Ziel dieser Studie ist, herauszufinden, ob für alle Items der Befragung ähnliche Moduseffekte gefunden werden können oder ob sich modusbedingte Verzerrungen auf bestimmte Item-Designs, Themen oder Bevölkerungsgruppen beschränken. Um diesen Fragen nachzugehen, vergleichen wir für 46 Variablen das Ausmaß der Non-Response („weiß nicht“ Antworten oder „keine Angabe“ bzw. „Kann ich nicht sagen“) und das Antwortverhalten (Mittel- und Anteilswerte) innerhalb der validen Angaben zwischen CATI und CAWI.

Zum Vergleich der Non-Response zwischen den Befragungsmodi werden die Anteile nicht-valider Antworten („weiß nicht“, „keine Angabe“) und deren Vertrauensintervalle berechnet (Prüfung Hypothesen 1a und 1b). Überlappen die Vertrauensintervalle nicht, liegt ein signifikanter Unterschied in der Non-Response zwischen CAWI und CATI vor. Messeffekte werden mittels Regressionsmodellen geschätzt (Prüfung Hypothese 2). Der Befragungsmodus fungiert dabei als zentrale erklärende Variable, wobei für die Stichprobenzusammensetzungen nach Geschlecht, Alter, Bildung, Bundesland, Urbanisierungsgrad des Wohnorts, Staatsbürgerschaft und Hauptaktivität (unterteilt in: Erwerbstätigkeit, Arbeitslosigkeit, Ausbildung, Hausarbeit, Pension) kontrolliert wird. Die Ergebnisse der Analyse sind in den Tab. 1, 2 und 3 im Überblick dargestellt. Die Gesamtmodelle inklusive der Kovariaten sind im Online Supplement verfügbar. Mit dem Ziel der Vergleichbarkeit von 46 Modellen im Sinne von Effektstärken, rechnen wir im Fall von Items mit quasi-metrischem SkalenniveauFootnote 2 lineare Modelle (OLS) und im Fall von binär kodierten Items lineare Wahrscheinlichkeitsmodelle. Items mit ordinalem Skalenniveau werden für die in Tab. 2 und 3 dargestellten Analysen dichotomisiert. Im Sinne einer Validierung der Ergebnisse, werden jedoch für alle binären und ordinalen Variablen zusätzlich binär logistische bzw. ordinale logistische Regressionen gerechnet. Diese Zusatzanalysen führten bei allen Variablen zu vergleichbaren ErgebnissenFootnote 3. Für Details zur Kodierung der abhängigen Variablen siehe Anhang Tab. 4.

Tab. 1 Zusammensetzung der Stichprobe nach Modus. (Quelle: AKCOVID Panel Survey, gewichtet, eigene Berechnungen)
Tab. 2 Signifikante Moduseffekte auf das Antwortverhalten nach Themenbereich
Tab. 3 Geringe Moduseffekte auf das Antwortverhalten nach Themenbereich

4 Ergebnisse

4.1 Selektionseffekt aufgrund unterschiedlicher Zusammensetzung der Stichproben

Mittelwertvergleiche geben erste Hinweise darauf, bei welchen Fragen die Befragungsmodi zu unterschiedlichen Ergebnissen führten. Beispielsweise können im Themenbereich Arbeitsbedingungen signifikante Unterschiede in den Mittelwerten zwischen den Modi festgestellt werden (nicht gezeigt). Diese verlieren nach Kontrolle soziodemographischer Merkmale in den Regressionsmodellen (Tab. 3) jedoch an Bedeutung – sie sind mithin lediglich auf die unterschiedliche Zusammensetzung der Stichproben (Tab. 1) der beiden Modi zurückzuführen (z. B. höheres mittleres Alter bei CATI) und können damit als reine Selektionseffekte identifiziert werden.

4.2 Wenig Unterschied zwischen CATI und CAWI in der Non-Response

Beim Vergleich der Non-Response zeigen sich nur bei wenigen Items Moduseffekte (im Einklang mit Befunden von Mühlböck et al. 2017). Über alle 46 Variablen hinweg kann in Bezug auf das Ausmaß der Non-Response kein Muster festgestellt werden (siehe Tab. 2 und 3). Bei fünf Items wurden bei CAWI häufiger die Optionen „weiß nicht“, „keine Angabe“ bzw. „Kann ich nicht sagen“ gewählt als bei CATI; bei zwei Items war es genau umgekehrt. Es können auch keine Themen oder Item-Designs ausgemacht werden, bei denen eher Moduseffekte auf die Rate der Non-Response auftreten. Dies gilt auch für die sensitiven Fragen zur finanziellen Situation und zum Privatleben. Die Hypothesen 1a und 1b können damit nicht bestätigt werden.

4.3 Antwortverhalten: Mehr soziale Erwünschtheit bei persönlichen Interviews (CATI)

Der bereinigte, für die Zusammensetzung der CATI- und CAWI-Stichproben kontrollierte, Moduseffekt wird mit Hilfe von Regressionsmodellen geschätzt. Der bereinigte Messeffekt ist stärker auf den Befragungsmodus per se zurückführbar, soweit für alle relevanten Unterschiede zwischen den beiden Stichproben kontrolliert werden konnte.Footnote 4 Die Ergebnisse werden in Tab. 2 präsentiert. Das genaue Wording der einzelnen Items findet sich im Anhang. Bei den Themenkreisen soziales Vertrauen, finanzielle Probleme, Sorge um Jobverlust, Gesundheit und Probleme im Zusammenhang mit den Schulschließungen werden signifikante Moduseffekte festgestellt:

Die Befragten gaben den CATI-Interviewer*innen gegenüber eher an, dass man anderen Menschen vertrauen kann, als online (im Schnitt um rund 1,4 Punkte mehr auf der 11-teiligen Vertrauensskala). In Zusammenhang mit einer geringeren Einschätzung des sozialen Vertrauens bei CAWI gab es bei diesem Befragungsmodus auch signifikant weniger Zustimmung zur Aussage, dass der Staat für einen angemessenen Lebensstandard der Arbeitslosen sorgen sollte (weniger stark ausgeprägte prosoziale Haltung). Sorgen, dass die Corona-Krise zu einer Verschlechterung der eigenen finanziellen Lage oder zu einem Jobverlust führen könnte, wurden den CATI-Interviewer*innen gegenüber signifikant seltener geäußert als in CAWI. Bei CAWI wurde weiters eher angegeben als bei CATI, dass sich die Sicherheit des Arbeitsplatzes seit Beginn der Pandemie verringert hat. Auch werden die finanzielle Lage des Haushalts und der eigene soziale Status bei CAWI im Mittel prekärer eingeschätzt als bei CATI. Diese Ergebnisse zeigen, dass die Einschätzung der Befragten bzgl. ihrer finanziellen Lage (z. B. subjektive Armutsgefährdung, finanzielle Engpässe, Rechnungsverzug) und ihres sozialen Status im Rahmen von Online-Befragungen im Vergleich zu persönlichen Befragungen tendenziell negativer ausfällt. Nicht oder weniger von Moduseffekten betroffen zeigen sich dagegen stärker „faktische“ Fragen nach den krisenbedingten Veränderungen des Einkommens/Umsatzes ohne Bezug auf deren Konsequenzen für die eigene finanzielle Lage.

Ein ähnliches Bild ergibt sich bei der Einschätzung der eigenen Gesundheit: Telefonisch Befragte schätzen sich im Schnitt gesünder ein – sowohl in Bezug auf ihren allgemeinen Gesundheitsstatus als auch im Hinblick auf ihr psychisches Wohlbefinden. Dies deckt sich mit Befunden aus der Literatur zu Indikatoren der mentalen und psychosozialen Gesundheit, die in selbstadministrierten Befragungen (CAWI oder auch Papierfragebögen) signifikant schlechter bewertet werden als bei Telefoninterviews (soziale Erwünschtheit in Präsenz von Interviewer*innen, siehe Hoebel et al. 2014; Epstein Faith et al. 2001). CAWI-Befragte äußerten auch signifikant häufiger Sorgen, dass sie aufgrund der Pandemie nicht die ärztliche Versorgung bekommen, die sie brauchen (Themenbereich Sorgen in Tab. 2). Ein weiteres in Tab. 2 gelistetes Thema mit signifikanten Moduseffekten sind Herausforderungen im Zusammenhang mit pandemiebedingtem Distance Learning. CAWI-Befragte gaben häufiger an, dass sie sich als Eltern überfordert fühlten und sich um den Lernfortschritt ihrer Kinder sorgten.

Die Items, bei denen signifikante Moduseffekte geschätzt werden, weisen sehr unterschiedliche Designs auf (z. B. 11-teilige Antwortskalen mit beschrifteten Rändern, fünf oder sechs vollständig beschriftete Antwortoptionen) – es kann kein Zusammenhang zwischen dem Design der Items und dem Auftreten von Moduseffekten auf das Antwortverhalten festgestellt werden.

Bei der Beantwortung der in Tab. 2 gelisteten Themen ist im Rahmen von CATI ein stärker sozial erwünschtes bzw. auch ein positiveres Antwortverhalten zu beobachten als bei CAWI (im Einklang mit Bowyer und Rogowski 2017). Die soziale Situation des Telefoninterviews scheint auch prosoziale Antworten zu fördern. In anderen Themenbereichen treten dagegen kaum Moduseffekte auf. Diese sind in Tab. 3 gelistet. Ein Beispiel sind politische Einstellungen zu den Themen Einkommensumverteilung und Armutsbekämpfung (im Einklang mit den Ergebnissen von Ansolabehere und Schaffner 2014). Auch der Themenbereich familiäre Beziehungen scheint kaum sozial erwünschtes Antwortverhalten zu triggern. Weder die Fragen nach Veränderungen in der Qualität der Paarbeziehung seit Ausbruch der Pandemie (Zufriedenheit, Konflikte) noch die Fragen zur Kinderbetreuung oder zur Vereinbarkeit von Beruf und Familie werden je nach Modus unterschiedlich beantwortet. Auch faktische Fragen zum Ausmaß der informellen Pflege (Stunden pro Woche) werden modus-unabhängig ähnlich beantwortet.

Kaum von Moduseffekten betroffen zeigt sich auch der Themenbereich Arbeitsbedingungen. Weder die faktischen Fragen zu den wöchentlichen Arbeitsstunden, der beruflichen Tätigkeit, dem Ausmaß der Arbeitsautonomie, der Nutzung von Home-Office und dem Vorhandensein eines Betriebsrats, noch die Fragen zu den Auswirkungen der Pandemie auf die Arbeitsbedingungen (Liste der Items in diesem Themenbereich in Tab. 4 im Anhang)Footnote 5 zeigen sich durch den Modus der Befragung beeinflusst. Einzige Ausnahme ist die Sicherheit des Arbeitsplatzes, welche im Rahmen von CAWI negativer eingeschätzt wird.

Zusammenfassend wurden mithin entsprechend Hypothese 2 in Themenfeldern, die normativ aufgeladenen sind und sozial erwünschtes Antwortverhalten hervorrufen können, stärkere Messeffekte geschätzt, während bei Fragen, die eher auf Fakten abzielten, kaum Effekte des Befragungsmodus festgestellt werden konnten.

4.4 Stärke der Moduseffekte und heterogene Moduseffekte

Bei signifikanten Moduseffekten gilt es zwischen vernachlässigbaren und substantiell bedeutsamen Effekten zu unterscheiden. Gängige Effektstärkemaße im Rahmen von Regressionsmodellen (z. B. Eta Quadrat) deuten durchwegs auf kleine Effekte hin (Tab. 2). Dies darf jedoch nicht darüber hinwegtäuschen, dass es sich substantiell teils um bedeutsame Effekte handelt. Beispielsweise geben CATI-Befragte im Schnitt 1,4 Punkte mehr auf der 11-teiligen Skala des sozialen Vertrauens an als CAWI-BefragteFootnote 6 (kontrolliert für die unterschiedliche Stichprobenzusammensetzung nach zentralen soziodemografischen Merkmalen). Auch die Einschätzung der finanziellen Lage des Haushalts zeigt sich stark vom Modus der Befragung beeinflusst: So geben bei den Telefoninterviews rund 40 % der Befragten an, mit dem Haushaltseinkommen bequem auszukommen, während sich dieser Anteil bei Online-Respondent*innen auf 29 % beläuft (ebenso im Rahmen der Regressionsanalyse kontrolliert für die Stichprobenzusammensetzung). Die Ergebnisse der Studie zu den teils doch maßgeblichen Effekten des Befragungsmodus legen nahe, dass es problematisch sein kann, Ergebnisse aus persönlichen Befragungen für die Zeit vor der Pandemie – beispielsweise aus dem European Social Survey (ESS) oder dem Sozialen Survey Österreich (SSÖ) – mit neueren Ergebnissen aus Online-Befragungen zu vergleichen, insbesondere wenn die CAWI-Befragten auf Basis eines Online Access Panels rekrutiert wurden.

Ein durch die Autor*innen dieses Beitrags durchgeführter Vergleich von Daten aus dem European Social Survey (ESS), die in zwei Wellen zwischen 2016 und 2019 mittels persönlicher Interviews erhoben wurden (ESS 2016, 2018), und dem im Jänner 2021 erhobenen AKCOVID Panel Survey, zum mittleren sozialen Vertrauen, würde beispielsweise suggerieren, dass es zwischen der Erhebung der ESS Daten vor der Pandemie und der AKCOVID Daten im ersten Jahr der Pandemie im Jänner 2021 zu einem massiven Einbruch im Ausmaß des sozialen Vertrauens kam (kontrolliert für die unterschiedliche Stichprobenzusammensetzung, siehe Abb. 1a). Dieser scheinbare Trend ist jedoch zu einem großen Teil auf den Wechsel des Befragungsmodus zurückzuführen und präsentiert sich im Vergleich der mittels persönlicher Interviews erhobenen ESS-Daten mit der Telefonstichprobe aus der AKCOVID Befragung so nicht. Nur in der CAWI-Teilstichprobe des AKCOVID ist das soziale Vertrauen signifikant niedriger als im ESS (siehe Abb. 1b).

Abb. 1
figure 1

Vergleich der Mittelwerte von sozialem Vertrauen zwischen ESS und AKCOVID (auf Basis von linearen Regressionsmodellen nach Kontrolle für Geschlecht, Alter, Bildung, Bundesland, Staatsbürgerschaft und Hauptaktivität). Schwarze Balken: 95 % Vertrauensintervall. a Vgl. ESS mit AKCOVID Gesamt; b Vgl. ESS mit AKCOVID Persönlich/Online. (Quelle: ESS (Wellen 8 und 9 2016, 2018), AKCOVID Panel Survey (Welle 2 2021), eigene Berechnungen)

Die Analysen zum sozialen Vertrauen zeigen weiters, dass dieser Moduseffekt altersabhängig ist. Während es für jüngere Befragte weniger darauf ankommt, ob sie im Rahmen der AKCOVID Panelbefragung persönlich oder via Onlinesurvey zu ihrem sozialen Vertrauen befragt wurden, ist dieser Moduseffekt bei den älteren Befragten stärker ausgeprägt (Abb. 2): Während es in der jüngeren Gruppe keinen signifikanten Unterschied der geschätzten Mittelwerte zwischen CATI- und CAWI-Befragten gibt (unter 40 Jahren), signalisieren in der älteren Gruppe (40–64 Jahre) telefonisch Befragte ein signifikant höheres soziales Vertrauen.

Abb. 2
figure 2

Vergleich der Mittelwerte von sozialem Vertrauen zwischen ESS und AKCOVID, nach Alter (auf Basis von linearen Regressionsmodellen mit Interaktion von Modus und Alter nach Kontrolle für Geschlecht, Bildung, Bundesland, Staatsbürgerschaft und Hauptaktivität). Schwarze Balken: 95 % Vertrauensintervall. (Quelle: ESS (Wellen 8 und 9 2016, 2018), AKCOVID Panel Survey (Welle 2 2021), eigene Berechnungen)

Heterogene Moduseffekte nach Alter können in der AKCOVID-Befragung auch für die Einschätzung der eigenen Gesundheit, die Sorgen um die gesundheitliche Versorgung in der Pandemie, die Einstellung zu Arbeitslosen (Tab. 2) und die Zufriedeneheit mit der Aufteilung der Hausarbeit (Tab. 3) festgestellt werden. Heterogene Moduseffekte nach dem höchsten Bildungsabschluss der Befragten zeigen sich bei den politischen Einstellungen (Tab. 2) und den Arbeitsstunden (Tab. 3), nach dem Geschlecht der Befragten bei den Arbeitsbedingungen (Tab. 3).

5 Resümee und Ausblick

Die vorliegenden Analysen des Antwortverhaltens in einem Mixed-Mode Survey legen nahe, dass Befragungen je nach Modus (CATI versus CAWI) in der Tat zu sehr unterschiedlichen Ergebnissen führen können. Zwar unterscheidet sich das Antwortverhalten kaum in Bezug auf die Non-Response-Rate, inhaltlich differieren die Antworten aber teils signifikant zwischen den Befragungsmodi (kontrolliert für die Stichprobenzusammensetzung nach Modus). Moduseffekte im AKCOVID Panel Survey können auf bestimmte Themenbereiche eingegrenzt werden: Vor allem bei Fragen zu finanziellen Problemlagen, der Einschätzung des eigenen sozialen Status und der eigenen Gesundheit, bei der Thematisierung von Sorgen um die Zukunft und zum eigenen sozialen Verhalten unterscheidet sich das Antwortverhalten signifikant nach Modus. Von Interviewer*innen per Telefon Befragte antworten stärker sozial erwünscht, beurteilen ihre finanzielle, soziale und gesundheitliche Lage positiver, bringen Sorgen weniger stark zum Ausdruck und geben an, anderen Menschen mehr zu vertrauen und prosozialer eingestellt zu sein als CAWI-Befragte.

Einschränkend muss angemerkt werden, dass zwei sehr unterschiedliche Befragungsmodi miteinander verglichen wurden. Die per Telefon Befragten wurden im Gegensatz zu den Online-Respondent*innen von Interviewer*innen befragt. Sie wurden darüberhinausgehend anders rekrutiert: Die CATI-Stichprobe wurde zufallsbasiert mittels Random Digit Dialing erstellt; die CAWI-Befragten dagegen aus einem bestehenden Online-Access Panel rekrutiert. Damit können wir strenggenommen den Effekt des persönlichen Interviews nicht von potenziellen Selektionseffekten isolieren. Die Regressionsanalysen kontrollieren für die unterschiedliche Stichprobenzusammensetzung der CAWI- und CATI-Befragten nach sozioökonomischen Merkmalen, ein verbleibender Selektionsbias auf Basis unbeobachteter Merkmale kann aber nicht ausgeschlossen werden.

Welche Schlüsse können auf Basis der Studienergebnisse für Online-Befragungen gezogen werden? Rein webbasierte Befragungen können den Vorteil bieten, dass sensitive Fragen eventuell ehrlicher beantwortet werden, da der Effekt der sozialen Erwünschtheit oft geringer sein wird. Bei stärker objektiven Fragen zur beruflichen oder familiären Situation der Befragten (‚Faktenfragen‘) sollte laut Studienergebnissen eine gute Vergleichbarkeit von CAWI mit persönlichen Interviews gegeben sein. Auch gibt es bei CAWI nicht unbedingt mehr Item-Non-Response („weiß nicht“ oder „keine Angabe“). CAWI kann jedoch zu einer höheren Rate an Survey-Non-Response führen, eine geringere Abdeckung der Zielpopulation (Internetzugang, digitale Affinität und Kompetenz) erreichen und damit einen größeren Stichprobenfehler bedingen (De Leeuw und Hox 2015). Zentral für die Einschätzung von Online-Befragungen ist die Art der Stichprobenziehung. CAWI auf Basis einer rein zufallsbasierten Auswahl von Befragten und einem adressbasierten push-to-web Design sollte einen deutlich kleineren Stichprobenfehler aufweisen als CAWI auf Basis von Online-Access Panels. Und hier gibt es in der Tat eine Reihe von methodischen Entwicklungen (Professionalisierung der push-to-web Designs, Befragungen über Mobiltelefone, Log-in für die Online-Befragung via QR Codes), die dazu führen, dass auch bei CAWI eine mit persönlichen Befragungen vergleichbare Survey Response Rate sowie eine hohe Repräsentativität der Stichprobe erreicht werden kann, wie beispielsweise bei der aktuellen Statistik-Austria Befragung „Wie geht’s uns heute“ (Mühlböck et al. 2022).

In diesem Zusammenhang ist zukünftige Forschung gefordert, ein stärkeres Augenmerk auf die Isolierung reiner Messeffekte (Effekte des Befragungsmodus per se), unter Kontrolle von Selektionseffekten, zu legen. Hier kann derzeit noch eine Forschungslücke ausgemacht werden. Selektionseffekte (unterschiedliche Zusammensetzung der Stichproben je nach Modus) können in der Tat größer ausfallen als die Messeffekte (Vannieuwenhuyze und Revilla 2013), die meist im Zentrum der Argumentation stehen. Zukünftige Forschung ist weiters gefordert, sich stärker mit heterogenen Moduseffekte zu beschäftigen, d. h. mit der Möglichkeit, dass sich der Modus der Befragung nicht auf alle Befragten gleich auswirkt. Heterogene Moduseffekte sind in der Literatur beschrieben, bleiben in der Praxis bis dato jedoch meist unbeachtet. Bei Erhebungen zur mentalen Gesundheit konnten beispielsweise unterschiedlich stark ausgeprägte Moduseffekte nach Bildung (Epstein Faith et al. 2001) und Alter (Wright et al. 1998) festgestellt werden. Auch bei politischen Einstellungen wurden unterschiedliche Moduseffekte nach Geschlecht, Alter und Bildung registriert (Sanders et al. 2007; Ansolabehere und Schaffner 2014). Obwohl es einige Evidenz dafür gibt, dass sich der Befragungsmodus nicht auf alle Bevölkerungsgruppen gleich auswirkt, blenden Theorien zum Antwortverhalten diese heterogenen Moduseffekte meist aus. Eine systematische Beschäftigung mit dem Thema ist noch ausständig (Pudney 2010; Heerwegh und Loosveldt 2011; Sánches Tome 2018, S. 153). Will man für Moduseffekte kontrollieren, um Trendanalyen auf Basis eines Vergleichs von persönlichen Interviews mit Online-Befragungen zu ermöglichen, ist es unabdingbar auf potenziell heterogene Moduseffekte zu achten. Die Kontrolle für homogene Moduseffekte kann – vor allem bei Gruppenvergleichen – womöglich zu stark verzerrten Resultaten führen (Jäckle et al. 2010; Backes und Cowan 2019).