1 Einleitung zur statistischen Auswertung

In diesem Sammelband wird der Einfluss der Corona-Krise auf Werte, Einstellungen, Befindlichkeiten und Verhaltensweisen der österreichischen Gesellschaft behandelt. Die Erkenntnisse basieren dabei vor allem auf Umfragedaten und wurden mittels quantitativer statistischer Analysen gewonnen. Umfragedaten beinhalten dabei die Antworten der Teilnehmer*innen auf bestimmte Fragen (oder Items), wobei man von der Gesamtzahl der Teilnehmer*innen (der Stichprobe) durch statistische Verfahren auf die österreichische Grundgesamtheit schließen kann (bei statistischen Analysen üblicherweise mittels Signifikanzprüfung, siehe Tab. 13.1 „Signifikanz“). Bezüglich der Aussagekraft der Ergebnisse sind wir jedoch stets auch mit potenziellen Verzerrungen konfrontiert, die in den Schlussfolgerungen entsprechend zu berücksichtigen sind (siehe Kap. 12 (Prandner 2022) in diesem Band). Die Antworten der Befragten werden anschließend in Zahlen übersetzt („codiert“), womit sie zu Variablen werden, welche für die statistische Analyse herangezogen werden. Wir sprechen bei den meisten Fragen bei Umfragedaten von geschlossenen Fragen, weil bereits vorgefertigte Antwortkategorien bestehen. Aus der Frage „Wie geht es Ihnen heute?“ lässt sich z. B. die Variable „aktuelles Wohlbefinden“ ableiten, mit den vorgefertigten Antwortkategorien „1“ (sehr schlecht) bis „4“ (sehr gut). Diese Kategorisierung wird als Skalierung bezeichnet und beträgt im dargestellten Beispiel (Abb. 13.1) 1–4.

Tab. 13.1 Grundbegriffe der statistischen Auswertung von Umfrageprogrammen
Abb. 13.1
figure 1

Grundbegriffe der statistischen Auswertung von Umfragedaten anhand eines Beispielitems

2 Begrifflichkeiten der univariaten und bivariaten Analyse

Wenn die Variablen in einer Datenmatrix entsprechend aufbereitet wurden, erfolgt die quantitative Auswertung auf drei Wegen (für die multivariate Analyse siehe nächsten Abschnitt). Eine univariate Analyse betrachtet ausschließlich die Verteilung einer Variable. Ein Beispiel wäre die Auswertung der Frage, wie viele Österreicher*innen eine Covid-19-Impfung erhalten wollen sobald diese zugänglich ist. Eine bivariate Analyse betrachtet zwei Variablen gemeinsam, entweder mittels Zusammenhangs- oder Unterschiedsanalysen. Zusammenhangsanalysen befassen sich mit der Verbindung von zwei Variablen, beispielsweise ob ältere Personen eine höhere Akzeptanz einer Covid-19-Impfung berichten oder nicht. Wird dagegen eine Unterschiedshypothese überprüft, so analysiert man, ob sich bestimmte Gruppen voneinander in einem Merkmal unterscheiden. Hier sind häufig Lageparameter (wie Mittelwertsunterschiede zwischen Gruppen) relevant. Ein einfaches Beispiel wäre die Frage: „Gibt es Unterschiede hinsichtlich der Impfbereitschaft zwischen Frauen und Männern?“. Zur Beantwortung der Frage würden die Mittelwerte in der Befürwortung der Impfung zwischen Männern und Frauen verglichen sowie die Signifikanz überprüft werden (siehe Tab. 13.1). Zentrale Begriffe und Tests der univariaten und bivariaten Analyse sind in der Tab. 13.2 dargestellt.

Tab. 13.2 Grundbegriffe und Kennwerte der univariaten und bivariaten Analyse

3 Erklärung und Begrifflichkeiten der multivariaten Analyse

Wir trennen in unseren sozialwissenschaftlichen Erklärungsmodellen oft zwischen unabhängigen Variablen (jene Merkmale, die wir als Einflussfaktoren bzw. Prädiktoren bewerten) und abhängigen Variablen (die wir möglichst gut erklären möchten). Da zur Erklärung einer abhängigen Variable meist mehrere Einflussfaktoren herangezogen werden müssen, werden in den (Sozial-)Wissenschaften häufig multivariate Analysen angewendet, um mehrere unabhängige Variablen in ein Analysemodell zu integrierenFootnote 1. So ist beispielsweise realistisch, dass nicht nur das Alter die Impfbereitschaft erklärt, sondern auch andere Variablen wie beispielsweise das Geschlecht, die Bildung, und vieles mehr (siehe Abb. 13.2). Demnach wäre es denkbar, dass niedriger gebildete Personen den Fortschritten der Wissenschaft und den allgemeinen Corona-Maßnahmen skeptischer gegenüberstehen und deshalb impfkritischer sind. Auch Frauen könnten im Vergleich zu Männern eine größere Impfskepsis aufweisen.

Abb. 13.2
figure 2

Multivariate Analyse (Beispiel mehrere Einflussfaktoren/additive Effekte)

3.1 Regressionsanalyse

Ein klassisches Verfahren der multivariaten Analyse stellt die multiple Regressionsanalyse dar. Diese Analyse erlaubt es, mehrere erklärende (oder unabhängige) Variablen in ein Modell aufzunehmen, um eine zu erklärende (oder abhängige) Variable zu schätzen. Durch diese Art der Analyse kann man erkennen, wie sich die jeweilige unabhängige Variable auf die abhängige Variable auswirkt und man kann einzelne Effekte durch die Konstanthaltung der restlichen (Kontroll-)Variablen unverzerrt ausweisen. Im Beispiel der Abb. 13.2 sieht man jeweils den Effekt des Alters, des Geschlechts, und der Bildung auf die Impfbereitschaft unter Kontrolle der restlichen Variablen. Zentrale Kennwerte der multiplen Regressionsanalyse sind der Tab. 13.3 zu entnehmen.

Tab. 13.3 Zentrale Kennwerte der Regressionsanalyse

Es gibt mehrere verschiedene Arten der Regressionsanalyse, welche sich hauptsächlich aufgrund der Skalenniveaus bzw. der Datenstruktur (Querschnitt vs. Längsschnitt) unterscheiden. Die klassische bzw. einfachste Form der Regressionsanalyse stellt die Ordinary Least Squares (OLS) Regressionsanalyse dar (oder lineare Regressionsanalyse). Darüber hinaus kommen in diesem Sammelband auch sequenzielle, ordinale und fixed-effects Regressionsanalysen zum Einsatz. Die zentralen Charakteristika der Verfahren sind jedoch ähnlich, auch wenn die Interpretation der Ergebnisse oftmals leicht unterschiedlich ist.

3.2 Explorative Faktorenanalyse

Im Gegensatz zur Regressionsanalyse besteht das Ziel der (explorativen) Faktorenanalyse nicht in der Erklärung einer abhängigen Variable, sondern darin, mehrere direkt erhobene Variablen zu einem oder mehreren Faktoren zu bündeln. Diese Faktoren stellen latente (und damit sehr messgenaue) Konstrukte dar, die mittels der direkt erhobenen Variablen geschätzt werden können. Diese geschätzten FaktorscoresFootnote 2 können anschließend für weiterführende Analysen verwendet werden, beispielsweise als abhängige oder unabhängige Variablen in einer Regressionsanalyse.

Die explorative Faktorenanalyse basiert auf den Korrelationen der Variablen und der Annahme, dass diese Korrelation durch einen gemeinsamen latenten Faktor zustande kommt. Je besser eine Variable durch den jeweiligen Faktor erklärt werden kann, desto höher ist die Faktorladung dieser Variable auf den Faktor. Dieser Vorgang ist vergleichbar mit einer Regressionsanalyse bei der die Variablen die unabhängigen Variablen darstellen und die Faktorladung den Beta-Koeffizient, während der Faktor die abhängige Variable bildet. Demnach gibt es auch hier eine Varianzaufklärung des Faktors durch die Variablen. Die Varianzaufklärung gibt an, wie gut dieser Faktor durch die auf ihn gebündelten Items erklärt werden können. In der Regel werden Faktoren extrahiert, die mehr Information enthalten als eine der ursprünglichen Variablen; also einen sogenannten Eigenwert > 1 aufweisen. Für den Fall, dass sich dabei zwei oder mehrere Faktoren bilden, wird in der Regel eine (orthogonale oder schiefwinkelige) Faktorrotation durchgeführt, welche eine klare Zuordnung der Items zu den jeweiligen Faktoren erlaubt.

3.3 Reliabilitätsanalyse

Explorative Faktorenanalysen werden üblicherweise dann durchgeführt, wenn im vornherein nicht klar ist, wie viele verschiedene Dimensionen hinter einer Anzahl von Items verborgen sind. Wenn einzelne Itembatterien (das ist eine größere Anzahl an Items) nur auf einen speziellen Faktor zurückgeführt werden können, dann kann die Messgenauigkeit dieses Faktors (= dieser Skala) geprüft werden. Sind die Items metrisch skaliert, das heißt, mit drei oder mehr Antwortmöglichkeiten, wobei die Abstände zwischen den Antwortmöglichkeiten gleich groß sind, wird die Reliabilität der Skala in der Regel mit dem Koeffizienten Cronbach’s Alpha (α) gemessen. Der Wert bildet die sogenannte interne Konsistenz der Skala ab. Sind die Items dagegen dichotom skaliert, das heißt, mit nur zwei Antwortkategorien (z. B. „Ja“ und „Nein“), so wird üblicherweise der Reproduktionskoeffizient zur Prüfung der internen Konsistenz herangezogen (vgl. Tab. 13.4). In der klassischen Literatur zur sozialwissenschaftlichen Statistik wird üblicherweise bei einem Wert > 0,7 von einer guten internen Konsistenz gesprochen, sprich, die Items messen das dahinterliegende Konstrukt mit ausreichender Präzision.

Tab. 13.4 Zentrale Kennwerte der Reliabilitätsanalyse und der Kontrastgruppenanalyse

3.4 Kontrastgruppenanalyse

Bei der Kontrastgruppenanalyse handelt es sich um ein Verfahren, welches besonders zur Aufdeckung von Interaktionseffekten geeignet ist (vgl. Tab. 13.4). Im Unterschied zur näher besprochenen (OLS) Regressionsanalyse werden ausschließlich dichotome Variablen mit zwei Ausprägungen (z. B. Geschlecht mit den Ausprägungen männlich/weiblich) als unabhängige (erklärende) Variablen herangezogen. Diese werden im Gegensatz zur Regressionsanalyse außerdem nacheinander ins Modell inkludiert, um die abhängige Variable zu erklären. Dabei wird diejenige unabhängige Variable zuerst ausgewählt, welche die höchste Erklärungskraft bietet. Die Ergebnisse der Kontrastgruppenanalyse lassen sich dabei am einfachsten mittels Baumdiagrammen (wie man sie von Stammbäumen kennt) darstellen. Eine solche Darstellung ist im Beitrag „Arbeit und Familie im Covid-19-Alltag“ von (Beham-Rabanser et al. 2021) im Anhang enthalten.