Glossar für statistische Analysetechniken

Glatz, Christoph; Prandner, Dimitri; Aschauer, Wolfgang

doi:10.1007/978-3-658-34491-7_13

Christoph Glatz⁴,
Dimitri Prandner⁵ &
Wolfgang Aschauer⁶

5994 Accesses

Zusammenfassung

Um den Zugang zu diesem Buch auch für Personen zu erleichtern, die wenig Erfahrung mit quantitativer Sozialforschung haben, wird in diesem Glossar ein grundlegender Einblick in die Praxis der Umfrageforschung sowie in statistische Analysetechniken gegeben. Wir geben Hinweise, wie man soziale und politische Einstellungen in Umfragen erhebt und welche Möglichkeiten der statistischen Analyse vorliegen. Insbesondere komplexere Verfahren wie Regressionsanalyse, Faktorenanalsen, Reliabilitätsanalysen und Kontrastgruppenanalysen werden näher erklärt.

You have full access to this open access chapter, Download chapter PDF

Statistische Grundlagen

Statistische Modellbildung

1 Einleitung zur statistischen Auswertung

In diesem Sammelband wird der Einfluss der Corona-Krise auf Werte, Einstellungen, Befindlichkeiten und Verhaltensweisen der österreichischen Gesellschaft behandelt. Die Erkenntnisse basieren dabei vor allem auf Umfragedaten und wurden mittels quantitativer statistischer Analysen gewonnen. Umfragedaten beinhalten dabei die Antworten der Teilnehmer*innen auf bestimmte Fragen (oder Items), wobei man von der Gesamtzahl der Teilnehmer*innen (der Stichprobe) durch statistische Verfahren auf die österreichische Grundgesamtheit schließen kann (bei statistischen Analysen üblicherweise mittels Signifikanzprüfung, siehe Tab. 13.1 „Signifikanz“). Bezüglich der Aussagekraft der Ergebnisse sind wir jedoch stets auch mit potenziellen Verzerrungen konfrontiert, die in den Schlussfolgerungen entsprechend zu berücksichtigen sind (siehe Kap. 12 (Prandner 2022) in diesem Band). Die Antworten der Befragten werden anschließend in Zahlen übersetzt („codiert“), womit sie zu Variablen werden, welche für die statistische Analyse herangezogen werden. Wir sprechen bei den meisten Fragen bei Umfragedaten von geschlossenen Fragen, weil bereits vorgefertigte Antwortkategorien bestehen. Aus der Frage „Wie geht es Ihnen heute?“ lässt sich z. B. die Variable „aktuelles Wohlbefinden“ ableiten, mit den vorgefertigten Antwortkategorien „1“ (sehr schlecht) bis „4“ (sehr gut). Diese Kategorisierung wird als Skalierung bezeichnet und beträgt im dargestellten Beispiel (Abb. 13.1) 1–4.

Tab. 13.1 Grundbegriffe der statistischen Auswertung von Umfrageprogrammen

Full size table

2 Begrifflichkeiten der univariaten und bivariaten Analyse

Wenn die Variablen in einer Datenmatrix entsprechend aufbereitet wurden, erfolgt die quantitative Auswertung auf drei Wegen (für die multivariate Analyse siehe nächsten Abschnitt). Eine univariate Analyse betrachtet ausschließlich die Verteilung einer Variable. Ein Beispiel wäre die Auswertung der Frage, wie viele Österreicher*innen eine Covid-19-Impfung erhalten wollen sobald diese zugänglich ist. Eine bivariate Analyse betrachtet zwei Variablen gemeinsam, entweder mittels Zusammenhangs- oder Unterschiedsanalysen. Zusammenhangsanalysen befassen sich mit der Verbindung von zwei Variablen, beispielsweise ob ältere Personen eine höhere Akzeptanz einer Covid-19-Impfung berichten oder nicht. Wird dagegen eine Unterschiedshypothese überprüft, so analysiert man, ob sich bestimmte Gruppen voneinander in einem Merkmal unterscheiden. Hier sind häufig Lageparameter (wie Mittelwertsunterschiede zwischen Gruppen) relevant. Ein einfaches Beispiel wäre die Frage: „Gibt es Unterschiede hinsichtlich der Impfbereitschaft zwischen Frauen und Männern?“. Zur Beantwortung der Frage würden die Mittelwerte in der Befürwortung der Impfung zwischen Männern und Frauen verglichen sowie die Signifikanz überprüft werden (siehe Tab. 13.1). Zentrale Begriffe und Tests der univariaten und bivariaten Analyse sind in der Tab. 13.2 dargestellt.

Tab. 13.2 Grundbegriffe und Kennwerte der univariaten und bivariaten Analyse

Full size table

3 Erklärung und Begrifflichkeiten der multivariaten Analyse

Wir trennen in unseren sozialwissenschaftlichen Erklärungsmodellen oft zwischen unabhängigen Variablen (jene Merkmale, die wir als Einflussfaktoren bzw. Prädiktoren bewerten) und abhängigen Variablen (die wir möglichst gut erklären möchten). Da zur Erklärung einer abhängigen Variable meist mehrere Einflussfaktoren herangezogen werden müssen, werden in den (Sozial-)Wissenschaften häufig multivariate Analysen angewendet, um mehrere unabhängige Variablen in ein Analysemodell zu integrieren^{Footnote 1}. So ist beispielsweise realistisch, dass nicht nur das Alter die Impfbereitschaft erklärt, sondern auch andere Variablen wie beispielsweise das Geschlecht, die Bildung, und vieles mehr (siehe Abb. 13.2). Demnach wäre es denkbar, dass niedriger gebildete Personen den Fortschritten der Wissenschaft und den allgemeinen Corona-Maßnahmen skeptischer gegenüberstehen und deshalb impfkritischer sind. Auch Frauen könnten im Vergleich zu Männern eine größere Impfskepsis aufweisen.

3.1 Regressionsanalyse

Ein klassisches Verfahren der multivariaten Analyse stellt die multiple Regressionsanalyse dar. Diese Analyse erlaubt es, mehrere erklärende (oder unabhängige) Variablen in ein Modell aufzunehmen, um eine zu erklärende (oder abhängige) Variable zu schätzen. Durch diese Art der Analyse kann man erkennen, wie sich die jeweilige unabhängige Variable auf die abhängige Variable auswirkt und man kann einzelne Effekte durch die Konstanthaltung der restlichen (Kontroll-)Variablen unverzerrt ausweisen. Im Beispiel der Abb. 13.2 sieht man jeweils den Effekt des Alters, des Geschlechts, und der Bildung auf die Impfbereitschaft unter Kontrolle der restlichen Variablen. Zentrale Kennwerte der multiplen Regressionsanalyse sind der Tab. 13.3 zu entnehmen.

Tab. 13.3 Zentrale Kennwerte der Regressionsanalyse

Full size table

Es gibt mehrere verschiedene Arten der Regressionsanalyse, welche sich hauptsächlich aufgrund der Skalenniveaus bzw. der Datenstruktur (Querschnitt vs. Längsschnitt) unterscheiden. Die klassische bzw. einfachste Form der Regressionsanalyse stellt die Ordinary Least Squares (OLS) Regressionsanalyse dar (oder lineare Regressionsanalyse). Darüber hinaus kommen in diesem Sammelband auch sequenzielle, ordinale und fixed-effects Regressionsanalysen zum Einsatz. Die zentralen Charakteristika der Verfahren sind jedoch ähnlich, auch wenn die Interpretation der Ergebnisse oftmals leicht unterschiedlich ist.

3.2 Explorative Faktorenanalyse

Im Gegensatz zur Regressionsanalyse besteht das Ziel der (explorativen) Faktorenanalyse nicht in der Erklärung einer abhängigen Variable, sondern darin, mehrere direkt erhobene Variablen zu einem oder mehreren Faktoren zu bündeln. Diese Faktoren stellen latente (und damit sehr messgenaue) Konstrukte dar, die mittels der direkt erhobenen Variablen geschätzt werden können. Diese geschätzten Faktorscores^{Footnote 2} können anschließend für weiterführende Analysen verwendet werden, beispielsweise als abhängige oder unabhängige Variablen in einer Regressionsanalyse.

Die explorative Faktorenanalyse basiert auf den Korrelationen der Variablen und der Annahme, dass diese Korrelation durch einen gemeinsamen latenten Faktor zustande kommt. Je besser eine Variable durch den jeweiligen Faktor erklärt werden kann, desto höher ist die Faktorladung dieser Variable auf den Faktor. Dieser Vorgang ist vergleichbar mit einer Regressionsanalyse bei der die Variablen die unabhängigen Variablen darstellen und die Faktorladung den Beta-Koeffizient, während der Faktor die abhängige Variable bildet. Demnach gibt es auch hier eine Varianzaufklärung des Faktors durch die Variablen. Die Varianzaufklärung gibt an, wie gut dieser Faktor durch die auf ihn gebündelten Items erklärt werden können. In der Regel werden Faktoren extrahiert, die mehr Information enthalten als eine der ursprünglichen Variablen; also einen sogenannten Eigenwert > 1 aufweisen. Für den Fall, dass sich dabei zwei oder mehrere Faktoren bilden, wird in der Regel eine (orthogonale oder schiefwinkelige) Faktorrotation durchgeführt, welche eine klare Zuordnung der Items zu den jeweiligen Faktoren erlaubt.

3.3 Reliabilitätsanalyse

Explorative Faktorenanalysen werden üblicherweise dann durchgeführt, wenn im vornherein nicht klar ist, wie viele verschiedene Dimensionen hinter einer Anzahl von Items verborgen sind. Wenn einzelne Itembatterien (das ist eine größere Anzahl an Items) nur auf einen speziellen Faktor zurückgeführt werden können, dann kann die Messgenauigkeit dieses Faktors (= dieser Skala) geprüft werden. Sind die Items metrisch skaliert, das heißt, mit drei oder mehr Antwortmöglichkeiten, wobei die Abstände zwischen den Antwortmöglichkeiten gleich groß sind, wird die Reliabilität der Skala in der Regel mit dem Koeffizienten Cronbach’s Alpha (α) gemessen. Der Wert bildet die sogenannte interne Konsistenz der Skala ab. Sind die Items dagegen dichotom skaliert, das heißt, mit nur zwei Antwortkategorien (z. B. „Ja“ und „Nein“), so wird üblicherweise der Reproduktionskoeffizient zur Prüfung der internen Konsistenz herangezogen (vgl. Tab. 13.4). In der klassischen Literatur zur sozialwissenschaftlichen Statistik wird üblicherweise bei einem Wert > 0,7 von einer guten internen Konsistenz gesprochen, sprich, die Items messen das dahinterliegende Konstrukt mit ausreichender Präzision.

Tab. 13.4 Zentrale Kennwerte der Reliabilitätsanalyse und der Kontrastgruppenanalyse

Full size table

3.4 Kontrastgruppenanalyse

Bei der Kontrastgruppenanalyse handelt es sich um ein Verfahren, welches besonders zur Aufdeckung von Interaktionseffekten geeignet ist (vgl. Tab. 13.4). Im Unterschied zur näher besprochenen (OLS) Regressionsanalyse werden ausschließlich dichotome Variablen mit zwei Ausprägungen (z. B. Geschlecht mit den Ausprägungen männlich/weiblich) als unabhängige (erklärende) Variablen herangezogen. Diese werden im Gegensatz zur Regressionsanalyse außerdem nacheinander ins Modell inkludiert, um die abhängige Variable zu erklären. Dabei wird diejenige unabhängige Variable zuerst ausgewählt, welche die höchste Erklärungskraft bietet. Die Ergebnisse der Kontrastgruppenanalyse lassen sich dabei am einfachsten mittels Baumdiagrammen (wie man sie von Stammbäumen kennt) darstellen. Eine solche Darstellung ist im Beitrag „Arbeit und Familie im Covid-19-Alltag“ von (Beham-Rabanser et al. 2021) im Anhang enthalten.

Notes

1.
Multivariate Analysen bieten außerdem die Möglichkeit Interaktionen zwischen Variablen zu entdecken bzw. zu überprüfen. Auf diese Interaktionseffekte wird in diesem Glossar allerdings nicht weiter eingegangen, weil dies den Rahmen des Kapitels sprengen würde.
2.
Anstelle der Factorscores ist es auch möglich, den Mittelwert der dem Faktor zugehörigen Items zu bilden.

Literatur

Prandner, D. (2022). Zu Datengrundlage und Datenqualität: Methodische Reflexion zur quantitativen Erhebung während der Corona-Krise. In Aschauer, W., Glatz, C., Prandner, D. (Hrsg.), Die österreichische Gesellschaft während der Corona-Pandemie (S. 327–349). Springer, V.S., Wiesbaden.
Google Scholar

Download references

Author information

Authors and Affiliations

Institut für Soziologie, Karl Franzens Universität Graz, Graz, Österreich
Christoph Glatz
Institut für Soziologie, Johannes Kepler Universität Linz, Linz, Österreich
Dimitri Prandner
Fachbereich Politikwissenschaft und Soziologie, Paris-Lodron-Universität Salzburg, Salzburg, Österreich
Wolfgang Aschauer

Authors

Christoph Glatz
View author publications
You can also search for this author in PubMed Google Scholar
Dimitri Prandner
View author publications
You can also search for this author in PubMed Google Scholar
Wolfgang Aschauer
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Christoph Glatz .

Editor information

Editors and Affiliations

Universität Salzburg, Salzburg, Österreich
Wolfgang Aschauer
Universität Graz, Graz, Österreich
Christoph Glatz
Universität Linz, Linz, Österreich
Dimitri Prandner

Rights and permissions

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Glatz, C., Prandner, D., Aschauer, W. (2022). Glossar für statistische Analysetechniken. In: Aschauer, W., Glatz, C., Prandner, D. (eds) Die österreichische Gesellschaft während der Corona-Pandemie. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-34491-7_13

Download citation

DOI: https://doi.org/10.1007/978-3-658-34491-7_13
Published: 12 March 2022
Publisher Name: Springer VS, Wiesbaden
Print ISBN: 978-3-658-34490-0
Online ISBN: 978-3-658-34491-7
eBook Packages: Social Science and Law (German Language)

Publish with us

Policies and ethics

Glossar für statistische Analysetechniken

Zusammenfassung