Die Forschungsfragen werden mittels Analyse quantitativ erhobener Daten beantwortet. Dies geschieht mit dem Softwarepaket IBM SPSS 28. Analog zu den Schritten der Datenbearbeitung werde ich nach einem kurzen, aber wichtigen Hinweis auf den Unterschied zwischen Korrelation und Kausalität einige Anmerkungen zur uni- und bivariaten Datenanalyse machen und dann die logistische Regression inklusive Mehrebenenmodellierungen vorstellen. Dabei beschränke ich mich nicht auf den Verweis auf die einschlägige Literatur (Guo und Zhao 2010; Heck et al. 2012; Hosmer et al. 2013; Tabachnick und Fidell 2013), sondern stelle zwecks Nachvollziehbarkeit die zentralen Schritte und auch eigene Überlegungen dazu vor. So gibt es unterschiedliche Herangehensweisen, wie logistische Regressionsmodelle (wie auch andere statistische Methoden) ganz konkret angewandt werden. Insbesondere die Interpretation von unterschiedlichen Kennwerten und Indikatoren und die damit einhergehenden Handlungsentscheide, ob etwas getan wird oder nicht, sind vielfältig und häufig auch nur auf Ebene von Handlungswissen und damit verbundenen Faustregeln zu finden. Dieses Wissen findet sich meist nicht in den einschlägigen Beschreibungen der Methoden, sondern ist in Fussnoten, auf persönlichen Websites von Statistiker:innen oder in Onlinevideos und -tutorials zu finden. Zwecks Nachvollziehbarkeit der Analysen will ich mein Vorgehen und die verwendeten Kriterien deklarieren. Die daraus entstandenen Resultate können dadurch besser verstanden und eingeordnet werden.

Korrelation versus Kausalität

Diese Unterscheidung ist bekanntlich wichtig. Wenn zwischen einem Einflussfaktor und einem Effekt auf einen abhängigen Faktor ein Zusammenhang besteht, heisst das noch nicht, dass es sich dabei auch um Kausalität handelt.Footnote 1 Kausalität meint, dass der Einflussfaktor tatsächlich der Grund bzw. der Auslöser für den Effekt ist und dass die Wirkung auf den abhängigen Faktor von ihm ausgeht (Kühnel und Dingelstedt 2014, 1018). Um adäquat von kausalen Effekten sprechen zu können, müssen drei Kriterien erfüllt sein: (1) die Einflussfaktoren müssen zeitlich einem Effekt vorausgehen; (2) die Einflussfaktoren müssen mit dem Effekt logisch zusammenhängen; (3) alternative Erklärungen für die Effekte können ausgeschlossen werden (Shadish et al. 2002, 6; Kühnel und Dingelstedt 2014; Opp 2010, 11).

Um kausale Zusammenhänge tatsächlich untersuchen zu können, bedarf es zwecks zeitlicher Abfolge von Wirkmechanismen Paneldaten oder Experimente mit entsprechendem Versuchsaufbau, das heisst Interventions- und Kontrollgruppen (Kühnel und Dingelstedt 2014, 1026). Die vorliegende Studie basiert aber auf Querschnittsdaten, das heisst auf Daten, die zu einem bestimmten Zeitpunkt quer durch die Bevölkerung erfasst wurden. Darum kann das erste Kriterium (1), die zeitliche Vorlagerung, nicht erfüllt werden. Eine Annäherung bieten zwar die Fragen, die einen vergangenen Zustand betreffen (zum Beispiel Aktivität in der Kindheit), oder Fragen, die auf Konzepte zurückgreifen, von denen theoretisch angenommen wird, dass sie zeitlich stabil sind (zum Beispiel Persönlichkeitsstrukturen). Es bleibt aber bei einer Annäherung. Das zweite Kriterium (2) wird erfüllt, indem ich Zusammenhänge basierend auf entsprechender Theorie und aufgrund des Forschungsstandes herleite und dann auch reflektiere. Dem dritten Kriterium (3) werde ich gerecht, indem ich die Zusammenhänge im Rahmen von multivariaten Modellierungen auf mögliche alternative Erklärungen hin kontrolliere.

Bei den Auswertungen dieser Studie handelt es sich um Korrelationsauswertungen, da das Kriterium der zeitlichen Vorlagerung nicht erfüllt wird. Tatsächliche Kausalitäten können daher nicht direkt von den Daten abgeleitet und durch sie belegt werden. Entsprechend werden auch die Thesen formuliert. Sie bestehen darin, Zusammenhänge zu prüfen. Das heisst: Ich prüfe Kausalitätsannahmen, die ich deduktiv aus der Theorie ableite. Die entsprechenden angenommenen und beschriebenen Wirkmechanismen sind und bleiben in einem solchen Untersuchungsaufbau theoretischer Natur. Die vorgefundenen empirischen Zusammenhänge sind damit keine strikten Beweise für Kausalität. Sie lassen aber sehr wohl erkennen, ob eine dahinterliegende Theorie die im Datenbestand abgebildeten Verhältnisse plausibel macht oder ob sich die Theorie empirisch nicht halten lässt.

1 Uni- und bivariate Datenanalyse

Die univariate Beschreibung der verwendeten Variablen stellt den Ausgangspunkt der Datenanalyse dar. Diese univariate Analyse und Beschreibung ist insofern wichtig, als dadurch ersichtlich wird, um welche Daten es sich handelt und wie sie in die statistischen Modelle eingeflossen sind. Damit wird ersichtlich und nachvollziehbar, auf welchem Skalenniveau sich die einzelnen Variablen befinden, welche Ausprägungen sie besitzen und vor allem wie sie je nachdem rekodiert oder reskaliert wurden.

Mithilfe bivariater Methoden untersuche ich, vorbereitend für die multivariaten Modelle, die direkten Zusammenhänge zwischen den unabhängigen (hier Religiosität, Religion und Kontrollvariablen) und abhängigen Variablen (in diesem Fall freiwilliges Engagement und soziales Vertrauen) einerseits und zwischen den unabhängigen Variablen bzw. den Kontrollvariablen untereinander andererseits.

Diese bivariaten Analysen sind wichtig, um zu erkennen, welche unabhängigen Variablen potenziell einen Einfluss auf die abhängige Variable haben und welche nicht. Ziel dabei ist, insbesondere jene unabhängigen Variablen zu identifizieren, die einen möglichst starken Zusammenhang mit der abhängigen Variable haben. Unabhängige Variablen, die schon bivariat keinen Einfluss auf die abhängige Variable haben, können in den multivariaten Analysen tendenziell ausgeschlossen werden, wobei allerdings das Risiko hinsichtlich Supressionseffekten beachtet werden muss.Footnote 2 Um versehentliches Nichtaufdecken von Suppression zu verhindern, erstelle ich im Rahmen der Modellbildung für die zentralen unabhängigen Variablen (hier den Religiositätsvariablen) Zwischenmodelle, die solche Effekte aufdecken würden.Footnote 3

Bivariate Analysen sind ausserdem wichtig, um Multikollinearitäten aufzudecken, die es bei multivariaten Analyseverfahren zu verhindern gilt. Dabei handelt es sich um stark ausgeprägte Zusammenhänge zwischen den einzelnen unabhängigen Variablen bzw. den Kontrollvariablen untereinander. Tauchen hier starke Zusammenhänge auf, so ist dies ein Grund, einzelne unabhängige Variablen bzw. Kontrollvariablen von der weiteren Analyse auszuschliessen.

Die bivariaten Analysen erfolgen mittels Kontingenz- und Korrelationsanalysen sowie bei metrischen Variablen mittels t-Tests. Dabei wird untersucht, ob sich die Verteilung einer Variable zwischen verschiedenen Gruppen (beispielsweise engagiert / nicht engagiert) signifikant unterscheidet. Zusätzlich erfolgen die bivariaten Analysen mit Blick auf die multivariablen binären logistischen Regressionen mittels univariabler logistischer Regressionen (Hosmer et al. 2013, 90). Univariable logistische Regressionen ermöglichen die Interpretation der bivariaten Ergebnisse mit denselben Effektstärken, wie dann anschliessend auch die multivariaten Analysen bewertet werden.

Neben der Signifikanz eines Zusammenhangs bewerte ich jeweils auch das Ausmass eines Effekts. Die Bewertung erfolgt, wenn möglich, nach den Kriterien von Jacob Cohen (1988, 1992, 157). Dazu die wichtigsten Kennwerte:

Für die Bewertung des Effekts in Kontingenzanalysen wird Cramers V (CV) verwendet. Da es sich bei den unabhängigen Variablen um dichotome Variablen handelt, gilt in diesemFootnote 4: CV \(\ge\) 0.1: kleiner Effekt; CV \(\ge\) 0.3: mittlerer Effekt; CV \(\ge\) 0.5: grosser Effekt (Cohen 1988, 222). Des weiteren nutze ich für die Interpretation der Kontingenzanalysen die standardisierten Residuen (rsd) der einzelnen Ausprägungen. Als Faustregel gilt, dass ein standardisiertes Residuum \(\ge\) \(\left| 2 \right|\) auf einen inhaltlich relevanten Effekt hinweist (Field 2018, 857). Diese Residuen-Analyse hilft, die Referenzkategorien für die weiterführenden logistischen Regressionen zu bestimmen.

Für die Bewertung des Zusammenhangs bei ordinalen Variablen in Korrelationsanalysen wird Spearman’s Regressionskoeffizient \(r_{s}\) verwendet. Für die Bewertung der Stärke des Zusammenhangs gilt: \(\left| {r_{s} } \right| \ge\) 0.1: kleiner Effekt; \(\left| {r_{s} } \right|\) \(\ge\) 0.3: mittlerer Effekt; \(\left| {r_{s} } \right|\) \(\ge\) 0.5: grosser Effekt (Cohen 1988, 82).

Für die Bewertung des Zusammenhangs zwischen nominalen und metrischen Variablen verwende ich η (eta). Für die Bewertung der Stärke dieser Zusammenhänge gilt: \(\eta \ge\) 0.1: kleiner Effekt; \(\eta \ge\) 0.24: mittlerer Effekt; η \(\ge\) 0.37: grosser Effekt (Cohen 1988, 283, 1992, 157). Für Bewertung von Mittelwertsunterschieden bei t-Tests verwende ich Cohen’s \(d\) (Cohen 1988, 20). Für die Bewertung von Cohen’s \(d\) gilt: \(\left| d \right|\) \(\ge\) 0.1: kleiner Effekt; \(\left| d \right|\) \(\ge\) 0.3: mittlerer Effekt; \(\left| d \right| \ge\) 0.5: grosser Effekt (Cohen 1988, 40).Footnote 5

Für die Bewertung des Zusammenhangs in univariablen logistischen Regressionen werden Odds Ratios (OR) verwendet. Für die Interpretation der OR gilt: OR \(\le\) 0.66 / \(\ge\) 1.5: kleiner Effekt; OR \(\le\) 0.40 / \(\ge\) 2.5: mittlerer Effekt; OR \(\le\) 0.25 / \(\ge\) 4.0: grosser Effekt.Footnote 6

2 Multivariate Datenanalyse mittels logistischer Regression

Aufbauend auf den uni- und bivariaten Analysen erstelle ich multivariable binäre logistische Regressionsmodelle. Die logistische Regression wird am intensivsten im Medizinalbereich angewandt und wurde in diesem Fachbereich auch am stärksten weiterentwickelt (Tabachnick und Fidell 2013, 483). Sie kommt dann zur Anwendung, wenn die zu untersuchende abhängige Variable dichotom ausgeprägt ist. Dies ist hier der Fall. Die abhängigen Variablen sind dichotome Dummy-Variablen (0 = nicht engagiert / 1 = engagiert bzw. 0 = kein soziales Vertrauen / 1 = soziales Vertrauen). Dabei wird der Zusammenhang zwischen den unabhängigen Variablen und der Wahrscheinlichkeit abgeschätzt, dass die abhängige Variable den Wert 1 annimmt. Mittels eines Maximum-Likelihood-Schätzungsalgorithmus wird in mehreren Iterationen jene logistische Funktion geschätzt, welche die vorhandenen Daten am besten abbildet.Footnote 7 Dabei werden so viele Iterationen vollzogen, bis die besten Schätzer gefunden, beziehungsweise bis sich das Modell nicht mehr verbessert und damit den vorhandenen Daten bestmöglich angepasst hat, das heisst mit ihnen konvergiert.

Voraussetzungen für binäre logistische Regressionsmodelle Footnote 8

Für die erfolgreiche Anwendung logistischer Regressionsmodelle sind folgende Voraussetzungen zu beachten:

  1. (1)

    Die abhängige Variable besitzt nominales Skalenniveau und muss entsprechend kodiert sein (daher 0/1).

  2. (2)

    Die abhängige Variable besitzt keine zu extreme Verteilung wie zum Beispiel 5 % zu 95 % (Diaz-Bone 2019, 236).

  3. (3)

    Die unabhängigen Variablen sind entweder metrisch oder ebenfalls binär als Dummy-Variable kodiert.Footnote 9

  4. (4)

    Für jede Gruppe, die bivariat durch Dummy-Variablen gebildet wird, ist eine minimale ZellbesetzungFootnote 10 von \(\ge\) 25 notwendig (Diaz-Bone 2019, 236).

  5. (5)

    Multikollinearität ist auszuschliessen (Pallant 2020, 176): Die unabhängigen Variablen dürfen miteinander nicht stark korrelieren. Tritt ein starker Zusammenhang auf, deutet das darauf hin, dass diese Variablen dasselbe Konstrukt oder zumindest etwas Ähnliches messen. Dadurch entstehen im Rahmen multivariater Analysen Schwierigkeiten hinsichtlich der Frage, welcher Faktor nun einen eigenständigen Effekt hat und welcher nicht. Um Multikollinearität auszuschliessen, erfolgt die Berechnung von Toleranz-Werten (Diaz-Bone 2019, 206).Footnote 11 Als Faustregel gilt, dass der Toleranzwert T nicht kleiner als 0.1 sein darf. Ein kleinerer Wert würde bedeuten, dass die Variation einer unabhängigen Variable von den anderen Unabhängigen um mehr als zu 90 % erklärt werden kann. Sozialwissenschaftlich betrachtet handelt es sich dann aber im Prinzip um dasselbe Konstrukt. Schon Werte kleiner als 0.2 betrachte ich als problematisch, da sie erfahrungsgemäss zu Problemen in der Interpretation der Ergebnisse führen, weil nicht klar auszumachen ist, wovon nun ein Effekt ausgeht und wovon nicht.

  6. (6)

    Ausreisser, die einen starken Einfluss auf das Modell haben, müssen für die finalen Berechnungen ausgeschlossen werden. Um Ausreisser zu identifizieren, werden die fallweisen standardisierten Residuen und die Distanzen nach Cook analysiert.

    Hinsichtlich der Frage, ab wann ein Fall als Ausreisser gilt, gibt es unterschiedliche Meinungen. So definieren Dieter Urban und Jochen Mayerl (2018a, 176) als Ausreisser jene Fälle, deren Residuen ausserhalb von 2 Standardfehlern zu liegen kommen, was bei standardisierten Residuen dem Wertbereich von \(\pm\) 2 entspricht.Footnote 12 Julie Pallant (2020, 186) verwendet das Kriterium von \(\pm\) 2.5 mit der Begründung, dass damit 99 % aller Fälle innerhalb dieser Bandbreite zu liegen kommen.Footnote 13 Und Barbara Tabachnick und Linda Fidell (2013, 107) verwenden den Wert von \(\pm\) 3.29 mit der Begründung, dass 99.9 % der Fälle innerhalb von 3 Standardfehlern, das heisst \(\pm\) 3.29 zu liegen kommen. David Hosmer, Stanley Lemeshow und Rodney Sturdivant (2013, 197) schlagen vor, sich insbesondere auch entsprechende Punktdiagramme anzuschauen. Zwar gäbe es, so Hosmer und Kollegen weiter, objektive Kriterien für die Definition, was als Ausreisser gilt und was nicht (wie die soeben beschriebenen), aber je nach Modell und insbesondere auch je nach Anzahl Fälle, könnten andere Fälle als Ausreisser relevant werden, die mit rein objektiven Kriterien nicht erfasst würden. Ich schliesse mich hier einerseits dem Kriterium von Tabachnick und Fidell (daher \(\pm\) 3.29) an, da gerade bei grossen Stichproben sonst schnell viele Fälle als Ausreisser gelten würden und sich bei Ausschluss zu vieler Fälle das Modell grundsätzlich verändern würde. Einzelne Ausreisser-Gruppen, die inhaltlich relevant sein könnten, würden mit einem zu hartem Kriterium potenziell ausgeschlossen. Andererseits erachte ich den Hinweis von Hosmer, Lemeshow und Sturdivant (2013, 197) als relevant und erstelle Punktdiagramme der standardisierten Residuen zwecks visueller Analyse.

    Hinsichtlich der Cook Distanz schlagen Dennis Cook und Sanford Weisberg (1982) vor, Fälle auszuschliessen, bei denen der Wert grösser als 1 ist. Hosmer et al. (2013, 197) bestätigen dieses Kriterium, weisen aber wiederum auf die Wichtigkeit visueller Analysen hin. Ich werde daher die Cook Distanzen sowohl nummerisch als auch mittels Punktdiagrammen visuell untersuchen.

Für eine erfolgreiche Anwendung der logistischen Regression sind folglich die Kodierungen und Skalenniveaus der abhängigen und unabhängigen Variablen, die Zellbesetzungen und der Ausschluss von Multikollinearitäten und Ausreissern wichtig.

Modellbildung

Ziel eines multivariablen Regressionsmodells ist die Überprüfung der postulierten Zusammenhänge unter möglichst kontrollierten Bedingungen zwecks Ausschlusses von Alternativerklärungen.

Auf der einen Seite sind aufgrund der Grösse der vorhandenen Stichprobe des KONID Survey 2019 umfassende Modelle möglich. Zudem umfasst der KONID Survey 2019 viele unterschiedliche Variablen. Mit jeder, insbesondere metrischen VariableFootnote 14, die in ein logistisches Regressionsmodell integriert wird, vervielfältigen sich aber die Kombinationsmöglichkeiten der unabhängigen Variablen untereinander (covariate patterns). Dies kann, muss aber nicht einen negativen Einfluss auf die Modellgüte haben (Hosmer et al. 2013, 154).

Grundsätzlich ist ein Modell dann gut, wenn es die realen, im Datensatz vorhandenen Messpunkte der abhängigen Variable adäquat vorherzusagen vermag. Zweck und auch Inhalt eines Modells ist, mittels mathematischer Gleichungen eine bestimmte abhängige Variable basierend auf unabhängigen Variablen bestmöglich zu schätzen und entsprechend vorauszusagen. Ziel ist, eine möglichst hohe Voraussagekraft bei gleichzeitig möglichst wenig unabhängigen Variablen zu generieren (Hosmer et al. 2013, 40, 89ff). Ein sparsames Modell, das gleichzeitig eine möglichst hohe Voraussagekraft hat, ist auch ein robustes Modell. Es bildet mit wenigen Variablen den zu untersuchenden Zusammenhang möglichst kontrolliert ab.

Die Modellbildung selbst geschieht in fünf Schritten:

  1. (1)

    In einem ersten Schritt gilt es, die relevanten unabhängigen Variablen, die von Interesse sind, hier Religiositätsvariablen, zu identifizieren. Dies beginnt damit, dass bivariat untersucht wird, welche Variablen einen Einfluss auf die abhängigen Variablen haben. Gleichzeitig wird überprüft, ob die Zellbesetzungen unproblematisch sind sowie ob keine augenfälligen Multikollinearitäten vorliegen.

  2. (2)

    Um Supressionseffekte ausschliessen zu können, wird ein multivariates Erstmodell bestehend aus allen unabhängigen Variablen, hier Religiositätsvariablen, gebildet.

  3. (3)

    Basierend auf Schritt 1 und 2 und der Interpretation der Einflussstärken der einzelnen Variablen wird ein Zwischenmodell erstellt. Diesbezüglich ist der Vergleich der Einflussstärken einzelner Variablen über mehrere Modelle hinweg relevant, was nicht unproblematisch ist. Denn eine gewisse Abweichung der Einflusskoeffizienten wird sich allein aufgrund der Tatsache ergeben, dass es sich um unterschiedliche Modelle, das heisst um unterschiedliche Schätzungen handelt. Als Faustregel gilt, dass Abweichungen der Punktschätzungen der Effektkoeffizienten von mehr als 20 % darauf hindeuten, dass die ausgeschlossenen Variablen gewirkt hätten (Hosmer et al. 2013). Ist dies der Fall, muss untersucht werden, welche Variablen wieder hinzugenommen werden müssen.

  4. (4)

    In einem nächsten Schritt werden diesem Zwischenmodell die Kontrollvariablen hinzugefügt. Dabei wird iterativ überprüft, ob einzelne Kontrollvariablen ohne Relevanz ausgeschlossen werden können, oder ob dies umgekehrt zu markanten Abweichungen der Punktschätzungen der anderen Effektkoeffizienten führt und ob die Variablen nicht dennoch im Modell verbleiben müssen.

  5. (5)

    Spätestens von diesem Schritt an, der bisweilen aber auch parallel zu allen bisherigen Schritten mitläuft, wird die Gesamtgüte des Modells bewertet, um zu entscheiden, ob das beste Modell auf Basis der Daten und Variablen vorliegt oder ob einzelne Variablen hinzugenommen oder ausgeschlossen werden müssen.

  6. (6)

    In einem letzten Schritt werden, basierend auf dem letzten Modell, die Ausreisser definiert und ausgeschlossen, um das finale Modell bzw. je nachdem auch die Vorläufermodelle nochmals zu schätzen (Tabachnick und Fidell 2013, 489; Pallant 2020, 176, 178). Die Güte eines Modells, dazu gleich mehr, wird mit dem Ausschluss relevanter Ausreisser tendenziell nochmals besser.

Bewertung und Interpretation logistischer Regressionsmodelle

Bevor mit der Bewertung und Interpretation begonnen werden kann, muss jeweils kurz geprüft werden, ob das Modell konvergiert oder nicht, das heisst, ob ein Modell aufgrund der Schätziterationen erfolgreich geschätzt werden konnte oder nicht. Kam keine stabile Schätzung zustande, passt das Modell bzw. die verwendete (hier logarithmischen) mathematischen Funktion nicht zu den Daten. Dann sind andere Methoden bzw. Funktionen einzusetzen, um die Daten adäquat in einem Modell abbilden zu können.

Es ist zu unterscheiden zwischen der Bewertung der Güte des Gesamtmodells und der Bewertung und Interpretation der einzelnen Zusammenhänge zwischen unabhängigen und abhängigen Variablen, das heisst der Güte der einzelnen Regressionskoeffizienten.

Güte des Gesamtmodells

Die Güte des Gesamtmodells wird mit mehreren Kennwerten umschrieben und bewertet. Ziel dieser Kennwerte ist eine Aussage darüber, wie gut die modellierten zu den vorhandenen Daten passen. Ich stelle im Folgenden die Kennwerte vor, die ich für die Güte eines Gesamtmodells bzw. für den Vergleich zwischen Modellen verwende.

Log-Likelihood Kennwert: Der Log-Likelihood (LL) Kennwert berechnet sich auf Grundlage der fallspezifischen Differenzen zwischen der realen Ausprägung eines Falls und der vom Modell vorausgesagten Wahrscheinlichkeit, dass ein Fall die Ausprägung 0 oder 1 hat (Tabachnick und Fidell 2013, 492f). Je kleiner der LL-Kennwert ist, desto besser, da weniger Differenz vorliegt. Der LL-Kennwert allein ist kein Kriterium für die Güte eines Modells. Erst im Modellvergleich ergibt sich eine Interpretationsleistung: Werden einem Modell zusätzliche Variablen hinzugefügt und der LL-Kennwert bleibt gleich oder sinkt, dann steigt die Aussagekraft des Modells, da die Differenzen bzw. die Residuen in der Summe kleiner werden. So wird zur Erstbewertung eines Gesamtmodells meist schlicht ein Chi-Quadrat-Test gemacht, der den LL-Kennwert eines erstellten Modells mit demjenigen eines Null-Modells vergleicht, das nur die unabhängige Variable und eine Konstante enthält (Tabachnick und Fidell 2013, 504). Ist der Test signifikant, heisst das aber nur, dass das erstellte Modell besser ist als gar keines. Das Problem dabei ist, dass mit genügend Variablen mindestens eine kleine Verbesserung sehr wahrscheinlich ist und der Test entsprechend nicht sehr sensitiv ist.

Hosmer-Lemeshow-Test: Dieser Test wurde von den Biostatistikern David Hosmer und Stanley Lemeshow entwickelt, weil sie die direkte Anwendung des Chi-Quadrat-Tests basierend auf dem Vergleich zwischen Null-Modell und gebildetem Modell als ungenügend betrachteten (Hosmer et al. 2013, 157ff). Der Test prüft, wie schlecht die Daten zum Modell passen. Signifikant heisst also schlechte Anpassung. Der Test soll daher möglichst nicht signifikant werden.Footnote 15

AUC: AUC steht für Area under curve und die Kurve bildet die Receiver Operating Characteristic (ROC) ab.Footnote 16 Der Kennwert basiert auf der Idee vom Prognoseerfolg und kombiniert Sensitivität und Spezifität der Voraussage, das heisst wie gut das Auftreten der Ausprägung 1 (Sensitivität) und zugleich das Nichtauftreten, das heisst die Ausprägung 0 (Spezifizität) vom Modell, vorausgesagt wird (Hosmer et al. 2013, 170f). Dieses Verhältnis kann als Graph mit zwei Achsen dargestellt werden. Die Fläche, die sich unter der dabei entstehenden ROC-Kurve ergibt, dient als Kennwert für den Prognoseerfolg des Modells. ROC-Werte können zwischen 0.5 und 1 zu liegen kommen, wobei ein Wert von 0.5 besagt, dass das Modell schlecht ist beziehungsweise «ebenso eine Münze geworfen werden könnte» (Hosmer et al. 2013, 177). ROC-Werte ab 0.5 beschreiben demnach einen schlechte, ab 0.7 eine akzeptable, ab 0.8 eine exzellente und ab 0.9 eine ausserordentliche Modellleistung.

Pseudo-R2: Dabei handelt es sich um den Versuch, R2-Werte, wie sie aus der linearen Regression bekannt sind, für die logistische Regression fruchtbar zu machen. Als bestes Pseudo-Mass für logistische Regressionen hat sich dabei Nagelkerkes R2 herausgestellt (Diaz-Bone 2019, 249).Footnote 17 Je grösser dieser Wert ist, desto besser ist die Anpassungsgüte. Die Interpretation ist aber nicht identisch mit jener aus der linearen Regression. Die Werte dürfen nicht analog zu Pearsons R2 als Wert für die Varianzaufklärung interpretiert werden (Hox 2018, 124). R2-Werte basieren auf der Idee von Mittelwerten. Bei binären Variablen macht eine Mittelwert-Berechnung an sich keinen Sinn. Sie wird im Rahmen logistischer Regressionen dennoch gemacht, da die modellierten Schätzwerte faktisch die Wahrscheinlichkeiten P (y = 1) darstellen und damit aus Modellsicht als metrisch (aber eben nicht linear) betrachtet werden können. Die Werte der Pseude-R2-Masse sind bei logistischen Regressionen tendenziell tiefer und sind daher in ihrer Interpretation schwierig (Hosmer et al. 2013, 185; Hox 2018, 124). Sie bilden aber eine Behelfsbrücke zu den Effektstärken nach Cohen (1988). Aus diesem Grund verwende ich die Masse trotz ihren Schwierigkeiten und berechne basierend darauf die entsprechenden f2-Werte nach Cohen (1988, 410).Footnote 18 Ein \(f^{2}\)-Wert ab .02 entspricht demnach einem kleinen Effekt, ab .15 einem mittleren und ab .35 einem grossen Effekt (Cohen 1988, 413 f.). Da die Pseudo-Masse eher tief zu liegen kommen, ist die Einschätzung des Gesamteffekts dann eher konservativ, was aber einem Robustheitsanspruch zugutekommt.

Güte der einzelnen Regressionskoeffizienten

Ebenso wie es mehrere Kennwerte zur Bestimmung der Modellgüte als Gesamtes gibt, existieren mehrere Kennwerte zur Bestimmung der Güte der einzelnen Regressionskoeffizienten, das heisst der Masszahlen für die Stärke des Zusammenhangs zwischen einer unabhängigen Variablen und der abhängigen.

Ausgangspunkt für die Interpretation dieser Zusammenhänge sind die jeweiligen Regressionskoeffizienten der einzelnen unabhängigen Variablen. Diese sind im Rahmen der logistischen Regression aber nur sehr schlecht direkt interpretierbar. Intuitiv interpretiert werden kann nur das Vorzeichen. Ein positives Vorzeichen eines Regressionskoeffizienten bedeutet einen positiven Zusammenhang, ein negatives einen negativen. Basierend auf dem Regressionskoeffizienten und dem dazugehörigen Standardfehler gibt der Wald-Test an, ob der Zusammenhang signifikant ist oder nicht (Hosmer et al. 2013, 14, 40; Tabachnick und Fidell 2013, 505). Basierend auf dem Regressionskoeffizienten und dem Wald-Test kann bestimmt werden, ob eine Variable in einem signifikant positiven oder negativen Zusammenhang mit der abhängigen Variablen steht.

Um die Regressionskoeffizienten inhaltlich interpretieren zu können, werden davon abgeleitete Odds Ratios (OR) verwendet. OR geben die verhältnismässige Veränderung der Odds an. Odds ihrerseits stellen das Chancenverhältnis dar, dass ein Fall mit einer bestimmten Ausprägung der unabhängigen Variable x, in der Kategorie y = 1 und nicht y = 0 ist (Tabachnick und Fidell 2013, 509). OR bilden also ein «Verhältnis von Verhältnissen» ab (Diaz-Bone 2019, 78) und sind entsprechend Verhältnisangaben, weswegen sie auch als Prozentwerte umgerechnet und entsprechend interpretiert werden können. Die prozentuale Steigerung bzw. Senkung des Odds, das heisst der Chance für y = 1 statt x = 0, ergibt sich aus \(p = OR - 1\).

Zur Interpretation der Odds Ratios kann gesagt werden: OR kleiner als 1 weisen auf einen negativen Effekt der entsprechenden unabhängigen Variablen hin, grösser als 1 auf einen positiven. Um diesbezüglich die Signifikanz bewerten zu können, sind die Konfidenzintervalle für die Odds Ratios nötig und müssen mitberichtet werden (Ferguson 2009, 536). Schneidet das Intervall den Wert 1, so kann nicht genügend Sicherheit angegeben werden, in welche Richtung die unabhängige Variable auf die abhängige wirkt und der Zusammenhang ist nicht signifikant – analog sichtbar im Wald-Test (Diaz-Bone 2019, 257). Häufig stoppt hier die Interpretationsleistung logistischer Regressionen, da angenommen wird, dass eine darüberhinausgehende Interpretation nicht möglich ist (Wolf und Best 2010, 832). Dann bleibt die Interpretation aber auf dem Niveau eines Vorzeichentests.

Die OR müssen als Effektgrössen aber auch hinsichtlich ihrer Ausprägungsstärke interpretiert werden (Ferguson 2009, 532). Dabei ergeben sich drei Herausforderungen: Erstens reagieren die Koeffizienten in einem logistischen Regressionsmodell sensitiv auf Veränderungen im Modell. Damit sind sie nur mit Vorsicht über mehrere Modelle hinweg vergleichbar (Behnke 2015, 87; Buis 2017, 13; Field 2018, 910).Footnote 19 Zweitens führen unterschiedliche Skalen bei unabhängigen metrischen Variablen zu unterschiedlichen OR und lassen sich damit nicht direkt vergleichen. Dieses Problem lässt sich aber zumindest im Ansatz lösen, indem die metrischen Variablen standardisiert werden (Heck et al. 2014, 21; Urban und Mayerl 2018b, 397–399; van den Berg 2021).Footnote 20 Und drittens beziehen sich die OR kleiner als 1 auf eine andere Skalierung (0, 1) als diejenigen grösser als 1 (1, \(\infty\)) (Urban und Mayerl 2018b, 403). Die Berechnung von Kehrwerten (falls gewünscht) löst dieses Problem. Alternativ kann, wie hier getan, bei der grafischen Darstellung der OR die x-Achse logarithmiert werden, sodass die unterschiedlichen Skalenbreiten nicht zu stark ins Gewicht fallen. Was unter Beachtung von Standardisierung und unterschiedlicher Skalierung auf alle Fälle legitim ist, ist der Vergleich untereinander: Ein OR von 3 ist hinsichtlich seines Effekts doppelt so gross wie ein OR von 1.5. Und diejenige Variable mit dem grössten OR hat den grössten Effekt (Mood 2010, 72). Dies löst aber nicht das Problem bzgl. der Interpretation der OR im Sinne von Effektgrössen.

Hinsichtlich der Frage, welche OR auf einen starken Effekt hindeuten und welche faktisch keinen oder nur einen Hintergrundeffekt darstellen, schlägt Christopher Ferguson (2009, 533) für die Sozialwissenschaften vor, von einem praktischen, im Alltag relevanten, aber kleinen Effekt ab OR = 2, von einem mittleren Effekt ab OR = 3 und von einem starken Effekt ab OR = 4 zu sprechen.Footnote 21 Henian Chen, Patricia Cohen und Sophie Chen (2010, 862) greifen diesbezüglich auf Cohen’s d zurück und schlagen vor, die Grenzwerte abhängig von der Wahrscheinlichkeit y = 1 in der jeweiligen Referenzkategorie zu setzen. Liegt diese in der Referenzkategorie bei 1 %, kommen die Grenzwerte für kleine, mittlere und grosse Effekte bei 1.68, 3.47 und 6.71 zu liegen; bei 5 % liegen die Grenzwerte bei 1.52, 2.74 und 4.72 und bei 10 % liegen sie bei 1.46, 2.49 und 4.13. Dabei weisen sie berechtigterweise auf die Tatsache hin, dass schon Cohen (1988) diese Grenzwerte jeweils als «rules of thumb», das heisst als Faustregeln betrachtete (Chen et al. 2010, 864). Bei keinen der hier verwendeten Variablen tritt eine Wahrscheinlichkeit y = 1 in der jeweiligen Referenzkategorie kleiner als 10 % auf. OR können auch in andere Effektstärken umgerechnet werden. So entspricht ein OR von 1.437 einem Cohen’s d von 0.2, ein OR von 2.477 einem d von 0.5 und ein OR von 4.268 einem d von 0.8 (Sánchez-Meca et al. 2003; Borenstein et al. 2009; Lenhard und Lenhard 2016). Basierend darauf und auf dem Vorschlag von Ferguson leite ich als Faustregel für die Interpretation der OR davon ab: kleine Effekte ab OR = 1.5; mittlere Effekte ab OR = 2.5 und grosse Effekte ab OR = 4. Ich werde für die Bewertung der einzelnen Regressionskoeffizienten in der Folge die OR inklusive der entsprechenden 95 %-Konfidenzintervalle berichten und gemäss erstellter Faustregel bewerten. Die Berichterstattung erfolgt einerseits im Rahmen entsprechender Tabellen für die jeweiligen Modelle, abgelegt im Anhang, das heisst im elektronischen Zusatzmaterial (ESM). Sodann werde ich basierend darauf grafische Darstellungen der OR inklusive ihrer Konfidenzintervalle erstellen. Daraus ergibt sich der Vorteil, dass die erstellten Grenzwerte für die Effektbewertung ebenso eingezeichnet werden können und die Beurteilung der unterschiedlichen Effekte vereinfacht wird.

Ganz unabhängig von der Bewertung der OR ist es zentral, einschlägige Zusammenhänge grafisch und explorativ zu interpretieren. Ich tue dies vorliegend mittels grafischer Darstellung der proximalen Wahrscheinlichkeiten bei den zentralen Zusammenhängen. Damit wird der Tatsache entsprochen, dass es sich um eine logistische und daher nicht-lineare Regression handelt und dies auch Eingang in die Interpretation finden sollte. Insbesondere werden damit die Effektstärken greifbar hinsichtlich ihrer Auswirkungen auf die vorausgesagten Wahrscheinlichkeiten. Effekte müssen im Spiegel der in den Daten vorgefundenen Unterschiede und der davon abgeleiteten praktischen Relevanz interpretiert werden.

Probleme bei logistischer Regression mit Gewichtungen und Missings

Im Rahmen der Analyse von Umfragedaten ist die Verwendung von Gewichtungen, aber auch das Auftreten von Missings der Normalfall. Der Einsatz von Gewichtungen und das Auftreten zu vieler Missings können insbesondere in Kombination zu Problemen bei der logistischen Regression führen. Wenn viele Missings auftreten, kann dies die beabsichtigte Gewichtung verzerren, da einzelne Fälle fehlen (Hosmer et al. 2013, 235). Ich gehe aber davon aus, dass die Ausfälle nicht systematisch mit den Gewichtungen zusammenhängen, es sich also um zufällige Ausfälle handelt. Unter dieser Annahme stellt die mögliche Verzerrung durch Gewichtung kein Problem mehr dar.

Logistische Regressionen können nur mit jenen Fällen gerechnet werden, von denen Werte zu allen Variablen vorliegen. Das ist insofern problematisch, als dass insbesondere bei klassischen Surveys, schon fast zwangsläufig entsprechend viele Missings entstehen, sobald man grössere Modelle entwickelt. Daher ist bei grossen Ausfallquoten zu untersuchen, welche Variablen vor allem zu den Ausfällen führen, um dann variablen-spezifisch nach Lösungen zu suchen. Hosmer, Lemeshow und Sturdivant (2013, 395ff) und Ronald Heck und Scott Tabata (2014, 24) schlagen in diesem Fall eine multiple Imputation vor.

3 Logistische Mehrebenenmodelle

Die bisherigen Ausführungen beziehen sich auf logistische Regressionsmodelle mit nur einer Ebene – hier der Individualebene. Zusätzlich soll aber auch auf Kontexteffekte hin kontrolliert werden. Dafür ist die Erstellung von Mehrebenenmodellen notwendig. Der Unterschied zwischen einem Einebenenmodell und einem Mehrebenenmodell besteht darin, dass Kontexteffekte korrekt geschätzt werden. Das heisst, dass bei direkten Einflüssen der Kontexteffekte auf die abhängige Variable zusätzlich ein Fehlerterm für die Kontextebene mitmodelliert und damit auf die Kontextvarianz und auf unterschiedliche Kontextgegebenheiten hin kontrolliert wird. Um diese Kontexteffekte im Rahmen eines logistische Mehrebenenmodells mitzuschätzen, rechne ich generalisierte lineare Modelle mit logit Link (Snijders und Bosker 2012, 289ff; Hox 2018, 103ff).

Voraussetzungen und Herausforderungen

Zusätzlich zu den Voraussetzungen für oben beschriebene logistische Modelle muss bei Mehrebenenmodellen die Anzahl der Gruppen auf Kontextebene und die Stichprobengrösse innerhalb der einzelnen Gruppen mitbedacht werden. Grundsätzlich gilt: Je mehr Fälle, desto stabiler die Modelle ganz allgemein (Tabachnick und Fidell 2013, 844; Hox 2018). Tendenziell gilt zudem: Besser mehr Gruppen auf Kontextebene, dafür kleine, als wenige Gruppen, dafür grosse (Tabachnick und Fidell 2013, 845; Hox 2018, 214). Hinsichtlich der Voraussetzung, wie viele Fälle der Individualebene es im Schnitt innerhalb von wie vielen Gruppen der Kontextebene mindestens braucht, gehen die Meinungen auseinander: von 30/30, über 50/20 bis hin zu 100/10 wird vieles beschrieben (Hox 2018, 215f). Rein theoretisch sind gleichzeitig sogar Gruppengrössen von bis zu eins möglich, solange andere Gruppen grösser sind und dies dann wieder ausgleichen (Tabachnick und Fidell 2013, 844).Footnote 22

Hinsichtlich der Bewertung von Regressionskoeffizienten und Modellgüte unterscheidet sich ein Mehrebenenmodell nicht von einem Einebenenmodell. Demgegenüber akzentuiert sich aber das Problem der Gewichtung, und zwar in zweierlei Hinsicht: Erstens beziehen sich die Individualgewichte nur auf die Individualebene. Innerhalb unterschiedlicher Gruppen auf Kontextebene wirken dann die Gewichte unterschiedlich. Allfällige Resultate würden verzerrt. Es gibt gegenwärtig noch kein allgemein anerkanntes Prozedere, wie mit Gewichtungen in logistischen Mehrebenenmodellen umgegangen wird (Heck et al. 2012, 33). Dieses Problem ist aber unproblematisch, solange keine zufälligen (random) Effekte innerhalb unterschiedlicher Gruppen vertieft untersucht werden. Das wird hier nicht getan. Ein zweites Problem bezieht sich auf die Routine für das generalisierte lineare Modell innerhalb von IBM SPSS. Dieses erlaubt zwar die Verwendung von einfachen Gewichtungen, rundet diese aber auf die nächste ganze Zahl. Dies ist insofern problematisch, als dass aufgrund des Stichprobendesigns Überquotierungen vorliegen, welche mit entsprechenden Gewichtungen heruntergewichtet werden.Footnote 23 Diese Fälle werden aufgrund des Rundungsprozederes wegfallen, da ihre Gewichtung auf 0 gerundet wird.

Ich werde daher wie folgt vorgehen: Ich verwende für die Effekte auf Individualebene die normale logistische Regression, da so die Fälle und damit verbundenen Informationen komplett in die Schätzungen einfliessen. Für die Mehrebenenmodelle und die entsprechenden Kontexteffekte teile ich die Resultate der generalisierten linearen Modelle mit. Um allfällige Effekte der Kontextvariablen auf die Individualeffekte auszuschliessen, kontrolliere ich die diesbezüglichen Differenzen zwischen den Einebenen- und Zweiebenenmodellen.

Modellbildung

Bevor mit der Bildung eines Mehrebenenmodells begonnen werden kann, muss mit der Erstellung eines Nullmodells überprüft werden, ob dies überhaupt sinnvoll bzw. Ertrag versprechend ist. Wie gesagt, besteht der Unterschied zwischen einem Individual- und einem Mehrebenenmodell darin, dass zusätzlich ein Fehlerterm für die Kontextebene mitmodelliert und damit auf die Kontextvarianz und somit auf unterschiedliche Kontextgegebenheiten hin kontrolliert wird. Ist keine solche Kontextvarianz vorhanden, macht es keinen Sinn, sie im Rahmen eines Mehrebenenmodells auf diese hin zu prüfen, da dann die Kontextvariable ebenso als Kontrollvariable auf Individualebene mitgeschätzt werden kann.

Ein Null-Modell besteht nur aus der abhängigen Variablen und einem Intercept, das auf Individualebene konstant ist, aber auf Kontextebene variiert. Die sich damit ergebende Varianz der Kontextebene kann dann ins Verhältnis zur Individualebene gesetzt und eine Intra Class Correlation ICC berechnet werden (Heck et al. 2012, 157).Footnote 24 Basierend auf dem ICC und der mittleren Gruppengrösse auf Kontextebene kann ein RichtwertFootnote 25 berechnet werden, der, wenn er grösser als zwei ist, darauf hinweist, dass eine Mehrebenenmodellierung sinnvoll ist, da entsprechend Varianz auf Kontextebene gegeben ist, bei der es sich lohnt, daraufhin zu kontrollieren. Auch diesbezüglich knappe Resultate könnten auf einen Mehrwert hindeuten, da die Kontextvarianz bei weniger als 30 Gruppen tendenziell unterschätzt wird (Hox 2018, 215).

Macht ein Mehrebenenmodell Sinn, wird zuerst ein Modell nur mit Individualvariablen erstellt. Dabei handelt es sich um das jeweils finale Modell auf Individualebene. Der diesbezügliche Abgleich weist einerseits auf den Effekt der unterschiedlichen Verwendung der Gewichtung hin, andererseits auf den Einfluss der Kontextebene. In einem letzten Schritt werden dann die Kontexteffekte der zweiten Ebene, hier des kantonalen Kontexts, einzeln hinzugefügt, um diese hinsichtlich ihres Effekts auf die abhängige Variable zu untersuchen. Aufbauend auf diese «fixed-effects-random-intercept»-Modelle sind dann weitere Modelle möglich, welche einerseits je nach Kontext unterschiedliche Individualeffekte oder die Interaktion zwischen Kontext- und Individualeffekten untersuchen.

Zusammengefasst wird es mit der Verwendung von Mehrebenenmodellen im Rahmen dieser Studie möglich, Kontexteffekte der kantonalen Ebene auf ihre Wirksamkeit in Bezug auf freiwilliges Engagement bzw. auf soziales Vertrauen hin zu untersuchen.