Dieses Forschungsvorhaben baut auf einer vorangegangenen Studie auf, deren Daten im Sommer 2016 im Rahmen einer Lehrforschung an der Universität Bielefeld erhoben wurden (vgl. Diekmann 2017, 2020b). Sowohl der neu konzipierte Fragebogen als auch das experimentelle Design sind explizit auf die Forschungsfrage zugeschnitten und reagieren damit auf Probleme, die in der Vergangenheit aufgetreten sind und zu Herausforderungen in der Datenanalyse geführt haben. Zu diesen Herausforderungen zählt etwa die ungleiche Stärke der einzelnen Items, das heißt eine unterschiedlich drastische Formulierung der Items, die einen Vergleich der Zustimmung zu diesen Items schwierig macht.

4.1 Erhebungsinstrument

Im Gegensatz zur zuvor erwähnten Befragung im Sommer 2016, die größtenteils im face-to-face-Modus stattfand, wurde die vorliegende Befragung im Jahr 2019 online durchgeführt. Dieses Vorgehen birgt sowohl Vor- als auch Nachteile. Ein großer Nachteil von Onlinebefragungen ist die von vornherein spezifische, von der Gesamtbevölkerung abweichende Gruppe der Internetnutzer*innen. So sind beispielsweise ältere Menschen im Rahmen von Onlinesurveys deutlich unterrepräsentiert. Zum Vergleich: In der Altersgruppe der 14–49-Jährigen nutzten im Jahr 2020 fast 100 Prozent der Bevölkerung in Deutschland das Internet, bei den über 70-Jährigen waren es nur gut 50 Prozent, wobei der Wert in dieser Altersgruppe in den letzten Jahren angestiegen ist – 2014 waren es noch knapp 30 Prozent (vgl. Statista 2020). Unterschiede in der Internetnutzung finden sich zudem im Zusammenhang mit Bildung: Während 98 Prozent der Hochgebildeten angeben, das Internet zu nutzen, sind es bei den Niedriggebildeten nur 70 Prozent (vgl. ebd.). Doch selbst wenn sich die Grundgesamtheit auf Internetnutzer*innen beschränkt, stellt die oftmals fehlende Zufallsauswahl ein großes Problem dar. In diesem Fall haben nicht alle Personen der Zielgruppe die gleiche Chance, in die Stichprobe zu gelangen, sodass es zu starken Verzerrungen kommen kann. Insbesondere wenn es um die Verallgemeinerbarkeit von Aussagen in Bezug auf Randverteilungen (zum Beispiel Verteilung von Einkommen oder Bildung) und deskriptive Statistiken (zum Beispiel durchschnittliches Einkommen oder Bildungsniveau) geht, sind Zufallsstichproben von enormer Wichtigkeit (vgl. Diekmann 2011: 523).

Einige Vorteile von Onlinesurveys, wie etwa der Zeit- und Kostenfaktor oder die Möglichkeit der Einbettung von Multimediaelementen, liegen auf der Hand und sind hinlänglich bekannt. Hinzu kommt, dass selbst-administrierte Erhebungsverfahren wie Onlinesurveys Effekte sozialer Erwünschtheit reduzieren können, da die soziale Präsenz Dritter verringert bzw. aufgehoben ist und das Setting als vergleichsweise anonym perzipiert wird. Die Absenz Dritter (zum Beispiel von Interviewer*innen) begünstigt ein wahrheitsgemäßes Antwortverhalten (vgl. Tourangeau & Yan 2007: 875). Diese Tatsache ist insbesondere dann relevant, wenn es sich um heikle bzw. sensitive Fragen handelt, zu denen Einstellungsfragen aufgrund wahrgenommener sozialer Normen gezählt werden können. Ein weiterer und für die vorliegende Studie zentraler Vorteil von Onlinebefragungen liegt jedoch in den Potentialen, die sich für experimentelle Designs und faktorielle Surveys (Vignettendesigns) ergeben. Die Randomisierung, also eine zufällige Aufteilung der Befragten in unterschiedliche (Kontroll-)Gruppen, ist für die zu bearbeitende Fragestellung besonders wichtig und lässt sich im Rahmen von Onlinesurveys gut umsetzen. Da hier einerseits das Testen von Zusammenhangshypothesen und andererseits weitere Verfahren, die nicht dem Bereich der deskriptiven StatistikFootnote 1 zugeordnet werden können, im Vordergrund stehen, weniger aber die Randverteilungen in der Grundgesamtheit, können auch selbstselektive Onlineerhebungen gültige Ergebnisse liefern (vgl. Diekmann 2011: 523). Zudem ermöglichen Onlinebefragungen ohne großen Aufwand das Randomisieren einzelner Fragen oder Antwortmöglichkeiten – ein Verfahren, welches für andere Befragungsmodi vergleichsweise schwer umzusetzen ist. Für den hier verwendeten Fragebogen wurden beispielsweise die Antwortmöglichkeiten in Block III sowie die Items in Block V in zufälliger Reihenfolge abgebildet, um Positionseffekte, wie zum Beispiel primacy effects und recency effects, zu vermeiden (vgl. Porst 2014: 138). Dieses Vorgehen ist insbesondere in Hinblick auf die hohe Anzahl der Antwortvorgaben in Block III (58) bzw. Items in Block V (18) sinnvoll, da andernfalls, bedingt durch eine abnehmende Motivation der Befragten, von Verzerrungen ausgegangen werden muss. Mit Blick auf die spezifischen Anforderungen des experimentellen Forschungsdesigns wurde daher der Onlinesurvey als geeignetster Befragungsmodus ausgewählt.

4.1.1 Aufbau des Onlinesurveys

Die Onlinebefragung profitiert von Erkenntnissen der face-to-face-Befragung aus dem Jahr 2016 (vgl. Diekmann 2017, 2020b). Das Forschungsdesign und der Fragebogen wurden optimiert und passgenau auf die Fragestellung zugeschnitten. Zum einen wurden die Items angepasst, sodass die Aussagen zum Islam nun von gleicher Stärke (im Sinne einer identischen Formulierung) sind wie die Aussagen zu Muslim*innen. Potentielle Abwertungsmuster können mit diesem Verfahren direkt miteinander verglichen werden. Zum anderen ist der vorliegende Fragebogen deutlich offener gestaltet. Dem eher explorativen Vorgehen liegt die Idee zugrunde, auf diesem Weg ein besseres Verständnis von den Assoziationen zu erhalten, die von den Befragten mit den Begriffen Islam und Muslim*innen verknüpft werden.

Im Fragebogen wurde die Schreibweise Musliminnen und Muslime verwendet. Sowohl die Schreibweise mit einem Binnen-I (MuslimInnen) als auch der Unterstrich (Muslim_innen), der Doppelpunkt (Muslim:innen) oder das Sternchen (Muslim*innen) muten oftmals zu akademisch oder zu politisch an, rufen Missfallen und Ablehnung hervor oder werden schlichtweg nicht verstanden. Diese Reaktionen konnten bereits im Rahmen der ersten Befragung im Jahr 2016, in der die Schreibweise MuslimInnen gewählt wurde, beobachtet werden. Um derartige Effekte und Verzerrungen zu vermeiden, wurde das Ausschreiben der maskulinen und femininen Form präferiert. Die Verwendung des generischen Maskulinums oder des generischen Femininums stellte keine angemessene Option dar. Wenn auch nicht explizit im Zusammenhang mit der Erfassung von Vorurteilen mittels Fragebögen belegt, gibt es dennoch Studien zur Wirkung des generischen Maskulinums, die zeigen, dass Frauen seltener assoziiert werden, wenn anstelle genderneutraler oder inklusiverer Formen (weibliche und männliche Form, Binnen-I) lediglich das generische Maskulinum verwendet wird:

„Wherever generics produced significant effects, masculine generics triggered the lowest or slowest cognitive inclusion of women, whereas alternative forms made women cognitively more salient. […] The masculine gender of traditional German generics apparently has a semantic component of ‘maleness’ that can restrict compatibility with the idea of female reference.“ (Braun et al. 2005: 17).

Auch gibt es beispielsweise Hinweise darauf, dass die Werte bei weiblichen Befragten im Zusammenhang mit Selbstauskünften in standardisierten Befragungen – in diesem Fall intrinsischen Zielorientierungen – geringer ausfallen, wenn statt einer genderneutralen Schreibweise das generische Maskulinum verwendet wurde (vgl. Vainapel et al. 2015).

Es ist daher durchaus zu vermuten, dass sich in Abhängigkeit der Verwendung der Worte Muslime oder Musliminnen unterschiedliche Ergebnisse zeigen könnten. Aus diesem Grund wurden beide Formen in einer möglichst unkomplizierten und im Alltagsgebrauch leicht verständlichen Variante inkludiert (Musliminnen und Muslime).Footnote 2

Das innovative experimentelle Design der Studie ist zentral für alle Analysen in dieser Arbeit, weshalb es im Folgenden detailliert beschrieben wird. Der Fragebogen wurde in drei verschiedenen Varianten durchgeführt: Zum einen gab es eine Variante, die nur die Items zu den Einstellungen zum Islam beinhaltete (im weiteren Verlauf mit A gekennzeichnet) und zum anderen eine Variante, die nur die Einstellungen gegenüber Muslim*innen abfragte (im weiteren Verlauf mit B gekennzeichnet). In einer dritten Variante wurden schließlich beide Versionen nacheinander abgefragt (im weiteren Verlauf mit C bzw. C–I im Fall islambezogener Items und C–M im Fall muslim*innenbezogener Items gekennzeichnet). Hintergrund dafür ist folgender: Es soll kontrolliert werden können, ob die offensichtliche und damit bewusste Unterscheidung zwischen Items zum Islam und Items zu Muslim*innen zu einer stärkeren Diskrepanz zwischen islam- und muslim*innenfeindlichen Einstellungen führt als dies der Fall ist, wenn den Befragten der Vergleich zwischen Islam und Muslim*innen nicht bekannt ist. Beide Designs liefern wichtige Erkenntnisse, wobei die Varianten A und B eher einer Manipulation im Sinne eines Experimental-Kontrollgruppen-Designs (siehe unten) ähneln, wohingegen Variante C transparenter ist, ‚mit offenen Karten spielt‘, und Aussagen darüber ermöglicht, inwiefern die Befragten ganz bewusst zwischen dem Islam und Muslim*innen unterscheiden. Im Fall des Experimental-Kontrollgruppen-Designs wäre das Gegenteil der Fall: Hier wird untersucht, ob und inwiefern die Bewertung der einzelnen Items voneinander abweicht. So sind Rückschlüsse auf (unbewusste) Assoziationen und Wertungen möglich. Beide Vorgehensweisen liefern wichtige Erkenntnisse und ergänzen sich gegenseitig.

Die Zuordnung der Respondent*innen zu den Fragebogenversionen erfolgte randomisiert. Eine zufällige Zuordnung hat den Vorteil, unbeobachtete Heterogenität zu neutralisieren, weshalb sich entsprechende experimentelle Designs durch eine hohe interne Validität auszeichnen und beobachtete Effekte kausal auf die kontrollierte Manipulation zurückgeführt werden können (vgl. Auspurg & Hinz 2015: 9). In der beschriebenen Form weist das Design dieser Studie für die Versionen A und B zentrale Elemente eines Factorial Survey Experiment (FS) auf:

„FS methods are designed to obtain deeper insights into respondents’ judgement principles. The core element of FSs is a multidimensional experimental design. Participants judge stimuli, that is, descriptions of hypothetical situations or objects (vignettes). Within these vignettes, the levels of characteristics (dimensions) are systematically varied. A further crucial aspect of FS methods is the random assignment of vignettes to respondents. FS methods permit the identification of both socially shared judgment principles and subgroup differences.“ (ebd.).

Faktorielle Surveys kombinieren die Vorteile experimenteller Designs (hohe interne Validität) und standardisierter Befragungen (hohe externe Validität). Darüber hinaus eignen sie sich besonders für Fragestellungen, in denen mit starken Effekten sozialer Erwünschtheit gerechnet werden kann. Im Fall der Versionen A und B hatten die Teilnehmer*innen keine Kenntnis über die alternative Fragebogenvariante. Mit Blick auf die differente Bewertung von Islam und Muslim*innen kann sozial erwünschtes Antwortverhalten so qua Design ausgeschlossen werden. In der vorliegenden Studie wird kein faktorieller Survey im klassischen Sinne durchgeführt, da keine hypothetischen Szenarien formuliert wurden, in denen unterschiedliche Dimensionen variiert werden. Manipuliert wird lediglich ein einziger Stimulus: Das Wort Islam aus Variante A wurde in Variante B durch das Wort Muslim*innen ersetzt. Die Logik dieses Experimental-Kontrollgruppen-Designs ist der FS-Logik jedoch sehr ähnlich und bietet die gleichen Vorteile gegenüber konventionellen Surveys. Aus diesem Grund wird für den Rahmen dieser Studie von einem faktoriellen Survey im zuvor explizierten, restriktiven Sinne gesprochen.

Thematisch setzt sich der Fragebogen aus sieben Blöcken zusammen. Der erste Block beinhaltet allgemeine Fragen zu den Netzwerken der Befragten sowohl in Hinblick auf den von ihnen vermuteten Anteil an Muslim*innen unter Familienangehörigen, Freund*innen, Bekannten, Kolleg*innen und Nachbar*innen als auch zur Kontakthäufigkeit mit Muslim*innen im privaten und beruflichen Kontext sowie im öffentlichen Raum. Dieser Block beabsichtigt einen leichten Einstieg in die Thematik. Die Fragen sind kognitiv einfach zu beantworten, betreffen das persönliche Umfeld der Befragten, ohne zu persönlich oder heikel zu werden, und bereiten die Teilnehmer*innen auf die Befragung vor. Solche Kriterien sind essentiell für gute Einstiegsfragen, die die Motivation der Befragten aufrechterhalten und das Interesse am Thema fördern sollen (vgl. Porst 2014).

Im zweiten Block wird mithilfe offener Fragen nach Assoziationen zu den Begriffen Islam und Musliminnen und Muslime gefragt und die Befragten werden gebeten, mindestens fünf Schlagwörter, Namen oder Sätze aufzuschreiben, die ihnen in diesem Kontext spontan einfallen. Die offene Frage nach Assoziationen zu Islam und Muslim*innen wurde bewusst an dieser Stelle im Survey platziert. Sie sollte frühzeitig im Fragebogen auftauchen, da die Befragten zu diesem Zeitpunkt noch weitestgehend unbeeinflusst sind von bestimmten Items und Fragen. Durch eine Platzierung vor potentiell beeinflussenden Items und Fragen werden Formen des Primings und in der Folge verzerrte Ergebnisse vermieden. Offene Fragen können jedoch schnell als anstrengend und kognitiv herausfordernd wahrgenommen werden, da eigener Text produziert werden muss, was direkt zu Beginn der Befragung höhere Abbruchquoten zur Folge haben kann und offene Fragen als Einstiegsfragen ungeeignet macht. Wurde die Befragung allerdings erst einmal begonnen, erhöht sich in der Regel das commitment der Befragten und die Wahrscheinlichkeit des Abbruchs fällt geringer aus (vgl. ebd.: 139). Die offene Frage schließt daher unmittelbar an den ersten Block an, leitet also den zweiten Block ein, und steht unweigerlich vor den geschlossenen Fragen der Folgeblöcke, um so eine Manipulation oder Lenkung der Respondent*innen zu vermeiden. Eine Rückkehr zu Block II zu einem späteren Zeitpunkt wurde für alle drei Fragebogenvarianten technisch ausgeschlossen, damit die hier gegebenen Antworten nicht durch Schlagwörter oder Themensetzungen im weiteren Verlauf des Fragebogens beeinflusst und rückwirkend verändert werden können. In Block II wird zunächst ohne jegliche Vorgaben gesammelt, welche Schlagwörter mit dem Islam (Religion) und mit Muslim*innen (Menschen) assoziiert werden. Diese Assoziationen werden später im Rahmen der Frequenz- und Valenzanalyse kategorisiert und analysiert (vgl. Kap. 7).

Block III enthält eine Liste mit Begriffen, die mit dem Islam bzw. Muslim*innen in Verbindung gebracht werden könnten. Eine Vielzahl der Begriffe stammt aus dem Pretest (vgl. auch Ergebnisse des Pretests, Abschn. 4.1.2). Da die offene Abfrage aus Block II zu diesem Zeitpunkt bereits abgeschlossen und eine Änderung der Antworten technisch nicht möglich ist, stellt es nun kein Problem dar, Antwortmöglichkeiten vorzugeben. Diese dienen, erstens, der Kontrolle und Absicherung der Ergebnisse aus der offenen Frage, da sich hier möglicherweise ähnliche Muster in den Daten finden lassen (vgl. Abschn. 7.3). Zweitens stellen sie ein Backup dar, falls die Hemmschwelle, in Block II eigene Antworten zu verfassen, für die Befragten zu groß gewesen sein sollte. Drittens bieten sie im Gegensatz zur explorativen Logik der offenen Fragen die Möglichkeit, gezielt Hypothesen zu testen, indem interessierende Themenbereiche vorgegeben werden (vgl. Hypothesen H9 und H10; Abschn. 3.5).

Folgende 58 Begriffe bzw. Aspekte wurden primär auf Basis des Pretests in die Hauptbefragung aufgenommen (hier in alphabetischer, im Fragebogen in zufälliger Reihenfolge):

  • 5 Säulen des Islam[s]

  • Achtung der Menschenrechte

  • Allah

  • Almosen

  • Angst

  • Anpassung

  • Bedrohung

  • Benachteiligung der Frau

  • Beten

  • Diskriminierung

  • Dominanz der Männer

  • Engstirnigkeit

  • Essensvorschriften

  • Extremismus

  • Fanatismus

  • Frauenfeindlichkeit

  • Fremdheit

  • Friedfertigkeit

  • Fundamentalismus

  • Gastfreundschaft

  • Gebetsteppich

  • Geflüchtete

  • gehört zu Deutschland

  • Gemeinschaft

  • Gewalt / Gewaltbereitschaft

  • Imam

  • Integration

  • Islamismus

  • kein Schweinefleisch

  • Konflikte

  • Kopftuch

  • Koran

  • Krieg

  • Kritik

  • kulturelle Vielfalt

  • Mekka

  • Mohammed

  • Moschee

  • Pilgern

  • Politik

  • Radikalisierung

  • Ramadan / Fasten

  • Religion

  • religiöse Vielfalt

  • Rückständigkeit

  • Segregation

  • Solidarität

  • Spiritualität

  • strenge Gläubigkeit

  • Terrorismus

  • Toleranz

  • Türkei / Türkinnen und Türken

  • Unterdrückung der Frau

  • Verhaltensvorschriften

  • Vorurteile

  • Zuckerfest

  • Zuwanderung

  • Zwangsehe

Diese 58 Begriffe beziehen sich auf unterschiedliche Aspekte, etwa auf religiöse Praktiken (zum Beispiel Beten, Fasten, Pilgern), migrationsbezogene Schlagwörter (zum Beispiel Geflüchtete, Integration, Zuwanderung) oder auf emotionsbezogene Aspekte (Angst, Bedrohung). Es wurde darauf geachtet, neben negativen Begriffen und gängigen Vorurteilen auch eine Reihe positiver und wertneutraler Begriffe anzubieten, um einer Reproduktion ausschließlich negativer Aspekte entgegenzuwirken und die Vielfalt von Assoziationen besser abzubilden. Um den Aufwand für die Befragten möglichst gering zu halten, wählen diese nur diejenigen Begriffe aus, die sie mit dem Islam bzw. Muslim*innen assoziieren und treffen keine individuellen Entscheidungen (ja/nein) zu jedem einzelnen Begriff. In der Hauptbefragung wurden die einzelnen Begriffe in ihrer dargestellten Reihenfolge randomisiert, sodass es nicht zu ‚Ermüdungseffekten‘ kommt und einige Begriffe aufgrund ihrer Position im Fragebogen besonders häufig oder besonders selten angeklickt werden.

Block IV bezieht sich auf die allgemeine Religionskritik. Den Teilnehmer*innen werden drei Items vorgelegt, die die generelle Haltung gegenüber Religion(en) thematisieren. In diesem Block geht es bewusst nicht explizit um Kritik am Islam (vgl. hierzu Exkurs in Abschn. 3.2). Stattdessen kann das Maß der allgemeinen Religionskritik ein wichtiger Prädiktor für islam- und muslim*innenfeindliche Einstellungen sein.

Tabelle 4.1 Beispiel Vignettendesign Block V (eigene Darstellung)

Der fünfte Block enthält gängige Items, die in der Forschungspraxis zur Erfassung von Islam- und Muslim*innenfeindlichkeit verwendet werden und bildet ein Kernstück des Fragebogens. Es gibt 18 bzw. 36 unterschiedliche Items, die sich wörtlich auf den Islam bzw. auf Muslim*innen beziehen. Tabelle 4.1 zeigt exemplarisch, dass die einzelnen Aussagen im Sinne eines Vignettendesigns identisch formuliert sind. Die einzige Ausnahme stellen die variierenden Adressat*innen (Islam / Muslim*innen) dar.

Die Items sollen anhand einer fünfstufigen Skala (stimme voll und ganz zu / stimme eher zu / stimme teilweise zu / stimme eher nicht zu / stimme überhaupt nicht zu) von den Befragten bewertet werden. Zusätzlich wird die Antwortkategorie „weiß nicht“ angeboten, um diese Möglichkeit insbesondere bei Items, die den Eindruck spezifisch erforderlichen Wissens erwecken könnten, wie etwa „Der Islam hat [Musliminnen und Muslime haben] eine bewundernswerte Kultur hervorgebracht“, einzuräumen. Andernfalls könnte es zu Verzerrungen der Ergebnisse kommen, indem Nicht-Wissen mit Nicht-Zustimmung gleichgesetzt wird. Von Antworten auf Fragen, die auf Wissen statt auf Meinungen abzielen, auf feindliche Einstellungen zu schließen, ist problematisch und führt zu falschen Schlüssen (vgl. Kahlweiß & Salzborn 2012). Da diese Items in der Forschung allerdings nach wie vor Verwendung finden, werden sie im vorliegenden Fragebogen zwar gelistet, jedoch mit der zusätzlichen „weiß nicht“-Option versehen. Zur besseren Übersicht werden diese Items den Befragten optisch als Matrix präsentiert.

Block VI fragt Verhaltensintentionen gegenüber Muslim*innen ab. Hierzu werden den Befragten fünf verschiedene Items vorgelegt, die sich auf Szenarien und Verhaltensabsichten in Bezug auf Muslim*innen beziehen und ebenfalls anhand der oben erläuterten fünfstufigen Skala bewertet werden sollen. Insbesondere vor dem Hintergrund der Differenzierung zwischen Islamfeindlichkeit und Muslim*innenfeindlichkeit und mit Blick auf handlungspraktische Konsequenzen unterschiedlicher feindlicher Einstellungen sind konkrete Verhaltensintentionen eine spannende und aufschlussreiche (abhängige) Variable in den Analysen.

Im siebten Block geht es schließlich um demographische Fragen (Geschlecht, Alter, Geburtsland, Dauer des Aufenthalts in Deutschland, Zeitraum des Beherrschens der deutschen Sprache, allgemeinbildender Schulabschluss, Hochschul- oder Ausbildungsabschluss, aktueller Beruf, eigene Religionszugehörigkeit, Selbsteinschätzung der eigenen Religiosität, Bundesland). Die Ermittlung der Religionszugehörigkeit ist zentral, da so zwischen Muslim*innen (Outgroup) und Nicht-Muslim*innen (Ingroup) unterschieden werden kann. Darüber hinaus sind die demographischen Fragen oftmals wichtige Kontrollvariablen und dienen der Beschreibung der Stichprobe (vgl. Abschn. 4.3).

4.1.2 Auswertung des Pretests

Unter dem Begriff Pretest wird in der empirischen Sozialforschung allgemein das Testen von Erhebungsinstrumenten zum Zweck der Qualitätsverbesserung verstanden. Für den vorliegenden Fragebogen wurden zwei Pretests durchgeführt. In einem ersten Durchgang wurden frühe Versionen des Fragebogens sowie damit verknüpfte Ideen mit Expert*innen diskutiert und hinsichtlich Verständlichkeit und Praktikabilität besprochen. Die einzelnen Diskussionen fanden sowohl in Einzel- und Kleingruppengesprächen als auch in größerer Runde mit ca. zehn Teilnehmer*innen statt. Ergebnisse, die insbesondere einzelne Formulierungen sowie den Aufbau des Fragebogens betrafen, wurden – sofern möglich – umgesetzt und konnten so im darauffolgenden kognitiven Pretest berücksichtigt werden.

Kognitive Pretesttechniken geben Aufschluss darüber, wie die Respondent*innen einzelne Fragen und Begriffe interpretieren, wie sie Informationen oder Ereignisse aus dem Gedächtnis abrufen, wie sie über ihr Antwortverhalten entscheiden und wie sie ihre so ermittelten Antworten den formalen Antwortvorgaben zuordnen (vgl. Porst 2014; Prüfer & Rexroth 2005). Die wichtigsten Techniken sind das Think Aloud (Technik des lauten Denkens), das Paraphrasing (Paraphrasieren), das Sorting (Sortiertechniken) und das Probing (Nachfragetechniken). Einzelne Fragen des Fragebogens wurden anhand kognitiver Pretesttechniken überprüft. Dabei wurde sowohl das Think Aloud-Verfahren als auch das Probing eingesetzt. Die Probing-Technik lässt sich wiederum in vier verschiedene Verfahren gliedern: Comprehension Probing (Nachfragen zum Verständnis), Category Selection Probing (Nachfragen zur Wahl der Antwortkategorien), Information Retrieval Probing (Nachfragen zur Informationsbeschaffung) sowie Confidence Rating (Bewertung der Verlässlichkeit der Antwort) (vgl. Porst 2014). In diesem Pretest kamen außer der letztgenannten alle Methoden zum Einsatz.

Insgesamt nahmen sechs Personen unabhängig voneinander am kognitiven Pretest teil. Ein besonderer Fokus des Pretests lag auf dem Verständnis verschiedener Konzepte und entsprechender Formulierungen, die im Fragebogen Verwendung finden (Comprehension Probing, Category Selection Probing). Dies sind vor allem die Konzepte des engen Familienkreises, des engen Freund*innenkreises, des erweiterten Freund*innen- und Bekanntenkreises, der Nachbar*innenschaft sowie der Religiosität und der Religionszugehörigkeit. Durch die Reaktionen im Pretest konnten die Konzepte geschärft und Formulierungen für die Hauptbefragung präzisiert werden. Schwierigkeiten bereiteten den Befragten insbesondere die Fragen nach dem beruflichen Umfeld, da hier teilweise lediglich von Kolleg*innen ausgegangen wurde, teilweise jedoch auch Kontakte zu anderen Menschen, die im beruflichen Kontext auftreten, bewertet wurden (so zum Beispiel zu Kund*innen, Schüler*innen, Klient*innen, Patient*innen, Mandant*innen etc.). Aufgrund der großen Unsicherheit bezüglich der Fragen zum beruflichen Umfeld und der unbewussten Fokussierung auf eine oder mehrere Gruppen sowie der ausgeprägten Variation im Antwortverhalten je nach Berücksichtigung der verschiedenen Gruppen, wurde diese Frage schließlich gesplittet und besteht in der Hauptbefragung nun aus zwei Teilen (3a und 3b).

Beide Pretest-Runden dienten jedoch nicht nur der Klärung von Verständnisfragen und dem Nachvollziehen der bei den Befragten ablaufenden kognitiven Prozesse; insbesondere der explorative zweite Block diente zusätzlich als Ideenpool für die Generierung der Antwortoptionen des dritten Blocks. Auf Basis der offenen Antworten der Pretest-Teilnehmer*innen konnten die Antwortvorgaben in Block III für die Hauptbefragung angepasst werden. Im Pretest zeigte sich, dass die Frage zu Block II prinzipiell verstanden wird. Den Befragten fiel es nicht schwer, einige Begriffe zu nennen, wobei die meisten nach etwa drei bis vier Begriffen eine kurze Pause einlegten und begannen, intensiver nachzudenken. In allen Pretests wurde diese Frage zunächst in Bezug auf den Islam und anschließend in Bezug auf Muslim*innen in Deutschland gestellt. Bereits im Pretest konnten hier interessante Beobachtungen gemacht werden: Während einige Teilnehmer*innen die zweite Frage (Muslim*innen in Deutschland) kommentarlos beantworteten und zum Teil vollkommen andere Antworten gaben als auf die Frage nach dem Islam, stellten andere Teilnehmer*innen Rückfragen, inwiefern sich diese Frage von der ersten (Islam in Deutschland) unterscheide. Diese unterschiedlichen Reaktionen unterstützen die Idee, drei verschiedene Varianten des Fragebogens durchzuführen (nur Islam, nur Muslim*innen, bewusst beide Fragen in einem Fragebogen). Für einige der Befragten scheint es kein Problem zu sein, zwischen dem Islam und Muslim*innen zu differenzieren und unterschiedliche Assoziationen zu benennen, andere hingegen schien dies vor eine Herausforderung zu stellen.

Durch den kognitiven Pretest ergab sich die Möglichkeit, gezielte Nachfragen zum interessierenden Phänomen zu stellen. Auch hier konnten bereits interessante Erkenntnisse zu differenzierten Assoziationen zu Islam und Muslim*innen gesammelt und eine eher abstrakte sowie eine eher persönliche, auf Kontakten basierende Ebene identifiziert werden, wie die beiden folgenden Aussagen zeigen:

„Bei mir überschneidet sich nur Moschee [als genannter Begriff bei Islam und Muslim*innen] und ich kann auch genau sagen warum: Den Islam sehe ich aus politikwissenschaftlicher Perspektive, das verbinde ich mit dem öffentlichen Raum, Medien, da nehme ich einen professionellen Standpunkt ein, bei Muslim*innen denke ich an mein privates Umfeld.“ (männlich, 27, Hochschulabschluss, konfessionslos)

„Bei Islam denke ich an Allah, Mohammed, den Koran. Bei Muslimen denke ich zuerst an meinen Friseur.“ (männlich, 29, Abitur, katholisch)

Nach der Einarbeitung der Erkenntnisse aus den kognitiven Pretests in den Fragebogen wurde in einem dritten Schritt zusätzlich ein Standardbeobachtungspretest durchgeführt. Hierzu wurden einige wenige Teilnehmer*innen unter realistischen Bedingungen befragt, das heißt, sie wussten zum Zeitpunkt der Befragung nicht, dass es sich lediglich um einen Testdurchlauf handelte. Im Rahmen des Standardbeobachtungspretests sind keine Rückfragen von Seiten der Interviewer*innen möglich (vgl. Porst 2014: 192). Ziel dieses dritten Pretests war es, den Fragebogen unter möglichst realen Bedingungen zu testen, unter Umständen Hinweise auf Probleme sowohl in Hinblick auf das Verständnis als auch auf die Filterführung und die Durchführbarkeit im Allgemeinen zu erlangen und außerdem abschätzen zu können, wie viel Zeit die Befragten für die Bearbeitung des Fragebogens benötigen.

4.1.3 Operationalisierung

Islam- und Muslim*innenfeindlichkeit

Für die Operationalisierung von Islamfeindlichkeit und Muslim*innenfeindlichkeit wurden zahlreiche Erhebungen zu diesem Themenspektrum in Deutschland gesichtet und ein Korpus mit in der Praxis verwendeten Items erstellt. Für die vorliegende Forschung wurden vor allem populäre Items zur Erfassung von Islam- und Muslim*innenfeindlichkeit ausgewählt, da es für die Fragestellung dieser Arbeit sinnvoll erscheint, jene Items zu testen, die auch tatsächlich in der empirischen Forschung eingesetzt werden, anstatt gänzlich neue Items zu entwickeln. Ein weiteres Kriterium für die Auswahl der Items stellte zudem die Passung sowohl für den Themenkomplex der Islamfeindlichkeit als auch für jenen der Muslim*innenfeindlichkeit dar. Das bedeutet, die entsprechenden Items sollten sowohl mit dem Wortlaut Islam als auch mit dem Wortlaut Musliminnen und Muslime funktionieren. Ein Beispiel:

„Es sollte besser gar keine Muslime in Deutschland geben.“

Dieses Item verwenden Leibold & Kühnel (2006) zur Erfassung offener Islamfeindlichkeit im Rahmen der GMF-Studien. Ein solches Item lässt sich umformulieren zu „Es sollte besser gar keinen Islam in Deutschland geben.“ – wodurch es im Übrigen einen besseren Indikator für Islamfeindlichkeit im wörtlichen Sinne darstellen dürfte als das zitierte Originalitem. In Anlehnung an derartige Originalitems entstehen zwei Items von gleicher Stärke, die sich lediglich in einem einzigen Wort – nämlich den Adressat*innen – und den notwendigen grammatikalischen Anpassungen unterscheiden. Das zweite Item zur Messung der offenen Islamfeindlichkeit bei Leibold & Kühnel (2006) lautet

„Muslimen sollte jede Form der Religionsausübung in Deutschland untersagt werden.“

Aussagen wie die obenstehende, die sich allein durch Ersetzen eines Wortes und grammatikalischer Anpassungen nicht sinnvoll auf den Islam bzw. im umgekehrten Fall auf Muslim*innen übertragen lassen, konnten nicht berücksichtigt werden. Das betrifft auch zum Teil sehr etablierte Items wie etwa

„Muslimen sollte die Zuwanderung nach Deutschland untersagt werden.“

Dieses Item bezieht sich auf Muslim*innen als migrierende Menschen und damit verbundene (Menschen-)Rechte. Eine äquivalente Aussage zum Islam als Religion ist in solchen Fällen nicht möglich. Insgesamt wurden so 18 verschiedene Items extrahiert, die sich sowohl auf den Islam als auch auf Muslim*innen anwenden lassen. Tabelle 4.2 gibt eine Übersicht über die ursprünglichen Items aus der empirischen Praxis sowie die in dieser Arbeit verwendeten Items.

Tabelle 4.2 Übersicht und Quellen der verwendeten Items (eigene Darstellung)

Zur Einschätzung der Aussagen standen den Befragten eine fünfstufige Skala (stimme voll und ganz zu / stimme eher zu / stimme teilweise zu / stimme eher nicht zu / stimme überhaupt nicht zu) und die Antwortmöglichkeit „weiß nicht“ zur Verfügung. Die Antwortoption „weiß nicht“ wurde als Missing Value codiert. Aus den jeweils 18 Items wurden die additiven Indizes Islamfeindlichkeit und Muslim*innenfeindlichkeit gebildet, wobei positiv formulierte Items umcodiert wurden, sodass hohe Werte nun für ein hohes Maß an Vorurteilen stehen. Beide Indizes weisen eine sehr hohe interne Konsistenz auf (Islamfeindlichkeit: α = 0,9422 / Muslim*innenfeindlichkeit: α = 0,9416). Die neu gebildeten Variablen enthalten viele Missings (140 im Fall Islamfeindlichkeit, 119 im Fall von Muslim*innenfeindlichkeit), was jedoch aufgrund der Vielzahl der Items und der mitunter als heikel zu bewertenden Inhalte wenig verwunderlich ist. Die neu generierten Variablen sind insbesondere für die Regressionsanalysen (vgl. Abschn. 5.2; Abschn. 7.3.2) relevant und finden sich überdies im Zusammenhang mit der Untersuchung der Niveauunterschiede, die jedoch primär auf Ebene der einzelnen Items und nicht auf Ebene der additiven Indizes stattfindet (vgl. Kap. 6). Ausgewählte Items aus Tabelle 4.2 bilden zudem die Basis für die Hauptkomponentenanalyse (Principal Component Analysis, PCA) und die konfirmatorische Faktorenanalyse (Confirmatory Factor Analysis, CFA) (vgl. Abschn. 5.1).

Nicht alle Items sind inhaltlich unproblematisch (ausführlicher hierzu vgl. Abschn. 3.3.3). Einige reproduzieren in besonderem Maße Vorurteile – ein bekanntes Problem bei der Erfassung von Vorurteilen im Rahmen standardisierter Befragungen. Auch in der vorliegenden Befragung werden die Teilnehmer*innen beispielsweise mit Narrativen eines homophoben oder frauenfeindlichen Islams konfrontiert. Diesem Dilemma lässt sich nur schwer begegnen, denn die standardisierte Messung von Vorurteilen erfordert die Hereingabe formulierter Statements, deren Zustimmung oder Ablehnung Aussagen über bestehende Vorurteile ermöglichen. Um zu verstehen, wie weit Vorurteile verbreitet sind und sie basierend darauf bearbeiten zu können, müssen diese also zunächst ins Feld gegeben werden. Ein Weg, um möglichst wenig Schaden durch diese Reproduktion von Vorurteilen anzurichten, liegt in der Verwendung positiv formulierter Items. Es wurde daher versucht, möglichst viele Items mit positiven Narrativen in die Studie zu inkludieren. Darüber hinaus wurde zumindest stellenweise versucht, auf ‚Wir vs. die‘-Konstruktionen zu verzichten. So wurde beispielsweise die Variante des Items „Der Islam passt [Musliminnen und Muslime passen] zu Deutschland.“ aufgrund des Bezugs zu Deutschland präferiert. In der Literatur hingegen findet sich neben dieser Variante häufig die Variante „[…] in unsere westliche Welt“. Gleiches gilt etwa für „die Freiheiten und Rechte der Menschen“ statt „unsere Freiheiten und Rechte“. Prozessen des Othering sollte so im Rahmen der Möglichkeiten entgegengewirkt werden.

Verhaltensintentionen gegenüber Muslim*innen

Neben Islam- und Muslim*innenfeindlichkeit spielen Verhaltensintentionen gegenüber Muslim*innen als abhängige Variable (vgl. Abschn. 5.2.2) eine zentrale Rolle. Verhaltensintentionen gegenüber Muslim*innen wurden über fünf Items erfasst:

  1. 1)

    Ich hätte Probleme damit, in eine Gegend zu ziehen, in der viele Musliminnen und Muslime wohnen.Footnote 11

  2. 2)

    Ich würde solche Parteien wählen, die gegen Musliminnen und Muslime sind.Footnote 12

  3. 3)

    Ich könnte mir vorstellen, eine Muslimin oder einen Muslim in meinen Freundeskreis aufzunehmen.Footnote 13

  4. 4)

    Ich könnte mir vorstellen, einen muslimischen Bürgermeister oder eine muslimische Bürgermeisterin in meiner Stadt zu wählen.Footnote 14

  5. 5)

    Ich würde mein Kind auch in einer Schule anmelden, in der eine muslimische Frau mit Kopftuch unterrichtet.Footnote 15

Auch hier wurden die Items wo nötig so umcodiert, dass hohe Werte ein hohes Maß an Vorurteilen abbilden. Aus den fünf Items wurde ein additiver Index gebildet. Die Berechnung von Cronbachs Alpha zeigt eine hohe interne Konsistenz (α = 0,7958). Auch hier wurden die zuvor beschriebene fünfstufige Skala sowie die Option „weiß nicht“ eingesetzt. Die Variable Verhaltensintentionen gegenüber Muslim*innen enthält 18 Missing Values, die aus den „weiß nicht“-Antworten resultieren und von denen die Hälfte auf das zweite Item zurückzuführen ist.

Allgemeine Religionskritik

Die kritische Haltung gegenüber Religion(en) im Allgemeinen stellt in dieser Arbeit einen wichtigen Prädiktor für Islam- und Muslim*innenfeindlichkeit dar (vgl. Abschn. 5.2.1) und wurde im Fragebogen über drei Items erfasst:

  1. 1)

    Ich stehe Religion im Allgemeinen kritisch gegenüber.Footnote 16

  2. 2)

    Ich bin überzeugt davon, dass Religion eher schädlich ist.Footnote 17

  3. 3)

    Die Welt wäre friedlicher, wenn es keine Religion gäbe.Footnote 18

Erneut wurden die Items umcodiert, sodass hohe Werte nun für eine ausgeprägte religionskritische Haltung stehen. Die drei Items wurden zu einem additiven Index zusammengefasst (hohe interne Konsistenz; α = 0,8550) und werden im weiteren Verlauf als Allgemeine Religionskritik bezeichnet. Die Antwortoptionen sind identisch mit der zuvor beschriebenen Skala im Zusammenhang mit Verhaltensintentionen gegenüber Muslim*innen bzw. Islam- und Muslim*innenfeindlichkeit. Die neu generierte Variable Allgemeine Religionskritik enthält 20 Missing Values, wobei die Hälfte der Missings auf das dritte Item zurückgeht.

Kontakt

Ein weiterer wichtiger Prädiktor für Islam- und Muslim*innenfeindlichkeit ist der Kontakt zu Muslim*innen (vgl. Abschn. 5.2.1). Im Fragebogen wurde die Kontaktfrequenz in vier spezifischen Kontexten (privat / öffentlicher Raum / beruflich: Kolleg*innen / beruflich: Klient*innen, Schüler*innen, Patient*innen etc.) erfasst. Erfragt wurde, wie oft die Respondent*innen in den beschriebenen Settings Kontakt zu Muslim*innen haben.Footnote 19 Die Antwortmöglichkeiten waren in diesem Fall nie / wenige Male im Jahr / einmal bis dreimal im Monat / einmal wöchentlich / mehrmals wöchentlich / täglich / weiß nicht. Für die Analysen wurde eine dichotome Variable generiert. Die Variable unterscheidet, ob die Befragten – unabhängig von spezifischen Kontexten – regelmäßig Kontakt zu Muslim*innen haben oder nicht. Unter regelmäßigem Kontakt wird dabei mindestens ein Kontakt pro Monat verstanden.

Es sei angemerkt, dass die betrachteten Gruppen von unterschiedlicher Größe sind. Nur 66 Befragte berichten, (fast) keine Kontakte zu Muslim*innen zu haben; 427 Befragte hingegen haben in mindestens einem Bereich regelmäßig Kontakt zu Muslim*innen. Für die separaten Bereiche sieht dieses Bild ein wenig anders aus. So gibt etwa die Hälfte der Befragten an, im privaten Umfeld regelmäßig Kontakt zu Muslim*innen zu haben. Das bedeutet, etwa die Hälfte der Befragten hat weniger als einmal im Monat privat Kontakt zu Muslim*innen. Über alle Bereiche hinweg jedoch lässt sich bereits an dieser Stelle als erster wichtiger Befund festhalten, dass die meisten Teilnehmer*innen dieser Studie durchaus über Kontakte zu Muslim*innen verfügen und diejenigen, die (fast) keine Kontakte haben, deutlich in der Unterzahl sind. Auch wenn die Qualität des Kontakts, die hier nicht detaillierter erfasst wurde, durchaus zwischen den einzelnen Bereichen variieren kann, werden die gelisteten Lebens- und damit potentiellen Kontaktbereiche an dieser Stelle zusammengefasst, um diejenigen Befragten zu ermitteln, die insgesamt betrachtet über keine bzw. nur seltene Kontakte zu Muslim*innen verfügen und damit keine (oder nur äußerst unregelmäßige) – wie auch immer gearteten – Berührungspunkte mit Muslim*innen aufweisen. Durch die detaillierte Erfassung im Fragebogen konnte sichergestellt werden, dass bestimmte Lebensbereiche und Personengruppen, etwa im beruflichen Kontext außerhalb des Kollegiums, während der Befragung von den Teilnehmer*innen nicht übersehen wurden. So konnte vergleichsweise zuverlässig eine Gruppe von Personen identifiziert werden, die keinen Kontakt zu Muslim*innen hat.

Kontrollvariablen: Geschlecht, Alter, Bildung, Religiosität

Im Zusammenhang mit den Analysen in Abschn. 5.2 finden in der vorliegenden Studie weiterhin einige Kontrollvariablen Berücksichtigung, die an dieser Stelle kurz erläutert werden. Allport (1954) identifiziert neben Spezifika von Kontaktsituationen auch einige Merkmale von Individuen als Einflussfaktoren für Vorurteile (vgl. Abschn. 2.3.1). Auch aktuelle repräsentative Daten belegen signifikante Unterschiede in Hinblick auf die Prävalenz muslim*innenfeindlicher Einstellungen u. a. zwischen verschiedenen Alters- und Bildungsgruppen sowie für den Erhebungszeitraum 2018/19 zwischen Männern und Frauen (vgl. Zick et al. 2019; Zick & Küpper 2021). Aus diesem Grund werden die soziodemographischen Merkmale Geschlecht, Alter und Bildung in die Regressionsmodelle in Abschn. 5.2 integriert. Zusätzlich wird für das Ausmaß der Religiosität der Befragten kontrolliert, da Forschung in diesem Bereich immer wieder Korrelationen zwischen Religiosität und Islam-/Muslim*innenfeindlichkeit zeigen konnte, wenngleich auch Studien bezüglich eines negativen oder positiven Zusammenhangs zu unterschiedlichen Ergebnissen kommen (vgl. u. a. Diekmann 2017, 2020b; Pickel 2019). Der Zusammenhang zwischen Religiosität bzw. Religionszugehörigkeit und Islam-/Muslim*innenfeindlichkeit ist insbesondere in Deutschland interessant. Während etwa die Studie von Diekmann (2017, 2020b) für eine westdeutsche Großstadt einen Anstieg von Islam- und Muslim*innenfeindlichkeit bei gesteigerter selbstberichteter Religiosität belegt, könnte das abweichende Ergebnis anderer Studien wie jener von Pickel (2019) möglicherweise in der Betrachtung Gesamtdeutschlands begründet liegen. In Ostdeutschland leben besonders viele konfessionslose Menschen, gleichzeitig ist Muslim*innenfeindlichkeit in Ostdeutschland stärker ausgeprägt als in Westdeutschland (vgl. Zick et al. 2019: 86; Zick 2021: 195). Diese Besonderheit kann eine Erklärung für die ambivalenten Ergebnisse liefern (vgl. Pickel 2019).Footnote 20 Auch zeigen Studien, dass Religiosität unterschiedlich ausgeprägt sein kann und beispielsweise eher dogmatische Christ*innen offener für Vorurteile gegenüber Muslim*innen sind, während Christ*innen mit einer eher sozialen Religiosität geringere Vorurteile gegenüber Muslim*innen aufweisen (vgl. Pickel et al. 2020). Ähnliche Ambivalenzen finden sich auch für rechtsextreme Einstellungen: Eine dogmatisch-fundamentalistische Religionsauslegung und Esoterikglaube verstärken rechtsextreme Einstellungen; eine soziale Religiosität, verstanden als Kombination aus religiösem und sozialem Engagement, verringert extrem rechte Haltungen (vgl. Schneider et al. 2021).

Das Geschlecht wurde über eine geschlossene Frage („Welchem Geschlecht ordnen Sie sich zu?“) mit drei Antwortmöglichkeiten (männlich, weiblich, anderes) erfasst. Aufgrund der minimalen Inanspruchnahme der Kategorie „anderes“ wurde diese nicht zuletzt aus Gründen der Anonymitätswahrung von den weiteren Analysen exkludiert. Sechs Personen machten keine Angaben zum Geschlecht und wurden daher aus denselben Gründen in den Analysen nicht berücksichtigt. Die Variable Geschlecht wurde anschließend dummy-codiert (männlich = 0, weiblich = 1).

Das Alter wurde über die Frage „In welchem Jahr sind Sie geboren?“ erfasst. Durch die simple Rechnung ‚2019 minus Geburtsjahr‘ wurde das Alter der Befragten in Lebensjahre umcodiert und als metrische Variable in das Modell aufgenommen.

Das Bildungsniveau der Befragten bezieht sich auf den (bisher) höchsten Schulabschluss. In Anlehnung an gängige Operationalisierungen wird zwischen niedrigem, mittlerem und hohem Bildungsniveau unterschieden (vgl. u. a. Zick et al. 2019: 92). Ein niedriges Bildungsniveau beinhaltet die Antwortoptionen „noch keinen Schulabschluss/in Ausbildung“ sowie „Volks-/Hauptschulabschluss bzw. Polytechnische Oberschule mit Abschluss 8. oder 9. Klasse“. Ein mittleres Bildungsniveau meint „Mittlere Reife, Realschulabschluss bzw. Polytechnische Oberschule mit Abschluss 10. Klasse“. Ein hohes Bildungsniveau bedeutet „Fachhochschulreife“ oder „Abitur“.

Die vierte Kontrollvariable in den Regressionsmodellen ist schließlich die selbstberichtete Religiosität der Befragten („Für wie religiös halten Sie sich selbst?“), welche über eine siebenstufige verbalisierte Skala (sehr religiös, religiös, eher religiös, teils/teils, eher nicht religiös, kaum religiös, gar nicht religiös) erfasst wurde. Aufgrund der kontraintuitiven Codierung im Fragebogen (1 = sehr religiös bis 7 = gar nicht religiös) wurde die Variable ex post umcodiert, sodass geringe Werte nun für eine gering ausgeprägte selbstberichtete Religiosität stehen. Die selbstberichtete Religiosität wird zusätzlich quadriert in das Modell aufgenommen, da aufgrund der ambivalenten Befunde zum Einfluss von Religiosität auf Islam- und Muslim*innenfeindlichkeit und abweichenden Auslegungen von Religiosität kein linearer Zusammenhang zwischen Religiosität und feindlichen Einstellungen angenommen wird (vgl. u. a. Pickel et al. 2020).

4.2 Datenerhebung

Die Datenerhebung erfolgte online mithilfe der Software LimeSurvey, die über die Fakultät für Soziologie der Universität Bielefeld zur Verfügung gestellt wurde. Wie im vorangegangenen Kapitel bereits erläutert, war eine Zufallsauswahl nicht möglich. Aufgrund des besonderen Charakters der Fragestellung sowie der Konzeptionierung dieser Forschung als experimentelles Design können dennoch wichtige Erkenntnisse aus der vorliegenden Stichprobe abgeleitet werden. Um möglichst viele potentielle Teilnehmer*innen zu erreichen, wurden – wie bei (experimentellen) Studien in der Sozialpsychologie üblich – verschiedene Distributionswege genutzt. Dazu zählen beispielsweise soziale Medien wie Facebook, welche über Gruppenfunktionen ressourcenschonend die Aufmerksamkeit einer großen Anzahl von Personen erregen. In diesem Fall wurde der Link zur Befragung etwa in der mehrere tausend Mitglieder zählenden Facebook-Gruppe der Universität Bielefeld geteilt. Zudem wurden weitere zugängliche Verteiler im Universitätskontext genutzt. Konkret umfasst dies Teilnehmer*innenlisten von Seminaren an den Universitäten Bielefeld und Osnabrück. Um der Überrepräsentanz von Universitätsangehörigen (insbesondere Studierenden) zumindest ein Stück weit entgegenzuwirken, wurden darüber hinaus im Rahmen der Zugangsmöglichkeiten auch außeruniversitäre Kanäle zur Teilnehmer*innenakquise genutzt. Hier konnten vor allem verschiedene Einrichtungen in unterschiedlichen Bereichen der Sozialen Arbeit in Nordrhein-Westfalen erreicht werden (beispielsweise Verteiler der Evangelischen Jugendhilfe Münsterland). Um zu verhindern, dass einzelne Personen mehrfach an der Befragung teilnehmen, wurde die mehrmalige Teilnahme von demselben Endgerät technisch ausgeschlossen.

Im Untersuchungszeitraum vom 18. Januar 2019 bis zum 28. März 2019 bearbeiteten insgesamt 776 Personen den Fragebogen „Islam und Muslim/innen in Deutschland“, von denen 539 Teilnehmer*innen den Onlinesurvey vollständig ausfüllten. In 237 Fällen kam es zu einem Abbruch, zumeist bereits zu Beginn des Fragebogens. Die durchschnittliche Bearbeitungsdauer des Fragebogens lag bei 15 Minuten und 50 Sekunden. Der Zeitraum, der für die Beantwortung der Befragung beansprucht wurde, variierte beträchtlich. Das ist nicht verwunderlich, wenn berücksichtigt wird, dass ein Drittel der Teilnehmer*innen einen nicht unerheblichen Teil der Fragen doppelt beantworten musste (Variante C). Es mussten keine Fälle aufgrund einer unrealistisch kurzen Bearbeitungszeit ausgeschlossen werden, sodass nach Abschluss der Datenerhebung ein Sample von n = 539 vorliegt.

4.3 Soziodemographische Deskription der Stichprobe

Da für diese Studie keine Zufallsauswahl erfolgte, ist die soziodemographische Beschreibung der Stichprobe besonders relevant. Die Deskription der Stichprobe sowie der Blick auf die Verteilung bestimmter Merkmale in der Gesamtbevölkerung ermöglichen es, Verzerrungen zu identifizieren und darauf basierend den Gültigkeitsbereich für die Ergebnisse dieser Arbeit abzustecken.Footnote 21

42 der 539 Befragten sind Personen mit muslimischer Religionszugehörigkeit. Da der thematische Fokus auf Islam-/Muslim*innenfeindlichkeit liegt und die salienteste Kategorie in diesem Fragebogen die Religionszugehörigkeit darstellt, bilden Muslim*innen entlang dieser Kategorisierung im Sample im Sinne der Theorie der Sozialen Identität und aus der Perspektive der nicht-muslimischen Mehrheit die Outgroup. Für nicht-muslimische Befragte beziehen sich die Items im Fragebogen auf die Outgroup. Im Gegensatz dazu beziehen sich die gelisteten Items aus Sicht der Muslim*innen auf die Ingroup. Das impliziert, dass Muslim*innen als Betroffene höchstwahrscheinlich anders auf die mitunter sehr drastisch formulierten Items reagieren als nicht-betroffene Nicht-Muslim*innen: „Die muslimischen Befragten beantworten die Frage im Kontext der erlebten harschen Rhetorik gegenüber Muslim_innen […] und gegebenenfalls konkret erfahrener Ausgrenzung.“ (Schepelern Johansen & Spielhaus 2018: 143). Um mögliche daraus resultierende Verzerrungen zu vermeiden, werden die 42 Muslim*innen in dieser Stichprobe von den Analysen exkludiert.Footnote 22 Das finale Sample besteht aus 497 nicht-muslimischen Personen.

Tabelle 4.3 Verteilung nach Religionszugehörigkeit in der Stichprobe (eigene Darstellung)

Insgesamt ergibt sich in Hinblick auf die Religionszugehörigkeit ein vergleichsweise heterogenes Bild (vgl. Tabelle 4.3). Die größte Gruppe bilden die Katholik*innen (42,30 Prozent), gefolgt von den Protestant*innen (29,13 Prozent). Etwa 16 Prozent der Befragten geben an, keiner Religionsgemeinschaft anzugehören. Knapp 8 Prozent entfallen auf islamische Glaubensrichtungen (insbesondere Sunnit*innen), die jedoch nicht Teil der Stichprobe der weiteren Analysen sind und daher bei der folgenden Beschreibung der Stichprobe unberücksichtigt bleiben. Die verbleibende Stichprobe weist im Vergleich zur Gesamtbevölkerung einige Verzerrungen auf (vgl. hierzu auch Abschn. 1.1). In Deutschland bilden die Konfessionslosen mit knapp 39 Prozent die größte Gruppe (vgl. Forschungsgruppe Weltanschauungen in Deutschland 2020), im vorliegenden Sample identifizieren sich nur knapp 16 Prozent der Befragten als konfessionslos. Evangelische (29 Prozent vs. 25 Prozent) und in besonderem Maße katholische Personen (42 Prozent vs. 27 Prozent) sind im vorliegenden Sample hingegen deutlich überrepräsentiert (vgl. Deutsche Bischofskonferenz 2020; Evangelische Kirche in Deutschland 2020). Die Unterrepräsentanz von Konfessionslosen kann möglicherweise durch die fast vollständige Absenz von Teilnehmer*innen aus Ostdeutschland erklärt werden.

Tabelle 4.4 Verteilung nach Geschlecht in der Stichprobe (eigene Darstellung)

Tabelle 4.4 lässt sich entnehmen, dass knapp zwei Drittel der Befragten angeben, weiblich zu sein (64,56 Prozent). Ein Drittel der Befragten ist männlich (33,21 Prozent). Die verbleibenden zwei Prozent entfallen auf die Antwortkategorie „anderes“ und auf diejenigen, die kein Geschlecht genannt haben (keine Antwort). Insgesamt haben fast doppelt so viele Frauen wie Männer an der Befragung teilgenommen, wodurch Frauen im vorliegenden Sample deutlich überrepräsentiert sind.

In Bezug auf die Altersstruktur fällt die vorliegende Stichprobe heterogener aus als zunächst erwartet (vgl. Tabelle 4.5): Im Mittel sind die Befragten 34 Jahre alt. Die jüngste Person in der Stichprobe ist 17 Jahre alt, die älteste 71. Die Altersgruppe der 25–34-Jährigen ist am stärksten vertreten. Das ist wenig verwunderlich, da die Befragung insbesondere im universitären Kontext und in Sozialen Medien beworben wurde. Gut die Hälfte der Befragten lässt sich der Altersgruppe zwischen 25 und 34 Jahren zuordnen. Aber auch die 17–24-Jährigen sind mit einem Anteil von 18,74 Prozent durchaus stark vertreten. Über zehn Prozent der Respondent*innen gehören der Gruppe der 35–45-Jährigen an; etwas mehr als 18 Prozent geben an, 45 Jahre oder älter zu sein. Verglichen mit der Altersstruktur der Gesamtbevölkerung ist die Stichprobe deutlich jünger. Insbesondere Personen über 65 Jahren sind stark unterrepräsentiert, was im Rahmen eines Onlinesurveys und mit Blick auf die Rekrutierungsstrategie wenig verwunderlich ist.

Tabelle 4.5 Verteilung nach Alter in der Stichprobe (eigene Darstellung)

Die Befragten sind zudem überdurchschnittlich hoch gebildet (vgl. Tabelle 4.6). Knapp 70 Prozent geben als höchsten Schulabschluss das Abitur an, weitere 19 Prozent haben die Fachhochschulreife erreicht.

Tabelle 4.6 Verteilung nach höchstem Schulabschluss in der Stichprobe (eigene Darstellung)

Zum Vergleich: In Deutschland gaben im Jahr 2017 knapp 32 Prozent die (Fach-)Hochschulreife als höchsten Schulabschluss an (vgl. Statistisches Bundesamt 2019). Etwa ein Drittel der in Deutschland lebenden Menschen gab 2017 an, über einen Hauptschulabschluss zu verfügen, für knapp ein Viertel stellt die Mittlere Reife den höchsten Schulabschluss dar (vgl. ebd.). Beide Gruppen sind – ebenso wie die Gruppe der Personen ohne Schulabschluss – in der betrachteten Stichprobe unterrepräsentiert.

Durch die starke Rekrutierung von Teilnehmer*innen im universitären Kontext verfügen darüber hinaus überdurchschnittliche 58 Prozent der Befragten über einen Hochschulabschluss (vgl. Tabelle 4.7). Im Vergleich dazu konnten in Deutschland im Jahr 2017 nur knapp 18 Prozent der Bevölkerung einen Hochschulabschluss vorweisen (vgl. ebd.). Insgesamt sind Personen mit niedrigem Bildungsniveau in dieser Stichprobe unterrepräsentiert, was bei der Interpretation der Daten unbedingt zu berücksichtigen ist.

Tabelle 4.7 Verteilung nach Hochschul-/Ausbildungsabschluss in der Stichprobe (eigene Darstellung)

Geographisch betrachtet liegt das Ballungszentrum der Stichprobe eindeutig in Nordrhein-Westfalen. 65,68 Prozent der Teilnehmer*innen geben an, derzeit in Nordrhein-Westfalen zu leben (vgl. Tabelle 4.8). Insgesamt lebt die überwältigende Mehrheit der Respondent*innen in den alten Bundesländern; nur etwa 2,2 Prozent der Befragten lebten zum Zeitpunkt der Teilnahme in den neuen Bundesländern, sodass Ost-West-Vergleiche im Rahmen dieser Studie nicht möglich sind.

Tabelle 4.8 Verteilung nach Bundesland in der Stichprobe (eigene Darstellung)

Der Großteil der Befragten ist darüber hinaus in Deutschland geboren (vgl. Tabelle 4.9). Lediglich 4 Prozent geben an, außerhalb Deutschlands geboren zu sein. Von diesen 20 Personen stammen vier Personen aus Russland und jeweils drei aus Brasilien und Kasachstan; aus Frankreich und Polen stammen jeweils zwei Befragte. Jeweils eine Person nennt Israel, Kanada, die Sowjetunion und die Ukraine als Geburtsland.

Tabelle 4.9 Verteilung nach Geburtsland in der Stichprobe (eigene Darstellung)

Es lässt sich festhalten, dass die vorliegende Stichprobe in Bezug auf verschiedene soziodemographische Merkmale verzerrt ist. So sind Christ*innen, Frauen, junge Menschen, Hochgebildete, in Deutschland geborene sowie in Nordrhein-Westfalen oder Niedersachsen lebende Menschen überrepräsentiert. Durch die Teilnehmer*innenakquise, die verstärkt in Nordrhein-Westfalen und Niedersachsen an Universitäten und in sozialen Einrichtungen wie etwa der Evangelischen Jugendhilfe stattgefunden hat, ist diese Form der Verzerrung wenig überraschend. Personen über 65 Jahre konnten beispielsweise kaum erreicht werden, ebenso liegt es nahe, dass Hochgebildete bei Rekrutierungswegen über die Universität überrepräsentiert sind. Gleiches gilt für Christ*innen, die vermutlich über kirchliche Träger sozialer Einrichtungen erreicht wurden. Durch die recht hohe Fallzahl, das experimentelle Design der Studie, die Möglichkeit der Integration von Kontrollvariablen in die Regressionsmodelle sowie die Reflexion der zuvor beschriebenen Verzerrungen lassen sich aus den vorliegenden Daten dennoch wichtige Erkenntnisse für die Differenzierung von Islam- und Muslim*innenfeindlichkeit gewinnen.

4.4 Methodologie und methodisches Vorgehen

Der übergeordneten Frage nach einer Differenzierung von Islam- und Muslim*innenfeindlichkeit wird sich in der vorliegenden Studie in drei Schritten angenähert: In einem ersten Schritt werden zunächst in Anlehnung an die Literatur (vgl. u. a. Diekmann 2017, 2020b; Frindte & Dietrich 2017; Janzen et al. 2019; Lee et al. 2009; Leibold & Kühnel 2003, 2006; Uenal 2016; Uenal et al. 2021) unterschiedliche Dimensionen extrahiert und Prädiktoren von Islam- und Muslim*innenfeindlichkeit identifiziert. In einem zweiten Schritt wird daran anschließend das Ausmaß islamfeindlicher im direkten Vergleich zum Ausmaß muslim*innenfeindlicher Einstellungen stärker in den Fokus gerückt. Um die Erkenntnisse aus diesen beiden Schritten besser verstehen zu können, geht es in einem dritten Schritt schließlich darum, Assoziationen zu Islam und Muslim*innen kontrastiv zu untersuchen und ihre Korrelation mit islam- und muslim*innenfeindlichen Einstellungen zu testen. Die einzelnen Schritte testen zum Teil unmittelbar das Potenzial eines mehrdimensionalen Konstrukts (Extrahierung der Dimensionen), zum Teil liefern sie mittelbar – in Form abweichender Prädiktoren, Ausmaße und Assoziationen – weitere Indikatoren für eine Differenzierung. Die Analysen der ersten beiden Schritte sowie Teile des dritten Schritts (Hauptkomponentenanalyse, konfirmatorische Faktorenanalyse, Regressionsanalysen, Mittelwertvergleiche) wurden mit der Statistiksoftware Stata14 durchgeführt. Die Auswertung der freien Assoziationen im dritten Schritt erfolgte mithilfe des Programms Atlas.ti7. Jeder einzelne Schritt auf dem Weg zu einem umfassenden Gesamtbild erfordert andere method(olog)ische Herangehensweisen, welche im Folgenden entsprechend dem triadischen Aufbau der Ergebniskapitel näher erläutert werden. Da die einzelnen Verfahren aus unterschiedlichen Gründen, auf die im weiteren Verlauf der Arbeit eingegangen wird, auf abweichenden Stichproben basieren, folgt vorab zur besseren Orientierung eine Übersicht der zugrundeliegenden Fragebogenversionen für die einzelnen Verfahren (vgl. Tabelle 4.10).

Tabelle 4.10 Übersicht der zugrundeliegenden Fragebogenversionen für die einzelnen Verfahren (eigene Darstellung)

4.4.1 Differenzierung: PCA, CFA und Regressionsanalysen

Das Ziel des ersten Schritts (vgl. Kap. 5) ist zweigeteilt: Zum einen geht es explizit um die Dimensionalisierung des Phänomens, zum anderen geht es um die Identifizierung unterschiedlicher Prädiktoren von Islam- und Muslim*innenfeindlichkeit. Beide Ansätze liefern Hinweise auf eine notwendige Differenzierung von Islam- und Muslim*innenfeindlichkeit, indem sie einerseits Strukturen und andererseits variierende Prädiktoren offenlegen.

Hauptkomponentenanalyse

Zunächst wird eine Hauptkomponentenanalyse (Principal Component Analysis, PCA) durchgeführt. Die PCA wird häufig als eine Form der explorativen Faktorenanalyse (EFA) behandelt und findet breite Anwendung in der Forschungspraxis – nicht zuletzt, da sie oftmals die default-Einstellung in Statistik-Programmen darstellt. Allerdings ist sie streng genommen keine Extraktionsmethode der EFA, sondern eine Methode zur Datenreduktion (vgl. Costello & Osborne 2005). Während einer EFA also die Frage „Wie lässt sich die Ursache bezeichnen, durch die die Korrelation der Variablen, die auf einen Faktor hoch laden, erzeugt wird?“ (Backhaus et al. 2018: 394; Herv. i. Orig.) zugrunde liegt, ist die zentrale Frage im Rahmen einer PCA eher „Wie lassen sich die auf eine Hauptkomponente (Faktor)Footnote 23 hoch ladenden Variablen durch einen Sammelbegriff zusammenfassen?“ (ebd.: 393; Herv. i. Orig.). Anders gesagt: Während in der Logik der EFA die latenten Konstrukte als ursächlich für die Korrelationen der auf einen Faktor hoch ladenden Variablen untereinander angesehen werden, stellen die Komponenten innerhalb der PCA eine gewichtete Linearkombination der Indikatoren dar, d. h. Indikatoren (\(x)\) konstituieren die gemeinsame Komponente (\(k)\) und nicht umgekehrt (vgl. Aichholzer 2017: 77):

$$k_{1} = a_{11} x_{1} + a_{21} x_{2} + \ldots + a_{n1} x_{n}$$
$$k_{2} = a_{12} x_{1} + a_{22} x_{2} + \ldots + a_{n2} x_{n}$$
$$\cdots$$
$$k_{n} = a_{1n} x_{1} + a_{2n} x_{2} + \ldots + a_{nn} x_{n}$$

Die PCA ähnelt damit einem formativen Messmodell, das bedeutet, bestimmte Indikatorvariablen sind Bestimmungsgrößen der betrachteten latenten Variablen (vgl. ebd.: 570). In diesem allerersten Schritt geht es zunächst tatsächlich nur darum, einen Sammelbegriff zu finden bzw. Daten zu reduzieren, um herauszufinden, ob sich die berücksichtigten Items entlang ihres Wordings (Islam / Musliminnen und Muslime) bündeln lassen.

Die PCA geht von einer vollständigen Erklärung der Varianz der Variablen durch den Faktor und damit von der Annahme aus, dass keine Einzelrestvarianzen existieren (KommunalitätenFootnote 24 = 1). Wenn weniger Komponenten als Variablen extrahiert werden, ergeben sich dennoch Kommunalitätenwerte von kleiner 1, die als nicht-reproduzierter Varianzanteil und damit als Informationsverlust zu verstehen sind (vgl. ebd.: 392), was in diesem Fall mit der Intention der Datenreduktion bewusst in Kauf genommen wird. Zur Extraktion der Komponenten wird sich am gängigen Kaiser-Kriterium orientiert, das eine Extraktion bei einem EigenwertFootnote 25 von größer 1 vorsieht. Das Kaiser-Kriterium gibt den Eigenwert 1 vor, da ein Faktor so einen höheren Varianzerklärungsanteil über alle Variablen aufweist als eine einzelne Variable (vgl. ebd.: 397). Für Faktorladungen, also die Korrelation zwischen einer Variable und einem Faktor, gelten üblicherweise Werte ab 0,5 als ausreichend hoch, um Berücksichtigung zu finden (vgl. ebd.: 399). Dieser Konvention folgend werden in den vorliegenden Analysen nur Items mit einer Faktorladung ≥ 0,5 dem entsprechenden Faktor zugeordnet.

Zur besseren Interpretation der Daten im Falle mehrfaktorieller Lösungen ist es weiterhin üblich, mit Rotationsmethoden zu arbeiten, also das Koordinatenkreuz an seinem Ursprung zu drehen. Eine Rotation ermöglicht bei mittelhohen, nicht eindeutigen Ladungen der Variablen auf die Faktoren eine eindeutigere Zuordnung auf einen der Faktoren. Die Wahl der Rotationsmethode hängt davon ab, ob eine Korrelation zwischen den Faktoren angenommen wird. Für sozialwissenschaftliche Fragestellungen ist meist von einer Korrelation auszugehen: „In the social sciences we generally expect some correlation among factors, since behavior is rarely partitioned into neatly packaged units that function independently of one another.“ (Costello & Osborne 2005). Auch für die vorliegende Arbeit liegt es nahe, eine Korrelation zwischen den Komponenten Islam- und Muslim*innenfeindlichkeit anzunehmen, weshalb die in diesem Fall zu bevorzugende schiefwinklige Rotation (oblique oblimin) angewendet wird (vgl. Backhaus et al. 2018: 400; Costello & Osborne 2005).

Die PCA ist ein hilfreiches Instrument, um einen Datensatz besser kennenzulernen und erste Strukturen zu erkennen. Auch für die vorliegende Studie dient die PCA dazu, einen ersten Eindruck des Datensatzes zu erlangen, sich mit diesem vertraut zu machen und Anhaltspunkte bezüglich der in der CFA zu berücksichtigenden Variablen zu sammeln. Eine solche, zunächst explorative Herangehensweise ist im Kontext der Forschung im Phänomenbereich nicht unüblich (vgl. u. a. Aschauer 2016; Diekmann 2017, 2020b; Frindte & Dietrich 2017; Janzen et al. 2019). Explorative Verfahren sind jedoch nicht das Mittel der Wahl, um Hypothesen zu testen und inferenzstatistische Aussagen zu machen (vgl. Costello & Osborne 2005). Aus diesem Grund geht die vorliegende Studie über explorative Verfahren hinaus. Mittlerweile existieren bereits einige Studien, die eine Differenzierung von Islam- und Muslim*innenfeindlichkeit nahelegen (vgl. Diekmann 2017, 2020b; Frindte & Dietrich 2017; Lee et al. 2009; Leibold & Kühnel 2003, 2006; Uenal 2016; Uenal et al. 2021). Darüber hinaus konnte bereits gezeigt werden, dass es auch theoretisch begründete Annahmen für eine Differenzierung von Islam- und Muslim*innenfeindlichkeit gibt (vgl. Abschn. 2.4; Abschn. 3.4.1). Auf Basis des Forschungsstandes und der theoretischen Annahmen wurden schließlich Hypothesen formuliert (vgl. Abschn. 3.5). Aufgrund dieser vielfältigen und bereits recht konkreten Vorannahmen, mit denen an die Daten herangegangen wird, schließt sich an die PCA eine konfirmatorische Faktorenanalyse (Confirmatory Factor Analysis, CFA) an.

Konfirmatorische Faktorenanalyse

Bei einer CFA wird die Zuordnung der Indikatorvariablen (Items) zu den Faktoren sowie die Anzahl der Faktoren (und damit letztendlich auch die Interpretation der Faktoren) a priori durch die Forschenden vorgegeben:

„Die zentralen Unterschiede zwischen einer explorativen und einer konfirmatorischen Faktorenanalyse sind damit darin zu sehen, dass bei der explorativen Faktorenanalyse die Zuordnung von Ausgangsvariablen zu Faktoren sowie die Anzahl der zu extrahierenden Faktoren das Ergebnis der Faktorenanalyse ist, womit die Faktorenanalyse klassischerweise den struktur-entdeckenden Verfahren zugeordnet wird. Demgegenüber erfolgt bei einer konfirmatorischen Faktorenanalyse sowohl die Zuordnung der Indikatorvariablen zu Faktoren als auch die Festlegung der Anzahl der Faktoren sowie ihrer inhaltlichen Bedeutung a priori durch den Anwender aufgrund von theoretischen oder sachlogischen Überlegungen. Dementsprechend dient die konfirmatorische Faktorenanalyse allein der Prüfung vorab festgelegter Zusammenhänge und ist damit den struktur-prüfenden Verfahren der multivariaten Datenanalyse zuzuordnen.“ (Backhaus et al. 2018: 569; Herv. i. Orig.)

Um die in Abschn. 3.5 aufgestellte Hypothese (H1) einer notwendigen Differenzierung testen zu können, wird auf eine CFA zurückgegriffen. Die Modellformulierung erfolgt im Rahmen dieser Studie auf Basis der theoretischen Annahmen und unter Berücksichtigung der Ergebnisse der PCA. Resultierend aus der Debatte sowie erster empirischer Evidenz zur Differenzierung von Islam und Muslim*innenfeindlichkeit (vgl. Abschn. 3.4) werden zwei latente Faktoren angenommen (Islamfeindlichkeit und Muslim*innenfeindlichkeit). Ausschlaggebend für die Zuordnung der manifesten Variablen ist nun deren Wording bezüglich der Adressierung von Feindlichkeit: Alle islambezogenen Items werden dem Faktor Islamfeindlichkeit und alle muslim*innenbezogenen Items dem Faktor Muslim*innenfeindlichkeit zugeordnet (vgl. Abschn. 4.1.3). Anders als die PCA entspricht die CFA einem reflektiven Messmodell. Es wird also davon ausgegangen, dass die Indikatorvariablen beispielhafte Manifestierungen des hypothetischen Konstrukts sind und Veränderungen in den Messwerten der Indikatorvariablen durch die latente Variable kausal verursacht werden (vgl. ebd.: 567, 570). Ziel dieser Analyse ist es, Aussagen darüber treffen zu können, inwiefern eine zweifaktorielle Struktur die Daten besser abbildet als eine einfaktorielle Struktur, wie sie in der Verwendungspraxis oftmals zu finden ist. Dazu wird das zweifaktorielle Modell (vgl. Abbildung 4.1) einem einfaktoriellen Modell (vgl. Abbildung 4.2) gegenübergestellt.

Abbildung 4.1
figure 1

(eigene Darstellung)

Schematische Darstellung des einfaktoriellen Modells

Abbildung 4.2
figure 2

(eigene Darstellung)

Schematische Darstellung des zweifaktoriellen Modells

Beide Lösungen werden hinsichtlich ihrer Modellgüte miteinander verglichen. Zur Bestimmung der Modellgüte stehen einige Goodness-of-Fit-Maße zur Verfügung, die als Indikatoren für eine gute (akzeptable) Passung des Modells im Sinne einer Entsprechung von theoretischen und empirischen Werten herangezogen werden können (vgl. Aichholzer 2017: 128; Hu & Bentler 1999). Nicht immer legen alle Maße dieselbe Schlussfolgerung nahe, sodass zur endgültigen Entscheidung über die Annahme oder Ablehnung eines Modells die Modellfitmaße in ihrer Gesamtheit beurteilt werden sollten. Zur Beurteilung der Modellgüte im Rahmen dieser Arbeit werden folgende Indizes verwendet:

  • Chi-Quadrat-Test (p(χ2)): ≥ 0,05

  • Root Mean Squared Error of Approximation (RMSEA): <0,05 (<0,08)

  • Standardized Root Mean Squared Residual (SRMR): <0,05 (<0,08)

  • Tucker-Lewis Index (TLI): >0,95 (>0,90)

  • Comparative Fit Index (CFI): >0,95 (>0,90)

Die mit dem Chi-Quadrat-Test getestete Nullhypothese bezieht sich auf die Entsprechung der Kovarianzmatrix der Daten und der modelltheoretischen Kovarianzmatrix. Ein gutes Modell liegt vor, wenn die empirische Kovarianzmatrix und die modellimplizierte Kovarianzmatrix nicht signifikant voneinander verschieden sind, die Nullhypothese also nicht abgelehnt werden muss oder anders gesagt: der Chi-Quadrat-Test nicht signifikant ist (vgl. Aichholzer 2017). Als kritischer p-Wert gilt zumeist p ≥ 0,05. Da die χ2-Statistik recht voraussetzungsreich ist und diese Voraussetzungen in der Praxis oftmals nicht erfüllt werden (können), ist ihre Verwendung nicht immer unproblematisch (vgl. Reinecke 2014: 113–116). Aus diesem Grund werden weitere Modellfitmaße zur Beurteilung der Modellgüte herangezogen, die die entsprechenden Probleme zu vermeiden versuchen (vgl. Urban & Mayerl 2014: 87).

Hierzu zählen einerseits sogenannte absolute Fit-Indizes wie RMSEA und SRMR. Der RMSEA-Wert macht Aussagen darüber, wie stark der Fit einer bestimmten Modellschätzung vom Fit einer perfekten Modellschätzung abweicht und sollte unter 0,08 liegen (vgl. ebd.: 96). Der SRMR-Wert gibt die mittlere Differenz zwischen geschätzter und beobachteter Kovarianzmatrix an (vgl. Urban & Mayerl 2014: 90) und sollte unter 0,08 liegen (vgl. Hu & Bentler 1999). Andererseits können auch sogenannte relative Fit-Indizes zur Beurteilung der Modellgüte herangezogen werden, etwa der TLI oder der CFI. Beide Indizes bilden den relativen Fit eines Modells ab, vergleichen das Modell also mit einem Null-Modell. Ein Null-Modell ist ein Modell, bei dem alle Einflussbeziehungen und Kovarianzen zwischen den einzelnen Variablen eines Strukturgleichungsmodells auf null gesetzt sind, es also keine Zusammenhänge zwischen den Variablen gibt (vgl. Urban & Mayerl 2014: 94). Für beide Indizes gelten Cutoff-Werte von 0,95 (vgl. Hu & Bentler 1999).

Darüber hinaus kann das Bayesian Information Criterion (BIC) Aufschluss darüber geben, welches Modell im direkten Vergleich besser zu den Daten passt – basierend auf dem Vergleich der Likelihood zweier Modelle (vgl. Aichholzer 2017: 131; Urban & Mayerl 2014: 222). Alle genannten Indizes werden im folgenden Kapitel zur Einschätzung der Modellgüte herangezogen. Die Schätzung der Modellparameter basiert in dieser Studie auf dem Maximum-Likelihood-Verfahren, ein Verfahren, das für die hier vorliegenden kontinuierlichenFootnote 26 Variablen mit moderater Schiefe und Kurtosis zum Einsatz kommen kann (vgl. Reinecke 2014: 111).

In der Literatur finden sich verschiedene Richtlinien für die Mindestfallzahl zur Durchführung von (aussagekräftigen, robusten) Strukturgleichungsmodellen, zu denen die CFA gezählt werden kann (für einen Überblick vgl. Urban & Mayerl 2014). Insgesamt ist das vorliegende Sample mit n = 111 eher klein – in der Literatur gilt n<100 als geringer Stichprobenumfang (vgl. ebd.). Allerdings gibt es verschiedene Faustregeln, die die Stichprobengröße zur Anzahl verwendeter Variablen in Relation setzen (fünf- oder zehnmal so viele Fälle wie Variablen), nach denen das vorliegende Sample ausreichend groß ist. Hinzu kommt die Fokussierung auf nur zwei latente Faktoren sowie die recht hohen (standardisierten) Faktorladungen. Beides begünstigt die Arbeit mit einem eher kleinen Sample (vgl. Aichholzer 2017: 112).

Einfache und multiple lineare Regression

Regressionsanalysen gehören zu den am häufigsten eingesetzten Verfahren in der sozialwissenschaftlichen Forschung. Aus diesem Grund wird auf eine ausführliche Darstellung des Verfahrens an dieser Stelle verzichtet und lediglich auf die einschlägige Fachliteratur verwiesen (zur Funktionsweise der Regressionsanalyse vgl. Backhaus et al. 2018). Das Ziel von Regressionsanalysen ist es, Zusammenhänge zwischen einer abhängigen und einer (einfache Regression) oder mehreren (multiple Regression) unabhängigen Variablen zu untersuchen. Zumeist stehen hierbei Ursache-Wirkungs-Zusammenhänge oder Je-Desto-Beziehungen im Vordergrund (vgl. Backhaus et al. 2018: 58). Aussagen über Kausalitäten resultieren dabei zumeist aus theoretischen Überlegungen oder Plausibilitätsannahmen, etwa dass das Geschlecht das Einkommen beeinflusst und nicht umgekehrt. Regressionsanalysen untersuchen zwar Korrelationen – notwendige, aber nicht hinreichende Bedingung für Kausalität –, geben jedoch nicht notwendigerweise Auskunft über Kausalitäten. Im Rahmen der vorliegenden Arbeit mit Querschnittsdaten können keine Aussagen über Kausalität gemacht werden. Insbesondere im Kontext der Forschung zu Kontakt und Vorurteilen spielt die Frage der Kausalität immer wieder eine Rolle, da beide Wirkrichtungen plausibel erscheinen und in der Literatur belegt sind; insgesamt scheint jedoch der Einfluss von Kontakt auf Vorurteile stärker zu sein als der Einfluss von Vorurteilen auf Kontakt (vgl. Pettigrew & Tropp 2006). Da das primäre Ziel der Analysen der Vergleich von Islam- und Muslim*innenfeindlichkeit mit Blick auf unterschiedliche Korrelationen ist, ist die Frage der Kausalität hier zweitrangig. Im Folgenden wird von Prädiktoren von Islam- bzw. Muslim*innenfeindlichkeit gesprochen, ohne dabei Kausalität zu unterstellen.

Für die vorliegende Arbeit erfüllen die Regressionsanalysen die Funktion, die in Abschn. 3.5 aufgestellten Hypothesen H2-H7 sowie H9-H10 zu testen und unterschiedliche Prädiktoren von Islam- und Muslim*innenfeindlichkeit zu vergleichen bzw. zu identifizieren. Multiple Regressionsanalysen ermöglichen die Integration von Störvariablen (Drittvariablenkontrolle), was insbesondere bei verzerrten Stichproben wie der vorliegenden vorteilhaft ist. So können bestimmte Merkmale konstant gehalten werden. Als Kontrollvariablen fungieren das Alter (in Jahren), das Bildungsniveau (niedrig, mittel, hoch), das Geschlecht (männlich, weiblich) sowie die selbstberichtete Religiosität (Skala von 1–7; zusätzlich quadriert) (vgl. Abschn. 4.1.3). Als abhängige Variable fungieren in den Modellen entweder Islamfeindlichkeit, Muslim*innenfeindlichkeit oder Verhaltensintentionen gegenüber Muslim*innen.Footnote 27 Alle Modelle wurden einer umfangreichen Regressionsdiagnostik unterzogen, das heißt, es wurden beispielsweise Tests auf Heteroskedastizität oder Multikollinearität durchgeführt.

Insgesamt werden im Rahmen des ersten Analyseschritts (Kap. 5) 14 lineare Regressionsmodelle gerechnet, die in drei Gruppen eingeteilt werden können: 1. Modelle, in denen Islamfeindlichkeit die abhängige Variable darstellt (Modelle I1–I5), 2. Modelle, in denen Muslim*innenfeindlichkeit die abhängige Variable darstellt (Modelle M1–M5) und 3. Modelle, in denen Verhaltensintentionen gegenüber Muslim*innen die abhängige Variable darstellt (Modelle V1–V4). Die Modelle I1–I2, M1–M2 und V1–V2 sind zunächst einfache lineare Regressionsmodelle der Form

$$y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Dabei steht \(y\) für die abhängige Variable, \(\beta_{0}\) für den Intercept, \(\beta_{1}\) für die Steigung der Geraden, \(x\) für die unabhängige Variable und \(\varepsilon\) für die Residuen, das heißt die Differenz zwischen vorhergesagtem und empirischem Wert (vgl. Diaz-Bone 2006: 95). Das tiefgestellte \(i\) steht für die individuelle Merkmalsausprägung. Pro abhängiger Variable werden zwei einfache lineare Regressionsmodelle gerechnet:

Modell I1:

$$y Islamfeindlichkeit_{i} = \beta_{0} + \beta Kontakt_{i} + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Modell I2:

$$y Islamfeindlichkeit_{i} = \beta_{0} + \beta Religionskritik_{i} + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Modell M1:

$$y Muslim*innenfeindlichkeit_{i} = \beta_{0} + \beta Kontakt_{i} + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Modell M2:

$$y Muslim*innenfeindlichkeit_{i} = \beta_{0} + \beta Religionskritik_{i} + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Modell V1:

$$y Verhaltensintentionen_{i} = \beta_{0} + \beta Islamfeindlichkeit_{i} + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Modell V2:

$$y Verhaltensintentionen_{i} = \beta_{0} + \beta Muslim*innenfeindlichkeit_{i} + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Ziel dieses jeweils ersten Schritts ist die Determinierung des Einflusses der unabhängigen Variablen auf die abhängigen Variablen ohne Hinzunahme von Kontrollvariablen. Dies ermöglicht beispielsweise einen direkten Vergleich der erklärten Varianz, also der Erklärungsleistung der interessierenden Prädiktoren, zwischen den einzelnen Modellen. Um störende Einflüsse dritter Variablen innerhalb der einzelnen Modelle berücksichtigen zu können, werden in einem nächsten Schritt in alle oben gelisteten Modelle die Kontrollvariablen Alter, Geschlecht, Bildung und selbstberichtete Religiosität (inklusive der quadrierten selbstberichteten Religiosität) integriert (Modelle I3–I4, M3–M4 und V3–V4). Formal stellen sich diese multivariaten Modelle wie folgt dar:

$$y_{i} = \beta_{0} + \beta_{1} x_{1i} + \beta_{2} x_{2i} + \beta_{3} x_{3i} + \beta_{4} x_{4i} + \beta_{5} x_{5i} + \beta_{5} \left( {x_{5i} } \right)^{2} \, + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Oder genauer:

Modell I3:

$$ \begin{aligned} y & Islamfeindlichkeit_{i} = \beta_{0} + \beta Kontakt_{i} + \beta Alter_{i} + \beta Geschlecht_{i} + \\ & \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)^{2} \, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Modell I4:

$$ \begin{aligned} y & Islamfeindlichkeit_{i} = \beta_{0} + \beta Religionskritik_{i} + \beta Alter_{i} + \beta Geschlecht_{i} + \\ & \quad \,\,\beta Bildung_{i} + \beta Religiosit\"a t_{i} + \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)^{2} \, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Modell M3:

$$ \begin{aligned} y & Muslim*innenfeindlichkeit_{i} = \beta_{0} + \beta Kontakt_{i} + \beta Alter_{i} + \beta Geschlecht_{i} + \\ & \quad \quad \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)^{2} \, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Modell M4:

$$ \begin{aligned} & \quad \,\,y Muslim*innenfeindlichkeit_{i} = \beta_{0} + \beta Religionskritik_{i} + \beta Alter_{i} + \\ & \beta Geschlecht_{i} + \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)\, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Modell V3:

$$ \begin{aligned} & \quad \quad y Verhaltensintentionen_{i} = \beta_{0} + \beta Islamfeindlichkeit_{i} + \beta Alter_{i} + \\ & \beta Geschlecht_{i} + \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)\, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Modell V4:

$$ \begin{aligned} & y Verhaltensintentionen_{i} = \beta_{0} + \beta Muslim*innenfeindlichkeit_{i} + \beta Alter_{i} + \\ & \beta Geschlecht_{i} + \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)^{2} \, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Schließlich folgt für die Modelle mit Islam- bzw. Muslim*innenfeindlichkeit als abhängiger Variable ein Gesamtmodell (I5 und M5Footnote 28), welches jeweils beide Prädiktoren und alle Kontrollvariablen enthält.

$$y_{i} = \beta_{0} + \beta_{1} x_{1i} + \beta_{2} x_{2i} + \beta_{3} x_{3i} + \beta_{4} x_{4i} + \beta_{5} x_{5i} + \beta_{6} x_{6i} + \beta_{6} \left( {x_{6i} } \right)^{2} + \varepsilon_{i}$$
$$i = 1, \ldots , n$$

Oder genauer:

Modell I5:

$$ \begin{aligned} & \,\,\,\,y Islamfeindlichkeit_{i} = \beta_{0} + \beta Kontakt_{i} + \beta Religionskritik_{i} + \beta Alter_{i} + \\ & \beta Geschlecht_{i} + \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)^{2} \, \\ & \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \,\,\, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Modell M5:

$$ \begin{aligned} & y Muslim*innenfeindlichkeit_{i} = \beta_{0} + \beta Kontakt_{i} + \beta Religionskritik_{i} + \\ & \quad \quad \quad \,\beta Alter_{i} + \beta Geschlecht_{i} + \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \\ & \quad \quad \quad \quad \quad \quad \quad \quad \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)^{2} \, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Ein solches Modell berücksichtigt auch potentielle Störeffekte durch eine der beiden Prädiktorvariablen. Der hier vorgestellte schrittweise Aufbau der Modelle ermöglicht eine genaue Analyse der Effekte auf die jeweilige abhängige Variable unter besonderer Berücksichtigung der Veränderungen von Effekten bedingt durch die Integration weiterer unabhängiger Variablen. Die mit Ausnahme des Austauschs von Islam- und Muslim*innenfeindlichkeit identische Spezifikation der Modelle scheint gut geeignet zu sein, um unterschiedliche Muster in Bezug auf Prädiktoren (Kontakt, allgemeine Religionskritik) und Effekte (Verhaltensintentionen gegenüber Muslim*innen) sichtbar zu machen.

Im Unterschied zu den Analysen im Rahmen der PCA und CFA basieren die Regressionsanalysen im ersten Analyseschritt (Kap. 5) nicht nur auf den Daten aus Fragebogenvariante C (Items sowohl mit dem Wording Islam als auch mit dem Wording Musliminnen und Muslime), sondern stützen sich auf den gesamten Datensatz (Varianten A und C–I im Fall von Islamfeindlichkeit, Varianten B und C–M im Fall von Muslim*innenfeindlichkeit). Eine Beschränkung auf Variante C ist für diesen Analyseschritt nicht zwingend notwendig und würde die Fallzahl unnötig reduzieren. Zugunsten der höheren Fallzahlen ergibt sich der Umstand, dass die beiden jeweils verglichenen Modelle nicht auf einer identischen Stichprobe basieren. Die Stichprobe überschneidet sich zwar (Befragte aus Variante C), enthält jedoch zusätzlich die Teilnehmer*innen aus der Version A (Modelle I1–I5 sowie V1 und V3) bzw. B (Modelle M1–M5 sowie V2 und V4). Die Zuordnung zu einer der drei Fragebogenversionen erfolgte randomisiert (vgl. Abschn. 4.1.1). Chi-Quadrat- bzw. t-Tests bestätigen, dass es keine signifikanten Unterschiede in den Verteilungen der soziodemographischen Variablen Alter, Geschlecht und Bildung zwischen den Stichproben der Versionen A und B gibt. Vor diesem Hintergrund erscheint die Wahl für eine höhere Fallzahl und gegen eine identische Stichprobe (die lediglich für die Befragten der Variante C möglich gewesen wäre) legitim. Fehlende Werte bei mindestens einer der Prädiktor- oder Kontrollvariablen sowie für die Variable Verhaltensintentionen führte zu einer Exklusion des gesamten Falls (listwise deletion). Für die Modelle zu Islamfeindlichkeit wurden zudem alle Fälle mit fehlenden Werten für diese Variable exkludiert. Gleiches gilt für die Modelle zu Muslim*innenfeindlichkeit und die entsprechende abhängige Variable. Dies ergibt eine finale Stichprobengröße für die Regressionsmodelle zu Islamfeindlichkeit (I1–I5 sowie V1 und V3) von n = 171 und zu Muslim*innenfeindlichkeit (M1–M5 sowie V2 und V4) von n = 179.

In Abschn. 7.3.2 folgt im Anschluss an die offenen Assoziationen (Kap. 7) noch einmal eine Reihe multipler linearer Regressionen, um den Zusammenhang zwischen der Auswahl bestimmter Assoziationen und Islam- bzw. Muslim*innenfeindlichkeit zu testen (H9 und H10). Alle Modelle enthalten dieselben Kontrollvariablen wie die Modelle in Kap. 5

(Alter, Geschlecht, Bildung, selbstberichtete Religiosität, quadrierte selbstberichtete Religiosität). Für die Modelle in Abschn. 7.3.2 gilt daher ebenfalls die Formel

$$y_{i} = \beta_{0} + \beta_{1} x_{1i} + \beta_{2} x_{2i} + \beta_{3} x_{3i} + \beta_{4} x_{4i} + \beta_{5} x_{5i} + \beta_{5} \left( {x_{5i} } \right)^{2} + \varepsilon_{i} .$$
$$i = 1, \ldots , n.$$

Islamfeindlichkeit und Muslim*innenfeindlichkeit stellen in den insgesamt 116 Modellen die abhängige Variable (\(y)\) dar. Insgesamt wurden 58 Assoziationen vorgegeben (vgl. Abschn. 4.1.1), von denen jeweils eine pro Modell als unabhängige Variable mit dichotomer Ausprägung (0 = nicht ausgewählt / 1 = ausgewählt) fungiert. So ergeben sich in Summe 58 Modelle mit je einer Assoziation und den genannten Kontrollvariablen als unabhängige Variablen und Islamfeindlichkeit als abhängiger Variable sowie 58 Modelle mit identischen unabhängigen Variablen, in denen jedoch Muslim*innenfeindlichkeit die abhängige Variable bildet. Es ergeben sich folglich 58 Modelle der Form

$$ \begin{aligned} & \quad y Islamfeindlichkeit_{i} = \beta_{0} + \beta \left[ {entsprechende Assoziation} \right]_{i} + \beta Alter_{i} + \\ & \beta Geschlecht_{i} + \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)^{2} \, \\ & \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \,\,\, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

sowie 58 Modelle der Form

$$ \begin{aligned} & y Muslim*innenfeindlichkeit_{i} = \beta_{0} + \beta \left[ {entsprechende Assoziation} \right]_{i} + \\ & \quad \quad \quad \,\,\,\beta Alter_{i} + \beta Geschlecht_{i} + \beta Bildung_{i} + \beta Religiosit\"a t_{i} + \\ & \quad \quad \quad \quad \quad \quad \quad \quad \beta Religiosit\"a t_{i} \left( {Religiosit\"a t_{i} } \right)^{2} \, + \varepsilon_{i} \\ \end{aligned} $$
$$i = 1, \ldots , n$$

Ein Überblick der Regressionskoeffizienten aus allen 116 Modellen soll Aufschluss darüber geben, ob bzw. inwiefern bestimmte Assoziationen mit feindlichen Einstellungen zusammenhängen. Dieser letzte Schritt schließt an die Auswertung der offenen und geschlossenen Assoziationen an und bringt diese statistisch mit islam- und muslim*innenfeindlichen Einstellungen zusammen.

Die Analysen in Abschn. 7.3.2 basieren auf den Befragten der Fragebogenversionen A und B. Befragte der Version C wurden von den Analysen exkludiert, da im Laufe der Analysen in Abschn. 7.3.1 einige methodologische Schwächen im Zusammenhang mit den geschlossenen Assoziationen in Version C deutlich geworden sind, die letztendlich zu ihrem Ausschluss geführt haben. Wie bereits für die Regressionsanalysen in Kap. 5 wurden auch hier zudem alle Fälle mit mindestens einem fehlenden Wert bei einer der integrierten Variablen exkludiert (listwise deletion). Schlussendlich ergibt sich damit ein Sample von n = 102 für alle Modelle zu Islamfeindlichkeit und n = 95 für alle Modelle mit Muslim*innenfeindlichkeit als abhängiger Variable.

4.4.2 Niveauunterschiede: Mittelwertvergleich

Der zweite Auswertungsschritt in dieser Arbeit besteht in der Untersuchung von Niveauunterschieden zwischen Islam- und Muslim*innenfeindlichkeit (H8). Das experimentelle Design im Sinne eines faktoriellen Surveys stellt eine Innovation im Zusammenhang mit einer differenzierten Betrachtung von Islam- und Muslim*innenfeindlichkeit dar. Das Design mit identisch formulierten Items, bei denen lediglich die Adressat*innen (Islam / Musliminnen und Muslime) variiert wurden, ermöglicht erstmals den direkten Vergleich der Zustimmungswerte zu verschiedenen Items mit islam- bzw. muslim*innenbezogenem Wording. Dieser Ansatz kann im Anschluss an die PCA, die CFA und die Regressionsmodelle weitere Indizien für eine notwendige Differenzierung hervorbringen, indem gezeigt wird, dass Items in Abhängigkeit ihres Wordings unterschiedlich bewertet werden und die verwendeten Begriffe nicht ohne Weiteres austauschbar sind. Er fungiert jedoch nicht nur als Hinweis auf Unterschiedlichkeit, sondern ermöglicht darüber hinaus Aussagen über eine unterschiedliche Verbreitung von Islam- und Muslim*innenfeindlichkeit in Deutschland, das heißt über das Ausmaß von Islam- und Muslim*innenfeindlichkeit im direkten Vergleich.

Hierzu werden die 36 Items paarweise miteinander verglichen. Ein t-Test prüft, ob die jeweiligen Mittelwerte statistisch signifikant voneinander verschieden sind. Da die hier verwendeten Items, wie zuvor beschrieben, die Kriterien für eine Behandlung als quasi-metrische Variablen erfüllen, ist eine Intervallskalierung als zentrale Voraussetzung für den Einsatz von t-Tests gegeben. Weitere Voraussetzungen für den t-Test sind Normalverteilung und – im Fall des ungepaarten t-Tests – Varianzhomogenität. Der t-Test ist jedoch recht robust gegenüber der Verletzung der formulierten Annahmen, insbesondere bei Stichproben größer 30 sowie – im Fall des ungepaarten t-Tests – bei etwa gleich großen Stichproben (vgl. Bortz & Schuster 2010: 122–125), was in der vorliegenden Studie gegeben ist.

In dieser Arbeit werden zwei Arten von t-Tests angewendet: zum einen der t-Test für unabhängige Stichproben (ungepaarter t-Test), zum anderen der t-Test für abhängige Stichproben (gepaarter t-Test). Begründet liegt dieses Vorgehen in den drei unterschiedlichen Fragebogenversionen. Der Versionenvergleich A (Islam) und B (Muslim*innen) erfordert einen ungepaarten t-Test, da hier zwei unabhängige Stichproben vorliegen. Der Mittelwertvergleich innerhalb der Version C, in welcher dieselben Befragten sowohl islam- als auch muslim*innenbezogene Items vorgelegt bekamen, erfordert hingegen einen gepaarten t-Test, da es sich um eine einzige Stichprobe handelt. Die Messungen zu Islam- und Muslim*innenfeindlichkeit können als zwei direkt aufeinanderfolgende Erhebungen innerhalb derselben Stichprobe und damit letztendlich als analog zu zwei Messzeitpunkten innerhalb derselben Stichprobe verstanden werden – ein wichtiger Anwendungsbereich für den gepaarten t-Test.

4.4.3 Assoziationen: Frequenz- & Valenzanalyse und Regressionsanalysen

Im Fragebogen findet sich, wie in Abschn. 4.1.1 beschrieben, vor den geschlossenen Fragen zu Einstellungen zum Islam und zu Muslim*innen eine offene Frage, die auf freie Assoziationen mit beiden Begriffen abzielt. Im Fragebogen wurde diese Frage bewusst vor den geschlossenen Fragen positioniert, um potentielle Einflüsse so gering wie möglich zu halten. Die offene Frage bildet die Basis für den dritten und letzten Schritt der Auswertungen. Nachdem zunächst Dimensionen des Phänomens untersucht wurden (Faktorenanalyse), Prädiktoren von Islamfeindlichkeit und Muslim*innenfeindlichkeit vergleichend gegenübergestellt wurden (Regressionsanalysen) sowie Unterschiede im Ausmaß der feindlichen Einstellungen gegenüber Islam und Muslim*innen näher unter die Lupe genommen wurden (Mittelwertvergleiche), geht es in diesem Auswertungsschritt darum, eine Vorstellung davon zu bekommen, welche Bezüge es zum Islam und zu Muslim*innen auf Seiten der nicht-muslimischen Befragten gibt. Dieses Vorgehen gibt einen Einblick in die Deutungsrahmen, die bei den Befragten aktiviert werden, und damit in das abgespeicherte Wissen zu diesen Begriffen (vgl. Wehling 2017: 20). Dieses kann aus unterschiedlichen Gründen in Bezug auf den Islam einerseits und Muslim*innen andererseits variieren, beispielsweise, weil sich historisch betrachtet in Deutschland lange Zeit Vorstellungen über den Islam ohne substantielle persönliche Kontakte zu Muslim*innen entwickelt haben (vgl. Rohe 2017: 53). Anders als Bilder des Islams kamen Muslim*innen in nennenswerter Zahl erst später nach Deutschland – eine „qualitativ völlig neue Entwicklung“ (ebd.: 67) gab es erst im Zuge der Arbeitsmigration Mitte des 20. Jahrhunderts (vgl. hierzu Abschn. 3.1). Auch mediale Darstellungen können einen Einfluss auf Deutungsrahmen und Einstellungen im Zusammenhang mit dem Islam und Muslim*innen haben (vgl. Abschn. 2.5). So variiert beispielsweise die sprachliche Einbettung in bestimmte Themenfelder im Rahmen der medialen Darstellung zwischen dem Islam und Muslim*innen (vgl. Kalwa 2013).

Freie Assoziationen können Aufschluss über Deutungsrahmen von Befragten geben. So können oftmals schwer zugängliche Wissens-, Meinungs- und Glaubenssysteme bei gleichzeitig vergleichsweise geringen Effekten sozialer Erwünschtheit sichtbar gemacht werden (vgl. Kulich et al. 2005; Nelson et al. 2000). Im Rahmen der Umfrageforschung in Deutschland wurde beispielsweise versucht herauszufinden, welche spezifischen Gruppen Befragte sich unter dem Stimulus „in Deutschland lebende Ausländer“ (Wasmer et al. 2018) bzw. „foreigners“ (Asbrock et al. 2014) vorstellen.Footnote 29 Welche Gruppen hier assoziiert werden, das heißt, welche Wissens-, Meinungs- und Glaubenssysteme vorliegen, basiert auf persönlichen Begegnungen, der Sichtbarkeit dieser Gruppen sowie der medialen Darstellung (vgl. ebd.). All diese Faktoren können dazu beitragen, dass bestimmte Kategorien besonders leicht zugänglich oder bestimmte Informationen besonders leicht abrufbar sind. Dementsprechend kontextspezifisch können derartige Assoziationen sein. Die Gruppe der Muslim*innen beispielsweise ist sowohl in den USA als auch in Deutschland äußerst heterogen, dennoch finden sich etwa mit Blick auf sozioökonomische Faktoren oder Migrationserfahrungen große Unterschiede zwischen Muslim*innen in Deutschland und Muslim*innen in den USA (vgl. Chbib 2010; Faist et al. 2020), sodass je nach Kontext unterschiedliche Gelegenheitsstrukturen in Bezug auf Kontaktmöglichkeiten sowie eine unterschiedliche Repräsentation von Muslim*innen gegeben ist. Aufgrund der Heterogenität der Gruppe der Muslim*innen sowie des Facettenreichtums des Islams ist eine Analyse der Assoziationen mit diesen beiden Stimuli besonders spannend.

Die freien Assoziationen bieten für die vorliegende Arbeit zweierlei Potential: Zum einen können die Assoziationen zu Islam und Muslim*innen direkt miteinander verglichen werden und so einen Teil zur Beantwortung der Frage nach einer notwendigen Differenzierung beitragen. Wenn die Antworten in unterschiedliche Richtungen gehen, spricht dies dafür, dass die Begriffe Islam und Muslim*innen auch in den eingesetzten Items in standardisierten Befragungen unterschiedliche Deutungsrahmen aktivieren und in der Folge zu anderen Bewertungen der Items und damit zu anderen Antworten führen. Eine Differenzierung, mindestens aber eine erhöhte Sensibilisierung für konkrete Itemformulierungen, wäre dann dringend erforderlich. Zum anderen liefert diese Herangehensweise – neben der Bestätigung oder Widerlegung der Ergebnisse aus dem ersten Teil dieser Arbeit – im Falle substantiell unterschiedlicher Antworten darüber hinaus erste Ideen, nicht nur ob, sondern inwiefern bzw. warum Islam und Muslim*innen unterschiedlich bewertet werden. So können die Antworten beispielsweise auf ihre negative oder positive Bewertung hin verglichen werden und liefern damit eine direkte Ergänzung zu den Mittelwertvergleichen im zweiten Schritt. Forschung im Bereich der freien Assoziationen legt nahe, dass das Ausmaß von Vorurteilen gegenüber foreigners oder strangers abhängig ist von den jeweiligen assoziierten Gruppen (vgl. Asbrock et al. 2014; Spruyt et al. 2016; Wallrich et al. 2020). Werden im Zusammenhang mit foreigners / strangers beispielsweise Muslim*innen (vgl. Spruyt et al. 2016; Wallrich et al. 2020) oder Türk*innen (vgl. Asbrock et al. 2014) assoziiert, fallen die feindlichen Einstellungen gegenüber foreigners / strangers besonders hoch aus. Auch zeigt sich, dass Befragte unterschiedliche Herkunftsländer, Intentionen und Motivationen von Geflüchteten in Abhängigkeit des Labels – asylum seeker, refugee, war refugee, economic refugee – assoziieren und asylum seekers negativer bewertet werden als refugees bzw. economic refugees negativer bewertet werden als refugees und war refugees (vgl. Kotzur et al. 2017). Das Aufdecken der Assoziationen zum Islam bzw. zu Muslim*innen kann somit im Rahmen eines eher explorativen Ansatzes helfen, eine unterschiedliche Bewertung von Islam und Muslim*innen für den deutschen Kontext besser zu verstehen.

Um Werturteile in den Aussagen angemessen berücksichtigen zu können, werden diese nicht nur frequenzanalytisch, sondern wo möglich auch valenzanalytisch ausgewertet. Während Frequenzanalysen die Häufigkeit des Vorkommens bestimmter Textelemente zählen, berücksichtigen Valenzanalysen die Bewertungen, die im Zusammenhang mit interessierenden Stimuli beobachtet werden können (vgl. Schnell et al. 2013: 398 f.). Für den konkreten Fall, in dem oftmals lediglich einzelne Wörter ohne nähere Erläuterung genannt wurden, bedeutet das, dass an einigen Stellen neben einer reinen Auszählung der Begriffe nach Kategorien zusätzlich berücksichtigt wird, ob es sich bei diesen Begriffen um positive oder negative Bewertungen handelt. So würde beispielsweise die Nennung „freundlich“ als positiv, die Nennung „gewalttätig“ hingegen als negativ eingestuft werden. Bei der anschließenden Interpretation spielt dann außerdem die Gegenüberstellung eher positiver und eher negativer Kategorien eine wichtige Rolle. Durch die oftmals sehr knappen Antworten sind eine Kontextualisierung und eine valenzanalytische Deutung der Antworten jedoch bei weitem nicht immer möglich. Das Datenmaterial basiert auf einer einzigen offenen Frage innerhalb eines standardisierten Fragebogens, die noch dazu explizit nach einzelnen Schlagwörtern fragt, sodass tiefergehende Analysemöglichkeiten insbesondere im Bereich der Valenzanalyse immer wieder an ihre Grenzen stoßen. Im Vordergrund dieses Auswertungsschritts steht daher die Frequenzanalyse.

Die Codierung bzw. Kategorienbildung zur Auswertung der freien Assoziationen erfolgte sowohl deduktiv auf Basis theoretischer Überlegungen und vorliegender Forschungsergebnisse (vgl. insbesondere Abschn. 2.5.2 sowie Abschn. 7.2) als auch induktiv, das heißt durch eine Ableitung aus dem Material heraus. Zur Codierung wurde das Programm Atlas.ti verwendet. Da das zentrale Interesse dieser Arbeit die Differenzierung von Islam- und Muslim*innenfeindlichkeit ist und das zugrunde gelegte Material nicht wie oftmals üblich aus Medientexten oder Interviews, sondern überwiegend aus Ein-Wort-Antworten innerhalb eines standardisierten Surveys besteht, ging es bei der Vercodung des Materials weniger um die Entdeckung einer bestimmten Struktur und daher auch nicht um die Entwicklung eines Code-Baums im klassischen Sinne, sondern vielmehr um die Identifizierung und frequenz- bzw. valenzanalytische Auswertung relevanter Themenfelder, die die Deutungsrahmen der Befragten abbilden. Die Antworten der Befragten wurden im Rahmen des Codierprozesses mit den entwickelten Codes versehen. Der Nennung „Terror“ wurde beispielsweise der Code Bedrohung & Konflikt zugewiesen. Codiert wurde auf Ebene der Teilnehmer*innen, das heißt, pro Teilnehmer*in konnten zwar mehrere Codes vergeben werden, ein Code konnte jedoch maximal einmal pro Teilnehmer*in vergeben werden, auch wenn eine Person viele verschiedene Begriffe aus einem Code nennt. Das hat zwar den Nachteil, dass keine Aussagen darüber gemacht werden können, wie stark ausgeprägt bestimmte Themenfelder bei einzelnen Personen sind, bringt aber den für diese Arbeit enormen Vorteil mit sich, dass Vergleiche darüber angestellt werden können, wie viele Befragte mindestens eine Nennung aus einem bestimmten Code aufweisen, also beispielsweise wie viel Prozent der Befragten einen Bezug zu Religion oder zu Gewalt hergestellt haben. Insgesamt wurden 26 Codes entwickelt.Footnote 30

Im Rahmen der Möglichkeiten dieser Arbeit konnte Intercoder-Reliabilität, also der Abgleich der Codierungen unterschiedlicher Codierer*innen (vgl. Rössler 2017: 207), nur äußerst bedingt umgesetzt werden. Um die Kategorienbildung auf intersubjektive Nachvollziehbarkeit zu überprüfen, wurden die einzelnen Codes mit zahlreichen beispielhaften Nennungen mit anderen Forscher*innen diskutiert (Research Class). Ein paralleles Codieren mehrerer Personen im Rahmen eines Pretests war aufgrund fehlender finanzieller und personeller Ressourcen nicht möglich. In diesem konkreten Fall scheint es jedoch ohnehin ausschlaggebender zu sein, dass die Codiererin einem strikten Vorgehen folgt, sodass sichergestellt ist, dass die Codierung für Assoziationen zum Islam nach den exakt gleichen Kriterien wie die Codierung der Assoziationen zu Muslim*innen geschieht. Da es in erster Linie um einen Vergleich geht, ist von zentraler Bedeutung, dass an beide Materialien derselbe Maßstab angelegt wurde. Die Umsetzung von Intercoder-Reliabilität ist lediglich zweitrangig. Um dennoch Reliabilität im Rahmen der Möglichkeiten herzustellen, wurde der Codierprozess zu einem späteren Zeitpunkt wiederholt und mit den Resultaten der vorherigen Codierung abgeglichen. Intracoder-Reliabilität, also der Vergleich der Ergebnisse eines ersten und zweiten Codierzeitpunkts von derselben codierenden Person (vgl. ebd.: 208), ist eine weitere Möglichkeit, das Messinstrument auf Reliabilität zu testen. Hier wurden nahezu keine Abweichungen in der Zuordnung der Codes zu den einzelnen Nennungen festgestellt, sodass diese Codierung als Grundlage für die Analysen in Kap. 7 angenommen wurde.

Im Anschluss an die offenen Assoziationen folgt eine Analyse der geschlossenen Assoziationen (Abschn. 7.3). Die frequenzanalytische Auswertung der 58 vorgegebenen Schlagwörter dient zunächst der Überprüfung der Ergebnisse im Zusammenhang mit den freien Assoziationen.Footnote 31 Darüber hinaus kann anhand der vorgegebenen Assoziationen der Zusammenhang zwischen bestimmten Assoziationen und Islam- bzw. Muslim*innenfeindlichkeit statistisch getestet werden. Hierzu werden multiple lineare Regressionsmodelle gerechnet, in denen Islam- oder Muslim*innenfeindlichkeit die abhängige Variable und je eine Assoziation die dummy-codierte unabhängige Variable (0 = nicht angekreuzt / 1 = angekreuzt) darstellen (vgl. Abschn. 4.4.1). Vermutungen, die sich auf Basis der inhaltlichen Auseinandersetzung mit bestimmten Deutungsrahmen in Abschn. 7.2 ergeben, können in diesem letzten Schritt statistisch abgesichert werden. Er ist damit eine wichtige Verbindung zwischen Assoziationen und Einstellungen und rundet die Gesamtargumentation dieser Arbeit ab.

4.5 Reflexion und Fazit

In diesem Kapitel konnten die Datengrundlage und das methodische Vorgehen der Arbeit dargelegt werden. Es ist deutlich geworden, dass die Datenerhebung mittels Onlinesurvey einige Herausforderungen, wie etwa die fehlende Zufallsstichprobe, birgt. Dennoch eignet sich dieses Verfahren am besten für die Umsetzung des experimentellen Designs, das für die Bearbeitung der Forschungsfrage elementar ist. Durch die Möglichkeit der Randomisierung werden Verzerrungen durch Positionseffekte vermieden. Da diese Studie nicht auf die Ermittlung von Verteilungen abzielt, ist eine Zufallsstichprobe nicht zwingend notwendig. In der vorliegenden Stichprobe sind einige Gruppen über-, andere unterrepräsentiert, was bei der Diskussion der Ergebnisse berücksichtigt werden muss.

Ein vielfach vorgebrachter Vorwurf, mit dem sich die (quantitative) Vorurteilsforschung konfrontiert sieht, ist die Reproduktion von Vorurteilen. Der Vorwurf ist berechtigt und die Tatsache, dass gängige Vorurteile zur Bewertung ins Feld gegeben werden und die Erfassung dieser Vorurteile in einer standardisierten Befragung ihre Reproduktion voraussetzt, alles andere als unproblematisch. Da sich die Auswahl der Items für diese Studie stark an den tatsächlich in der Forschungspraxis eingesetzten Items orientiert, ist der Spielraum für die Verwendung bestimmter Items nicht besonders groß. Es wurde allerdings darauf geachtet, so viele positiv formulierte Items bzw. positive Schlagwörter wie möglich einzusetzen, um einseitige Narrative zu vermeiden.

Diese Arbeit verfolgt das übergeordnete Ziel der Auseinandersetzung mit einer differenzierteren Betrachtung von Islam- und Muslim*innenfeindlichkeit. Um sich diesem Ziel zu nähern, wurden verschiedene Schritte und Methoden vorgestellt, die in diesem Zusammenhang Licht ins Dunkel bringen können. Die einzelnen Ansätze sind methodologisch betrachtet überaus vielfältig und als komplementär zu verstehen, um ein möglichst umfassendes Bild zu zeichnen, das sowohl eine Vorstellung von quantitativen als auch von qualitativen Aspekten vermittelt. Um die einzelnen Schritte voneinander abgrenzen und ihren Mehrwert optimal herausstellen zu können, folgt die Ergebnisdarstellung der Logik des oben erwähnten Dreischritts, wobei zur Verdeutlichung der engen Verwobenheit der Erkenntnisse immer wieder Querverweise und Rückbezüge auf andere Kapitel in der Ergebnisdarstellung zu finden sind. Um den mannigfaltigen Ansätzen und Anforderungen gerecht werden zu können, sind an der einen oder anderen Stelle nicht-optimale Bedingungen hinzunehmen, so beispielsweise eine stellenweise verringerte Stichprobengröße durch die Arbeit mit drei unterschiedlichen Fragebogenvarianten. Insgesamt überwiegen jedoch die Vorteile dieses Vorgehens und es konnte ein innovatives Design umgesetzt werden, das einen Datensatz mit umfangreichem Analysepotential hervorgebracht hat.