1 Einleitung

Lehrkräfte mit positiven Einstellungen zeigen häufiger günstiges Verhalten im Sinne erfolgreicher Umsetzung schulischer Inklusion (u. a. Monsen et al. 2014; Wilson et al. 2016). Daher werden positive Einstellungen als hilfreiche Ressource für das Gelingen von schulischer Inklusion aufgefasst (z. B. Avramidis und Norwich 2002; de Boer et al. 2011). Um diesen theoretisch gut begründeten Zusammenhang empirisch abzusichern, bedarf es geeigneter Messinstrumente, die die Einstellungen zur schulischen Inklusion valide erfassen, was jedoch nicht bei allen derzeit verfügbaren Verfahren der Fall ist (Lüke und Grosche 2018). Die Professionsunabhängige Einstellungsskala zum Inklusiven Schulsystem (PREIS) wurde in einer Reihe von unabhängigen Studien empirisch überprüft und validiert (Lüke und Grosche 2018; Röhm et al. 2018; Schulze et al. 2019), und gilt damit als eine der am sorgfältigsten entwickelten, dokumentierten und validierten Skalen zur Messung der Einstellung zu Inklusion (Kielblock und Woodcock 2023). Jedoch handelt es sich bei der PREIS um ein recht umfangreiches Instrument. Um für breiter angelegte Studien ein ökonomischeres Instrument zur Verfügung zu stellen, kürzten Lüke und Grosche (2020) die Instruktion und reduzierten die Itemanzahl deutlich. Die Messgüte dieser Kurzskala PREIS‑K (Faktorenstruktur, Messinvarianz und Konstruktvalidität) wird in der vorliegenden Studie geprüft. Wenn sich die PREIS‑K Skala auch in ihrer gekürzten Fassung als robust erweist, stellt dies eine gute empirische Begründung für deren Einsatz dar – auch in groß angelegten Vergleichs- und Längsschnittstudien, die auf besonders ökonomische Skalen angewiesen sind.

1.1 Theoretische Grundlagen der PREIS und PREIS-K

Der Begriff der schulischen Inklusion ist diffus und äußerst vielschichtig. Folglich unterscheiden sich auch die Einstellungen, je nachdem zu welcher Facette von Inklusion Personen befragt werden. Daher sollte explizit definiert werden, welche Definition von Inklusion einem Instrument zugrunde liegt bzw. worauf genau die befragten Personen ihre Einstellungen beziehen sollen. Die wenigsten Instrumente definieren das Einstellungsobjekt explizit. Die gemessenen Einstellungen sind daher möglicherweise nur schlecht miteinander vergleichbar.

Göransson und Nilholm (2014) unterscheiden vier Definitionsebenen von schulischer Inklusion, die allesamt wichtige Facetten des Inklusionsdiskurses widerspiegeln und anhand ihrer Komplexität hierarchisch geordnet sind. Die Platzierungsdefinition (A) meint die gemeinsame Beschulung von Schüler*innen mit und ohne sonderpädagogische Förderbedarfe (SPF). Die spezifische Individualisierungsdefinition (B) meint die Ermöglichung möglichst hoher akademischer Kompetenzen und sozialer Erlebnisse bei Schüler*innen mit SPF. Die allgemeine Individualisierungsdefinition (C) zielt zusätzlich auf die akademischen Kompetenzen und sozialen Erlebnisse aller Schüler*innen ab, unabhängig von SPF. Die Gemeinschaftsdefinition (D) beschreibt eine besondere Lerngemeinschaft, die beispielsweise demokratisch, selbstbestimmend, partizipativ und anerkennend sowie nicht-exklusiv ist. Die PREIS bzw. PREIS‑K nutzt die dritte Definition: „In einem inklusiven Schulsystem besuchen alle Kinder eine gemeinsame Schule. Die Schulen fühlen sich verantwortlich für die Förderung und Unterstützung aller Kinder – unabhängig von ihren Lernvoraussetzungen, Erfahrungen und Bedürfnissen.“ (Lüke und Grosche 2020, S. 1). Bei dem zu bewertenden Einstellungsgegenstand geht es, mit Blick auf die gesamtgesellschaftliche breite Zielgruppe der Skala, vorrangig um ein auf Partizipation ausgerichtetes inklusives Schulsystem als Ganzes, und weniger um spezifische Aspekte von (adaptiver) Unterrichtsgestaltung oder konkretem Lehrerhandeln.

Wir verwenden den Begriff der Einstellungen in Anlehnung an Eagly und Chaiken (2007) für die psychologische Tendenz, einen bestimmten Einstellungsgegenstand (hier das inklusive Schulsystem) auf der Basis einer summativen Bewertung kognitiver (z. B. Wissen über Vor- und Nachteile eines inklusiven Schulsystems), affektiver (z. B. Emotionen in Bezug auf Menschen mit bestimmten Behinderungen) und behavioraler Informationen (z. B. eigenes bisheriges Verhalten oder bestimmte Werthaltungen) als eher positiv oder negativ zu beurteilen (vgl. Schwarz und Bohner 2001; Eagly und Chaiken 2007). Wir gehen dabei davon aus, dass diese summative Evaluation zwar auf kognitiven, affektiven und behavioralen Erfahrungswerten basiert, es aber „kaum eine Rechtfertigung für die Behauptung [gibt], dass diese Erfahrungen drei trennbare und allgegenwärtige Komponenten von Bewertungstendenzen“ (Eagly und Chaiken 2007, S. 590) in Form von Subskalen ergäben. Auch bei der faktorenanalytischen Prüfung der Fragebögen im Themenfeld der Einstellungen zum inklusiven Schulsystem zeigt sich eine Aufteilung auf drei entsprechende Subskalen in der Regel nicht.

Zur Messung von Einstellungen zu schulischer Inklusion steht eine Reihe von Instrumenten zur Verfügung, die bei Lüke und Grosche (2018) einer ausführlichen Kritik unterzogen werden. Zusammengefasst lassen sich zwei wesentliche Kritikpunkte ausmachen: a) häufig kommen Instrumente zum Einsatz, deren inhaltliche und methodische Fundierung nicht immer ausreichend gegeben ist (so lassen sich z. B. getrennte kognitive, affektive und behaviorale Komponenten faktorenanalytisch meist nicht nachweisen) und b) richten sich viele Instrumente spezifisch an Lehrkräfte, was bei Personen ohne pädagogische Vorerfahrungen dazu führt, dass eine vergleichbar valide Messung mit diesen Instrumenten nicht zu erwarten ist. Daher wurde die PREIS entwickelt, die aus einer ausführlichen Instruktion und 14 positiv und negativ formulierten Items besteht (z. B. „Ich finde, ein inklusives Schulsystem wäre gerechter als das jetzige Schulsystem“). Die Beantwortung erfolgt auf einer fünfstufigen Likert-Skala mit semantischen Ankern an den Endpunkten (0 = „stimme nicht zu“ und 4 = „stimme zu“). Zur empirischen Absicherung der PREIS-Skala wurden mehrere unabhängige Studien durchgeführt, die eine inhaltlich und faktoriell valide sowie konsistente und reliable Messung mehrfach repliziert haben (z. B. Lüke und Grosche 2018; Röhm et al. 2018; Schulze et al. 2019). In Übereinstimmung mit unseren Annahmen über die Struktur von Einstellungen werden in der PREIS in den Itemtexten zwar kognitive, affektive und behaviorale Einstellungsinhalte berücksichtigt, die Struktur ist aber theoretisch und auch empirisch eindimensional im Sinne einer summativen Evaluation des Einstellungsgegenstandes.

Die PREIS stellt folglich eine empirisch bewährte Möglichkeit zur Erfassung von Einstellungen zu einem inklusiven Schulsystem dar. Für den Einsatz in groß angelegten Vergleichs- oder Längsschnittstudien der Bildungsforschung ist das Instrument jedoch aufgrund der Länge der Instruktion und der Itemanzahl nicht ökonomisch genug. In solchen Studien werden in der Regel übergeordnete Ziele verfolgt, wie z. B. die Evaluation der Umsetzung von Bildungsstandards in den Bundesländern (IQB Bildungstrend), internationale Vergleiche schulischer Kompetenzen (z. B. PISA) oder die Untersuchung von Bildungsverläufen und Kompetenzentwicklung (Nationales Bildungspanel, NEPS). Im Mittelpunkt dieser Studien steht meist die umfassende Messung schulischer Kompetenzen. Ergänzend erhalten Schüler*innen, Lehrkräfte und Schulleitungen Fragebögen, in denen Hintergrundinformationen erhoben werden, die für die zentralen Fragestellungen der Studien relevant sind. Es gibt jedoch wenig zusätzlichen Platz in den Erhebungsinstrumenten und entsprechend ist die Verwendung möglichst sparsamer Messverfahren von Vorteil.

Daher wurde basierend auf früheren Konstruktionsschritten und unter Berücksichtigung der Itemkennwerte aus vorherigen Studien eine Kurzskala PREIS‑K entwickelt (Lüke und Grosche 2020). Zudem wurde die Instruktion deutlich gekürzt. Bei der Auswahl der Items wurde besonderer Wert auf weitgehende Erhaltung der Inhaltsvalidität gelegt, auch wenn ggf. einige der beibehaltenen Items in der Gesamtskala weniger trennscharf waren als andere. Die Kurzskala wurde nicht mit dem Ziel konstruiert, vollwertige Einstellungsskalen zu ersetzen, sondern eine Alternative anzubieten, wenn wenig Platz bzw. Befragungszeit vorhanden ist.

Da für die originale Skala die Eindimensionalität bereits nachgewiesen werden konnte, sollte in dieser Studie die Faktorenstruktur auch für die Kurzform bestätigt und gegen ein Bifaktor-Modell getestet werden. Im einfaktoriellen Modell laden alle sechs Items auf eine latente Variable „Einstellung“. Da die Richtung der Itemformulierung (drei positiv formulierte und drei negativ formulierte Items) sich möglicherweise als Methodenfaktor auswirkt, beinhaltet das Bifaktor-Modell einen latenten inhaltlichen Faktor und zwei latente methodische Faktoren (positive & negative Itemformulierung), wobei die latenten Variablen unkorreliert sind.

Zur Prüfung der Konstruktvalidität wurden die folgenden Variablen herangezogen, da sie im Rahmen der Theorie des geplanten Verhaltens (vgl. z. B. Ajzen 2011) und durch eine aktuelle Meta-Analyse (Yada et al. 2022) empirisch belegte positive Zusammenhänge mit Einstellungen erwarten lassen: spezifische Selbstwirksamkeitserwartung hinsichtlich der Gestaltung inklusiven Unterrichts, Gefühl des Vorbereitet-Seins auf den gemeinsamen Unterricht, Kooperation der Lehrkräfte und Einsatz verschiedener Formen von Co-Teaching, sowie die Einschätzung zur Umsetzung von Differenzierung und Barrierefreiheit.

Für die Selbstwirksamkeit kam eine modifizierte Fassung der Subskala „Selbstwirksamkeit bezogen auf die Gestaltung inklusiven Unterrichts“ aus dem KIESEL (Bosse und Spörer 2014) zum Einsatz, mit einer internen Konsistenz von Cronbach’s α = 0,84. Zudem wurde anhand eines einzelnen Items, entnommen aus dem Bildungstrend 2016 (Schipolowski et al. 2019), die Einschätzung der Lehrkräfte erfragt, wie gut sie sich insgesamt vorbereitet fühlen, im gemeinsamen Lernen zu unterrichten.

Zur Kooperation wurde zunächst anhand eines einzelnen Items erfragt, ob und mit wem eine Lehrkraft im Unterricht kooperierte. Weiter wurde ein in Anlehnung an Friend et al. (2010) entwickeltes Instrument zum Co-Teaching (Schledjewski et al. 2022) eingesetzt, das erfragte, wie oft (‚nie‘, ‚selten‘, ‚mehrmals pro Monat‘, ‚mehrmals pro Woche‘) die insgesamt sechs bezeichneten Formen des Co-Teachings im Unterricht umgesetzt werden, darunter z. B. „teach-and-assist“, „Parallelunterricht“ oder „Teamteaching“. Es sind jedoch vermutlich nicht alle Co-Teaching Formen gleichermaßen zuträglich für gelungenen inklusiven Unterricht. So ist aus inklusionstheoretischer Sicht z. B. „Teamteaching“ besonders wünschenswert, wohingegen eine reine Beobachtung des allgemeinen Unterrichts durch eine Lehrkraft („teach-and-observe“) eher weniger geeignet sein dürfte (Paulsrud und Nilholm 2020). Im Sinne einer diskriminanten Validität sind hier eher niedrigere Zusammenhänge zu erwarten als bei inklusionsförderlichen Co-Teaching Formen.

Die Umsetzung von inklusionsförderlichen Unterrichtspraktiken wurde in Anlehnung an Theisel (2015) mit einer Skala von insgesamt zehn Items zur inneren Differenzierung im Unterricht erhoben, z. B. „Wenn ich ein Arbeitsblatt vorbereite, entwerfe ich zwei oder mehr Versionen mit unterschiedlichem Niveau“. Die interne Konsistenz dieser Skala ist mit Cronbach’s α = 0,70 für den Einsatz im Rahmen dieser Untersuchung ausreichend. Schließlich wurde die Umsetzung von Barrierefreiheit im Unterricht in Anlehnung an eine von Lüke (2019) entwickelte Kurzskala (k = 10 Items) gemessen (vgl. Capp 2017). Ein Beispiel-Item lautet „Ich biete dieselbe Information in meinem Unterricht auf unterschiedliche Art und Weise an (z. B. auditiv, visuell)“. Diese Skala wurde bislang noch nicht empirisch evaluiert, eine interne Konsistenz von Cronbach’s α = 0,75 rechtfertigt aber ihren Einsatz als Variable zur Validierung.

1.2 Fragestellungen

Anhand der Eltern- und Lehrkraftbefragungen der Studie zur Inklusion in der Sekundarstufe I in Deutschland (INSIDE) untersuchen wir, ob die empirisch bewährte Faktorenstruktur und die positiv bewertete Messgüte der vollständigen PREIS-Skala bei der Kurzskala (PREIS-K) erhalten bleibt. Es werden die folgenden drei Teilfragenstellungen bearbeitet:

  1. 1.

    Ist die Messstruktur eindimensional, wie angenommen, oder passt ein Bifaktor-Modell, das die Polung der Itemformulierung berücksichtigt, besser zu den empirischen Daten? Hier erwarten wir, dass aufgrund der Aufteilung in positiv und negativ formulierte Items ein Bifaktor-Modell mit einem Methodenfaktor eine signifikant höhere Modellpassung aufweist.

  2. 2.

    Ist die Messstruktur in den beiden Gruppen der Lehrkräfte und Eltern invariant? Ist die Messstruktur in den beiden Gruppen der Regelschullehrkräfte und der sonderpädagogischen Lehrkräfte invariant? Hier erwarten wir angesichts der auf das Schulsystem bezogenen Items, dass sich sowohl für den Vergleich der Lehrkräfte mit den Eltern als auch für den Vergleich innerhalb der Lehrkräfte eine invariante Messstruktur zeigt.

  3. 3.

    Finden sich in den Korrelationen mit anderen Konstrukten (auf Ebene der Lehrkräfte) Hinweise gegen die konvergente Validität? Hier erwarten wir positive Korrelationen mit konvergenten Variablen wie der Selbstwirksamkeit oder dem gezeigten Lehrkraft-Verhalten.

2 Methode

Das Design und die geplanten Analysen dieser Studie wurden vor der Bereitstellung der Forschungsdaten präregistriert (https://doi.org/10.17605/OSF.IO/D546G). Etwaige Anpassungen und Abweichungen vom geplanten Vorgehen werden explizit benannt.

2.1 Stichprobe

Datengrundlage bildet die erste Kohorte einer bundesweiten Längsschnittstudie des Projekts INSIDE, die im Frühjahr 2019 an allgemeinen Schulen in Deutschland erhoben wurde. Es wurden Klassenlehrkräfte, Fachkräfte, sonderpädagogische Lehrkräfte, Schulleitungen und Eltern befragt. Der gesamte Datensatz wird nach Abschluss des Projektes öffentlich verfügbar gemacht.

Es liegen Antworten von insgesamt N = 1038 Lehrkräften und N = 1438 Eltern vor. Alle Personen, die weniger als fünf der sechs Items der PREIS‑K beantwortet hatten (Lehrkräfte: n = 31 und Eltern: n = 11) oder im Rahmen einer Plausibilitätsprüfung auffällige Antwortmuster aufwiesen (identische Antworten trotz positiv und negativ gepolter Items; Lehrkräfte: n = 5 und Eltern: n = 4), wurden aus den Analysen ausgeschlossen. Es verblieben somit die Antworten von n = 1002 Lehrkräften und n = 1423 Eltern im Datensatz. Von den Lehrkräften unterrichteten n = 797 als allgemeine und n = 205 als sonderpädagogische Lehrkraft. Die Lehrkräfte waren zu 76 % weiblich, wobei der Anteil an Frauen bei den sonderpädagogischen Lehrkräften (83,8 %) im Vergleich zu den Regelschullehrkräften (75 %) leicht überwog (p = 0,023); bei den befragten Eltern gaben 82 % als Geschlecht weiblich an. Die Lehrkräfte waren im Durchschnitt 42,5 Jahre alt (SD = 10,9) und konnten auf M = 13 Jahre Unterrichtserfahrung zurückblicken (SD = 10,9), wobei sich Regelschul- und sonderpädagogische Lehrkräfte nicht signifikant voneinander unterschieden (Alter p = 0,34 bzw. Berufsjahre p = 0,329).

2.2 Material und Design

Die gekürzte Fassung (PREIS-K) unterscheidet sich von der ursprünglichen PREIS-Skala in den folgenden drei Aspekten:

  1. a)

    Minimale Veränderungen an Itemformulierungen, die uns im Zuge der ministeriellen Genehmigungsverfahren zurückgemeldet wurden (Änderungen siehe Tab. 7 im Anhang).

  2. b)

    Deutliche Kürzung und leichte inhaltliche Anpassungen der Instruktion, um die Testökonomie zu sichern.

  3. c)

    Reduktion des Antwortformats von einer fünf- auf eine vierstufige Likert-Skala, zur Anpassung an die in der INSIDE-Studie verwendeten vierstufigen Skalen („stimme überhaupt nicht zu“, „stimme eher nicht zu“, „stimme eher zu“, „stimme voll und ganz zu“).

In Tab. 7 im Anhang werden Instruktionstext und Wortlaut der Items aus der originalen und der verkürzten Version gegenübergestellt.

Bei der Befragung zur Kooperation wurde das dreistufige Antwortformat (‚nein‘, ‚mit Regelschullehrkraft‘, ‚mit Sonderpädagog*in‘) zu einer dichotomen Variable zusammengefasst (‚Kooperation findet statt: ja/nein‘). Bei den drei Variablen Kooperation, Barrierefreiheit und Differenzierung lagen für einzelne Lehrkräfte teilweise mehrere Angaben vor, die auf Personenebene zusammengefasst wurden. Hintergrund ist, dass einzelne Lehrkräfte in mehreren Erhebungsklassen und verschiedenen Fächern bzw. Rollen (in Deutsch, Mathematik und als Klassenlehrkräfte) arbeiten und die Fragen pro Klasse ausfüllten. Da bei der vorliegenden Fragestellung die Ausprägung auf Ebene der Person der Lehrkräfte im Vordergrund stand, erschien es uns gerechtfertigt, diese Werte zu einer durchschnittlichen Ausprägung der einzelnen Lehrkräfte zusammenzufassen.

2.3 Auswertungen

Das Problem von einzelnen fehlenden Werten (bei 29 Personen fehlte ein einzelnes Item) wurde über eine FIML-Schätzung adressiert; in einigen Fällen sorgte diese Prozedur jedoch dafür, dass die Modelle nicht konvergierten, was sich z. T. durch einen listenweisen Fallausschluss beheben ließ.

Die Modelle wurden mit R (R Core Team 2022) unter Verwendung von lavaan (Rosseel 2012) geschätzt. Es wurde der robuste Schätzer MLR verwendet; die Modellvergleiche erfolgten anhand der klassischen ML-Schätzer. Zu jedem Modell werden die folgenden Indices berichtet: χ2 (df), CFI, TLI, RMSEA, SRMR, AIC und BIC. Als Kriterium für die Modellpassung werden die folgenden Grenzwerte angelegt, orientiert an den gängigen Konventionen (Backhaus et al. 2013): Der χ2-Test ist nicht signifikant (d. h. die aus den Modellparametern resultierende theoretische Varianz-Kovarianzmatrix weicht nicht signifikant von der empirischen Varianz-Kovarianzmatrix ab), CFI und TLI sollten Werte größer als 0,95 aufweisen, RMSEA sollte kleiner als 0,08 und SRMR kleiner als 0,06 sein. Dabei orientieren wir uns bei der Entscheidung für die Annahme des Modells nicht an einem einzelnen Wert, sondern am Gesamtbild der Indizes (z. B. ist der χ2-Test bei großen Stichproben sehr sensitiv).

Das in Fragestellung 1 als passend identifizierte Modell wurde gemäß den gängigen vier Stufen der Messinvarianz überprüft (Putnick und Bornstein 2016): konfigurale Messinvarianz mit gleicher Faktorenstruktur, metrische Messinvarianz mit gleicher Ladungsstruktur, skalare Messinvarianz mit gleicher Struktur der Intercepts und residuale Messinvarianz mit gleicher Struktur der Messfehler. Die Messinvarianz wurde zunächst zwischen den Gruppen der Lehrkräfte und Eltern geprüft. Anschließend wurden auf Lehrkraft-Ebene die Regelschullehrkräfte mit den sonderpädagogischen Lehrkräften verglichen. Als zusätzlicher explorativer Vergleich (aufgrund deutlich geringerer Teilstichproben) wurden Lehrkräfte mit und ohne Lehramtsstudium (Quereinsteiger*innen) verglichen, um die Messäquivalenz über unterschiedliche Professionalisierungsstufen hinweg zu überprüfen. Falls die Modellpassungen nicht ausreichend gut waren, wurden nachträglich auch Modifikations-Indices betrachtet. Falls es inhaltlich plausibel und vertretbar war, wurden die entsprechenden Parameter anschließend frei geschätzt. Sämtliche Entscheidungen legen wir im Ergebnisteil transparent dar.

Schließlich wurde auf Lehrkraft-Ebene die Konstruktvalidität durch Zusammenhänge mit Selbstwirksamkeit, Gefühl des Vorbereitet-Seins auf Gemeinsamen Unterricht, Unterrichten im Team, Umsetzung von Barrierefreiheit und Differenzierung überprüft. Konvergente Validität nehmen wir an, wenn die Einstellungen weder zu hoch (r > 0,50) noch zu niedrig (r < 0,30) mit diesen Variablen korrelieren.

3 Ergebnisse

3.1 Fragestellung 1 – Modellüberprüfung

Die deskriptiven Itemstatistiken pro Subgruppe (Lehrkräfte und Eltern) sind in Tab. 1 angeführt, sie umfassen die Itemschwierigkeit (M) und Standardabweichung (SD), sowie Skewness, Kurtosis und die Trennschärfen der Items. Jedes Item wurde von mindestens 99 % der Probanden beantwortet; aufgrund der Datenbereinigung wurden nur Probanden berücksichtigt, die mindestens fünf Items beantwortet hatten.

Tab. 1 Deskriptive Itemstatistiken der PREIS‑K Items, getrennt nach Gruppen (Lehrkräfte und Eltern)

Die interne Konsistenz der Kurzskala ist mit Cronbachs α = 0,92, 95 % KI [0,91, 0,93] bei den Lehrkräften und mit α = 0,90 [0,89, 0,91] bei den Eltern hoch. Auch innerhalb der Lehrkraftgruppen ist eine hohe interne Konsistenz gegeben: α = 0,91 [0,91, 0,92] für Regelschullehrkräfte und α = 0,90 [0,88, 0,92] für sonderpädagogische Lehrkräfte. Die Korrelationen der Items untereinander sind in Tab. 2 abgetragen.

Tab. 2 Interkorrelationen der PREIS‑K Items, getrennt nach Lehrkräften und Eltern

Die Passung des eindimensionalen Modells sowohl übergreifend für die gesamte Stichprobe als auch für die Lehrkräfte und Eltern getrennt ist mit Ausnahme des RMSEA zufriedenstellend (siehe Tab. 3). Jedoch führte das Bifaktor-Modell zu einer signifikant besseren Passung: Für die gesamte Stichprobe ∆χ2 (6) = 265,01, p < 0,001; sowie getrennt für Lehrkräfte ∆χ2 (6) = 112,38, p < 0,001; und Eltern ∆χ2 (6) = 144,27, p < 0,001. Bei der gesamten Stichprobe lagen die Faktorladungen für den generellen (inhaltlichen) Faktor dabei mit Werten zwischen β = 0,733 und 0,831 deutlich höher als die Faktorladungen für die methodischen Faktoren (positiv/negativ) mit Werten zwischen β = 0,126 und 0,356; bei den Subgruppen der Lehrkräfte und Eltern zeigte sich ein ähnliches Muster. Auch eine Betrachtung des Anteils der erklärten gemeinsamen Varianz (Rodriguez et al. 2016) zeigt, dass 88 % der Varianz auf den generellen Faktor zurückzuführen sind.

Tab. 3 Modellvergleich eindimensionales vs. Bifaktor-Modell über alle Personen, sowie nach Personengruppen der Lehrkräfte und Eltern getrennt

3.2 Fragestellung 2 – Messinvarianz zwischen Subgruppen

Die Ergebnisse für den Vergleich der Bifaktor-Modelle von Eltern und Lehrkräften sind in Tab. 4, der Vergleich innerhalb der Lehrkräfte (Regelschullehrkräfte und sonderpädagogische Lehrkräfte) in Tab. 5 zu sehen. Bei der Messinvarianz zwischen Lehrkräften und Eltern zeigt einerseits die CFI-Differenz, dass für die metrische (∆CFI = 0,009) und skalare Stufe (∆CFI = 0,004) das Kriterium von ∆CFI < 0,01 (Putnick und Bornstein 2016) erfüllt ist. Insofern kann davon ausgegangen werden, dass über die Faktorenstruktur auch die Ladungsmuster und Intercepts zwischen den Gruppen vergleichbar sind. Andererseits spricht ein signifikanter ∆χ2-Wert dafür, dass die Annahme der Messäquivalenz über das konfigurale Level hinaus abgelehnt werden muss, da bereits die Aufnahme der metrischen Restriktion zu einer signifikanten Verschlechterung der Modellpassung führt. Bei dieser konservativen und stichprobengrößenabhängigen Interpretation basierend auf dem χ2-Test ist somit lediglich die Faktorenstruktur zwischen den Gruppen vergleichbar, die Ladungsmuster, Intercepts und Residuen dagegen nicht. Die nachfolgende Überprüfung anhand der Modifikationsindizes ergab, dass auch durch mögliche Lockerungen der Restriktion für bis zu drei Ladungsparameter keine partielle Messinvarianz erreicht werden konnte.

Tab. 4 Messinvarianz für das Bifaktor-Modell im Vergleich zwischen Lehrkräften und Eltern
Tab. 5 Messinvarianz für das Bifaktor-Modell im Vergleich zwischen Regelschullehrkräften und Sonderpädagog:innen

Innerhalb der Lehrkräfte ist die Skala für Regelschul- und sonderpädagogische Lehrkräfte auf metrischer, skalarer und residualer Ebene (p = 0,874; 0,851; 0,094) messinvariant. Somit sind über die grundlegende faktorielle Struktur hinaus auch die Ladungsmuster, die Intercepts und die Messfehler zwischen den Gruppen vergleichbar. Jedoch resultierte die Aufnahme der skalaren Restriktion in einem Warnhinweis, dass das Modell nicht fehlerfrei konvergiert sei und nur auf Kosten eines negativ geschätzten Parameters konvergierte; dieses Ergebnis muss also mit der gebotenen Zurückhaltung interpretiert werden. Konservativ interpretiert ist aber auf jeden Fall eine metrische Messinvarianz erfüllt.

Bei dem explorativen Vergleich von Lehrkräften mit Lehramtsstudium und Quereinsteiger*innen ließen sich die Bifaktor-Modelle aufgrund von Konvergenzproblemen nicht schätzen. Daher wird an dieser Stelle abweichend von der Präregistrierung die Messinvarianz für das einfaktorielle Modell berichtet. Für diesen explorativen Vergleich bei einem eindimensionalen Modell kann die Messinvarianz auf metrischer, skalarer und residualer Ebene (p = 0,635; 0,761; 0,289) angenommen werden. Die vollständige Tab. 10 zur Analyse der Messinvarianz für Lehrkräfte, die Lehramt studiert haben, im Vergleich mit Quereinsteiger*innen ist im Anhang zu finden.

3.3 Fragestellung 3 – externe Validität

Die PREIS‑K korreliert mit der Selbstwirksamkeit in Höhe von r = 0,45, p < 0,001. Für den ordinalskalierten Indikator „Vorbereitet sein auf den GU“ zeigte sich ein Zusammenhang von rSpearman = 0,38, p < 0,001. Die beiden Drittvariablen „Selbstwirksamkeit“ und „Vorbereitet sein“ korrelierten untereinander mit einer mittleren Effektstärke rSpearman = 0,47, p < 0,001. Bei der allgemeinen Erfassung, ob Kooperation im Unterricht umgesetzt wurde, ergab sich eine signifikante punkt-biseriale Korrelation von r = 0,18, p < 0,001. Die PREIS‑K korrelierte schwach positiv mit den inklusionsrelevanten Formen des Co-Teachings ‚Niveaudifferenzierung‘ (rSpearman = 0,13, p = 0,01) und ‚Teamteaching‘ (rSpearman = 0,24, p < 0,001), jedoch ohne das vorher festgelegte Kriterium von r > 0,30 zu erreichen. Bei Co-Teaching-Formen, die inklusionstheoretisch kritisiert werden, ließen sich hypothesenkonform keine signifikanten Zusammenhänge feststellen. Die Umsetzung von Barrierefreiheit korrelierte mit r = 0,15, p < 0,001; die Berücksichtigung von Heterogenität durch differenzierende Maßnahmen mit r = 0,26, p < 0,001 (Tab. 6).

Tab. 6 Übersicht Variablen konvergente Validität

4 Diskussion

In der vorliegenden Studie wurden die psychometrischen Eigenschaften der aus sechs Items bestehenden Kurzfassung der PREIS-Skala an einem großen Datensatz der INSIDE-Studie überprüft, um sicherzustellen, dass die Testgüte auch bei einer verkürzten Version erhalten bleibt.

Die deskriptiven Ergebnisse zu einzelnen Items wiesen auf symmetrische Verteilungen hin, die Mittelwerte lagen nahe bei der theoretischen Skalenmitte von 2,5 und die Standardabweichung betrug bei allen Items etwa einen Skalenpunkt. Lediglich bei den Eltern gab es eine leichte Zustimmungstendenz bei einem Item. Die Interkorrelationen zwischen den Items lagen durchschnittlich bei r = 0,65 (Lehrkräfte) bzw. r = 0,60 (Eltern) und allesamt in einem zufriedenstellenden Bereich von mindestens r > 0,50. Die Trennschärfen lagen mit Werten zwischen r = 0,72 bis 0,82 (Lehrkräfte) bzw. r = 0,66 bis 0,78 (Eltern) in einem angemessenen Bereich. Zudem kann die interne Konsistenz der PREIS‑K mit Werten von α = 0,92 (Lehrkräfte) bzw. α = 0,90 (Eltern) als hoch eingestuft werden.

Bei der ersten Fragestellung wurde geprüft, ob ein eindimensionales Messmodell oder ein Bifaktor-Modell mit Methodenfaktor besser zu den Daten passt. Das einfaktorielle Modell wies bereits eine zufriedenstellende Modellpassung auf (lediglich der RMSEA verfehlte den vorab definierten Zielbereich). Das signifikant besser passende Bifaktor-Modell deutet darauf hin, dass die unterschiedliche Polung der Itemformulierungen bei der Auswertung berücksichtigt werden könnte. Jedoch sind die Faktorladungen des Generalfaktors durchschnittlich deutlich höher als die Ladungen der Methodenfaktoren. Auch beträgt der Anteil der durch den generellen Faktor aufgeklärten Varianz sowohl für das Gesamtmodell mit Eltern und Lehrkräften als auch für das Modell ausschließlich mit Lehrkräften 88 %, weshalb auch die sparsamere einfaktorielle Interpretation möglich ist (Rodriguez et al. 2016) und aus inhaltlich-theoretischen Gründen auch deutlich sinnvoller erscheint. Der zusätzliche Mehrwert der Berücksichtigung der Methodenfaktoren dürfte für die Praxis damit überschaubar bleiben. Demnach bewerten wir die PREIS‑K als eindimensional, was zu der bisherigen Studienlage für die Langversion (PREIS) passt. Für die meisten Forschungsdesigns dürfte die einfaktorielle Auswertung ohnehin die beliebtere Variante sein, da die Auswertung und Interpretation der gewonnenen Einstellungsdaten klarer und weniger aufwändig ist.

Die zweite Fragestellung lautete, ob die PREIS‑K zwischen verschiedenen Gruppen identisch zu interpretieren ist oder ob Gruppenvergleiche unzulässig sind. Beim Vergleich von Lehrkräften und Eltern war bei Berücksichtigung der relativen Passung (∆CFI) die skalare Stufe der Messinvarianz erfüllt. Bei ausschließlicher Berücksichtigung des konservativen und stichprobenabhängigen χ2-Tests wären nur die Faktorenstruktur beider Gruppen, nicht aber die Ladungsmuster etc. vergleichbar. Aufgrund ihrer unterschiedlichen Rollen im Erziehungskontext und der eigenen professionellen Involviertheit als Lehrkraft ist es plausibel, dass Eltern sich von Lehrkräften systematisch darin unterscheiden, wie sie Items aus der PREIS‑K interpretieren. Angesichts der hohen CFI-Werte und der großen Stichprobe, die eine möglicherweise übermäßige Sensitivität des χ2-Tests bewirkt, bezeichnen wir direkte Vergleiche der Einstellungen beider Gruppen als durchaus möglich.

Beim Vergleich innerhalb der Lehrkräfte zwischen Regelschul- und sonderpädagogischen Lehrkräften kann dagegen vollständige (residuale) Messinvarianz angenommen werden, wenn auch aufgrund der hohen Voraussetzungen der Bifaktor-Modelle ein Warnhinweis in der Analyse auftrat. Eine nachträgliche explorative Analyse des weniger komplexen einfaktoriellen Modells bestätigte die residuale Messinvarianz (vgl. Tab. 9 im Anhang). Der explorative Vergleich zwischen Lehrkräften mit Lehramtsstudium und Quereinsteiger*innen erfüllte ebenfalls residuale Messinvarianz. Somit werden die Items der PREIS‑K zur Erfassung von Einstellungen zu einem inklusiven Schulsystem bei Lehrkräften unabhängig von deren Ausbildung auf eine ähnliche Weise verstanden. Vergleiche zwischen verschiedenen Gruppen von Lehrkräften sind folglich zulässig und sinnvoll interpretierbar.

Die dritte Fragestellung kann weniger eindeutig beantwortet werden. Für Variablen, die recht nah am Konstrukt der Einstellungen sind, wie z. B. die Selbstwirksamkeit, ließ sich ein deutlicher hypothesenkonformer Zusammenhang nachweisen: So sind die Einstellungen der Lehrkräfte zu einem inklusiven Schulsystem und ihre spezifischen Selbstwirksamkeitserwartungen in diesem Bereich mit r = 0,45 deutlich assoziiert. Dies entspricht den zu erwartenden Zusammenhängen dieser Variablen (metaanalytisch zwischen r = 0,31 und 0,39; Yada et al. 2022). Der Zusammenhang mit dem Gefühl des Vorbereitet-Seins auf den Gemeinsamen Unterricht zeigt einen ähnlichen plausiblen Zusammenhang mit den Einstellungen (rSpearman = 0,38).

Dagegen zeigten sich bei den eher auf das resultierende Verhalten abzielenden Variablen, wie z. B. die konkrete Umsetzung von Barrierefreiheit nur geringere Zusammenhänge, die das vorab festgelegte Kriterium von r > 0,30 nicht erfüllten. Bei der Umsetzung von Differenzierungsmaßnahmen (r = 0,26) und der Co-Teaching Form des Team-Teachings (r = 0,24) gilt dies gleichermaßen. Tendenziell weisen diese Ergebnisse aber in die richtige Richtung, da diese Formen inklusionstheoretisch besonders wünschenswert sind (Paulsrud und Nilholm 2020). Andere Formen, wie z. B. reine Beobachtung des allgemeinen Unterrichts durch eine Lehrkraft, sind vermutlich weniger für die Implementation von schulischer Inklusion geeignet (ebd.). Die fehlende Korrelation mit der PREIS‑K spricht daher für deren Validität.

Als inhaltliche Limitation unserer Studie ist zunächst festzustellen, dass die PREIS‑K sich auf Einstellungen zu einer komplexen Definition von Inklusion bezieht, nämlich auf die Erfüllung der Bedürfnisse aller Schüler*innen (Göransson und Nilholm 2014). Sollen Einstellungen zu einem inklusiven Schulsystem im Sinne der Platzierung von Lernenden mit Behinderungen in Regelschulen oder zum Umgang mit Behinderungen im Unterricht erfasst werden, ist die PREIS‑K ungeeignet. Weiterhin ist anzumerken, dass in der Theorie des geplanten Verhaltens (Ajzen 2011) die hier gemessenen allgemeinen Einstellungen nur einen von mehreren Verhaltensprädiktoren darstellen; für die Prädiktion des tatsächlichen Verhaltens können sich somit andere Faktoren situationsabhängig deutlich stärker auswirken. So können hinsichtlich der Verhaltensintention und des tatsächlichen Verhaltens beispielsweise geringe Selbstwirksamkeitserwartungen aufgrund gemachter negativer Erfahrungen eine positive Einstellung zu einem inklusiven Schulsystem überlagern.

Eine methodische Limitation ergibt sich aus den teilweise vorhandenen Konvergenzproblemen der Bifaktor-Modelle. Zwar sind die Modelle inhaltlich sehr gut interpretierbar, sie sollten jedoch an unabhängigen Datensätzen repliziert werden. Außerdem sind systematische Verzerrungen durch die Stichprobenziehung bzw. eine geringe Rücklaufquote nicht auszuschließen. So beteiligte sich nur ein geringer Anteil der kontaktierten Schulen, weshalb ergänzend weitere Schulen aus der Grundgesamtheit angeschrieben wurden.

Insgesamt hat sich die PREIS‑K im hier dargestellten Kontext einer schriftlichen Befragung von Lehrkräften und Eltern im Rahmen einer groß angelegten Querschnittsstudie bewährt. Wenn Einstellungen zu Inklusion nicht zu den Hauptfragestellungen eines Forschungsprojekts gehören, können wir die Nutzung der PREIS‑K empfehlen. Die erhebliche Reduktion der Itemzahl hat aber selbstverständlich ihren Preis: Auch wenn die Auswahl der Items theoriegeleitet erfolgte, so wird eben doch ein deutlich kleinerer Ausschnitt des Konstrukts Einstellungen zu schulischer Inklusion abgedeckt. Falls also die Einstellungen von zentraler Bedeutung in einem Forschungsprojekt sind, halten wir den Einsatz der vollständigen PREIS oder eines anderen empirisch bewährten Instruments für angemessener.

Die Items der PREIS‑K haben den üblichen kultusministeriellen Autorisierungsprozess der Bundesländer bereits erfolgreich durchlaufen; hierauf kann im Genehmigungsverfahren von zukünftigen Studien verwiesen werden. Insbesondere für den Einsatz in breit angelegten Vergleichs- und Längsschnittstudien (wie z. B. Large-Scale Assessments), die zumeist eine Vielzahl von Variablen umfassen und nur wenig Testzeit bzw. Platz im Fragebogen haben, halten wir die ökonomische PREIS‑K für grundsätzlich gut geeignet.