1 Hypothesen

Das Geschlecht einer Lehrkraft (als automatische Kategorie; Fiske & Neuberg, 1990; Krings & Kluge, 2020) kann eine Rolle spielen, um Kompetenzerwartungen bei Lernenden zu induzieren (s. Kapitel 10). Das Bild der Lehrkraft in der Schule hat sich von einem klassischen „männlichen Beruf“ zu einem „weiblichen“ entwickelt (vgl. Horstkemper, 2000) und weibliche Lehrpersonen sind zahlenmäßig in der deutlichen Mehrheit an deutschen allgemeinbildenden Schulen (73 % der Lehrkräfte sind weiblich; Statistisches Bundesamt, 2020d).

Studien auf Basis des stereotype content model weisen darauf hin, dass („durchschnittliche“ bzw. „typische“) Männer durchgehend wenig bis mittelhoch warm, jedoch kompetent bewertet werden (Bye et al., 2014; Durante et al., 2014; Eckes, 2002; Fiske et al., 2002). Demgegenüber werden („durchschnittliche“ bzw. „typische“) Frauen warm beurteilt, aber teils inkompetent (Eckes, 2002) oder kompetent (Bye et al., 2014; Durante et al., 2014; Fiske et al., 2002). Männern wird jedoch (deskriptiv in den erwähnten Studien) durchgehend eine höhere Kompetenz zugeschrieben als Frauen. Auch bei einer deutschen Stichprobe zeigte sich, dass Frauen warm sowie mittelhoch kompetent und Männer wenig warm und hoch kompetent beurteilt wurden (Asbrock, 2010). Unterschiedliche Fachdomänen sind mit bestimmten sozialen Gruppen verknüpft. So zeigte sich z. B., dass Assoziationen zwischen „männlich“ und Natur- und Technikwissenschaften sowie zwischen „weiblich“ und Geistes- und Sozialwissenschaften bestehen (Guimond & Roussel, 2001; Miller et al., 2018; Nosek et al. 2009; Plante et al., 2009; Smyth & Nosek, 2015; Su et al., 2009). Frauen werden mehr kommunale (z. B. kommunikativ, kooperativ, emotional) und weniger agentische Eigenschaften (z. B. autonom, dominant, selbstbewusst) zugeschrieben als Männern (u. a. Bosak et al., 2008; Diehl et al., 2004), was sich auch in den beschriebenen Ergebnissen zum stereotype content model zeigt und die Geschlechts-Professions-Assoziationen bedingen können.

Lehrkräfte in der Schule werden teilweise als wenig kompetent wahrgenommen (Imhoff et al., 2013; für Lehramtsstudierende s. Ihme & Möller, 2015), teilweise als kompetent (Eckes, 2002). Es stellt sich also die Frage, wie die unterschiedlichen Ergebnisse zustande kommen. Denkbar wäre, dass es unterschiedliche Gruppen von Lehrkräften gibt, die zu Substereotypisierungen (vgl. Machunsky, 2020) führen – z. B. auf Basis automatischer Kategorien (Fiske & Neuberg, 1990; Krings & Kluge, 2020). Innerhalb einer älteren Untersuchung von Mancus (1992) bewerteten Kinder weibliche Lehrkräfte kompetenter als männliche. Bei Imhoff et al. (2013) zeigten sich jedoch keine wesentlichen Unterschiede zwischen weiblichen und männlichen Lehrkräften bezüglich der Kompetenzeinschätzung. Durch die uneindeutige Befundlage ergibt sich folgende ungerichtete Hypothese, um zu überprüfen, ob Frauen oder Männer im Lehrberuf kompetenter wahrgenommen werden:

Hypothese 1::

Weibliche und männliche Lehrkräfte werden (bei unbekanntem Unterrichtsfach) unterschiedlich kompetent beurteilt.

Außerdem soll parallel zum Geschlecht das Unterrichtsfach betrachtet und somit überprüft werden, ob es Geschlechts-Professions-Assoziationen (u. a. Guimond & Roussel, 2001; Miller et al., 2018; Nosek et al. 2009; Plante et al., 2009; Smyth & Nosek, 2015; Su et al., 2009) auch bei Lehrkräften gibt. Frauen als Lehrkräfte sollten demnach in mathematischen und naturwissenschaftlichen Fächern weniger kompetent beurteilt werden und Männer weniger kompetent in geistes- und sozialwissenschaftlichen Unterrichtsfächern.

Für kognitive Schemata, die sich auf schulische Lehrkräfte beziehen, zeigte sich bei Zander et al. (2015), dass Männer im Vergleich zu Frauen eher als qualifiziert genug beurteilt wurden, um Physik zu unterrichten. Weibliche Lehrkräfte, die Physik unterrichten, wurden auch optisch männlicher konstruiert als weibliche Lehrkräfte, die Deutsch unterrichten (ermittelt mit dem reverse correlation classification task; Degner et al., 2019). Für Physik scheint es also eine Geschlechts-Professions-Assoziation zu geben. Im Folgenden sollen als Unterrichtsfächer Mathematik und Deutsch fokussiert und verglichen werden, da beide Fächer den gleichen Stellenwert im deutschen Schulsystem einnehmen (im quantitativen Sinn: Fach ab der ersten Klasse unterrichtet und gleiche bzw. ähnliche Anzahl Unterrichtsstunden).

Hypothese 2::

Weibliche Lehrkräfte werden im Unterrichtsfach Deutsch kompetenter eingeschätzt als männliche Lehrkräfte.

Hypothese 3::

Männliche Lehrkräfte werden im Unterrichtsfach Mathematik kompetenter eingeschätzt als weibliche Lehrkräfte.

Im stereotype content model geht in der sozialen Wahrnehmung die Wärmebeurteilung der Kompetenzbeurteilung voraus (s. Kapitel 5). Außerdem wurden bildbasierte Fallvignetten präsentiert (s. u.), sodass das „beauty is good“ stereotype (Dion et al., 1972; Eagly et al., 1991; Langlois et al., 2000) die Bewertung der Kompetenz beeinflussen kann. Deshalb werden alle Hypothesen zusätzlich unter Kontrolle der Wärme- und Attraktivitätsbeurteilung getestet. Die Überprüfung mit Kontrollvariablen erfolgt explorativ (ungerichtet), um etwaige gegenteilige Muster und weitere Haupt- und Interaktionseffekte detektieren zu können.

2 Methodik

2.1 Stichprobe

An der Umfrage nahmen insgesamt 153 Proband*innen teil, von denen acht ausgeschlossen wurden, weil sie weniger als 50 % der Items (der nicht-soziodemografischen Variablen) beantworteten. Somit ergab sich eine Stichprobe von 145 Personen. Davon waren 99 weiblich und 40 männlich, sechs Personen machten keine Angabe zu ihrem Geschlecht. Das Durchschnittsalter betrug 28.0 Jahre (SD = 7.38; Spannweite: 18–52); 27 Proband*innen gaben ihr Alter nicht an. Der Großteil der Teilnehmenden studierte (= 91, davon 51 Psychologie und 2 ein Lehramt), 47 Personen waren keine Studierenden (und zumeist in einem psychosozialen Beruf tätig; n = 19 eindeutig identifizierbar), sieben Personen machten keine Angabe.

2.2 Vorgehen

Es wurde eine Online-Umfrage (unipark, Questback GmbH) erstellt, die im Zeitraum vom 17.02.2015 bis zum 01.04.2015 geöffnet war. Die Proband*innen wurden über E-Mail-Verteiler für Psychologie-Studierende (in Braunschweig und Osnabrück) sowie über soziale Medien akquiriert. Die Studie wurde als „Studie zur Einschätzung von Personen“ beschrieben. Nachdem die Teilnehmenden über die Freiwilligkeit, Anonymität und den Datenschutz aufgeklärt worden waren, wurde zufällig eine von sechs Fallvignetten präsentiert, zu denen die Proband*innen ihre persönliche Einschätzung geben sollten. Die Fallvignetten bestanden aus einem Porträt, das entweder ein weibliches oder männliches Durchschnittsgesicht nach Gründl (2011Footnote 1, S. 49 weibliches Porträt, S. 21 männliches Porträt) in Graustufen und mit 25 % Rauschfilter zeigte (s. Abbildung 13.1). Bildreize wurden u. a. auch bei Martin und Smith (1990) sowie Joye und Wilson (2015) genutzt. Zusätzlich wurde mit einem Satz das dargestellte Porträt als Lehrkraft beschrieben: „Dies ist eine Lehrkraft, die an einer Supervisionsmaßnahme teilnimmt.“ Neben „Lehrkraft“ wurden die Porträts außerdem als „Deutsch-Lehrkraft“ oder „Mathematik-Lehrkraft“ bezeichnet. Es handelte sich also um ein 2 × 3-Design. Anschließend wurden soziodemografische Daten erhoben und am Ende über das konkrete Anliegen der Befragung aufgeklärt sowie sich bei den Proband*innen für die Teilnahme bedankt. Die Daten wurden mittels IBM SPSS Statistics 25 und MPlus 8 ausgewertet.

Abbildung 13.1
figure 1

Weibliches und männliches Durchschnittsgesicht (modifiziert nach Gründl, 2011; Studie 1)

2.3 Instrumente und Variablen

Als abhängige Variable wurde die Beurteilung der Kompetenz erfragt und die Beurteilung der Wärme sowie der Attraktivität wurden als Kontrollvariablen herangezogen (Fragebogen s. Zusatzmaterial).

Kompetenzbeurteilung: Die Einschätzung der Kompetenz wurde mittels einer Adjektivliste erfasst, bei der die Teilnehmenden auf einer vierstufigen Likert-Skala (1 = „stimme gar nicht zu“ bis 4 = „stimme vollkommen zu“) angeben sollten, inwieweit das Adjektiv auf die dargestellte Person der Fallvignette zutrifft. Hierfür wurden folgende Adjektive herangezogen (angelehnt an Fiske et al., 1999; Imhof et al., 2013; Rosenberg et al., 1968): kompetent, fähig, effizient, intelligent, konkurrenzfähig, selbstbewusst und eigenständig. Die Reihenfolge der Items wurde zufällig präsentiert. Nach Faktorenanalysen und aus inhaltlichen Gründen (s. u.) wurden die Items konkurrenzfähig, selbstbewusst und eigenständig nicht berücksichtigt. Die Reliabilität (Cronbachs Alpha) der 4-Item-Lösung liegt mit α = .831 in einem zufriedenstellenden Bereich.

Wärmebeurteilung: Die Einschätzung der Wärme wurde analog mit einer Adjektivliste und einer vierstufigen Likert-Skala wie die Beurteilung der Kompetenz erfasst. Die Items (angelehnt an Fiske et al., 1999; Imhof et al., 2013; Rosenberg et al., 1968) wurden zusammen in zufälliger Reihenfolge mit denen der Kompetenzbeurteilung präsentiert: warmherzig, gutmütig, wohlwollend, sympathisch, offen, tolerant und vertrauenswürdig. Die Items offen, tolerant und vertrauenswürdig wurden auf Basis von inhaltlichen und faktoranalytischen Betrachtungen (s. u.) final nicht berücksichtigt. Die interne Konsistenz (Cronbachs Alpha) der 4-Item-Lösung liegt in einem zufriedenstellenden Bereich mit α = .856. Die Wärmebeurteilung wird im Sinne des stereotype content model als Kontrollvariable herangezogen.

Attraktivitätsbeurteilung: Die Bewertung der Attraktivität wurde mit folgendem Item auf einer siebenstufigen Likert-Skala (1 = „sehr unattraktiv“ bis 7 = „sehr attraktiv“) erhoben: „Wie optisch attraktiv finden Sie die Lehrkraft?“ Die Erfassung der Attraktivitätseinschätzung mit einem Item ist nicht unüblich (z. B. bei Kemper et al., 2014). Die Attraktivitätsbeurteilung wird berücksichtigt, um das „beauty is good“ stereotype aufgrund des Bildreizes zu kontrollieren.

Eine konfirmatorische Faktorenanalyse mit robuster Maximum-Likelihood-Schätzung (MLR) zeigte für eine 2-Faktoren-Lösung (Kompetenz- und Wärmebeurteilung) mit jeweils sieben Items der Kompetenz- und Wärmebeurteilung ungenügende Fitmaße (χ2/df = 2.545; CFI = .857; TLI = .829; RMSEA = .103; SRMR = .092; Hu & Bentler, 1999; Weiber & Mühlhaus, 2014). Ein einfaktorielles Modell ergab eine schlechtere Lösung (χ2/df = 4.996; CFI = .626; TLI = .558; RMSEA = .166; SRMR = .134). Aus inhaltlichen Gründen wurden anschließend die Items „vertrauenswürdig“, „konkurrenzfähig“ und „eigenständig“ aus den Analysen herausgenommen. Die Vertrauenswürdigkeit kann u. U. bei Lehrpersonen auch auf fachliche Kompetenz hinweisen. Konkurrenzfähigkeit und Eigenständigkeit könnten ungeeignet sein, um die Kompetenz von Lehrpersonen zu erfassen. Danach wurden zusätzlich schrittweise Items auf Basis der Trennschärfe entfernt, sodass jeweils vier Items pro Faktor verbliebenFootnote 2 (Itemschwierigkeiten und Trennschärfen s. Zusatzmaterial). Die endgültige, ökonomische zweifaktorielle Lösung ergab zufriedenstellende Fitmaße (χ2/df = 1.423; CFI = .980; TLI = .971; RMSEA = .054; SRMR = .049). Ein alternativ getestetes einfaktorielles Modell mit allen acht verbliebenen Items war zu verwerfen (χ2/df = 8.889; CFI = .623; TLI = .472; RMSEA = .233; SRMR = .122). Die 2-Faktoren-Lösung mit jeweils vier Items konnte auch an anderer Stelle zur Beurteilung von Erziehungsberatenden zufriedenstellende Fitmaße erzielen (Hackbart et al., 2020). Aufgrund der geringen Abstufungen der Likert-Skala (Bühner, 2010) wurde die finale Faktorenstruktur zusätzlich mit einem auch für ordinale Daten angemessenen Weighted-Least-Squares-Verfahren (WLSMV; Eid et al., 2017; Holtmann et al., 2016; Li, 2016) mit Ausnahme des RMSEA bestätigt (χ2/df = 2.547; CFI = .976; TLI = .964; RMSEA = .103; WRMRFootnote 3 = 0.712). Der RMSEA fällt jedoch bei kleinen Stichproben (N < 250) häufig hoch aus (vgl. Weiber & Mühlhaus, 2014).

3 Ergebnisse

Die Kennwerte der Variablen sowie die Korrelationen untereinander sind in Tabelle 13.1 aufgelistet, die Kennwerte nach Gruppen in Tabelle 13.2. Da einige der Variablen hinsichtlich der Normalverteilung auffällig sind (auf Basis von Shapiro-Wilk-Tests), wurden sowohl parametrische als auch nicht-parametrische Korrelationen berechnet. Die Quantil-Quantil-Diagramme sind bei optischer Inspektion jedoch unauffällig.

Tabelle 13.1 Kennwerte und Korrelationen der Variablen (Studie 1)

Die bivariaten Analysen zur Überprüfung der Hypothesen wurden mit t-Tests durchgeführt. Weibliche Lehrkräfte ohne bekanntes Unterrichtsfach (M = 3.106, SD = 0.575) wurden signifikant kompetenter beurteilt als männliche Lehrkräfte in einem unbekannten Unterrichtsfach (M = 2.639, SD = 0.544; t(42) = 2.706, p = .010; d = 0.830; 1–β = .753)Footnote 4. Auch über alle Bedingungen der Unterrichtsfächer hinweg (Deutsch, Mathematik und unbekanntes Unterrichtsfach) waren die Kompetenzbeurteilungen für weibliche Lehrkräfte höher (M = 2.964, SD = 0.586) als für männliche (M = 2.652, SD = 0.539; t(141) = 3.302, p = .001; d = 0.554; 1–β = .906). Für den Fachunterricht ergab sich, dass weibliche Deutschlehrkräfte signifikant kompetenter beurteilt wurden (M = 2.891, SD = 0.532) als männliche (M = 2.520, SD = 0.478; t(46) = 2.546, p1 = .007; d = 0.736; 1–β = .806). Kein Geschlechtsunterschied ergab sich für den Mathematikunterricht (t(49) = 0.516, p1 = .304; d = 0.145; 1–β = .128).

Tabelle 13.2 Mittelwerte, Standardabweichungen und Normalverteilungsüberprüfungen der Skalen getrennt nach Gruppen (Studie 1)

Für die multivariate Berechnung der Gruppenunterschiede unter Berücksichtigung des stereotype content model und des „beauty is good“ stereotype wurde eine Kovarianzanalyse durchgeführt, bei der die Kompetenzbeurteilung als abhängige Variable einging und das Geschlecht sowie das Unterrichtsfach der Lehrkraft als unabhängige Variable. Die Attraktivitäts- und Wärmebeurteilung gingen als Kontrollvariablen ein. Die Kovarianzanalyse ist ein robustes Verfahren, auch gegenüber Voraussetzungsverletzungen (Harwell, 2003; vgl. Bortz & Schuster, 2010). Nichtsdestotrotz soll kurz auf die Eignung des vorliegenden Datensatzes eingegangen werden. Die Prämissen für die hypothesenprüfende Kovarianzanalyse wurden in Anlehnung an Huber et al. (2014) überprüft: (1.) Keine Ausreißer: Auf einen Ausschluss von Ausreißern wurde verzichtet, da ausschließlich geschlossene Skalen vorlagen. (2.) Eine randomisierte Gruppenzuordnung lag vor. (3.) Gruppengröße über 20: Eine Gruppe (männliche Lehrkraft ohne genanntes Fach) liegt mit 18 Proband*innen leicht unter den empfohlenen 20 Teilnehmenden pro Gruppe. (4.) Die Varianzhomogenität war gemäß dem Levene-Test gegeben (F(5, 133) = 0.545, p = .742). (5.) Die Normalverteilung der Variablen ist teils gegeben, teils nicht (abweichend von Huber et al., 2014, mit dem Shapiro-Wilk-Test berechnet; s. Tabelle 13.2). (6.) Die Kovariaten bzw. die Kontrollvariablen korrelieren mit der abhängigen Variablen. (7.) Es gab keine signifikanten Interaktionseffekte einer unabhängigen Variablen mit einer Kontrollvariablen auf die Kompetenzbeurteilung. (8.) Homogenität der Kontrollvariablen über die Experimentalgruppen: Da die Relation von kleinster zu größter Experimentalgruppe mit 1.56 (18 zu 28) nur leicht über dem empfohlenen Größenunterschied von 1.5 liegt, wurde auf die Überprüfung des Einflusses der Kontrollvariablen auf die Experimentalgruppen verzichtet, da von einer relativen Gleichbesetzung der Zellen ausgegangen werden kann. Aufgrund der geringen Abweichungen und unter Anbetracht der Robustheit von varianzanalytischen Verfahren wurde die geplante Kovarianzanalyse durchgeführt.

Zusätzlich zur Überprüfung der Voraussetzungen der Kovarianzanalyse wurde eine potenzielle Eigengruppenbevorzugung (vgl. Balliet et al., 2014; DiDonato et al., 2011; Robbins & Krueger, 2005) auf Basis des Geschlechts in einer separaten Varianzanalyse betrachtet. Es sollte betrachtet werden, ob Männer männliche Lehrkräfte besser bewerteten und Frauen weibliche Lehrkräfte. Die Varianzanalyse mit dem Geschlecht der beschriebenen Lehrkräfte und der Proband*innen als unabhängige Variablen ergab einen signifikanten Effekt des Geschlechts der Lehrkraft (ηp2 = .067, p = .002)Footnote 5, aber weder einen signifikanten Haupteffekt des Geschlechts der Proband*innen (ηp2 = .000, p = .917) noch eine signifikante Interaktion (ηp2 = .005, p = .428; s. Zusatzmaterial). Somit kann eine Eigengruppenbevorzugung auf Basis des Geschlechts ausgeschlossen werden.

In Tabelle 13.3 sind die Ergebnisse der hypothesenprüfenden Varianzanalyse mit Kontrollvariablen dargestellt. Es zeigte sich in der Kovarianzanalyse, dass die Wärmebeurteilung ein signifikanter Prädiktor für die Kompetenzbeurteilung ist (F(1, 131) = 24.722, p < .001; ηp2 = .159), die Attraktivitätsbeurteilung hingegen nicht (F(1, 131) = 1.260, p = .264; ηp2 = .010). Weitergehend ergaben sich Unterschiede hinsichtlich des Geschlechts der Lehrkraft (F(1, 131) = 7.896, p = .006). Die Effektstärke (ηp2 = .057) weist auf einen kleinen Effekt hin. Bei Inspektion der Konfidenzintervalle zeigte sich (unter Kontrolle der Wärme- und Attraktivitätsbeurteilung; s. Tabelle 13.4), dass weibliche Lehrkräfte (M = 2.94; 95%–CI = 2.82–3.06) kompetenter eingeschätzt wurden als männliche (M = 2.69; 95%–CI = 2.56–2.80).

Tabelle 13.3 Ergebnisse der Kovarianzanalyse zur Aufklärung der Kompetenzbeurteilung (Studie 1)

Das Unterrichtsfach der Lehrkraft hatte keinen signifikanten Einfluss auf die Kompetenzbeurteilung (F(2, 131) = 1.536, p = .219; ηp2 = .023). Außerdem gab es keine signifikante Interaktion von Geschlecht und Unterrichtsfach der Lehrkraft (F(2, 131) = 1.774, p = .174; ηp2 = .026). Beim deskriptiven Vergleich der sechs Gruppen anhand der Konfidenzintervalle (bei Kontrolle für Wärme- und Attraktivitätsbeurteilung; s. Tabelle 13.4), zeigte sich, dass weibliche Lehrkräfte mit unbekanntem Unterrichtsfach (M = 3.04; 95%–CI = 2.83–3.25) kompetenter eingeschätzt wurden als männliche Deutschlehrkräfte (M = 2.57; 95%–CI = 2.36–2.77).

Tabelle 13.4 Geschätzte Randmittel unter Berücksichtigung von Kontrollvariablen (Studie 1)

4 Zusammenfassung, Interpretationen und Limitationen

In der durchgeführten Online-Untersuchung sollte herausgefunden werden, ob es Substereotype gegenüber bestimmten Gruppen von Lehrkräften gibt bzw. ob sich Geschlechts-Professions-Assoziationen auch bei Lehrkräften wiederfinden. Diese Stereotype und Assoziationen sollten gemäß dem transaktionalen Modell von Nickel (1985) durch den soziokulturellen Kontext geprägt sein sowie mit Kompetenzerwartungen einhergehen.

Es zeigte sich auf Basis einer durchgeführten Studie mit Fallvignetten, dass weibliche Lehrkräfte kompetenter beurteilt werden als männliche. Dies widerspricht dem Befund von Imhoff et al. (2013), die keine Unterschiede bei der Beurteilung von männlichen und weiblichen Lehrkräften fanden, und unterstützt die Ergebnisse von Mancus (1992). Eine methodische Erklärung zur positiveren Kompetenzbewertung der weiblichen Lehrkräfte im Vergleich zu den männlichen kann im Stimulus-Material und dem „beauty is good“ stereotype (Dion et al., 1972; Eagly et al., 1991; Langlois et al., 2000) liegen. So gingen für das Bild der weiblichen Lehrkraft 64 Bilder zum Erstellen des Porträts und für die männliche Lehrkraft 32 Bilder ein, was zu einer höheren Durchschnittlichkeit und somit zu einer höheren Attraktivitätsbeurteilung führen kann bzw. es gingen mehr attraktive Bilder in das weibliche Gesicht ein als in das männliche, was die Attraktivitätszuschreibung auch erhöhen kann (vgl. Gründl, 2011). Zudem wurden bei Joye und Wilson (2015) Bilder von Frauen attraktiver bewertet als Bilder von Männern. Es zeigte sich ein kleiner korrelativer Zusammenhang zwischen Geschlecht der Lehrkraft und Attraktivitätsbeurteilung zugunsten der weiblichen Lehrkräfte sowie darüber hinaus ein weiterer kleiner Zusammenhang zwischen der Kompetenzbeurteilung und der Attraktivitätsbeurteilung, was auf einen mediierenden Effekt hinweisen kann.

Bei einer gemeinsamen Berücksichtigung von Geschlecht der Lehrkraft, Unterrichtsfach, Attraktivitäts- und Wärmebeurteilung verliert sich der signifikante Effekt der Attraktivitätsbeurteilung. Lediglich das Geschlecht der Lehrkraft und die Wärmebeurteilung können die Kompetenzbeurteilung signifikant vorhersagen. Besondere Bedeutsamkeit für die Kompetenzbeurteilung mit einem mittelgroßen Effekt hat die Wärmebeurteilung (ηp2 = .159). Dies kann damit interpretiert werden, dass das stereotype Bild von guten, kompetenten Lehrkräften ein sympathisches und fürsorgliches Verhalten einschließt. Generell werden Lehrkräfte als besonders warm beschrieben (Eckes, 2002; Imhoff et al., 2013; für Lehramtsstudierende s. Ihme & Möller, 2015).

Es ist zu vermuten, dass (gerade bei unbekanntem Fach) der Erziehungsauftrag der Lehrkräfte stärker im Fokus steht als der Auftrag, Wissen zu vermitteln, und somit die Kompetenz von Lehrkräften über die Erziehungsfähigkeiten beurteilt wird. Die stärkere Zuweisung kommunaler Eigenschaften für Frauen im Verhältnis zu Männern (u. a. Bosak et al., 2008; Diehl et al., 2004) kann somit die höhere Kompetenzbeurteilung erklären. Allgemein ergreifen Frauen mehr Berufe im erzieherischen und pflegenden Bereich als Männer (Autorengruppe Fachkräftebarometer, 2019; Bundesagentur für Arbeit, 2021) und studieren u. a. häufiger Erziehungswissenschaften (79 %) oder mit dem Ziel eines Lehramts (71 %; Statistisches Bundesamt, 2020c). Für die geschlechtsabhängige Kompetenzbeurteilung von Lehrkräften muss jedoch festgehalten werden, dass in der vorliegenden Untersuchung lediglich ein kleiner Effekt (ηp2 = .057) erzielt wurde.

Die fehlende Signifikanz hinsichtlich der Interaktion von Unterrichtsfach und Geschlecht der Lehrkraft in den multivariaten Analysen widerspricht den Hypothesen 2 und 3. Allerdings zeigte sich in den bivariaten Analysen, das weibliche Deutschlehrkräfte kompetenter beurteilt werden als männliche Deutschlehrkräfte. Bisherige Untersuchungen, die den Deutsch- und Physikunterricht fokussierten, konnten auch Geschlechts-Professions-Assoziationen ausmachen (Degner et al., 2019; Zander et al., 2015). Es kann vermutet werden, dass die Fachauswahl bedeutsam ist. So kann der Mathematikunterricht in der Schule weniger männlich assoziiert sein als der Physikunterricht. Bei Plante et al. (2009) zeigte sich, dass Schüler*innen Mathematik nicht als männliche Domäne assoziieren, aber den Sprachunterricht als weibliche. Eine systematische Analyse der Geschlechts-Professions-Assoziationen für die Gruppe der Lehrkräfte (und andere Lehrpersonen) wäre künftig wünschenswert.

Auf Basis des Untersuchungsdesigns ergeben sich einige Limitationen. Bei der Erhebung wurde auf eine Gelegenheitsstichprobe zurückgegriffen, die hinsichtlich der Interpretierbarkeit der Ergebnisse für eine Zielpopulation begrenzt ist (vgl. Döring & Bortz, 2016). Dies macht sich in der hohen Anzahl von Studierenden und von Proband*innen aus dem psychosozialen Bereich bemerkbar, die nicht ohne Weiteres als repräsentativ für die Allgemeinbevölkerung angesehen werden können. Außerdem muss erwähnt werden, dass die Stichprobe aus erwachsenen Proband*innen bestand (Mindestalter = 18). Es kann jedoch davon ausgegangen werden, dass die Teilnehmenden auf Basis ihrer aufgebauten Schemata und Stereotype, die sich im Laufe der Zeit herausgebildet haben (soziale Lernvergangenheit; Nickel, 1985), die beschriebenen Lehrkräfte beurteilt haben. Inwieweit diese Ergebnisse auch für aktuell schulpflichtige Kinder und Jugendliche erzielt werden können, bleibt auf Basis der vorliegenden Daten offen und müsste künftig in der Forschung adressiert werden. Schließend muss noch erwähnt werden, dass theoriebasierte Items eigenständig konstruiert wurden. Diese und die daraus entstandenen Skalen sind deswegen nicht validiert, die Reliabilitäten und die faktorielle Validität können jedoch als angemessen angesehen werden. Problematisch an den Items kann auch sein, dass sie ausschließlich positiv gepolt waren (vgl. u. a. Bühner, 2010; Döring & Bortz, 2016).

Zusammenfassend kann festgehalten werden, dass weibliche Lehrkräfte kompetenter beurteilt werden als männliche. Dies spricht für die Entwicklung von (relationalen) Schemata bzw. Substereotypen. Um den Einfluss der Attraktivität methodisch zu eliminieren und der Hypothese nachzugehen, dass weibliche Lehrkräfte insbesondere bei erzieherisch assoziierten Aufgaben kompetenter eingeschätzt werden als männliche Lehrkräfte, wurde eine zweite Studie mit textbasierten Fallvignetten erstellt. Mit der zweiten Studie sollten außerdem die in der ersten Studie erzielten Ergebnisse, insbesondere zu den Geschlechts-Professions-Assoziationen, erneut überprüft werden.