1 Einleitung

Trotz jahrzehntelanger Bestrebungen zur Gleichstellung der Geschlechter bestehen in den meisten Gesellschaften nach wie vor ausgeprägte Unterschiede in den Arbeitsmarktchancen von Frauen und Männern, die sich unter anderem in Lohnungleichheiten äußern (Blau 2016). Nehmen wir als Beispiel die Schweiz. Seit 1981 ist in der Bundesverfassung der Schweizerischen Eidgenossenschaft (Art. 8, Abs. 3) folgender Grundsatz verankert: „Mann und Frau haben Anspruch auf gleichen Lohn für gleichwertige Arbeit.“ Im Jahr 1996 trat zudem das Bundesgesetz über die Gleichstellung von Frau und Mann in Kraft, das den Verfassungsauftrag konkretisiert und Diskriminierungen bei der Arbeit verbietet (EDI 2019). Trotzdem verdienten Frauen im Jahr 2018 im Schweizer Privatsektor durchschnittlich 20 % weniger als Männer (gemessen an Löhnen, die auf eine 100 %-Anstellung umgerechnet wurden; BFS 2019c). Zum Vergleich: 1998 betrug die Differenz knapp 25 % (Strub et al. 2006). Der Unterschied hat sich über die Jahre also etwas verkleinert, ist jedoch immer noch beachtlich (für eine Analyse im Zeitverlauf s. z. B. Schmid 2016).

Wieso hält sich der geschlechtsspezifische Lohnunterschied so hartnäckig? Die Gründe mögen vielfältig sein, wir argumentieren hier jedoch, dass gesellschaftlich geteilte Vorstellungen über unterschiedliche Rollen von Frauen und Männern auf dem Arbeitsmarkt und in der Familie zumindest teilweise für die Lohndiskrepanz verantwortlich sein können. Historisch gesehen wurde bezahlte Erwerbstätigkeit von Frauen oft als Zweitverdienst betrachtet, während der Mann die Rolle des Familienernährers einnahm. In Deutschland war es verheirateten Frauen bis 1958 verboten, ohne das Einverständnis ihres Ehemannes einer bezahlten Erwerbstätigkeit nachzugehen; in der Schweiz sogar bis 1988 (Combet und Oesch 2019). Obwohl diese aus heutiger Sicht irritierende Regelung inzwischen der Vergangenheit angehört, hat sich an der geschlechtsspezifischen Rollenverteilung bis heute erstaunlich wenig geändert. In unserer Studie untersuchen wir deshalb anhand von drei Surveyexperimenten, inwieweit sich die Lohnunterschiede und Rollenvorstellungen auch darin widerspiegeln, welche Löhne für Frauen und Männer als „gerecht“ angesehen werden, – also, ob es einen „just gender pay gap“ (Jasso und Webster Jr. 1997; Sauer 2014) gibt und wie dieser zu interpretieren ist. Inwieweit ein „just gender pay gap“ zu tatsächlichen Lohnunterschieden zwischen Frauen und Männern beiträgt, ist eine empirische Frage, die wir im Rahmen dieser Studie nicht beantworten können. Wir vermuten jedoch, dass geschlechtsspezifische Rollenerwartungen und Vorstellungen über gerechte Löhne durchaus relevant sein können für Lohnbildungsprozesse. Bekannt ist beispielsweise, dass Geschlechterstereotypen gerade bei Lohnverhandlungen eine Rolle spielen: Frauen fordern oftmals weniger als Männer und bekommen demnach auch weniger. Hinzu kommt, dass Frauen, die viel fordern, damit weniger erfolgreich zu sein scheinen als Männer, denn Forderungen zu stellen widerspricht den Vorstellungen über angepasstes weibliches Verhalten (das z. B. Bescheidenheit verlangt) und wird entsprechend sanktioniert (Babcock und Laschever 2007; Bowles et al. 2007). Ähnliche Mechanismen sind auch in Bezug auf Beförderungen vorstellbar. Weiterhin weist die empirische Forschung zu Lohnniveaus in unterschiedlichen Berufen darauf hin, dass weiblich konnotierte Arbeit weniger wertgeschätzt und entsprechend weniger gut bezahlt wird (z. B. Kilbourne et al. 1994; Levanon et al. 2009), was ebenfalls eine Folge von gesellschaftlich geteilten Vorstellungen über geschlechtsspezifische Rollenverteilungen sein kann. Insgesamt erscheint es im Sinne einer selbsterfüllenden Prophezeiung wenig überraschend, wenn eine Deklassierung bezahlter Erwerbstätigkeit von Frauen als Zweitverdienst zu einer geringeren Arbeitsmarktintegration und somit schlechteren Bezahlung von Frauen führt.

Im nächsten Abschnitt fassen wir zuerst die wichtigsten Argumente und Ergebnisse zur Erklärung geschlechtsspezifischer Lohnunterschiede kurz zusammen (für eine Übersicht s. a. Blau und Kahn 2017 oder Weichselbaumer und Winter-Ebmer 2005) und geben eine Übersicht zu Diskriminierungstheorien. Diese Ausführungen liefern allgemeine Hintergrundinformationen zur Einordnung unserer Studie. Für die Fragestellung unmittelbar relevant sind die ebenfalls im zweiten Abschnitt folgende Diskussion von Theorien der Verteilungsgerechtigkeit und die Darstellung des Forschungsstands zur Thematik des „just gender pay gap“ in der empirischen Gerechtigkeitsforschung. In dritten Abschnitt beschreiben wir das Design unserer Experimente, Abschn. 4 präsentiert die Ergebnisse und Abschn. 5 enthält eine Diskussion sowie Schlussfolgerungen.

2 Forschungsstand: Theoretische Argumente und empirische Evidenz

2.1 Der „gender wage gap“ aus soziologischer und ökonomischer Perspektive

Die vermutlich längste Tradition zur Erklärung von Lohnungleichheiten haben die ökonomischen Theorien, insbesondere die Humankapitaltheorie (Becker 1975; Mincer 1958; Mincer und Polachek 1974). Das Humankapital bezeichnet die Akkumulation von Fähigkeiten, Erfahrungen und Bildungsabschlüssen, die ein Individuum besitzt und die sich – zumindest gemäß Theorie – positiv auf seine Produktivität auswirken. Demnach werden Lohnungleichheiten damit erklärt, dass sich Menschen durch ihr Humankapital und folglich durch ihre Produktivität unterscheiden. Insgesamt hat sich das Bildungsniveau zwischen Frauen und Männern über die letzten Jahrzehnte angeglichen. Beispielsweise haben 28 % der 25- bis 64-jährigen Frauen in der Schweiz einen Hochschulabschluss. Bei den Männern sind es knapp 30 %. Unter den 25- bis 34-Jährigen haben mit 42 % inzwischen deutlich mehr Frauen als Männer (35 %) einen Hochschulabschluss (BFS 2019a). Entsprechend sollte sich auch der „gender wage gap“ verringern.

Die Theorie geht aber noch einen Schritt weiter: Da Frauen eine eher diskontinuierliche Erwerbslaufbahn antizipieren, treffen sie entsprechende Bildungsentscheidungen und wählen z. B. Berufe, in denen die Vereinbarkeit von Arbeit und Familie einfacher möglich ist oder in denen Erwerbsunterbrüche mit einer geringen Entwertung des Humankapitals einhergehen, so etwa die Argumentation von Polachek (1981). Diese ungleiche Verteilung der Geschlechter auf Berufe und Tätigkeiten – horizontale Segregation genannt – ist in der Schweiz, wie auch in vielen anderen Ländern, tatsächlich sehr ausgeprägt und hat sich über die Zeit nur wenig verändert (Buchmann und Kriesi 2012; Charles 2005; Schwiter et al. 2014). Gemäß der sogenannten Devaluations-Hypothese (England et al. 1988; Liebeskind 2004) wird von Frauen ausgeübte Arbeit zudem gesellschaftlich weniger hoch bewertet als typisch männlich konnotierte Arbeit. Die Abwertung erfolgt z. B. dadurch, dass Qualifikationen, die für die häufig von Frauen ausgeübten Berufe erforderlich sind, nicht wahrgenommen werden. Folglich schlagen sich diese Qualifikationen auch nicht in einem höheren Lohn nieder (England 1992, 2005; Gottschall 1995). Die geschlechtsspezifische Prägung eines Berufes kann sich über die Zeit ändern, und tatsächlich gibt es Forschung, die einen negativen Zusammenhang zwischen der Feminisierung (verstanden als Zunahme des Frauenanteils) eines Berufs und dessen durchschnittlichem Einkommen findet (z. B. Levanon et al. 2009; Murphy und Oesch 2016).

Die bessere Ausbildung und die Zunahme der Erwerbstätigkeit der Frauen haben einen Beitrag zur Verminderung der Lohnungleichheit zwischen den Geschlechtern geleistet (für die Schweiz s. z. B. Jann und Engelhardt 2008). Der Umstand, dass Frauen weiterhin öfter Teilzeit arbeiten und für einen Großteil der unbezahlten Haus- und Familienarbeit zuständig sind, verhindert jedoch ihre gleichwertige Arbeitsmarktteilnahme. Während die geschlechtsspezifische Rollenverteilung von einigen Vertreterinnen und Vertretern der neoklassischen Ökonomie als rationale Kosten-Nutzen-Überlegung dargestellt wird („Spezialisierungs-Hypothese“, Becker 1981), kritisieren Soziologinnen und Soziologen dies als strukturelles Problem. Die „doppelte Vergesellschaftung“ (Becker-Schmidt 2008), ein Produkt der Industrialisierung, bezeichnet eine doppelte Einbindung der Frauen in das Sozialgefüge, einerseits auf dem Arbeitsmarkt und andererseits im Haushalt. Abgesehen von der geringeren Bewertung der Haus- und Familienarbeit behindert die Doppelbelastung die Integration in den Arbeitsmarkt und insbesondere auch das Fortkommen in Karriereberufen.

Oesch et al. (2017) zeigen anhand von Paneldaten, dass Frauen starke Lohneinbußen erfahren, sobald sie Mütter werden. Auch wenn ein Großteil der Lohneinbuße auf die Reduktion der Arbeitszeit zurückgeht, bleibt dennoch ein unerklärter Anteil von bis zu 9 % des Lohnunterschieds zwischen Müttern und kinderlosen Frauen bestehen. Mit einem Vignettenexperiment bei Personalverantwortlichen zeigen die Autoren zudem, dass Mütter geringere Anstellungschancen haben als ansonsten vergleichbare Frauen ohne Kinder und ihnen von den Befragten im Experiment ein geringerer Lohn zugesprochen wird.

Die niedrigeren Frauenlöhne lassen sich allerdings nicht allein mit diesem sogenannten „motherhood penalty“ (Budig und England 2001) erklären. In ihrer neuen Studie finden Combet und Oesch (2019) Lohnunterschiede zwischen Frauen und Männern, lange bevor diese eine Familie gründen und beginnen, sich die Hausarbeit ungleich aufzuteilen. Dabei bleibt ein unerklärter Unterschied bestehen, auch wenn eine Vielfalt von möglichen Einflussfaktoren, darunter Humankapital, Job-Charakteristika und Werte in Bezug auf Arbeit und Familie, kontrolliert werden.

Ein Teil des geschlechtsspezifischen Lohnunterschieds erklärt sich weiterhin dadurch, dass Frauen seltener in Führungspositionen gelangen als Männer. Der Frauenanteil unter den Arbeitnehmenden mit Führungsfunktion betrug in der Schweiz im Jahr 2018 36 % (BFS 2019b). In den Geschäftsleitungen der 100 größten Schweizer Firmen befanden sich im selben Jahr nur 7 % Frauen. In Verwaltungsräten betrug ihr Anteil immerhin 19 % (Schillingreport 2018). Die Bildungserfolge der Frauen schlagen sich also noch nicht in entsprechenden Positionen auf dem Arbeitsmarkt nieder. Bei gleicher Ausbildung und gleichen Karriere-Aspirationen erreichen Frauen seltener eine Führungsposition als Männer (Zimmermann 2020). Es scheinen also weiterhin unsichtbare Barrieren vorhanden zu sein, die Frauen am Aufstieg hindern (eine sogenannte „gläserne Decke“). Erklärbar ist das Vorhandensein der gläsernen Decke unter anderem mit dem Einfluss sozialer Netzwerke, von denen Männer mehr profitieren als Frauen (für die Schweiz s. z. B. Rost 2010).Footnote 1 Auch homosoziale Reproduktion, also die Präferenz der meist männlichen Vorgesetzten, Untergebene des gleichen Geschlechts zu fördern, erhöht die Barrieren für Frauen, in Führungspositionen zu gelangen und damit höhere Einkommen zu erzielen (s. z. B. Bihagen und Ohls 2006; Holst und Wiemer 2010; Ochsenfeld 2012). Doch selbst wenn der Aufstieg gelingt, bestehen Lohnunterschiede zwischen den Geschlechtern, die auf den oberen Hierarchiestufen stärker ausgeprägt sind als auf den unteren Stufen der Karriereleiter (Blau und Kahn 2017; Strub und Bannwart 2017, S. 42).

2.2 Diskriminierung

Trotz umfassender statistischer Modelle zur Erklärung der Lohnunterschiede zwischen Frauen und Männern auf Grundlage der Humankapitaltheorie verbleibt in der Regel eine substanzielle Differenz, die nicht auf die besprochenen Faktoren zurückgeführt werden kann. In der Schweiz betrug dieser nichterklärte Teil im Zeitraum zwischen 1998 und 2016 im Durchschnitt etwa 40 % des Gesamtunterschieds (BFS 2019c; Strub und Stocker 2010).

Ähnliche Werte berichten ältere Arbeiten (Diekmann et al. 1993; Brüderl et al. 1993). Eine Ausnahme ist die Studie von Kugler (1988), die relativ tiefe Diskriminierungsschätzungen ermittelte. Dabei ist natürlich zu bedenken, dass die jeweils verwendeten Indikatoren des Humankapitals und ihre Messung die Diskriminierungsschätzung stark beeinflussen. Auch in internationalen Studien zeigt sich ein deutlicher „gender wage gap“; in der EU liegt die Spannbreite zwischen 1 % in Rumänien und 23,5 % in Estland. Deutschland liegt mit 21 % im oberen Bereich (Boll und Lagemann 2018). In fast allen Ländern ist ein Teil der Diskrepanz nicht „erklärbar“ und möglicherweise auch auf Diskriminierung zurückzuführen. Ob es sich bei der nichterklärten Differenz tatsächlich um Diskriminierung handelt oder lediglich um ein Artefakt unvollständig spezifizierter statistischer Modelle, wird kontrovers diskutiert. Theoretische Überlegungen sprechen jedoch durchaus dafür, dass Diskriminierung zumindest nicht auszuschließen ist.

Ein vielbeachteter theoretischer Ansatz zur Erklärung von Diskriminierung wurde von Gary Becker mit der „economics of discrimination“ (Becker 1973) vorgeschlagen. Demnach erfolgt Diskriminierung aufgrund von Vorurteilen oder Abneigungen gegenüber bestimmten Gruppen („taste-based discrimination“). Als Konsequenz werden Mitglieder dieser Gruppen, beispielsweise Frauen, auch bei gleicher Produktivität seltener befördert oder erhalten einen niedrigeren Lohn. Die diskriminierende Haltung kann dabei von unterschiedlichen Akteuren ausgehen: den Arbeitgebenden, den anderen Mitarbeitenden oder den Kundinnen und Kunden des Unternehmens. Zumindest in den ersten beiden Fällen sollte auf Abneigung basierende Diskriminierung nach ökonomischer Theorie jedoch nicht vorkommen, da diskriminierende Unternehmen in einem kompetitiven Markt nicht konkurrenzfähig wären und aus dem Markt gedrängt würden. Nach Arrow (1972) sagt Beckers Modell also folglich genau die Abwesenheit des Phänomens voraus, das es zu erklären versucht (s. a. Guryan und Charles 2013).

Ohne die Annahme diskriminierender Präferenzen kommt das Konzept der „statistischen Diskriminierung“ (Arrow 1972; Phelps 1972) aus. Die unterschiedliche Behandlung von Frauen und Männern wird bei diesem Ansatz dadurch erklärt, dass sich Akteure wegen mangelnder Informationen bei der Festlegung des Lohns an statistischen Gruppenmerkmalen orientieren. Das bedeutet, dass diese Gruppenmerkmale umso mehr Gewicht erhalten, je weniger Informationen über die Produktivität eines bestimmten Individuums vorhanden sind. Bei perfekter Information müsste die Diskriminierung also verschwinden. Diese Theorie kann Lohnungleichheiten zwischen den Geschlechtern im Prinzip nur dann erklären, wenn sich die Produktivität der beiden Geschlechter effektiv unterscheidet. Soziologische und sozialpsychologische Studien zeigen allerdings, dass diese These nicht haltbar ist (z. B. Bielby und Bielby 1988). Im Gegenteil, auch wenn Frauen in Job-Evaluationen bessere Bewertungen erhalten, sind es die Männer, die dann trotzdem eher befördert werden (Blau und DeVaro 2007) oder größere Lohnerhöhungen erhalten (Castilla 2012). Interessant ist das Konzept der statistischen Diskriminierung jedoch, weil die herangezogenen Gruppenbewertungen auch auf Stereotypen beruhen können, die nicht zwingend den Tatsachen entsprechen, sich aber aufgrund selbstverstärkender Prozesse verfestigen oder im Sinne einer selbsterfüllenden Prophezeiung letztlich sogar bewahrheiten mögen.

In diese Richtung gehen auch die „status construction theory“ (Ridgeway 1997, 2001) und die „reward expectations theory“ (Auspurg et al. 2017; Berger et al. 1985). Den Theorien zufolge haben bereits existierende Status- und Ressourcenunterschiede zwischen verschiedenen sozialen Gruppen (insbesondere zwischen Frauen und Männern) Auswirkungen auf die Interaktionen zwischen den Individuen dieser Gruppen. Dabei entstehen sogenannte „status beliefs“, also Glaubenssätze über den Status der Mitglieder der jeweiligen Gruppen, die in Interaktionen laufend reproduziert werden (vgl. Goffman 1977). Diese Glaubenssätze über den sozialen Status von Frauen und Männern haben zur Folge, dass Frauen weniger kompetent eingeschätzt werden und ihnen ein tieferer Status zugesprochen wird, woraus eine ungleiche Behandlung auf dem Arbeitsmarkt resultieren kann (Ridgeway 1997). Es ist also eine Art Teufelskreis: Weil Männer öfter in höheren Positionen sind, wird ihnen ein gesellschaftlich höherer Status zugeschrieben, was es wiederum als legitim erscheinen lässt, dass sie höhere Positionen oder höhere Einkommen erhalten (s. dazu auch Berger et al. 1972).

2.3 Verteilungsgerechtigkeit

Dass Frauen aufgrund ihres Geschlechts weniger verdienen als Männer, ist nicht nur gesetzeswidrig, sondern verletzt vermutlich auch das Gerechtigkeitsempfinden vieler Menschen. Sie würden dies somit als unfair bewerten. Doch was ist denn nun ein fairer Lohn? Welche Kriterien sollen entscheiden, wer wieviel von einem bestimmten Gut erhält? Diese Fragen stehen im Zentrum der Theorien über die Verteilungsgerechtigkeit.

Bereits in der Philosophie der Antike wurden Fragen zur Verteilungsgerechtigkeit diskutiert. Dabei haben sich mehrere, sich teilweise widersprechende Kriterien etabliert. Die drei bekanntesten Kriterien sind Gleichheit, Leistung und Bedürftigkeit (vgl. z. B. Deutsch 1975; Miller 1992; Sabbagh 2001). Dass Gleichheit, also „allen das Gleiche“, nicht immer gerecht ist, erkannte bereits Aristoteles. Sein in der Nikomachischen Ethik eingeführtes Gerechtigkeitsprinzip basiert auf einer „proportionalen Gleichheit“. Für ihn muss „eine gewisse Würdigkeit das Richtmaß der distributiven Gerechtigkeit sein“ (Aristoteles 1985, S. 107). Worin diese Würdigkeit nun besteht, lässt er weitgehend offen. In der philosophischen Literatur wird dieses Prinzip nun meist „Leistungsprinzip“ genannt und kann verschiedene Aspekte der Leistung enthalten, z. B. Anstrengung, Fähigkeiten oder Erfolg. Welche dieser Kriterien wie viel zählen sollen, darüber herrscht keine Einigkeit (Lamont 1994).

Das dritte Prinzip ist das der Bedürftigkeit. Demnach sollen diejenigen mehr von etwas bekommen, die einen höheren Bedarf danach haben. Dieses Prinzip hat seine Bedeutung heute hauptsächlich im Zusammenhang mit sozialstaatlichen Maßnahmen. So sind Leistungen, wie beispielsweise die Sozialhilfe, an die Bedürftigkeit der Leistungsbeziehenden geknüpft. Die Leistungen der Altersvorsorge hingegen basieren eher auf dem Leistungsprinzip und werden gemäß den durch Erwerbsarbeit erwirtschafteten Vorsorgeguthaben verteilt (i. d. R. kombiniert mit gewissen an Gleichheit und Bedürftigkeit ausgerichteten Korrekturmechanismen am unteren Ende der sozialen Leiter).

Dass askriptive Merkmale, wie Geschlecht, soziale Herkunft, ethnische Zugehörigkeit oder sexuelle Orientierung, in zeitgenössischen Theorien zur Verteilungsgerechtigkeit nicht vorkommen und bei der Beurteilung eines gerechten Einkommens keine Rolle spielen sollten, ist kein Zufall. Demzufolge können Lohnunterschiede zwischen Frauen und Männern erst einmal nicht gerecht sein, außer es gäbe Grund zur Annahme, dass Frauen entweder weniger leisten oder weniger benötigen als Männer. In Übereinstimmung mit der Humankapitaltheorie (Becker 1975; Mincer und Polachek 1974) soll eine höhere Produktivität zu einem höheren Einkommen führen. Damit also Frauen gerechterweise weniger erhalten als Männer, müsste ihre Produktivität niedriger sein. Dies wurde in einer Vielzahl empirischer Studien untersucht und konnte nicht belegt werden (Castilla 2012). Bei gleichen Voraussetzungen weisen Frauen die gleiche Produktivität auf wie Männer.

Auch in Bezug auf das zweite Gerechtigkeitskriterium, Bedürftigkeit, wird nicht auf Anhieb klar, aus welchem Grund Frauen weniger verdienen sollten als Männer. Das häufigste diesbezügliche Argument ist, dass verheiratete Frauen auf das Einkommen ihres Mannes zählen können und deshalb weniger darauf angewiesen sind, ein gleichwertiges Einkommen zu erzielen. Diese Überlegungen basieren auf einer geschlechtsspezifischen Rollenteilung, die dem Mann die Erwerbsarbeit zuweist und die Frau für die Hausarbeit und Kindererziehung vorsieht. Auch wenn sich in den letzten Jahrzehnten diesbezüglich einiges verändert hat, die Grundfesten wurden nicht erschüttert. In der Schweiz waren im Jahr 2018 82,4 % der erwerbstätigen Männer Vollzeit (90–100 %) beschäftigt, hingegen traf dies lediglich auf 41 % der erwerbstätigen Frauen zu (BFS 2019d). Gleichzeitig waren Frauen für einen weitaus größeren Teil der unbezahlten Haus- und Familienarbeit verantwortlich. So leisteten 15- bis 64-jährige Frauen im Jahr 2016 im Mittel 30 h Haus- und Familienarbeit pro Woche; bei den Männern waren es nur 18 h (BFS 2017).

Dass Frauen weniger verdienen, wenn sie weniger bezahlte Erwerbsarbeit leisten, leuchtet ein. Dass sie aber für gleichwertige Arbeit (in Inhalt und Umfang) weniger Lohn erhalten, lässt sich vorerst nur schlecht damit erklären, dass sie mehr Zeit für die Familie aufwenden als Männer.Footnote 2 Auch die umgekehrte These, dass verheiratete Männer bei der Entlohnung einen sogenannten „Heiratsbonus“ erhalten, wird kontrovers diskutiert. Diverse Studien zeigen, dass verheiratete Männer im Durchschnitt mehr verdienen als alleinstehende Männer (Budig und Lim 2016; Killewald und Gough 2013). Gemäß Beckers (1981) Spezialisierungs-Hypothese lautet eine Erklärung, dass es für den Haushalt insgesamt ökonomisch von Vorteil sein könnte, wenn sich verheiratete Männer mit höherem Einkommenspotenzial als ihre Ehefrauen auf die Erwerbsarbeit konzentrieren und sich Frauen aufgrund komparativer Vorteile bei der Erziehung von Kindern auf die Haus- und Familienarbeit spezialisieren. Diese These und insbesondere die ihr zugrunde liegenden Annahmen sind allerdings umstritten. Die Untersuchungen von Ludwig und Brüderl (2018) sowie Jakobsson und Kotsadam (2016) zeigen etwa, dass ein Selektionseffekt vorliegt, nach dem Männer mit höherem Einkommenspotenzial mit größerer Wahrscheinlichkeit heiraten als Männer mit geringeren Einkommenschancen. Die „Heiratsprämie“ der Männer könnte ein Artefakt dieser Selektion sein. Alternativ wird vermutet, dass vonseiten der Arbeitgebenden eine positive Diskriminierung stattfinden könnte, in dem Sinne, dass diese bereit sind, verheirateten Männern aufgrund von traditionellem Rollendenken (Mann als Haupternährer) mehr Lohn zu bezahlen (Budig und Lim 2016; vgl. auch Killewald und Gough 2013). McDonald (2019) findet eine – wenn auch bescheidene – Heiratsprämie für Männer, und zwar sowohl in einer Paneldatenanalyse als auch bei Bewertungen in einem Vignettenexperiment. Traditionelle Rollenbilder mögen also dazu beitragen, dass den Frauen (zumindest, wenn sie verheiratet sind) gemäß dem Bedürftigkeitsprinzip weniger Lohn zugesprochen wird als den Männern – oder umgekehrt die Männer einen Heiratsbonus erhalten.

2.4 Empirische Gerechtigkeitsforschung

Um herauszufinden, wie die Menschen denken und welche Kriterien ihnen bei Verteilungsfragen wichtig sind, wurden in der empirischen Sozialforschung in den letzten Jahren vermehrt Vignettenexperimente (oder faktorielle Surveys) durchgeführt. Vorgeschlagen wurde die Methode aber bereits durch Peter H. Rossi (vgl. Rossi 1979; Rossi und Nock 1982). Aufbauend auf den Pionierarbeiten im Bereich der Einkommensgerechtigkeit (Jasso 1980; Jasso und Rossi 1977; Jasso und Webster Jr. 1997) wurden verschiedene Studien durchgeführt, die fast alle einen „just gender pay gap“ aufzeigten. Das heißt, wenn die Befragten die Löhne von Frauen und Männern beurteilen mussten, die sich in ihren Eigenschaften nicht unterschieden, empfanden sie für Frauen i. d. R. niedrigere Einkommen als gerecht als für Männer (Jasso und Webster Jr. 1997; Jann 2003a;Footnote 3 Gatskova 2015; Sauer et al. 2009). In einigen Studien, insbesondere wenn Studierende befragt wurden, fand sich kein solcher Effekt (Auspurg et al. 2009) oder sogar ein leichter Vorteil für die Frauen (Jasso und Webster Jr. 1999).

Auspurg et al. (2017) testeten mehrere der in den vorherigen Abschnitten diskutierten Theorien mittels Vignettenanalyse. Um zu überprüfen, ob statistische Diskriminierung eine Ursache für niedrigere Frauenlöhne sein könnte, präsentierten sie den Befragten Vignetten mit unterschiedlich vielen Informationen, aus denen Rückschlüsse auf die Produktivität der beschriebenen Personen gezogen werden konnten. Trifft die Theorie zu, müsste der Lohnunterschied zwischen den bewerteten Frauen- und Männervignetten dann am größten sein, wenn am wenigsten produktivitätsrelevante Information vorhanden ist. Die Hypothese wurde allerdings nicht bestätigt: Mehr Information führte nicht dazu, dass für Frauen und Männer der gleiche Lohn als gerecht empfunden wurde. Der Lohnunterschied zuungunsten der Frauen blieb vorhanden. Weiter testeten sie, ob die Theorie zutrifft, dass Frauen und Männern ein unterschiedlicher Status zugeschrieben wird und dies zu einer ungleichen Bewertung der Frauen- und Männervignetten führt („rewards expectation theory“). Wenn es zutrifft, dass Männern mehr Fähigkeiten zugesprochen werden, sollte dies in männerdominierten Berufen eher der Fall sein, da dort Vorurteile über geschlechtsspezifische Kompetenzen besonders zum Tragen kommen. Weiter sollte der Unterschied ebenfalls größer sein, wenn die Befragten in Berufen mit hoher Lohnungleichheit arbeiten, da existierende Ungleichheiten sich in den Vorstellungen der Menschen verfestigen und sich somit auch immer wieder reproduzieren (Auspurg et al. 2017, S. 182). Diese Hypothesen wurden teilweise bestätigt. Es zeigte sich, dass Lohnunterschiede in der Branche der Befragten wie auch in derjenigen der Vignettenpersonen eine Rolle spielen: Je größer der reale Lohnunterschied ist, desto unterschiedlicher war auch die Bewertung der Frauen- und Männerlöhne. Hingegen hatte der Frauenanteil im Beruf keinen signifikanten Effekt. Insgesamt sprechen die Ergebnisse durchaus dafür, dass „gender status beliefs“ eine Rolle bei der Bewertung von Einkommen spielen können.

Weitere experimentelle Forschung untersuchte den Einfluss der verschiedenen Gerechtigkeitsprinzipien auf die Beurteilung eines gerechten Lohns (Jasso und Rossi 1977). Das Leistungsprinzip wird dabei u. a. anhand der Arbeitsleistung der beschriebenen Person evaluiert. So sollen Personen mit einer höheren Leistung mehr verdienen als solche, die eine geringere Leistung erbringen (Auspurg et al. 2017; Gatskova 2015; Jann 2003a). Die Beurteilung des Bedürftigkeitsprinzips wird oftmals über den Zivilstand oder anhand von Kindern im Haushalt ermittelt. Die Untersuchungen von Gatskova (2015) und Sauer et al. (2009) zeigten etwa, dass gemäß den Befragten Personen, die mit einer nichterwerbstätigen Person verheiratet sind, ein höheres Einkommen erhalten sollen als andere. Allerdings bleibt in diesen beiden Experimenten unklar, ob dies für Frauen und Männer gleichermaßen gilt. Shamon und Dülmer (2014) diskutieren diesen Aspekt und leiten die Hypothese her, dass den Männern aufgrund der geschlechtsspezifischen Arbeitsteilung ein höheres Einkommen zugestanden wird als den Frauen. In ihrem Vignettenexperiment, in dem sie Frauen und Männer, die mit einer nichterwerbstätigen Person verheiratet sind, verglichen, ließ sich die Hypothese jedoch nicht bestätigen.

In einer neuen Studie mit den deutschlandweiten Daten des Sozio-oekonomischen Panels (SOEP) zeigt sich hingegen ein sehr deutlicher Beleg für das „male breadwinner model“. Lang und Groß (2020) gelingt es zunächst, die Ergebnisse von Auspurg et al. (2017) zu replizieren. Darüber hinausgehend ist ihr Hauptergebnis, dass Vätern mit Kindern höhere Einkommen zugestanden werden als männlichen Verdienern ohne Kinder. Bei zwei Kindern beträgt der Einkommensbonus nach ihren Schätzungen 7 %, bei vier Kindern sogar 14 %. Auffallend ist, dass Frauen ein solcher Bonus nicht zugestanden wird. Der Breadwinner-Effekt sticht besonders in Westdeutschland hervor; im Osten ist er weniger stark ausgeprägt.

2.5 Unsere Studie

Wir gehen in einer Sequenz von drei aufeinander aufbauenden Vignettenexperimenten dem Einfluss von Geschlecht, Familie, Kindern und dem Zusammenspiel dieser Merkmale auf die Wahrnehmung gerechter Entlohnung nach. Ziel dieser drei Experimente ist, die Mechanismen, die für die Beurteilung eines gerechten Lohns relevant sind, besser zu verstehen. Dabei orientieren wir uns an der bestehenden Forschung und entwickeln diese auch weiter. Einerseits replizieren wir die bisherigen Ergebnisse bezüglich des „just gender pay gap“ und untersuchen ebenfalls, welche Rolle die weiter oben genannten Gerechtigkeitsprinzipien bei der Beurteilung eines gerechten Lohns spielen. Bisherige Studien haben das Zusammenspiel von Bedürftigkeit und Geschlecht weitgehend vernachlässigt. Die Arbeiten von Gatskova (2015) und Sauer et al. (2009) verwendeten zwar ebenfalls den Zivilstand als Proxy für Bedürftigkeit, doch sie untersuchten nicht, ob es diesbezüglich Unterschiede zwischen Frauen und Männern gibt. Diese Lücke möchten wir mit unserer Studie füllen.

Die drei Experimente bauen aufeinander auf, doch sie gehören nicht zu einem von Beginn an konsistent geplanten Forschungsprogramm. Aufgrund der Ergebnisse eines Experiments wurde jeweils das nachfolgende geplant. Aus diesem Grund liegen die drei Experimente zeitlich auch etwas weiter auseinander. In der vorliegenden Arbeit fassen wir nun abschließend die Ergebnisse aller drei Experimente zusammen und setzen sie zueinander in Bezug. Auch methodisch ist unsere kumulative Forschungsstrategie von Interesse. So können wir nach der Verwerfung einer Hypothese weiteren Faktoren nachgehen und damit genauer die Mechanismen klären, die die unterschiedlichen Bewertungen der Einkommen hervorrufen.

In Experiment 1 untersuchen wir erstens, ob es einen Unterschied im „gerechten“ Lohn für Frauen und Männer gibt. Zweitens interessiert uns, ob Prinzipien der Verteilungsgerechtigkeit, namentlich Verdienst und Bedürftigkeit, bei der Beurteilung eines gerechten Lohns zur Anwendung kommen. Dank des experimentellen Designs können wir Diskriminierung (im Sinne eines „just gender pay gap“) von anderen Ursachen, wie beispielsweise unterschiedliches Humankapital, isolieren; wir können jedoch nicht genau sagen, wie diese Diskriminierung zustande kommt. Die Leistung operationalisieren wir anhand des beruflichen Engagements der beschriebenen Person. Wie hoch die Bedürftigkeit ist, variieren wir durch die familiäre und finanzielle Situation.

In Experiment 2 versuchen wir, die Ergebnisse von Experiment 1 in Bezug auf die Relevanz des Geschlechts zu replizieren. Um weitere mögliche Einflussfaktoren, die mit der familiären Situation zusammenhängen könnten, zu kontrollieren, halten wir in diesem Experiment den Zivilstand konstant. Alle Vignettenpersonen werden als alleinstehend und ohne Kinder beschrieben. Zweitens und damit zusammenhängend interessiert uns, ob die horizontale Segregation einen Einfluss auf die Einkommensbewertung hat. Ist der „just gender pay gap“ in einem typischen Frauenberuf anders als in einem typischen Männerberuf?

Als Reaktion auf die Ergebnisse der beiden vorhergehenden Experimente überprüfen wir in Experiment 3, ob das Bedürftigkeitsprinzip in Zusammenhang mit der Spezialisierungs-Hypothese und den damit einhergehenden Rollenbildern für den „just gender pay gap“ verantwortlich sein könnte. Konkret geht es darum, zu untersuchen, ob sich das „gerechte“ Einkommen von Frauen und Männern nur dann unterscheidet, wenn Hinweise auf eine andere Person vorliegen, die möglicherweise zum Haushaltseinkommen beiträgt.

3 Daten und Methode

3.1 Datenerhebungen und experimentelle Designs

Die Daten von Experiment 1 stammen aus einer schriftlichen Befragung zum Thema „Ungleichheit und Gerechtigkeit“, die 2001 am Institut für Soziologie der Universität Bern durchgeführt wurde. Befragt wurden Personen einer Zufallsstichprobe der deutschschweizerischen Wohnbevölkerung im Alter von mindestens 18 Jahren (es handelte sich um eine einfache Wahrscheinlichkeitsauswahl von Haushalten aus dem Telefonverzeichnis; pro Haushalt wurde je eine zu befragende Zielperson anhand der Geburtstagsmethode bestimmt). Die Ausschöpfungsquote beträgt 34 % (531 gültige Interviews). Für detailliertere Informationen zu der Erhebung und den Daten siehe Jann (2001).

Der Fragebogen enthält eine Reihe von Fragen zu unterschiedlichen Aspekten von Ungleichheit und Gerechtigkeit. Enthalten ist zudem das genannte Vignettenexperiment. Dieses besteht darin, dass die Befragten eine Bewertung zu einer Vignette – also einer Beschreibung einer spezifischen Situation – abgeben. Eine Beispielvignette aus der Befragung ist in Abb. 1 dargestellt. Variiert wurden die Faktoren Geschlecht, Bedürftigkeit, und Leistung (s. Tab. 1 zu Ausprägungen und Wortlaut der Variationen). Die anderen in der Vignette angesprochenen Merkmale (Alter, Beruf, Einkommen) wurden konstant gehalten. Aus der Variation der drei Faktoren mit je zwei Ausprägungen (\(2\times 2\times 2\)-Design) ergaben sich acht verschiedene Vignetten, die den Befragten per Zufall zugewiesen wurden.

Abb. 1
figure 1

Beispiel einer Vignette aus Experiment 1

Tab. 1 Experimentelle Faktoren in Experiment 1

Die Daten von Experiment 2 stammen aus einer Kurzbefragung zum Thema „Lohnniveau in der Schweiz“, die im Jahr 2006 an der ETH Zürich realisiert wurde. Es handelte sich um eine postalische Befragung einer Zufallsstichprobe der deutschschweizerischen Wohnbevölkerung (371 gültige Interviews bei einer Ausschöpfungsquote von 41 %; wie bei Experiment 1 wurde eine Haushaltsstichprobe aus dem Telefonverzeichnis gezogen und die Befragungsperson per Geburtstagsmethode bestimmt). Das Vignettenexperiment hatte ein \(2\times 2\times 3\times 3\)-Design (36 Kombinationen) mit den in Tab. 2 dargestellten Faktoren (eine Beispielvignette findet sich in Abb. 2).

Tab. 2 Experimentelle Faktoren in Experiment 2
Abb. 2
figure 2

Beispiel einer Vignette aus Experiment 2

Experiment 3 wurde 2010 im Rahmen einer Panelbefragung zum Umweltsurvey 2007 der ETH Zürich durchgeführt. Befragt wurden Personen einer repräsentativen Zufallsstichprobe der Schweiz. Von den 2517 Personen der Bruttostichprobe (Teilnehmende der Erstbefragung, die für die Teilnahme am Panel angeschrieben wurden) nahmen 1945 Personen teil, was einem Rücklauf von 77 % entspricht (die Ausschöpfungsquote der Erstbefragung im Jahr 2007 betrug 52 %; für weitere Informationen zum Umweltsurvey 2007 und der Panelbefragung 2010 s. Diekmann et al. 2009; Diekmann et al. 2012). Wie in den vorangehenden beiden Befragungen wurden die Versuchspersonen u. a. gebeten, eine Vignette zu bewerten (s. Abb. 3 für eine Beispielvignette). Die Vignetten wurden anhand eines \(2\times 2\times 2\times 3\)-Designs (24 Kombinationen) bezüglich der in Tab. 3 dargestellten Dimensionen variiert.

Abb. 3
figure 3

Beispiel einer Vignette aus Experiment 3

Tab. 3 Experimentelle Faktoren in Experiment 3

In jedem der drei Experimente wurde den Befragten nach dem Zufallsprinzip jeweils eine Vignette zur Beurteilung zugewiesen (voll randomisiertes Design). Durch ein solches Vorgehen wird gewährleistet, dass die Vignettenfaktoren nicht mit den Eigenschaften der Befragten zusammenhängen und auch untereinander nicht korreliert sind. Die bivariaten Effekte der Vignettenfaktoren auf die Bewertung können also, abgesehen von Zufallsvariationen – und unter dem Vorbehalt, dass anders als in einem Laborexperiment nicht alle Rahmenbedingungen kontrolliert wurden –, als kausal interpretiert werden (es liegen keine Scheinkorrelationen vor; die Einflüsse sämtlicher Drittvariablen sind im Erwartungswert neutralisiert). Um Effekten sozialer Erwünschtheit entgegen zu wirken, wurde jeder Befragungsperson nur eine Vignette zur Bewertung vorgelegt („between subject design“). Würden mehrere Vignetten mit variierenden Ausprägungen präsentiert, hätten die Befragten die Möglichkeit, die Alternativen zu vergleichen und die Bewertungen mit einem sozial erwünschten oder politisch korrekten Antwortverhalten abzustimmen. Liegt jedoch nur eine Vignette vor, so ist für die befragten Personen unklar, welche Merkmale variiert werden (oder dass überhaupt etwas variiert wird), und die abgegebenen Bewertungen werden nicht durch Vergleichsprozesse beeinflusst. Damit wird dafür gesorgt, dass Effekte der sozialen Erwünschtheit weitgehend ausgeschlossen sind.Footnote 4

3.2 Analysestrategie

Alle drei Befragungen verwendeten ein Stichprobendesign, bei dem die Auswahlwahrscheinlichkeiten der Personen nicht konstant waren. Um deskriptive Aussagen über die Population zu treffen, wären bei den Analysen somit Gewichtungen notwendig. Da wir mit einem experimentellen Design arbeiten und es in erster Linie darum geht, die kausalen Strukturen aufzudecken – und die Generalisierung im Sinne repräsentativer deskriptiver Aussagen über die Population weniger im Vordergrund steht –, verzichten wir jedoch auf eine Gewichtung. Aus dem gleichen Grund verzichten wir auf eine Einschränkung der Stichprobe der dritten Befragung auf die Deutschschweiz und behalten die Fälle aus der französischen und italienischen Schweiz bei (die ersten beiden Befragungen beziehen sich nur auf die Deutschschweiz). Die Daten zu gewichten oder Fälle auszuschließen, würde die Effizienz der Schätzungen und somit die Wahrscheinlichkeit, bestehende Effekte zu finden, unnötig reduzieren. Gewichtete Resultate sowie Resultate unter Einschränkung auf die Deutschschweiz finden sich der Vollständigkeit halber im Online-Anhang. Die nachfolgend berichteten Zusammenhangsmuster bleiben erhalten, aber die Konfidenzintervalle sind erwartungsgemäß etwas größer.

Da die Experimente mit einem voll randomisierten Design durchgeführt wurden, liefern einfache Mittelwertsvergleiche zwischen den Ausprägungen der Faktoren erwartungstreue Schätzer der kausalen Effekte. Die Schätzer sind jedoch nicht unbedingt effizient. Um die Effizienz zu erhöhen und zufällige Abweichungen von einem balancierten Design auszugleichen, berichten wir nachfolgend durchschnittliche Vorhersagen („predictive margins“) von saturierten Regressionsmodellen, die alle experimentellen Faktoren sowie die Interaktionen zwischen den Faktoren simultan berücksichtigen.Footnote 5 Die Differenz dieser „predictive margins“ zwischen den zwei Ausprägungen eines dichotomen Faktors ist äquivalent zu einem Regression-Adjustment-SchätzerFootnote 6 des Treatment-Effekts des Faktors. Ergänzende Ergebnisse basierend auf einfachen Mittelwertsvergleichen finden sich im Online-Anhang; die durchschnittlichen Bewertungen für die verschiedenen Kombinationen der experimentellen Faktoren sind zudem in Tab. A1 in Online-Anhang aufgeführt.

Abhängige Variable in den Modellen ist jeweils die durch die Befragten angegebene Bewertung auf einer Skala von −5 („viel zu niedrig“) bis 5 („viel zu hoch“). Die Ergebnisse sind also bezüglich dieser Skala zu verstehen. Wurden etwa die männlichen Vignetten durchschnittlich niedriger bewertet als die weiblichen Vignetten, dann heißt das, dass das beschriebene Einkommen in der männlichen Vignette eher als zu niedrig eingeschätzt wurde. Dies bedeutet gleichzeitig, dass die männliche Vignette ein höheres Einkommen hätte aufweisen müssen als die weibliche Vignette, um eine vergleichbare Bewertung zu erzeugen.

Wie groß dieser zusätzliche Betrag für die Männer genau hätte sein müssen, bleibt zunächst unbestimmt. Für die Experimente 2 und 3 lässt er sich jedoch durch eine einfache Umrechnung abschätzen, da in diesen Experimenten neben den inhaltlich interessierenden Faktoren auch das Einkommen variiert wurde. Das Verfahren, das sich an indirekten Methoden zur Messung von Zahlungsbereitschaft (Breidert 2006) orientiert, ist denkbar einfach. Der Kehrwert des Effekts, den eine Veränderung des angegebenen Einkommens auf die Bewertung hat (d. h. der Kehrwert des Einkommenskoeffizienten im Regressionsmodell), kann als Quantifizierung des Frankenwerts einer Einheit auf der Bewertungsskala angesehen werden. Eine Differenz auf der Bewertungsskala lässt sich nun einfach mit diesem Kehrwert multiplizieren, um den entsprechenden Frankenbetrag zu erhalten.Footnote 7 Natürlich handelt es sich nur um eine Approximation, da z. B. angenommen wird, dass der Einkommenseffekt additiv ist und über die gesamte Skala gleich bleibt.Footnote 8

4 Resultate

4.1 Experiment 1

Abbildung 4 zeigt die durchschnittlichen Einkommensbewertungen in Abhängigkeit des Geschlechts der beschriebenen Person, im Total sowie aufgeschlüsselt nach Bedürftigkeit und Leistung. (Dargestellt sind, wie oben erläutert, durchschnittliche Vorhersagen aus einem Regressionsmodell unter Berücksichtigung von Interaktionseffekten.) Alle drei Kriterien – Geschlecht, Leistung und Bedürftigkeit – spielen bei der Beurteilung des Einkommens eine Rolle. Zudem scheint der Effekt des Geschlechts relativ unabhängig zu sein vom Leistungs- und Bedürftigkeitsniveau.

Abb. 4
figure 4

Einkommensbewertungen nach Geschlecht der beschriebenen Person in Experiment 1 („predictive margins“ sowie deren Differenzen, inkl. 95 %-Konfidenzintervalle; N = 529; bzw. 525 für die Resultate nach Geschlecht der Befragungsperson; numerische Werte s. Tab. A3 im Online-Anhang)

Auf der Skala von −5 („viel zu niedrig“) bis 5 („viel zu hoch“) erhalten Frauen den Wert −0,61. Ihr Vignetteneinkommen wird somit im Schnitt als etwas zu niedrig eingestuft. Die Vignetteneinkommen der Männer hingegen werden mit einem Durchschnittswert von −1,49 deutlicher als zu niedrig einstuft. Wenn sich Frauen und Männer in den angegebenen Merkmalen gleichen, wird für Frauen ein signifikant tieferes Einkommen als gerecht empfunden.

Das Einkommen von Personen, denen in den Vignetten eine hohe Leistung in Form von Engagement und Arbeitserfüllung zur Zufriedenheit des Arbeitgebers attestiert wurde, wird häufiger als zu niedrig eingestuft als dasjenige von Personen, deren Leistung zu wünschen übrig lässt. Die Mittelwertdifferenz (über beide Geschlechter; nicht dargestellt) von 1,80 ist groß und signifikant (\(p< 0,001\)). Leistung soll also belohnt werden. Ein ähnliches Bild zeigt sich bei der Bedürftigkeit. Diese wurde anhand von zwei unterschiedlichen Kriterien operationalisiert: Einerseits die familiäre Situation (alleinerziehend oder verheiratet ohne Kinder) und andererseits die effektiven finanziellen Bedürfnisse („kommt nur knapp über die Runden“ vs. „kennt keine finanziellen Sorgen“). Alleinerziehende, die sich in finanziell prekären Verhältnissen befinden, sollen mehr verdienen als Verheiratete ohne Kinder, die keine finanziellen Sorgen haben (Differenz über beide Geschlechter: 1,27, \(p< 0,001\)). Dadurch, dass diese beiden Kriterien – Kinder und finanzielle Sorgen – nicht auch separat variiert wurden, kann allerdings nicht festgestellt werden, ob bei der Beurteilung eines von beiden wichtiger ist, ob beide die gleiche Rolle spielen oder ob die Kombination von beiden ausschlaggebend ist. Ein Zusammenhang ist allerdings anzunehmen, denn es ist bekannt, dass die finanziellen Bedürfnisse von Familien mit Kindern höher sind als diejenigen von Menschen ohne Kinder. Zudem sind Alleinerziehende überdurchschnittlich oft von Armut betroffen und auf Sozialhilfe angewiesen (Amacker et al. 2015). Zusammengefasst zeigen unsere Analysen, dass beide Kriterien der Verteilungsgerechtigkeit, also Leistung und Bedürftigkeit, bei der Beurteilung eines gerechten Einkommens relevant sind.

Als nächstes gehen wir der Frage nach, wie die verschiedenen Kriterien der Verteilungsgerechtigkeit mit dem askriptiven Merkmal Geschlecht in Verbindung gebracht werden können. Kann der Geschlechterunterschied mit einem der anderen Kriterien erklärt werden? In den Vignetten wurden Leistung, Bedürftigkeit und Geschlecht randomisiert. Das heißt die Leistung und Bedürftigkeit der Frauen unterscheidet sich im Experiment per Design nicht systematisch von derjenigen der Männer. Somit ist der Geschlechterunterschied nicht auf ein unterschiedliches Leistungs- oder Bedürftigkeitsniveau zurückzuführen. Von Interesse ist jedoch auch die Frage, ob Leistung und Bedürftigkeit für beide Geschlechter gleich bewertet werden oder ob das Leistungs- und das Bedürftigkeitsprinzip bei den beiden Geschlechtern unterschiedlich zur Anwendung kommen. In Abb. 4 ist ersichtlich, dass Frauen und Männer bei gleicher Leistung unterschiedlich bewertet wurden (die Mittelwerte unterscheiden sich signifikant) und dass diese Differenz bei niedriger Leistung tendenziell etwas größer ist als bei hoher. Bei Frauen ist der Wert bei niedriger Leistung positiv, was dahingehend zu interpretieren ist, dass ihr Einkommen im Schnitt als zu hoch beurteilt wurde. Bei Männern hingegen ist dies nicht der Fall. Ihr Einkommen wird auch bei geringer Leistung als eher zu niedrig eingestuft. Es gibt also eine leichte Tendenz, Leistung von Frauen und Männern nicht gleich zu beurteilen. Allerdings sind die Unterschiede gering und die entsprechenden Differenzen nicht signifikant (\(p=0,46\)). Wie sieht es bezüglich des Bedürftigkeitsprinzips aus? Auch wenn es sich bei der Bedürftigkeit um etwas anderes handelt als bei der Leistung, fallen die Resultate vergleichbar aus. Besteht eine hohe Bedürftigkeit, wird das Vignetteneinkommen der Männer signifikant deutlicher als zu niedrig bewertet als dasjenige der Frauen, welches ebenfalls als zu niedrig eingeschätzt wird. Alleinerziehende Männer in knappen finanziellen Verhältnissen sollen also mehr verdienen als vergleichbare alleinerziehende Frauen. Bei geringer Bedürftigkeit, also bei Verheirateten ohne Kinder, wird das Einkommen der Frauen, im Gegenteil zu dem der Männer, als etwas zu hoch eingeschätzt (Abb. 4). Die Differenz zwischen verheirateten Frauen und Männern ist etwas größer als diejenige zwischen Alleinstehenden. Ein Grund für diese Tendenz könnte die in unserer Gesellschaft weiterhin vorherrschende geschlechtsspezifische Rollenteilung sein, bei der Männer mehr zum Haushaltseinkommen beitragen und Frauen sich hauptsächlich um den Haushalt und die Kinder kümmern, woraus ein höherer Einkommensbedarf des Mannes abgeleitet werden kann. Die Differenz befindet sich jedoch in einer ähnlichen Größenordnung wie bei der Leistung und ist ebenfalls nicht signifikant (\(p=0,35\)).

In Abb. 4 ist weiterhin der Einfluss des Geschlechts der Versuchsperson dargestellt. Im Total ist der Effekt des Geschlechts der Versuchsperson fast null und nicht signifikant (\(p=0,71\)), was bedeutet, dass Frauen und Männer die Vignetten insgesamt nicht verschieden beurteilten (nicht dargestellt). Es könnte jedoch sein, dass jeweils das eigene Geschlecht bevorzugt wird. Deshalb ist in der Abbildung der Effekt des Vignettengeschlechts getrennt nach Geschlecht der Versuchsperson ausgewiesen. Die männlichen Versuchspersonen haben tendenziell die Differenz zwischen Frauen und Männern etwas stärker betont als die weiblichen Versuchspersonen, die Differenz ist aber nicht statistisch signifikant (\(p=0,28\)). Tatsächlich ist es so, dass auch Frauen den Männern in den Vignetten ein höheres Einkommen zugestanden haben als den Frauen. Der Effekt des Geschlechts der Vignette ist für Männer (\(p< 0,001\)) wie auch für Frauen (\(p< 0,007\)) signifikant.

Die verschiedenen Analysen haben gezeigt, dass das Geschlecht der Vignette und die beiden Kriterien der Verteilungsgerechtigkeit – Verdienst und Bedürftigkeit – eine entscheidende Rolle spielen bei der Beurteilung, ob ein bestimmtes Einkommen als gerecht empfunden wird. Das Hauptresultat von Experiment 1 ist ohne Zweifel, dass Frauen unter sonst gleichen Umständen weniger Einkommen zugestanden wird als Männern – und zwar von beiden Geschlechtern! Dieses Resultat ist bemerkenswert, würde man in einer aufgeklärten und nach meritokratischen Prinzipien organisierten Gesellschaft doch erwarten, dass das Geschlecht bei der Einkommensbewertung keine Rolle spielt. Entgegen dieser Erwartung scheinen die Befragten die Situationen von Frauen und Männern jedoch – zumindest unbewusst – mit unterschiedlichen Maßstäben zu bewerten.

Das Experiment liefert allerdings keine Erklärung dafür, warum ein solcher Unterschied gemacht wird. Weiterhin wurden beim Bedürftigkeitskriterium zwei unterschiedliche Dimensionen vermischt. Es ist deshalb nicht möglich, zu beurteilen, ob die familiäre oder eher die finanzielle Situation für die Versuchspersonen für den Effekt der Bedürftigkeit entscheidend war.

4.2 Experiment 2

Die Resultate des Experiments sind in Abb. 5 dargestellt (wiederum durchschnittliche Vorhersagen unter Berücksichtigung von Interaktionen). Da das Einkommen in der Vignette variiert wurde, lassen sich die Ergebnisse auch zu Frankenbeträgen umrechnen; diese Resultate finden sich in Abb. A1 im Online-Anhang. Im Gegensatz zu Experiment 1 spielt das Geschlecht bei der Bewertung der Einkommen in Experiment 2 keine Rolle. Das in der Vignette angegebene Einkommen wurde bei Frauen und Männern gleichermaßen im Durchschnitt als etwas zu niedrig bewertet. Die befragten Personen haben also keine diskriminierenden Präferenzen gegenüber Frauen geäußert. Auch aufgeschlüsselt nach Berufen und nach Nationalität (Ismailovic vs. Walter) lassen sich keine substanziellen Unterschiede zwischen der Bewertung der weiblichen und der männlichen Vignette feststellen. Weiterhin hat auch das Geschlecht der Versuchsperson keinen Einfluss; d. h. Frauen wie auch Männer haben keinen Unterschied gemacht zwischen der Bewertung der weiblichen und der männlichen Vignette.

Abb. 5
figure 5

Einkommensbewertungen nach Geschlecht der beschriebenen Person in Experiment 2 („predictive margins“ sowie deren Differenzen, inkl. 95 %-Konfidenzintervalle; N = 365; bzw. 364 für die Resultate nach Geschlecht der Befragungsperson; numerische Werte s. Tab. A4 im Online-Anhang)

In Experiment 2 finden wir also überraschenderweise keinen geschlechtsspezifischen Unterschied bei der Einkommensbewertung der Vignetten, obwohl das Studiendesign sehr ähnlich war wie das von Experiment 1. Wie lässt sich diese Diskrepanz erklären? In beiden Studien wurden die Personen einer Zufallsstichprobe der Deutschschweizer Bevölkerung befragt, womit wir ausschließen können, dass es sich um Resultate für grundsätzlich verschiedene Populationen handelt. Auch gehen wir nicht davon aus, dass den unterschiedlichen Ergebnissen fundamentale Veränderungen in den Einstellungen zu Geschlechtergerechtigkeit zugrunde liegen; dafür ist der Zeitraum von 2001–2006 zu kurz.

Allerdings könnte der Familienkontext in der Vignette eine Rolle gespielt haben. In Experiment 2 sind alle Frauen und Männer in den Vignetten alleinstehend und kinderlos. In Experiment 1 waren sie entweder alleinerziehend und in einer prekären finanziellen Situation oder kinderlos verheiratet und ohne finanzielle Sorgen.

Unter Umständen liegt in diesem Designunterschied der Grund für die sich widersprechenden Ergebnisse. Falls dem so wäre, würde dies gleichzeitig Hinweise für die Erklärung des in Experiment 1 gefundenen Geschlechtereffekts liefern. So kann vermutet werden, dass bei der Bewertung des Einkommens die Befragten berücksichtigen, ob es Hinweise auf eine weitere Person gibt, die zum Haushaltseinkommen beiträgt. Ein Beitrag einer weiteren Person ist bei Verheirateten wie auch bei Alleinerziehenden (Alimente) wahrscheinlicher als bei Alleinstehenden. In Übereinstimmung mit den vorherrschenden Geschlechterrollen in der Gesellschaft gehen die Befragten von einem größeren Beitrag aus, wenn diese weitere Person ein Mann ist. Das heißt in Experiment 1 wird implizit eine zusätzliche Einkommenskomponente dazu gedacht, die sich je nach Geschlecht der Person in der Vignette unterscheidet. Wenn dies zutrifft, würden wir bei Experiment 1 einen Geschlechtereffekt erwarten, nicht jedoch bei Experiment 2. Um diese Hypothese zu testen, haben wir ein drittes Experiment durchgeführt.

4.3 Experiment 3

Beim dritten Experiment wurden die Dimensionen Geschlecht, Leistung und Zivilstand experimentell variiert. Die Resultate finden sich in Abb. 6 und – umgerechnet zu Frankenbeträgen – in Abb. A2 im Online-Anhang. Die drei Dimensionen unterscheiden sich in den Mittelwertvergleichen jeweils signifikant. Im Mittel werden alle Einkommen als etwas zu hoch bewertet. Für Frauen wird, wie in Experiment 1, ein deutlich niedrigeres Einkommen als gerecht empfunden als für Männer (\(p< 0,001\); der Einkommensunterschied entspricht im Mittel etwa 280 Franken pro Monat). Erwartungsgemäß hat auch die Leistung einen großen Einfluss auf die Bewertung des Vignetteneinkommens. Bei niedriger Leistung wird das Einkommen deutlicher als zu hoch beurteilt (\(p< 0,001\); der Unterschied beträgt etwa 660 Franken). Weiterhin wird das Einkommen von Alleinstehenden eher als zu hoch beurteilt als dasjenige von Verheirateten (\(p=0,008\); im Schnitt beträgt der Unterschied etwa 170 Franken).

Abb. 6
figure 6

Einkommensbewertungen nach Geschlecht der beschriebenen Person in Experiment 3 („predictive margins“ sowie deren Differenzen, inkl. 95 %-Konfidenzintervalle; N = 1912; numerische Werte s. Tab. A6 im Online-Anhang)

In einem weiteren Schritt interessiert uns, ob der Geschlechtereffekt mit der Leistung und dem Zivilstand zusammenhängt. Zwischen dem Geschlecht und der Leistung finden wir – übereinstimmend mit den Ergebnissen von Experiment 1 – keinen Interaktionseffekt. Das heißt bei niedriger wie auch bei hoher Leistung wird das Einkommen der Männer weniger stark als zu hoch bewertet als das Einkommen der Frauen (\(p=0,005\) bzw. \(p=0,001\)). Leistung wird demnach bei beiden Geschlechtern ähnlich bewertet. Bezüglich des Zivilstands finden wir allerdings in Einklang mit unserer Hypothese eine signifikante Differenz. Der Effekt des Zivilstands hat also eine geschlechtsspezifische Komponente: Verheiratete Männer sollen gemäß den Befragten mehr verdienen als alleinstehende. Für Frauen gibt es jedoch keine solche „Heiratsprämie“. Anders formuliert machen die Befragten keinen Unterschied zwischen der männlichen und der weiblichen Vignette, wenn es sich um Alleinstehende handelt (\(p=0,141\)). Geht es jedoch um Verheiratete, wird den Männern ein höheres Einkommen als den Frauen zugestanden (\(p< 0,001\)). Diese Differenz im Geschlechtereffekt nach Zivilstand ist signifikant mit einem \(p\)-Wert von 0,017. Die Resultate passen gut zur Hypothese, dass es vom Familienkontext abhängt, ob ein Unterschied zwischen den Geschlechtern gemacht wird. Alleinstehende Frauen ohne Kinder werden nicht benachteiligt, verheiratete Frauen aber schon. Allerdings scheint die Vermutung, dass das Einkommen des Partners bei der Bewertung „dazu gedacht“ wird, falsch zu sein, da für Frauen die Einkommensbewertungen unabhängig vom Zivilstand sind. Ein Unterschied ist vielmehr bei den Männern festzustellen: Verheiratete Männer sollen gemäß Einschätzung der Befragten etwa 300 Franken mehr Einkommen erhalten als alleinstehende Männer. Dies steht in Einklang mit dem traditionellen Rollenbild des Mannes als Haupternährer.

Ähnlich wie bei den Experimenten 1 und 2 finden wir auch in Experiment 3 keinen systematischen Einfluss des Geschlechts der befragten Person. Das Resultat, dass die Einkommensbewertungen nicht vom Geschlecht der Versuchsperson abhängen, erweist sich somit als robust.

4.4 Effekte von Personenmerkmalen auf den „just gender pay gap“

In den bisherigen Analysen haben wir jeweils geprüft, ob das Geschlecht der Versuchsperson einen Einfluss darauf hat, inwieweit das Einkommen von Frauen und Männern unterschiedlich bewertet wird. In allen drei Experimenten fanden sich keine Hinweise auf einen solchen Effekt. In Tab. 4 sind die Resultate nochmals zusammengetragen. Zudem gibt die Tabelle Aufschluss über die Effekte einiger weiterer Personenmerkmale. Dargestellt ist jeweils der totale Effekt des entsprechenden Personenmerkmals auf den Unterschied in der Bewertung des Einkommens von Frauen und Männern (also unter Berücksichtigung der Vignettenfaktoren und deren Interaktionen, aber jeweils ohne Kontrolle der anderen Personenmerkmale). Anzumerken ist, dass es sich hierbei um explorative Analysen handelt, denen kein experimentelles Design zugrunde liegt (d. h. wenn ein Unterschied gefunden wird, heißt das nicht zwingend, dass der Unterschied ursächlich auf das entsprechende Personenmerkmal zurückzuführen ist; der Zusammenhang könnte auch durch eine nicht beobachtete Drittvariable erzeugt worden sein).

Tab. 4 Effekte von Personenmerkmalen auf den „just gender pay gap“

Aufgrund der zunehmenden Gleichstellungsbestrebungen im Zuge des Modernisierungsprozesses der vergangenen fünf Jahrzehnte könnte man von einem über die Geburtskohorten vermittelten Wertewandel ausgehen. Aus dieser Überlegung ließe sich ein entsprechender Effekt des Alters der Versuchspersonen ableiten. Tatsächlich ist der Alterseffekt in allen drei Experimenten positiv, d. h. ältere Personen machen in ihren Bewertungen tendenziell einen etwas größeren Unterschied zwischen Frauen und Männern, der Effekt ist jedoch nur schwach ausgeprägt und in keinem der Experimente signifikant (\(p\)-Werte von 0,35, 0,84 und 0,12). Eine weitere Hypothese wäre, dass über Bildung vermittelte Aufklärung zu einer Reduktion der geschlechtsspezifischen Unterschiede in den Bewertungen führt. In Übereinstimmung mit dieser Hypothese ist der Bildungseffekt in allen drei Experimenten negativ, und in zwei Experimenten ist der Effekt auch statistisch signifikant (\(p\)-Werte von 0,013, 0,042, und 0,18). Bezüglich des Einkommens der Versuchsperson (äquivalenzskaliertes Haushaltseinkommen) zeigt sich zwar ein Ankereffekt (d. h. Personen mit hohem Einkommen bewerten das Einkommen in der Vignette eher als zu niedrig; nicht dargestellt), der „just gender pay gap“ scheint jedoch nicht mit dem Einkommen zusammenzuhängen. Als letzten Faktor prüfen wir den Einfluss der politischen Einstellung der Versuchspersonen. Aufgrund der stärkeren Orientierung an traditionellen Rollenbildern könnte vermutet werden, dass politisch eher rechts eingestellte Personen einen größeren geschlechtsspezifischen Unterschied in den Einkommensbewertungen machen. Der Effekt kann nur in den ersten beiden Experimenten ermittelt werden, da in der dritten Studie die politische Orientierung nicht erhoben wurde. In beiden Experimenten ist der Effekt erwartungsgemäß positiv, jedoch nur im ersten Experiment statistisch signifikant (\(p\)-Werte von 0,031 und 0,57).

Insgesamt finden wir in diesen explorativen Analysen nur schwache Hinweise darauf, dass von den Personenmerkmalen Alter, Bildung und Einkommen substanzielle systematische Einflüsse auf den „just gender pay gap“ ausgehen.

5 Diskussion und Schlussfolgerungen

In den drei präsentierten Experimenten ging es darum, Mechanismen aufzudecken, die potenziell für denjenigen Teil der Lohnlücke zwischen Frauen und Männern verantwortlich sein können, der sich mit herkömmlichen statistischen Analysen kaum untersuchen lässt (meist „unerklärter Anteil“ oder „Diskriminierungseffekt“ genannt). Wir fragten uns, ob Frauen weniger verdienen, weil niedrigere Frauenlöhne als gerecht empfunden werden. Allerdings könnte es auch anders herum sein: In dem Fall würden sich die Befragten bei den Bewertungen der Männer- und Frauenlöhne am tatsächlichen Lohnunterschied orientieren und die ungleiche Bewertung wäre eine Folge der Lohnungleichheit und nicht deren Ursache.

In Experiment 1 zeigten wir, dass die Einkommen von Frauen und Männern bei gleicher Leistung oder Bedürftigkeit ungleich bewertet werden. Im Umkehrschluss bedeutet dies, dass die Befragten niedrigere Frauenlöhne als gerechtfertigt einschätzten. Der Zivilstand aller beschriebenen Personen war entweder verheiratet oder alleinerziehend. Sowohl Leistung als auch Bedürftigkeit rechtfertigten in den Augen der Befragten höhere Einkommen. Im zweiten Experiment wurde der Zivilstand konstant gehalten und alle Vignettenpersonen als alleinstehend und ohne Kinder beschrieben. Außerdem wurden der Beruf und der Name variiert (Ismailovic vs. Walter). Weder hatten der Beruf und ein ausländisch klingender Name noch das Geschlecht einen Effekt auf den „pay gap“. Alleinstehende Frauen wurden also gegenüber alleinstehenden Männern nicht benachteiligt und auch der Name und Beruf spielten dabei keine Rolle.

Wie kommen die unterschiedlichen Ergebnisse in Experiment 1 und Experiment 2 zustande? In einem dritten Experiment wurde explizit ein möglicher Einfluss des Zivilstands auf den „just gender pay gap“ berücksichtigt. Sehr klar zeigt sich, dass die Zivilstands-Hypothese durch die Daten gestützt wird. Verheirateten Männern wird bei gleicher Leistung ein höheres Einkommen zugestanden als ledigen Männern und Frauen; bei verheirateten und ledigen Frauen gibt es dagegen keinen Unterschied. Der „just gender pay gap“ ist in den Augen der Bevölkerung an das Merkmal „verheiratet“ gebunden. Verheirateten Männern wird quasi eine „Heiratsprämie“ zugestanden. Interessant ist hier auch der Vergleich mit der Vignettenstudie von Lang und Groß (2020). Bei den deutschen Daten wird der „Male-Breadwinner-Effekt“ erst bei Vätern sichtbar, wobei der Einkommensbonus mit der Kinderzahl steigt. Unsere Schweizer Studie stellt dagegen bereits einen Einkommensbonus der Männer fest, wenn diese „nur“ kinderlos verheiratet sind. Übereinstimmend zeigt sich, dass die Bewertungen unabhängig vom Geschlecht der Befragten sind. Auch Frauen gestehen den Männern einen Heiratsbonus zu, nicht aber ihrem eigenen Geschlecht. Offenbar besteht ein geschlechtsübergreifender Wertekonsens bei der Zumessung „gerechter“ Einkommen, der ein Aufbrechen von Diskriminierung erschwert.

Weiter haben wir untersucht, welche Rolle die Prinzipien der Verteilungsgerechtigkeit in Kombination mit dem askriptiven Merkmal des Geschlechts bei der Einkommensbewertung spielen. Wie diese Aspekte zusammenhängen, wurde bisher kaum erforscht. Die meisten theoretischen Diskussionen erwähnen zwar, dass nebst den drei Kriterien Gleichheit, Verdienst und Bedürftigkeit auch askriptive Merkmale eine Rolle spielen können, sagen aber weder weshalb noch wie dies mit den jeweils diskutierten Gerechtigkeitsprinzipien vereinbar ist (oder eben nicht). Ähnlich verhält es sich in den empirischen Untersuchungen, die die verschiedenen Kriterien weitgehend separat testen. Die beiden Konzepte der Verteilungsgerechtigkeit, Verdienst und Bedürftigkeit, sind aber aus einer gendersensiblen Perspektive problematisch: Das Verdienstkriterium berücksichtigt nicht, dass Frauen und Männer unterschiedliche Voraussetzungen haben können, die gleiche Leistung zu erbringen. Der Umstand, dass Frauen neben der Erwerbsarbeit oft auch noch die Hauptverantwortung für Haushalt und Kinder tragen, hat einen Einfluss auf ihre Verfügbarkeit auf dem Arbeitsmarkt. Dies zeigt sich vor allem in der unter Frauen weit verbreiteten Teilzeitarbeit. Hingegen ist davon auszugehen, dass sich die effektiv geleistete Arbeit in der Qualität nicht von der Arbeit der Männer unterscheidet. Es kommt also darauf an, woran der Verdienst geknüpft wird. In Betriebskulturen, in denen der sogenannte „Präsentismus“ hoch geschätzt wird, haben Frauen, die um 17 Uhr ihre Kinder von der Krippe abholen müssen, einen klaren Nachteil im „Wettbewerb“ darum, wer abends am Arbeitsplatz zuletzt das Licht löscht (vgl. Goldin 2014). Gerade für den beruflichen Aufstieg sind lange Präsenzzeiten und hohe Flexibilität immer noch sehr wichtig. Aufgrund der nach wie vor relativ traditionellen Rollenteilung, bei der die Männer mehr zum Haushaltseinkommen beitragen und die Frauen den größeren Teil der Hausarbeit und Kindererziehung erledigen, ist auch das Bedürftigkeitsprinzip asymmetrisch. Dieser Tatsache wird weder in den theoretischen Diskussionen noch bei empirischen Anwendungen genügend Rechnung getragen. Mit dem dritten Experiment haben wir hierzu einen Beitrag geleistet. Der Zivilstand und die mit diesem konnotierte Bedürftigkeit ist eine Schlüsselvariable bei der Bewertung der Einkommensgerechtigkeit. Zwar erhalten Ehefrauen keinen „Heiratsmalus“, aber deutlich ausgeprägt wird Ehemännern ein „Heiratsbonus“ zugestanden. Ebenso wie bei den realen Einkommen öffnet sich eine „Bewertungsschere“, die die reale Diskrepanz legitimiert und verstärkt.