1 Einleitung

Deutschland hat seit Langem einen der höchsten Gender Pay Gaps (GPG) in Europa. Aktuell liegt die durchschnittliche Verdienstlücke zwischen den Stundenlöhnen von Männern und Frauen bei 18 % (Destatis 2021). Die Ursachen für die Verdienstnachteile von Frauen sind vielfältig. Mittels statistischer Analysen wurden bislang insbesondere die vertikalen und horizontalen Segregationslinien am Arbeitsmarkt, der geringere Beschäftigungsumfang sowie die diskontinuierlicheren Erwerbsverläufe von Frauen im Vergleich zu Männern als Erklärungsfaktoren identifiziert (z. B. Finke 2010; Finke et al. 2017; Boll und Leppin 2015; Schmidt 2016).

Häufig wird im Rahmen dieser Ursachenanalysen auch der sogenannte bereinigte Gender Pay Gap berechnet, den auch das Statistische Bundesamt seit einiger Zeit regelmäßig ausweist (zuletzt Mischler 2021). Dabei wird die Verdienstlücke zwischen Frauen und Männern mithilfe von Dekompositionsanalysen in verschiedene Komponenten (einen erklärten und einen nicht erklärten Anteil) zerlegt. Der erklärte Anteil umfasst den Teil des Gender Pay Gaps, der auf die Faktoren zurückgeführt werden kann, die in dem statistischen Modell als erklärende Variablen berücksichtigt worden sind. Die Auswahl der Faktoren basiert insbesondere auf produktivitäts- oder humankapitaltheoretischen Überlegungen und empirischen Erkenntnissen, die diese Faktoren bereits als verdienstrelevant identifiziert haben. Der nicht erklärte Teil, auch als bereinigter Gender Pay Gap bezeichnet, beträgt in Deutschland nach Berechnungen des Statistischen Bundesamtes 6 % (Destatis 2021) und drückt die Verdienstnachteile von Frauen aus, die nicht auf die berücksichtigten Faktoren zurückzuführen sind. Nach Oaxaca (1973) und Blinder (1973), die diese Form der Dekompositionsanalyse vor dem Hintergrund humankapitaltheoretischer Überlegungen zur Identifizierung von Lohndiskriminierungen entwickelt haben, drückt sich in dem bereinigten Wert (englisch „adjusted“) das Maß an Diskriminierungen aufgrund des Geschlechts aus (Oaxaca 1973; Blinder 1973). Aus dieser Perspektive erklärt sich auch, warum mitunter nur der sogenannte bereinigte Wert als die gleichstellungspolitisch relevante Größe betrachtet wird (so bei Schmidt 2016).

Dabei wird allerdings verkannt, dass die zur Bereinigung herangezogenen Faktoren selbst nicht diskriminierungsfrei sein müssen. So mahnen Boll und Leppin: „Nicht alles, was erklärt wird, ist frei von potenzieller Diskriminierung: Frauen und Männer haben im Zugang zu lohnrelevanten Jobattributen zum Teil unterschiedliche Zugangschancen. Zum anderen sind Statistiken nicht in der Lage, alle für die Lohnlücke relevanten Sachverhalte zu erfassen. Hier sind vor allem die Verfahren der Arbeitsbewertung zu nennen“ (Boll und Leppin 2015, S. 254).

Die Verfahren der Arbeitsbewertung finden ihren Niederschlag in Tarifverträgen oder betrieblichen Vereinbarungen und sind für einen Großteil der Verdienste in Deutschland relevant (Brenzel et al. 2013). Der Begriff der Arbeitsbewertung umfasst die „Erfassung und Messung der feststellbaren Unterschiede in der Arbeitsschwierigkeit, die durch die verschiedenen Anforderungen an einzelnen Arbeitsplätzen bzw. bei einzelnen Arbeitsvorgängen entstehen“ (Bartscher 2018). Dabei dient die festgestellte „Arbeitsschwierigkeit“ der Entgeltdifferenzierung.Footnote 1 Implizit dürfte die Logik der Arbeitsbewertung auch zahlreichen Verdiensten zugrunde liegen, die nicht explizit über ein tarifliches Entgeltsystem geregelt werden. So zeigt sich, dass sich die Entlohnung vieler Beschäftigter, für die kein Tarifvertrag gilt, dennoch an bestehenden Branchentarifverträgen orientiert (40 %; Ellguth und Kohaut 2021, S. 308).

Darüber hinaus dürfte die zentrale Idee der Arbeitsbewertung, d. h. der Grundsatz einer gerechten Entlohnung durch die Verknüpfung mit den beruflichen Anforderungen, auch gesellschaftlich anerkannt sein. Da die Arbeitsbewertung somit einerseits ein prägender Faktor der Verdienststruktur ist sowie andererseits einen gesellschaftlich anerkannten Maßstab der gerechten Entlohnung darstellt, offenbaren die bisherigen Analysen des Gender Pay Gaps eine entscheidende Forschungslücke. Denn dort spielt, wie auch Boll und Leppin (2015) feststellen, die Arbeitsbewertung bislang keine Rolle. Der vorliegende Aufsatz soll zur Schließung dieser Lücke beitragen und den aufgedeckten blinden Fleck der bisherigen Analysen erhellen.Footnote 2 Darüber hinaus sind weitere Erkenntnisse in diesem Bereich gleichstellungs- und gesellschaftspolitisch geboten. Acker (1989) geht davon aus, dass der Gender Pay Gap auch durch evaluative Diskriminierungen (Petersen und Morgan 1995; Petersen und Saporta 2004; England et al. 2000; Liebeskind 2004) und eine nicht geschlechtsneutrale Arbeitsbewertung hervorgerufen wird. Evaluative Diskriminierungen liegen vor, wenn die Bewertung von Erwerbsarbeit sich je nachdem unterscheidet, ob die Tätigkeitsinhalte Frauen oder Männern zugeschrieben werden (Liebeskind 2004) oder bezahlte Arbeit geschlechterdifferent bewertet und entlohnt wird (Gartner und Hinz 2009). Für einzelne Berufsfelder ist im Rahmen qualitativer Analysen nachgewiesen worden, dass die Arbeit von Frauen systematisch schlechter bewertet wird (Krell et al. 2001; Stefaniak et al. 2002; Carl und Krehnke 2004), indem diskriminierungsanfällige Arbeitsbewertungsverfahren zur Anwendung kommen, die beispielsweise für Frauentätigkeiten typische Anforderungen und Belastungen (z. B. im psychosozialen Bereich oder im Bereich der Verantwortungsübernahme für das Wohlergehen anderer Menschen) außer Acht lassen.

Doch welchen quantitativen Anteil hat die Arbeitsbewertung aktuell am Gender Pay Gap? Welche Rolle spielen evaluative Diskriminierungen, die sich in einer geringeren Bewertung der beruflichen Anforderungen und Belastungen von Frauen ausdrücken? Diese Fragen lassen sich mithilfe der bisherigen Dekompositionsanalysen nicht beantworten. Das liegt insbesondere daran, dass für die Erfassung des beruflichen Anforderungsniveaus allein die gegenwärtigen Bewertungen oder Verdienstniveaus der Berufe in einer Branche über die von der Statistik ausgewiesenen fünf Leistungsgruppen verwendet werden. An diesem Vorgehen ist zum einen problematisch, dass die Leistungsgruppen relativ undifferenziert sind. Zudem können sowohl die bestehenden berufs- und branchenspezifischen Verdienstniveaus als auch die zugewiesenen Leistungsgruppen vermeintliche Ungleichheiten aufgrund des Geschlechts reproduzieren. Sie sind dementsprechend nicht geeignet, evaluative Diskriminierungen aufzudecken. Vielmehr können durch dieses Vorgehen evaluative Diskriminierungen unsichtbar und unter dem Deckmantel der scheinbaren Objektivität legitimiert werden, wie in Abschn. 3 erläutert wird.

Ein statistisches Instrument, das die beruflichen Anforderungen und Belastungen geschlechtsneutral erfasst, liegt erst seit Kurzem mit dem von den Autorinnen entwickelten „Comparable Worth Index“ – kurz „CW-Index“ – (Klammer et al. 2018) vor. Der Begriff Comparable Worth steht für eine Debatte, in der die Abwertung weiblicher Erwerbsarbeit vor dem Hintergrund evaluativer Diskriminierungen diskutiert wird (z. B. Acker 1989). Der neu entwickelte CW-Index wurde für die Analysen verwendet, die in diesem Artikel vorgestellt werden.

Im Folgenden wird zunächst der gegenwärtige Stand der Forschung zu evaluativer Diskriminierung und zur Rolle einer geschlechtersensiblen Arbeitsbewertung für den Gender Pay Gap dargestellt (Abschn. 2). Abschnitt 3 behandelt die methodische Vorgehensweise unserer Analysen. Das Vorgehen bei der Konstruktion des CW-Index wird vorgestellt, die verwendeten Daten der Verdienststrukturerhebung 2018 und die angewandte Dekompositionsanalyse nach Oaxaca und Blinder werden erläutert. Abschließend werden die Ergebnisse der Analyse präsentiert (Abschn. 3) und diskutiert (Abschn. 4).

2 „Evaluative Diskriminierung“ und die Rolle der Arbeitsbewertung für den Gender Pay Gap

Der Begriff der evaluativen Diskriminierung wird zentral im Zusammenhang mit der Devaluationshypothese (z. B. England 1992) diskutiert. Dieser These liegt die Annahme einer systematischen Unterbewertung und Unterbezahlung (kurz: Abwertung) weiblicher Erwerbsarbeit zugrunde (Tondorf und Jochmann-Döll 2011, S. 117). „By ‚systematic undervaluation‘ we mean that the wages paid to women and men engaged in historically female or minority work are artificially depressed relative to what those wages would be if these jobs were being performed by white males“ (Steinberg 1984, S. 4). Solche Formen der generellen Abwertung weiblicher Arbeit beruhen theoriegemäß auf diskriminierenden Praktiken am Arbeitsmarkt, die auf der historisch gewachsenen und tief verwurzelten Hierarchie der Geschlechter fußen. Diese werden in Anlehnung an Petersen und Morgan (1995; vgl. auch Petersen und Saporta 2004) als evaluative Diskriminierungen bezeichnet (z. B. England et al. 2000, Liebeskind 2004) und als Folge des „doing gender“ (West und Zimmerman 1987) betrachtet.

Im alltäglichen Interaktionsgeschehen des Doing Gender werden den theoretischen Überlegungen zufolge Unterschiede zwischen den Geschlechtern sozial konstruiert (Gildemeister 2004) und reproduziert. Grundlegend ist dabei die Annahme, dass eine erfolgreiche Kommunikation mit anderen überhaupt erst möglich wird durch Typisierungen und Klassifikationen, das heißt durch Vereinfachungen, die den Interaktionspartnern helfen, sich gegenseitig einzuordnen und die Situation vorzustrukturieren. Ein zentrales Ordnungskriterium ist dabei die Zweigeschlechtlichkeit. „Im Prozess der geschlechtlichen Kategorisierung wird das jeweilige Gegenüber als männlich oder weiblich klassifiziert und mit bestimmten Eigenschaften oder Handlungsmustern in Verbindung gebracht“ (Achatz et al. 2010, S. 104). Geschlechterstereotype spielen hier eine wesentliche Rolle.

Grundsätzlich lassen sich drei unterschiedliche Dimensionen geschlechtsspezifischer Stereotype benennen: „Geschlechterstereotype sind deskriptiv (beschreibend: so sind Männer, so sind Frauen), sie sind präskriptiv (normativ vorschreibend: so sollen Männer sein, so sollen Frauen sein) und sie sind evaluativ (wertend: wer und was ist wichtig, was unwichtig?)“ (Knapp 2009, S. 4). Wie an der evaluativen Dimension deutlich wird, erzeugen die geschlechtsspezifischen Annahmen und Zuschreibungen nicht nur eine Differenz zwischen den Geschlechtern, sondern stellen zugleich auch Hierarchie her (Wetterer 2002, S. 203). So beinhalten geschlechtliche Etikettierungen und Stereotypisierungen auch Vorstellungen über Statusunterschiede zwischen den Geschlechtern. Ridgeway (2001) prägte in diesem Zusammenhang den Begriff der „gender status beliefs“.

Holst und Busch (2009) argumentieren, dass mit diesen geschlechtsbezogenen Statusannahmen („gender status beliefs“) auch Vorstellungen über berufliche Statuspositionen von Frauen und Männern sowie Implikationen bezüglich der Überlegenheit des einen Geschlechts über das andere einhergehen. Dies führe zu Ungleichheiten in der Arbeitswelt: „Männern wird unter ansonsten gleichen Bedingungen eine höhere berufliche Kompetenz und Leistungsfähigkeit als Frauen zugeschrieben“ (Holst und Busch 2009, S. 8). Diese unterschiedlichen Kompetenz- und Leistungserwartungen an Frauen und Männer werden auch im Rahmen der Theorie der Erwartungszustände (Berger et al. 1977) thematisiert, die das Geschlecht im Erwerbsleben grundsätzlich als ein sogenanntes diffuses Statuscharakteristikum begreift (Correll und Ridgeway 2006). Auspurg et al. (2017) finden in ihren Analysen Bestätigung für die Annahmen der Theorie der Erwartungszustände und somit für eine geschlechtsspezifische Bewertung der beruflichen Kompetenz und Leistungsfähigkeit, die sich sowohl bei Frauen als auch bei Männern zeigt. Ebenso kann u. a. Foschi in experimentellen Studien die Hypothese belegen, dass Frauen trotz gleicher Leistungen geringere Kompetenzen zugeschrieben werden als Männern (Foschi 1996). Darüber hinaus sind auch die Bewertungen der für bestimmte Tätigkeiten erforderlichen Fähigkeiten und Kenntnisse von diesen geschlechtsspezifischen Annahmen betroffen. Das heißt: „Weiblich konnotierte Tätigkeiten werden aufgrund der geltenden Geschlechterhierarchie quasi automatisch mit geringerem Status und geringerer Wertigkeit assoziiert“ (Tondorf und Jochmann-Döll 2011, S. 118).

Diese theoretischen Überlegungen und empirischen Ergebnisse stützen die Devaluationshypothese, also die These einer systematischen Abwertung weiblicher Erwerbsarbeit. Demnach hängen die „geringere[n] Verdienste von Frauen generell sowie auch die Verdienstabschläge in Frauenberufen mit dem geringeren Status von Frauen auf dem Arbeitsmarkt zusammen. … Der geringere Status von Frauen auf dem Arbeitsmarkt überträgt‘ sich [auch] auf die Berufe, die mehrheitlich von ihnen ausgeübt werden, mit entsprechenden Folgen für die Verdienste“ (Busch 2013, S. 306 f.). Bereits Teubner (1989, S. 34) verwies auf den Zusammenhang, dass ein hoher Frauenanteil im Beruf mit einem geringen Sozialstatus korreliert. Kilbourne et al. (1994) sprachen daher auch von einer vergeschlechtlichten Bewertung („gendered valuation“) von Arbeit.

Empirisch lässt sich weitere Evidenz für die Annahmen der Devaluationshypothese finden. So zeigen verschiedene Untersuchungen, dass sich auch unter Kontrolle des Humankapitals, wie etwa Qualifikationsanforderungen oder Berufserfahrung, sowie weiterer Proxys für die angenommene Produktivität von Beschäftigten oder Berufsgruppen ein höherer Frauenanteil im Beruf und im selben Betrieb negativ auf das Einkommensniveau auswirkt (z. B. Achatz et al. 2004; Busch 2013). Über unterschiedlich ausgeprägte Produktivitätsindikatoren allein lässt sich die geringe Bezahlung von „Frauenberufen“ also nicht erklären. Zudem liegen aktuelle Längsschnittanalysen zu dem Thema vor, die die Hypothese einer gesellschaftlichen und monetären Abwertung erwerbstätiger Frauen stützen (z. B. Hausmann et al. 2015).

Auch qualitative Ergebnisse sprechen für die Annahmen der Devaluationshypothese. Wetterer (2002) belegt anhand der Professionalisierung in der Medizin, dass eine Feminisierung der Berufe in der Regel mit Abwertungen und eine Maskulinisierung häufig mit Aufwertungen verbunden ist. „Die Statushierarchie von Berufen spiegelt die in der Gesellschaft vorhandenen Geschlechterpolarisierungen zwischen Männern und Frauen wider. Der Status eines Berufs ist nur vordergründig aus seinen Berufsinhalten ableitbar, zentrale Bedeutung hat auch hier das Merkmal Geschlecht. Selbst wenn die Tätigkeitsinhalte gleichbleiben, führt die Zunahme des Frauenanteils innerhalb eines Berufes zu einem Statusverlust“ (Wetterer 2002, S. 36).

Wie in der Einleitung dieses Beitrags bereits deutlich geworden ist, stehen Entlohnungsfragen im engen Zusammenhang mit den historisch gewachsenen Verfahren der Arbeitsbewertung. Diese Verfahren sind für einen großen Teil der Entgelte abhängig Beschäftigter maßgeblich. Dennoch stehen die Verfahren der Arbeitsbewertung schon längere Zeit in der Kritik, nicht geschlechtsneutral gestaltet zu sein. Denn obwohl der direkte Geschlechtsbezug aus den Arbeitsbewertungsverfahren verschwunden ist, seitdem das Bundesarbeitsgericht 1955 die Lohnabschlagsklauseln für Frauen verboten hat, und obwohl die Kriterien der Bewertung und Entlohnung seit damals geschlechtsneutral formuliert werden müssen, können sie dennoch dazu führen, dass geschlechtsspezifische Differenzannahmen weitergeführt werden, wenn auch anders arrangiert als früher (Wehling und Müller 2014, S. 22). Rohmert und Rutenfranz (1975) belegten, dass die Arbeitsbewertungsverfahren generell diskriminierend gestaltet waren, und zeigten, dass sie diskriminierend wirken können. Dabei wird in den tariflichen und betrieblichen Verfahren der Arbeitsbewertung keineswegs explizit auf das jeweilige Geschlecht Bezug genommen, sondern die Benachteiligungen verbergen sich in geschlechtsneutralen Formulierungen, während im Hintergrund Geschlechterstereotype inklusive geschlechtsbezogener Statusannahmen wirksam werden können. Juristisch wird in diesen Fällen von mittelbaren Diskriminierungen gesprochen (Allgemeines Gleichbehandlungsgesetz § 3 Abs. 2).

Aber wie können dem Anschein nach geschlechtsneutrale Arbeitsbewertungsverfahren diskriminierend wirken und zur Unterbewertung weiblich dominierter Arbeit beitragen? Die Haupteinfallstore für mittelbare Diskriminierungen liegen in der Auswahl und der Definition der Bewertungskriterien sowie in ihrer Gewichtung (Krell und Winter 2011). Die Auswahl ist zunächst entscheidend, da sich die Tätigkeiten von Frauen und Männern im Kontext der Segregationslinien am Arbeitsmarkt qua Geschlecht inhaltlich stark unterscheiden können. Eignen sich die ausgewählten Bewertungskriterien eher, um die Tätigkeiten von Männern zu beschreiben, liegt darin ein wesentliches Diskriminierungspotenzial. Denn alle Aspekte einer Tätigkeit, die nicht bewertet werden können, da kein passendes Kriterium vorliegt, werden auch nicht bezahlt.

Ausschlaggebend ist darüber hinaus die jeweilige Definition der Bewertungskriterien. Grundsätzlich gilt: Je unkonkreter eine Definition ist, umso eher können geschlechterstereotype Zuschreibungen Einzug in die Auslegung der Kriterien erhalten und in der Anwendung der Verfahren zu Ungleichbehandlungen beitragen. Krell und Winter verdeutlichen das exemplarisch anhand des Bewertungskriteriums „Schwere der Arbeit“ (2011, S. 348 ff.): Das Merkmal der Arbeitsschwere wird oft ausschließlich mit körperlich schwerer Muskelarbeit gleichgesetzt, während andere Formen der Muskelarbeit unberücksichtigt bleiben, die häufig im Rahmen weiblich dominierter Tätigkeiten auftauchen. Beispiele dafür sind einseitige Muskelarbeit (etwa bei Kassiererinnen) oder statische Muskelarbeit (etwa ständiges Stehen bei bestimmten Tätigkeiten). Völlig ausgeblendet werden darüber hinaus oft geistig-nervliche Belastungen (z. B. durch Arbeit unter Zeitdruck) oder emotionale Belastungen (etwa bei Tätigkeiten, bei denen die Beschäftigten mit dem Leid anderer Menschen umgehen müssen). Das Bewertungsmerkmal „Arbeitsschwere“ wird in diesen Fällen also geschlechtsspezifisch interpretiert. Damit werden systematisch Belastungen, die häufig bei frauendominierten Tätigkeiten auftreten, nicht bewertet und damit auch nicht bezahlt.

Außerdem kann die jeweils gewählte Gewichtung der einzelnen Bewertungskriterien diskriminierend wirken. Manchmal wird eine Orientierung am gegenwärtigen Lohn- und Gehaltsgefüge praktiziert mit dem Ergebnis, dass die typischen Kriterien für „Männerarbeitsplätze“ hoch und die typischen Kriterien für „Frauenarbeitsplätze“ niedrig gewichtet werden (Krell und Winter 2011, S. 351 ff.). Aus diesen Gründen müssen Arbeitsbewertungsverfahren auf diskriminierungsfreien Differenzierungskriterien, Definitionen und Gewichtungen beruhen, um geschlechtsspezifische Benachteiligungen zu vermeiden (Tondorf und Jochmann-Döll 2010).

Diese theoretischen Anforderungen ergeben sich insbesondere durch arbeitswissenschaftliche Forschungen im Bereich diskriminierungsfreier Arbeitsbewertungsverfahren (z. B. Katz und Baitsch 2006; Tondorf und Ranftl 2002). Die genannten sowie weitere Studien haben dazu geführt, dass Verfahren der Arbeitsbewertung entwickelt worden sind, die als geschlechtsneutral anerkannt werden (z. B. Harriman und Holm 2000; Hastings 2002; Katz und Baitsch 2006). Zudem hat die Internationale Arbeitsorganisation (ILO) einen Leitfaden für eine genderneutrale Tätigkeitsbewertung erarbeitet (Chicha 2016), um der IL0-Kernarbeitsnorm zur Entgeltgleichheit (Übereinkommen 100) gerecht zu werden. Des Weiteren empfiehlt die Antidiskriminierungsstelle des Bundes (ADS) den Paarvergleich (Tondorf und Jochmann-Döll 2010) aus dem Entgeltgleichheits-Check (eg-check) als Instrument für eine geschlechtsneutrale Arbeitsbewertung. Allen beispielhaft aufgeführten Verfahren liegen dieselben arbeitswissenschaftlichen Überlegungen einer geschlechtsneutralen Arbeitsbewertung zugrunde und sie sind dementsprechend inhaltlich ähnlich gestaltet. Die dort formulierten theoretischen Anforderungen stehen zudem im Einklang mit den rechtlichen Rahmenbedingungen in Deutschland, wie dem Entgeltgleichheitsgrundsatz, dem zuletzt im Entgelttransparenzgesetz (EntgTranspG) Nachdruck verliehen wurde.

Für Deutschland liegen bislang ausschließlich qualitative Einzelfallstudien vor, die als Ursache für die Unterbewertung einer Reihe von weiblich dominierten Tätigkeiten die nicht geschlechtsneutrale Ausgestaltung der Verfahren der Arbeitsbewertung identifizieren (Stefaniak et al. 2002; Carl und Krehnke 2004). Trotz dieser stellenweise bereits aufgedeckten geringeren Bewertung der beruflichen Anforderungen und Belastungen von Frauen und Beschäftigten in „Frauenberufen“ spielen die theoretischen Annahmen der Devaluationshypothese und die arbeitswissenschaftliche Kritik an den Verfahren der Arbeitsbewertung in der statistischen Ursachenanalyse des Gender Pay Gaps (bis auf die aufgezeigten Ausnahmen im Rahmen soziologischer Ansätze, z. B. Auspurg et al. 2017; Busch 2013; Hausmann et al. 2015) eine bislang untergeordnete Rolle. Bisher konnten evaluative Diskriminierungen statistisch nicht aufgedeckt werden, da ein geeignetes Messinstrument fehlte, um die beruflichen Anforderungen und Belastungen von Frauen und Männern geschlechtsneutral zu erfassen. Der von uns neu entwickelte CW-Index füllt diese Forschungslücke in einem ersten Schritt und ermöglicht die Analyse unserer zentralen Forschungshypothese: Evaluative Diskriminierungen in Form einer nicht geschlechtsneutralen Arbeitsbewertung zuungunsten von Frauen tragen zum Bestehen des Gender Pay Gaps bei.

3 Methodische Vorgehensweise

Im folgenden Abschnitt wird die methodische Vorgehensweise zur Zerlegung des Gender Pay Gaps (GPG) erläutert, durch die die Rolle der Arbeitsbewertung und das Ausmaß evaluativer Diskriminierungen sichtbar werden. Anschließend an die Beschreibung des neu entwickelten Comparable Worth Index wird Bezug genommen auf die verwendeten Daten der Verdienststrukturerhebung 2018 und die angewandte Dekompositionsanalyse nach Oaxaca und Blinder.

3.1 Der Comparable Worth Index

Der Comparable Worth Index (CW-Index) ist ein statistisches Messinstrument, mit dem die Anforderungen und Belastungen im Beruf umfassend und geschlechtsneutral abgebildet, untereinander verglichen und in Relation zu den gegenwärtigen Verdienstniveaus in den Berufen gesetzt werden können. Der Index basiert auf den grundsätzlichen theoretischen Prämissen einer geschlechtsneutralen Arbeitsbewertung, welche sich aus den beschriebenen arbeitswissenschaftlichen Erkenntnissen (vgl. Abschn. 1 und 2) ableiten lassen.

Konstruiert wurde der CW-Index in Anlehnung an das Verfahren des „Paarvergleichs Gleichwertigkeit“, einem Bestandteil des Entgeltgleichheit-Checks (kurz: „eg-check.de“, vgl. Tondorf und Jochmann-Döll 2010), der auch von der Antidiskriminierungsstelle des Bundes für eine geschlechtsneutrale Arbeitsbewertung empfohlen wird (ADS 2019). Der Entgeltgleichheit-Check, welcher ebenfalls auf den oben beschriebenen arbeitswissenschaftlichen Grundlagen beruht, ist ein „praktisch nutzbares …, auf dem rechtlichen Grundsatz der Entgeltgleichheit basierendes Instrumentarium zur Prüfung der Entgeltgleichheit“ (Jochmann-Döll 2017, S. 170).

Der Paarvergleich zur Feststellung der Gleichwertigkeit von Tätigkeiten wurde für eine Anwendung auf der betrieblichen Ebene und für den Vergleich ausgewählter Tätigkeiten entwickelt. Er umfasst 19 Anforderungsmerkmale, die sich den vier Bereichen Anforderungen an Wissen und Können, an psychosoziale Kompetenzen, an Verantwortung und physische Anforderungen zuordnen lassen (Jochmann-Döll 2017, S. 175). Für die Konstruktion des CW-Index wurde dieser Paarvergleich genutzt, da er eine umfassende geschlechtsneutrale Arbeitsbewertung beinhaltet. Um den ursprünglich auf Einzelfallprüfungen angelegten Paarvergleich für statistische Analysen nutzen zu können, war es nötig, eine repräsentative Befragung zu finden, deren Daten die Kriterien, die der Paarvergleich vorsieht, zumindest näherungsweise abbilden. Als hierfür geeignet erwies sich die BIBB/BAuA-Erwerbstätigenbefragung 2018 (Befragung des Bundesinstitut für Berufsbildung [BIBB] und der Bundesanstalt für Arbeitsschutz und Arbeitsmedizin [BAuA], vgl. Hall und Rohrbach-Schmidt 2020). Ausgewählte Fragen der BIBB/BAuA-Erwerbstätigenbefragung 2018 mit den dort vorgegebenen Antwortkategorien ließen sich nutzen, um die Mehrzahl der Fragen des Paarvergleichs zu beantworten und somit näherungsweise eine Modellierung des Anforderungs- und Belastungsniveaus von Berufen vorzunehmen. Die Informationen aus der BIBB/BAuA-Erwerbstätigenbefragung 2018 bilden die Basis für die Erstellung des CW-Index, der es erlaubt, statistische Schätzungen unter Einbeziehung der „Arbeitsschwere“ durchzuführen.

Der CW-Index umfasst im Einklang mit dem Verfahren des Paarvergleichs aus dem eg-check insgesamt vier Arbeitsbewertungsdimensionen, die mit unterschiedlichen Gewichtungen in den Index eingehen: Anforderungen an das Wissen und Können (41 %), psychosoziale (24 %) sowie physische Anforderungen und Belastungen (15 %) und schließlich Anforderungen an Verantwortung (20 %). Da es keine allgemeingültigen Kriterien zur Operationalisierung des „Werts“ von Arbeit gibt, muss die konkrete Gewichtung der vier Arbeitsbewertungsdimensionen letztlich auf Basis arbeitswissenschaftlicher Erkenntnisse hergeleitet werden. Grundsätzlich sind zur Prüfung der Gleichwertigkeit von Arbeitstätigkeiten verschiedene Gewichtungsvarianten denkbar, solange diese auf einer geschlechtsneutralen Systematik beruhen. Für den CW-Index wurde die oben genannte Gewichtung des anerkannten Verfahrens Entgeltgleichheits-Check, das von der Antidiskriminierungsstelle des Bundes in Deutschland empfohlen wird und das auf die Forschungen der Schweizer Katz und Baitsch (2006) zurückgeht, übernommen. Wichtig ist für eine diskriminierungsfreie Arbeitsbewertung vor allem, dass Anforderungen, die in Berufen auftreten, welche eher von Männern oder Frauen ausgeübt werden, gleichermaßen berücksichtigt werden, um systematische Abwertungen zuungunsten eines Geschlechts weitestgehend auszuschließen. Der Paarvergleich des eg-checks erfüllt dieses Kriterium (ADS 2019). Im Rahmen weiterführender Analysen haben die Autorinnen und der Autor des Beitrags die nachfolgend dargestellten Auswertungen jedoch auch mit alternativen Gewichtungsvarianten geprüft. Im Ergebnis zeigt sich, dass die unten dargelegten Ergebnisse im Wesentlichen reproduziert werden.Footnote 3

Zur Konstruktion des CW-Index werden die vier zentralen Dimensionen einer geschlechtsneutralen Arbeitsbewertung anhand ausgewählter Fragen aus der BIBB/BAuA-Erwerbstätigenbefragung 2018 berücksichtigt. Die einzelnen Dimensionen und die ihnen zugeordneten Fragen können der Tab. 4 im Anhang entnommen werden.

Grundsätzlich werden die beruflichen Anforderungen und Belastungen im CW-Index gemäß der arbeitswissenschaftlichen Vorgehensweise einer geschlechtsneutralen Arbeitsbewertung einzeln über Punktwerte erfasst und darüber vergleichbar gemacht. Beispielsweise geht die Notwendigkeit einer höheren beruflichen Qualifikation zur Ausübung der Tätigkeit mit höheren Punktwerten (z. B. Hochschulabschluss mit 9 Punkten) in den CW-Index ein als die Notwendigkeit einer niedrigeren beruflichen Qualifikation. Der Punktwert 1 wird z. B. vergeben, wenn kein Ausbildungsabschluss erforderlich ist und eine kurze Einarbeitungszeit ausreichend ist zur Tätigkeitsausübung. Auf diese Weise erhält jede Dimension im CW-Index einen Punktwert, wobei höhere Punktwerte immer mit höheren Anforderungen und Belastungen gleichzusetzen sind und niedrigere Punkte mit niedrigeren Anforderungen und Belastungen. Die jeweiligen Antworten der Beschäftigten aus der Erwerbstätigenbefragung auf die für den CW-Index ausgewählten Fragen und ihre darüber ermittelten Punktwerte hinsichtlich ihrer beruflichen Anforderungen und Belastungen werden anschließend im CW-Index zu berufsgruppenspezifischen Mittelwerten zusammengefasst. Das bedeutet, dass die individuell ermittelten CW-Indexwerte verwendet werden, um einen Durchschnittswert aller Befragten in einem Beruf zu ermitteln. Als Berufsklassifikation wurde die „International Standard Classification of Occupations“ in der Fassung von 2008 verwendet (ISCO-08). Um Verzerrungen der berufsgruppenspezifischen Mittelwerte des CW-Index aufgrund zu geringer Fallzahlen zu vermeiden, wurden nur solche Berufsgruppen berücksichtigt, für die eine ausreichende Anzahl an Befragten (n ≥ 30) vorliegt. Insgesamt konnte der CW-Index daher für 89 der insgesamt 126 ordnungsgemäß vercodeten, nichtmilitärischen Berufsuntergruppen der BIBB/BAuA-Erwerbstätigenbefragung 2018 berechnet werden. Datentechnische Beschränkungen gibt es also lediglich für sehr kleine Berufsgruppen mit niedrigeren Beschäftigtenzahlen, die dementsprechend nicht im CW-Index abgebildet werden.

Der CW-Index kann grundsätzlich (durch die definierten Punktevergaben für das jeweilige Anforderungsniveau) minimal einen Wert von 1 und maximal einen Wert von 43 Punkten annehmen. Dabei zeigen die faktischen, aufgrund der BIBB/BAuA-Erwerbstätigenbefragung ermittelten und final gerundeten berufsgruppenspezifischen Mittelwerte des CW-Index ein Wertespektrum von 17 bis 32 Punkten. So weisen z. B. Reinigungskräfte einen beruflichen Mittelwert des CW-Index von 17 Punkten und Ärzte von 32 Punkten auf. Der Median liegt bei 25 Punkten und das arithmetische Mittel bei 24 Punkten, womit sich eine leicht linksschiefe Verteilung ergibt.

Bislang existierte kein solches statistisches Messinstrument wie der CW-Index, das die beruflichen Anforderungen und Belastungen mithilfe einer geschlechtsneutralen Arbeitsbewertung erfasst. Wie in der Einleitung erwähnt, wurden in den bisherigen statistischen Analysen und insbesondere den Analysen zum bereinigten Gender Pay Gap vom Statistischen Bundesamt lediglich die Berufe und fünf Leistungsgruppen berücksichtigt: Arbeitnehmerinnen und Arbeitnehmer in leitender Stellung (Leistungsgruppe 1), herausgehobene Fachkräfte (Leistungsgruppe 2), Fachkräfte (Leistungsgruppe 3), angelernte Arbeitnehmer (Leistungsgruppe 4) sowie ungelernte Arbeitnehmer (Leistungsgruppe 5).

Problematisch ist an den Leistungsgruppen nicht nur ihre aus Sicht der Arbeitswissenschaft unzureichende Erfassung relevanter Kriterien zur Bewertung von Arbeit. Vor dem Hintergrund der dargestellten Anforderungen an eine geschlechtsneutrale Arbeitsbewertung wird klar, dass die Leistungsgruppen den skizzierten Anforderungen nicht gerecht werden. So erfassen die Leistungsgruppen nur Qualifikationsanforderungen und Führungsverantwortung, zudem in grober Unterteilung. Psychosoziale Anforderungen und jegliche Form der Belastung bleiben bei der Bewertung durch die Leistungsgruppen unberücksichtigt. Problematisch ist an den Leistungsgruppen auch die ihnen innewohnende Gefahr, ausschließlich gegebene Bewertungen zu reproduzieren. Denn die Leistungsgruppen oder die Zuordnung der Berufe und Tätigkeiten zu diesen erfolgt insbesondere durch die Einschätzung der Arbeitgeber, die sich dabei, sofern vorhanden, am jeweiligen Tarifvertrag orientieren. Dieses Vorgehen ist jedoch nicht geeignet, um evaluative Diskriminierungen in den gegenwärtigen Bewertungen aufzudecken. Vielmehr können dadurch evaluative Diskriminierungen unsichtbar und unter dem Deckmantel der scheinbaren Objektivität legitimiert werden.

Dieselbe Problematik gilt auch für die Einbeziehung der Berufe, um Verdienstunterschiede zwischen Frauen und Männern zu analysieren. Denn die gegenwärtigen Verdienstniveaus in den einzelnen Berufen (unter Berücksichtigung der jeweiligen Branche) sind letztlich auch Ausdruck der aktuellen Bewertung, die gemäß der Devaluationshypothese im begründeten Verdacht steht, nicht geschlechtsneutral zu sein.

Entgegen dieser Vorgehensweise basiert der CW-Index auf den Angaben der Beschäftigten selbst, die in der BIBB/BAuA-Erwerbstätigenbefragung u. a. zu ihren beruflichen Anforderungen und Belastungen befragt werden. Diese Vorgehensweise ist auch in früheren Studien praktiziert worden (Stefaniak et al. 2002) und erscheint sinnvoll vor dem Hintergrund, dass die Beschäftigten in einem Beruf selbst die größtmögliche Innensicht auf ihre Tätigkeiten haben. Um Verzerrungen bei der Einschätzung von Arbeitsanforderungen aufgrund systematischer Variationen relevanter Hintergrundvariablen möglichst ausschließen zu können, wurde zudem geprüft, ob sich bestimmte Beschäftigtengruppen hinsichtlich ihres Antwortverhaltens unterscheiden, z. B. ob Frauen und Männer im selben Beruf die durchschnittlichen Anforderungen und Belastungen unterschiedlich bewerten, Teilzeitkräfte anders antworten als Vollzeitkräfte oder Beschäftigte in Ostdeutschland zu einer anderen Bewertung kommen als Beschäftigte in Westdeutschland. Die Ergebnisse dieser Überprüfung zeigten keine nennenswerten systematischen Unterschiede.

3.2 Daten und Methode

Für die nachfolgend dargestellten Analysen wird der über die BIBB/BAuA-Erwerbstätigenbefragung 2018 konstruierte CW-Index an die Verdienststrukturerhebung (VSE; Destatis 2018) gekoppelt. Auf der VSE, die aufgrund ihrer großen Fallzahl und detaillierter Lohn‑, Beschäftigten- und Arbeitgeberinformationen „Aussagen über die Verteilung der Arbeitnehmerverdienste sowie über den Einfluss wichtiger, die individuelle Verdiensthöhe bestimmende Faktoren“ (Destatis 2018) erlaubt, basieren auch die Analysen des Statistischen Bundesamts zum GPG.

Um den CW-Index für Analysen mit den Daten der Verdienststrukturerhebung zu nutzen, wurden die CW-Indexwerte mit den Daten der VSE 2018 gematcht. Hierzu wurde die sowohl in der BIBB/BAuA-Erwerbstätigenbefragung als auch in der VSE enthaltene International Standard Classification of Occupations (ISCO, Fassung 2008, 3‑Steller-Ebene) als Schlüsselvariable für das Datenmatching verwendet. Insgesamt konnte der CW-Index aufgrund der Fallzahlen für 89 Berufsuntergruppen der BIBB/BAuA-Erwerbstätigenbefragung 2018 berechnet werden. Von diesen 89 Berufsuntergruppen sind 87 Gruppen auch in der VSE enthalten.

Die Analysen, deren Ergebnisse in diesem Beitrag vorgestellt werden, wurden in Anlehnung an die Berechnungen des Statistischen Bundesamtes zur Bereinigung des Gender Pay Gaps modelliert und durchgeführt. Die Analysen orientieren sich insofern sowohl hinsichtlich der Variablenauswahl als auch in Bezug auf die angewandte Methode an den Berechnungen von Finke (2010), Finke et al. (2017) und Mischler (2021). Anstelle der Leistungsgruppen und Berufe wird hier allerdings der CW-Index verwendet. Die verwendeten Variablen sind der Tab. 1 zu entnehmen.

Tab. 1 In die Analysen einbezogene Variablen

Im Anschluss an die Analysen mit diesen Variablen fanden zudem vergleichende Berechnungen mit den Leistungsgruppen und Berufen statt. Methodisch wird in diesem Beitrag die Dekompositionsanalyse nach Oaxaca (1973) und Blinder (1973) angewendet. Diese Zerlegung basiert auf zwei zunächst separat durchgeführten Regressionsanalysen für Frauen und Männer, in denen der Einfluss verschiedener unabhängiger Variablen auf den logarithmierten Bruttostundenverdienst bestimmt wird. Durch die Subtraktion der beiden Gleichungen lässt sich der Gender Pay Gap in verschiedene Effekte zerlegen: Ausstattungs‑, Bewertungs- und Shifteffekt. Der Zerlegung liegt folgende Formel zugrunde.

$$\overline{lnY_{M}}-\overline{lnY_{F}}=\underset{\text{unexplained gap}}{\underbrace{\left({\beta }_{0}^{M}-{\beta }_{0}^{F}\right)+\sum _{j}{\overline{x}}_{j}^{F}\left({\beta }_{j}^{M}-{\beta }_{j}^{F}\right)} }+\underset{\text{explained gap}}{\underbrace{\sum _{j}{\beta }_{j}^{M}\left({\overline{x}}_{j}^{M}-{\overline{x}}_{j}^{F}\right)} }.$$

Dabei sind:

\(lnY\):

= logarithmierter Bruttostundenverdienst

\(\beta _{j}\):

= Regressionskoeffizient eines Merkmals j

\(\beta _{0}\):

= Regressionskonstante

\(\overline{x}_{j}\):

= arithmetisches Mittel eines Merkmals j

\(M/F\):

= Männer/Frauen

Der Ausstattungseffekt gibt an, welcher Anteil der Verdienstlücke zwischen Frauen und Männern auf Unterschiede hinsichtlich der unabhängigen Variablen zurückzuführen ist, also gewissermaßen die Ausstattung der Personen mit Humankapital sowie anderen als lohnrelevant erkannten Faktoren. Dieser Anteil wird auch als erklärter Teil des Gender Pay Gaps bezeichnet. Der unerklärte (oder auch bereinigte) Anteil setzt sich wiederum aus dem Bewertungs- und dem Shifteffekt zusammen. Der Shifteffekt umfasst den Teil, der nicht durch die im Modell berücksichtigten unabhängigen Variablen erklärt werden kann. Der Bewertungseffekt hingegen identifiziert den Anteil, der auf eine ungleiche Bewertung gleicher Ausstattungsmerkmale zurückzuführen ist. Hierauf liegt in der vorliegenden Analyse der Fokus, um den blinden Fleck in der Analyse des GPG aufzuhellen, den die Arbeitsbewertung und evaluative Diskriminierungen bislang darstellen.

4 Ergebnisse

Die Ergebnisse jeder Dekompositionsanalyse sind die jeweiligen Ausstattungs‑, Bewertungs- und Shifteffekte der in das Modell eingeflossenen Faktoren. Diese werden in Tab. 2 ausgewiesen. Grundsätzlich lassen sich hier die positiven Vorzeichen eines Koeffizienten als Effekte zuungunsten der Verdienste der weiblichen Beschäftigten interpretieren. Die entsprechenden Variablen tragen somit zum GPG bei. Die Variablen mit negativen Vorzeichen der Koeffizienten reduzieren hingegen den GPG, da sie sich zuungunsten der Verdienste der männlichen Beschäftigten auswirken.

Tab. 2 Ergebnisse der Dekompositionsanalyse des Gender Pay Gaps unter Einbeziehung der CW-Indexgruppen, Deutschland 2018

Die Dekompositionsanalyse zeigt zunächst am ausgewiesenen Ausstattungseffekt, dass 3,28 Prozentpunkte des GPG auf Unterschiede zwischen Frauen und Männern hinsichtlich der beruflichen Anforderungen und Belastungen (gemessen am CW-Index) zurückzuführen sind (Tab. 2). Das bedeutet, dass die Tätigkeiten der Männer durchschnittlich ein höheres berufliches Anforderungsniveau aufweisen und diese Niveauunterschiede einen Teil des GPG erklären.

Jedoch lässt sich in Bezug auf unsere zentrale Forschungshypothese auch empirische Evidenz für die Annahme erkennen, dass Frauen selbst bei gleichen oder gleichwertigen beruflichen Anforderungen und Belastungen Verdiensteinbußen hinnehmen müssen, die als evaluative Diskriminierungen interpretiert werden können. In den der Dekomposition zugrunde liegenden und separat für Frauen und Männer durchgeführten Regressionsanalysen zeigt sich, dass sich ein vergleichbarer Anstieg der beruflichen Anforderungen und Belastungen für Männer stärker auszahlt als für Frauen (Tab. 5 im Anhang), was als Indikator für evaluative Diskriminierungen in der Verdienststruktur interpretiert werden kann. Diese Formen der Diskriminierung aufgrund des Geschlechts zeigen sich darüber hinaus auch im Bewertungseffekt, der mit 13,65 Prozentpunkten deutlich höher ausfällt als der Ausstattungseffekt mit 3,28 Prozentpunkten (Tab. 2). Solche Formen evaluativer Diskriminierung können hier erstmals statistisch identifiziert werden. 13,65 Prozentpunkte des Gender Pay Gaps von insgesamt 18,72 % (Summe Zeile „Insgesamt“) lassen sich demnach in Bezug auf gleich hohe berufliche Anforderungen und Belastungen mit einer geschlechterdifferenten Arbeitsbewertung in Zusammenhang bringen, bei der die beruflichen Anforderungen von Männern höher bewertet und entlohnt werden als die von Frauen. Damit lässt sich unsere zentrale Forschungshypothese bestätigen.

Die einzelnen Effekte der anderen Koeffizienten der Dekomposition (Tab. 2) verdeutlichen, dass sich die geringere Bewertung und Bezahlung weiblicher Erwerbsarbeit auch an anderen Stellen als nur der Arbeitsbewertung im Sinne der Anforderungen und Belastungen (CW-Index) ausmachen lässt. Hier sind insbesondere die Bewertungseffekte der persönlichen Merkmale (wie Arbeitszeit, Berufserfahrung oder Unternehmenszugehörigkeit) von Bedeutung, die in Tab. 2 ebenfalls zusammengefasst dargestellt sind.

Insgesamt werden 9,61 Prozentpunkte des GPG darüber erklärt, dass Frauen bei vergleichbarer Arbeitszeit, Berufserfahrung und Unternehmenszugehörigkeit wie Männer (persönliche Merkmale) Verdiensteinbußen hinnehmen müssen.Footnote 4 Dabei ist zu erwähnen, dass sich dieses Ergebnis auch unter Kontrolle ihrer jeweiligen Branchenzugehörigkeit zeigt. Die Ergebnisse der Dekompositionsanalyse belegen zwar, dass die branchenspezifische Segregation qua Geschlecht und die unterschiedlichen Verdienstniveaus in den einzelnen Branchen zum Gender Pay Gap beitragen. Addiert beträgt der Ausstattungseffekt in Bezug auf die Branchen 3,08 Prozentpunkte (Tab. 2, Branchendummys). Allerdings offenbart der positive Bewertungseffekt von 1,73 Prozentpunkten, dass Frauen auch innerhalb einer Branche Verdienstnachteile gegenüber Männern hinnehmen müssen. Dies deutet darauf hin, dass auch die persönliche Ausstattung von Frauen, die im Sinne humankapitaltheoretischer Überlegungen als Produktivitätsindikator betrachtet werden kann, auf dem Arbeitsmarkt systematisch geringer bewertet und entlohnt wird als die ihrer männlichen Kollegen.

Es zeigen sich jedoch auch einige gegenläufige Effekte im Modell. Stellenweise müssen auch Männer (unter Kontrolle der anderen Faktoren) Verdiensteinbußen trotz Merkmalsgleichheit hinnehmen. Das wird in Tab. 2 an den negativen Bewertungseffekten im Bereich der arbeitsvertraglichen und arbeitsplatzbezogenen Merkmale deutlich. Betroffen sind Männer mit befristeten und geringfügigen Beschäftigungsverhältnissen. Hier fallen die negativen Koeffizienten für Männer stärker aus als für Frauen (Tab. 5 im Anhang). Umgekehrt ist der verdienststeigernde Effekt der Entlohnung durch einen Tarifvertrag stärker für Frauen wirksam. Diese Effekte reduzieren den GPG und die Bedeutung des Bewertungseffektes insgesamt (Tab. 2).

Hinsichtlich der arbeitsplatzbezogenen Merkmale ergeben sich die Bewertungseffekte mit negativen Vorzeichen, die den GPG reduzieren, dadurch, dass die verdienstmindernde Wirkung einer Beschäftigung in Ostdeutschland und in kleineren Unternehmen für Männer stärker ausfällt als für Frauen und Frauen zudem im Unterschied zu Männern von einer Beschäftigung in Unternehmen profitieren, in denen der Einfluss der öffentlichen Hand über 50 % liegt (Tab. 5 im Anhang).

Obwohl sich stellenweise im Modell gegenläufige Effekte in Form von Verdiensteinbußen der Männer trotz Merkmalsgleichheit ausmachen lassen, zeigt die hier durchgeführte Analyse, dass der GPG nur zur Hälfte (8,97 Prozentpunkte) durch Ausstattungsunterschiede zwischen Frauen und Männern erklärt werden kann (Tab. 2).Footnote 5 Genauso relevant für die Verdienstlücke ist die im Durchschnitt geringere Bewertung der Ausstattungsmerkmale von Frauen gegenüber Männern. Dieses zentrale Ergebnis steht in Übereinstimmung mit der Hypothese der Devaluation weiblicher Arbeit. Der zusammengefasste Bewertungseffekt liegt in diesem Modell insgesamt bei 8,93 Prozentpunkten (Tab. 2). Der Shifteffekt fällt hingegen mit 0,82 Prozentpunkten sehr gering aus und trägt somit in nur geringem Ausmaß zum „bereinigten“ GPG bei. Der bereinigte GPG (also Bewertungseffekt + Shifteffekt) beträgt unseren Berechnungen zufolge 9,75 Prozentpunkte (8,93 + 0,82) und ergibt sich insbesondere durch die geschlechterdifferente Bewertung und Bezahlung verdienstrelevanter Merkmale zuungunsten von Frauen. Der von uns berechnete bereinigte Gender Pay Gap ist zudem höher als der Wert von 6 Prozentpunkten, der vom Statistischen Bundesamt (Mischler 2021) ausgewiesen wird. Die Abweichung ergibt sich vermutlich insbesondere daraus, dass in unserem Modell die beruflichen Anforderungen und Belastungen mithilfe des neu entwickelten CW-Index erfasst wurden, der auf etablierten Verfahren der geschlechtsneutralen Arbeitsbewertung beruht und nicht die vom Statistischen Bundesamt verwendeten Leistungs- und Berufsgruppen zur Analyse heranzieht. Dafür sprechen auch die weiteren durchgeführten Analysen, deren Ergebnisse in Tab. 3 zusammengefasst dargestellt werden.

Tab. 3 Zentrale Kennzahlen der Dekompositionsanalysen im Vergleich (CW-Indexgruppen versus Leistungsgruppen/Berufsgruppen)

Bei Verwendung der Leistungs- und Berufsgruppen zeigt sich ein geringerer Bewertungseffekt von 7,06 Prozentpunkten. Zudem fällt bei dieser Berechnungsweise der Shifteffekt stärker ins Gewicht. Das bedeutet, dass in diesem Modell weniger über die im Modell berücksichtigten Variablen erklärt wird und davon auszugehen ist, dass hier der Bewertungseffekt und damit auch die geringere Bewertung der Ausstattungsmerkmale von Frauen unterschätzt wird.

5 Diskussion

Anhand der präsentierten Analysen war es erstmalig möglich, die Rolle der Arbeitsbewertung für den Gender Pay Gap statistisch zu beleuchten. Unter Anwendung des neu entwickelten CW-Index konnte die Frage beantwortet werden, inwiefern gleiche oder gleichwertige berufliche Anforderungen und Belastungen von Frauen und Männern im Sinne einer geschlechtsneutralen Arbeitsbewertung gleich entlohnt werden oder aber die Verdienststruktur durch evaluative Diskriminierungen gekennzeichnet ist, wie sie theoretisch im Rahmen der Devaluationshypothese angenommen werden.

Die hier vorgestellten Ergebnisse stehen im Einklang mit den theoretischen Annahmen der systematischen Abwertung weiblicher Erwerbsarbeit. Es zeigt sich, dass gleiche oder gleichwertige berufliche Anforderungen und Belastungen von Frauen und Männern ungleich entlohnt werden. Diese geschlechterdifferente Entlohnungspraxis offenbart sich auch unter Kontrolle zahlreicher Produktivitätsindikatoren sowie weiterer Verdienstdeterminanten. Die Bedeutung solcher evaluativen Diskriminierungen, wie sie im Bewertungseffekt des CW-Index zum Ausdruck kommen, ist zentral für den GPG, da sie den Ausstattungseffekt sogar noch übersteigt. Dadurch zeigt sich, welche entscheidende Rolle eine nicht geschlechtsneutrale Arbeitsbewertung für die Entgeltunterschiede der Geschlechter spielt.

Die hier aufgedeckte Bedeutung der evaluativen Diskriminierung ist allerdings nicht deckungsgleich mit dem Ausmaß der Entgeltdiskriminierung aufgrund des Geschlechts im juristischen Sinn. Diskriminierung ist hier im Sinne der Devaluationshypothese definiert über eine ungleiche Entlohnung trotz gleicher oder gleichwertiger beruflicher Anforderungen und Belastungen. Rechtlich ist jedoch vielmehr die Frage relevant, ob derselbe Arbeitgeber/dieselbe Arbeitgeberin oder der gleiche Tarifvertrag für die Entlohnung verantwortlich ist. Dennoch sind die präsentierten Ergebnisse gesellschafts- und gleichstellungspolitisch hoch relevant. Das sind sie, weil sich in ihnen eine offenbar gesellschaftlich tief verwurzelte Ungleichbewertung der Geschlechter und ihrer Erwerbsarbeit manifestiert, die durch unsere Berechnungen statistisch beziffert wurde. So konnte der Blick auf eine wesentliche Dimension sozialer Ungleichheit zwischen Frauen und Männern gelenkt werden, die häufig nicht wahrgenommen und gewöhnlich unter dem Schleier der scheinbar objektiv gerechtfertigten Verdienstunterschiede reproduziert wird.

Die vorgestellte Analyse zeigt außerdem, dass die Ergebnisse der Bereinigung des GPG von den Faktoren abhängig sind, die zur Bereinigung verwendet werden. Anhand der durchgeführten Berechnungen konnte verdeutlicht werden, dass das Ausmaß der Ungleichbehandlung aufgrund des Geschlechts innerhalb der Verdienststruktur größer ist als bisher angenommen. Evaluative Diskriminierungen, die sich im Bewertungseffekt der beruflichen Anforderungen und Belastungen ausdrücken, spielen eine zentrale Rolle für den GPG.

Die dargestellten Befunde erscheinen nur schwer vereinbar mit gesellschaftlich anerkannten Prinzipien der Lohngerechtigkeit. Zwar ist der Zusammenhang zwischen Arbeitsbewertung und Leistungsprinzip nicht einfach zu fassen: Während Abraham (2007) die beruflichen Anforderungen und Belastungen als indirekte Indikatoren der langfristig erbrachten oder zu erbringenden Leistung im Beruf versteht, gibt Dubet (2008) zu bedenken, dass die Definition von Leistung „vom theoretischen Standpunkt … problematisch und schwankend“ sei (Dubet 2008, S. 136). Sauer et al. (2016) konnten jedoch zeigen, dass Lohnunterschiede, die allein auf Faktoren wie der Berufsstruktur oder der Branchenzugehörigkeit basieren, nicht als legitim angesehen und gesellschaftlich zunehmend als ungerecht wahrgenommen werden.

Die vorgestellte Analyse hat einige datentechnische Begrenzungen, die bei der Interpretation beachtet werden müssen. So ist der CW-Index vor allem als eine erste Näherung anzusehen, die beruflichen Anforderungen und Belastungen geschlechtsneutral zu erfassen. An einigen Stellen könnte die Datenlage zur Konstruktion des Index besser sein, um den arbeitswissenschaftlichen Anforderungen an eine geschlechtsneutrale Bewertung noch präziser zu entsprechen. Beispielsweise kann aufgrund der vorliegenden Daten aus der BIBB/BAuA-Erwerbstätigenbefragung der psychosoziale Bereich nicht völlig detailgetreu abgebildet werden. Die unzureichende Abbildung dieser Aspekte, die gerade in weiblich dominierten Bereichen hoch relevant sind, könnte dazu geführt haben, dass das hier aufgedeckte Ausmaß an evaluativen Diskriminierungen sogar noch unterschätzt wurde. Weiterhin stellt sich die Frage der sachgerechten Gewichtung der einzelnen Anforderungen und Belastungen, die stets normative Setzungen enthält, auch wenn wir uns hier am etablierten Verfahren einer geschlechtsneutralen Arbeitsbewertung orientiert haben. Dass sich der Kernbefund der dargestellten Analysen – die Bedeutung evaluativer Diskriminierungen für die Verdienststruktur – auch bei der Verwendung alternativer Gewichtungen der verschiedenen Anforderungsbereiche zeigt, spricht jedoch für die Robustheit der Ergebnisse.

Zu betonen ist schließlich, dass der theoretische Hintergrund der Devaluationshypothese zwar eine heuristische Erklärungsfolie für evaluative Diskriminierung bietet, die Mechanismen der Abwertung weiblicher Erwerbsarbeit durch unsere Analysen jedoch nicht in einen kausalen Ursache-Wirkungs-Zusammenhang zu bringen sind. Im Sinne einer gesellschaftskritischen Analyse bedarf es daher weiterer Forschung zu den Mechanismen, die auf der Mesoebene (wie auf der Ebene der Betriebe und der Entlohnungssysteme), aber auch auf der Mikro- und Makroebene evaluative Diskriminierungen (re)produzieren. Zwar liegen im Rahmen der Devaluationshypothese theoretisch plausible Erklärungen vor, die auch zu ersten Forschungsergebnissen geführt haben. Diese sind jedoch weiter inhaltlich zu füllen, zu konkretisieren und zu vorliegenden Erkenntnissen über andere Faktoren der Entgeltbestimmung beispielsweise aus der ökonomischen Forschung ins Verhältnis zu setzen. Darin liegt auch die Chance, die Verdienststruktur umfassender als bislang zu analysieren und eine neue Debatte über die Maßstäbe einer gesellschaftlich als gerecht empfundenen (weil unterschiedlichen Anforderungs- und Belastungsniveaus entsprechenden) Entlohnung anzustoßen, die gerade auch im Rahmen von Transformationsprozessen wie der Tertiarisierung oder der Digitalisierung und dem damit einhergehenden Wandel von Arbeit notwendig erscheint.