1 Einführung und Hintergrund

Der Einfluss von Führung und Führungsverhalten auf die Arbeitsleistung und Motivation der Beschäftigten sowie den wirtschaftlichen Erfolg von Unternehmen wurde in der Vergangenheit vielfältig untersucht (Hogan und Kaiser 2004). Neben der Fokussierung auf günstige Persönlichkeitsmerkmale einer führenden Person bezieht sich der überwiegende Anteil an empirischer Forschung auf förderliches Führungsverhalten, darunter charismatische, transformationale oder authentische Führung (Thoroughgood 2021). Erst in jüngerer Zeit zeichnet sich ein größeres Interesse an den Ursachen und Auswirkungen destruktiver Führungsformen für Unternehmen und Beschäftigte ab. Mit Bezeichnungen wie Toxic Leadership (Lipman-Blumen 2005; Whicker 1996), Abusive Supervision (Tepper 2000, 2007) oder Destructive Leadership (Einarsen et al. 2007) ist Führung in ihren dysfunktionalen und schädigenden Anteilen für Organisationen und Beschäftigte beschrieben worden. Die bisherigen Konzepte weisen sowohl Unterschiede als auch Gemeinsamkeiten auf, so etwa in Bezug auf die Intention der Führungskraft.

Die psychische Gesundheit von Beschäftigten wird mit dem Verhalten von Führungskräften regelmäßig in Verbindung gebracht (Oppolzer 2009; Zock 2011). Arbeitsepidemiologische Untersuchungen zu Belastungsfaktoren deuten darauf hin, dass die Beziehung zur Führungskraft von Beschäftigten als wichtiger Einflussfaktor wahrgenommen wird (Harms et al. 2017). Aufgrund der kontinuierlich ansteigenden Ausfallzeiten von Beschäftigten, die auf psychische Störungen zurückzuführen sind, kommt der Untersuchung möglicher Prädiktoren psychischer Belastungen am Arbeitsplatz gegenwärtig hohe Relevanz zu (Cornelius et al. 2011; Meyer et al. 2022). Eine empirische Erfassung von Führung stellt jedoch besondere Herausforderungen dar. So kann Führung nicht ohne weiteres als eindimensionales Phänomen betrachtet werden, sondern ist als Beziehung zwischen zumindest zwei Personen charakterisiert (Thoroughgood et al. 2018). Die Komplexität in der Operationalisierung destruktiver Führung kann als eine Ursache dafür angenommen werden, dass der Einfluss auf psychisches Wohlergehen Beschäftigter lange Zeit vornehmlich in theoretischen Abhandlungen besprochen und wenig empirisch untersucht wurde.

Im vorliegenden Beitrag wird der derzeitige empirische Forschungsstand zu destruktiver Führung und der psychischen Beschäftigtengesundheit in Form eines systematischen Reviews untersucht. Die Zielsetzung besteht darin, auf Grundlage definierter Ein- und Ausschlusskriterien für Primärstudien die empirische Evidenz zu aggregieren. Dabei sollen moderierende Faktoren in ihrem potenziellen Einfluss auf die Studienergebnisse berücksichtigt werden (z. B. spezifisches Studiendesign). Auf dieser Basis soll schließlich das empirische Forschungsfeld im Sinne einer Forschungssynthese eingeordnet und kritisch bewertet werden. Nachfolgend werden zunächst die theoretischen und empirischen Bezüge dargestellt sowie begriffliche Explikationen der grundlegenden Konstrukte vorgenommen. Dies bildet den Ausgangspunkt zur Ableitung der spezifischen Fragestellungen.

2 Psychische Belastungen und Störungen in der Arbeitswelt

Seit einigen Jahren findet sich in der Arbeitswelt ein verändertes Krankheitspanorama mit Verlagerung vom somatischen zum psychosomatischen Krankheitsgeschehen. Mentale, emotionale und interpersonale Belastungen haben mit Ausweitung von Kommunikations- und Dienstleistungstätigkeiten zugenommen (Siegrist 2016). Auswertungsdaten der gesetzlichen Kranken- (GKV) und Rentenversicherungen unterstreichen regelmäßig die zunehmende Relevanz psychischer Störungen. In einer systematischen Auswertung der seit dem Jahr 2000 durch die GKV zur Verfügung gestellten Gesundheitsberichte zeigte sich, dass Arbeitsunfähigkeitstage aufgrund psychischer Störungen seit dem Jahr 1990 nahezu verdoppelt auftraten und die Dauer der Arbeitsunfähigkeit hoch war (Bär und Tophoven 2010). Schätzungen zufolge ist die Arbeitsunfähigkeitsdauer bei einer psychischen Störung durchschnittlich um den Faktor 3 höher als bei somatischen Krankheiten (Albani et al. 2008). Die Ursachen für den Anstieg psychischer Störungen in der Erwerbswelt sind als multifaktoriell anzunehmen. Entstigmatisierung psychischer Störungen, erhöhte diagnostische Sensitivität in der hausärztlichen Versorgung sowie beschleunigte und entgrenzte Arbeitsprozesse sind mögliche Faktoren (Meyer et al. 2022).

Neben der individuellen Beeinträchtigung stellen psychisch fehlbeanspruchte oder erkrankte Mitarbeitende auch Unternehmen vor Herausforderungen. Die Phänomene des Absentismus und Präsentismus sind in ihren betriebswirtschaftlichen Folgen derweil besser untersucht (Curran et al. 2007; Bubonya et al. 2017). Abseits der krankheitsbedingten Ausfallzeiten können sich für Unternehmen erhebliche indirekte Krankheitskosten ergeben. So entspricht die krankheitsbedingte reduzierte Leistungsfähigkeit einer beschäftigten Person, die unter depressiven Episoden leidet, trotz physischer Anwesenheit am Arbeitsplatz annährend 2,3 Arbeitsunfähigkeitstagen pro Monat (Wang et al. 2004).

Trotz der Tatsache, dass in empirischen Studien eine Berufstätigkeit zumeist als protektiver Faktor für psychisches Wohlergehen identifiziert wird (Oliveros et al. 2022), finden sich auch in Populationen von Erwerbstätigen bedeutsame Anteile psychisch Erkrankter. Im Jahr 2006 fanden Roesler und Kolleg*innen in einer für die deutsche Erwerbsbevölkerung repräsentativen Untersuchung, dass in einem 12-Monatszeitraum neben Suchterkrankungen (14,4 %, Nikotinabusus eingeschlossen) vor allem Angst- (12 %), somatoforme (9,7 %) und affektive Störungen (9,3 %) auftraten (Roesler et al. 2006).

Arbeitsbedingte psychische Belastung, Fehlbeanspruchungen und die Entstehung von Schädigungen, z. B. psychische Störungen, werden in Wissenschaft und Praxis begrifflich nicht immer trennscharf verwendet (Ferreira und Vogt 2022). Für die Annahme, dass sich aus psychischer Belastung und Fehlbeanspruchung am Arbeitsplatz mit höherer Wahrscheinlichkeit psychische Störungen entwickeln können, liegt inzwischen jedoch eine beachtenswerte Evidenz vor. Auf meta-analytischer Auswertungsgrundlage prospektiver Studien ist wiederholt gezeigt worden, dass bestimmte Risikokonstellationen, darunter hohe Anforderungen bei geringer Kontrolle oder das Erleben gratifikationskritischer Arbeitsbedingungen, mit einer bedeutsam erhöhten Wahrscheinlichkeit verbunden sind, im Zeitverlauf an einer depressiven Episode zu erkranken (Theorell et al. 2015; Rugulies et al. 2017). Demnach kann angenommen werden, dass verschiedene Indikatoren für psychische Fehlbeanspruchungen am Arbeitsplatz als mögliche Prädiktoren psychischer Störungen fungieren.

Dass Führung und Führungsbeziehungen wichtige Einflussgrößen in Bezug auf Wohlbefinden und Gesundheit der Beschäftigten darstellen, ist vielfältig gezeigt worden (Kuoppala et al. 2008). Während jedoch als hilfreich angenommenes Führungsverhalten in der Wirkung auf erwünschte Outcomes die Leadership-Forschung historisch prägte, ist die wissenschaftliche Auseinandersetzung mit Destruktivität und Dysfunktionen im betrieblichen Führungskontext vergleichsweise neu (Thoroughgood 2021).

3 Destruktive und dysfunktionale Führungsformen

Unter dem Oberbegriff der destruktiven Führung sind derzeit unterschiedliche Ansätze einzuordnen. Weder die Begriffsdefinition noch die Operationalisierung kennzeichnender Elemente erfolgt bisher einheitlich. Insbesondere der Ansatz der Abusive Supervision (Tepper 2000, 2007) erfreut sich in empirischen Studien größerer Beliebtheit (Schyns und Schilling 2013; Mackey et al. 2017). Dies steht sicher mit der Tatsache in Verbindung, dass neben der theoretischen Entwicklung des Ansatzes auch die Konstruktion eines psychometrischen Inventars frühzeitig erfolgte. Tepper (2000, S. 178) definiert Abusive Supervision als durch die Beschäftigten wahrgenommenes feindseliges Verhalten einer Führungsperson, welches sich sowohl verbal als auch non-verbal ausdrückt, dabei jedoch keine physischen Übergriffe umfasst.

Zu den ursächlichen Bedingungen (Rice et al. 2021; Kiewitz et al. 2012), kontextuellen Einflussfaktoren (Mawritz et al. 2014) sowie Merkmalen der Beschäftigten, welche Abusive Supervision vornehmlich erleben (Henle und Gross 2014), liegen inzwischen Studienergebnisse vor. Ebenso sind die Folgen für Unternehmen zunehmend umfänglicher untersucht, darunter eine abnehmende Kreativität von Beschäftigten (Liu et al. 2012), die Zunahme organisationsschädigender Verhaltensweisen (Sulea et al. 2013) sowie eine gesteigerte Kündigungsabsicht (Özkan 2021).

Auch Destructive Leadership (Einarsen et al. 2007; Schyns und Schilling 2013; Thoroughgood et al. 2012), Toxic Leadership (Lipman-Blumen 2005; Whicker 1996), Petty Tyranny (Ashforth 1994), Despotic Leadership (De Hoogh und Den Hartog 2008) sowie die aus den Persönlichkeitsdispositionen Narzissmus, Machiavellismus und Psychopathie bestehende dunkle Triade (Padilla et al. 2007; Paulhus und Williams 2002) werden als Formen destruktiver Führung konzeptualisiert. Obwohl das Führungsverhalten durch Passivität gekennzeichnet ist, wird in jüngeren Beiträgen vorgeschlagen, dass auch Laissez-Fair für Organisationen und Beschäftigte als schädlich und dysfunktional angesehen werden sollte (Fosse et al. 2019; Klasmeier et al. 2022).

3.1 Operationalisierung destruktiver Führung

Die dargestellten Ansätze weisen Gemeinsamkeiten und Unterschiede in Bezug auf die theoretische Konzeption sowie die empirische Operationalisierung auf. Ein Großteil setzt keine Schädigungsintention der führenden Person voraus. Stattdessen kann sich die destruktive Wirkung sogar aus ursprünglich funktionalen Zielsetzungen ergeben (Einarsen et al. 2007). Andere legen den definitorischen Fokus dagegen auf absichtsvollen Machtmissbrauch (Petty Tyranny, Ashforth 1994) oder gezielte Demütigung von Beschäftigten (Toxische Triade, Piotrowski 2018). Daneben ist zu unterscheiden, aus welcher Perspektive ein Führungsverhalten als destruktiv oder dysfunktional bewertet wird. Diesbezüglich konturieren einzelne Ansätze, dass es sich primär um ein Wahrnehmungsphänomen handelt (Tepper 2000), wohingegen andere den Versuch unternehmen, Persönlichkeitsmerkmale der Führungspersonen zu identifizieren (de Vries 2018).

Die Modelle von Einarsen et al. (2007) und Thoroughgood et al. (2012) sowie die Definition von Schyns und Schilling (2013) können als multidimensional bezeichnet werden. So wird bereits in der Definition destruktiver Führung auch die Einflussebene der Organisation berücksichtigt. Im Ansatz von Einarsen et al. (2007) wird Führungsverhalten auf den Dimensionen Beschäftigte sowie Organisation als zuträglich oder hinderlich eingeordnet, sodass sich vier Subformen destruktiver Führung ergeben (supportiv-disloyal, laissez-fair, entgleist, tyrannisch). Schyns und Schilling (2013) heben dagegen hervor, dass es sich um einen Prozess der Beeinflussung handelt, in dessen Folge Aktivitäten einer Führungskraft durch die Beschäftigten über längere Zeiträume hinweg als feindlich wahrgenommen werden. Dieser Definition zufolge werden ineffektive oder passive Führungsformen nicht als Teil destruktiver Führung aufgefasst, da das Merkmal der aktiven Feindseligkeit fehlt. Im Unterschied zu Bullying und Mobbing (Nielsen und Einarsen 2018) handelt es sich um wiederkehrende Verhaltensmuster der Untergrabung, Sabotage oder Schädigung durch hierarchisch höher gestellte Führungspersonen (Einarsen et al. 2007; Thoroughgood et al. 2012).

Für die empirische Erfassung liegen unterschiedliche Erhebungsinstrumente vor, die hinsichtlich ihrer psychometrischen Güte überprüft wurden. Neben der inzwischen vielfältig übersetzten Abusive Supervision Scale (Tepper 2000) sind die Destructive Leadership Scale (Einarsen et al. 2002), das Destructive Leadership Questionnaire (Shaw et al. 2011) und die Petty Tyranny Scale (Ashforth 1994) gebräuchlich.

3.2 Prävalenz destruktiver Führung

Zur Verbreitung destruktiver Führungsformen liegen bisher nur wenige aussagekräftige Untersuchungen vor. Für die norwegische Erwerbsbevölkerung ermittelten Aasland et al. (2010) in einer repräsentativen Studie, dass 33,5 bis 61 % der Befragten innerhalb der letzten 6 Monate eine Form destruktiver Führung erlebten. Dies legt nahe, dass es sich um ein verbreitetes Phänomen handeln könnte. Passive Formen destruktiver Führung wurden dabei bedeutsam häufiger wahrgenommen als aktive. Shaw et al. (2015) untersuchten in einer kulturvergleichenden Studie, mit welcher Häufigkeit Beschäftigte in den USA, Australien und Iran ihre Vorgesetzten als destruktiv empfanden und ob einzelne Merkmale (z. B. Micromanaging) kulturabhängig vermehrt erlebt wurden. Trotz diskreter Unterschiede mit insgesamt höheren Ausprägungen in der iranischen Studienstichprobe zeigte sich ein vergleichbares Muster in der Wahrnehmung und Konstitution destruktiver Führung.

Auch für den deutschen Sprachraum muss bisher ein Mangel an geeigneten arbeitsepidemiologischen Untersuchungen zur Verbreitung destruktiver Führung und dem Einfluss auf Beschäftigte konstatiert werden. Das wissenschaftliche Institut der AOK führt auf repräsentativer Datengrundlage regelmäßig Befragungen Erwerbstätiger zu den Themen Führung, Gerechtigkeit und Beschäftigtengesundheit durch. So gaben im Jahr 2010 54,5 bis 62,4 % der Befragten an, sich selten oder nie von ihren Vorgesetzten wertgeschätzt zu fühlen. Ein bedeutsamer Anteil der Beschäftigten empfand sich als ungerecht behandelt (25,1 %) oder bewertete das Verhältnis zur Führungskraft als unkollegial (21,4 %). Statistisch bedeutsame Zusammenhänge zwischen der wahrgenommenen Qualität des Führungsverhaltens sowie der Beschäftigtengesundheit konnten sowohl für das psychische als auch somatische Wohlergehen identifiziert werden (Zock 2011). Im Jahr 2020 konnte eine in Deutschland durchgeführte, repräsentative Untersuchung zeigen, dass 41 % der Befragten unter einer mangelnden Anerkennung und Wertschätzung durch ihre Vorgesetzten litten, zugleich fanden sich Zusammenhänge zwischen arbeitsplatzbezogenem Ungerechtigkeitserleben und kognitiven, emotionalen sowie psychosomatischen Beschwerden (Waltersbacher et al. 2020). Auch wenn diese Untersuchungen keinen der dargestellten Ansätze destruktiver Führung zugrunde legten, so können die Ergebnisse doch als Hinweis für eine größere Verbreitung des Phänomens in Bezug auf die psychische Beschäftigtengesundheit betrachtet werden. Schließlich wählten Bormann et al. (2020) eine andere Herangehensweise, um zu einer zumindest indirekten Einschätzung zur Verbreitung wahrgenommener destruktiver Führung zu gelangen. Trotz offensichtlicher methodischer Einschränkungen unterstreichen auch diese Ergebnisse die mögliche Relevanz in der Arbeitswelt. Auf Grundlage einer Auswertung von über 37.000 Einträgen auf der Arbeitgeberbewertungsplattform Kununu zeigte sich, dass in 85 % der bewerteten Unternehmen toxisches Führungsverhalten durch die Beschäftigten empfunden wurde. In 21 % der Unternehmen ergab sich sogar ein sehr einheitliches Bewertungsmuster, welches auf ein ausgeprägt destruktives Führungsklima hindeutete.

3.3 Empirische Studienlage zu destruktiver Führung

Neben einer frühen Übersicht und Systematisierung von Befunden zu Abusive Supervision (Tepper 2007) liegen inzwischen unterschiedliche Reviews und Meta-Analysen zu destruktiven Führungsformen vor. Der analytische Fokus variiert und reicht von theoretisch-konzeptueller Ausrichtung (Krasikova et al. 2013), über Modellerweiterungen einzelner Ansätze (Abusive Supervision: Martinko et al. 2013), die Analyse ursächlicher Faktoren (Zhang und Bednall 2012), das Auftreten in spezifischen Arbeitskontexten (z. B. Militär, Fosse et al. 2019), bis hin zu umfassenden meta-analytischen Auswertungen, welche den Zusammenhang zwischen destruktiven Führungsformen und verschiedenen Antezedenzien sowie Outcomes abbilden (Schyns und Schilling 2013). Die bisherige meta-analytische Evidenz deutet darauf hin, dass der Ansatz der Abusive Supervision in empirischen Primärstudien am umfänglichsten untersucht ist. Auf Basis von 380 identifizierten Primärstudien zu Abusive Supervision und verschiedenen Korrelaten, darunter Ursachen, Konsequenzen und Mediatoren, haben Fischer et al. (2021) kürzlich einen kritischen Review vorgelegt, in dem forschungsmethodische Probleme des Feldes herausgestellt werden.

Erste empirische Hinweise deuten auf mögliche interkulturelle Unterschiede in der Wahrnehmung von und Reaktion auf destruktive Führungsformen hin. So zeigte sich in der Untersuchung von Vogel et al. (2015), dass Beschäftigte aus dem angloamerikanischen Raum bedeutsam negativer (höheres organisationales Ungerechtigkeitserleben, geringere Leistungsbereitschaft) auf Abusive Supervision reagierten als Beschäftigte aus dem asiatischen Raum. Ebenso scheinen bestimmte kulturelle Werte (z. B. Bedürfnis nach sozialer Anerkennung) das Ausmaß zu beeinflussen, in dem Beschäftigte unter destruktiven Führungsformen leiden (Kernan et al. 2011).

Übergreifende theoretische Modelle zum Einfluss auf das psychische Wohlergehen fehlen bisher. Empirische Untersuchungen beziehen sich zumeist auf bestehende Modellannahmen (z. B. Organisationale Gerechtigkeit, Selbstwirksamkeit), um so indirekte Schlussfolgerungen in Bezug auf die Folgen destruktiver Führung für die psychische Gesundheit Beschäftigter abzuleiten.

Während in einzelnen vorausgegangenen Reviews die Beschäftigtengesundheit als eine Betrachtungsebene mitberücksichtigt wurde, liegt bisher keine systematische Übersicht vor, welche umgrenzt die empirische Studienlage zu destruktiver Führung und psychischer Beschäftigtengesundheit fokussiert. Zudem hat die Anzahl veröffentlichter Studienergebnisse zu den Folgen destruktiver Führungsformen in den letzten Jahren bedeutsam zugenommen (z. B. Lopes et al. 2019; Sannes et al. 2021).

4 Gegenstand und Zielsetzungen

Gegenstand der vorliegenden Untersuchung ist eine Systematisierung von Primärstudien, welche den Zusammenhang zwischen destruktiven Führungsformen und psychischer Beschäftigtengesundheit überprüfen. Hierbei soll ein breiterer Fokus gewählt werden, der den Einschluss unterschiedlicher Primärstudien ermöglicht. Dies erscheint aufgrund des jungen empirischen Forschungsfeldes zielführend. Einschlusskriterien sind jedoch so eng zu fassen, dass eine inhaltliche und methodische Vergleichbarkeit möglich ist. Ebenso sollen potenzielle Einflussfaktoren auf Befundheterogenität berücksichtigt werden, darunter das zugrunde gelegte Modell destruktiver Führung, der kulturelle Arbeitskontext oder das spezifische Studiendesign. Demzufolge ist die Zielsetzung nicht nur in der Ermittlung einer einzelnen gepoolten Effektstärke zu sehen. Vielmehr soll das Forschungsfeld in seinen kennzeichnenden Merkmalen untersucht werden, um so eine methodenkritische Diskussion anschließen zu können. Folgende Fragestellungen sollen adressiert werden:

  • Von welcher methodischen Qualität sind bisherige Primärstudien?

  • Wie werden Indikatoren sowohl für destruktives Führungsverhalten als auch für psychische Beschäftigtengesundheit empirisch erfasst?

  • Welche Formen der psychischen Beeinträchtigung Beschäftigter werden im Kontext destruktiver Führung untersucht?

  • Ergeben sich auf Grundlage bestimmter Studienmerkmale (z. B. Modell destruktiver Führung, kultureller Arbeitskontext, Art der psychischen Beeinträchtigung) Unterschiede zwischen ermittelten Effektstärken?

  • Als wie robust sind die Ergebnisse zu bewerten, wenn Effektstärken über Einzelbefunde hinweg aggregiert und verzerrende Effekte berücksichtigt werden?

5 Methodisches Vorgehen

Die Durchführung dieses Reviews orientierte sich an den PRISMA-Richtlinien (Moher et al. 2009). Auf Grundlage definierter Ein- und Ausschlusskriterien sowie einer systematischen Literatursuche wurde ein Sample an geeigneten Studien identifiziert. Anschließend wurde eine Datenextraktion und Codierung von Studienmerkmalen vorgenommen, was den Ausgangspunkt für die inhaltliche und quantitative Aggregation der Befunde darstellte. In den folgenden Abschnitten wird zunächst das methodische Vorgehen weiterführend expliziert.

5.1 Suchstrategien und Einschlusskriterien

Die Literatursuche erfolgte mittels einer Stichwortsuche in vier wissenschaftlichen Literaturdatenbanken (Medline, PsychINFO, Pubmed, Scopus). Zuvor wurde ein Pool an SuchbegriffenFootnote 1 generiert, welche als indikativ für die beiden zentralen Konstrukte (1. Destruktive Führung, 2. Psychische Beschäftigtengesundheit) angesehen wurden. Zur Identifikation unterschiedlicher Schreibweisen wurde der Wortstamm eines Begriffs verwendet. Die Referenzlisten als geeignet bewerteter Primärstudien sowie vergangener Übersichtsarbeiten wurden auf weitere Artikel hin überprüft. Schließlich diente die Suche in Google Scholar sowie Dissertation Abstracts der Identifikation bisher unveröffentlichter Manuskripte (z. B. Dissertationen). Eine Einschränkung des Publikationszeitraums wurde nicht vorgenommen. Die Literatursuche wurde am 31.01.2023 letztmalig aktualisiert.

Für eine Berücksichtigung mussten Primärstudien verschiedene Kriterien erfüllen: (a) Bezug zu einem vorbeschriebenen Modell destruktiver Führung, für das in der Vergangenheit empirische Erhebungsmethoden entwickelt wurden (b) Psychische Beeinträchtigungen oder Störungen werden über psychometrisch überprüfte Inventare ermittelt (c) Studiendesigns folgen einem prospektiven, querschnittlichen oder experimentellen Aufbau (d) Die untersuchten Proband*innen sind erwerbstätig (e) Daten werden hinreichend ausführlich berichtet, sodass eine Effektstärke für den Ergebnisbefund berechnet oder verwendet werden kann.

5.2 Codierung und Datenerfassung

Geeignete Primärstudien wurden in Bezug auf relevante Studien- und Stichprobenmerkmale codiert. Neben der Extrahierung von Merkmalen des Studiendesigns, der Operationalisierung und Erhebung destruktiver Führung sowie der Definition und Erfassung für das Vorliegen psychischer Beeinträchtigungen (z. B. Grenzwerte klinischer Skalen) wurden deskriptive Charakteristika der untersuchten Stichproben codiert, darunter berufliche Tätigkeits- und Beschäftigungsfelder, Geschlechterverteilungen sowie Altersangaben. Es ist darauf hinzuweisen, dass nicht alle veröffentlichten Primärstudien detaillierte Angaben zu den genannten Variablen machten. Diejenigen empirischen Befunde aus Primärstudien, welche nur unvollständige Angaben zu bestimmten Stichprobenmerkmalen machen, unterliegen einem höheren Risiko potenzieller Verzerrungen (Sutton und Pigott 2005). Dies wird in Form einer späteren Sensitivitätsanalyse berücksichtigt.

5.3 Berechnung von Effektstärken

Die Durchführung aller statistischen Analysen erfolgte mit der Software Comprehensive Meta-Analysis (CMA-Version 4). Der Großteil der Primärstudien untersuchte die Variablen auf Basis kontinuierlich ausgeprägter Messinstrumente, sodass der Korrelationskoeffizient r als Effektstärkemaß festgelegt wurde. Einzelne Primärstudien berichteten Ergebnisse jedoch ausschließlich in Form von Regressionsanalysen (β-Koeffizienten). Um gepoolte Effektstärken berechnen zu können, wird eine einheitliche Metrik der Studieneffektstärken benötigt. Demzufolge wurde auf ein Verfahren zurückgegriffen, dass die Schätzung von r auf Grundlage berichteter Regressionsanalysen erlaubt (Peterson und Brown 2005). Dieses Vorgehen birgt gewisse Verzerrungsrisiken (Roth et al. 2018), sodass eine Sensitivitätsanalyse ausgeführt wurde, welche den Einfluss dieser transformierten Effektstärken auf die gepoolte Effektstärke überprüft.

Zur Berechnung gepoolter Effektstärken wurde ein Random-Effects Modell verwendet, welches davon ausgeht, dass sich Befundheterogenität zwischen Primärstudien nicht nur über den Stichprobenfehler, sondern auch über zusätzliche Quellen ergibt, z. B. Studiendesign (Borenstein et al. 2010). Studieneffektstärken wurden anhand der Kehrwerte ihrer Varianzen zu einer gewichteten Gesamteffektstärke integriert, d. h. Primärstudien mit höherer Präzision (z. B. größere Studienstichprobe) erhalten relativ gesehen höheres Gewicht am Gesamteffekt. Als Indikatoren für die Heterogenität zwischen den eingeschlossenen Studien wurden die I2- bzw. die Q-Statistik verwendet.

5.4 Umgang mit multiplen Outcome-Maßen

Aufgrund der teilweisen Verwendung verschiedener Outcome-Indikatoren für psychische Beeinträchtigungen (z. B. Angst, Depressivität) pro einbezogener Primärstudie resultierten mehrere Effektstärken, die nicht unabhängig voneinander sind. Dies stellt jedoch eine Voraussetzung zur Ermittlung möglichst unverzerrter gepoolter Effektstärken dar. Infolgedessen wurde unter Berücksichtigung der Korrelation zwischen den Ergebnismaßen (z. B. Angst, Depressivität) je eine durchschnittliche Studieneffektstärke berechnet und für die über alle Primärstudien hinweg gepoolte Effektstärke verwendet (Hedges 2019).

5.5 Durchführung von Subgruppenanalysen

Ob die ermittelten Effektstärken mit bestimmten Studienmerkmalen assoziiert sind, wurde mittels einer Subgruppenanalyse zu folgenden Kategorien überprüft:

  • Modell destruktiver Führung

  • Ausprägungsform psychischer Beeinträchtigung

  • Studiendesign

  • Kultureller Erwerbsarbeitskontext

Hierfür wurden die Effektstärken anhand der jeweiligen Kategorie gruppiert (z. B. Europa, Asien, Nordamerika) und anschließend auf signifikante Unterschiede zwischen den Gruppen hin analysiert.

5.6 Risiko von Verzerrungen

Für jede Primärstudie wurde das individuelle Risiko verzerrter Ergebnisse anhand der folgenden Merkmale evaluiert: (a) Möglichkeit kausaler Inferenz in Abhängigkeit vom Studiendesign (b) Verwendung einfacher vs. multi-methodaler Datenquellen (c) Ausführlicher Bericht von Stichprobendaten (d) Berücksichtigung konfundierender Variablen.

Der Einfluss von Publikationsverzerrungen auf die Ergebnisse wurde mittels einer Trim-and-Fill Analyse eingeschätzt (Duval und Tweedie 24,25,a, b). Bei Publication Bias handelt es sich um die Überschätzung mittlerer Effektstärken aufgrund der Tatsache, dass insignifikante oder kleine Effekte mit geringerer Wahrscheinlichkeit veröffentlicht und damit schwieriger identifiziert werden (Keppes et al. 2012). Unter bestimmten Verteilungsannahmen wird anhand einer grafischen Darstellung überprüft, wie viele Effektstärken eine Überrepräsentation positiver Zusammenhänge darstellen könnten. Auf dieser Grundlage erfolgt eine Spiegelung und Imputation negativer Befunde. Die so adjustierte gemittelte Effektstärke schätzt nun annäherungsweise den Einfluss von Publikationsverzerrungen (für eine detaillierte Darstellung vgl. Duval und Tweedie 24,25,a, b). Die Zielsetzung ist weniger darin zu sehen, einen exakten Wert für die Anzahl fehlender Primärstudien zu ermitteln. Vielmehr soll in einer Annäherung illustriert werden, wie veränderungssensitiv sich der gefundene Zusammenhang darstellt, wenn geschätzte Effekte nicht publizierter Primärstudien berücksichtigt werden (Duval 2005).

6 Ergebnisse

Abb. 1 illustriert den Prozess der Identifikation von Primärstudien. Insgesamt 36 Untersuchungen konnten auf Basis der Einschlusskriterien berücksichtigt werden. Ein Großteil bezog sich auf den Ansatz der Abusive Supervision (k = 30), wohingegen alternative Modelle zu destruktiven Führungsformen seltener waren (Petty Tyranny: k = 2; Destructive Leadership: k = 1; Andere, z. B. feindlicher, autoritärer Führungsstil, Merkmale der toxischen Triade: k = 7). Innerhalb einzelner Studien (k = 4) wurde destruktive Führung durch mehr als eines der vorbeschriebenen Modelle operationalisiert. Drei Veröffentlichungen führten auf unterschiedlichen Stichproben basierende Ergebnisse verschiedener Studien auf, sodass es möglich war, mehrere unabhängige Effektstärken zu integrieren. Unter den Indikatoren für psychische Beeinträchtigungen ergaben sich drei übergeordnete Kategorien: (1) subklinische Symptomausprägung psychischer Störungen (k = 20) (2) Burn-out und emotionale Erschöpfung (k = 11) (3) allgemeine Merkmale für aversiv erlebte psychische Beanspruchung (z. B. erhöhtes Stress- oder Hilflosigkeitserleben) (k = 11). Während in Kategorie (1) klinisch gebräuchliche Inventare zur Symptomschwere psychischer Störungen für die Operationalisierung herangezogen wurden, erfolgte in den Kategorien (2) und (3) eine Anwendung etablierter Befragungsinstrumente (z. B. Maslach Burnout Inventory oder General Health Questionnaire). Einige Primärstudien untersuchten Ergebnisendpunkte verschiedener Kategorien (z. B. Pyc et al. 2016). Die Studie von Schmid et al. (2018) betrachtete negativen Affekt als Outcome, was in einzelnen anderen Untersuchungen als moderierende Variable erfasst (z. B. Bortolon et al. 2019), häufig jedoch gänzlich nicht einbezogen wurde.

Abb. 1 Fig. 1
figure 1

Flow-Chart zum Prozess der Studienauswahl

Flow chart of the study selection process

Von den 36 Primärstudien wurden 11 in Europa, 11 in Asien und 14 in Nordamerika durchgeführt. Die Größe der Studienstichproben (N = 90–2058), das durchschnittliche Alter (22,1–47,9 Jahre) sowie die Geschlechterverteilung (0–94,7 % weiblich) ist als heterogen zu bezeichnen. Lediglich in 12 der eingeschlossenen Studien erfolgte eine nähere Beschreibung des spezifischen beruflichen Tätigkeitsfeldes (z. B. Krankenpflege). In den verbleibenden Untersuchungen wurden allgemeine Bezeichnungen verwendet (z. B. allgemeine Erwerbsbevölkerung). Fünf Primärstudien untersuchten Führungskraft-Beschäftigten Cluster, in denen sich eine je nach Untersuchung variierende Anzahl an Beschäftigten auf eine konkrete Führungskraft bezog. Sechs Studien wiesen ein prospektives Studiendesign auf (Erhebungsintervall: 2 Wochen bis 12 Monate), jedoch ohne Kontrolle der abhängigen Variablen zum initialen Erfassungszeitpunkt. Die verbleibenden Untersuchungen wurden im Querschnitt ausgeführt (k = 27). In 3 Untersuchungen – teils ergänzend zur korrelativen Analyse querschnittlicher Datenerhebungen – wurden Ergebnisse aus experimentellen Studienbedingungen berichtet. Dabei wurde die Wahrnehmung destruktiver Führung durch Vignettendarstellung manipuliert und in ihrem Einfluss auf Indikatoren für psychische Beeinträchtigungen überprüft. Tab. 1 führt deskriptive Merkmale der Primärstudien in einer Übersicht auf.

Tab. 1 Table 1 Übersicht zu deskriptiven Merkmalen der eingeschlossenen PrimärstudienOverview of descriptive features of the included primary studies

Als übergeordneter Indikator für den Zusammenhang von destruktiven Führungsformen und psychischer Beschäftigtengesundheit wurde auf Grundlage des Random-Effects Modells eine gepoolte Effektstärke ermittelt (k = 36, r = 0.31, CI95 0,26–0,37). Demnach ist von einer kleinen bis mittleren Korrelation zwischen den untersuchten Konstrukten auszugehen. Die gepoolten Effektstärken für Untersuchungen, in denen destruktive Führung ausschließlich über den Ansatz der Abusive Supervision (k = 26; r = 0.32, CI95 0,26–0,38) operationalisiert wurde, fielen nummerisch geringfügig höher aus als bei Zugrundelegung anderer Ansätze (k = 6; r = 0.26, CI95 0,15–0,37). Unter den Kategorien für psychische Beeinträchtigungen konnte die höchste Effektgröße mit einer mittleren Korrelation von r = 0,42 (k = 8; CI95 0,27–0,55) für Studien ermittelt werden, in denen ausschließlich allgemeine Merkmale aversiv erlebter psychischer Beanspruchung erfasst wurden. Für die auf Burn-out und emotionale Erschöpfung (k = 6; r = 0.36, CI95 0,26–0,46) oder subklinische Symptomausprägung psychischer Störungen (k = 16; r = 0.27, CI95 0,19–0,35) beschränkten Studien fielen die gemittelten Korrelationen geringfügig kleiner aus. Vergleichbare Ergebnisse ergaben sich auch für Studien, in denen sich die Outcomes auf unterschiedliche Kategorien bezogen (k = 6; r = 0.25, CI95 0,18–0,32).

Tab. 2 führt die Ergebnisse der Subgruppenanalyse auf. Hierbei wurde der Einfluss moderierender Faktoren auf die Effektstärken untersucht. Es erfolgte eine Gruppierung in vier kategoriale Variablen, um anschließend überprüfen zu können, ob sich die gepoolten Effektstärken zwischen den Gruppen bedeutsam voneinander unterscheiden. Für keine der untersuchten Subgruppen, d. h. (1) Modell destruktiver Führung (Qb (1) = 0.54, p = 0,46), (2) Ausprägungsform psychischer Beeinträchtigung (Qb (2) = 4,41, p = 0,11), (3) Studiendesign (Qb (2) = 0.77, p = 0,68), (4) Kultureller Erwerbsarbeitskontext (Qb (2) = 2.65, p = 0,27), erreichten die Größenunterschiede der gepoolten Effektstärken statistische Signifikanz.

Tab. 2 Table 2 Subgruppenanalyse zu Zusammenhängen von Studienmerkmalen und gemittelten EffektstärkenSubgroup analysis of associations between study characteristics and averaged effect sizes

Das Risiko für Verzerrungen ist auf Ebene der einzelnen Primärstudien und der gepoolten Effektgröße evaluiert worden. Mit 27 Querschnittstudien, von denen der Großteil Selbstbefragungsinventare anwendet und nur einige die Berücksichtigung wichtiger konfundierender Variablen (z. B. negativer Affekt) explizieren, erscheint der Gesamtstudienpool für Verzerrungen anfällig. Wie in Abb. 2 illustriert, lieferte die Trim-and-Fill Analyse zudem Hinweise auf Publication Bias. Die Anzahl von 13 geschätzten Effektgrößen, welche als Überrepräsentation positiver Befunde anzusehen sind, kann als hoch betrachtet werden. Die Adjustierung für Publikationsverzerrungen führte dazu, dass sich die gepoolte Effektstärke (r = 0.31, CI95 0,26–0,37) auf r = 0,20 (CI95 0,13–0,26) verringerte. Dagegen ist die Sensitivität gegenüber einer Herausnahme von Primärstudien, in denen Stichprobenangaben fehlten (vgl. 5.2, k = 3, r = 0.32, CI95 0,26–0,38) oder das Effektstärkemaß transformiert wurde (vgl. 5.3, k = 2, r = 0,32, CI95 0,26–0,37) als gering anzusehen.

Abb. 2 Fig. 2
figure 2

Ergebnisse der Trim-and-Fill Analyse zum Einfluss von Publikationsverzerrungen

Results of the trim-and-fill analysis on the influence of publication bias

7 Diskussion

Im folgenden Abschnitt wird eine zusammenfassende Einordnung und kritische Diskussion der Ergebnisse vorgenommen, um auf dieser Grundlage weitere Schlussfolgerungen für Forschung und Praxis ableiten zu können.

7.1 Zusammenfassung und Einordnung der Ergebnisse

Die vorgestellten Ergebnisse deuten auf einen kleinen bis mittleren korrelativen Zusammenhang zwischen Indikatoren für destruktive Führung und psychische Beschäftigtengesundheit hin (r = 0.31, CI95 0,26–0,37). Die bisherige Studienlandschaft bezieht sich vornehmlich auf den Ansatz der Abusive Supervision und ist wesentlich durch querschnittliche Studiendesigns charakterisiert. Neben Inventaren zu allgemeinen Merkmalen aversiv erlebter psychischer Beanspruchung wurden Burn-out und emotionale Erschöpfung sowie subklinische Symptome psychischer Störungen zur Outcome-Operationalisierung herangezogen. In der Subgruppenanalyse fanden sich keine Hinweise, dass die mittleren Effektstärken mit den jeweils untersuchten Kategorien assoziiert sind. Aufgrund einiger Merkmale der eingeschlossenen Primärstudien sowie Anzeichen für Publication Bias ist derzeit von einem höheren Verzerrungspotenzial auszugehen.

Aufgrund der Tatsache, dass der Großteil bisheriger Studien einem querschnittlichen Design folgt und die Datengrundlage auf Angaben der Beschäftigten beschränkt ist, ergeben sich potenzielle methodische Artefakte. Diese werden innerhalb der jeweiligen Untersuchungen nicht immer ausreichend berücksichtigt. Mit Begriffen wie Common Method Bias oder Single Source Bias sind in der Vergangenheit methodische Verzerrungen in den Sozial- und Verhaltenswissenschaften beschrieben worden (Podsakoff et al. 2003). Die Mehrzahl der identifizierten Primärstudien ist so aufgebaut, dass sowohl destruktive Führung als beeinflussende Variable als auch psychische Beeinträchtigungen als angenommene Wirkung aus derselben methodischen Quelle stammen, d. h. der subjektiven Evaluation der Beschäftigten. Zudem werden beide Parameter häufig zu nur einem Erhebungszeitpunkt (z. B. Bortolon et al. 2019) oder zeitlich nah beieinander (z. B. Carlson et al. 2012) erfasst. Hieraus können artifiziell erhöhte oder verringerte Korrelationen resultieren (Podsakoff et al. 2012). Als ursächlich gelten Phänomene wie das Streben nach Konsistenz in der Außenwirkung bzw. im Antwortverhalten sowie implizite Theorien bezüglich vermuteter Ähnlichkeiten von Items in unterschiedlichen Inventaren (Jordan und Troth 2020). Ein weiterer Einflussfaktor kann sich über Stimmungseffekte ergeben. So ist in vergangenen Untersuchungen gezeigt worden, dass vorübergehende Stimmungszustände sowie stimmungsassoziierte Dispositionen, darunter insbesondere negativer Affekt, sich auf das Antwortverhalten von Individuen auswirken (Podsakoff et al. 2003). Dies ist im hier untersuchten Forschungsfeld von hervorgehobener Bedeutung.

Negativer Affekt ist nach Watson und Clark (1984) definiert als aversiv erlebter emotionaler Spannungszustand, in den unterschiedliche emotionale Qualitäten eingehen. Ähnlichkeiten zum Persönlichkeitsmerkmal des Neurotizismus sind wiederholt ermittelt worden (Barlow et al. 2014). Unabhängig von Pathologien scheinen sich Personen in der negativ-affektiven Reaktivität in Bezug auf ihre Umwelt zu unterscheiden. Dies betrifft auch den Erwerbsarbeitskontext (Kapplan et al. 2009). Für verschiedene psychische Belastungssituationen und umgrenzte psychische Störungen (Falco et al. 2013; Stanton und Watson 2014) ist ein erhöhtes Auftreten von negativem Affekt identifiziert worden. Sowohl die Zusammenhänge von Stresserleben und Arbeitszufriedenheit (Brief et al. 1988) als auch beruflichen Gratifikationskrisen und psychischer Gesundheit (Arial und Wild 2011) scheinen durch negativen Affekt bedeutsam mediiert zu werden. Eine Berücksichtigung negativen Affekts als mögliche konfundierende Co-Variable erscheint demnach auch in Untersuchungen zu destruktiver Führung und psychischer Beschäftigtengesundheit zentral, erfolgt bisher aber nur in vereinzelten Primärstudien (z. B. Wu und Hu 2009).

Neben negativem Affekt als eher übergreifender Disposition können auch vorübergehende Stimmungszustände das Antwortverhalten beeinflussen (Podsakoff et al. 2003). Dies kann im vorliegenden Studienpool als besonders kritisch angesehen werden. Mit 27 Primärstudien, welche auf querschnittlichen Studiendesigns basieren, erhebt der deutliche Großteil sowohl die Wahrnehmung destruktiver Führung als auch die Indikatoren für psychische Beeinträchtigungen zu nur einem Indexzeitpunkt. Trotz der Tatsache, dass Befragte instruiert werden, ihre Stimmungslage oder das Empfinden gegenüber ihrer Führungskraft in Bezug auf einen vorgegebenen Zeitraum zu bewerten, können situative Ereignisse derartige Einschätzungen nachhaltig beeinflussen. In einigen Untersuchungen wird der Versuch unternommen, diesen Bias durch zeitlich verzögerte Erhebung der Variablen zu verringern (z. B. Stempel und Rogotti 2022).

Die Bedeutung zeitlicher Dimensionen ist in der bisherigen Studienlandschaft kaum untersucht, darunter die Frage, wie lange eine Person in einem Arbeitskontext tätig war, in dem eine Führungskraft als toxisch empfunden wurde. Wahrendorf und Chandola (2016) weisen darauf hin, dass die arbeitsepidemiologische Forschung zu Stress- und Belastungsfaktoren stärker einer Lebensverlaufsperspektive folgen sollte. Die Erhebung stressinduzierender Variablen und deren angenommene Wirkung zu nur einem Zeitpunkt ist dagegen mit weitreichenden Einschränkungen verbunden. Sofern die kumulative Exposition gegenüber einem arbeitsplatzbezogenen Stressor nicht hinreichend berücksichtigt wird, können tatsächlich bestehende Zusammenhänge eine Unterschätzung erfahren. Derzeit fehlen aussagekräftige prospektive Kohortenstudien, in denen die Wahrnehmung destruktiver Führung als Prädiktor das spätere Auftreten psychischer Beeinträchtigungen vorhersagt. Zweifellos sind solche Studiendesigns aufwändig, sie stellen aber die Voraussetzung für robuste Aussagen über Wirkrichtungen dar. Für andere Konstrukte zu arbeitsplatzbezogenem Stresserleben finden sich derartige Studiendesigns inzwischen in höherer Anzahl. So ist gezeigt worden, dass bei psychisch zunächst gesunden Personen, die ihre Erwerbsarbeit als gratifikationskritisch erleben, das Auftreten depressiver Symptome im Zeitverlauf 1,5-fach erhöht ist (Rugulies et al. 2017).

Alle bisher gebräuchlichen Inventare zu destruktiver Führung sind auf das subjektive Erleben der Beschäftigten beschränkt. Dennoch werden Ergebnisse mitunter so diskutiert, als seien objektive Verhaltensmerkmale einer Führungskraft erfasst worden. Aufgrund dieser Konfusion der Perspektiven ist die empirische Forschung zu destruktiven Führungsformen einer anhaltenden Kritik ausgesetzt (Fischer et al. 2021; Mackey et al. 2017), die im hier untersuchten Kontext eine Zuspitzung erfährt. Während wenig fraglich erscheint, dass feindliches Führungsverhalten sich auf die psychische Gesundheit Beschäftigter ungünstig auswirken kann, so ist auch bekannt, dass bei psychisch beeinträchtigten Individuen bestimmte Wahrnehmungs- und Attributionsmuster häufiger auftreten, darunter die Tendenz, uneindeutige Situationen und Verhaltensweisen anderer als feindselig einzuordnen (Hostile Attribution Bias: Huebner et al. 2005; Smith et al. 2016; Trotta et al. 2021). Annahmen über Wirkrichtungen sind mit Einschränkungen verbunden. Erwägenswert ist, dass psychisch belastete Beschäftigte – unabhängig von der spezifischen Ursache – zu einer negativeren, pessimistischeren und als feindlich wahrgenommenen Einschätzung der Führungskraft neigen. Diesbezüglich lässt die derzeit vorherrschende empirische Forschungslogik keine robusten Schlussfolgerungen zu.

Eine theoretische Kritik am Diskurs zu destruktiver Führung, welche sich jedoch auch auf den hier untersuchten Gegenstand übertragen lässt, wurde von Thoroughgood et al. (2018) formuliert. Ein Großteil der Leadership-Forschung folgt nach wie vor einem auf die Person der Führungskraft beschränkten Leader-Zentrismus. Dabei wird häufig unzureichend berücksichtigt, dass Führung einen Prozess darstellt, auf den sich neben dem Verhalten der Führungskraft auch situative und kontextuelle Einflüsse der Umwelt (Vroom und Jago 2007) sowie Merkmale der Geführten (Thoroughgood et al. 2012) auswirken. Demzufolge erscheint der Versuch, mono-kausale Wirkzusammenhänge zu identifizieren, zunächst einmal unvollständig. Auch destruktive Führungsformen setzen voraus, dass die Führungskraft sich in einem Kontext bewegt, innerhalb dessen bestimmte Verhaltensweisen toleriert werden. Zudem sind Beschäftigte erforderlich, die der toxischen Führungskraft Folge leisten. Dies sind keineswegs neue Erkenntnisse (Schyns und Schilling 2013; Thoroughgood et al. 2012). Eine stärker systemtheoretische Perspektive auf den Zusammenhang von destruktiver Führung und psychischer Beschäftigtengesundheit unterstreicht aber, dass der Fokus auf in der Regel zwei Selbstbefragungsinventare, in denen die Wahrnehmung je eines Individuums grundlegend ist, voraussichtlich zu kurz greift. Am Beispiel der Abusive Supervision ist in früheren Untersuchungen (Martinko et al. 2013), aber auch jüngst (Fischer et al. 2021), grundsätzliche Kritik an der Konstruktvalidität des Erhebungsinstruments formuliert worden. So sei es verwunderlich, dass bisher wenig Versuche unternommen worden sind, die subjektive Evaluation der Befragten in Bezug auf das destruktive Führungsverhalten durch geeignete Außenkriterien zu validieren. Solange dies ausbleibt, sollte berücksichtigt werden, dass vornehmlich ein Wahrnehmungsphänomen untersucht wird.

Ähnliche methodologische Herausforderungen ergeben sich auch für andere psychologische Konstrukte und letztlich die gesamte empirische Führungsforschung (Banks et al. 2018; Fischer und Sitkin 2023; Podsakoff et al. 2003). Die potenziell tiefgreifenden und schädigenden Konsequenzen destruktiver Führung sollten vor diesem Hintergrund weder verharmlost noch in den Verantwortungsbereich der Beschäftigten delegiert werden. Vielmehr gilt es, identifizierte methodologische Einschränkungen künftig so zu berücksichtigen, dass die Befundlage auch im Sinne der Betroffenen eine eindeutigere Interpretation ermöglicht.

7.2 Implikationen für künftige Forschung

Aus den Ergebnissen dieses Reviews ergeben sich einige Implikationen für künftige Forschung. Zunächst erscheinen eine theoretische Vereinheitlichung und Weiterentwicklung von Erhebungsmethoden zum Konstrukt der destruktiven Führung wünschenswert. In einzelnen Untersuchungen wurde begonnen, eine Mehrebenen-Perspektive heranzuziehen, in dem das Erleben mehrerer Beschäftigter zu je einer Führungskraft ermittelt wird (z. B. Ashforth 1997; Bamberger und Bacharach 2006). Die subjektive Bewertung erfährt hierdurch eine Diversifikation, sodass bestimmte Verzerrungen reduziert werden können. Prospektive Studiendesigns könnten die Robustheit möglicher Schlussfolgerungen künftig erhöhen. Dafür notwendig wären im Zeitverlauf wiederholte Messungen, die neben der Wahrnehmung des Führungsverhaltens auch die Indikatoren für psychische Beeinträchtigungen umfassen.

Eine verstärkte Berücksichtigung der umfangreichen empirischen Forschung zu arbeitsbezogenen Emotionen erscheint ebenso nützlich, um den Erklärungswert von Zusammenhängen zwischen destruktiver Führung und psychischer Beschäftigtengesundheit zu erhöhen (Brief und Weiss 2002; Judge et al. 2006; Parkes 1990; Weiss und Cropanzano 1996). Für negativen Affekt gilt dies in besonderer Weise. Weder kulturelle Dimensionen der jeweiligen Arbeitsmärkte (z. B. höhere Akzeptanz gegenüber autoritären Führungsstilen) noch spezifische Merkmale bestimmter Tätigkeitsfelder (z. B. Personalsituation im Gesundheitswesen) sind in ihrem potenziellen Einfluss bisher ausreichend einbezogen.

In zwei früheren Reviews zum Ansatz der Abusive Supervision (Tepper 2007; Martinko et al. 2013) ist darauf hingewiesen worden, dass der Großteil an Untersuchungen querschnittlichen Studiendesigns folgt, was Aussagen über Wirkrichtungen stark einschränkt. Ein gutes Jahrzehnt später muss dies beim hier gewählten Fokus als weiterhin zutreffend konstatiert werden. Die wenigen Primärstudien, welche kein Querschnittsdesign aufweisen, erfassen sowohl die Indikatoren für destruktive Führung als auch psychische Gesundheit in kürzeren Zeitabständen. Hierbei ist zu berücksichtigen, dass dies keine prospektiven Kohortenstudien sind, in denen alle Variablen zu mehreren Erhebungszeitpunkten im Zeitverlauf erhoben werden. Der Versuch, die Wirkung destruktiver Führung in experimentellen Studien zu ermitteln, ist bisher auf die Darstellung von Fallvignetten und die Erfassung der unmittelbaren affektiven Reaktion beschränkt. Experimentelle Studien sind grundsätzlich geeignet, um Wirkrichtungen zu überprüfen. Neben ethischen Bedenken zeichnen sich im hier untersuchten Forschungsfeld jedoch insbesondere organisatorische Grenzen ab.

Angesichts der gegenwärtigen Studienlage erscheint eine vermehrte Durchführung qualitativer Studiendesigns zielführend. So könnten aus der Führungsbeziehung resultierende Muster psychischer Beeinträchtigung identifiziert werden. Zudem bestünde die Möglichkeit, als toxisch empfundene Führungskräfte ihrerseits zu ihrem subjektiven Erleben des Führungsprozesses und der beeinflussenden Ebenen zu befragen (z. B. Organisationsklima). Obwohl dies zunächst einer anderen Forschungslogik folgen würde, so ist doch ein Erkenntnisgewinn möglich, welcher für die Weiterentwicklung und Konstruktion von Erhebungsinstrumenten zu destruktiver Führung nützlich sein könnte.

7.3 Implikationen für die Praxis

Trotz der diskutierten Limitationen des gegenwärtigen Forschungsfeldes kann ein besonderer Bedarf gesehen werden, dass Praktiker*innen dem Thema eine erhöhte Aufmerksamkeit entgegenbringen. Bereits in der Gefährdungsbeurteilung psychischer Belastungen am Arbeitsplatz ist Führung als wichtiger zu evaluierender Parameter identifiziert worden, insbesondere die Frage, inwiefern Beschäftigte sich anerkannt und wertgeschätzt durch ihre Vorgesetzten fühlen (Dettmers und Krause 2020). Führung als interpersonaler Prozess hat das Potenzial, die Motivation, Leistungsbereitschaft und das Wohlergehen der Beschäftigten günstig zu beeinflussen. Daraus ergibt sich jedoch notwendigerweise, dass auch Frustration, Resignation sowie Leidensdruck mögliche Erfahrungsfolgen einer Führungsbeziehung sein können. Neben betrieblichen Angeboten für Beschäftigte, in denen eine belastete Beziehung zur Führungskraft zum Thema werden darf, kann es als bedeutsam betrachtet werden, dass auch Führungskräfte Unterstützung darin erhalten, ihren Umgang mit psychisch beeinträchtigten oder erkrankten Beschäftigten zu professionalisieren. Dies könnte zu einer Prävention feindlicher Interaktionsmuster beitragen, die ihrerseits durch Überforderung der Führungskräfte entstehen können (Li et al. 2016; Tepper et al. 2006).

Eine stärker systemische Perspektive auf destruktive Führung und psychische Beschäftigtengesundheit hat Implikationen für die Praxis. Eine Überwindung des Leader-Zentrismus stellt für Praxisfelder vermutlich eine wichtige künftige Entwicklung dar. Auch wenn dies zunächst mit einer Zunahme an Komplexität verbunden erscheint, so ergibt sich zugleich die Möglichkeit einer differenzierteren Diagnose. Neben dysfunktionalen Verhaltensmustern einer Führungskraft sind auch Merkmale der Beschäftigten (z. B. Einstellungen zur Erwerbsarbeit), situative (z. B. angespannte Personalsituation), kontextuelle (z. B. Organisationsklima) und ökonomische (z. B. Lohn- und Arbeitsvertragsstrukturen) Einflussfaktoren einzubeziehen. Eine Vereinfachung des Phänomens in Folge einer leader-zentrischen Perspektive kann dagegen zu einem Fortbestehen von Dysfunktionen beitragen. Der einfache Austausch einer Führungsperson löst bestehende Probleme zumeist nicht in ausreichendem Maße. Dennoch ist der Leader-Zentrismus im Bereich der Problembewältigung von Unternehmen und Organisationen durchaus häufig anzutreffen (Thoroughgood 2021). Die dargestellten Punkte sind jedoch lediglich als erste Anregungen aufzufassen. Spezifischere Handlungsempfehlungen für Praxisfelder erscheinen angesichts der derzeitigen kumulierten Befundlage eher verfrüht.

7.4 Limitationen

Neben in den Primärstudien begründeten Limitationen ergeben sich auch aus der methodischen Vorgehensweise innerhalb dieses Reviews einige Einschränkungen. Es sollte zunächst bedacht werden, dass der identifizierte Studienpool die spezifischen Suchstrategien und formulierten Einschlusskriterien abbildet. Eine Änderung dieser Parameter könnte die Ergebnisse modifizieren. Die relative Heterogenität der Primärstudien stellt einen weiteren zu berücksichtigenden Faktor dar. So basieren aggregierte Effektstärken auf teils unterschiedlichen Outcome-Maßen, Studiendesigns oder Erwerbsarbeitspopulationen. Die Breite des gewählten Anwendungsbereichs ist mit Einschränkungen in der Präzision der Schlussfolgerungen verbunden, erschien im Sinne eines explorativen Vorgehens in einem jungen Forschungsfeld jedoch gerechtfertigt. Die non-parametrische Trim-and-Fill Analyse ist nicht als exakt ermittelter Wert für die Anzahl nicht veröffentlichter Studien zu verstehen (Duval 2005). Die mögliche Sensitivität der aggregierten Effektstärken gegenüber Publikationsverzerrungen sollte vielmehr in Annäherung überprüft werden. Der Einfluss von Publikationsverzerrungen wird in sozial- und organisationswissenschaftlichen Forschungssynthesen häufig gänzlich nicht überprüft, was wiederum zu weitreichenden Einschränkungen in der Ergebnisinterpretation führt (Keppes et al. 2012).

7.5 Fazit und Schlussfolgerungen

Arbeitsplatzbezogene psychische Belastung und deren Folgen werden in einer sich zunehmend verändernden Arbeitswelt auch künftig einen wichtigen Interessensgegenstand für Forschung und Praxisfelder darstellen. Ein vertieftes Verständnis verschiedener Einflussfaktoren ist als Voraussetzung für eine angemessene Gestaltung gesundheitsförderlicher Arbeitsbedingungen anzusehen. Dass Führung und Führungsbeziehungen hierbei zentrale Betrachtungsebenen sind, ist naheliegend. Die Ergebnisse des vorliegenden Reviews zeigen jedoch, dass korrelative Zusammenhänge innerhalb der derzeitigen Studienlandschaft überraschend gering sind. Zudem konnten grundlegende methodologische Probleme identifiziert werden, die eindeutige Schlussfolgerungen erschweren. Zur Überwindung dieser Limitationen erscheint es notwendig, theoretische Zugänge und empirische Operationalisierungen zum Konstrukt der destruktiven Führung weiterzuentwickeln. Das Risiko methodenbasierter Verzerrungen könnte durch triangulierende Vorgehensweisen verringert werden. Dies erscheint in Bezug auf psychische Beeinträchtigungen der Beschäftigten insofern von besonderer Bedeutung als so möglichen Konfundierungen mit spezifischen Wahrnehmungs- und Bewertungsmustern begegnet werden könnte. Eine stärker theoretische Synthese bisheriger Ansätze und Befunde erscheint angesichts der gegenwärtigen Studienlage verfrüht. Die Entwicklung theoretischer Modelle zu umgrenzten Mechanismen und Wirkzusammenhängen an der Verbindungsstelle von Führung und psychischer Beschäftigtengesundheit könnte künftig jedoch eine wichtige Ergänzung der bisherigen empirischen Befundlage darstellen.