Vermeulen et al. [44] publizierten eine Meta-Regressionsanalyse zu 3 wesentlichen epidemiologischen US-amerikanischen Studien [15, 36, 39], die den Zusammenhang zwischen Dieselmotoremissionen (DME, engl. DEE) – gemessen in der kumulierten Exposition gegenüber elementarem Kohlenstoff (EC) in µg/m3-Jahre – und der Lungenkrebsmortalität darstellten. Die Autoren beschreiben, dass einige von ihnen als Mitglieder der IARC-Working Group tätig waren [4], die 2012 ein Review und eine Neubewertung zur karzinogenen Wirkung von DME erstellte („hazard assessment“) und zur Einstufung von DME als Humankanzerogen führte (IARC Group 1). Vermeulen et al. [44] möchten mit dieser Folgearbeit die Überlegungen weiterführen und einen Beitrag zur quantitativen Risikoschätzung („risk assessment“) auf Basis der wesentlichen Studien leisten. Die Autoren ermittelten aus den Daten der 3 Studien als Hauptergebnis eine gemeinsame Expositions-Risiko-Kurve ohne Schwellenwert und folgerten: „We estimated a ln RR of 0,00098 (95 % CI 0,00055–0,0014) for lung cancer mortality with each 1-μg/m3-year increase in cumulative EC based on a linear meta-regression model. Corresponding ln RRs for the individual studies ranged from 0,00061 to 0,0012. Estimated numbers of excess lung cancer deaths through 80 years of age for lifetime occupational exposures of 1, 10, and 25 μg/m3 EC were 17, 200, and 689 per 10,000, respectively. For lifetime environmental exposure to 0.8 μg/m3 EC, we estimated 21 excess lung cancer deaths per 10,000. (…) Our estimates suggest that stringent occupational and environmental standards for DEE should be set.“ Die Arbeit beschreibt somit erhöhte Krebsrisiken selbst bei sehr niedrigen DME-Belastungen. Der Arbeit von Vermeulen et al. [44] wird daher in den laufenden DME-Grenzwertdiskussionen eine wichtige Rolle zukommen. Das US-amerikanische National Institute for Occupational Health (NIOSH) hat nach seiner üblichen Vorgehensweise (Exzessfallberechnung) bereits eine Ableitung versucht [32]: Der Autor ermittelte auf Basis von Vermeulen et al. [44] eine Schätzung für den 8-h-Grenzwert für DME am Arbeitsplatz von 0,59 µg/m3.

Da diese Grenzwertableitung deutlich niedriger liegt als beispielsweise die Empfehlung von 100 µg/m3 DEEE („diesel engine exhaust emissions“), gemessen als „elemental carbon“, des ACSH der EU [42] und der SHEcan-Arbeitsgruppe [9], ist eine kritische Auseinandersetzung mit der Meta-Regressionsanalyse von Vermeulen et al. [44] angezeigt.

Material

Vermeulen et al. 2014: Inputdaten zur Hauptanalyse („Primary“)

Die Basisdaten der Metaanalysen von Vermeulen [mittlere Expositionsschätzung jeder Expositionskategorie der eingeschlossenen Studien und jeweils zugehöriges relatives Risiko (RR) mit 95 % Konfidenzintervall] sind im Supplement von Vermeulen et al. [44] weitgehend enthalten. Diese Daten wurden extrahiert und in eine Stata-Datei übernommen. Lücken wurden gefüllt, soweit die fehlenden Angaben in den Originalpublikationen der Einzelstudien enthalten waren.

Als Beispiel zeigt Tab. 1 die Grunddaten, die in die Hauptanalyse („Primary“) von Vermeulen et al. [44] eingegangen sind. Die 3 eingeschlossenen Studien [15, 36, 39] geben zu unterschiedlich gerasterter, aber einheitlich in µg/m3-Jahre gemessener kumulierter Exposition gegenüber DME als elementarem Kohlenstoff (Dosis) relative Risiken und die zugehörigen 95 %-Konfidenzintervall-Grenzen an.

Tab. 1 Inputdaten zur Hauptanalyse („Primary“) in Vermeulen et al. [44]

Steenland et al. [39] ist eine genestete Fall-Kontroll-Studie zu Arbeitern in der US Trucking Industry (994 Lungenkrebstodesfälle und 1085 Kontrollen). Die Dosiswerte wurden um 5 Jahre „gelagt“, um Latenzzeitphänomene in der Berechnung der Odds-Ratios (OR) zu berücksichtigen. Mit „lagging“ wird eine Auswertetechnik bezeichnet, die Expositionswerte der letzten Jahre (hier: der letzten 5 Jahre) nicht in die Analyse einfließen lässt [33]. Diese Untersuchung ist die älteste der in die Analyse übernommenen Studien, da sie auf den Daten der Fall-Kontroll-Studie von Steenland et al. 1990 [38] beruht: „All cases and controls had died in 1982–1983“. Als Grundlage der Expositionsschätzung für den Zeitraum 1949 bis 1983 wurden die Messwerte zu „elemental carbon“ von Zaebst et al. 1991 [45] verwendet, die allerdings erst 1990 gewonnen wurden. Der Zeitpunkt der Messdatenerhebung liegt damit etwa 8 Jahre nach dem Tod der in die Studie eingeschlossenen Personen und entsprechend noch später nach Ende ihrer Expositionsphase. Steenland et al. [39] haben versucht, diese Daten rückwärts zu extrapolieren, „dependent on very broad assumptions“. Die Autoren bewerten diese wichtige Limitation ihrer Arbeit wie folgt: „Our results should be regarded with appropriate caution because our exposure estimates are based on broad assumptions rather than actual measurements“. Im Abstract schreiben sie: „Our results depend on estimates about unknown past exposures, and should be viewed as exploratory.“

Garshick et al. [15] ist eine hiervon unabhängige Kohortenstudie zur US Trucking Industrie (31.135 männliche Arbeiter, 779 Lungenkrebstodesfälle). Vermeulen et al. [44] verwendeten diese Kohortendaten nach Ausschluss von Mechanikern und auch hier wurden die Dosiswerte um 5 Jahre gelagt. Es wurden jene Risikoschätzer (Hazard-Ratios, HR) der Garshick-Studie übernommen, die zusätzlich nach der Expositionsdauer adjustiert sind.

Silverman et al. [36] ist die Fall-Kontroll-Studie zur US-amerikanischen DEMS (Diesel Exhaust in Miners Study). Die zugrunde liegende Kohorte [3] umfasste 12.315 Bergarbeiter aus 8 Betrieben (kein Erz- oder Steinkohlenbergbau). Die Fall-Kontroll-Studie hat hiervon 198 Lungenkrebstodesfälle und 562 Kontrollen eingeschlossen. Die Autoren haben zur Berechnung der Odds-Ratios abweichend von den anderen beiden Studien einen lag von 15 Jahren verwendet.

Zur genaueren Beschreibung der eingeschlossenen Studien sei auf Vermeulen et al. [44] und auf die Originalpublikationen verwiesen. In Tab. 1 sind die OR und HR einheitlich als relative Risiken aufgelistet.

Korrigierte Schätzer

In den Analysen von Vermeulen et al. [44] wurden stets die Risikoschätzer (HR) der Garshick-Studie übernommen, die zusätzlich nach der Expositionsdauer adjustiert worden waren. Ein wichtiger Aspekt hierzu ergibt sich aus dem Leserbrief von Morfeld [24] (inklusive Antwort der Autoren) zur Fehladjustierung der von Vermeulen et al. [44] verwendeten Koeffizienten. Morfeld kritisiert, dass die kumulierte Exposition zusätzlich nach der in ihr bereits enthaltenen Expositionsdauer adjustiert wird und damit der Risikokoeffizient nicht die Wirkung der kumulierten Exposition schätzt, sondern die einer Konzentration (obgleich dieser Zugang zu einer Schätzung der Konzentrationswirkung nicht optimal ist). Die Autoren antworteten auf die Kritik wie folgt: „Morfeld suggests that adjusting cumulative exposure by duration of employment time reduces cumulative exposure to an estimate of long-term average concentration. We agree that if exposure in our workers was relatively constant, cumulative exposure would be the simple product of duration and average exposure. However, exposure varies considerably over time and between and within jobs.“ Dieser Hinweis rechtfertigt die Vorgehensweise aber dennoch nicht, denn in den durchgeführten Cox-Analysen werden die Daten zeitabhängig ausgewertet. Damit gilt für jeden Zeitpunkt und in jeder Person: kumulierte Exposition = Expositionsdauer × Durchschnittskonzentration. Durch die Adjustierung für die Expositionsdauer wird die Auswertung dahingehend verändert, dass die zeitabhängige Durchschnittskonzentration und nicht die kumulierte Exposition analysiert wird. Die Autoren begründen die von ihnen dennoch durchgeführte Adjustierung nach der Expositionsdauer mit einer angeblich erreichten Adjustierung für den Healthy Worker Survivor Effect. Hierfür sind jedoch andere Methoden notwendig [33].

In keiner der anderen beiden Studien [36, 39] wurde eine solche Adjustierung der kumulierten Exposition für die Expositionsdauer durchgeführt. Ein weiterer Aspekt zur Garshick-Studie, der ebenfalls den Modellaufbau betrifft, wird im Diskussionskapitel besprochen.

Koeffizienten zur kumulierten Exposition können Garshick et al. [15] entnommen werden, auch ohne dass gleichzeitig nach der Expositionsdauer adjustiert wurde. Um den Koeffizienten ihren üblichen Sinn geben zu können und um die Vergleichbarkeit mit den anderen beiden Studien zu verbessern, wurden diese Koeffizienten zusätzlich in diese Analyse übernommen. Die Daten sind in Tab. 2 dargestellt und werden im Folgenden als Garshick et al. [15] (modifiziert) bezeichnet.

Tab. 2 Ergebnisse von Garshick et al. [15] ohne Adjustierung nach Expositionsdauer, als Garshick et al. [15] (modifiziert) bezeichnet

Die Risikoschätzer sind nicht nur niedriger als in Tab. 1, sondern zeigen auch mit zunehmender Expositionshöhe keinen positiven Trend an.

Vermeulen et al. [44] führten auch Sensitivitätsanalysen mit variierten Daten zu Garshick et al. [15] durch. Allerdings betreffen diese Variationen allein den „lag“ der Expositionsvariablen und den Ein- bzw. Ausschluss der Daten der Fallgruppe „Mechaniker“. Das Problem der nach Expositionsdauer fehladjustierten Koeffizienten der kumulierten Exposition wird von den Autoren hingegen nicht berücksichtigt.

Reanalyse der DEMS-Fall-Kontroll-Studie: Crump et al. 2015

Crump et al. [13] reanalysierten die DEMS-Fall-Kontroll-Studie von Silverman et al. [36] und konnten deren Ergebnisse weitgehend reproduzieren: „We were able to replicate the findings reported by Silverman et al. (18) when we used the same analytical methods. This gave us confidence that we were using the same basic data set as Silverman et al.“ Crump und Mitarbeiter untersuchten den Einfluss von Kovariablen, die Silverman et al. [36] nicht in ihre finalen Modelle übernommen hatten. Als wesentlichster Confounder stellte sich die Radon-Exposition unter Tage heraus, ein Ergebnis, dass sich nicht mit den Aussagen von Silverman et al. [36] deckt. Silverman et al. [36] schrieben zur kumulierten Exposition gegenüber Radon „estimated cumulative exposure to radon (…) were evaluated but not included in the final models because they had little or no impact on odds ratios (i.e., inclusion of these factors in the final models changed point estimates for diesel exposure by ≤ 10 %).“ Crump et al. [13] bemerkten hierzu: „However, when we reproduced the Silverman et al. analysis, we could not verify this statement.“ Im Folgenden werden daher in der vorliegenden Sensitivitätsanalyse die Schätzungen von Crump et al. [13] ausschließlich nach einer zusätzlichen Adjustierung für die kumulierte Radonexposition verwendet.

Crump et al. [13] entwickelten zudem 6 neue DME-Expositionsmaße, alternativ zu den Schätzungen, die in Attfield et al. [3] und Silverman et al. [36] eingesetzt wurden: „We proceeded to apply six alternative REC [respirable elemental carbon] metrics, five of which depended, as did the DEMS metrics, on extrapolations involving assumed relationships between CO [carbon monoxide] and REC. A sixth REC metric, REC6, was used that did not involve any assumptions concerning the relationship between CO and REC, and was based on Adj_HP [adjusted horse power] and ventilation rates for each of the mines. Of the several REC metrics, we view REC6 as having some superior qualities because it avoids using the highly uncertain assumptions concerning the relationship between CO and REC.“ Wir verwenden daher REC6 als Hauptalternative zu den Silverman-Expositionsdaten.

In ihren zusätzlichen Auswertungen zur Expositionsschätzung ermittelten Crump und van Landingham [11] als besten Schätzwert β = 0,3 im Umrechnungsmodell REC ~COβ, im Unterschied zu dem Wert von β = 0,58 nach Stewart et al. [40] oder zu dem Wert β = 1,0, der von Silverman et al. [36] in ihren Auswertungen angenommen wurde. Die alternative Expositionsmetrik REC4 [13] enthält diesen besten Schätzwert β = 0,3. REC4 ist zudem direkt auf die Arbeiten zur alternativen Expositionsschätzung von Crump und van Landingham [11] gegründet und berücksichtigt einige weitere Aspekte (vgl. die detaillierte Beschreibung zu REC1 bis REC 4 in [13]). Wir verwenden daher zusätzlich die Expositionsmetrik REC4 als zweite Variation nach Crump et al. [13]. Einen Überblick zu den Ergebnissen der Reanalyse mit REC4 und REC6 nach Crump und Mitarbeitern zur Silverman-Studie gibt Tab. 3.

Tab. 3 Reanalyse zu Silverman et al. [36] mit Adjustierung für die Radonexposition. (Tab. III in Crump et al. [13])

Neu kategorisierte Daten: Möhner et al.2013 (adaptiert)

Die deutsche Kalibergbaustudie [21] wurden von Vermeulen et al. [44] von der eigentlichen Analyse ausgeschlossen, da die Referenzkategorie zu hoch definiert worden sei. Nur in 2 Sensitivitätsanalysen wurde die Arbeit von Möhner et al. [21] berücksichtigt, allerdings indem Vermeulen et al. [44] die RR-Schätzer entweder original beließen oder eine Ad-hoc-Korrektur der Risikoschätzer vornahmen. Beide Zugänge sind nicht optimal, weshalb keine dieser Auswertungen von Vermeulen et al. [44] im Rahmen der Hauptanalyse dargestellt, sondern zu den Ergebnissen lediglich im Online-Appendix berichtet wird.

Um die deutsche Kalibergbaustudie in diesem Projekt möglichst informativ berücksichtigen zu können, mussten die Daten in anderer Rasterung übernommen werden als publiziert. Mit dem Erstautoren wurde Kontakt aufgenommen, um die hierzu notwendigen Angaben zu bekommen (die Publikation enthält nicht alle interessierenden Rasterungen der Exposition, und es fehlen weitere Detailangaben). Auf Anfrage übergab Dr. Möhner per E-Mail am 03.07.2014 zusätzliche Ergebnisse zur Studie von Möhner et al. [21]. Diese stellten Fallzahlen und Odds-Ratio-Schätzungen mit 95 % Konfidenzintervallen zu einer geänderten Kategorisierung dar, die im Folgenden als „Möhner et al. [21] (adaptiert)“ bezeichnet werden.

Die Aufteilung wurde so adaptiert, dass die Referenzkategorie nur noch mit 5 Fällen besetzt ist. Somit liegt die Expositionshöhe der Referenzkategorie deutlich niedriger als in der Originalanalyse (Kritikpunkt in [44]). Die anderen 3 Kategorien wurden so gewählt, dass sich die Fälle annähernd gleich verteilen. Die Ergebnisse dieser neuen Kategorisierung von Möhner et al. [21] zeigt Tab. 4.

Tab. 4 Zusätzliche Ergebnisse zur Studie von Möhner et al. [21] mit geänderter Kategorisierung, bezeichnet als Möhner et al. [21] (adaptiert)

Methoden

Reproduktion der Ergebnisse und Variation der Modellierung

Die komplexe Metaanalyse der Autoren zu den kategorisierten Einzelstudienergebnissen wird nachvollzogen. Eine Herausforderung stellt die mit den Studien variierende Kategorisierung der Exposition dar und potenzielle Unterschiede in Design und Umfang der Studien. Zudem sind die Ergebnisse zu den Expositionskategorien innerhalb der Studien geschachtelt, so dass eine Zwei-Ebenen-Struktur vorliegt (1. Ebene: Expositionsgruppen, 2. Ebene: Studien). Um diese komplexe Datenlage angemessen analysieren zu können, werden zu den Ergebnissen der Einzelstudien sog. Meta-Regressionsanalysen sowohl mit festen [2] als auch mit zufälligen [6, 7, 14] Effekten durchgeführt, um eine gemeinsame Expositions-Wirkungs-Kurve zu ermitteln [5].

Über die Varianzen der RR-Schätzer pro Expositionskategorie müssen Gewichte in die Analysen einfließen. Diese Wichtung ist notwendig, da nur aggregierte Daten (also keine Einzeldaten zu Personen) in den Auswertungen zur Verfügung stehen und den Datenpunkten zu den Expositionskategorien aufgrund der variierenden Fallzahl innerhalb und zwischen den Studien eine unterschiedliche Relevanz in einer gemeinsamen Auswertung zukommt. Hierzu werden verschiedene Ansätze erprobt:

  • lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz

    • ohne Adjustierung nach Studien,

    • mit Adjustierung nach Studien. Ein globaler F-Test zur Heterogenität der Risikoniveaus (Achsenabschnitte, Offsets) zwischen den Studien wird berechnet.

  • gemischte lineare Regression zu log RR mit einem zufälligen Achsenabschnitt, der Unterschiede zwischen den Studien aufnimmt

    • mit Gewichten auf der ersten Ebene (Ebene der Expositionskategorien) proportional zum Inversen der jeweiligen Varianz und mit den Summen dieser Gewichte als Studiengewichte auf der zweiten Ebene (Studienebene),

    • in einem zweiten Auswerteansatz werden die Gewichte der ersten Ebene effektiv auf die Gewichte der zweiten Ebene skaliert.

  • gemischte lineare Regression zu log RR mit einem zufälligen Achsenabschnitt und einem zufälligen Dosiskoeffizienten („slope“), die Unterschiede zwischen den Studien aufnehmen

    • mit Gewichten auf der ersten Ebene (Ebene der Expositionskategorien) proportional zum Inversen der jeweiligen Varianz und mit den Summen dieser Gewichte als Studien-Gewichte auf der zweiten Ebene (Studienebene),

    • in einem zweiten Auswerteansatz werden die Gewichte der ersten Ebene effektiv auf die Gewichte der zweiten Ebene skaliert.

Die Referenzpunkte werden in den Analysen nicht berücksichtigt, da ihr Gewicht keine reelle Zahl darstellt, sondern unendlich ist. Dies entspricht dem Vorgehen von Vermeulen et al. [44]: Fig. 1 der Studie enthält nicht 13, sondern lediglich 10 Beobachtungspunkte.

Modelle mit festen Effekten werden üblicherweise über die Student-t-Verteilung statistisch bewertet [28]. Da nur wenige Datenpunkte eingehen, die keine Individuen sondern allein die Gruppen wiedergeben (aggregierte Daten), führt dies tendenziell zu einer Überschätzung der p-Werte und Konfidenzintervallbreiten. Präzisionsgewichtungen bringen jedoch lediglich die relativen Gewichtsunterschiede zwischen den Datenpunkten in die Analysen ein und lösen dieses Problem nicht. Alternativ werden daher die Modelle mit festen Effekten nach der Standardnormalverteilung bewertet [28]. Dies führt tendenziell zu p-Werten und Konfidenzintervallen, die zu eng sind, insbesondere da die Korrelationen zwischen den Gruppen innerhalb der Studien nicht berücksichtigt werden. In allen gemischten Regressionen erfolgt die Bewertung grundsätzlich über die Standardnormalverteilung.

Die zu den verschiedenen Expositionskategorien berichteten Ergebnisse einer Studie sind allerdings nicht unabhängig voneinander, sondern korrelieren miteinander, da sie sich innerhalb einer Studie auf eine gemeinsame Referenzkategorie beziehen. Deshalb werden ergänzend zu den oben beschriebenen Auswertungen auch Meta-Regressionsverfahren mit Berücksichtigung der Korrelationen der Studienergebnisse innerhalb der Studien versucht [16, 30, 31]. Jedoch ist zum Einsatz dieses Greenland/Longnecker-Verfahrens zusätzlicher Input notwendig: Es müssen Personenjahre und Fallzahlen bzw. Personen- und Fallzahlen je Expositionskategorie der Studien verfügbar sein. Diese Daten sind nicht im Supplement von Vermeulen et al. [44] enthalten und können auch nicht vollständig aus den Originalpublikationen rekonstruiert werden.

Im Methodenteil erwähnen Vermeulen et al. [44] fast alle diese Verfahren, aber es bleibt z. B. unklar, ob die Greenland/Longnecker-Methode stets zum Einsatz kam und welche Gewichtsstruktur in den gemischten Regressionen verwendet wurde. Mit unterschiedlichen Auswerteansätzen soll in diesem Forschungsprojekt geprüft werden, in welchem Umfang und mit welcher Methode die publizierten Ergebnisse von Vermeulen et al. [44] reproduziert werden können.

Vermeulen et al. [44] setzten zudem Spline-Modelle ein, die eine flexiblere Kurvenform erlauben als log-lineare Modelle. Allerdings ergaben diese Spline-Regressionen keinen abweichenden Verlauf der geschätzten Expositions-Wirkungs-Beziehung: „The linear model (Fig. 1) and the spline meta-regression model (data not shown) fit the data well, with virtually equivalent curves.“ Wir setzen deshalb auch keine Spline-Funktionen oder ähnliche Verfahren ein, sondern folgen dem Hauptansatz von Vermeulen und Mitarbeitern, auch um die Zahl der zu schätzenden Parameter niedrig zu halten.

Als zentraler Modellierungsansatz soll aufgrund der höheren Stabilität und einfacheren Interpretation eine präzisionsgewichtete Regressionsanalyse mit festen Effekten bei gleichzeitiger Adjustierung für die Einzelstudien verfolgt werden. Dieser Auswerteansatz hat zudem weitere Vorteile gegenüber einer Regression mit zufälligen Effekten (vgl. die Argumente in [2], S. 2, 3 und [6], S. 700). Es wird untersucht, ob die anderen Ansätze relevant verschiedene Ergebnisse hervorbringen. Falls das nicht der Fall ist, wird diese Methodik als führende Analysestrategie verwendet.

Alle Analysen werden mit Stata 12 durchgeführt [37].

Einfluss der gewählten Inputdaten

Ein wichtiger Aspekt zur Datenauswahl ergibt sich aus dem Leserbrief von Morfeld [24] zur Arbeit von Garshick et al. [15] mit dem Hinweis, dass die von Vermeulen et al. [44] verwendeten Koeffizienten fehladjustiert sind. In einer weiteren Analyse werden daher die oben beschriebenen Metaauswertungen mit den korrigierten Koeffizienten nach Garshick et al. [15] (modifiziert) wiederholt (Tab. 2).

Ergebnisse zur DEMS-Reanalyse wurden in einem HEI (Health Effects Institute) Webinar präsentiert [12, 22] und im Journal Risk Analysis publiziert [13, 23]. Crump et al. [13] enthält überarbeitete OR-Schätzungen zu Silverman et al. [36]; wichtige alternative Schätzungen aus dieser Arbeit sind in Tab. 3 dargestellt. Die „REC6“-Befunde aus dieser Arbeit werden nach Adjustierung für die Radonexposition in der Metaanalyse an Stelle der Daten von Silverman et al. [36] (Tab. 1) berücksichtigt. Des Weiteren wird untersucht, inwieweit die Ergebnisse variieren, wenn die „REC4“-Befunde verwendet werden.

Die deutsche Kalibergbaustudie [21] soll im Sinne einer Sensitivitätsanalyse zusätzlich eingeschlossen werden. Wir verwenden die Risikoschätzer aus „Möhner et al. [21] (adaptiert)“ (Tab. 4).

Da die Arbeit von Steenland et al. [39] erhebliche Limitationen aufweist, werden auch Metaanalysen durchgeführt, ohne diese Studie einzuschließen.

Nichtlinearität: Schwellenwertsuche

Die Daten werden nach Nichtlinearitäten in der Expositions-Risiko-Beziehung untersucht, wobei insbesondere eine systematische Suche nach Schwellenwerten für die kumulierte Exposition erfolgt [18, 19, 43]. Hierzu wird der in Morfeld et al. [27] ausführlich dargestellte Algorithmus zur Ermittlung eines No-Adverse-Effect-Ausgangsplateus in der kumulierten Exposition mit den Meta-Regressionsverfahren kombiniert. Diese Analyse beschränkt sich auf den zentralen Modellierungsansatz (präzisionsgewichtete Regressionsanalyse mit festen Effekten bei gleichzeitiger Adjustierung für die Einzelstudien).

Als Schrittweite der Schwellenwertexploration wird 10 µg/m3-Jahre gewählt (Bereich: 0 µg/m3-Jahre bis 500 µg/m3-Jahre). Somit werden pro Schwellenwertsuche 51 Modelle berechnet und verglichen. Die Schwellenwertanalyse wird mit Sonderprogrammen in Stata 12 durchgeführt [37].

Ergebnisse

Reproduktion der Ergebnisse in Vermeulen et al. 2014 und erweiterte Analysen

Vermeulen et al. [44] berichten in Tab. 1 (Hauptanalyse, „Primary“) zu den 3 Studien von Steenland et al. [39], Garshick et al. [15] und Silverman et al. [36]. Die Autoren berichten Einzelbefunde (ermittelte Risikokoeffizienten) und das Ergebnis der Metaanalyse der Risikokoeffizienten. Im Folgenden werden diese Angaben mit den Ergebnissen der Reanalyse verglichen.

Einzelanalysen zu den Studien

Alle Einzelanalysen werden mit linearen Regression mit festen Effekten zu log RR nachgerechnet (aus methodischen Gründen fällt diese Analyse zu einer einzigen Studie mit der gemischten Regression zusammen). In den Tab. 5, 6, 7 und 8 sind die Ergebnisse zu Steenland et al. [39], Garshick et al. [15], Silverman et al. [36] und Möhner et al. [21] dargestellt.

Tab. 5 Steenland et al. [39]: Lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz
Tab. 6 Garshick et al. [15]: Lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz
Tab. 7 Silverman et al. [36]: Lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz
Tab. 8 Möhner et al. [21] (adaptiert): Lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz

Folgende Koeffizientenschätzungen werden in Tab. 1 in Vermeulen et al. [44] zu Steenland et al. [39] berichtet: Dosis = 0,00096 (95 % CI 0,00033 bis 0,00159), Konstante = − 0,032. Die Übereinstimmung in den Koeffizienten ist sehr gut. Das Konfidenzintervall ist stimmig, wenn beide Berechnungsmethoden (Student-t-Verteilung, Normalverteilung) berücksichtigt werden.

Folgende Koeffizientenschätzungen werden in Tab. 1 in Vermeulen et al. [44] zu Garshick et al. [15] berichtet: Dosis = 0,00061 (95 % CI − 0,00088 bis 0,00210), Konstante: 0,24. Auch hier stimmt die Koeffizientenschätzung sehr gut und die Intervallschätzung weitgehend überein. Wird Garshick et al. [15] (modifiziert) ausgewertet, so ergeben sich deutlich andere Schätzungen: Der Dosiskoeffizient ist mehr als eine Zehnerpotenz kleiner und weit entfernt von einer Signifikanz (p > 0,4). Auffällig ist ein signifikantes Abweichen der Konstanten (Achsenabschnitt) vom Normalwert Null. Dieser Normalwert Null bedeutet ein Ausgangsniveau des relativen Risikos von 1, wie es bei einer DME-Exposition von 0 µg/m3-Jahre aber zu unterstellen ist.

Die folgenden Koeffizientenschätzungen werden in Tab. 1 in Vermeulen et al. [44] zu Silverman et al. [36] berichtet. Dosis = 0,00120 (95 % CI: 0,00053 bis 0,00187), Konstante: − 0,18. Auch hier stimmen die Koeffizientenschätzungen gut überein (vermutlich liegt bei [44] ein Schreibfehler vor: − 0,18 statt − 0,148). Die Intervallschätzungen sind ebenfalls kompatibel.

Die Dosis-Koeffizienten der Crump-Variationen hingegen sind deutlich kleiner als die Originalwerte: Sie betragen lediglich 27 % (REC4) bzw. 18 % (REC6) des Silverman-Koeffizienten. Die t-Test-Konfidenzintervalle liegen in diesen Rechnungen weitgehend symmetrisch um die Null, so dass beide Modelle keinen Hinweis auf einen Trend ergeben. Auch bei Verwendung der Standardnormalverteilung ergibt sich kein Hinweis auf einen signifikanten Einfluss der DME-Exposition auf die Lungenkrebsmortalität.

In Tab. 8 ist das Ergebnis der Auswertung der Studie von Möhner et al. [21] mit geänderter (adaptierter) Kategorisierung der Exposition dargestellt.

Die deutsche Studie ergibt keinen Hinweis auf einen Zusammenhang zwischen DME-Exposition und Lungenkrebsmortalität.

Abb. 1enthält einen Überblick zu den Ergebnissen der Regressionen mit festen Effekten bei Annahme einer Normalverteilung zur statistischen Bewertung für alle Einzelstudien. Modelle mit festen Effekten werden dargestellt, um die Koeffizienten nicht zu niedrig einzuschätzen. Die Normalverteilung wurde gewählt, um eine Überschätzung der p-Werte auszuschließen (d. h. die dargestellten Konfidenzintervalle sind keinesfalls zu weit). Abweichend von Vermeulen et al. [44] wird als Expositionseinheit mg/m3-Jahre = 1000 × µg/m3-Jahre gewählt, um die Darstellung übersichtlich zu halten. Jeder der 3 Datensätze, der in die Vermeulen-Analyse einging [15, 36, 39], ergibt einen signifikant erhöhten Risikoschätzer, wobei die Arbeit von Garshick et al. [15] den größten Einfluss hat. Werden die Ergebnisse von Garshick et al. [15] ohne Adjustierung nach Expositionsdauer, also Garshick et al. [15] (modifiziert) analysiert, so sinkt der Risikoschätzer beträchtlich und ist nicht signifikant. Auch die Crump-Modifikationen (REC4, REC6) der Arbeit von Silverman et al. [36] ergeben deutlich niedrigere Risikoschätzer als die Originalarbeit und zeigen keine statistische Signifikanz. Die Studie von Möhner et al. [21] gibt keinen Hinweis auf einen Zusammenhang zwischen DME-Exposition und Lungenkrebsmortalität.

Abb. 1
figure 1

Analyse der Einzelstudien. Lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz (dargestellt durch Boxgröße). Koeffizienten („effect size“, ES) der kumulierten Exposition (Dosis) gegenüber DME in mg/m3-Jahre mit 95 % Konfidenzintervall zum Koeffizienten, berechnet mit Hilfe der Standardnormalverteilung. Ausgewertet werden Steenland et al. [39] und Silverman et al. [36], wie von Vermeulen et al. [44] verwendet, und entsprechend der Reanalyse von Crump et al. [13] mit Adjustierung für die Radonexposition (REC4, REC6; Tab. 3), Garshick et al. [15], wie von Vermeulen et al. [44] verwendet, und Garshick et al. [15] (modifiziert) sowie die Daten nach Möhner et al. [21] (adaptiert)

Gemeinsame Analysen der Studien

Laut Tab. 1 in Vermeulen et al. [44] ergeben sich für „all studies combined“ (d. h. [15, 36, 39] ) als Koeffizienten die kumulierte Exposition (Dosis) gegenüber DME in µg/m3-Jahre und den Absolutterm (Konstante) folgende Werte: Dosis = 0,00098 (95 % CI 0,00055 bis 0,00141) und Konstante = 0,088. Tab. 9 berichtet zu der Reanalyse der 3 Studien mit Hilfe einer log-linearen Regression mit festen Effekten, ohne nach den Studien zu adjustieren.

Tab. 9 Lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz, ohne Adjustierung nach Studien

In Tab. 9 ergeben sich relevante Abweichungen von den Ergebnissen in Vermeulen et al. [44]. Zwar ist der Expositions-Respons-Zusammenhang statistisch signifikant, aber der ohne Adjustierung für die Studien geschätzte Dosiskoeffizient ist um etwa 20 % niedriger als von Vermeulen und Mitarbeitern publiziert (0,00076/0,00098 = 0,77). Werden die Versionen der Ergebnisse nach Crump et al. [13] in die Auswertung einbezogen, so ergibt die Metaanalyse keinen signifikanten Zusammenhang zwischen DME-Exposition und der Lungenkrebsmortalität.

In Tab. 10 werden die Koeffizientenschätzungen zusätzlich nach den Studien adjustiert.

Tab. 10 Lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz, mit Adjustierung nach Studien

Tab. 10 ergibt für den Dosiskoeffizienten und das zugehörige Konfidenzintervall eine gute Übereinstimmung mit den in Vermeulen et al. [44] berichteten Ergebnissen (Dosis = 0,00098, 95 % CI 0,00055 bis 0,00141; Konstante = 0,088). Der nachgerechnete Koeffizient weicht minimal nach oben ab. Die beiden Konfidenzintervallberechnungen (Student-t-Verteilung, Normalverteilung) ergeben weitgehend übereinstimmende Ergebnisse, so dass die 10 Datenpunkte bereits ausreichen, um eine robuste Schätzung zu ermöglichen, die zudem mit den von Vermeulen und Mitarbeitern veröffentlichten Angaben übereinstimmt. Der zusätzlich ermittelte globale F-Test zur Heterogenität der Risikoniveaus zwischen den Studien ergibt F(2,6) = 5,5 (p = 0,044). Die Heterogenität zwischen den 3 Studien ist somit auf dem 5 %-Niveau signifikant. Mit Heterogenität ist ein systematischer Unterschied im Ausgangsrisiko (d. h. ohne Berücksichtigung der Exposition) der 3  Studien gemeint. Um die 3 Studien sinnvoll kombinieren zu können, sollten sie im Ausgangsniveau bis auf zufällige Abweichungen übereinstimmen. Jedoch sind die Unterschiede statistisch signifikant. Die Heterogenität zwischen den 3 Studien entsteht durch einen signifikanten Unterschied zwischen Garshick et al. [15] und Steenland et al. [39], ΔKonst1: p = 0,021. Danach weicht die Garshick-Studie signifikant im Ausgangsniveau des Risikos von den anderen beiden Studien nach oben ab, was sich bereits in der Einzelanalyse andeutete (Tab. 6). Durch die Korrektur der Garshick-Koeffizienten sinkt die Heterogenität im Risikoniveau beträchtlich: F(2, 6) = 0,50 (p = 0,63). Dies lässt sich aus der Einzelanalyse nicht erkennen.

Werden die Originalangaben nach Silverman et al. [36] durch die Ergebnisse von Crump et al. [13] ersetzt (REC4 oder REC6), so halbieren sich die Dosiskoeffizienten in der Meta-Regression.

Tab. 11 zeigt Ergebnisse, wenn eine gemischte lineare Regression zu den 3 Studien gefittet wird.

Tab. 11 Gemischte lineare Regression zu log RR mit einem zufälligen Achsenabschnitt mit Gewichten auf der ersten Ebene (Ebene der Expositionskategorien) proportional zum Inversen der jeweiligen Varianz und mit den Summen dieser Gewichte als Studiengewichte auf der zweiten Ebene (Studienebene)

Tab. 11 ergibt eine sehr gute Übereinstimmung mit dem publizierten Befund in Vermeulen et al. [44] (Dosis = 0,00098, 95 % CI 0,00055–0,00141; Konstante = 0,088).Wird zusätzlich der Dosiskoeffizient als zufälliger Effekt geschätzt, ändern sich die Ergebnisse nicht. Ohne eine effektive Skalierung der Gewichte (Ergebnis: Dosiskoeffizient = 0,00093, Konstante = 0,096) weichen die Befunde etwas von Vermeulen et al. [44] ab. Wird Garshick et al. [15] (modifiziert) in die Metaanalyse eingeschlossen, sinkt der geschätzte Meta-Risikokoeffizient und das zugehörige Signifikanzniveau (Teststatistik ändert sich von Z = 6,74 auf Z = 4,58), allerdings ist der positive Dosis-Wirkungs-Zusammenhang stets signifikant (Tab. 11).

Wie in den Modellen mit festen Effekten (Tab. 10) halbieren sich in der gemischten Regression (Tab. 11) die Dosiskoeffizienten in der Meta-Regression, wenn die Originalangaben nach Silverman et al. [36] durch die Befunde von Crump et al. [13] (REC4 oder REC6) ersetzt werden.

Crump [10] führte ebenfalls eine Nachberechnung mit einem gemischten Modell durch, sah dabei aber keine Möglichkeit, die notwendigen Daten zu erhalten, um die Greenland/Longnecker-Methode einzusetzen (vgl. übereinstimmend unsere Erläuterungen im Methodenkapitel „Reproduktion der Ergebnisse und Variation der Modellierung“). Crump schreibt: „I (…) reran the analysis of Vermeulen et al. (…), except that I did not model the dependence among the ORs from the same study. (I did not have access to data needed to model that dependence.) My analysis yielded a regression parameter [0.88; 95 % confidence interval (CI): 0.65, 1.11] similar to that obtained by Vermeulen et al. (0.98; 95 % CI: 0.55, 1.41)“. Crump [10] wählte offenkundig eine abweichende Einheit der DME-Exposition von 1000 µg/m3-Jahre. Der von ihm berichtete Dosiskoeffizient (0,88) weicht stärker ab als das Ergebnis der hier durchgeführten Nachberechnung (0,97), das sehr gut zu den Vermeulen-Ergebnissen passt (0,98). Es ist unklar, ob Crump [10] eine Skalierung der Gewichte vornahm, denn ohne Skalierung weicht auch die Nachberechnung in diesem Bericht etwas nach unten ab (0,93), wenn auch nicht so ausgeprägt wie bei Crump 2014 [10].

Variation der Modellierung

Da für Steenland et al. [39] keine Angaben zu Personenjahren und Fallzahlen je Expositionskategorie vorlagen, kann diese Arbeit nicht in Auswertungen mit der Greenland/Longnecker-Methode aufgenommen werden. Gemeinsame Analysen zu Garshick et al. [15], Silverman et al. [36] und Möhner et al. [21] (adaptiert) konnten jedoch erfolgen. Die Ergebnisse sind in Tab. 12 dargestellt.

Tab. 12 Gemeinsame Analyse von Garshick et al. [15] (modifizierte Koeffizienten), Silverman et al. [36] und Möhner et al. [21] (adaptiert)

Tab. 12 zeigt, dass die linearen Regressionen mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz und mit Adjustierung nach Studien leicht ausgeprägtere Wirkungskoeffizienten und etwas niedrigere p-Werte als Modelle mit zufälligen Effekten ergeben (dies stimmt qualitativ mit den Befunden überein, die im Ergebniskapitel „Gemeinsame Analyse der Studien“ dargestellt sind). Wird allerdings auch der Dosiskoeffizient als zufälliger Effekt ermittelt, ergibt sich ein ähnlicher Wert (Koeffizient = 0,00059, p = 0,17) zum Modell mit festen Effekten. Die Analysen mit der von Methodikern empfohlenen und die internen Korrelationen berücksichtigenden Greenland/Longnecker-Methode ergaben dagegen einen geringeren Koeffizienten als in dem Modell mit festen Effekten, mit einem niedrigeren p-Wert = 0,035 (signifikant). Der Dosiskoeffizient liegt in dieser gemeinsamen Analyse von Garshick et al. [15] (modifizierte Koeffizienten), Silverman et al. [36] und Möhner et al. [21] (adaptiert) bei Anwendung der Greenland/Longnecker-Methode (0,00032) um etwa einen Faktor 3 unterhalb der Schätzung in der Hauptanalyse von Vermeulen et al. [44] (0,00098).

Die von Vermeulen et al. [44] berichteten Ergebnisse stimmen weitgehend mit den Schätzungen der Modelle mit zufälligen Effekten überein (vgl. Ergebniskapitel zu „Gemeinsame Analyse zu den Studien“). Die Methode von Greenland/Longnecker kann aber ohne den Zugang zu weiteren Daten hier nicht eingesetzt werden. Vermeulen und Mitarbeiter erhielten offensichtlich Zugang zu diesen Daten aus Steenland et al. [39], haben sie in ihrer Arbeit leider auch im Supplement nicht offen gelegt.

Werden die Originalangaben nach Silverman et al. [36] durch die Ergebnisse von Crump et al. [13] ersetzt (REC4 oder REC6), so finden sich qualitativ dieselben Aussagen zu den 3 Analyseverfahren. Übereinstimmend halbieren sich die Dosiskoeffizienten in der Meta-Regression durch die Datenvariation. Die p-Werte stimmen trotz der unterschiedlichen Modellierungen weitgehend überein. Eine Ausnahme ergibt sich für die Regression mit zufälligem Achsenabschnitt zu REC6, wo der Wert niedriger ausfällt (p = 0,25). Dies deutet, wie beim abweichenden Ergebnis der Greenland/Longnecker-Regression bei Auswertung mit den Silverman-Originaldaten (p = 0,035), auf Instabilitäten in der Varianzschätzung hin.

Um Diskussionen um eine mögliche Unterschätzung der Wirkung zu vermeiden, werden alle weiteren Auswertungen mit adjustierten Regressionsmodellen mit festen Effekten durchgeführt. In Tab. 11 und 12 stimmen die Dosiskoeffizientenschätzungen (feste Effekte nach Studien adjustiert und zufällige Effekte) fast überein und sind zudem beinahe identisch mit den Angaben in Vermeulen et al. [44]. Ein Vergleich der Intervallschätzungen und p-Werte weist auf eine höhere Stabilität der Regressionsmodelle mit festen Effekten hin. Somit ist eine Festlegung auf adjustierte Regressionsmodelle mit festen Effekten im Sinne einer Hauptanalyse (zentraler Modellierungsansatz) für dieses Forschungsprojekt gerechtfertigt.

Einfluss der gewählten Inputdaten

Eine gleichzeitige Analyse der 3 Studien von Garshick et al. [15] (modifiziert), Silverman et al. [36] und Möhner et al. [21] (adaptiert) ergibt unabhängig von der gewählten Methodik einen deutlich niedrigeren Wirkungskoeffizienten in Tab. 12 als in der Hauptanalyse nach Vermeulen et al. 2014.

Beispiel: Für die Regressionsmodelle mit festen Effekten und Adjustierung für Studien ergab sich eine Reduktion im Wirkungskoeffizienten um etwa 50 %, denn die reproduzierte Hauptanalyse nach Vermeulen et al. [44] ergab einen Koeffizienten von 0,0011 (pro 1 µg/m3-Jahre), p = 0,002, und ein 95 % CI von 0,00057, bis 0,00154 (Tab. 10).

Als weiterer interessanter Befund ist festzuhalten, dass eine gleichzeitige Analyse der 3 Studien von Garshick et al. [15] (modifiziert), Silverman et al. [36] und Möhner et al. [21] (adaptiert) nur bei Anwendung der Greenland/Longnecker-Methode eine signifikante Dosis-Wirkungs-Beziehung findet (Tab. 12). Dies könnte an Instabilitäten in der Schätzung bei diesem komplexen Verfahren liegen.

Wird die Hauptanalyse nach Vermeulen et al. [44] mit festen Effekten und Adjustierung für Studien und mit modifizierten Garshick-Koeffizienten durchgeführt, so ergibt sich ein Koeffizient von 0,00098 (pro 1 µg/m3-Jahre), p = 0,006, und ein 95 % CI von 0,00041 bis 0,00155, etwas ausgeprägter aber ähnlich zu den Ergebnissen der Regressionsrechnung mit zufälligen Effekten (Tab. 11).

Somit bewirkt die Modifikation der Garshick-Koeffizienten lediglich eine Reduktion im Meta-Koeffizienten um etwa 7 % und die statistische Signifikanz bleibt erhalten, obgleich der p-Wert von 0,002 auf 0,006 ansteigt. Durch die Korrektur der Garshick-Koeffizienten sinkt die Heterogenität im Ausgangsniveau des Risikos beträchtlich: F(2,6) = 0,50, p = 0,63, aber ohne Korrektur: F(2,6) = 5,5, p = 0,044.

Tab. 10 bis 12 zeigen übereinstimmend, dass eine Ersetzung der Originaldaten von Silverman et al. [36] durch die Ergebnisse von Crump et al. [13] (REC4 oder REC6) zu einer ungefähren Halbierung der Dosiskoeffizienten in den Meta-Regressionen führt. Werden Steenland et al. [39], Crump et al. [13] und Garshick et al. [15] (modifiziert) gemeinsam analysiert, so ist der Dosis-Wirkungs-Zusammenhang in adjustierten Regressionsmodellen mit festen Effekten und bei Bewertung mit der Standardnormalverteilung signifikant (REC4: p = 0,03, REC6: p = 0,01), aber deutlich schwächer als in einer Analyse der von Vermeulen et al. [44] verwendeten Originaldaten (p < 0,000001). Entsprechend verschieden fallen die unteren Konfidenzintervallgrenzen zum Dosiskoeffizienten aus: 0,00005 und 0,00010 bzw. 0,00067. Hier finden sich Unterschiede um einen Faktor von mindestens 12 oder 6.

Abb. 2 gibt einen Überblick zu den Ergebnissen der Meta-Regressionen mit festen Effekten bei Variation der Inputdaten und Annahme einer Normalverteilung zur statistischen Bewertung. Modelle mit festen Effekten werden dargestellt, um die Koeffizienten nicht zu niedrig einzuschätzen. Die Normalverteilung wurde gewählt, um eine Überschätzung der p-Werte auszuschließen (d. h. die dargestellten Konfidenzintervalle sind keinesfalls zu weit). Abweichend von Vermeulen et al. [44] wird als Expositionseinheit mg/m3-Jahre = 1000 × µg/m3-Jahre gewählt, um die Darstellung übersichtlich zu halten. Die Replikation der Analyse, wie in Vermeulen et al. [44] durchgeführt, d. h. Steen_Silv_Garsh (mit Adj), ergibt den höchsten Risikoschätzer unter allen Datenvariationen. Werden die Modifikationen der Silverman-Fall-Kontroll-Studie nach Crump et al. [13] (REC4, REC6) und zu Garshick et al. [15] in die Analyse eingeschlossen, liegen die Risikoschätzer deutlich niedriger (Steen_SilvREC4_Garsh_mod, Steen_SilvREC6_Garsh_mod: Die Koeffizienten sind ungefähr halbiert gegenüber der Vermeulen-Analyse). Bei Ausschluss der Steenland-Arbeit, die nach Ansicht der Autoren nur explorativen Charakter hat, ergeben die modifizierten Risikoschätzer bei gleichzeitiger Berücksichtigung von Möhner et al. [21] (adaptiert) in der Metaanalyse keine signifikante Risikoerhöhung (SilvREC4_Garsh_mod_Moehn, SilvREC6_Garsh_mod_Moehn). Der Meta-Koeffizient beträgt etwa 10–20 % des Wertes der bei Vermeulen et al. [44] in der Hauptanalyse gefunden wurde.

Abb. 2
figure 2

Metaanalysen. Lineare Regression mit festen Effekten zu log RR mit Gewichten proportional zum Inversen der jeweiligen Varianz (die Boxgröße veranschaulicht die Präzision der Meta-Schätzung). Koeffizienten („effect size“, ES) der kumulierten Exposition (Dosis) gegenüber DME in mg/m3-Jahre mit 95 % Konfidenzintervall zum Koeffizienten, berechnet mit Hilfe der Standardnormalverteilung. Ausgewertet werden Steenland et al. [39] und Silverman et al. [36], wie von Vermeulen et al. [44] verwendet, und entsprechend der Reanalyse von Crump et al. [13] mit Adjustierung für die Radonexposition (REC4, REC6; Tab. 3), Garshick et al. [15], wie von Vermeulen et al. [44] verwendet, und Garshick et al. [15] (modifiziert) sowie die Daten nach Möhner et al. [21] (adaptiert)

Nichtlinearität: Schwellenwertsuche

Die Hauptanalyse von Vermeulen et al. [44] wurde wiederholt (Verfahren: adjustierte Regressionsmodelle, feste Effekte), aber unter Berücksichtigung eines möglichen Schwellenwertes. Wird die Auswertung mit korrigierten Koeffizienten in Garshick-Koeffizienten durchgeführt (Tab. 2: [15], modifiziert), so ermittelt die Analyse einen Schwellenwert bei 150 µg/m3. Die Schwelle ist aber nicht statistisch signifikant von Null verschieden.

Wird Silverman et al. [36] (Tab. 1) durch die Ergebnisse aus Crump et al. [13] (Tab. 4) ersetzt, so zeigt die Analyse ebenfalls einen Schwellenwert. Allerdings ist dieser Schätzer aufgrund der deutlich schwächeren Expositions-Wirkungs-Beziehung statistisch schlechter zu fassen und zeigt eine weite Unsicherheit (Schwelle bei 90 µg/m3-Jahre, 95 % CI 0 µg/m3-Jahre bis 361 µg/m3-Jahre).

Diskussion

Vermeulen et al. [44] publizierten eine Meta-Regressionsanalyse zu 3 wesentlichen epidemiologischen US-amerikanischen Studien [15, 36, 39], die den Zusammenhang zwischen Dieselmotoremissionen (DME, engl. DEE), gemessen in der kumulierten Exposition gegenüber elementaren Kohlenstoff (EC) in µg/m3-Jahre und der Lungenkrebsmortalität darstellten. Die Autoren beschrieben in ihrer Metaanalyse eine statistisch signifikante Dosis-Wirkungs-Beziehung und erhöhte Krebsrisiken selbst bei sehr niedrigen Belastungen. Die vorliegende Reanalyse konnte die Einzel- und Hauptbefunde weitgehend aus den publizierten Studiendaten reproduzieren. Unter allen von uns durchgeführten Metaanalysen ergab die Auswertung der Daten, wie von Vermeulen et al. [44] verwendet, den höchsten Risikoschätzer. Allerdings ergab eine Untersuchung zur Heterogenität im Ausgangsniveau des Risikos – von Vermeulen et al. [44] wird hierzu nicht berichtet – ausgeprägte Unterschiede zwischen den 3 Studien (signifikant auf dem 5 %-Niveau). Alle 3 Studien sollten einheitlich ein Ausgangsniveau von RR = 1 bei einer kumulierten DME-Exposition von 0 µg/m3-Jahre zeigen. Eine gemeinsame Analyse der 3 Studien ist somit aus statistischer Sicht kritisch zu bewerten [1]. Eine Zusammenführung von Studien wird in anderen Situationen bei selbst deutlich geringer ausgeprägter Heterogenität abgelehnt [8, 26]. Diese Unsicherheit im Ausgangsniveau problematisiert die Verwendung der Analyse von Vermeulen et al. [44] für Risikoabschätzungen in niedrigeren Expositionsbereichen. Die folgende Aussage von Vermeulen et al. [44] ist insofern zu relativieren: „Formal tests of heterogeneity of estimates among the studies were of limited value due to the small number of data points for each study.“

Eine Korrektur der Koeffizienten in Garshick et al. [15] (vgl. [24]) bewirkte eine beträchtliche Reduktion der Heterogenität im Ausgangsniveau zwischen den 3 Studien (p = 0,63). Diese Korrektur war indiziert, da die von Vermeulen et al. [44] verwendeten Koeffizienten fehladjustiert sind [24]: Die kumulierte Exposition wurde zusätzlich nach der in ihr bereits enthaltenen Expositionsdauer adjustiert, so dass der Risikokoeffizient nicht die Wirkung der kumulierten Exposition schätzt. Die Modifikation ergab deutlich niedrigere Risikoschätzungen als zu dieser Studie von Vermeulen et al. [44] berichtet wird: Der korrigierte Dosiskoeffizient ist mehr als eine 10er-Potenz kleiner und weit entfernt von einer Signifikanz (p = 0,6). Die Korrektur der Garshick-Koeffizienten bewirkt allerdings lediglich eine Reduktion im Meta-Koeffizienten um etwa 7 % und die statistische Signifikanz bleibt erhalten, obgleich der p-Wert von 0,002 auf 0,006 ansteigt.

Zur korrekten Bewertung der Garshick-Studie ist ein weiterer Aspekt wichtig (vgl. den Leserbrief von [24], inklusive Autorenantwort). Garshick et al. [15] haben doppelt für das Geburtsjahr adjustiert, wenn auch mit unterschiedlicher Feinheit, so dass die Modelle nicht wegen Kollinearität zusammenbrechen. Allerdings kann eine solche Überadjustierung die Koeffizientenschätzung verzerren. Die Autoren antworteten, dass sie diese Doppelberücksichtigung durchführten, um sinnvolle Ergebnisse zu erhalten. Erst dann sei die sog. Proportional Hazards Assumption erfüllt gewesen. Dieser Erläuterung ändert jedoch an der Doppelverwendung der Geburtsjahrinformation und der dadurch verursachten potenziellen Überadjustierung nichts.

Der höchste in die Metastudie eingehende Expositionswert stammt aus der DEMS-Fall-Kontroll-Studie von Silverman et al. [36]: 1036 µg/m3-Jahre mit einem OR = 2,83 (95 % CI 1,28–6,26). Diese US Bergbau-Studie hat somit für die Metaanalyse besondere Relevanz. Zu den DEMS-Publikationen [3, 36] wurden kritische Anmerkungen und eine Liste offener Fragen veröffentlicht [25], auf die die Autoren mit einem Leserbrief reagierten [35]. Allerdings blieben viele Aspekte offen (siehe die Autorenantwort von Morfeld in [35]). Diese offenen Fragen ließen sich z. T. durch Zusatzanalysen beantworten, die aber einen Zugang zu den Originaldaten voraussetzen. Ein solcher Zugriff auf die Originaldaten der DEMS-Studie wurde bislang nur wenigen Forschern ermöglicht (Arbeitsgruppen um S. Moolgavkar und K. Crump), wobei derzeit unklar bleibt, ob diese Autoren uneingeschränkten Zugang zu allen Originaldaten hatten. Die Ergebnisse zur DEMS-Reanalyse wurden in dem HEI (Health Effects Institute) Webinar präsentiert [12, 21] und nach Peer-review in „Risk Analysis“ zur Publikation angenommen [13, 22].

In einem Leserbrief zu Vermeulen et al. [44] berichtete Crump [10], dass eine Auswertung der DEMS-Fall-Kontroll-Studie mit einem lag der Exposition um 5 Jahre zu deutlich niedrigeren Meta-Risikokoeffizienten führt als mit dem Originalwert von 15 Jahren. Crump weist zudem darauf hin, dass die anderen beiden eingeschlossenen Studien [15, 39] einen lag von 5 Jahren verwendeten. Die Autoren bestätigen qualitativ das Crump-Ergebnis, halten es aber nicht für wesentlich, da die Anpassung in der DEMS-Studie bei Verwendung eines „lags“ von 15 Jahren besser war und unvermeidlich Unterschiede in den Expositionserhebungen zwischen Studien bestehen. Vermeulen et al. [44] verwiesen aber auf die von Ihnen durchgeführten Sensitivitätsanalysen, in denen sie explorieren, welchen Einfluss ein unterschiedliches lagging der Exposition hat. Der Hinweis von Crump [10] zeigt allerdings weitere Unsicherheiten der Vermeulen-Metaanalyse auf, die ohne einen Zugriff auf die DEMS-Originaldaten nicht ermittelbar sind.

Moolgavkar et al. [23] führten eine Reanalyse der DEMS-Kohortenstudie von Attfield et al. [3] durch und weisen auf zwei wichtige Umstände hin:

  1. 1.

    Zeitabhängige Faktoren überlagern das Risikogeschehen, so dass Modellkoeffizienten nicht ohne Wechselwirkung mit dem Alter geschätzt werden sollten. Die Angabe eines isolierten Risikokoeffizienten – wie in Attfield et al. [3] beschrieben – macht nach Moolgavkar et al. [23] somit keinen Sinn.

  2. 2.

    Ein Bergwerk („limestone mine“, Kalksteinmine) stellt einen Ausreißer in den Daten dar. Die DME-Expositionen liegen in diesem Bergwerk am niedrigsten, aber die Risikoschätzungen sind die höchsten unter allen Bergwerken. Eine Cox-Regressions-Analyse der Daten zeigt (ohne gewisse Expositionshöhen vorweg auszuschließen), dass sich allein in der limestone mine ein signifikanter Expositions-Wirkungs-Zusammenhang ergibt (p = 0,0014), der sich aber in keinem anderen Bergwerk finden lässt. Wird die „limestone mine“ bei den Analysen ausgeschlossen, so steigt der p-Wert im Gesamtkollektiv von 0,02 auf 0,18 [22], d. h. es ergibt sich nach Ausschluss der „limestone mine“ keinen signifikanter Dosis-Wirkungs-Zusammenhang zwischen DME-Exposition und Lungenkrebssterblichkeit in der DEMS-Kohortenstudie. Obwohl diese Sonderrolle der „limestone mine“ in der Fall-Kontroll-Reanalyse von Crump et al. [13] nicht bestätigt werden konnte, stellt diese Sonderstellung ein erhebliches Interpretationsproblem für die Kohortenstudie und die Publikation von Attfield et al. [3] dar.

Crump et al. [13] reanalysierten die DEMS-Fall-Kontroll-Studie von Silverman et al. [36] und untersuchten zusätzlich den Einfluss von Kovariablen, die Silverman et al. [36] nicht in ihre finalen Modelle übernommen hatten. Die Analyse des Zusammenhangs von kumulierter DME-Exposition (lag = 15 Jahre) und Lungenkrebsmortalität ergab in der Originalarbeit einen Trend-p-Wert 0,001 (Tab. 3, [36]), den Crump und Mitarbeiter bestätigen konnten: p = 0,0006 in der Reanalyse. Crump et al. [13] (Table III) berichteten einen Trend-p-Wert von p = 0,02, wenn zusätzlich nach der Radonexposition adjustiert wird. Dies belegt, dass die Radonexposition einen deutlichen Einfluss auf den Zusammenhang besitzt und sich nach Berücksichtigung dieser Kovariablen die statistische Signifikanz der DME-Variablen abschwächt. Crump et al. [13] entwickelten zudem 6 neue DME-Expositionsmaße, alternativ zu den Schätzungen, die in Attfield et al. [3] und Silverman et al. [36] eingesetzt wurden. Werden diese alternativen DME-Expositionsmaße verwendet und gleichzeitig nach der Radonexposition adjustiert, so ergibt sich in keiner Konstellation ein signifikanter Zusammenhang zwischen kumulierter DME-Exposition und Lungenkrebsmortalität (p ≥ 0,17 oder der Trend ist negativ). Auch für die Expositionsmaße, wie sie in Attfield et al. [3] und Silverman et al. [36] verwendet wurden, zeigen die Analysen von Crump et al. [13] keinen signifikanten Zusammenhang auf, sobald nicht die Durchschnittswerte der Gruppen sondern die Individualdaten in der Analyse verwendet und nach Radonexpositionen adjustiert wird: p ≥ 0,65 oder der Trend ist negativ. Die Autoren schreiben: „Most importantly, we used the radon concentration data for the DEMS cohort provided by the DEMS investigators. When adjustment was made for radon, a known human lung carcinogen, the effect of REC on the association with lung cancer mortality was confined to only the three DEMS REC estimates. Most notably, there was no evidence of an association with any of the six alternate REC estimates, including REC6. When T2 trend tests were conducted, based on the use of individual worker REC estimates, the results were less statistically significant and in many cases the trends were negative. Indeed, for miners who always worked underground, five of the six REC metrics exhibited negative trends.“

Moolgavkar et al. [23] und Crump et al. [13] folgerten, dass die DEMS-Auswertungen von Attfield et al. [3] und Silverman et al. [36] nicht geeignet sind, um allein in einer quantitativen Risikoanalyse verwendet zu werden. Auch für Metaanalysen und Grenzwertableitungen sind die Limitationen dieser DEMS-Daten zu berücksichtigen.

Wird die Arbeit von Crump et al. [13] (REC4, REC6) an Stelle von Silverman et al. [36] berücksichtigt, so ergibt sich in der hier durchgeführten Meta-Reanalyse von Vermeulen et al. [44] ein deutlich abgeschwächter Zusammenhang zwischen DME-Exposition und Lungenkrebssterblichkeit. Tab. 10 bis 12 zeigen übereinstimmend, dass eine entsprechende Ersetzung der Originaldaten zu einer ungefähren Halbierung der Dosiskoeffizienten in den Meta-Regressionen führt. Werden Steenland et al. [39], Crump et al. [13] und Garshick et al. [15] (modifiziert) gemeinsam analysiert, so ist der Dosis-Wirkungs-Zusammenhang in einem adjustierten Regressionsmodelle mit festen Effekten eben noch signifikant (p = 0,03), also deutlich unsicherer als in der Originaldatenanalyse (p < 0,000001).

Die empfohlene Greenland/Longnecker-Technik konnte nicht auf die älteste der Studien [39] angewendet werden, da hierzu wichtige Zusatzinformationen in der Publikation fehlen. Mit dieser statistischen Methode konnten allerdings Metaanalysen zu Garshick et al. [15], Silverman et al. [36] und Möhner et al. [21] durchgeführt werden. Eine gemeinsame Analyse von Garshick et al. [15] (modifiziert), Silverman et al. [36] und Möhner et al. [21] (adaptiert) ergab unabhängig von der gewählten Methodik ähnliche Koeffizientenschätzungen, unabhängig vom Auswerteverfahren (zufällig, fest, Greenland/Longnecker), wobei die Greenland/Longnecker-Schätzung zwischen den Ergebnissen aus dem Modell mit zufälligen Effekten und dem adjustierten Modell mit festen Effekten lag. Die Fokussierung der Analysen auf das adjustierte Modell mit festen Effekten, mit dem in allen Datensituationen Auswertungen möglich waren, ist somit gerechtfertigt. Der niedrigste Risikoschätzer ergab sich nach Ausschluss der explorativen Studie von Steenland et al. [39] in einer Analyse der 3  Studien Garshick et al. [15] (modifiziert), Silverman et al. [36] (mod. nach [13]) und Möhner et al. [21] (adaptiert). Der Meta-Koeffizient sank in dieser Auswertung auf etwa 10–20 % des Wertes, der von Vermeulen et al. [44] als Ergebnis ihrer Hauptanalyse publiziert wurde. Des Weiteren verliert der Zusammenhang zwischen DME-Exposition und Lungenkrebsmortalität in dieser Analyse die statistische Signifikanz.

Vermeulen et al. [44] führten aus: „We were not able to investigate other model forms in our meta-regression, beyond the linear and spline curves because of the limited number of data points. If nonlinear exposure–response curves were actually a better fit (e. g., attenuation at higher exposures, for which there is some evidence in Silverman et al. [36], then this might change the estimate burden of disease due to DEE.“ Wird die Metaanalyse zu den 3 US-amerikanischen Studien [15, 36, 39] um eine Suche nach Schwellen erweitert, also die Dosis-Respons-Beziehung auf Nichtlinearität untersucht, so ergibt sich mit korrigierten Garshick-Koeffizienten ein Schwellenwert für die kumulierte DME-Exposition bei 150 µg/m3-Jahre. Dieser ist allerdings nicht signifikant von Null verschieden.

Sun et al. [41] erstellten einen Überblick zu den Ergebnissen von 42 Kohorten- und 32 Fall-Kontroll-Studien zur Frage des Zusammenhangs zwischen DME-Expositionen und Lungenkrebs. Die Autoren folgerten: „Overall, neither cohort nor case-control studies indicate a clear exposure-response relationship between DE exposure and lung cancer. Epidemiological studies published to date do not allow a valid quantification of the association between DE and lung cancer.“ Obgleich diese Arbeit nicht das methodische Niveau des metaanalytischen Zugangs von Vermeulen et al. [44] erreicht, so belegen die variierenden Studienergebnisse in Sun et al. [41] die Unsicherheit, die den epidemiologischen Studien zur Zusammenhangsfrage DME und Lungenkrebs zu Grunde liegt.

Die Reanalyse der deutschen Kalibergbaustudie [29] durch Möhner et al. [21] führte in ähnlicher Weise, wie in unserer Analyse der Vermeulenarbeit, zu einer klar abgeschwächten und anderen Aussage im Vergleich zur Originalarbeit: „Only for very high cumulative dose, corresponding to at least 20 years of exposure in the production area, some weak hints for a possible risk increase could be detected.“

Die hier durchgeführte Meta-Regressionsanalyse hat deutliche Beschränkungen. Wesentliche Limitationen ergeben sich aus dem Umstand, dass weder DME-Konzentrationswerte (nur Angaben zu kumulierten Expositionen) noch die Individualdaten für dieses Forschungsprojekt zur Verfügung standen. Schwellenwertanalysen für Stäube sollten sich auf eine Konzentrationsschwelle konzentrieren (vgl. Diskussion in [27]). Empirische Erkenntnisse zu Schwellen einer Quarzstaubeinwirkung, ermittelt an der deutschen Porzellanarbeiterkohorte, ergaben für die kumulierte Exposition keine Schwelle, jedoch für die Konzentration [27]. Ähnlich muss in diesem Fall vermutet werden, dass durch Beschränkung der Daten auf Angaben zur kumulierten DME-Exposition von einer Unterschätzung des tatsächlichen Konzentrationsschwellenwertes auszugehen ist. Die statistische Signifikanz des Befundes würde deutlich klarer ausfallen, wären die Originalstudien unter Berücksichtigung von Konzentrationswerten analysiert worden und in dieser Form in die Metaanalyse eingegangen. Die Daten gehen allein in aggregierter Form (Gruppendaten) in die Analyse ein (Tab. 1), während die Originaldaten individuell sind. Solche Analysen zu vorab schon verdichteten Daten sind problematisch, da sich je nach Art der Rasterung andere Ergebnisse einstellen können und die Präzision durch die Kategorisierung abnimmt. Grundsätzlich führen Kategorisierungen zu Informationsverlust, potenziellen Verzerrungen und „Power“-Einbußen [34].

Diese genannten Limitationen betreffen vor allem auch die Arbeit von Vermeulen et al. [44]. Obgleich alle Hauptautoren der Einzelstudien zugleich Koautoren der Metaanalyse sind, haben Vermeulen et al. [44] darauf verzichtet, die Originaldaten zusammenzuführen und zu analysieren, sondern sich nur auf die gruppierten Daten aus den Ergebnistabellen der Publikationen beschränkt. Belastbare Analysen sollten sich jedoch auf Individualdaten beziehen und die DME-Konzentration als wesentliche Variable berücksichtigen.

Die hier durchgeführten Meta-Regressionen zeigen erhebliche Variationen der Ergebnisse, je nach eingeschlossenen Studiendaten oder gewählten Analyseverfahren. Die von Vermeulen und Mitarbeitern durchgeführte Datenauswahl führte zu den höchsten Risikoschätzern in unserer Metaanalyse (statistisch signifikant). Der niedrigste Risikoschätzer ergab sich nach Ausschluss der explorativen Studie von Steenland et al. [39] in einer Analyse der 3 Studien Garshick et al. [15] (modifiziert), Silverman et al. [36] (modifiziert nach [13]) und Möhner et al. [21] (adaptiert). Der Meta-Koeffizient sank in dieser Auswertung auf ca. 10–20 % des Wertes, der von Vermeulen et al. [44] als Ergebnis ihrer Hauptanalyse publiziert wurde. Des Weiteren verliert der Zusammenhang zwischen DME-Exposition und Lungenkrebsmortalität in dieser Analyse die statistische Signifikanz. Die aus Vermeulen et al. [44] abgeleiteten Risikoschätzungen im sehr niedrigen Expositionsbereich und zugehörige Grenzwertableitungen [32] sind daher nicht überzeugend, nicht zuletzt da die Daten – nach Korrektur der Garshick-Koeffizienten – auch grundsätzlich mit einem Schwellenwert verträglich sind.

Toxikologische Ergebnisse der aktuellen ACES-Studie aus kontrollierten Langzeitversuchen mit Ratten zeigen bei lebenslanger Exposition mit „New Technology Diesel Exhaust“ (NTDE) gegenüber früheren Studien mit traditionellen DME (TDE) aus Dieselmotoren ohne Partikelminderung und ohne sonstige Abgasnachbehandlung u. a. weder eine Tumorinduktion noch Präkanzerosen [17]. In der Zusammenfassung der IARC-Workshopergebnisse zur Neubewertung von DME in 2012 wurde darauf hingewiesen, dass nur toxikologische Daten mit Motoren- und Kraftstofftechnologien bis zum Jahr 2000 berücksichtigt wurden [4]. Damit bezieht sich die IARC-Einstufung aus 2012 auch unter Nutzung der epidemiologischen Daten von Steenland et al. [39], Garshick et al. [15] und Silverman et al. [36] ausschließlich auf ein mögliches krebserzeugendes Potenzial von Dieselmotoremissionen ohne zeitgemäße Abgasnachbehandlung (TDE). Die neuen Tierversuchsergebnisse der ACES-Studie unterstreichen jedoch die Notwendigkeit der Berücksichtigung von Motoren- und Abgasnachbehandlungstechniken in der Diskussion um Arbeitsplatzgrenzwerte und mögliche Lungenkrebsrisiken durch DME. Auch McClellan et al. [20] weisen explizit auf die qualitativen und quantitativen Unterschiede zwischen TDE und NTDE hin und empfehlen, dass bei der Beurteilung kanzerogener Risiken diese Unterschiede berücksichtigt werden sollten.

Unabhängig von den genannten grundsätzlichen Beschränkungen hat die vorliegende Reanalyse also aufgezeigt, dass die Ergebnisse aus der Meta-Regressionsstudie von Vermeulen et al. [44] nicht in einer Risikoschätzung vorbehaltlos verwendet werden sollten, denn die Ergebnisse variieren ausgeprägt in Abhängigkeit von den gewählten Inputdaten und den verwendeten statistischen Verfahren. Insbesondere ist eine Anwendung der Ergebnisse von Vermeulen et al. [44] im Niedrigexpositionsbereich kontraindiziert.

Fazit

  • Vermeulen et al. [44] publizierten eine Meta-Regressionsanalyse zu 3 wesentlichen epidemiologischen US-amerikanischen Studien zum Zusammenhang zwischen Dieselmotoremissionen (DME) und Lungenkrebs. Sie ermittelten eine statistisch signifikante Dosis-Wirkungs-Beziehung und erhöhte Krebsrisiken selbst bei sehr niedrigen Belastungen mit DME.

  • Die vorliegende Reanalyse kann die von Vermeulen et al. [44] berichteten Einzel- und Hauptbefunde weitgehend aus den publizierten Studiendaten reproduzieren.

  • Die Meta-Regressionen zeigen erhebliche Variationen der Ergebnisse, je nach eingeschlossenen Studiendaten oder gewählten Analyseverfahren.

  • Die Ergebnisse aus der Meta-Regressionsanalyse von Vermeulen et al. [44] sollten daher nicht vorbehaltlos in einer Risikoschätzung verwendet werden, insbesondere nicht im Niedrigexpositionsbereich gegenüber DME.