Chronische Nierenerkrankungen („chronic kidney diseases“, CKD) haben eine hohe Inzidenz und Prävalenz und stellen große diagnostische, therapeutische und ökonomische Anforderungen an Patienten, Ärzte und das Gesundheitssystem. Obwohl wirksame progressionsverzögernde Interventionen zur Verfügung stehen, können diese nicht bei allen Betroffenen den Eintritt einer terminalen Niereninsuffizienz verhindern. Daher besteht ein hoher klinischer Bedarf für neue Medikamente, die allerdings erst ihre Wirksamkeit und Sicherheit beweisen müssen, und dies ist, wie Beispiele der jüngsten Vergangenheit zeigen, nicht einfach [4, 6]. Ein Problem dabei ist, dass das Fortschreiten der Erkrankung sehr variabel ist und viele Patienten in Studien eingeschlossen und/oder lange beobachtet werden müssen, um eine ausreichende Zahl von „harten“ Endpunkten zu akkumulieren. Außerdem erschwert es diese Variabilität, Patienten über ihr Risiko adäquat aufzuklären, und Gesundheitsökonomen können die Kosten neuer Interventionen schwer einordnen. Darüber hinaus ist der Phänotyp „progrediente Nierenerkrankung“ pathophysiologisch heterogen [19].

Die Suche nach Biomarkern zur Vorhersage der Prognose verläuft besonders intensiv

Manche Prozesse, wie die Hypertonie, spielen wahrscheinlich eine generelle Rolle, während andere, die ebenfalls das Fortschreiten der Erkrankung beschleunigen, nicht bei allen Patienten und/oder zu jedem Zeitpunkt gleichermaßen aktiv sind. Medikamente, die primär auf diese Vorgänge abzielen, wirken nur in Subgruppen, was für Studien, die klinische Praxis und die Gesundheitsökonomie ähnliche Probleme aufwirft wie die Heterogenität der Progressionsrate. Daher verläuft in der Nephrologie die Suche nach Biomarkern (BM), die für die Vorhersage der Prognose und/oder des Ansprechens auf eine Therapie eingesetzt werden können, besonders intensiv. Im Dezember 2015 gab es in PubMed rund 30.000 Einträge zu den Begriffen „renal disease“ und „biomarker“, 11.604 aus den letzten 5 Jahren. Neben dem offenkundigen klinischen Bedarf haben auch die neuen „High-throughput-omics“-Technologien zu diesem Boom beigetragen. Dieser Artikel beschäftigt sich mit einigen methodischen, statistischen und konzeptionellen Aspekten, die im Zusammenhang mit den verschiedenen Indikationen zum Einsatz von BM auftauchen.

Prognostische Biomarker und Modelle zur Risikoberechnung

Stärken und Schwächen von Risikomodellen

BM bilden die Grundlage mathematischer Modelle zur Risikovorhersage. Die Anforderungen an ein prognostisches Modell unterscheiden sich von jenen, die an einen diagnostischen Test gestellt werden. In der Diagnostik ist das Ereignis (d. h. die Erkrankung) bereits eingetreten, während eine prognostische Aussage versucht, über stochastische Methoden die Wahrscheinlichkeit abzuschätzen. Für den Kliniker ist es wichtig, dass Risikomodelle für „seinen“ Patienten Gültigkeit haben, möglichst genau sind und relevante Endpunkte vorhersagen. Zur Entwicklung und Validierung müssen repräsentative, große, gut dokumentierte Populationen zur Verfügung stehen. Eine Faustregel besagt, dass für jeden evaluierten BM mindestens 10 Ereignisse von Interesse vorkommen müssen, um das Problem des „model overfitting“ zu vermeiden, wobei der Trend dahin geht, diese Prämisse aufzugeben [16]. „Overfitted“-Modelle unterschätzen das Risiko bei niedrigem, überschätzen es aber bei hohem Risiko; in unabhängigen Populationen verlieren sie an Präzision. Daher versucht man, die Zahl der Parameter z. B. durch schrittweise Auswahl zu reduzieren. Eine wesentliche Frage ist, was vorhergesagt werden soll.

Wie oben ausgeführt, besteht ein hoher klinischer Bedarf für die Vorhersage der Progressionsrate [1], und bis zum Jahr 2013 wurden 23 Modelle publiziert [22]. Allerdings wurde deren methodische Qualität ebenso kritisiert wie die Heterogenität der gewählten Endpunkte [2]. Darüber hinaus muss in der Nephrologie die hohe Mortalität als „competing risk“ berücksichtigt werden, weil dadurch das Auftreten des Ereignisses von Interesse verhindert wird (der Tod verhindert die Progression). Erst wenn diese Voraussetzungen erfüllt sind, sollte das Modell entwickelt und dessen „Qualität“ durch Maßzahlen beschrieben werden (s. unten; [12]). Im Bereich der kardiovaskulären Medizin ist der Framingham Risk Score (FRS) das bekannteste Beispiel für ein Risikomodell. Er schätzt die absolute Wahrscheinlichkeit eines kardiovaskulären Ereignisses innerhalb der nächsten 10 Jahre [8] und ist so gut validiert, dass damit Risikogruppen (> 20 %, 10–20 %, < 10 %) definiert werden, für die spezifische Behandlungsrichtlinien gelten [10]. Trotzdem gibt es Kritik an derartigen Berechnungen [12]. So trifft der FRS eine Aussage über die nächsten Jahre, nicht aber über das „Lebenszeitrisiko“.

Für den Kliniker ist es wichtig, dass Risikomodelle für „seinen“ Patienten Gültigkeit haben

Wenn Risikomodelle auch das Lebensalter beinhalten, führt dies aber dazu, dass ältere Patienten (mit einem durch das Alter höheren, aber nicht modifizierbaren Risiko) eher der Hochrisikogruppe zugeteilt und bevorzugt behandelt werden, während jüngeren Patienten mit evtl. sogar stärker ausgeprägten modifizierbaren Risikofaktoren und einem höheren „lifetime risk“ die Therapie zumindest vorübergehend vorenthalten wird. Allerdings gibt es inzwischen auch Modelle, die das Lebenszeitrisiko anzeigen [11]. Risikomodelle können auch herangezogen werden, um Patienten über ihr individuelles Schicksal aufzuklären. Dafür ist eine Aussage über das absolute dem Wissen über das relative Risiko vorzuziehen, wobei ersteres jedoch auch korrekt kommuniziert werden muss. Wenn durch den FRS ein 7 %iges Risiko für ein Ereignis vorausgesagt wird, besagt dies, dass von 100 ähnlichen Patienten 7 ein Ereignis haben und 93 nicht. Die daraus abgeleitete Kritik, dass Risikoalgorithmen nicht sinnvoll sind, weil sie keine Aussage über ein Individuum erlauben, ist eher naiv, da auch unsere Therapieempfehlungen meist auf das Wohl einer Gruppe und nicht des einzelnen Patienten abgestimmt sind. Trotzdem sollten individuelle Faktoren in die Interpretation einer Risikovorhersage mit einbezogen werden. Viele Modelle berücksichtigen starke „konventionelle“ Risikofaktoren, die in der Population häufig angetroffen werden, während seltene (für ein Individuum aber sehr wichtige) Einflüsse während der statistischen Entwicklung des Modells eliminiert werden, da sie für die große Gruppe nicht signifikant sind (z. B. massive Adipositas).

Risikomodelle zur Progression von Nierenerkrankungen

In den letzten Jahren wurden einige Vorhersagemodelle für die Progression von CKD veröffentlicht [22], eines der besten stammt von einer kanadischen Arbeitsgruppe [20, 21]. Der Rechner ermittelt das Risiko einer terminalen Niereninsuffizienz bei Patienten mit einer geschätzten glomerulären Filtrationsrate (eGFR) zwischen 10 und 59 ml/min/1.73 m2, für die Entwicklung standen neben demographischen und klinischen Daten auch Laborwerte zur Verfügung. Eine Kombination aus Alter, Geschlecht, eGFR und Albuminurie am Studienbeginn erzielte einen optimalen c‑Index-Wert von 0,91 (Basismodell). Risikovorhersagemodelle sollen Individuen mit einem zukünftigen Ereignis von jenen unterscheiden, die dieses nicht entwickeln. Diese Eigenschaft nennt man Diskrimination, und die c („concordance“)-Statistik entspricht konzeptionell der AUC („area under the curve“) der ROC („receiver-operating characteristic“)-Kurve. Der c‑Index-Wert sagt aus, um wie viel wahrscheinlicher es ist, dass ein zufällig ausgewählter Proband mit einem Ereignis auch einen höheren Risiko-Score hat. Der Wert kann zwischen 1 (perfekte Diskrimination) und 0,5 (Modell ist nicht besser als ein Münzwurf) schwanken, das 95 %-Konfidenzintervall des c‑Index-Wertes sollte 0,5 nicht beinhalten [24].

Mittelwerte/Mediane zwischen 0,5 und 0,7 gelten als inadäquat, zwischen 0,7 und 0,8 als adäquat (hier liegt z. B. der FRS bei den meisten Populationen) und zwischen 0,8 und 0,9 als sehr gut. Werte über 0,9 sind exzellent, sodass man eigentlich annehmen muss, dass das obige Modell nicht mehr wesentlich verbessert werden kann. Allerdings kann man aus der c‑Statistik nicht ablesen, ob das absolute Risiko annähernd korrekt widergespiegelt wird (wie nahe kommt die Vorhersage an das beobachtete Risiko heran?). Diese Eigenschaft beschreibt die Kalibration [3, 25], welche grafisch erfasst werden kann, indem man das tatsächliche und das geschätzte Risiko, in Quintilen geteilt, nebeneinander abbildet. Daneben kann man aber auch formale statistische Verfahren heranziehen (z. B. Akaike-Informationskriterium), und in der kanadischen Studie kam man zum Schluss, dass zusätzlich zu den in der c‑Statistik gewählten Parametern die Serumphosphat-, -bikarbonat, -albumin- und -kalziumwerte mit einbezogen werden sollten. Abschließend definierten die Autoren 3 Risikokategorien und versuchten zu klären, ob das „komplette“ Modell die Population diesen Kategorien anders zuordnet als das Basismodell („risk reclassification analysis“). Manche der Gruppenänderungen erfolgen gerechtfertigt, andere nicht, und ein p‑Wert unter 0,05 des „net reclassification improvement“ zeigt an, dass die korrekte Reklassifikation signifikant häufiger erfolgt als die inkorrekte. Auch dies wurde in der oben zitierten Studie gezeigt. Dunkler et al. versuchten, das Fortschreiten der Nephropathie (De-novo-Mikroalbuminurie bzw. Makroalbuminurie, Verdopplung des Serumkreatinins oder ESRD [„end-stage renal disease“]) in der ONTARGET-Population [23] vorherzusagen, für die Validierung wurde die ORIGIN-Kohorte [15] herangezogen. In Anbetracht der hohen Mortalität wurde das „competing risk of death“ ebenfalls berücksichtigt [5]. Auch hier inkludierte das optimale Modell die Albuminurie, die eGFR, das Geschlecht und das Alter. Der c‑Index-Wert betrug aber nur 0,68 und konnte auch durch die Zugabe anderer Parameter nicht verbessert werden, was evtl. ein Hinweis darauf ist, dass es schwieriger ist, das Risiko der terminalen Niereninsuffizienz in frühen Stadien der Erkrankung vorherzusagen. Ein anderer interessanter Aspekt zeigt sich in einer Studie von Pena et al., in der das Hinzufügen von vielen, gut ausgewählten „neuen“, die Pathophysiologie der Erkrankung repräsentierenden BM den c‑Index-Wert eines Modells aus konventionellen Prognosefaktoren nicht verbesserte [17].

Dazu muss man sagen, dass sich die c‑Statistik eines Modells, welches bereits starke prognostische Marker enthält, nur dann deutlich verändert, wenn die Odds-Ratio neuer BM in der univariaten Testung hoch ist (z. B. > 9). Dies kann, wenn überhaupt, nur durch Markerkombinationen erreicht werden [26]. Looker et al. untersuchten 207 potenzielle BM, um die rasche Progression einer Nephropathie bei Diabetes mellitus Typ 2 (definiert als ein GFR-Verlust von > 40 % innerhalb von 3,5 Jahren) vorherzusagen. Das Basismodell mit klinischen Daten erreichte eine AUC von 0,706, erst die Zugabe von 14 BM verbesserte diesen Wert auf 0,868 [13].

Trotz Omics-Technologien und neuer Biomarker ist es kaum gelungen, Risikovorhersagemodelle zu verbessern

Allgemein fällt auf, dass es trotz des Einsatzes von Omics-Technologien und den daraus resultierenden vielen neuen BM in der letzten Zeit kaum gelungen ist, im kardiovaskulären Bereich Risikovorhersagemodelle signifikant zu verbessern. Wahrscheinlich liegt dies daran, dass bei vielen dieser Marker eine Kolinearität mit bereits im Modell enthaltenen Faktoren vorliegt. Allerdings gibt es auch Beispiele dafür, dass im intermediären Risikobereich signifikante Fortschritte möglich sind. Obwohl sich der c‑Index-Wert des FRS in der Women’s Health Study durch die zusätzliche Inklusion des CRP (C-reaktives Protein)-Wertes für die gesamte Population nicht veränderte, stieg für Frauen mit einem FRS zwischen 5 und 9 % bei einem CRP-Wert über 10 dieser therapierelevant auf über 10 % an [18].

Prädiktive Biomarker und personalisierte Medizin

Viele neue BM werden primär danach beurteilt, ob sie in der Lage sind, die Prognosevorhersage zu verbessern. Dabei ist es nicht von Bedeutung, ob sie für die Erkrankung typische oder wichtige Bereiche der Pathophysiologie repräsentieren. Nehmen wir als Beispiel den BM „GFR“. Eine reduzierte GFR ist ein exzellenter negativer prognostischer Marker, allerdings liefert die GFR keine Aussage über die Genese und daher auch Therapie der Erkrankung.

Wenn dem Phänotyp „progrediente Nierenerkrankung“ verschiedene pathogenetische Prozesse zugrunde liegen und diese nicht bei allen Patienten immer gleich aktiv sind, entsteht ein Problem. Omics-Technologien und systembiologische Analysen erlauben es inzwischen, diese unterschiedlichen Prozesse zumindest teilweise abzubilden und durch BM zu charakterisieren [14]. Über diese könnten dann Patienten einer besseren, weil zielgerichteten Therapie zugeführt werden. Wenn man diese prädiktiven BM aber in Bezug auf ihre prognostische Potenz mit der GFR vergleicht, ist letztere natürlich für eine Population überlegen.

Pharmakodynamisch prädiktive BM werden, wie die ihnen verwandten pharmakokinetischen, in manchen Bereichen der Medizin bereits als sog. „companion diagnostics“ (CD) eingesetzt. Die FDA-Definition für ein CD ist, dass dieses „essential for safe and effective use of a corresponding specific therapeutic product“ [9] ist. Lange Zeit waren CD vor allem Marker aus dem Bereich der Pharmakogenetik, durch deren Einsatz die Arzneimittelsicherheit erhöht werden sollte (z.  B. Variationen des Cytochrom-P450-Enzymsystems). Erst in den letzten Jahren hat die Zahl der pharmakodynamischen prädiktiven BM zugenommen, was eng mit dem Aufstieg der personalisierten Medizin zusammenhängt. Dieser Entwicklung stehen jedoch noch viele Hürden im Wege. Frueh et al. haben sich mit diesen beschäftigt und 3 Entwicklungsszenarien entwickelt [7]:

  1. 1.

    Ein prädiktiver BM wird gemeinsam mit einem Medikament entwickelt, wie dies z. B. für die Kombination von Trastuzumab und der Her2/neu-Färbung bei Mammakarzinomen geschehen ist. Während für die Zulassung von Medikamenten strenge Vorgaben erfüllt werden müssen und auch entsprechende finanzielle Mittel zur Verfügung gestellt werden, ist die Regelung und Finanzierung von Studien zu diagnostischen Tests wesentlich unklarer. In diesem Szenario profitiert der Test von der Medikamentenentwicklung in mehrfacher Hinsicht. Er wird im Umfeld der strengen Medikamentenstudie evaluiert, die Hersteller des Medikaments und des Tests haben ähnliche Interessen, und Kliniker akzeptieren den Test, weil nur dadurch der Zugang zum Medikament gesichert ist. Für die Kostenträger wiederum ist es einfach, eine „Cost-benefit/effectiveness“-Analyse durchzuführen.

  2. 2.

    Ein neuer prädiktiver BM wird für ein Medikament eingeführt, welches sich bereits im klinischen Einsatz befindet. Wenn er einen anderen, bereits etablierten Marker ersetzt, ist die Evaluierung einfach (Sensitivität, Spezifität, Kosten). Wesentlich komplexer ist die Lage, wenn dies nicht der Fall ist, da die klinische Praxis verändert werden muss und sowohl Kliniker als auch Ökonomen von der Sinnhaftigkeit überzeugt werden müssen. Ein erfolgreiches Beispiel ist die Bestimmung des HLA-B*5701-Genotyps vor dem Einsatz von Abacavir, da damit eine rasch auftretende und schwere Nebenwirkung verhindert werden kann. Wenn der Nutzen nicht so unmittelbar absehbar ist (wie z. B. bei der Bestimmung des CYP2C19-Genotyps beim Einsatz von Clopidogrel) hat sich gezeigt, dass die Akzeptanz im klinischen Alltag kaum erreicht wird.

  3. 3.

    Ein drittes Szenario ergibt sich, wenn ein Test nicht mit einem bestimmten Medikament assoziiert ist, sondern eher prinzipiell die weitere Therapie steuert (konservative oder chirurgische Therapie, adjuvante Chemotherapie ja oder nein). Eine Kosten-Nutzen-Rechnung ist schwierig, allerdings werden derartige Tests häufig in Bereichen mit hohem Bedarf an Entscheidungshilfen und teurer Therapie eingesetzt (OncotypeDX, Foundation One im Bereich der Tumortherapie).

Zusammengefasst, ist es bei der Entwicklung von prädiktiven BM oft schwierig, die Finanzierung von adäquaten klinischen Validierungsstudien zu sichern. Die FDA trägt diesem Umstand Rechnung und hat eine sehr „weiche“ Stellungnahme abgegeben, welcher Evidenzgrad notwendig ist, um derartige Tests zuzulassen. Allerdings beseitigt dies nicht das Problem der Kostenübernahme durch Kostenträger, die am liebsten auf „Real-world“-Studiendaten zurückgreifen würden, und die fehlende Akzeptanz durch die Kliniker, wenn überzeugende Studiendaten fehlen.

Fazit für die Praxis

  • In den letzten Jahren wurden mehrere Vorhersagemodelle entwickelt, die das Risiko der Progression einer chronischen Nierenerkrankung vorhersagen. Leider ist deren Qualität nicht immer ausreichend.

  • Gerade für die Nephrologie wären prädiktive BM von großem Interesse, da sie eine Information über die Pathogenese der Erkrankung liefern und so neue Therapieoptionen erkennen lassen und damit einen Schritt in Richtung personalisierter Medizin darstellen.