Hinführung zum Thema

Die Aufklärung der genetischen Faktoren bei den in der Bevölkerung häufigen Krankheiten, den sog. Volkskrankheiten, hat in den letzten Jahren rasante Fortschritte gemacht. Während krankheitsbeitragende, hochfrequente genetische Varianten (engl. „common variants“) mittlerweile in großer Zahl identifiziert sind, gelang die Identifizierung seltener Varianten (engl. „rare variants“) in der Regel nur bei monogen vererbten Subtypen bzw. für Varianten mit hoher Penetranz. Neue Sequenziertechnologien ermöglichen seit Kurzem auch die exom- bzw. genomweite Sequenzierung großer Patienten- und Kontrollkollektive. Somit kann der Beitrag seltener Varianten zur Ätiologie von Volkskrankheiten zukünftig systematisch erfasst werden, erste entsprechende Untersuchungen werden bereits durchgeführt. In diesem Artikel betrachten wir die Bedeutung seltener Varianten bei der Aufklärung der genetischen Ätiologie häufiger Erkrankungen insbesondere unter folgenden Aspekten: Bei welchen häufigen Krankheiten ist ein Beitrag seltener Varianten zu erwarten, wie können diese Varianten identifiziert werden, und welches Potenzial bieten seltene Varianten für das Verständnis biologischer Prozesse bzw. für die Translation in die klinische Praxis?

Die genetische Architektur häufiger Krankheiten

In der Bevölkerung häufige Krankheiten, wie z. B. schizophrene Störungen, entzündliche Darmerkrankungen, koronare Herzkrankheit oder Alzheimer Demenz, entstehen bei den meisten Patienten aus dem Zusammenspiel von genetischen Faktoren und Umgebungseinflüssen. Darüber hinaus nimmt man an, dass unter einer Diagnose unterschiedliche Krankheitsätiologien zusammengefasst werden (Abb. 1). Der genetische Anteil an der Krankheitsentstehung kann im Prinzip hochfrequente Varianten mit niedriger Penetranz ebenso umfassen wie seltene Varianten entlang des gesamten Penetranzspektrums. Sowohl in Simulationsstudien als auch durch Untersuchungen realer Daten konnte gezeigt werden, dass eine Vielzahl an Kombinationen von Varianten des gesamten allelischen Spektrums als Szenarien für die genetische Architektur von Volkskrankheiten infrage kommt [2, 5]. Dabei ist es naheliegend, dass mit zunehmender Polygenität, d. h. je mehr genetische Varianten beim einzelnen Patienten an der Entstehung der Krankheit beteiligt sind, sowohl seltene als auch häufige Varianten im Schnitt geringere Effektstärken aufweisen werden [2].

Abb. 1
figure 1

Genetische Architektur häufiger Erkrankungen. Volkskrankheiten sind in der Regel polygen und genetisch heterogen. Verschiedene Varianten des allelischen Spektrums sind durch Symbole und Farben gekennzeichnet, unterschiedliche Positionen der Symbole stehen für verschiedene krankheitsbeitragende Gene. Die Größe der Symbole korreliert mit der jeweiligen Effektstärke. a Verschiedene Betroffene weisen eine individuelle Krankheitsarchitektur auf, zu der Varianten des gesamten allelischen Spektrums sowie Umgebungseinflüsse beitragen können. b Für häufige Erkrankungen ursächliche Varianten sind in der Regel nicht vollständig penetrant und kommen auch bei nicht erkrankten Personen der Allgemeinbevölkerung vor

Schätzungen des Anteils häufiger/seltener Varianten an der Heritabilität

Der relative Beitrag häufiger Varianten an der Gesamterblichkeit (‑heritabilität) lässt sich mit statistischen Programmen auf der Basis systematischer SNP-(„single nucleotide polymorphism“)-Daten, meist aus genomweiten Assoziationsstudien (GWAS), abschätzen (sog. „SNP-basierte Heritabilität“, z. B. GCTA [61], LD-score-Regression [7]). Die für viele Volkskrankheiten beobachtete Differenz zwischen Gesamtheritabilität und SNP-Heritabilität (oft als „missing heritability“ bezeichnet) kann zumindest zum Teil durch seltene Varianten bedingt sein, sicher quantifizieren lässt sich der Beitrag seltener Varianten bisher in der Regel nicht. Es gibt auch Stimmen, die die „missing heritability“ für ein überschätztes Phänomen halten, da die Gesamtheritabilität, wenn sie als sog. „broad-sense heritability“ geschätzt wurde, auch aus Interaktionen zwischen Genen bzw. Signalwegen sowie Gen-Umwelt-Wechselwirkungen resultieren kann (epistatische Effekte) [63]. Damit ist sie nicht direkt vergleichbar mit der SNP-Heritabilität, welche ausschließlich additive Geneffekte misst. Aber auch wenn die Schätzung der Gesamtheritabilität auf additive Effekte beschränkt ist (sog. „narrow sense heritability“), verbleibt bei den Volkskrankheiten in der Regel eine erhebliche „missing heritability“. Basierend auf Gesamtgenomsequenzdaten einer großen populationsbasierten Kohorte, konnte in einer kürzlich auf biorxiv erschienenen Studie zumindest für die Merkmale Körpergröße und BMI (Body-Mass-Index) gezeigt werden, dass die „missing heritability“ vollständig durch seltene Varianten erklärt wird [57].

Einfluss der Reproduktionsrate auf die genetische Architektur

Der Beitrag seltener Varianten an der Krankheitsentstehung wird bei verschiedenen Volkskrankheiten unterschiedlich groß sein. Bei denjenigen Volkskrankheiten, die bei den Betroffenen zu einer schwerwiegenden Beeinträchtigung mit einhergehender verminderter Reproduktion führen, ist zu erwarten, dass zumindest ein Teil der beitragenden Varianten erst kürzlich entstanden und damit das allelische Spektrum in Richtung der seltenen Varianten verschoben ist. Denovo Mutationen sind dann auch eine mögliche Erklärung für die gleichbleibende Häufigkeit dieser Erkrankungen in der Bevölkerung. Zur Gruppe der Volkskrankheiten mit verminderten Reproduktionsraten gehören z. B. schizophrene Störungen [39], für die der Beitrag seltener Varianten bereits durch seltene Kopienzahlveränderungen (engl. „copy number variants“, CNVs) überzeugend demonstriert werden konnte [27, 52].

Dagegen stehen Erkrankungen mit spätem Manifestationsalter (z. B. koronare Herzerkrankung, Alzheimer Demenz) oder allenfalls mäßiger bzw. fehlender klinischer Beeinträchtigung (z. B. androgenetische Alopezie), bei denen zunächst von einem geringen Beitrag seltener Varianten auszugehen ist [37, 62]. So wurde für die androgenetische Alopezie erst kürzlich durch Analyse der Daten der UK-Biobank ein relevanter Beitrag seltener Varianten nahezu ausgeschlossen [62]. Grundsätzlich können aber auch bei Erkrankungen ohne starkem Selektionsdruck Subtypen vorliegen, die einer eher monogenen Vererbung unterliegen. So sind z. B. bei der Alzheimer Demenz seltene, hoch penetrante Mutationen in Familien mit frühem Krankheitsbeginn, u. a. in APP, PSEN1, PSEN2 [60] und SORL1 [41], berichtet. Auch bei der koronaren Herzkrankheit wurden kausale Gene in eher monogenen Formen identifiziert, u. a. PCSK9 in familiärer Hypercholesterinämie [1].

Warum lohnt es sich, seltene Varianten bei häufigen Erkrankungen zu identifizieren?

Unabhängig davon, welchen Anteil seltene Varianten an der Gesamtheritabilität einzelner Volkskrankheiten erklären, lohnt sich deren Identifizierung aus mehreren Gründen:

Identifizierung neuer krankheitsbeitragender Gene

Seltene Varianten können zur Identifizierung neuer Gene beitragen. Dies kann durch die Beobachtung eines de novo Auftretens, von Kosegregation in mehrfach betroffenen Familien oder der Häufung in einem Patientenkollektiv im Vergleich zu Kontrollen geschehen. Dadurch können sowohl Krankheitsgene an bereits z. B. im Rahmen von GWAS-Untersuchungen beschriebenen Loci als auch bisher noch völlig unbekannte Gene identifiziert werden.

Priorisierung von Kandidatengenen an bekannten Loci

In den GWAS-Loci findet sich das stärkste Assoziationssignal meist in nicht-kodierenden Bereichen, daher ist das kausale Krankheitsgen häufig nicht direkt evident. Als Teil des allelischen Spektrums können jedoch auch seltene Varianten vorliegen und dadurch hinweisgebend auf das kausale Krankheitsgen sein. Dieser Ansatz war bereits bei verschiedenen Volkskrankheiten erfolgreich, z. B. bei der Identifizierung des Gens GLPR1 in Diabetes Typ 2 [59], oder mehrerer Gene an GWAS-Loci für chronisch-entzündliche Darmerkrankungen [45] (eine Übersicht findet sich in [6]). Analog kann die Identifizierung seltener Varianten auch zur Priorisierung von Krankheitsgenen in krankheitsassoziierten CNV-Loci beitragen, wenn in der betroffenen Region mehrere Gene liegen.

In der Literatur wird auch die Möglichkeit diskutiert, dass seltene Varianten die tatsächlich ursächlichen Varianten an einem GWAS-Locus darstellen können. Bei dieser Theorie der „synthetischen Assoziationen“ treten mehrere seltene Varianten unabhängig voneinander auf dem mit der Erkrankung assoziierten Haplotyp auf. Das Assoziationssignal einer den Haplotyp markierenden häufigen Variante bildet somit den gemeinsamen Effekt der seltenen Varianten ab [15]. Für die tatsächliche Existenz dieser synthetischen Assoziationen gibt es jedoch bisher nur wenige Beispiele (z. B. HOXB13-Locus bei Prostatakrebs [49], NOD2-Locus bei chronisch-entzündlichen Darmerkrankungen [3]).

Identifizierung von Krankheitsgenen in genomischen Regionen ohne vorbestehende genetische Evidenz

Es ist anzunehmen, dass ein Teil der Krankheitsgene in genomischen Regionen liegt, die nicht durch GWAS oder CNV-Befunde impliziert worden sind (z. B. SETD1A in Schizophrenie [50]). Dies kann zum einen daran liegen, dass die bisher untersuchten GWAS-Kohorten nicht zur Detektion einer tatsächlich vorhandenen Assoziation ausreichten (Powerproblem), dass eine klinische Subgruppe an Patienten (mit z. B. einer spezifischen molekularen Signatur) in den bisherigen Untersuchungen unterrepräsentiert ist, oder die bisher verwendeten Arrays diese Regionen nicht ausreichend abdecken (einschließlich der Möglichkeit mangelnden Kopplungsungleichgewichts zwischen genotypisierten und kausalen Varianten). Auf der anderen Seite wird es auch genomische Loci geben, an denen es keine funktionell relevanten häufigen Varianten gibt – diese Loci werden durch den GWAS-Ansatz grundsätzlich nicht erfasst. Bisher gibt es noch keine systematischen Abschätzungen darüber, auf wie viele Krankheitsgene diese Hypothese zutrifft. Die aktuellen Daten des GTEx-Konsortiums [11] zeigen zwar für über 80 % der proteinkodierenden Gene in mindestens einem humanen Zellsystem einen cis-eQTL-Effekt durch häufige Varianten. Für die Identifizierung in einer GWAS ist aber entscheidend, ob die spezifische regulatorische Sequenz, die für die Expression des Krankheitsgens im pathophysiologischen Kontext genutzt wird, eine häufige Variante mit eQTL-Effekt aufweist. Dieser Anteil ist möglicherweise geringer. Mit der Identifizierung seltener Varianten besteht also auch eine gute Chance, völlig neue, nicht durch GWAS abgreifbare Krankheitsgene zu finden.

Untersuchungen von Pathomechanismen

Bei seltenen Varianten sind im Vergleich zu häufigen Varianten im Mittel größere Effektstärken zu erwarten. Diese genetischen Effekte korrelieren mit den Effekten auf funktioneller Ebene [42], was wiederum zu eindeutigeren Ergebnissen bei Untersuchungen in den für die Krankheit relevanten Modellsystemen führt, z. B. in Tiermodellen oder in stammzellbasierten Experimenten. Seltene Varianten eignen sich dadurch ganz besonders für die Modellierung von Pathomechanismen. Auch wenn derartige molekulare Studien im Bereich der Volkskrankheiten erst begonnen haben, finden sich bereits erste Beispiele bei den chronisch-entzündlichen Darmerkrankungen [46] oder bei Diabetes Typ 2 [25].

Translation

Bei Krankheiten, für die seltene Varianten mit hoher Penetranz identifiziert worden sind (z. B. familiäre Alzheimer Demenz oder koronare Herzkrankheit), finden diese zügig Eingang in die bestätigende und prädiktive Diagnostik. Bei reduzierter Penetranz ist die Aussagekraft der einzelnen Variante dagegen begrenzt und eine direkte Translation in die Diagnostik nicht möglich. Allerdings ist es für häufige, niedrig penetrante Varianten auf Basis von GWAS-Daten gelungen, die Information multipler Loci in sog. polygenen Risiko-Scores zusammenzufassen und damit in den Bereich einer klinisch relevanten Risiko-Einschätzung zu gelangen [22]. Es ist anzunehmen, dass die Informationen von seltenen, niedrig penetranten Varianten in diese Risiko-Scores integrierbar sind und dort zu einer Erhöhung der Vorhersagegenauigkeit führen werden [57]. Der tatsächliche Zugewinn in der Aussagekraft muss jedoch im Einzelfall gezeigt werden.

Genetische Befunde können bei Volkskrankheiten durch Favorisierung von „drug targets“ die Effizienz der Medikamentenentwicklung verbessern [33]. Dieser für GWAS-Befunde demonstrierte Effekt gilt ebenso für seltene Varianten. Grundsätzlich kann die Identifizierung hochpenetranter seltener Varianten, analog zu den monogenen Krankheiten, auch bei Volkskrankheiten zur Entwicklung gentherapeutischer Ansätze führen [8], davon würde aber wahrscheinlich nur eine kleine Gruppe von Patienten profitieren. Vielversprechend für die Entwicklung neuer Medikamente ist auch die Identifizierung seltener protektiver Varianten und die nachfolgende Charakterisierung des funktionellen Mechanismus. Dass durch einen pharmakologischen Ansatz ein solcher Mechanismus erfolgreich imitiert werden kann, konnte z. B. für die koronare Herzkrankheit und das ANPTL4-Gen gezeigt werden [14].

Strategien zur Identifizierung seltener Varianten bei Volkskrankheiten

Zur systematischen Detektion seltener Varianten werden als Technologie hauptsächlich SNP-Arrays und die Hochdurchsatzsequenzierung (engl. „next-generation sequencing“, NGS) eingesetzt (Abb. 2). SNP-Arrays waren zunächst primär für die Darstellung häufiger Varianten ausgelegt, die entweder direkt genotypisiert oder mittels statistischer Vorhersage (sog. Imputation) indirekt erhoben werden. In Abhängigkeit von Kollektivgröße und Ethnizität können jedoch auch seltenere SNPs durch Imputation vorhergesagt werden. Gängige SNP-Arrays ermöglichen derzeit die Darstellung von Varianten bis hin zu einer minoren Allelfrequenz (MAF) von ca. 1 %, zukünftig wird dies sogar bis etwa 0,1 % MAF möglich sein [12, 24]. Im Prinzip können seltene Varianten auch direkt auf einen SNP-Array aufgebracht werden, dies wurde z. B. für seltene Varianten der proteinkodierenden Bereiche im sog. Exom-Kontent von SNP-Arrays realisiert (Abb. 2). Damit sind allerdings keine nicht-kodierenden Bereiche abgedeckt, und damit diejenigen genomischen Regionen, die über ihre regulatorischen Effekte auf die Genexpression erheblich zur Ätiologie von Volkskrankheiten beitragen [10, 19]. Auch die sehr seltenen und privaten, in einzelnen Familien auftretenden Varianten werden mit den SNP-Arrays nicht dargestellt, wie auch bestimmte strukturelle Varianten (z. B. kleinere CNVs, Inversionen). Die Untersuchung dieser Teile des allelischen Spektrums wurde erst durch die technologischen Entwicklungen im Bereich des NGS möglich.

Abb. 2
figure 2

Das allelische Spektrum und Möglichkeiten der Erfassung. Zur Identifizierung häufiger Varianten werden kostengünstige Genotypisierungs-Arrays (SNP-Arrays) eingesetzt, die bei ausreichender Kohortengröße auch niedrig frequente Varianten detektieren können. Arrays sind nur bedingt geeignet für den Nachweis von seltenen Varianten (z. B. mittels des Exom-Kontents) und sind ungeeignet zur Detektion privater Mutationen oder verschiedener struktureller Varianten (z. B. kleinere „copy number variants“, CNVs). Technologien des „next-generation sequencing“ (NGS) ermöglichen grundsätzlich die Identifizierung von Varianten des gesamten allelischen Spektrums. Aufgrund noch hoher Kosten und der Herausforderungen in der Datenanalyse kommt NGS derzeit in erster Linie zur Detektion von privaten und seltenen Varianten zum Einsatz, aber auch zur Detektion häufiger, kleiner CNVs. Mittelfristig wird NGS auch für die Erhebung von Gesamtgenominformationen eingesetzt werden inkl. der Detektion häufiger Varianten (engl. „genotyping by sequencing“)

Zur Identifizierung seltener Varianten bei Volkskrankheiten kommen grundsätzlich die gleichen NGS-Technologien wie bei der Untersuchung monogener Erkrankungen zum Einsatz. Diese beruhen standardmäßig auf der Sequenzierung kurzer Abschnitte des Genoms (engl. „short read sequencing“), welche als Gesamtgenomsequenzierung („whole genome sequencing“, WGS), Exomsequenzierung („whole exome sequencing“, WES) und als Sequenzierung ausgewählter genomischer Regionen (meist Kandidatengene) in sog. Genpanels durchgeführt wird. In Zukunft werden auch verstärkt Sequenzierungen langer Einzelstrangsequenzen (engl. „long read sequencing“) zum Einsatz kommen, mit denen zusätzliche, durch „short read sequencing“ nicht darstellbare Varianten (z. B. Repeat-Sequenzen [4]) und auch Haplotypinformationen [47] erfasst werden können. Aufgrund der genetischen Heterogenität sowie der biologischen Komplexität und dem dadurch entstehenden großen „mutational target“ ist allerdings die Verfügbarkeit großer Patientenkollektive sowie genomweiter Sequenzdaten von großen Kontrollkohorten eine Grundvoraussetzung für den Erfolg von NGS bei Volkskrankheiten. Dies verstärkt das Problem der Datenauswertung aufgrund der enormen Zahl seltener Varianten in individuellen Genomen [18] sowie die Herausforderungen an die Rechen- und Datenspeicherkapazitäten (siehe „Datenanalyse“).

Außerhalb Deutschlands werden bereits großflächig sowohl WES als auch WGS durchgeführt, meist finanziert von öffentlichen Programmen. Diese Studien umfassen zum einen WES/WGS der Allgemeinbevölkerung, für die teilweise umfangreiche Phänotyp-Daten verfügbar sind (z. B. Estonia Genome Project (Estland) oder die UK-Biobank (UK)). Es werden aber auch systematisch Kollektive spezifischer Erkrankungen mittels NGS untersucht, z. B. im Gabriella Miller Kids First Programm (USA) für Erkrankungen im Kindesalter, oder im 100.000 Genomes Project (UK), u. a. für häufige Krebsformen.

In Deutschland wird WES/WGS zur Charakterisierung von populationsbasierten Kohorten und Patientenkollektiven mit Volkskrankheiten nicht oder nur sehr begrenzt gefördert. Notgedrungen werden von den Wissenschaftlern alternative, kostengünstige Strategien verwendet, welche in erster Linie dem Abgreifen der „low hanging fruits“ dienen. Diese Studiendesigns gehen meistens zweischrittig vor (Abb. 3): Zunächst werden Kandidatengene in einem limitierten Kollektiv mittels WES oder WGS identifiziert (alternativ werden die Gene z. B. basierend auf GWAS-Daten ausgewählt). Im zweiten Schritt wird dann über eine gezielte Resequenzierung unabhängige genetische Evidenz in einem größeren Kollektiv erhoben. Im Folgenden wird das Vorgehen näher erläutert und anhand ausgewählter Beispiele von Volkskrankheiten oder häufigen Merkmalen mit Krankheitsrelevanz illustriert.

Abb. 3
figure 3

Strategie zur Untersuchung seltener und privater Varianten bei Volkskrankheiten. Ausgehend von der klinischen Diagnose, werden im ersten Schritt systematisch Kandidatengene identifiziert, in denen seltene Varianten vermutlich einen Krankheitsbeitrag leisten. Im zweiten Schritt wird weitere genetische Evidenz durch Vergrößerung der Kohorte und gezielte Resequenzierung erhoben. Während identische Mutationen eher selten (aber nicht ausgeschlossen) sind, können Mutationen in rekurrenten Genen, Signalwegen oder molekularen Netzwerken statistisch mit der Erkrankung assoziiert werden. Durch Genotyp-Phänotyp-Korrelation können klinische und molekulare Subgruppen identifiziert werden. Dieser Zwei-Schritt-Ansatz wird derzeit als „Übergangsstrategie“ eingesetzt, bis WGS für große Kohorten finanzierbar ist. (Abbildung modifiziert nach [54], mit Genehmigung). GWAS genomweite Assoziationsstudie, CNV „copy number variants“ (Kopienzahlveränderungen), WGS „whole genome sequencing“

Anreicherung von Patienten mit seltenen Varianten

Um die Chancen für die Identifizierung von Krankheitsgenen mittels WES/WGS zu erhöhen, können zunächst gezielt Patienten untersucht werden, bei denen angenommen wird, dass ihr Genom für krankheitsbeitragende, seltene Varianten angereichert ist (Abb. 4).

Abb. 4
figure 4

Ansätze zur Anreicherung seltener Varianten bei Volkskrankheiten. Die Sterne repräsentieren seltene Varianten, unterschiedliche Farben stellen Mutationen in verschiedenen Genen dar. Eingekreiste Personen und -gruppen stellen zu sequenzierende Individuen dar. a Sequenzierung von Mitgliedern mehrfach betroffener Familien. b Trio-Design zur Untersuchung von de novo Mutationen. c Sequenzierung von Subgruppen basierend auf klinischen Daten (oberer Teil) oder aufgrund ihrer Extreme in normalverteilten, krankheitsrelevanten Merkmalen (unterer Teil). Bei diesem Ansatz können ggf. auch protektive Varianten identifiziert werden. d Untersuchung von Populationsisolaten. Nicht dargestellt sind Sequenzierungen umfangreicher Fall-Kontroll-Kohorten

Der Untersuchung mehrfach betroffener Familien (Abb. 4a) liegt die Annahme zugrunde, dass in diesen Familien seltenere Varianten mit höherer Penetranz wahrscheinlich häufiger sind als bei Patienten mit sporadischem Auftreten. In diesem Ansatz werden innerhalb einer Familie Individuen von möglichst weit entfernten Ästen des Stammbaums sequenziert. Je niedriger der Verwandtschaftsgrad, desto weniger Varianten werden von diesen Familienmitgliedern geteilt – und desto höher ist die Chance, krankheitsrelevante Varianten zu identifizieren (z. B. [48]). Unter der Annahme vollständiger Penetranz werden zunächst diejenigen Varianten priorisiert, die mit der Erkrankung vollständig kosegregieren und nicht in gesunden Personen auftreten. Diese Annahme kann jedoch bei reduzierter Penetranz zu falsch-negativen Befunden führen. Daher werden in einem zweiten Schritt meist die Filterkriterien relaxiert und auch solche Varianten betrachtet, die zusätzlich zu den Patienten in mindestens einem nicht betroffenen Familienmitglied vorkommen. Um einer möglichen genetischen Heterogenität in der betroffenen Familie Rechnung zu tragen, werden auch Varianten eingeschlossen, die nur bei einem (Groß‑)Teil der Betroffenen vorliegen.

Die Sequenzierung eines betroffenen Kindes sowie seiner nicht betroffenen Eltern (sog. Trio, Abb. 4b) kommt besonders bei den Volkskrankheiten zum Einsatz, bei denen ein Beitrag von de novo Mutationen zu erwarten ist. Aufgrund des großen „mutational targets“ muss bei dem de novo Ansatz eine Vielzahl von Trios untersucht werden, um überzufällig häufig de novo Mutationen in einzelnen Genen, Signalwegen oder Netzwerken zu identifizieren. Untersuchungen zu de novo Mutationen haben bereits erste Erfolge z. B. bei schizophrenen Störungen [17] oder auch bei bestimmten Formen von Autoimmunerkrankungen mit frühem Manifestationsalter [40] gezeigt.

Die Sequenzierung klinischer Subgruppen bzw. Individuen von beiden Enden der Merkmalsverteilung (Abb. 4c) beruht ebenfalls auf der Annahme, dass in diesen Kohorten ursächliche (oder auch protektive) Varianten angereichert sind. Ein Beispiel für die Anwendung dieser Strategie ist eine WGS-Analyse des HDL-Cholesterinspiegels (engl. „high density lipoprotein“, HDL-C; niedrige HDL-C-Level sind assoziiert mit einem erhöhten Risiko für kardiovaskuläre Erkrankungen). In Personen des oberen und unteren Spektrums der HDL-C-Verteilung wurden seltene Varianten mit starken Effekten sowohl auf hohe als auch niedrige HDL-C Level identifiziert, darunter proteinkodierende Mutationen in ABCA1 und APOA1 [30].

Bei der Untersuchung von Populationsisolaten (Abb. 4d) wird die genetische Heterogenität der Patientenkollektive reduziert. Dadurch können krankheitsbeitragende Varianten, die in durchmischten Populationen selten sind, in höherer Frequenz auftreten und statistisch einfacher detektiert werden [43]. Dieser Ansatz führte z. B. zur Identifizierung mehrerer seltener Varianten, die in der Bevölkerung Sardiniens zur Regulation des Hämoglobinspiegels beitragen [13]. Auch in der isländischen Bevölkerung wurden seltene krankheitsassoziierte Varianten für verschiedene Volkskrankheiten mit dieser Strategie aufgedeckt (z. B. LGR4 bei Osteoporose [55] oder Varianten in den Genen CCDN2, PAM und PDX1 bei Diabetes Typ 2 [53]).

Priorisierung von Varianten

WES-Daten ermöglichen die Analyse seltener Varianten im proteinkodierenden Bereich. Auch die Auswertung von WGS-Daten fokussiert sich derzeit auf das Exom – zum einen, da dort der funktionelle Effekt leichter einzuschätzen ist, zum anderen ermöglicht WGS als „besseres Exom“ eine gleichmäßigere Abdeckung der proteinkodierenden Regionen [29]. Je nach Auswertestrategie bleibt eine Vielzahl an potenziellen Varianten übrig, die in Bezug auf einen Krankheitsbeitrag priorisiert werden müssen. Dies geschieht meist anhand funktioneller Annotationen (u. a. verschiedene in silico Prädiktions-Scores), Informationen über die Toleranz des Gens gegenüber Mutationen (z. B. RVIS-Score [38]), unabhängige Evidenz aus der Literatur und ggf. Ergebnissen funktioneller Untersuchungen. Die Frequenz der identifizierten Variante(n) in Referenzdaten gleicher Ethnizität ist bei häufigen Erkrankungen nur eingeschränkt aussagekräftig: Zum einen enthalten die meisten systematischen Referenzdatenbanken (z. B. gnomAD [23]) auch Patientenkollektive, zum anderen gehen seltene Varianten bei häufigen Erkrankungen oft mit reduzierter Penetranz einher. Daher können Varianten bei Vorliegen in diesen Referenzdatenbanken nicht zwingend als krankheitsbeitragend ausgeschlossen werden. Gleichzeitig ist, ähnlich wie bei monogenen Erkrankungen, die Abwesenheit einer Variante in Referenzdaten auch keine hinreichende Evidenz für Kausalität.

Resequenzierung großer Patienten- und Kontrollkohorten

Die im ersten Schritt identifizierten Kandidatengene werden anschließend in umfangreichen Fall-Kontroll-Kohorten resequenziert mit dem Ziel, zusätzliche unabhängige Evidenz für die Relevanz einzelner Gene in der Krankheitsätiologie zu erhalten. Neben Genpanels kommerzieller Anbieter kommt besonders im Forschungsansatz zunehmend die amplikonbasierte Resequenzierung mittels „molecular inversion probes“ (MIPs) als Sequenzierungsmethodik zum Einsatz [32, 36, 46]. Hierfür werden an einen 30 bp-langen Backbone locusspezifische Primer angefügt, welche in einer Multiplexreaktion an die zu untersuchende DNA hybridisieren. Der Bereich zwischen den Primern wird komplementär zur Ziel-DNA aufgefüllt und der MIP zu einem Ring geschlossen. Unter Einbringung von Index-Barcodes und universellen Primern werden die Fragmente mittels PCR amplifiziert, anschließend können eine Vielzahl an Personen gemeinsam in einem Sequenzierlauf untersucht werden. Die MIPs wurden zunächst bei der Aufarbeitung von WES-Befunden, u. a. bei Autismus-Spektrum-Störungen [36] angewandt und werden seitdem sowohl bei monogenen als auch multifaktoriellen Erkrankungen eingesetzt [32, 46]. Gründe für den Einsatz von MIPs sind dabei vor allem Kosteneffizienz, Skalierbarkeit bei großen Kollektiven, Optimierungsmöglichkeiten im Labor sowie die Möglichkeit der projektübergreifenden Zusammensetzung der MIP-Pools.

Datenanalyse

Aufgrund der großen Zahl krankheitsrelevanter Gene bei Volkskrankheiten ist die Datenanalyse eine besondere Herausforderung. Obwohl Gene mit seltenen, krankheitsbeitragenden Varianten prinzipiell in den zur Erkrankung beitragenden Signalwegen und molekularen Netzwerken angereichert sind [58], ist die Identifizierung dieser Gene mit statistischer Signifikanz schwierig, vor allem vor dem Hintergrund der Vielzahl seltener (und meist benigner) Varianten pro Genom. Mit zunehmend umfangreicheren Datensätzen wird dies einfacher werden, da zu erwarten ist, dass seltene Varianten auch in denselben Genen oder sogar identische Mutationen bei mehreren unverwandten Betroffenen identifiziert werden.

Seltene Varianten weisen teilweise erhebliche Unterschiede in ihrer Frequenz zwischen (Sub)-Bevölkerungen auf. Dadurch ist das Problem der Populationsstratifikation bei seltenen Varianten deutlich stärker ausgeprägt als bei häufigen Varianten. Frequenzabschätzungen aus Referenzdatenbanken sind daher nur bedingt nutzbar. Eine statistische Korrektur der Stratifikation scheint grundsätzlich möglich, bedarf jedoch möglichst genomweiter Datensätze seltener Varianten [28].

Schließlich sind die statistischen Modelle, die zur Bewertung einer Krankheitsassoziation für häufige Varianten entwickelt wurden, nur eingeschränkt auf seltene Varianten übertragbar. Dies ist v. a. dadurch bedingt, dass aufgrund der niedrigen Allelfrequenz die statistische Aussagekraft bzgl. einer einzelnen, seltenen Variante beschränkt ist. Zudem basieren diese Tests in der Regel auf der Annahme einer asymptotischen Verteilung, welche bei seltenen Varianten nur bei sehr großen Kollektivgrößen gegeben ist. Darüber hinaus ist der Korrekturfaktor für multiples Testen bei seltenen Varianten aufgrund der vielfach höheren Anzahl im Vergleich zu häufigen Varianten deutlich erhöht. In Abwesenheit robuster Methoden zur statistischen Bewertung einzelner seltener Varianten kann es daher sinnvoll sein, die Gesamtheit seltener Varianten innerhalb einer genetischen Region („Mutationslast“) in sog. „burden“-Analysen zusammenzufassen [26]. Dabei werden typischerweise die minoren Allele aller seltenen Varianten eines Gens und deren gemeinsame Assoziation mit der Erkrankung betrachtet, alternativ mehrere Gene eines Signalweges oder molekularen Netzwerks (siehe [6] für eine Übersicht verschiedener Methoden).

Es wird auch diskutiert, Varianten basierend auf a priori Evidenz zu filtern, z. B. aufgrund ihres erwarteten funktionellen Effektes. Dieser Ansatz reduziert zwar einerseits die Zahl eingeschlossener Varianten, zum anderen werden mögliche kausale Varianten angereichert [34]. Diese Strategie hat sich z. B. bei der Identifikation der Assoziation seltener Varianten im PPARG-Gen bei Diabetes Typ 2 als zielführend erwiesen [25]. Ein alternativer Ansatz kann hier die Integration von prädiktiven in silico- oder funktionellen Scores sein, mit denen Varianten in den „burden“ Analysen gewichtet werden. Dadurch würden potenziell funktionell relevante Varianten betont, aber keine (möglicherweise falsch-annotierten) Varianten aus der Analyse ausgeschlossen.

Herausforderungen

Die Zahl der systematischen NGS-basierten Analysen bei Volkskrankheiten hängt denen der monogenen Krankheiten deutlich hinterher. Angesichts der erforderlichen Kollektivgrößen sind die Kosten für die Generierung großer WGS-Datensätze derzeit noch sehr hoch und in der Regel nur in großen koordinierten Bemühungen zu stemmen. Die stetig sinkenden Kosten für NGS werden es aber in Zukunft ermöglichen, diese Datensätze für viele Volkskrankheiten zu generieren. Damit wird die systematische Identifizierung seltener Varianten mit hinreichender statistischer Aussagekraft möglich.

Auf Ebene der IT-Infrastruktur werden umfangreiche Rechen- und Speicherkapazitäten benötigt. Mit zunehmendem Umfang der erhobenen NGS-Daten (im Extremfall: WGS) steigen die Anforderungen an die rechnergestützte Datenspeicherung und -auswertung (inkl. des entsprechend ausgebildeten wissenschaftlichen Personals). Dieses Problem vervielfältigt sich durch die für die Analyse von Volkskrankheiten nötigen Kollektivgrößen. Entsprechende Infrastruktur ist in Deutschland derzeit an nur wenigen Zentren vorhanden und alternative Ansätze wie „cloud storage“ und „cloud computing“ müssen in Betracht gezogen werden.

Einzelne Schritte der Auswertung von NGS-Daten müssen an die Charakteristika der Volkskrankheiten angepasst werden. Dies umfasst z. B. eine Optimierung des Varianten-Calling unter besonderer Berücksichtigung der Spezifität, da in großen Kohorten nicht mehr jede einzelne Variante im Labor experimentell bestätigt werden kann. Darüber hinaus sind die verfügbaren Methoden zur statistischen Bewertung seltener Varianten bisher noch unausgereift [56], auch die Kombination verschiedener Tests scheint die statistische Aussagekraft nicht zu verbessern [31]. Die Entwicklung anderer Ansätze zur P-Wert-Berechnung für seltene Varianten, z. B. mittels Permutationen [51], kann hier zielführend sein.

Soll die Power der Analysen durch Zusammenführung von Datensätzen aus verschiedenen Quellen erhöht werden, besteht aufgrund technischer Unterschiede in verschiedenen Aspekten der NGS-Technologie und/oder der Datenanalyse das Risiko sowohl falsch-positiver als auch falsch-negativer Befunde. Eine gemeinsame Re-Analyse aller Rohdaten über bereitgestellte fastq-Files kann hier ein Teil des Lösungsansatzes sein und wurde z. B. für die ExAC-Daten durchgeführt [23].

Für die Bewertung der Funktionalität (und ggf. Kausalität) einzelner Varianten werden qualitativ hochwertige Annotationen benötigt. Diese in silico Tools sind im Bereich der proteinkodierenden Varianten bereits systematisch verfügbar und korrelieren mit Daten aus experimentellen Untersuchungen [16]. Schwieriger ist die Situation für die Bewertung nicht-kodierender Varianten, deren Zahl jedoch durch WGS deutlich steigen wird. Prädiktive Scores für funktionelle Effekte nicht-kodierender Varianten wurden kürzlich entwickelt (z. B. CADD [44], Eigen [21] oder LINSIGHT [20]), allerdings bleibt abzuwarten, inwieweit diese Scores die biologischen Effekte tatsächlich abbilden. Zweifel an der derzeitigen Aussagekraft bestehen besonders vor dem Hintergrund, dass der regulatorische Effekt nicht-kodierender Varianten oft zelltypabhängig ist oder nur im pathophysiologischen Kontext (d. h. unter bestimmten Bedingungen) auftritt.

Nach erfolgreicher Identifizierung der genetischen Faktoren, die zu Volkskrankheiten beitragen, ist es für viele wissenschaftliche Fragestellungen (insbesondere für die Translation) notwendig, Varianten des gesamten allelischen Spektrums gemeinsam zu betrachten. Solche integrierten Analysen stehen derzeit allerdings noch am Anfang. Erste Studien wurden bei „monogenen“ Krankheiten durchgeführt, bei denen z. B. der Einfluss des polygenen Hintergrundes auf Ausprägung von Symptomen [35] oder Penetranz gezeigt werden konnte [9].

Schlussbetrachtung

Den NGS-Technologien kommt bei der systematischen Identifizierung seltener Varianten bei den multifaktoriell verursachten Volkskrankheiten zunehmende Bedeutung zu, dabei wird der Beitrag der seltenen Varianten bei den verschiedenen Krankheiten unterschiedlich groß sein. Die Generierung systematischer WES- und WGS-Daten in großen Patientenkollektiven hat gerade erst begonnen, dieser Ansatz wird aber mit sinkenden Kosten eine große Dynamik entwickeln. Die Anforderungen an Datenspeicherung und -analyse stellen die beteiligten Arbeitsgruppen vor große Herausforderungen, aber auch hier wird man von absehbaren Entwicklungen profitieren. Die Identifizierung des genetischen Beitrags über das gesamte allelische Spektrum hinweg wird zukünftig eine integrierte Betrachtung von seltenen und häufigen Varianten ermöglichen. Dies hat Implikationen für die Angabe von Wiederholungsrisiken, die Identifizierung molekularer Subtypen von Krankheiten und die Identifizierung von Risikopersonen. Außerdem wird ein wichtiger Beitrag zur Aufklärung kausaler pathophysiologischer Zusammenhänge bei Volkskrankheiten geleistet und die Identifikation neuer therapeutischer Targets ermöglicht.

Fazit für die Praxis

  • Seltene Varianten tragen als Teil des allelischen Spektrums zu den Volkskrankheiten bei. Der Gesamtbeitrag seltener Varianten ist je nach Erkrankung unterschiedlich.

  • In einzelnen Fällen können hochpenetrante seltene Varianten einen Großteil der individuellen Krankheitsätiologie erklären. Dies kann relevant für die genetische Beratung und ggf. die klinische Behandlung sein.

  • Seltene Varianten mit größeren Effektstärken sind für funktionelle Untersuchungen besonders geeignet und können somit erheblich zum Verständnis der Pathophysiologie der Erkrankung beitragen.

  • WGS zur Charakterisierung des gesamten allelischen Spektrums bei Volkskrankheiten ist technisch möglich, aber mit gegenwärtig noch hohen Kosten sowie umfangreichen Herausforderungen an IT-Infrastruktur, statistischen Methoden und Dateninterpretation verbunden.

  • Eine integrierte Betrachtung von seltenen und häufigen Varianten wird bei den Volkskrankheiten in Zukunft zur Entwicklung einer personalisierten Medizin beitragen.