Skip to main content

NGS Datenanalyse und Qualitätskontrolle

NGS data analysis and quality control

Zusammenfassung

Next Generation Sequencing (NGS) wird immer häufiger in der Humangenetik eingesetzt. Die Analyse der anfallenden Datenmengen birgt allerdings andere und größere Herausforderungen als bisher eingesetzte Verfahren. In diesem Artikel werden einige Grundlagen, die dem Verständnis der anfallenden Daten und Analyseschritte beim NGS dienen sollen, beschrieben. Ein besonderer Schwerpunkt ist dabei die Qualitätskontrolle.

Abstract

Next generation DNA sequencing (NGS) is rapidly becoming a pervasive technique within the human genetics community. The analysis of NGS data is however much more challenging than with previous genetic and genomics techniques. In this article, the basic data formats and analysis steps that are involved in any NGS DNA resequencing experiment are described. Special emphasis is placed on methods for quality control.

This is a preview of subscription content, access via your institution.

Abb. 1
Abb. 2
Abb. 3

Abbreviations

„Base caller“:

Computerprogramm, das auf Grundlage der Primärdaten eine Nukleotidsequenz (Read) generiert.

BAM:

Binary sequence alignment/map“. Herstellerübergreifender Quasi-Standard für NGS-Reads.

dbSNP:

Datenbank, in der bekannte „single nucleotide polymorphisms“ (SNP) gesammelt werden.

„Flow cell/flow chip“:

Glasträger, an den beim Sequenzieren DNA-Fragmente angeheftet sind.

GRC:

Genome Reference Consortium.

Illumina®:

Hersteller von NGS-Maschinen.

Ion Torrent™:

NGS-Technik, bei der keine Bilder gemacht, sondern pH-Werte auf einem Siliziumchip gemessen werden.

Monoklonal:

Cluster auf der „flow cell“, die aus einem einzigen DNA-Fragment entstanden sind. Gegensatz: polyklonal

Polyklonal:

Cluster auf der „flow cell“, die aus einer Mischung von 2 oder mehreren DNA-Fragmenten entstanden sind und nicht weiter ausgewertet werden können.

Pyrosequenzierung:

NGS-Methode der Fa. Roche (454™-Technologie).

Read:

Kurze Nukleotidsequenz (26–1000 nt), die beim NGS produziert wird.

„Read mapper“:

Computerprogramm, das Reads einer Position im Referenzgenom zuordnet.

SOLiD™:

Sequencing by oligonucleotide ligation and detection. NGS-Technik der Fa. ABI (Life Technologies).

Literatur

  1. 1.

    Challis D, Yu J, Evani US et al (2012) An integrative variant analysis suite for whole exome next-generation sequencing data. BMC Bioinformatics 13:8

    PubMed Central  PubMed  Article  Google Scholar 

  2. 2.

    Chang X, Wang K (2012) wANNOVAR: annotating genetic variants for personal genomes via the web. J Med Genet 49:433–436

    PubMed Central  PubMed  Article  Google Scholar 

  3. 3.

    Ewing B, Green P (1998) Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Res 8:186–194

    CAS  PubMed  Article  Google Scholar 

  4. 4.

    Gilissen C, Hoischen A, Brunner HG, Veltman JA (2012) Disease gene identification strategies for exome sequencing. Eur J Hum Genet 20:490–497

    CAS  PubMed Central  PubMed  Article  Google Scholar 

  5. 5.

    Guo Y, Ye F, Sheng Q et al (2013) Three-stage quality control strategies for DNA re-sequencing data. Brief Bioinform (Epub ahead of print)

  6. 6.

    Hatem A, Bozdağ D, Toland AE, Çatalyürek ÜV (2013) Benchmarking short sequence mapping tools. BMC Bioinformatics 14:184

    PubMed Central  PubMed  Article  Google Scholar 

  7. 7.

    Heinrich V, Kamphans T, Stange J et al (2013) Estimating exome genotyping accuracy by comparing to data from large scale sequencing projects. Genome Med 5:69

    PubMed Central  PubMed  Article  Google Scholar 

  8. 8.

    Li H, Handsaker B, Wysoker A et al (2009) The Sequence Alignment/Map format and SAMtools. Bioinformatics 25:2078–2079

    PubMed Central  PubMed  Article  Google Scholar 

  9. 9.

    Li Y, Vinckenbosch N, Tian G et al (2010) Resequencing of 200 human exomes identifies an excess of low-frequency non-synonymous coding variants. Nat Genet 42:969–972

    CAS  PubMed  Article  Google Scholar 

  10. 10.

    Liu Q, Guo Y, Li J et al (2012) Steps to ensure accuracy in genotype and SNP calling from Illumina sequencing data. BMC Genomics 13(Suppl 8):S8

    PubMed Central  PubMed  Google Scholar 

  11. 11.

    Liu X, Han S, Wang Z et al (2013) Variant callers for next-generation sequencing data: a comparison study. PLoS One 8:e75619

    CAS  PubMed Central  PubMed  Article  Google Scholar 

  12. 12.

    McKenna A, Hanna M, Banks E et al (2010) The genome analysis toolkit: a mapreduce framework for analyzing next-generation DNA sequencing data. Genome Res 20:1297–1303

    CAS  PubMed Central  PubMed  Article  Google Scholar 

  13. 13.

    Ng SB, Buckingham KJ, Lee C et al (2010) Exome sequencing identifies the cause of a mendelian disorder. Nat Genet 42:30–35

    CAS  PubMed Central  PubMed  Article  Google Scholar 

  14. 14.

    O’Rawe J, Jiang T, Sun G et al (2013) Low concordance of multiple variant-calling pipelines: practical implications for exome and genome sequencing. Genome Med 5:28

    Article  Google Scholar 

  15. 15.

    Pabinger S, Dander A, Fischer M et al (2013) A survey of tools for variant analysis of next-generation genome sequencing data. Brief Bioinform. doi:10.1093/bib/bbs086 (Advance access published January 21, 2013)

  16. 16.

    Quinlan AR, Hall IM (2010) BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 26:841–842

    CAS  PubMed Central  PubMed  Article  Google Scholar 

  17. 17.

    Robinson JT, Thorvaldsdóttir H, Winckler W et al (2011) Integrative genomics viewer. Nat Biotechnol 29:24–26

    CAS  PubMed Central  PubMed  Article  Google Scholar 

  18. 18.

    Sherry ST, Ward MH, Kholodov M et al (2001) dbSNP: the NCBI database of genetic variation. Nucleic Acids Res 29:308–311

    CAS  PubMed Central  PubMed  Article  Google Scholar 

  19. 19.

    Wang K, Li M, Hakonarson H (2010) ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res 38:e164

    PubMed Central  PubMed  Article  Google Scholar 

Download references

Danksagung

Die Autoren danken Prof. Dr. Ute Felbor und Prof. Dr. Andreas W. Kuss für ihre Unterstützung bei der Erstellung und Korrektur des Manuskripts.

Einhaltung ethischer Richtlinien

Interessenkonflikt. R. Weißmann und C. Gilissen geben an, dass kein Interessenkonflikt besteht.

Dieser Beitrag beinhaltet keine Studien an Menschen oder Tieren.

Author information

Affiliations

Authors

Corresponding author

Correspondence to C. Gilissen Ph.D..

Rights and permissions

Reprints and Permissions

About this article

Verify currency and authenticity via CrossMark

Cite this article

Weißmann, R., Gilissen, C. NGS Datenanalyse und Qualitätskontrolle. medgen 26, 239–245 (2014). https://doi.org/10.1007/s11825-014-0448-6

Download citation

Schlüsselwörter

  • Datenanalyse
  • Qualitätskontrolle
  • Datenformate
  • Bioinformatik
  • DNA

Keywords

  • Data analysis
  • Quality control
  • Data formats
  • Bioinformatics
  • DNA