Advertisement

medizinische genetik

, Volume 25, Issue 3, pp 388–394 | Cite as

Archivierung von Genomdaten

  • R. GrützEmail author
  • N. Mathieu
  • B. Löhnhardt
  • P. Weil
  • M. Krawczak
Serie: Management von Genomdaten
  • 170 Downloads

Zusammenfassung

Angesichts der zunehmenden Datenflut in der Genomforschung wird ein effizientes Forschungsdatenmanagement, verbunden mit einer sicheren und nachhaltigen Archivierung, auch in diesem Wissenschaftsbereich immer wichtiger. Der letzte von 3 Artikeln der Reihe „Forschungsdatenmanagement von Genomdaten“ beschreibt allgemein den Lebenszyklus von Forschungsdaten – ausgehend von deren Planung, über die Auswahl und Übernahme der Daten für die Speicherung bis hin zu notwendigen Erhaltungsmaßnahmen und dem Zugriff durch Datennutzer. Archive spielen in fast allen Phasen dieses Zyklus eine Rolle und bilden daher eine wichtige Komponente der Verarbeitung von Genomdaten. Beispielhaft werden 3 öffentliche europäische Archive für Genomdaten vorgestellt: die Datenbank des European Molecular Biology Laboratory (EMBL), das Sequence Read Archive und das Trace Archive. Da jede dieser Einrichtungen jedoch auf eine bestimmte Art von Daten spezialisiert ist, bleibt ein Bedarf an zusätzlichen Langzeitarchiven, die flexibel mit verschiedenen Datentypen umgehen bzw. auf zusätzliche Datentypen erweitert werden können. Für solche Archive wird ein generisches Konzept beschrieben und mit Empfehlungen für dessen praktische Umsetzung verbunden.

Schlüsselwörter

Genomik Datenmanagementsysteme Datenerhaltung Genomische Datenbanken Informationsspeicherung und Abfrage 

Archiving genome data

Abstract

In view of the increasing amount of data arising from genome research, efficient research data management is becoming increasingly important in this domain. The third, and last, article of the series on “Research data management for genome data” describes the general lifecycle of research data—from their planning via the selection and inclusion into storage facilities to preservation measures and final user access. Archives play an important role in nearly all phases of this life cycle, which renders them an important component of genome data processing. Three exemplary public archives for genome data are introduced: the European Molecular Biology Laboratory (EMBL) databank, the Sequence Read Archive, and the Trace Archive. Owing to the high level of specialization of these institutions, however, additional archives are required that allow more generic data storage or, alternatively, easy extension to other genome data types. A generic concept for such archives will be described and recommendations given for their practical implementation.

Keywords

Genomics Data management systems Data lifecycle Databases, genetic  Information storage and retrieval 

Notes

Einhaltung ethischer Richtlinien

Interessenkonflikt. N. Mathieu wird vom Deutschen Zentrum für Herz-Kreislauf-Forschung (DZHK) unterstützt. R. Grütz wird vom DFG-geförderten Verbundprojekt „Langzeitarchivierung biomedizinischer Forschungsdaten“ (LABIMI/F) unterstützt. P. Weil wird durch das DFG-geförderte Informationsinfrastruktur(INF)-Teilprojekt des SFB1002 unterstützt. B. Löhnhardt und M. Krawczak beziehen keine Unterstützung durch ein Projekt im Zusammenhang mit dieser Arbeit. Der korrespondierende Autor gibt für sich und seine Koautoren an, dass kein Interessenkonflikt besteht.

Dieser Beitrag beinhaltet keine Studien an Menschen oder Tieren.

Literatur

  1. 1.
    Allianz der deutschen Wissenschaftsorganisationen (2010) Grundsätze zum Umgang mit Forschungsdaten. Rat für Sozial- und Wirtschaftsdaten (RatSWD), BerlinGoogle Scholar
  2. 2.
    Benson DA, Karsch-Mizrachi I, Lipman DJ et al (2005) GenBank. Nucleic Acids Res 33:D34–D38PubMedCrossRefGoogle Scholar
  3. 3.
    Cattell R (2011) Scalable SQL and NoSQL data stores. Sigmod Rec 39:12–27CrossRefGoogle Scholar
  4. 4.
    Consortium T 1000 GP (2010) A map of human genome variation from population-scale sequencing. Nature 467:1061–1073CrossRefGoogle Scholar
  5. 5.
    The consultative comittee for space data systems (2012) Consultative Committee for Space Data Systems Reference Model for an Open Archival Information System (OAIS). http://public.ccsds.org/publications/archive/650x0m2.pdf. Zugegriffen: 16. September 2013Google Scholar
  6. 6.
    DNA Data Bank of Japan (2013) DDBJ sequence read archive. DDBJ sequence read archive – home. http://trace.ddbj.nig.ac.jp/dra/index_e.html. Zugegriffen: 24. Juni 2013Google Scholar
  7. 7.
    Deutsche Forschungsgemeinsaschaft (2009) Deutsche Forschungsgemeinschaft Recommendations for Secure Storage and Availability of Digital Primary Research Data. http://www.dfg.de/download/pdf/foerderung/programme/lis/ua_inf_empfehlungen_200901_en.pdf. Zugegriffen: 16. September 2013Google Scholar
  8. 8.
    Europäisches Parlament, Rat (1995) Richtlinie 95/46/EG des Europäischen Parlaments und des Rates vom 24. Oktober 1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr. COM/95/375 COM/92/422 COM/90/314-2Google Scholar
  9. 9.
    European Bioinformatics Institute (2013) EMBL European Bioinformatics Institute. http://www.ebi.ac.uk/ Zugegriffen: 24. Juni 2013Google Scholar
  10. 10.
    European Bioinformatics Institute (2013) European Nucleotide Archive. http://www.ebi.ac.uk/ena/ Zugegriffen: 24. Juni 2013Google Scholar
  11. 11.
    European Bioinformatics Institute (2013) ENA data formats. The European Nucleotide Archive. http://www.ebi.ac.uk/ena/about/formats. Zugegriffen: 24. Juni 2013Google Scholar
  12. 12.
    Groß M (2011) Betriebssysteme – Der Verzeichnisdienst LDAP. GRIN Verlag GmbH, MünchenGoogle Scholar
  13. 13.
    Higgins S (2008) The DCC curation lifecycle model. IJDC 3:134–140CrossRefGoogle Scholar
  14. 14.
    Hupfeld F, Cortes T, Kolbeck B et al (2008) The XtreemFS architecture – a case for object-based file systems in Grids. Concurr Comput 20:2049–2060CrossRefGoogle Scholar
  15. 15.
    Jens-Christoph Brendel (2004) Speichertechnologien im Überblick. Linux-Magazin. http://www.linux-magazin.de/Ausgaben/2004/11/Im-Delta-des-Datenflusses. Zugegriffen: 19. Juni 2013Google Scholar
  16. 16.
    Karsch-Mizrachi I, Nakamura Y, Cochrane G (2012) The International Nucleotide Sequence Database Collaboration. Nucleic Acids Res 40:D33–D37PubMedCrossRefGoogle Scholar
  17. 17.
    Kommission der europäischen Gemeinschaften (2000) EUR-Lex – Amtsblatt. http://eur-lex.europa.eu/JOHtml.do?uri=OJ:L:2000:215:SOM:DE:HTML. Zugegriffen: 7. Aug. 2013Google Scholar
  18. 18.
    Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit Digitaler Ressourcen für Deutschland (2012) Referenzmodell für ein Offenes Archiv-Informations-System. Frankfurt/MGoogle Scholar
  19. 19.
    Krawczak M, Goebel JW, Cooper DN (2010) Is the NIH policy for sharing GWAS data running the risk of being counterproductive? Investigative Genetics 1:3PubMedCrossRefGoogle Scholar
  20. 20.
    Lai E (2001) Application of SNP technologies in medicine: lessons learned and future challenges. Genome Res 11:927–929PubMedCrossRefGoogle Scholar
  21. 21.
    Ludwig J, Enke H (Hrsg) (2013) Leitfaden zum Forschungsdaten-Management: Handreichungen aus dem WissGrid-Projekt. Hülsbusch, GlückstadtGoogle Scholar
  22. 22.
    Neuroth H (2012) Langzeitarchivierung von Forschungsdaten: eine Bestandsaufnahme. Univ.-Verl. Göttingen, GöttingenGoogle Scholar
  23. 23.
    Sears R, Van Ingen C, Gray J (2007) To BLOB or Not To BLOB: large object storage in a database or a filesystem?Google Scholar
  24. 24.
    Smith M, Barton M, Branschofsky M et al (2003) DSpace. D-Lib Magazine 9Google Scholar
  25. 25.
    Tateno Y (2002) DNA Data Bank of Japan (DDBJ) for genome scale research in life science. Nucleic Acids Research 30:27–30PubMedCrossRefGoogle Scholar
  26. 26.
    Whyte A, Wilson A (2010) How to appraise and select research data for curation. Digital Curation Centre, EdinburghGoogle Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2013

Authors and Affiliations

  • R. Grütz
    • 1
    Email author
  • N. Mathieu
    • 1
    • 2
  • B. Löhnhardt
    • 3
  • P. Weil
    • 1
  • M. Krawczak
    • 4
  1. 1.Institut für Medizinische InformatikUniversitätsmedizin GöttingenGöttingenDeutschland
  2. 2.DZHK (Deutsches Zentrum für Herz-Kreislauf-Forschung), Partnerstandort GöttingenGöttingenDeutschland
  3. 3.Geschäftsbereich InformationstechnologieUniversitätsmedizin GöttingenGöttingenDeutschland
  4. 4.Institut für Medizinische Informatik und StatistikChristian-Albrechts-Universität zu KielKielDeutschland

Personalised recommendations