Skip to main content

Archivierung von Genomdaten

Archiving genome data

Zusammenfassung

Angesichts der zunehmenden Datenflut in der Genomforschung wird ein effizientes Forschungsdatenmanagement, verbunden mit einer sicheren und nachhaltigen Archivierung, auch in diesem Wissenschaftsbereich immer wichtiger. Der letzte von 3 Artikeln der Reihe „Forschungsdatenmanagement von Genomdaten“ beschreibt allgemein den Lebenszyklus von Forschungsdaten – ausgehend von deren Planung, über die Auswahl und Übernahme der Daten für die Speicherung bis hin zu notwendigen Erhaltungsmaßnahmen und dem Zugriff durch Datennutzer. Archive spielen in fast allen Phasen dieses Zyklus eine Rolle und bilden daher eine wichtige Komponente der Verarbeitung von Genomdaten. Beispielhaft werden 3 öffentliche europäische Archive für Genomdaten vorgestellt: die Datenbank des European Molecular Biology Laboratory (EMBL), das Sequence Read Archive und das Trace Archive. Da jede dieser Einrichtungen jedoch auf eine bestimmte Art von Daten spezialisiert ist, bleibt ein Bedarf an zusätzlichen Langzeitarchiven, die flexibel mit verschiedenen Datentypen umgehen bzw. auf zusätzliche Datentypen erweitert werden können. Für solche Archive wird ein generisches Konzept beschrieben und mit Empfehlungen für dessen praktische Umsetzung verbunden.

Abstract

In view of the increasing amount of data arising from genome research, efficient research data management is becoming increasingly important in this domain. The third, and last, article of the series on “Research data management for genome data” describes the general lifecycle of research data—from their planning via the selection and inclusion into storage facilities to preservation measures and final user access. Archives play an important role in nearly all phases of this life cycle, which renders them an important component of genome data processing. Three exemplary public archives for genome data are introduced: the European Molecular Biology Laboratory (EMBL) databank, the Sequence Read Archive, and the Trace Archive. Owing to the high level of specialization of these institutions, however, additional archives are required that allow more generic data storage or, alternatively, easy extension to other genome data types. A generic concept for such archives will be described and recommendations given for their practical implementation.

This is a preview of subscription content, access via your institution.

Abb. 1
Abb. 2

Literatur

  1. 1.

    Allianz der deutschen Wissenschaftsorganisationen (2010) Grundsätze zum Umgang mit Forschungsdaten. Rat für Sozial- und Wirtschaftsdaten (RatSWD), Berlin

  2. 2.

    Benson DA, Karsch-Mizrachi I, Lipman DJ et al (2005) GenBank. Nucleic Acids Res 33:D34–D38

    PubMed  Article  CAS  Google Scholar 

  3. 3.

    Cattell R (2011) Scalable SQL and NoSQL data stores. Sigmod Rec 39:12–27

    Article  Google Scholar 

  4. 4.

    Consortium T 1000 GP (2010) A map of human genome variation from population-scale sequencing. Nature 467:1061–1073

    Article  Google Scholar 

  5. 5.

    The consultative comittee for space data systems (2012) Consultative Committee for Space Data Systems Reference Model for an Open Archival Information System (OAIS). http://public.ccsds.org/publications/archive/650x0m2.pdf. Zugegriffen: 16. September 2013

  6. 6.

    DNA Data Bank of Japan (2013) DDBJ sequence read archive. DDBJ sequence read archive – home. http://trace.ddbj.nig.ac.jp/dra/index_e.html. Zugegriffen: 24. Juni 2013

  7. 7.

    Deutsche Forschungsgemeinsaschaft (2009) Deutsche Forschungsgemeinschaft Recommendations for Secure Storage and Availability of Digital Primary Research Data. http://www.dfg.de/download/pdf/foerderung/programme/lis/ua_inf_empfehlungen_200901_en.pdf. Zugegriffen: 16. September 2013

  8. 8.

    Europäisches Parlament, Rat (1995) Richtlinie 95/46/EG des Europäischen Parlaments und des Rates vom 24. Oktober 1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr. COM/95/375 COM/92/422 COM/90/314-2

  9. 9.

    European Bioinformatics Institute (2013) EMBL European Bioinformatics Institute. http://www.ebi.ac.uk/ Zugegriffen: 24. Juni 2013

  10. 10.

    European Bioinformatics Institute (2013) European Nucleotide Archive. http://www.ebi.ac.uk/ena/ Zugegriffen: 24. Juni 2013

  11. 11.

    European Bioinformatics Institute (2013) ENA data formats. The European Nucleotide Archive. http://www.ebi.ac.uk/ena/about/formats. Zugegriffen: 24. Juni 2013

  12. 12.

    Groß M (2011) Betriebssysteme – Der Verzeichnisdienst LDAP. GRIN Verlag GmbH, München

  13. 13.

    Higgins S (2008) The DCC curation lifecycle model. IJDC 3:134–140

    Article  Google Scholar 

  14. 14.

    Hupfeld F, Cortes T, Kolbeck B et al (2008) The XtreemFS architecture – a case for object-based file systems in Grids. Concurr Comput 20:2049–2060

    Article  Google Scholar 

  15. 15.

    Jens-Christoph Brendel (2004) Speichertechnologien im Überblick. Linux-Magazin. http://www.linux-magazin.de/Ausgaben/2004/11/Im-Delta-des-Datenflusses. Zugegriffen: 19. Juni 2013

  16. 16.

    Karsch-Mizrachi I, Nakamura Y, Cochrane G (2012) The International Nucleotide Sequence Database Collaboration. Nucleic Acids Res 40:D33–D37

    PubMed  Article  CAS  Google Scholar 

  17. 17.

    Kommission der europäischen Gemeinschaften (2000) EUR-Lex – Amtsblatt. http://eur-lex.europa.eu/JOHtml.do?uri=OJ:L:2000:215:SOM:DE:HTML. Zugegriffen: 7. Aug. 2013

  18. 18.

    Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit Digitaler Ressourcen für Deutschland (2012) Referenzmodell für ein Offenes Archiv-Informations-System. Frankfurt/M

  19. 19.

    Krawczak M, Goebel JW, Cooper DN (2010) Is the NIH policy for sharing GWAS data running the risk of being counterproductive? Investigative Genetics 1:3

    PubMed  Article  Google Scholar 

  20. 20.

    Lai E (2001) Application of SNP technologies in medicine: lessons learned and future challenges. Genome Res 11:927–929

    PubMed  Article  CAS  Google Scholar 

  21. 21.

    Ludwig J, Enke H (Hrsg) (2013) Leitfaden zum Forschungsdaten-Management: Handreichungen aus dem WissGrid-Projekt. Hülsbusch, Glückstadt

  22. 22.

    Neuroth H (2012) Langzeitarchivierung von Forschungsdaten: eine Bestandsaufnahme. Univ.-Verl. Göttingen, Göttingen

  23. 23.

    Sears R, Van Ingen C, Gray J (2007) To BLOB or Not To BLOB: large object storage in a database or a filesystem?

  24. 24.

    Smith M, Barton M, Branschofsky M et al (2003) DSpace. D-Lib Magazine 9

  25. 25.

    Tateno Y (2002) DNA Data Bank of Japan (DDBJ) for genome scale research in life science. Nucleic Acids Research 30:27–30

    PubMed  Article  CAS  Google Scholar 

  26. 26.

    Whyte A, Wilson A (2010) How to appraise and select research data for curation. Digital Curation Centre, Edinburgh

Download references

Einhaltung ethischer Richtlinien

Interessenkonflikt. N. Mathieu wird vom Deutschen Zentrum für Herz-Kreislauf-Forschung (DZHK) unterstützt. R. Grütz wird vom DFG-geförderten Verbundprojekt „Langzeitarchivierung biomedizinischer Forschungsdaten“ (LABIMI/F) unterstützt. P. Weil wird durch das DFG-geförderte Informationsinfrastruktur(INF)-Teilprojekt des SFB1002 unterstützt. B. Löhnhardt und M. Krawczak beziehen keine Unterstützung durch ein Projekt im Zusammenhang mit dieser Arbeit. Der korrespondierende Autor gibt für sich und seine Koautoren an, dass kein Interessenkonflikt besteht.

Dieser Beitrag beinhaltet keine Studien an Menschen oder Tieren.

Author information

Affiliations

Authors

Corresponding author

Correspondence to R. Grütz.

Rights and permissions

Reprints and Permissions

About this article

Cite this article

Grütz, R., Mathieu, N., Löhnhardt, B. et al. Archivierung von Genomdaten. medgen 25, 388–394 (2013). https://doi.org/10.1007/s11825-013-0403-y

Download citation

Schlüsselwörter

  • Genomik
  • Datenmanagementsysteme
  • Datenerhaltung
  • Genomische Datenbanken
  • Informationsspeicherung und Abfrage

Keywords

  • Genomics
  • Data management systems
  • Data lifecycle
  • Databases, genetic
  • Information storage and retrieval