Zusammenfassung
Angesichts der zunehmenden Datenflut in der Genomforschung wird ein effizientes Forschungsdatenmanagement, verbunden mit einer sicheren und nachhaltigen Archivierung, auch in diesem Wissenschaftsbereich immer wichtiger. Der letzte von 3 Artikeln der Reihe „Forschungsdatenmanagement von Genomdaten“ beschreibt allgemein den Lebenszyklus von Forschungsdaten – ausgehend von deren Planung, über die Auswahl und Übernahme der Daten für die Speicherung bis hin zu notwendigen Erhaltungsmaßnahmen und dem Zugriff durch Datennutzer. Archive spielen in fast allen Phasen dieses Zyklus eine Rolle und bilden daher eine wichtige Komponente der Verarbeitung von Genomdaten. Beispielhaft werden 3 öffentliche europäische Archive für Genomdaten vorgestellt: die Datenbank des European Molecular Biology Laboratory (EMBL), das Sequence Read Archive und das Trace Archive. Da jede dieser Einrichtungen jedoch auf eine bestimmte Art von Daten spezialisiert ist, bleibt ein Bedarf an zusätzlichen Langzeitarchiven, die flexibel mit verschiedenen Datentypen umgehen bzw. auf zusätzliche Datentypen erweitert werden können. Für solche Archive wird ein generisches Konzept beschrieben und mit Empfehlungen für dessen praktische Umsetzung verbunden.
Abstract
In view of the increasing amount of data arising from genome research, efficient research data management is becoming increasingly important in this domain. The third, and last, article of the series on “Research data management for genome data” describes the general lifecycle of research data—from their planning via the selection and inclusion into storage facilities to preservation measures and final user access. Archives play an important role in nearly all phases of this life cycle, which renders them an important component of genome data processing. Three exemplary public archives for genome data are introduced: the European Molecular Biology Laboratory (EMBL) databank, the Sequence Read Archive, and the Trace Archive. Owing to the high level of specialization of these institutions, however, additional archives are required that allow more generic data storage or, alternatively, easy extension to other genome data types. A generic concept for such archives will be described and recommendations given for their practical implementation.
Literatur
Allianz der deutschen Wissenschaftsorganisationen (2010) Grundsätze zum Umgang mit Forschungsdaten. Rat für Sozial- und Wirtschaftsdaten (RatSWD), Berlin
Benson DA, Karsch-Mizrachi I, Lipman DJ et al (2005) GenBank. Nucleic Acids Res 33:D34–D38
Cattell R (2011) Scalable SQL and NoSQL data stores. Sigmod Rec 39:12–27
Consortium T 1000 GP (2010) A map of human genome variation from population-scale sequencing. Nature 467:1061–1073
The consultative comittee for space data systems (2012) Consultative Committee for Space Data Systems Reference Model for an Open Archival Information System (OAIS). http://public.ccsds.org/publications/archive/650x0m2.pdf. Zugegriffen: 16. September 2013
DNA Data Bank of Japan (2013) DDBJ sequence read archive. DDBJ sequence read archive – home. http://trace.ddbj.nig.ac.jp/dra/index_e.html. Zugegriffen: 24. Juni 2013
Deutsche Forschungsgemeinsaschaft (2009) Deutsche Forschungsgemeinschaft Recommendations for Secure Storage and Availability of Digital Primary Research Data. http://www.dfg.de/download/pdf/foerderung/programme/lis/ua_inf_empfehlungen_200901_en.pdf. Zugegriffen: 16. September 2013
Europäisches Parlament, Rat (1995) Richtlinie 95/46/EG des Europäischen Parlaments und des Rates vom 24. Oktober 1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr. COM/95/375 COM/92/422 COM/90/314-2
European Bioinformatics Institute (2013) EMBL European Bioinformatics Institute. http://www.ebi.ac.uk/ Zugegriffen: 24. Juni 2013
European Bioinformatics Institute (2013) European Nucleotide Archive. http://www.ebi.ac.uk/ena/ Zugegriffen: 24. Juni 2013
European Bioinformatics Institute (2013) ENA data formats. The European Nucleotide Archive. http://www.ebi.ac.uk/ena/about/formats. Zugegriffen: 24. Juni 2013
Groß M (2011) Betriebssysteme – Der Verzeichnisdienst LDAP. GRIN Verlag GmbH, München
Higgins S (2008) The DCC curation lifecycle model. IJDC 3:134–140
Hupfeld F, Cortes T, Kolbeck B et al (2008) The XtreemFS architecture – a case for object-based file systems in Grids. Concurr Comput 20:2049–2060
Jens-Christoph Brendel (2004) Speichertechnologien im Überblick. Linux-Magazin. http://www.linux-magazin.de/Ausgaben/2004/11/Im-Delta-des-Datenflusses. Zugegriffen: 19. Juni 2013
Karsch-Mizrachi I, Nakamura Y, Cochrane G (2012) The International Nucleotide Sequence Database Collaboration. Nucleic Acids Res 40:D33–D37
Kommission der europäischen Gemeinschaften (2000) EUR-Lex – Amtsblatt. http://eur-lex.europa.eu/JOHtml.do?uri=OJ:L:2000:215:SOM:DE:HTML. Zugegriffen: 7. Aug. 2013
Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit Digitaler Ressourcen für Deutschland (2012) Referenzmodell für ein Offenes Archiv-Informations-System. Frankfurt/M
Krawczak M, Goebel JW, Cooper DN (2010) Is the NIH policy for sharing GWAS data running the risk of being counterproductive? Investigative Genetics 1:3
Lai E (2001) Application of SNP technologies in medicine: lessons learned and future challenges. Genome Res 11:927–929
Ludwig J, Enke H (Hrsg) (2013) Leitfaden zum Forschungsdaten-Management: Handreichungen aus dem WissGrid-Projekt. Hülsbusch, Glückstadt
Neuroth H (2012) Langzeitarchivierung von Forschungsdaten: eine Bestandsaufnahme. Univ.-Verl. Göttingen, Göttingen
Sears R, Van Ingen C, Gray J (2007) To BLOB or Not To BLOB: large object storage in a database or a filesystem?
Smith M, Barton M, Branschofsky M et al (2003) DSpace. D-Lib Magazine 9
Tateno Y (2002) DNA Data Bank of Japan (DDBJ) for genome scale research in life science. Nucleic Acids Research 30:27–30
Whyte A, Wilson A (2010) How to appraise and select research data for curation. Digital Curation Centre, Edinburgh
Einhaltung ethischer Richtlinien
Interessenkonflikt. N. Mathieu wird vom Deutschen Zentrum für Herz-Kreislauf-Forschung (DZHK) unterstützt. R. Grütz wird vom DFG-geförderten Verbundprojekt „Langzeitarchivierung biomedizinischer Forschungsdaten“ (LABIMI/F) unterstützt. P. Weil wird durch das DFG-geförderte Informationsinfrastruktur(INF)-Teilprojekt des SFB1002 unterstützt. B. Löhnhardt und M. Krawczak beziehen keine Unterstützung durch ein Projekt im Zusammenhang mit dieser Arbeit. Der korrespondierende Autor gibt für sich und seine Koautoren an, dass kein Interessenkonflikt besteht.
Dieser Beitrag beinhaltet keine Studien an Menschen oder Tieren.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Grütz, R., Mathieu, N., Löhnhardt, B. et al. Archivierung von Genomdaten. medgen 25, 388–394 (2013). https://doi.org/10.1007/s11825-013-0403-y
Published:
Issue Date:
DOI: https://doi.org/10.1007/s11825-013-0403-y
Schlüsselwörter
- Genomik
- Datenmanagementsysteme
- Datenerhaltung
- Genomische Datenbanken
- Informationsspeicherung und Abfrage