Skip to main content

Datenbanken und Proteinstrukturen

  • Chapter
  • First Online:
Einführung in die Bioinformatik in der Mikrobiologie

Zusammenfassung

Bioinformatik-Datenbanken enthalten biologische Daten aus wissenschaftlichen Experimenten, vor allem DNA- und Proteinsequenzen und Proteinstrukturen. Datenbanken mit veröffentlichter Literatur, computergestützte Analyse von Primärdaten und Metadaten sind ebenfalls wichtig. Primäre und sekundäre Datenbanken beziehen sich auf die Art und Quelle der gespeicherten Daten. Primäre Datenbanken wie GenBank und ENA werden auch als Archive oder Repositories bezeichnet. Sie erhalten Informationen direkt vom einzelnen Forscher, und die Daten gehören dem Einreichenden, der das Recht hat, die Daten zu ändern. Die Nukleotid-Datenbanken DDBJ, EMBL und GenBank werden automatisch auf Proteinebene übersetzt, wenn die DNA-Sequenzen codieren. Die sekundären Datenbanken (z. B. Swiss-Prot und PDB) werden kuratiert und führen eine Qualitätskontrolle und Sortierung der Informationen durch, bevor diese der Öffentlichkeit zugänglich gemacht werden. Diesen Datenbanken gelingt es besser, Redundanz zu reduzieren. Sie können auch die Einreichungen von Einträgen in den primären Datenbanken umgehen, die nicht mehr aktualisiert werden. Domänen sind kompakte Einheiten von Proteinen, die sich unabhängig verhalten und mit bestimmten Funktionen verbunden sein können. Motive sind konservierte Regionen von Proteinen, die Teil von Domänen sein können. Die Vorhersage von Domänen kann auf der Grundlage einzelner Motive, mehrerer Motive und vollständiger Domänen oder unter Verwendung von Verfahren erfolgen, die verschiedene Methoden kombinieren. Die Funktion eines Proteins kann über eine eher geringe Identität mit anderen bekannten Proteinen bei einer eher kurzen Vergleichslänge und eine eher geringe Ähnlichkeit zu Proteinstrukturen vorhergesagt werden. Die Proteomik befasst sich mit der Vorhersage von Proteinen auf der Grundlage der Messung von Masse-zu-Ladung-Verhältnissen (m/z). Die Vorhersage von Proteinen erfolgt dann mit Programmen wie Mascot, bei denen die m/z-Koordinaten aus einer Analyse mit dem überprüften Teil von UniProt abgeglichen werden.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 44.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 59.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Literatur

  • André I, Potocki-Véronèse G, Barbe S, Moulis C, Remaud-Siméon M. 2014. CAZyme discovery and design for sweet dreams. Curr. Opin. Chem. Biol. 19:17–24.

    Article  CAS  PubMed  Google Scholar 

  • Arnold K, Bordoli L, Kopp J, Schwede T. 2006. The SWISS-MODEL workspace: a web-based environment for protein structure homology modelling. Bioinformatics 22, 195–201.

    Article  CAS  PubMed  Google Scholar 

  • Attwood TK, Avison H, Beck ME, Bewley M, Bleasby AJ, Brewster F, Cooper P, Degtyarenko K, Geddes AJ, Flower DR, Kelly MP, Lott S, Measures KM, Parry-Smith DJ, Perkins DN, Scordis P, Scott D, Worledge C. 1997. The PRINTS database of protein fingerprints: a novel information resource for computational molecular biology. J Chem Inf Comput Sci. 37, 417–424.

    Article  CAS  PubMed  Google Scholar 

  • Bagos PG, Liakopoulos TD, Spyropoulos IC, & Hamodrakas SJ. 2004. A Hidden Markov Model method, capable of predicting and discriminating beta-barrel outer membrane proteins. BMC Bioinformatics 15;5:29.

    Article  Google Scholar 

  • Barker WC, George DG, Mewes HW, Pfeiffer F, & Tsugita A. 1993. The PIR-International databases. Nucleic Acids Res. 21:3089–92.

    Article  CAS  PubMed  PubMed Central  Google Scholar 

  • Benson DA, Cavanaugh M, Clark K, Karsch-Mizrachi I, Ostell J, Pruitt KD, Sayers EW. 2018. GenBank. Nucleic Acids Res. 46(D1):D41–D47.

    Article  CAS  PubMed  Google Scholar 

  • Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2016. GenBank. Nucleic Acids Res. 44, D67–72.

    Article  CAS  PubMed  Google Scholar 

  • Cole JR, Wang Q, Fish JA, Chai B, McGarrell DM, Sun Y, Brown CT, Porras-Alfaro A, Kuske CR, Tiedje JM. 2014. Ribosomal Database Project: data and tools for high throughput rRNA analysis. Nucleic Acids Res 42, D633–42.

    Article  CAS  PubMed  Google Scholar 

  • Cook CE, Bergman MT, Cochrane G, Apweiler R, Birney E. 2018. The European Bioinformatics Institute in 2017: data coordination and integration. Nucleic Acids Res. 46:D21–D29.

    Article  CAS  PubMed  Google Scholar 

  • DeSantis TZ, Hugenholtz P, Larsen N, Rojas M, Brodie EL, Keller K, Huber T, Dalevi D, Hu P, Andersen GL. 2006. Greengenes, a chimera-checked 16S rRNA gene database and workbench compatible with ARB. Appl Environ Microbiol. 72, 5069–5072.

    Article  CAS  PubMed  PubMed Central  Google Scholar 

  • Finn RD, Coggill P, Eberhardt RY, Eddy SR, Mistry J, Mitchell AL, Potter SC, Punta M, Qureshi M, Sangrador-Vegas A, Salazar GA, Tate J, Bateman A. 2016. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44:D279–85.

    Article  CAS  PubMed  Google Scholar 

  • Finn RD, Attwood TK, Babbitt PC, Bateman A, Bork P, Bridge AJ, Chang H-Y, Dosztányi Z, El-Gebali S, Fraser M, Gough J, Haft D, Holliday GL, Huang H, Huang X, Letunic I, Lopez R, Lu S, Marchler-Bauer A, Mi H, Mistry J, Natale DA, Necci M, Nuka G, Orengo CA, Park Y, Pesseat S, Piovesan D, Potter SC, Rawlings ND, Redaschi N, Richardson L, Rivoire C, Sangrador-Vegas A, Sigrist C, Sillitoe I, Smithers B, Squizzato S, Sutton G, Thanki N, Thomas PD, Tosatto SCE, Wu CH, Xenarios, I, Yeh L-S, Young S-Y, & Mitchell AL. 2017. InterPro in 2017 — beyond protein family and domain annotations. Nucleic Acids Res. 45, D190–D199

    Article  CAS  PubMed  Google Scholar 

  • Gao F, Luo H, Zhang CT, Zhang R. 2015. Gene essentiality analysis based on DEG 10, an updated database of essential genes. Methods Mol. Biol. 1279:219–33.

    Article  CAS  PubMed  Google Scholar 

  • Ghosh P. 2018. Variation, Indispensability, and Masking in the M protein. Trends Microbiol. 26, 132–144.

    Article  CAS  PubMed  Google Scholar 

  • Gibas C, & Jambeck P. 2001. Developing Bioinformatics Computer Skills An Introduction to Software Tools for Biological Applications. O’Reilly Media, Beijing.

    Google Scholar 

  • Haft DH, DiCuccio M, Badretdin A, Brover V, Chetvernin V, O’Neill K, Li W, Chitsaz F, Derbyshire MK, Gonzales NR, Gwadz M, Lu F, Marchler GH, Song JS, Thanki N, Yamashita RA, Zheng C, Thibaud-Nissen F, Geer LY, Marchler-Bauer A, Pruitt KD. 2018. RefSeq: an update on prokaryotic genome annotation and curation. Nucleic Acids Res. 46:D851–D860.

    Article  CAS  PubMed  Google Scholar 

  • Henikoff S, & Henikoff JG. 1992. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A. 89, 10915–10919.

    Article  CAS  PubMed  PubMed Central  Google Scholar 

  • Higgs PG, & Attwood TK. 2005. Bioinformatics and Molecular Evolution. Wiley.

    Google Scholar 

  • Holm, L. & Laakso, L.M. 2016. Dali server update. Nucleic Acids Res. 8;44(W1):W351–5.

    Article  CAS  PubMed  PubMed Central  Google Scholar 

  • Käll L, Krogh A & Sonnhammer EL. 2004. A combined transmembrane topology and signal peptide prediction method. J. Mol. Biol. 338:1027–36.

    Article  CAS  PubMed  Google Scholar 

  • Kanehisa M, Sato Y, Kawashima M, Furumichi M, Tanabe M. 2016. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44(D1):D457–62.

    Article  CAS  PubMed  Google Scholar 

  • Karsch-Mizrachi I, Takagi T, Cochrane G, International Nucleotide Sequence Database Collaboration. 2018. The international nucleotide sequence database collaboration. Nucleic Acids Res. 46(D1):D48–D51.

    Article  CAS  PubMed  Google Scholar 

  • Kelley LA, Mezulis S, Yates CM, Wass MN & Sternberg MJ. 2015. The Phyre2 web portal for protein modeling, prediction and analysis. Nat Protoc. 10:845–58.

    Article  CAS  PubMed  PubMed Central  Google Scholar 

  • Kodama Y, Mashima J, Kosuge T, Kaminuma E, Ogasawara O, Okubo K, Nakamura Y, Takagi T. 2018. DNA Data Bank of Japan: 30th anniversary. Nucleic Acids Res. 46(D1):D30–D35.

    Article  CAS  PubMed  Google Scholar 

  • Letunic I, Bork P. 2018. 20 years of the SMART protein domain annotation resource. Nucleic Acids Res. 2018 Jan 4;46(D1):D493–D496.

    Article  CAS  PubMed  Google Scholar 

  • McDonald D, Price MN, Goodrich J, Nawrocki EP, DeSantis TZ, Probst A, Andersen GL, Knight R, Hugenholtz P. 2012. An improved Greengenes taxonomy with explicit ranks for ecological and evolutionary analyses of bacteria and archaea. ISME J. 6, 610–618.

    Article  CAS  PubMed  Google Scholar 

  • Nakai K, Horton P. 1999. PSORT: a program for detecting sorting signals in proteins and predicting their subcellular localization. Trends Biochem Sci. 24:34–6.

    Article  CAS  PubMed  Google Scholar 

  • NCBI. 2018. NCBI Resource Coordinators. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 46, D8–D13.

    Article  CAS  Google Scholar 

  • Petersen TN, Brunak S, von Heijne G, & Nielsen H 2011. SignalP 4.0: discriminating signal peptides from transmembrane regions. Nature Methods 8:785–786.

    Article  CAS  PubMed  Google Scholar 

  • Petsko GA & Ringe D 2004. Protein structure and function. Primers in Biology. New Science Press Ltd. London, UK.

    Google Scholar 

  • Pickett CL & Whitehouse CA.1999. The cytolethal distending toxin family. Trends Microbiol. 7, 292–297.

    Article  CAS  PubMed  Google Scholar 

  • Rose PW, Prlić A, Altunkaya A, Bi C, Bradley AR, Christie CH, Costanzo LD, Duarte JM, Dutta S, Feng Z, Green RK, Goodsell DS, Hudson B, Kalro T, Lowe R, Peisach E, Randle C, Rose AS, Shao C, Tao YP, Valasatava Y, Voigt M, Westbrook JD, Woo J, Yang H, Young JY, Zardecki C, Berman HM, Burley SK. 2017. The RCSB protein data bank: integrative view of protein, gene and 3D structural information. Nucleic Acids Res. 45:D271–D281.

    CAS  PubMed  Google Scholar 

  • Silvester N, Alako B, Amid C, Cerdeño-Tarrága A, Clarke L, Cleland I, Harrison PW, Jayathilaka S, Kay S, Keane T, Leinonen R, Liu X, Martínez-Villacorta J, Menchi M, Reddy K, Pakseresht N, Rajan J, Rossello M, Smirnov D, Toribio AL, Vaughan D, Zalunin V, Cochrane G. 2018. The European Nucleotide Archive in 2017. Nucleic Acids Res. 46(D1):D36–D40.

    Article  CAS  PubMed  Google Scholar 

  • Sonnhammer ELL & Kahn D. 1994. Modular arrangement of proteins as inferred from analysis of homology, Protein Sci. 3, 482–492

    Article  CAS  PubMed  PubMed Central  Google Scholar 

  • Soria-Guerra RE, Nieto-Gomez R, Govea-Alonso DO, Rosales-Mendoza S. 2015. An overview of bioinformatics tools for epitope prediction: implications on vaccine development. J Biomed Inform. 53:405–14.

    Article  PubMed  Google Scholar 

  • Tsirigos KD, Bagos PG, Hamodrakas SJ. 2011. OMPdb: a database of {beta}-barrel outer membrane proteins from Gram-negative bacteria. Nucleic Acids Res. 39(Database issue):D324–31.

    Article  CAS  PubMed  Google Scholar 

  • UniProt. 2018. The UniProt Consortium. UniProt: the universal protein knowledgebase. Nucleic Acids Res. 46: 2699.

    Article  CAS  Google Scholar 

  • Waterhouse A, Bertoni M, Bienert S, Studer G, Tauriello G, Gumienny R, Heer FT, de Beer TAP, Rempfer C, Bordoli L, Lepore R, Schwede T. 2018. SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic Acids Res. 2018 May 21. https://doi.org/10.1093/nar/gky427. [Epub ahead of print]

    Article  PubMed  PubMed Central  CAS  Google Scholar 

  • Yilmaz P, Parfrey LW, Yarza P, Gerken J, Pruesse E, Quast C, Schweer T, Peplies J, Ludwig W, Glöckner FO 2014. The SILVA and „All-species Living Tree Project (LTP)“ taxonomic frameworks. Nucleic Acids Res. 42(Database issue):D643–8.

    Article  CAS  PubMed  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Henrik Christensen .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2023 Der/die Autor(en), exklusiv lizenziert an Springer Nature Switzerland AG

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Christensen, H., de Vries, L.E. (2023). Datenbanken und Proteinstrukturen. In: Christensen, H. (eds) Einführung in die Bioinformatik in der Mikrobiologie. Springer Vieweg, Cham. https://doi.org/10.1007/978-3-031-31212-0_3

Download citation

Publish with us

Policies and ethics