生物與計算機的結合讓生物進入大數據時代,爲方便管理各種生物數據,科學家們開發了各式各樣的生物數據庫。瞭解與自己研究領域相關的數據庫,並加以利用可能會使研究工作得到事半功倍的效果。在此將常用數據庫按照以下分類方式大致整理了一下,方便檢索。
分類不準或有遺漏的歡迎指出,後續將不斷推出更新版本。
目錄
- Meta databases
- Model organism databases
- Nucleic acid databases 3.1 DNA databases 3.2 Gene expression databases (mostly microarray data) 3.3 Phenotype databases 3.4 RNA databases
- Amino acid / protein databases 4.1 Protein sequence databases 4.2 Protein structure databases 4.3 Protein model databases 4.4 Protein-protein and other molecular interactions
- Signal transduction pathway databases
- Metabolic pathway and protein function databases
- Additional databases 7.1 Exosomal databases 7.2 Mathematical model databases 7.3 Taxonomic databases 7.4 Radiologic databases
- Wiki-style databases
- Specialized databases
1. Meta databases
元數據庫,合併不同來源的相關數據以更新的或更加方便的形式提供新的數據,通俗的講就是數據庫的數據庫,代表性的數據庫主要有以下幾個:
- ConsensusPathDB 網址:http://consensuspathdb.org/ 描述:分子功能互作數據庫,基於32個公共數據庫,整合了人類蛋白質相互作用,遺傳相互作用信號,代謝,基因調控和藥物 - 靶標相互作用的信息。
- Entrez 網址:https://www.ncbi.nlm.nih.gov/Class/MLACourse/Modules/Entrez/complex_boolean.html 描述:Entrez跨數據庫全局查詢搜索系統是一個聯合搜索引擎或門戶網站,允許用戶在NCBI網站上搜索許多離散的健康科學數據庫。
- Neuroscience Information Framework 網址:https://neuinfo.org// 描述:整合了數百種神經科學相關資源,包括實驗,臨牀和轉化神經科學數據庫,知識庫,地圖集和遺傳/基因組資源等。
- GeneCard 網址:https://www.genecards.org/ 描述:自動整合125個數據庫,包含基因組、轉錄組、蛋白組、遺傳、臨牀和功能信息的龐大人基因組數據庫。
- Ensembl Genomes 網址:http://ensemblgenomes.org/ 描述:該項目由EMBL運營,提供細菌、原生生物、真菌、植物和無脊椎動物後生動物的基因組數據。
- UCSC Genome 網址: http://genome.ucsc.edu 描述:主要是動物基因組信息,基因組註釋,基因組保守性和基因組共線性數據。
- Human protein atlas 網址:http://www.proteinatlas.org/ 描述:人體蛋白在細胞、組織、病理條件下的表達
2. Model organism databases
模式生物數據庫,爲深入研究模式生物提供生物數據,如:
- Personal Genome Project 網址:https://www.personalgenomes.org/ 描述:來自世界各地的100,00名志願者的人類基因組計劃。
- Mouse Genome Database(MGD) 網址:http://www.informatics.jax.org/ 描述:MGD數據庫是整合了國際上實驗室小鼠生物數據的資源庫,提供小鼠相關的基因組、綜合遺傳等信息。
- Rat Genome Database (RGD): 網址:https://rgd.mcw.edu/ 描述:大鼠基因組數據庫。
- PomBase 網址:https://www.pombase.org/ 描述:裂殖酵母Schizosaccharomyces pombe的知識庫。
- Saccharomyces Genome Database (SGD): 網址:https://www.yeastgenome.org/ 描述:酵母模型生物的基因組數據庫
- TAIR 網址 https://www.arabidopsis.org/ 描述:最全的擬南芥資源數據庫。政府爲我們付費購買了使用權,以至於不少人沒感覺到TAIR已經收費了。
- Legume Information System (LIS) 網址:https://legumeinfo.org/ 描述:豆科植物的基因組數據庫。
- Wormbase: 網址:https://wormbase.org/#012-34-5 描述:關於線蟲模式生物秀麗隱杆線蟲的生物學和基因組在線生物數據庫,還包含其他相關線蟲的信息。
- Xenbase: 網址:http://www.xenbase.org/entry/ 描述:模式生物非洲爪蟾(Xenopus tropicalis)和非洲爪蟾(Xenopus laevis)的基因組數據庫。
- Zebrafish Information Network: 網址:http://zfin.org/ 描述:斑馬魚的基因組數據庫。
- FlyBase: 網址:http://flybase.org/ 描述:模式生物果蠅的基因組數據庫。
- UCSC Malaria Genome Browser: 網址:http://enacademic.com/dic.nsf/enwiki/7907997 描述:UCSC瘧疾基因組瀏覽器是研究瘧疾(如惡性瘧原蟲等)基因組的生物信息學研究工具。
3. Nucleic acid databases
3.1 DNA databases
核酸數據庫分爲一級數據庫(Primary databases)和二級數據庫(Secondary databases)
3.1.1 一級核酸數據庫
下面三個數據庫是核酸的主數據庫,存儲來自所有生物的核酸序列,接受用戶提交核酸序列,每天交換更新數據以實現他們之間的最佳同步。
- DNA Data Bank of Japan 網址:https://www.ddbj.nig.ac.jp/index-e.html
- EMBL (European Bioinformatics Institute) 網址:https://www.embl.org/
- NCBI (National Center for Biotechnology Information) 網址:https://www.ncbi.nlm.nih.gov/
3.1.2 二級核酸數據庫
數目很多,先列出一些,歡迎補充:
- 23andMe’s database 網址:https://www.23andme.com/en-int/ 描述:23andMe是一傢俬營的個人基因組學生物技術公司 ,主要業務是基於唾液對消費者進行基因檢測,並向客戶提供基因檢測報告。
- OMIM (Online Mendelian Inheritance in Man): 網址:https://omim.org/ 描述:一個管理人類基因和人類遺傳疾病特徵的數據庫。
- RefSeq 網址:https://www.ncbi.nlm.nih.gov/refseq/ 描述:參考序列數據庫收集了從病毒、細菌到真核生物等主要生物的核酸序列(DNA、RNA)及其蛋白質常產物。
- 1000 Genomes Project: 網址:http://www.internationalgenome.org/ 描述:2008年1月啓動的項目,對來自不同種族羣體的一千多名匿名參與者的基因組進行了分析,並將數據公佈於衆。
- SNP / Disease Databases 網址:https://www.snpedia.com/ 描述:人SNP位點對錶型的影響和貢獻度數據庫
3.2 Gene expression databases
這些數據庫收集基因組序列,註釋並分析他們,以提供公共訪問。主要包括:
- ArrayExpress 網址:https://www.ebi.ac.uk/arrayexpress/ 描述:功能基因組數據存檔;存儲來自EMBL的高通量功能基因組學實驗的數據;展示方式很炫酷。
- Bioinformatic Harvester 網址:Ensembl: http://asia.ensembl.org/index.html 描述:爲人類,小鼠,其他脊椎動物和真核生物基因組提供自動註釋的數據庫
- BioGPS 網址:http://biogps.org/#goto=welcome 描述:強大的基因和蛋白表達註釋平臺
- Gene Disease Database 基因疾病數據庫,通過整理表型-基因型關係和基因-疾病機制,以及多種複合相互作用來理解複雜疾病的潛在機制。主要數據庫如下: 5.1 The Comparative Toxicogenomics Database (CTD) 網址:http://ctdbase.org/ 5.2 The Universal Protein Resource (UNIPROT) 網址:https://www.uniprot.org 5.3 The Online Mendelian Inheritance in Man 網址:https://www.ncbi.nlm.nih.gov/omim 5.5 The Ensembl genome database project 網址:http://www.ensembl.org/ 5.6 The Gene Disease Associations Database DisGeNET 網址:http://www.disgenet.org/
- Gene Expression Omnibus (GEO): 網址:https://www.ncbi.nlm.nih.gov/geo/ 描述:來自美國國家癌症研究所(NCI)的公共功能基因組數據庫,它支持基於陣列和序列的數據,並提供了用於查詢和下載基因表達譜的工具。
3.3 Phenotype databases
- PHI-base: 網址:http://www.phi-base.org/ 描述:病原體 - 宿主相互作用數據庫。
- 細胞表型數據庫 網址:https://www.ebi.ac.uk/fg/sym 描述:基於RNAi的細胞表型收集
- dbGAP 網址:https://www.ncbi.nlm.nih.gov/gap 描述:基因型-表型數據庫,來源於GWAS、醫學測序、分子診斷等
- The Human Phenotype Ontology 網址:https://hpo.jax.org/app/ 描述:人類疾病表型描述的標準化術語,類比於Gene Ontology. 現有13000個條目和156,000關於遺傳病的註釋。
- GWAS central 網址: https://www.gwascentral.org 描述:包含2,974,967個SNP與829個MeSH疾病、表型之間的69,986,326個關聯。
- European genome-phenome archive 網址:https://ega-archive.org 描述:生物醫學研究中涉及的遺傳和表型數據關聯庫
- Monarch 網址:https://monarchinitiative.org 描述:基因型-表型數據庫,表型相似性度量
- Cellular Phenotype Database 網址:http://www.ebi.ac.uk/fg/sym 描述:存儲來自高通量表型研究的數據,可以搜索感興趣的表型並檢索相關靶基因和RNAi
- GenomeRNAi 網址:http://www.genomernai.org/ 描述:包含來自果蠅和人RNA干擾篩選的表型數據庫
- Genomics of Drug Sensitivity in Cancer 網址:http://www.cancerrxgene.org/ 描述:篩選了多種抗癌療法人類癌細胞系,通過與基因組數據關聯以識別藥物靶標,同時爲臨牀應用提供信息
- GenomeCRISPR 網址:http://genomecrispr.dkfz.de/ 描述:用於高通量CRISPR / Cas9篩選實驗的數據庫
- Cellular Microscopy Phenotype Ontology (CMPO) 網址:www.ebi.ac.uk/cmpo/ 描述:CMPO爲描述與整個細胞、細胞成分、細胞過程和細胞羣體有關的表型特性提供了一種物種中立的詞彙。
- Human Phenotype Ontology (HPO) 網址:https://hpo.jax.org/app/ 描述:提供了人類疾病中表型異常的標準化詞彙
3.4 RNA databases
- miRBase 網址:http://www.mirbase.org/ 描述:存儲microRNA序列和註釋的數據庫。
- Rfam: 網址:http://rfam.org/ 描述:一個包含非編碼RNA(ncRNA)家族和其他類型RNA信息的數據庫。
- RNAcentral 網址:https://rnacentral.org/ 描述:非編碼RNA序列數據庫。
4. Amino acid / protein databases
4.1 Protein sequence databases
- Swiss-Prot/Uniprot 網址:https://www.uniprot.org/ 描述:結合了從文獻中提取的信息和生物鑑定者評估的計算分析,是一個手動註釋的非冗餘蛋白質序列數據庫。
- Database of Interacting Proteins (Univ. of California) 網址:https://dip.doe-mbi.ucla.edu/dip/Main.cgi 描述:記錄了實驗確定的蛋白質之間的相互作用。
- DisProt:(打不開了) 網址:http://www.disprot.org/ 描述:用於註釋文獻中的蛋白固有無序區域(IDRs)
- InterPro: 網址:https://www.ebi.ac.uk/interpro/ 描述:通過整合多個蛋白相關數據庫,提供了一個方便的對蛋白序列進行功能註釋的平臺,包括對蛋白質家族、結構域、功能位點的預測。
- MobiDB: 網址:http://mobidb.bio.unipd.it/ 描述:內在蛋白質紊亂註釋數據庫。
- neXtProt: 網址:https://www.nextprot.org/ 描述:人類蛋白質數據庫。
- Pfam: 網址:http://pfam.xfam.org/ 描述:Pfam是蛋白質家族的數據庫,包括使用隱馬爾可夫模型生成的註釋和多序列比對。
- PRINTS 網址:http://130.88.97.239/PRINTS/index.php 描述:蛋白質序列指紋圖譜數據庫,所謂蛋白質的指紋是指一組保守的序列基序,用於刻畫蛋白質家族的特徵。
- PROSITE: 網址:https://prosite.expasy.org/ 描述:收集了有顯著生物學意義的蛋白質位點和序列模式,並能根據這些位點和模式快速並可靠地鑑別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。
- Protein Information Resource 網址:https://pir.georgetown.edu/ 描述:是一個全面的、經過註釋的、非冗餘的蛋白質序列數據庫。可幫助研究者鑑別和解釋蛋白質序列信息,研究分子進化、功能基因組,進行生物信息學分析。
- SUPERFAMILY: 網址:http://supfam.org/SUPERFAMILY/ 描述:一個包含所有蛋白質和基因組結構和功能註釋的數據庫。
4.2 Protein structure databases
- Protein Data Bank (PDB) 網址:http://www.rcsb.org 描述:一個專門收錄蛋白質及核酸的三維結構資料的數據庫,以下爲PDB成員網站 1.1 Protein DataBank in Europe (PDBe):https://www.ebi.ac.uk/pdbe/ 1.2 ProteinDatabank in Japan (PDBj):https://pdbj.org 1.3 Research Collaboratory for Structural Bioinformatics (RCSB):https://www.rcsb.org 1.4 Worldwide Protein Data Bank:http://www.wwpdb.org/
- The Protein Protein Interaction Inhibition Database (2PI2db): 網址:http://2p2idb.cnrs-mrs.fr 描述:收集了已通過X射線晶體學或核磁共振表徵的蛋白質-蛋白質、蛋白質-調節劑複合物結構。
4.3 Protein model databases
- ModBase: 網址:https://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi 描述:一個註釋比較飯白紙結構模型的數據庫。
- Protein Model Portal (PMP): 網址:https://www.proteinmodelportal.org 描述:結合了數個蛋白質結構模型數據庫的元數據庫,提供模型構建和質量評估等多種交互式服務。
- Similarity Matrix of Proteins (SIMAP): 網址:http://cube.univie.ac.at/resources/simap 描述:基於FASTA序列計算的蛋白質相似性數據庫。
- Swiss-model: 網址:https://swissmodel.expasy.org 描述:致力於同源蛋白質的3D結構建模。
4.4 Protein-protein and other molecular interactions
- BioGRID 網址:https://thebiogrid.org 描述:蛋白質與遺傳相互作用數據庫。
- string 網址:http://string-db.org/cgi/help.pl?subpage=api 描述:用於檢索相互作用基因/蛋白質的搜索工具
- IntAct 網址:https://www.ebi.ac.uk/intact/ 描述:爲分子交互研究提供免費的開源數據庫系統和分析工具。
5. Signal transduction pathway databases
- NCI-Nature Pathway Interaction Database 網址:http://biogps.org/plugin/259/nci-nature-pathway-interaction-database/ 描述:http://www.ndexbio.org/#/ (原來的PID遷移到此新數據庫)。 NDEx提供了一個開源框架,科學家和機構可以共享、存儲、操作和發佈生物網絡知識。
- Netpath 網址:http://www.netpath.org/ 描述:人類信號轉導通路數據庫,擁有45個信號通路,包括在免疫系統調節和癌症調節中起主要作用的通路。
- Reactome 網址:https://reactome.org/ 描述:該庫覆蓋了19個物種的通路研究,包括經典的代謝通路、信號轉導、基因轉錄調控、細胞凋亡與疾病。 reactome相關推文:
- WikiPathways 網址:https://www.wikipathways.org/index.php/WikiPathways 描述:該數據庫收錄了超過20個物種的通路,其中人類的通路就包含了800多個通路,涵蓋了約7500種基因。此外,它還包含了超過1000個代謝產物的通路。
6. Metabolic pathway and protein function databases
代謝途徑和蛋白質功能數據庫
- BiGG Models 網址:http://bigg.ucsd.edu 描述:該數據庫將70多種已發表的基因組規模的代謝網絡整合到了一起,並且有一組標準化的BiGG ID。
- BioCyc Database Collection: 網址:https://biocyc.org 描述:收集了14558個通路/基因組數據庫,每一個數據庫描述了單個有機體的基因組和代謝通路,同時提供多種用於組學數據導航和可視化的分析工具。
- BRENDA: 網址:http://www.brenda-enzymes.org 描述:酶數據庫,提供酶的分類、命名法、生化反應、專一性、結構、細胞定位、提取方法、文獻、應用與改造及相關疾病的數據。
- HMDB 網址:http://www.hmdb.ca 描述:人類代謝組數據庫,包含有關人體中發現的小分子代謝物的詳細信息。
- KEGG PATHWAY Database 網址:https://www.kegg.jp 描述:KEGG是一個整合了基因組、化學和系統功能信息的數據庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG數據庫的特色之一。
- Reactome(同上)
- WikiPathways(同上)
7. Additional databases
7.1 Exosomal databases
外泌體是一類可以由多種細胞類型分泌的胞外囊泡,與其他胞外囊泡如核外顆粒體和凋亡小體不同,外泌體是內吞起源的。外泌體在疫苗、藥物遞送、細胞間通信的作用以及其作爲生物標誌物的一種可能來源以及引起了研究人員的極大興趣,導致外泌體相關研究呈現井噴趨勢。相關數據庫如下:
- ExoCarta 網址:http://www.exocarta.org 描述:是一個關於外泌體蛋白、RNA、脂質體的手工數據庫。
- exoRBase 網址:http://www.exorbase.org 描述:將不同疾病血來源外泌體中的circRNA, lncRNA和mRNA進行整理的數據庫。
7.2 Mathematical model databases
- Biomodels Database 網址:http://biomodels.caltech.edu 描述:生物模型在線數據庫,主要存儲數量型生物化學模型。
7.3 Taxonomic databases
- BacDive 網址:https://bacdive.dsmz.de 描述:提供有關細菌和古細菌生物多樣性的菌株相關信息。
- EzTaxon-e 網址:https://www.ezbiocloud.net 描述:基於16S核糖體RNA基因序列鑑定原核生物的數據庫。
7.4 Radiologic databases
- The Cancer Imaging Archive (TCIA) 網址:http://www.cancerimagingarchive.net 描述:包含常見腫瘤(肺癌、前列腺癌等)醫學圖像(MRI、CT等)及相應臨牀信息(治療方案細節、基因、病理等)的大規模公用數據庫。
- Neuroimaging Informatics Tools and Resources Clearinghouse 網址:https://www.nitrc.org 描述:神經影像信息學工具和資源交換中心。
8. Wiki-style databases
- Gene Wiki 網址:https://en.wikipedia.org/wiki/Wikipedia:Gene_Wiki 描述:一個基於wiki的基因信息數據庫
9. Specialized databases
- Barcode of Life Data Systems 網址:http://www.boldsystems.org 描述:DNA條形碼數據庫(即生物體內能夠代表該物種的、標準的、有足夠變異的、易擴增且相對較短的DNA片段),並提供一個分析DNA序列的在線平臺。
- The Cancer Genome Atlas (TCGA) 網址:https://cancergenome.nih.gov 描述:提供使用高通量技術獲得的癌症樣本數據,包括基因表達譜、拷貝數變異、SNP基因分型、全基因組DNA甲基化等。
- Cellosaurus 網址:https://web.expasy.org/cellosaurus/ 描述:細胞系的在線資源庫。
- Comparative Toxicogenomics Database (CTD) 網址:http://ctdbase.org 描述:CTD(比較毒物遺傳數據庫),爲研究人員提供了集中、綜合的各種不同類型分子以及來自各種生物體的毒理學數據。
- DiProDB 網址:http://diprodb.fli-leibniz.de 描述:收集和分析熱力學,結構和其他二核苷酸特性的數據庫。
- Dryad 網址:http://datadryad.org 描述:存放優質數據資源的場所,使科學出版物背後的數據可被發現、可重複使用、可引用。
- Edinburgh Mouse Atlas 網址:http://www.emouseatlas.org/emap/home.html 描述:小鼠胚胎原位基因表達數據庫。
- EPD Eukaryotic Promoter Database 網址:https://epd.vital-it.ch/index.php 描述:真核基因啓動子數據庫,提供從EMBL中得到的真核基因的啓動子序列,幫助實驗研究人員、生物信息學研究人員分析真核基因的轉錄信號。
- FINDbase (the Frequency of INherited Disorders database) 網址:http://www.findbase.org 描述:是一個全球治病遺傳變異頻率的數據庫。
- HGNC (HUGO Gene Nomenclature Committee): 網址:https://www.genenames.org 描述:負責對人類基因組包括蛋白編碼基因, ncRNA基因,甲基因和其他基因在內的所有基因提供一個唯一的、標準的、可以廣泛傳播的symbol
- International Human Epigenome Consortium 網址:http://ihec-epigenomes.org 描述:國際人類表觀基因組學會,致力於全球表觀基因組學領域的發展。
- MethBase 網址:http://smithlabresearch.org/software/methbase/ 描述:在UCSC Genome Browser上可視化的DNA甲基化數據庫。
- Minimotif Miner 網址:http://minimotifminer.org/ 描述:短連續功能性肽基序的數據庫。
- NCI-dbGaP 網址:https://www.ncbi.nlm.nih.gov/gap 描述:人類基因型和表型相互作用的數據庫。
- PubMed 網址: https://www.ncbi.nlm.nih.gov/pmc/ 描述:生命科學和生物醫學領域的參考和摘要。
- Oncogenomic databases 網址:https://oglandscapes.irbbarcelona.org 描述:用於癌症研究的數據庫彙編。
- RIKEN integrated database of mammals 網址:http://metadb.riken.jp/metadb/download/SciNetS_ria254i 描述:Riken研究所推廣的多個大型項目的綜合數據庫。
- TDR Targets 網址:http://tdrtargets.org 描述:專注於熱帶疾病藥物發現的化學基因組學數據庫。
- LNCipedia 網址:http://www.lncipedia.org/ 描述:人類長鏈非編碼RNA的整合庫
- NONCODE 網址: http://www.noncode.org/ 描述:存儲17類(人類,小鼠,牛,大鼠,雞,果蠅,斑馬魚,小腸,酵母,擬南芥,黑猩猩,大猩猩,猩猩,恆河猴,負鼠和豬)物種非編碼RNA(不包括tRNA和rRNA)的數據庫
- Oncomine 網址:https://www.oncomine.org/resource/login.html 描述:腫瘤相關基因研究的數據庫,整合了GEO、TCGA和已發表的文獻等來源的RNA和DNA-seq數據
- GeneVestigator(GV) 網址:https://genevestigator.com/ 描述:一個基因表達的搜索引擎,集成了上萬的人工精選、註釋的公共芯片實驗結果
- immuneXpresso 網址:http://immuneexpresso.org/immport-immunexpresso/public/immunexpresso/search 描述:immuneXpresso搜索引擎可自動從PubMed摘要中提取高分辨率細胞 - 細胞因子相互作用網絡。