超精華生信ID總結,想踏入生信大門的你-值得擁有

目錄

各大生信資源的使用流行程度

生信數據庫的霸主-NCBI以及Entrez檢索系統

Gene查找好幫手-Entrez Gene數據庫

人類基因命名委員會-HGNC

Ensembl計劃

NCBI非冗餘序列數據庫-RefSeq

NCBI核酸序列數據庫-GenBank

蛋白質序列數據庫-Uniprot

GEO數據庫

拓展閱讀-GENCODE

要想成爲一名合格的生物信息工程師,首要條件就是能在各大生信數據庫中自由翱翔。目前的生信數據庫大體可以分爲三類:

核酸數據庫(例如:GenBank,Ensembl等)

蛋白質數據庫(例如:Uniprot,PDB等

專用數據庫(例如:KEGG,GO,GEO等等)

可以說數據庫的種類和數量都非常的繁多!

同時,每個數據庫都有自己獨特的檢索ID編號(例如Entrez ID,Ensembl ID 等等),也就是說同一個基因在不同的數據庫中會有不同的名稱。這麼多生信ID和數據庫看着真是眼花繚亂。。。我們幾乎不可能全部都記住!

所以,爲了提高學習效率,我們首先來看看生信領域最流行使用的數據庫有哪些吧,然後再針對性地去學習相應的數據庫和它們的編號系統!

各大生信資源的使用流行程度

PLOS-ONE上的一篇文章利用bioNerDS工具分析了Pubmed的 5,411,968篇文獻的語料庫,最終得到下列生信領域的資源使用排名

從這張表,我們可以明顯發現生信領域的NCBI-GenBank, UniProt, GO, KEGG和GEO等數據庫的使用頻率都非常高。所以,我們的學習就從這些主要的數據庫開始!


生信數據庫的霸主-NCBI以及Entrez檢索系統

談到生信數據庫,就不得不提非常著名的NCBI。NCBI是什麼呢

NCBI(National Center for Biotechnology information)即美國國家生物技術信息中心,由美國國立衛生醫學圖書館(NLM)於1988年建立。該中心的任務是:爲儲存和分析分子生物學、生物化學、遺傳學知識創建自動化系統;從事研究基於計算機的信息處理過程的高級方法,用於分析生物學上重要的分子和化合物的結構與功能;促進生物學研究人員和醫護人員應用數據庫和軟件;努力協作以獲取世界範圍內的生物技術信息。

所以,需要明確的是,我們常說的NCBI是一個機構組織,而不是數據庫喔。那麼,我們登陸的NCBI的網頁(https://www.ncbi.nlm.nih.gov/) 所訪問的數據庫和NCBI是什麼關係呢?那就不得不提Entrez啦!

Entrez是歸屬於NCBI的一個綜合的文本檢索引擎系統。這個檢索引擎整合了PubMed數據庫的生物醫學文獻與其他39個文獻和分子數據庫(例如GEO,Entrez Gene等,這些數據庫基本涵蓋了DNA和蛋白質序列,結構,基因,基因組,遺傳變異和基因表達方面的數據)。

所以,我們通常所說的檢索NCBI數據庫,其實就是在檢索Entrez這個引擎系統所整合的生信數據庫。簡而言之就是,NCBI組織建立了Entrez,Entrez整合了各大數據庫的入口,方便我們進行數據庫檢索。

瞭解了NCBI和Entrez的關係之後,我們來看看還有哪些常用的數據庫吧。

假設我們現在想檢索一個名字叫做TP53的基因,瞭解它的故事,我們應該去哪個數據庫呢?同時,TP53只是這個基因多個名稱中的一個(它還有其它的名字,例如:7157,HGNC:11998等等),所以這些不同的基因名稱之間又有什麼區別呢? OK , 讓我們一一道來!

首先,要想快速瞭解一個Gene並且獲取和它相關鏈接的外鏈數據庫,我們首推Entrez Gene數據庫!什麼是Entrez Gene數據庫呢?


Gene查找好幫手-Entrez Gene數據庫

Entrez Gene數據庫是Gene查找的好幫手,一般情況下我們如果想快速瞭解一個Gene的基本信息,可以直接進入(https://www.ncbi.nlm.nih.gov/gene/) 進行搜索。

NCBI的Gene數據庫 Entrez Gene數據庫其實就是我們現在指的NCBI中的Gene數據庫(這兩個名字指的是同一個數據庫) Gene數據庫建立的目的是,整合各個方面和基因相關的數據資源,構建一個能夠使人快速訪問並且獲取特定基因信息的訪問入口,從而爲數據交換以及科學家們的研究提供便利。它的數據包含了和基因相關的序列,結構,以及基因表達等等的信息,是基因資源的綜合數據庫。

我們輸入TP53之後會得到這樣的檢索結果界面:

在標題下面,我們可以看到Gene ID: 7157 這一行,7157就是我們耳熟能詳的Entrez Gene ID啦,它是目前國際上最權威的Gene ID編號

Entrez Gene ID 又可以稱爲Entrez ID ,也是我們通常所說的Gene ID 。它是來源於Entrez Gene數據庫的編號系統。每個Gene數據庫中的記錄數據都會被分配一個唯一的Gene ID編號。 編號的格式就是一串數字,例如:7157,2131這樣的。同時,Gene ID的數字並不是連續分配的(也就是說有間隔)。 Gene ID的分配規則:Gene ID通常被分配給RefSeq數據庫中註釋爲基因的對象,當然,並不是所有的Gene ID都基於RefSeq,如果RefSeq數據庫中沒有記錄,也可以指定GeneID。 需要注意的是,Gene ID編號的命名是具有物種特異性的(例如,編碼人的肌營養不良蛋白的基因和編碼小鼠肌營養不良蛋白的基因,它們倆的Gene ID在Gene數據庫中編號是不一樣的,分別是:1756 和 13405)。

關於Entrez Gene數據庫,我們還可以來看看一個統計數字

Entrez Gene 中目前一共有61118條人類的Gene ID記錄(記錄包括功能基因,假基因,預測基因等等),68389條小鼠Gene ID的記錄,可以說是非常全面了。

同時,Gene數據庫中的ID記錄是每日更新一次,可以保證我們每天看到的Gene ID記錄都是最新的啦

Entrez Gene數據庫現在既然這麼厲害,那它最初的時候是什麼模樣呢,聊聊歷史吧

Gene數據庫首次公開是在1999年,那時它的名字還不叫Gene,而是叫做LocusLink(曾用名,現已不再使用)。當時剛剛發表的LocusLink只包含了人類這一個物種的數據信息,而且只有不多於9000條的記錄。LocusLink的外鏈數據庫也只有dbSNP, OMIM, RefSeq, GenBank, 和UniGene。(見下圖)

而到2003年,Entrez Gene數據庫發佈,Gene數據庫的數據已經包含了10個物種,195000條記錄,外鏈數據庫也增加了許多,包括dbSNP, Ensembl, the HUGO Gene Nomenclature Committee (HGNC), GEO, Map Viewer等等。至今,隨着生物大數據的爆發式增長,Gene數據庫包含的數據記錄與外鏈數據庫也越來越多,已經成爲生信工作者必不可少的工具之一。

可見,我們的Enrez Gene數據庫的發展也是很迅速噠! 瞭解完Entrez Gene之後,我們再接着往下看,出現了Summary這一欄,首先映入眼簾的是三行

  • Official Symbol:TP53 provided by HGNC
  • Official Full Name:tumor protein p53 provided by HGNC
  • Primary source HGNC:HGNC:11998

不約而同,這三行的內容來源均是HGNC,什麼是HGNC呢?


人類基因命名委員會-HGNC

人類中大多數基因的命名,是由HGNC(HUGO Gene Nomenclature Committee,人類基因命名委員會)來完成的。

HGNC(HUGO Gene Nomenclature Committee)即人類基因命名委員會,是由美國國家人類基因組研究所(NHGRI)和英國惠康信託基金(Wellcome Trust)共同出資成立的非盈利機構。 早在二十世紀60年代的時候,科學家們就意識到基因規範命名的重要性。於是1979年,在愛丁堡的人類基因組會議(HGM)上,Phyllis J. McAlpine博士所組成的命名委員會首次提出了人類基因命名規範。2007年9月,HGNC搬遷到歐洲生物信息學研究所(EBI)。目前,HGNC可以說是國際上非常權威的人類基因命名組織了 目前,HGNC已經批准了超過41500個Gene Symbol ,其中超過19190個基因屬於蛋白質編碼基因,超過 7300個基因屬於非編碼RNA的基因,同時HGNC還爲假基因以及基因組特徵命名。HGNC也允許個人在遵循命名規範的前提下,向他們提交Gene Symbol的命名。

所以,剛纔我們看到的Official Symbol(Gene Symbol),Official Full Name,HGNC:ID的含義分別是:

HUGO Gene Symbol:HUGO Gene Symbol(也叫做HGNC Symbol,即基因符號)是HGNC組織對基因進行命名描述的一個縮寫標識符(如:TP53),這些基因符號都是唯一的。 Gene Name:Gene Name是經過HGNC批准的全基因名稱;對應於上面批准的符號(Gene Symbol)。例如TP53對應的Gene Name就是:tumor protein p53 。 HGNC ID:HGNC ID是HGNC數據庫分配的基因編號,每一個標準的Symbol都有對應的HGNC ID 。我們可以用這個編號,在HGNC數據庫中搜索相關的基因。例如:HGNC:11998 有時候HGNC會對一些已經命名過的基因進行重新審查和重新命名,以確保新的基因命名在描述基因功能方面更加的準確。當一個基因被HGNC分配了新的Gene Symbol時,它之前的命名,會被當作同義詞繼續使用,所以一般建議使用HGNC ID而不是HGNC Symbol來作爲我們處理數據中的唯一標識符

同時,需要明確的是,因爲HGNC只對人類基因進行命名,而且並不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ,Entrez Gene數據庫中的Official symbol就會變成Gene Symbol,並且Gene Symbol的編號會變成LOC前綴+Entrez ID,例如:LOC4333818

關於基因命名的組織委員會: 除了人類之外,對於一些典型的模式物種而言,也有相關的命名委員會。小鼠(mouse)的基因命名是來源於MGNC(可訪問MGI數據庫),大鼠(rat)基因命名來源於RGNC(可訪問RGD數據庫),斑馬魚的基因命名來源於ZFIN。還有一些其它物種的基因命名,基本就來源於NCBI的Gene數據庫和Uniprot數據庫。如果有些基因這些數據庫裏都沒有命名,那麼一般會直接從一些典型的模式物種(例如小鼠,斑馬魚等)的同源基因命名中引進。


瞭解完HGNC之後,回到剛纔的話題,在TP53的檢索結果接着向下看,會看到See related這一行,它提供了和TP53這個基因相關的外鏈數據庫的連接。即Ensembl ,MIM以及Vega 。

Ensembl:ENSG00000141510 即Ensembl數據庫的ID編號,MIM:191170是來源於OMIM數據庫(Online Mendelian Inheritance in Man ,人類孟德爾遺傳在線數據庫)的編號。Vega:OTTHUMG00000162125來自Vega數據庫(Vertebrate Genome Annotation,脊椎動物基因組註釋 ) 其中,Ensembl ID可以說是非常常見了,基本做生信的人都要接觸。所以,讓我們來詳細瞭解一下Ensembl數據庫!


Ensembl計劃

首先看看Ensembl是什麼

Ensembl基因組數據庫項目是歐洲生物信息研究所和Wellcome Trust Sanger研究所之間的一個聯合科學項目,該項目於1999年啓動,以應對即將完成的人類基因組計劃。Ensembl旨在爲遺傳學家,分子生物學家和其他研究我們自己的物種和其他脊椎動物和模式生物的基因組的研究人員提供集中資源。Ensembl是用於檢索基因組註釋信息的幾種衆所周知的基因組瀏覽器之一。 同時,需要注意的是,Ensembl中的基因組註釋由兩部分組成:計算機自動註釋(例如全基因組的轉錄本註釋)以及人工註釋。 人工註釋主要針對選定的物種(如:人類,小鼠,斑馬魚等等)。人工註釋由Havana(Human and Vertebrate Analysis and Annotation)小組來完成。(我們在gtf註釋文件中看到的HAVANA指的就是他們!HAVANA小組最開始是在Sanger研究所,2017年的時候遷往EBI了)

提到Ensembl,還有2個大名鼎鼎的計劃也不得不提!那就是ENCODE和GENCODE

Ensembl與ENCODE以及GENCODE計劃之間的關係 Ensembl是ENCODE計劃的子項目。而GENCODE計劃(由Sanger研究所維護)則是ENCODE項目的衍生品,它的目標是爲ENCODE項目提供可用的人類基因組和小鼠基因組註釋。Ensembl在ENCODE計劃中的作用是,爲人類基因組的組裝提供計算機的自動註釋信息,並且把這些自動註釋的信息和來自HAVANA的人工註釋信息進行合併。GENCODE中的人類和小鼠的基因組註釋和Ensembl數據庫是同步發行的。 關於GENCODE的詳細介紹,可以看本文最後的拓展閱讀。

OK,瞭解完Ensembl數據庫是做什麼的之後,我們就可以使用Ensembl數據庫來檢索感興趣的基因在基因組上的信息了。 我們在Ensembl中進行檢索主要使用的是Ensembl Stable ID(也就是常說的Ensembl ID),例如:ENSG00000141510 。Ensembl ID也是有自己的命名規則的

Ensembl Stable ID的定義,格式,版本

Ensembl Stable ID是來源於Ensembl數據庫的編號系統。它的命名由三部分組成:

[species prefix][feature type prefix][a unique eleven digit number]

[根據不同物種設置的前綴][數據所指類型【例如,蛋白質,基因】][一段特定的數字]

所以一個小鼠的基因在Ensmebl中的編號命名就應該是:ENSMUSG########### 。有時可以有不同的版本, 則在 Ensembl ID 後面加上小數點和版本號(例如:ENSG00000223972.5)。

Ensembl Stable ID版本號的更替是遵循一定規則的,具體可看:https://asia.ensembl.org/info/genome/stable_ids/index.html

https://asia.ensembl.org/info/genome/compara/stable_ids.html

常用的物種前綴

前綴

物種學名

ENSMUS

Mus musculus (Mouse)

ENSRNO

Rattus norvegicus (Rat)

ENSMZE

Maylandia zebra (Zebra mbuna)

MGP_LPJ_

Mus musculus (Mouse LP/J)

FB

Drosophila melanogaster (Fruitfly)

ENS

Homo sapiens (Human)

其它

……

類型前綴

前綴

類型

E

exon

FM

Ensembl protein family

G

gene

GT

gene tree

P

protein

R

regulatory feature

T

transcript

關於Ensembl,還有一點很重要,那就是它的數據是定期更新的!

Ensembl的數據更新 Ensembl的數據大概2-3個月會更新一次,每次發佈不同的版本的時候或者有什麼計劃安排,Ensembl都會在他們的博客或者Face-book,Twitter上發佈消息(牆內的同學可以訪問博客)。每次數據更新的範圍涵蓋新物種、新的基因集註釋、新的變異數據等等。 到目前爲止Ensembl的數據版本已經發布到94版了(2018年10月)

如果想了解詳細的版本信息和不同版本的數據可以訪問: http://asia.ensembl.org/info/website/archives/index.html ftp://ftp.ensembl.org/pub/

既然數據更新了,那就有一個非常重要的問題,存儲在Ensembl數據庫中的Ensembl Stable ID是否會發生變動? OK,畢竟是大牛們做的項目,他們早就替我們想好啦。 Ensembl Stable ID 名副其實的“Stable”,一旦被分配之後,是儘可能的保持穩定不更改的。但是也有不穩定的情況存在:

一般情況下,如果某個基因數據發生一些小的改動,(例如某個基因對應的轉錄本信息發生變化),Ensembl Stable ID是不會變動的。但是Stable ID後面的Version會變化,就是在Ensembl ID 後面加上小數點和版本號。比如說:ENSG00000223972.5 。 不一般的情況下,例如基因組組裝序列的一些改變較大,或者基因組註釋的更新影響了某個基因的整體模式。這時,我們的Ensembl纔會分配新的Ensembl Stable ID啦! 目前蛋白質家族的ID(fam),Ensembl EST基因的ID(ENSESTG)和 Genscan的ID (GENSCAN) 都是不穩定的。所以如果有小夥伴用了這些數據的Ensembl ID要注意保持這些ID的實時更新喔!

如果我們想看自己感興趣的Gene在Ensembl中是否發生過ID變動,我們應該怎麼做呢? OK,Ensembl是非常全面噠!

ID歷史版本轉換 Ensembl非常貼心的爲我們提供了ID History Converter工具幫助使用者進行ID的新舊版本轉換。有些數據的record裏面,會有ID History一欄,幫助我們查看ID目前的版本和歷史版本。例如:ENSG00000139618 的記錄裏就有


好啦,關於Ensembl和Ensembl ID的介紹就到這裏,瞭解完Ensembl之後,我們接着向下看,發現有一個RefSeq status REVIEWED。

RefSeq status用於指明這個基因記錄所對應的狀態,REVIEWED說明它已經被專家審覈。來看看RefSeq數據庫。

NCBI非冗餘序列數據庫-RefSeq

RefSeq數據庫,即RefSeq參考序列數據庫,是美國國家生物信息技術中心(NCBI)提供的具有生物意義上的非冗餘的基因和蛋白質等片段序列的數據庫。 RefSeq的序列數據來源於大名鼎鼎的INSDC(International Nucleotide Sequence Database Collaboration,國際核苷酸序列數據庫聯盟),所以RefSeq非常權威和全面!

要知道現在是大數據時代,有非常多的數據,很多冗餘的信息是沒有用處的,而RefSeq能提供非冗餘的序列,真的是非常有用了!我們來看看怎麼在RefSeq中進行檢索吧。

RefSeq 有一套特殊的 Accesion Number(就是我們通常用的RefSeq ID)讓我們來進行檢索。RefSeq數據庫中的Accession number和GenBank數據庫中的AC號格式不同。

RefSeq數據庫Accession number的格式以兩個字母開頭,後跟一個下劃線和六個或多個數字開頭,例如: NT_123456:constructed genomic contigs NM_123456:mRNAs NP_123456:proteins NC_123456:chromosomes

ID的常見前綴

前綴

類型

說明

AC_

Genomic

Complete genomic molecule, usually alternate assembly

NC_

Genomic

Complete genomic molecule, usually reference assembly

NG_

Genomic

Incomplete genomic region

NW_

Genomic

Contig or scaffold, primarily WGS

NZ_

Genomic

Complete genomes and unfinished WGS data

NM_

mRNA

Protein-coding transcripts (usually curated)

NR_

RNA

Non-protein-coding transcripts

NP_

Protein

Associated with an NM_ or NC_ accession

其它

……

……

所以瞭解這些之後,我們就可以快樂的暢遊在RefSeq的序列數據中了!

同時,RefSeq的數據是每日更新的,所以大大的保障了我們科研的效率和及時性!對於人類的RefSeq而言,每條RefSeq後面都會有一個COMMENT,COMMENT會顯示這條RefSeq的狀態。

主要有這些狀態:MODEL(說明是自動被NCBI提供的,沒有被審覈過),INFERRED(由序列分析預測得到,沒有經過實驗驗證),PREDICTED(沒有經過人工審覈),PROVISIONAL,REVIEWED(已被人工審覈),VALIDATED(已經過初步審查,但還沒有過最後審查)以及WGS。 所以我們在用RefSeq的序列時也要注意看看它的Status喲,看它是否是經過審覈的!

瞭解完RefSeq之後,我們也來看看其它著名的核酸序列數據庫吧!


NCBI核酸序列數據庫-GenBank

談到核酸序列數據庫,就不得不提NCBI的GenBank了

GenBank是由美國國立生物技術信息中心(NCBI)維護的一級核酸序列數據庫。GenBank數據庫中也包括部分蛋白質序列,源於核酸序列註釋結果。數據每天更新,每年發行六版release 。GenBank,EMBL和DDBJ同時組成了國際核苷酸序列數據庫聯盟,讓核酸的序列信息得以共享,三大數據庫的數據資源都是每天進行更新和交換。

GenBank的數據來源渠道主要有三種:

1. 科研工作者提交的序列數據

2.與其他數據機構協作交換的數據

3.其他從測序中心獲得的高通量數據。

再來看一組數字

GenBank的數據來源於260,000多個物種 GenBank中約有13%的序列來自於人類 數據量排名第一的物種是Homo sapiens(人類),其次是小鼠

目前GenBank的數據已經發布到第227版本(截至2018年8月)

可見我們的科研工作者對人類方面的研究是非常多的!所以數據很多。 GenBank中既然有這麼多數據,如果我們想在GenBank中進行序列檢索,應該怎麼做呢?

可以有兩種方式在GenBank中進行檢索: (1)泛式檢索:例如直接輸入感興趣序列所在基因的名稱或者提交作者姓名等 (2)特殊標識符檢索:即GI號和Genbank的Accession number。

第一種檢索方式非常簡單,這裏就不再贅述。需要我們談談的是,第二種檢索方式中的GI號和Accession number(註冊號/登陸號)是什麼含義。

GI number: GI號(GenInfo Identifier,有時用小寫字母“gi”表示)是核苷酸序列的序列標識號,由一系列簡單的數字組成。它們被連續分配給NCBI處理的每個序列記錄,如果一個序列以任何方式改變,那麼一個新的GI號將被分配。需要注意的是,GI號和序列的Accession number沒有什麼關聯。 GenBank-Accession Number:Accession Number又叫做註冊號/登錄號,像GI號一樣,它也是唯一的序列標識符。但是與GI號不同的是,AC號一旦分配就不會改變了。一個AC號通常是字母和數字的組合,例如一個字母后跟5位數(如U12345)或兩個字母后跟6位數(如AF123456)。

好啦,所以GI號和Accession number都是GenBank數據庫中對某條序列進行標識的標識符。這裏呢,還需要注意兩個概念,那就是GI號和Accession Number.Version.我們的GI號和Accession Number.Version都是可以用來追蹤一條序列的演化的。那麼這兩種標識符之間又有什麼關係呢?

GI號和Accession Number.Version NCBI的GI號和Accesion Number.Version是兩種不同系統的標識符,它們是平行使用的。當序列的數據改變或升級時,將會分配一個新的GI number。Accession number主體編號不會改變,但是它所對應的版本(Accession number.Version)會隨着增加。 如NM_008261.1–>NM_008261.2(GI number:6680238–>46575915)。

此外,關於GI號的使用,還有一段不得不說的歷史。。。來看看吧:

GI(GenInfo Identifier)號是NCBI很早就用來作爲序列標識符的編號系統。但是國際核酸序列數據庫聯盟(GenBank、EMBL和DDBJ)剛成立時並沒有統一的使用GI號,而是使用它們各自數據庫內部的編號來追蹤序列。後來,國際核酸序列數據庫聯盟(GenBank、EMBL和DDBJ)決定統一使用一個編號來唯一標識序列,於是它們創造了NID(核酸序列標識號)和PID(蛋白質序列標識號)。直到1999年12月,NID和PID的叫法才中斷使用,對序列的唯一標識符又恢復成我們現在所熟知的GI號。 同時,1992年的時候國際核苷酸序列數據庫聯盟(GenBank、EMBL和DDBJ)開始啓用Accession Number.Version系統,確保了國際的通用性,並且對序列的標識性與追蹤性更加地方便,Accession Number.Version與GI number平行運行。 想了解更多詳細的GI歷史以及GI和Accession number.version的區別可見:https://www.ncbi.nlm.nih.gov/genbank/sequenceids/


好啦,到此爲止,我們就學習完GenBank數據庫了。學完核酸序列數據庫之後,下面,我們再來談談蛋白質序列數據庫-Uniprot。


蛋白質序列數據庫-Uniprot

UniProt是Universal Protein 的英文縮寫,是一級蛋白質序列數據庫。 Uniprot整合了三大數據庫(Swiss-Prot,TrEMBL和PIR-PSD)的數據,是目前國際上最廣泛使用的蛋白質數據庫(沒有之一)。

大多數情況,我們檢索蛋白質序列信息,都是去的UniprotKB,所以掌握UniprotKB的搜索技巧就很重要啦!

瞭解一下UniprotKB

Uniprot中的UniprotKB(UniProt Knowledgebase)是收集蛋白質功能信息的中心樞紐,具有準確,一致,豐富的註釋。UniprotKB主要由兩部分組成:

  • UniProtKB/Swiss-Prot (包含檢查過的、手工註釋的條目)
  • UniProtKB/TrEMBL (包含未校驗的、自動註釋的條目)

由於UniProtKB/TrEMBL中的條目是由計算機自動註釋的,所以我們可以看到UniProtKB/TrEMBL的數據數量遠遠超過了UniProtKB/Swiss-Prot中的數據數量。

瞭解完基礎背景知識之後,我們來看看UniprotKB中的編號ID是什麼樣的吧

UniprotKB中主要有兩種編號系統:Accession number和Entry name 。 由於UniprotKB包括了Swiss-Prot(人工註釋)和TrEMBL(計算機註釋),所以entry name有兩種命名方式:UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names 。 UniprotKB/Swiss-Prot entry name UniProt 中錄入的數據都被分配了一個唯一的 Entry name。UniprotKB/Swiss-Prot Entry name可以由多達11個的大寫字母+數字組成。它的命名方式可以表示爲X_Y的形式。X是蛋白質或基因名稱的縮寫(並不是標準的Gene name),最多可以由五個字符組成。“_”表示下劃線。Y代表物種的編碼,最多也是隻能由五個字符組成(通常由屬名的前三個字母和種名的前兩個字母組成)。 例如: PURQ_ZYMMO INS_HUMAN

UniprotKB/TrEMBL entry names

UniProtKB/TrEMBL的Entry name 由多達16個大寫字母數字字符組成,其命名形式類似於UniProtKB/Swiss-Prot,也是X_Y的形式。其中,X與登錄號(Accession number)相同,由6或10個字母數字字符組成。“_”代表下劃線。Y代表物種的編碼,最多也是隻能由五個字符組成。因爲TrEMBL中的蛋白質數據太多,不可能所有的條目都人工進行物種編碼。所以TrEMBL啓用了“虛擬編碼”來對物種進行分類。這些虛擬的物種編碼都是以數字9爲前綴,舉例來說,如下:

Mnemomnic code

Taxonomic identifier

Scope

9BACT

2

Bacteria

9CNID

6073

Cnidaria

9FUNG

4751

Fungi

9REOV

10880

Reoviridae

Accession Number UniprotKB中的每個條目都會分配一個唯一的Accession Number。accession number不會隨數據的更新而變化,只有數據被刪除的時候,accession number纔會被刪除。所以它是非常穩定的標識符,相當於數據庫中的主鍵。 Uniprot的登錄號(accession number)由6個或者10個字母數字的組合構成。構成方式是: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z]0-9{1,2} 例如:A2BC19, P12345, A0A022YWF9

剛纔我們看到了UniprotKB有兩種編號系統,那麼這兩種編號之間有什麼關係和區別呢?

Entry name與Accession Number的關係和區別 提交數據到UniprotKB之後,每個數據都會被分配一個Accession Number(AC號),這個AC號是唯一的。爲了減少數據冗餘,如果將UniprotKB中的多個數據合併成一個,AC號仍然是保持不變的。 Entry name也是每個數據唯一具有的標識符,它可以展示數據的生物學信息。但是Entry name並不是穩定存在的,比如說我們要將TrEMBL中的數據轉入Swiss-Prot,那麼我們需要變更數據的Entry name,此時同一個數據的Entry name就發生了改變,但是它的AC號仍然保持不變。這就是他們之間的區別! 還有需要注意的是,一個數據可能有兩個或者多個accession number 。 原因主要有兩個: 1)當合並兩個或多個數據條目時,保留所有數據條目的登錄號。第一個AC編號稱爲“主要AC編號”,其他編號稱爲“次要AC編號”。編號排序是按字母數字順序排列的。 2)如果現有數據條目被分割爲兩個或多個數據條目(“拆分”),新的“主要”登錄號將歸屬於所有分裂的條目,而所有原始登錄號將保留爲“次要”登錄號。例如:P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次級登錄號均爲P29358 。

所以,UniprotKB建議,我們最好使用數據的主登錄號作爲數據引用的方式(不是Entry name ,也不是二級登錄號),因爲主登錄號是唯一併且穩定存在的數據標識符。

瞭解完AC號和Entry name之後,以UniProtKB/Swiss-Prot爲例,我們來看看一組數字

UniProtKB/Swiss-Prot數據小統計 截至2018年9月,UniProtKB/Swiss-Prot中共有558,590個Entry name,可見Entry name數量隨時間是迅猛增長的

在UniProtKB/Swiss-Prot的數據中,植物佔很大一部分,人類數據也佔比很多!

蛋白質序列長度分佈在0-500左右,最短的蛋白質序列長度只包含2個氨基酸,最長的蛋白質序列包含35,213個氨基酸

截至2018年9月,UniProtKB/Swiss-Prot 包含 558590條註釋條目,UniProtKB/TrEMBL包含126780198條註釋條目。


Uniprot確實很厲害!這麼多數據,以後我們要是找蛋白質信息,都去Uniprot啦! 數據庫和ID介紹到這裏,基本就快結束啦,最後,我們再學習學習GEO


GEO數據庫

基因表達數據庫(Gene Expression Omnibus,GEO)隸屬於美國國立衛生研究院的NCBI。是當今最大、最全面的公共基因表達數據資源。GEO數據庫的數據由兩部分構成: 1. 用戶提交的原始數據:

  • GEO Platform (GPL)
  • GEO Sample (GSM)
  • GEO Series (GSE)

其中,GSE = GPL(Platform) + GSA(Sample) 2. GEO數據庫整理後的數據:Data set ,Profile

下面我們簡單介紹一下GPL,GSM和GSE

GEO Platform(GPL): 平臺數據包含陣列或序列以及陣列平臺的簡要描述。每個平臺都分配了一個特有的登錄號用於檢索(格式是:GPL+數字編號),例如:平臺GPL341 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL341 GEO Sample (GSM) : 樣本數據描述了每個樣本的操作環境,處理方法和分離出的各個成分的丰度測量。每個樣本都分配了一個特有的登錄號用於檢索(格式是:GSM+數字編號)例如:樣本GSM12793 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM12793 GEO Series (GSE) : GSE=GPL(Platform)+GSA(Sample) 系列數據將一系列相關的樣本聯繫起來,提供了整個研究的關注點和描述,也包含了描述提取數據、簡要結論和分析的表格。每個系列都分配了一個特有的登錄號用於檢索(格式是:GSE+數字編號)例如:系列GSE830 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE830

看到這裏,我們對主流生信數據庫的ID規則和數據庫的基本情況也就有所瞭解啦,之後想要進階還需要不斷學習和努力。關於ID轉換的部分本文沒有講述,其實這也是一個大坑,等未來再繼續填坑!


拓展閱讀-GENCODE計劃

什麼是GENCODE計劃呢,我們首先來看一段歷史

2003年9月,美國國家人類基因組研究所(NHGRI)發起了一個名爲ENCODE((DNA元件百科全書))的公共研究計劃。項目的目標是識別人類基因組序列中的所有功能元件。GENCODE計劃屬於ENCODE計劃的衍生品,由Sanger研究所進行維護。2003年的時候GENCODE獲得了第一批資助,當時GENCODE的目標是對人類基因組中的功能元件進行註釋。GENCODE小組在2013年時獲得了第二次資助,以繼續他們的人類基因組註釋工作,並將GENCODE擴展到包括小鼠基因組註釋。2017年的時候GENCODE又獲得了一批資助,用以完成小鼠基因和人類基因組功能元件的註釋工作。

所以GENCODE計劃目前的主要工作就是對人類和小鼠的基因組進行功能元件註釋。

上文介紹Ensembl的時候也提到過,GENCODE的註釋和Ensembl註釋的關係是:GENCODE註釋來源於havana團隊人工完成的基因註釋和Ensembl計算機自動完成的基因註釋的合併。所以我們查看gtf文件的時候,會發現有“HAVANA"和"ENSEMBL"這兩個名稱交替出現。HAVANA表示註釋來自於人工。ENSEMBL表示註釋來源於計算機程序的自動註釋。

從GENCODE提供的信息來看,人類一共有58721個基因(包括假基因),目前大概有19940個蛋白質編碼基因,16066個長非編碼RNA的基因,等等。?

GENCODE中,小鼠一共有54446,其中有21969個蛋白質編碼基因(比人類多),12840個長非編碼RNA的基因,等等。?

GENCODE的註釋文件的發行版本和Ensembl是一致的,目前GENCODE中的人類gtf註釋已經發布到version 29了,小鼠是發佈到version 19版本了

更多想要了解的,可以點擊:https://www.gencodegenes.org/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章