NCBI:Refseq

NCBI的參考序列計劃(RefSeq)將爲中心法則中自然存在的分子,從染色體到mRNA到蛋白提供參考序列標準。RefSeq標準爲人類基因組的功能註解提供一個基礎。它們爲突變分析,基因表達研究,和多態發現提供一個穩定的參考點。

範圍:目前,RefSeq記錄爲下列分子類型和基因組提供:

分子 

登錄格式      

基因組

Complete Genome

NC_######

Archaea, Bacterial, Organelle, Virus, Viroid

完整基因組

NC_###### 

原核生物,細菌,細胞器,病毒,疫苗

Complete Chromosome  

NC_######  

Eukaryote 

完整染色體 

NC_######   

真核生物

Complete Sequence 

NC_######

 Plasmid 

完整序列

NC_######  

質粒

Genomic Contig     

NT_######

Homo sapiens 

基因組Contig    

NT_######

人類

mRNA 

NM_###### 

Limited Vertebrate,Homo sapiens,Musmusculus,Rattus norvegicus

mRNA  

NM_######    

 有限的脊椎動物,人類,小鼠,大鼠。

Protein 

NP_######  

 All of the above 

蛋白 

NP_###### 

所有以上的

脊椎動物mRNA/蛋白構建步驟:

RefSeq記錄通過以下步驟創建:

確定代表不同基因的序列

建立正確的基因名字到登錄號的聯繫

確定完整範圍的可以獲得的序列數據

創建一個新的有以下狀態的參考序列(RefSeq)記錄

預測的

臨時的

臨時的RefSeq記錄被一個生物學家再檢查,他確定一開始的名字到序列的關聯,加上一些包括基因功能概要的信息,更重要的是用其他可獲得的GenBank記錄來更正,重新註解,或擴充序列數據。預測的,臨時的和檢查過的RefSeq記錄通過NCBI Entrez檢索系統,BLAST數據庫,FTP,和LocusLink網站讓公衆獲得。

最近發表的文章

1. Introducing RefSeq and LocusLink: curated human genome resources at the NCBI. Pruitt KD, Katz KS, Sicotte H, Maglott DR Trends Genet. 2000 Jan;16(1):44-47.

2. NCBI's LocusLink and RefSeq Maglott DR, Katz KS, Sicotte H, Pruitt KD Nucleic Acids Res 2000 Jan 1;28(1):126-128

FAQ

什麼是參考序列?

NCBI參考序列計劃提供了校正的序列數據和相關的信息,給同行提供使用的標準。GenBank是一個序列的存儲池,RefSeq數據庫將是一個參考序列的非冗餘集合,包括構建的基因組contig,mRNA,蛋白,和,在未來,整個染色體。RefSeq記錄是有三種可以獲得的狀態:預測的,臨時的和檢查過的。檢查過的記錄代表了我們目前關於一個基因和它的轉錄子的知識的彙編。在檢查的過程中,我們整合了更多的信息,只要是可以獲得,如序列數據,發表物,命名,和特徵註解,都來自於很多GenBank記錄,人類基因組命名委員會,和OMIM。

The initial release of RefSeq records includes human mRNA and protein reference sequences. The current scope is limited to human sequences but other organisms will be added in the future.

最開始的RefSeq記錄版本包括人類mRNA和蛋白參考序列。目前的範圍只侷限於人類序列,但是其他物種的將在未來加入。

我如何引用RefSeq記錄?

引用RefSeq登錄號和LocusID以及RefSeq網頁(http://www.ncbi.nlm.nih.gov/LocusLink

/refseq.html)是恰當地。特定的使用RefSeq網頁的引用格式依據你文章將發表的刊物的編輯方法而定。可以參考這個網站,列出了許多電子文件引用指南:http://www.ifla.org/I/training

/citation/citing.htm。

我如何訪問RefSeq記錄?

RefSeq記錄可以通過各種NCBI資源來訪問,包括:

BLAST   NM_######記錄是在覈苷酸非冗餘數據庫中

        NP_######記錄是在蛋白非冗餘數據庫中

Entrez   NM_######和NT_######記錄是在Entrez核酸中

        NP_######記錄是在Entrez蛋白中。

Entrez基因組部分 NC_######記錄代表完整的基因組,和染色體,完成的和正在進行的,出現在基因組頁面上。

FTP     NM_*和NP_*記錄是在/refseq目錄下;對人類的NT_*記錄可以按染色體數字從/genbank/genomes/H_sapiens/*目錄下下載,當第一次的完整版本建立後還將加到refseq目錄下。將來NC_*記錄將被加入。參考FTP README文件獲得更多的信息。

人類基因組測序 爲人類contigs的NT_######記錄只有在人類基因組測序頁面上通過BLAST查詢可以被圖形的看到,下載,或訪問

LocusLink      LocusLink記錄提供鏈接到NM_######和NP_######記錄。LocusLink可以通過文本條件的RefSeq登錄號被查詢,參見LocusLink FAQ取得查詢技巧。

通過Entrez查詢檢索NM_和NP_ RefSeq記錄:

RefSeq記錄可以被通過不同的Entrez查詢來檢索:

查詢結果樣本

NM_003988                                      一個關於PAX2,isoform c 的RefSeq記錄被返回。

PAX2[Gene Name]                                這返回17記錄包括5個PAX2 RefSeq記錄。

PAX2[Gene Name] AND srcdb_refseq[properties]   這個查詢僅檢索含有5個不同剪切本的PAX2 RefSeq記錄的集合。

srcdb_refseq[prop] AND provisional[all]        這個查詢返回所有臨時的RefSeq記錄集合。

srcdb_refseq[prop] AND biomol_mRNA[prop] NOT provisional[all]  這個查詢返回所有檢查過的RefSeq記錄集合。

確定在BLAST結果中的NM_和NP_ RefSeq記錄:

這個不同的RefSeq登錄號的格式(它們包括一個下劃線)提供一個快捷的指示:這個BLAST結果包括了一個RefSeq記錄。

                                                        Score     E
Sequences producing significant alignments:             (bits)    Value
ref|NM_000014.1|A2M|  Homo sapiens alpha-2-ma...         9073         0.0
^    ^
|     |
|     RefSeq登錄號有一個不同的格式
“ref”表明了RefSeq數據庫

 

什麼是一個RefSeq記錄與其他區別的特點?

RefSeq記錄區別與其他GenBank記錄在:

使用一個特殊的登錄號

顯示來源信息,由RefSeq打頭,在Comment字段的第一行

一致的使用可獲得的官方命名

包括OMIM和LocusLink dbxrefs在基因特性中

蛋白記錄指明RefSeq作爲DBSOURCE

登錄號格式                  序列類型

NT_123456                構建的基因組contigs

NM_123456                 mRNAs

NP_123456                  proteins

NC_123456                 chromosomes

 

我如何在BLAST和Entrez搜索結果中快速的確定RefSeq?

Entrez和BLAST結果同時提供下面格式文本作爲返回結果的一部分:

gi|4557284|ref|NM_000646.1||[4557284]

數據元素註解

Gi “GenBank Identifier”,或序列ID號。“gi|”表示這個序列ID是一個唯一的號碼。任何對這個序列的改變將導致一個新的gi號碼。

4557284是gi號碼。

Ref指明RefSeq是來源數據庫。

NM_000646是RefSeq登錄號。

 

預測的,臨時的,和檢查過的RefSeq記錄有什麼區別?

RefSeq記錄只有在我們有來源序列記錄註解憂完整的編碼區時才做的。如果來自於同一轉錄本的多種序列在本地對齊市被發現,那麼最長的被自動選來作爲開始的記錄。

 

預測的記錄:

預測的RefSeq記錄是來自於那些未知功能的cDNA序列,它們有一個預測的蛋白編碼區。預測的RefSeq記錄是由自動的程序產生,並不被檢查。

一個預測的記錄描述,對於大多數部分,用來產生它們的GenBank記錄中的註解。GenBank來源的記錄與預測的RefSeq記錄最大的不同在於RefSeq條目包括了:一個穩定的LocuID號碼和一個在Comment字段中這個條目是預測的申明。

這個申明出現在預測的RefSeq記錄:

預測的RefSeq:這個參考序列記錄是來源於一個未知功能的cDNA。CDNA的存在提供了這個基因的實驗證據,但是,開放閱讀框的定位和相應的蛋白序列都是預測的並且隨着可獲得的新增序列和實驗數據會改變。

 

臨時的記錄:

臨時的RefSeq記錄還沒有被檢查過。它們是有自動的程序產生的,有一些初步的質量檢測來複查我們提供的“name-to-sequence data”關聯的正確性。

一個臨時的記錄提供了,對大部分來說,用來產生它們的GenBank記錄中的註解。GenBank來源的記錄與臨時的RefSeq記錄最大的不同在於RefSeq條目包括了:命名(基因名字和別名),一個穩定的LocuID號碼,這個基因地OMIM號碼和一個在Comment字段中這個條目是臨時的申明。

這個申明出現在預測的RefSeq記錄:

臨時的RefSeq:這是一個臨時的參考序列記錄,還沒有被工作人員檢查過。最後校正的參考序列記錄將會與這個記錄有所不同。

 

檢查過的記錄:

檢查過的記錄被NCBI的工作人員或合作小組手工檢查過,來創建一個類似於“review article”的序列記錄。

一些在檢查過的記錄中的改變/增強可能包括:

增加DNA序列數據(擴充的UTRs)

去除DNA序列數據(如載體或接頭序列)

增加與這個基因一般相關的文章

增加核酸和蛋白特性

增加概要文本描述基因功能

當一個記錄被檢查,來自於一個以上的記錄的序列數據可能被合併,用來構建一個更完整的mRNA記錄,這輩認爲是合理的。所有在基因組合mRNA的可獲得的序列數據記錄都用了,我們沒有使用EST序列數據。檢查的過程常常包括閱讀原始文獻來交叉證明正確和決定是否有更多的可以擴充UTR的可獲得的數據。轉錄本變化記錄只有在檢查過文獻後和在專家的幫助下才建立。

所有用來產生序列組合的序列都被在RefSeq記錄和LocusLink中報道。我們同時試圖去校正一系列其他代表這個基因GenBank記錄。然而,這個列表不是爲了完全廣泛的,別的相關序列信息將總是在Entrez相關序列(或臨近)記錄中,BLAST搜索結果中可獲得。

查看下面記錄來獲得檢查過的RefSeq記錄的樣本:

Gene Symbol    

LocusID     

Comments

AGL  

178 

關於剪切變體處理的樣本。只有那些有實驗和文獻充分證明的有全長的轉錄本的剪切變體我們才做RefSeq。在提供對那些由於有改變得編碼區而造成的轉錄本變體的RefSeq記錄時有着重的強調。

PAX2  

5076

剪切變體處理的樣本。

MICA

4276 

注意一些參考文獻包括了,這個記錄類似於一個“review aritcle”。一個單獨的文章被註解在來源GenBank記錄的參考文獻字段。

GCKR 

2646

注意在RefSeq 記錄Comment字段的最後一行提供了一個“完整”的指示。如果我們在檢查的過程中決定5’和3’端的mRNA是完整的,那麼這個信息就在RefSeq記錄中提供。

                

一開始的GenBank來源序列是如何選取的?

很多因素用來選擇最開始用於產生臨時mRNA RefSeq記錄的來源序列,但是經常性的那些包括更完整的UTR序列數據的GenBank記錄被原始選中。我們努力使參考序列與已經在被突變科學家使用的標準保持一致。

參考序列記錄不是有意來代表歷史的第一個測序的記錄(儘管對那些只有非常有限可獲得數據的基因,它們可能目前是這樣的)。當臨時RefSeq記錄暫時代表一個單獨的GenBank來源序列,檢查過的RefSeq記錄意圖代表目前知識水平上所有研究團體的貢獻而非一個實驗室。

 

RefSeq NM_xxxxxx和GenBank Afxxxxxx看起來是重複的,哪一個會被去掉?

不,兩個記錄都將繼續被可獲得。RefSeq和GenBank是分開的數據庫,而且兩者都是可以通過Entrez核酸數據集合獲得。

在它們做好時,臨時的RefSeq記錄是通常非常相似於GenBank記錄。但是,當RefSeq記錄被專家檢查過後,新增的序列數據,生物學註解,和參考文獻經常被加入。在那時候,原始的來源GenBank記錄和相應的RefSeq條目可以非常不同——RefSeq條目可以代表一個來自不同實驗室的綜合信息,可以在記錄的Comments或參考文獻字段找到。

RefSeq數據庫被設計成每個人類位點挑出一個代表序列來減少重複,而GenBank是一個序列的數據池,可能對任何給定的基因含有許多記錄。在RefSeq數據庫中唯一的重複可能是不同的剪切變體。Entrez搜索結果可以在性質字段用搜索“srcdb_refseq”被限制到RefSeq條目。

 

爲什麼沒有RefSeq記錄對應所有在LocusLink中可獲得位點?

RefSeq記錄是安以下條件來作的:

被審查的位點代表一個功能基因。有些LocusLink記錄代表的是假基因或染色體區域,而非功能基因。

我們已經確定至少一個代表登陸好對應一個位點。起點可以是mRNA或者基因組序列記錄。

確定的序列有註解的全長編碼區。

我們沒有給假基因和染色體區域作RefSeq mRNA記錄。我們也沒有爲那些只有部分的可獲得的編碼區序列數據的位點做RefSeq記錄。另外,對於某些位點我們還沒有確定合適的代表GenBank登錄號。

我們歡迎來自研究團體的評論,提供給我們那些沒有RefSeq數據的位點的還沒有確定的代表登錄號。我們同樣歡迎對預測的,臨時的,或檢查的記錄的更正,或在沒有列在檢查的記錄中的增加的生物學信息。請給NCBI服務工作部寫信,儘可能詳細,引用LocusID和任何相關的發表文獻。

 

爲什麼RefSeq記錄中的基因符號有時和相關的GenBank記錄中的符號不一樣?

RefSeq和LocusLink是基於NCBI和其他組織合作的校正的數據庫。兩者都使用由人類基因命名委員會定義的術語,並且包括了官方的基因符號和可選的符號。

GenBank是一個公共可獲得的序列記錄備份,由數據發現者提供,它不是一個校正的數據庫。GenBank記錄提交者保有對他們記錄的編輯權並可以決定使用那個基因符號。有些作者同相關物種命名委員會討論,從那裏得到他們測序基因的那個物種的官方基因符號。其他作者可能沒有那麼做。因此,那有可能一個基因的GenBank記錄會使用不同的基於符號。

轉載自:http://www.biosino.org/pages/ncbi-10.htm

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章