Unigene build produce(NCBI)(譯文)

UniGene是從屬於GeneBank的一部分,專門收集非冗餘性的基因來源的clusters數據。每一個UniGene Cluster包含代表單一基因的序列和相關的信息,例如基因表達的組織類型和圖譜定位信息。

除了這些具有具有特徵的序列以外,成千上萬的EST也被收錄在內。因此,相應的,這些收集的資源可以作爲基因發現的來源。現在,許多實驗室研究人員已經利用UniGene進行大規模的基因表達圖譜分析,並且所有這些序列並沒有被用來嘗試產生Contigs或Consensus。這裏存在一些原因解釋爲什麼同屬於某一基因的序列不用來產生一個單一的Contig.

  1. 所有屬於同一基因的剪切變異被放在同一聚類中。

  2. 來從同一cDNA克隆的EST序列,通常都有5’和3’端的序列,但這些序列並不都具有重疊部分。

    UniGene Build Procedure:

    聚類是一個發現同屬於一個大類中的小的亞序列的過程,可通過轉換離散相似值爲序列之間的布爾數學體系聯繫。也就是說,如果序列間的相似性超過某一閾值,則認爲它們具有相關性。UniGene clustering 對於這種相關性分析提供更多的生物學意義上的考慮,聚類過程大致如下:

    1.對序列中的載體、寡核苷酸、重複片段以及線粒體、核糖體等污染序列進行過濾。去除污染序列之後的序列至少要含有100bp的帶有信息的序列纔可作爲候選序列。

    2.Gene links

    從屬於同一基因的序列(包括 mRNA or genome sequences, 完整的 CDS)彼此之間要進行比較,足夠相似的序列被放在一起,形成初始的clusters。

    3.EST to Gene links and EST to EST

    通過megablast,EST與屬於同一基因的序列進行比較,足夠相似的序列 被加入到這些clusters。如果某一個序列,表現爲可同時放在2個不同clusters,但不能把2個clusters聯成一個cluster,這樣的序列必須被剔除。另外,如果在clusters有2個以上的帶有 3’末端標記EST或在Cluster中沒有帶有poly(A)信號的序列,這樣的Clusters必須被拋棄。

    經過這些標準篩選得到的clusters,稱爲錨定clusters 。因爲這些clusters具有3’ 末端序列,並被假定爲已知的。

    4 根據克隆信息設定Cluster的邊界。

    這樣可以確保如果同屬於一個Cluster的5’末端和3’末端ESTs即使中間沒有重疊的片段將它們聯繫起來,也能認定它們屬於同一個cluster。如果在一個Cluster中有兩個3’末端ESTs,那麼就可在相同的克隆中找到兩個5’末端EST,並將其放到同一個Cluster中。並且可以提供Clusters之間合併的信息。

    由於新的序列數據的加入和每星期的不斷更新,因此在UniGene中的resulting Cluster每星期也隨之重新整理,不斷更新。Clusters之間會發生融合,因此使用Cluster的ID作爲標識,是不明智之舉,最好利用GB accession numbers比較安全。

    目前,在UniGene中包括有48,000clustes,Clusters 大部分依據EST序列形成,每一個Cluster代表一個human gene 的轉錄子,當前估計人類基因組約有80,000到100,000基因。利用UniGene Clusters的一個重要的目的是識別新的,非冗餘的候選b表達圖譜,爲產生一個轉錄子圖譜-識別基因組所有的編碼序列。 

     

     UniGene References

    一篇發表在NCBI NEWS(1997年8月)上的文章對clustering算法以及UniGene項目作了介紹,爲我們提供了了解UniGene&Transcript Map project的背景知識(see Schuler et al., 1996, below).

    其它參考文獻:

    Schuler (1997). Pieces of the puzzle: expressed sequence tags and the catalog of human genes. J Mol Med 75(10),694-698. [PubMed]

    Schuler et al. (1996). A gene map of the human genome. Science 274, 540-546. [PubMed] [SCIENCE On-line]

    Boguski & Schuler (1995). ESTablishing a human transcript map. Nature Genetics 10, 369-371. [PubMed] [Full Text]


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章