NCBI:UniGene數據庫

基於轉錄組的數據分析,UniGene是一個不可多得的資源,他將mRNA、EST序列以及功能gene進行整合,很容易明白EST、mRNA等轉錄組數據與gene的關係,同時通過EST所附帶的信息,統計了基因的表達譜。UniGene參考了轉錄組、基因組的信息,通過多次循環聚類,整合儘可能多的數據,NCBI對UniGene按物種進行定期的更新,發佈新的版本。

UniGene的數據可以通過FTP按物種進行下載,包括下列文件:

  • XX.data UniGene記錄信息
  • XX.files.cksum 文件統計信息
  • XX.gb_cid_lid UniGene中序列的編號與Genbank AC號的對應的關係
  • XX.info 統計信息,
  • XX.lib.info UniGene與EST的對應關係
  • XX.profiles 表達譜信息,按照組織、時期表達進行分類
  • XX.retired.lst 上個版本UniGene編號與當前編號以及對應序列編號的對應關係
  • XX.seq.all 包括所有涉及到的EST、mRNA序列,FASTA格式(其中有#註釋,在每個Unigene開始的時候,使用bioperl的seqIO解析時會報告錯誤,需要先將其刪除)
  • XX.seq.uniq 可以代表Gene的,沒有冗餘的序列,FAST格式

主要信息保存在XX.data表中,包括unigene_id, title, gene, cytoband, mgi, locuslink, homol, restr_expr, gnm_terminus, scount, express, chromosome, sts, txmap, protsim, sequences, species 等,多個perl庫都有對其解析的模塊,包括:

但是對於數據解析的完整程度不夠理想,好在數據不是特別複雜,根據自己的需要重新使用perl寫個解析腳本也不是難事。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章