NCBI:UniGene数据库

基于转录组的数据分析,UniGene是一个不可多得的资源,他将mRNA、EST序列以及功能gene进行整合,很容易明白EST、mRNA等转录组数据与gene的关系,同时通过EST所附带的信息,统计了基因的表达谱。UniGene参考了转录组、基因组的信息,通过多次循环聚类,整合尽可能多的数据,NCBI对UniGene按物种进行定期的更新,发布新的版本。

UniGene的数据可以通过FTP按物种进行下载,包括下列文件:

  • XX.data UniGene记录信息
  • XX.files.cksum 文件统计信息
  • XX.gb_cid_lid UniGene中序列的编号与Genbank AC号的对应的关系
  • XX.info 统计信息,
  • XX.lib.info UniGene与EST的对应关系
  • XX.profiles 表达谱信息,按照组织、时期表达进行分类
  • XX.retired.lst 上个版本UniGene编号与当前编号以及对应序列编号的对应关系
  • XX.seq.all 包括所有涉及到的EST、mRNA序列,FASTA格式(其中有#注释,在每个Unigene开始的时候,使用bioperl的seqIO解析时会报告错误,需要先将其删除)
  • XX.seq.uniq 可以代表Gene的,没有冗余的序列,FAST格式

主要信息保存在XX.data表中,包括unigene_id, title, gene, cytoband, mgi, locuslink, homol, restr_expr, gnm_terminus, scount, express, chromosome, sts, txmap, protsim, sequences, species 等,多个perl库都有对其解析的模块,包括:

但是对于数据解析的完整程度不够理想,好在数据不是特别复杂,根据自己的需要重新使用perl写个解析脚本也不是难事。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章