NCBI genebank refseq 編號意義

最近在做virus detection

用到NCBI genebank的病毒庫,發現gene bank refseq裏面編號很多,貼在下面,有助記憶。

genebank的病毒參考序列庫,最近一次更新去掉了GI號,只保留NC或AC號,可以看出全部是完整基因組序列。

另外, 該序列庫是非冗餘庫non-redundant,總共只有9556個序列,其中NC 9533個,AC 23個,用下面grep統計的

grep ">" /path/viral.fa |grep -v ">NC"|wc -l




我關心的HBV只有一個序列,而HCV有7個(各個基因型都有),這一版終於把HEV補上了,小小進步。

看來我要改造一下這個參考庫了,至少要加上所有的HBV基因型。

參考庫當然是fa格式了,如下圖,沒有序列長度



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章