最近在做virus detection
用到NCBI genebank的病毒庫,發現gene bank refseq裏面編號很多,貼在下面,有助記憶。
genebank的病毒參考序列庫,最近一次更新去掉了GI號,只保留NC或AC號,可以看出全部是完整基因組序列。
另外, 該序列庫是非冗餘庫non-redundant,總共只有9556個序列,其中NC 9533個,AC 23個,用下面grep統計的
grep ">" /path/viral.fa |grep -v ">NC"|wc -l
我關心的HBV只有一個序列,而HCV有7個(各個基因型都有),這一版終於把HEV補上了,小小進步。
看來我要改造一下這個參考庫了,至少要加上所有的HBV基因型。
參考庫當然是fa格式了,如下圖,沒有序列長度