單菌 | jellyfish && GenomeScope評估基因組

jellyfish+GenomeScope評估基因組 大小和雜合度

## 計算kmer 分佈
jellyfish count -t 24 -C -m 17 -s 4G -o kmer17.out 1.clean.fq 2.clean.fq

-m參數指定kmer的長度
-t指定並行的線程數
-s指定內存中hash的大小
-o 默認將結果輸出到mer_counts.jf,重定向使用-o參數
-C --cannonical表示規範化


### 生成kmer 統計表;第一列爲kmer,第二列爲該kmer頻數
jellyfish dump  -c -t kmer17.out -L 2 > kmer17.fasta

-L 用來指定過濾掉的最低頻率
-U 用來制定過濾掉的最高頻率。


## 統計kmer頻數分佈
jellyfish histo kmer17.out -o kmer17.histo

data =read.table("kmer17.histo",header = F, sep = " ",stringsAsFactors = F)
ggplot(data, aes(x=V1,y=V2)) +
  geom_line() + 
  theme_bw()

基因組越大,雜合度也大,重複片段越大,該物種的組裝難度就越大。基因組越大,雜合度也大,重複片段越大,該物種的組裝難度就越大。

 

git clone https://github.com/schatzlab/genomescope
script  genomescope.R  kmer17.histo 17 150 test
第一個參數 kmer17.histo是jellyfish軟件產生的kmer頻數分佈數據;
第二個參數 17 代表kmer的長度;
第三個參數	150代表序列讀長
第四個參數test 代表輸出目錄的名稱。

參考:https://www.jianshu.com/p/98f5a65be8b2

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章