jellyfish+GenomeScope評估基因組 大小和雜合度
## 計算kmer 分佈
jellyfish count -t 24 -C -m 17 -s 4G -o kmer17.out 1.clean.fq 2.clean.fq
-m參數指定kmer的長度
-t指定並行的線程數
-s指定內存中hash的大小
-o 默認將結果輸出到mer_counts.jf,重定向使用-o參數
-C --cannonical表示規範化
### 生成kmer 統計表;第一列爲kmer,第二列爲該kmer頻數
jellyfish dump -c -t kmer17.out -L 2 > kmer17.fasta
-L 用來指定過濾掉的最低頻率
-U 用來制定過濾掉的最高頻率。
## 統計kmer頻數分佈
jellyfish histo kmer17.out -o kmer17.histo
data =read.table("kmer17.histo",header = F, sep = " ",stringsAsFactors = F)
ggplot(data, aes(x=V1,y=V2)) +
geom_line() +
theme_bw()
基因組越大,雜合度也大,重複片段越大,該物種的組裝難度就越大。基因組越大,雜合度也大,重複片段越大,該物種的組裝難度就越大。
git clone https://github.com/schatzlab/genomescope
script genomescope.R kmer17.histo 17 150 test
第一個參數 kmer17.histo是jellyfish軟件產生的kmer頻數分佈數據;
第二個參數 17 代表kmer的長度;
第三個參數 150代表序列讀長
第四個參數test 代表輸出目錄的名稱。
參考:https://www.jianshu.com/p/98f5a65be8b2