單菌 | jellyfish && GenomeScope評估基因組

原創

2020-06-16 02:34

jellyfish+GenomeScope評估基因組大小和雜合度

## 計算kmer 分佈
jellyfish count -t 24 -C -m 17 -s 4G -o kmer17.out 1.clean.fq 2.clean.fq

-m參數指定kmer的長度
-t指定並行的線程數
-s指定內存中hash的大小
-o 默認將結果輸出到mer_counts.jf,重定向使用-o參數
-C --cannonical表示規範化


### 生成kmer 統計表;第一列爲kmer,第二列爲該kmer頻數
jellyfish dump  -c -t kmer17.out -L 2 > kmer17.fasta

-L 用來指定過濾掉的最低頻率
-U 用來制定過濾掉的最高頻率。


## 統計kmer頻數分佈
jellyfish histo kmer17.out -o kmer17.histo

data =read.table("kmer17.histo",header = F, sep = " ",stringsAsFactors = F)
ggplot(data, aes(x=V1,y=V2)) +
  geom_line() + 
  theme_bw()

基因組越大，雜合度也大，重複片段越大，該物種的組裝難度就越大。基因組越大，雜合度也大，重複片段越大，該物種的組裝難度就越大。

git clone https://github.com/schatzlab/genomescope
script  genomescope.R  kmer17.histo 17 150 test
第一個參數 kmer17.histo是jellyfish軟件產生的kmer頻數分佈數據；
第二個參數 17 代表kmer的長度；
第三個參數	150代表序列讀長
第四個參數test 代表輸出目錄的名稱。

參考：https://www.jianshu.com/p/98f5a65be8b2

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

單菌 | jellyfish && GenomeScope評估基因組

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

druid數據源 xml配置

python3 | 利用Crypto生成公鑰、私鑰，文本加密、文本解密

R | NbClust聚類分析

R | 參數傳遞函數: getopt()

單菌 | canu && SPAdes 序列拼接

R | R包安裝

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結