基因組生物信息學實驗(三):基因組模擬測序(1)

基因組模擬測序(1):主線的內容

step1:方法
通過 NCBI 的子庫 Genome 獲得 YJM1386 菌株的基因組測序數據。
使用 art 系列軟件中的 art_illumina 程序,對下載基因組序列進行
測序平臺爲 Hiseq2000 的全基因組測序模擬 5 次,
參數設置見下表。統計模擬結果,計算理論覆蓋度(m)、丟失率和覆蓋率。

-l -f -m -s
第一次 100 2 150 10
第二次 100 4 150 10
第三次 100 6 150 10
第四次 100 8 150 10
第五次 100 10 150 10

step2:涉及的腳本

#其它參數保持一致,修改 f 值做 5 次測序模擬,f=2,4,6,8,10
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 2 -m 150 -s 10 -o ./result/Sc_paired_dat_a
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 4 -m 150 -s 10 -o ./result/Sc_paired_dat_b
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 6 -m 150 -s 10 -o ./result/Sc_paired_dat_c
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 8 -m 150 -s 10 -o ./result/Sc_paired_dat_d
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 10 -m 150 -s 10 -o ./result/Sc_paired_dat_e
#查看每個測序結果對應的 sam 文件的行數(在 sam 文件的文件夾下)
wc -l Sc_paired_dat_a.sam
wc -l Sc_paired_dat_b.sam
wc -l Sc_paired_dat_c.sam
wc -l Sc_paired_dat_d.sam
wc -l Sc_paired_dat_e.sam

step3:結果
假設,基因組大小爲(total length): 12.1571 Mb,測序鹼基總長度爲1.7G。
由此可知:
覆蓋度(m值)= 1.7G/ 12.1571 Mb = 1.71000/12.1571 ≈140
丟失率(e-m) = 1.58
10-61 ≈ 0%
覆蓋率(1-e-m)≈ 100%

n 鹼基總長度(Mb) 理論覆蓋度 基因組大小(Mb) 實際覆蓋度 丟失率 覆蓋率
2518312 25.1832 2 12.6155 1.996 1.36*e^-1 86.41%
503762 50.3762 4 12.6155 3.993 1.84*e^-2 98.16%
755600 75.5600 6 12.6155 5.989 2.51*e^-3 99.75%
1259364 100.7472 8 12.6155 7.986 3.40*e^-4 99.97%
第五次 125.9364 10 12.6155 9.983 4.54*e^-5 99.99%

註釋:n 代表 sam 文件中去掉註釋行的行數。理論覆蓋度(m)=鹼基總長度
/基因組大小;鹼基總長度=雙端數據大小(l)*(sam 文件行數-註釋行數)

step4:結論
隨着 f 值的增大,覆蓋率也隨之增大。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章