基因組模擬測序(1):主線的內容
step1:方法
通過 NCBI 的子庫 Genome 獲得 YJM1386 菌株的基因組測序數據。
使用 art 系列軟件中的 art_illumina 程序,對下載基因組序列進行
測序平臺爲 Hiseq2000 的全基因組測序模擬 5 次,
參數設置見下表。統計模擬結果,計算理論覆蓋度(m)、丟失率和覆蓋率。
-l | -f | -m | -s | |
---|---|---|---|---|
第一次 | 100 | 2 | 150 | 10 |
第二次 | 100 | 4 | 150 | 10 |
第三次 | 100 | 6 | 150 | 10 |
第四次 | 100 | 8 | 150 | 10 |
第五次 | 100 | 10 | 150 | 10 |
step2:涉及的腳本
#其它參數保持一致,修改 f 值做 5 次測序模擬,f=2,4,6,8,10
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 2 -m 150 -s 10 -o ./result/Sc_paired_dat_a
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 4 -m 150 -s 10 -o ./result/Sc_paired_dat_b
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 6 -m 150 -s 10 -o ./result/Sc_paired_dat_c
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 8 -m 150 -s 10 -o ./result/Sc_paired_dat_d
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 10 -m 150 -s 10 -o ./result/Sc_paired_dat_e
#查看每個測序結果對應的 sam 文件的行數(在 sam 文件的文件夾下)
wc -l Sc_paired_dat_a.sam
wc -l Sc_paired_dat_b.sam
wc -l Sc_paired_dat_c.sam
wc -l Sc_paired_dat_d.sam
wc -l Sc_paired_dat_e.sam
step3:結果
假設,基因組大小爲(total length): 12.1571 Mb,測序鹼基總長度爲1.7G。
由此可知:
覆蓋度(m值)= 1.7G/ 12.1571 Mb = 1.71000/12.1571 ≈140
丟失率(e-m) = 1.5810-61 ≈ 0%
覆蓋率(1-e-m)≈ 100%
n | 鹼基總長度(Mb) | 理論覆蓋度 | 基因組大小(Mb) | 實際覆蓋度 | 丟失率 | 覆蓋率 |
---|---|---|---|---|---|---|
2518312 | 25.1832 | 2 | 12.6155 | 1.996 | 1.36*e^-1 | 86.41% |
503762 | 50.3762 | 4 | 12.6155 | 3.993 | 1.84*e^-2 | 98.16% |
755600 | 75.5600 | 6 | 12.6155 | 5.989 | 2.51*e^-3 | 99.75% |
1259364 | 100.7472 | 8 | 12.6155 | 7.986 | 3.40*e^-4 | 99.97% |
第五次 | 125.9364 | 10 | 12.6155 | 9.983 | 4.54*e^-5 | 99.99% |
註釋:n 代表 sam 文件中去掉註釋行的行數。理論覆蓋度(m)=鹼基總長度
/基因組大小;鹼基總長度=雙端數據大小(l)*(sam 文件行數-註釋行數)
step4:結論
隨着 f 值的增大,覆蓋率也隨之增大。