DISCOVAR的使用說明

1. DISCOVAR簡介
DISCOVAR 是有 ALLPATHS-LG 軟件開發團隊做出來的軟件。主要用於利用 PE 250bp 數據與參考基因組的比對結果,對基因組進行 Variants calling 的同時,進行基因組的組裝。特別是近期公佈的 DISCOVAR de novo (experimental) 還能進行基因組的 De novo 組裝。


2. DISCOVAR的下載和安裝

2.1 DISCOVAR的下載和安裝
此軟件的安裝需要GCC 4.7或以上版本。
  1. $ wget ftp://ftp.broadinstitute.org/pub/crd/Discovar/latest_source_code/LATEST_VERSION.tar.gz
  2. $ tar zxf LATEST_VERSION.tar.gz
  3. $ cd discov*
  4. $ ./configure --prefix=/opt/biosoft/discovar && make -j 4 && make install
  5. $ cd ..
  6. $ rm -rf discov* LATEST_VERSION.tar.gz
複製代碼

2.2 DISCOVAR Denovo的下載和安裝
此軟件的安裝需要GCC 4.7或以上版本,jemalloc 3.6.0或以上版本和samtools(如果使用bam文件,則需要)。
  1. $ wget ftp://ftp.broadinstitute.org/pub/crd/DiscovarExp/LATEST_VERSION.tar.gz
  2. $ tar zxf LATEST_VERSION.tar.gz
  3. $ cd discov*
  4. $ sudo yum install *malloc*
  5. 如果沒有上一步,則在make過程中會提示錯誤“/usr/bin/ld: cannot find -ljemalloc”
  6. $ ./configure --prefix=/opt/biosoft/discovarDenovo && make -j 4 && make install
  7. $ echo 'export MALLOC_PER_THREAD=1' >> ~/.bashrc
  8. 上一步設置用於allowing per-threads memory management,能提高計算性能。
  9. $ cd ..
  10. $ rm -rf discov* LATEST_VERSION.tar.gz
複製代碼

2.3. 軟件使用的注意事項
1. 強烈推薦使用 PCR-free protocol library 數據;數據量推薦爲 ~60x,略大於或小於該值也是 OK 的。
2. 必須使用 Illumina MiSeq 或 HiSeq 2500 測序儀產生的 >=250 bp 長度的 Paired End 數據,並且首尾 reads 要有重疊。如果 PE 250bp 數據,則 Insert Size 長度要爲 400-500 bp(需要注意的是軟件的 manual 中可能寫成 700bp,這是不對的)。
3. 只能使用一個文庫的數據。,不支持輸入 mate paired 數據。
4. DISCOVAR  de novo (experimental) 能進行基因組的 de novo 組裝,支持基因組大小可達 ~3 GB。

3. 軟件的使用
3.1 DISCOVAR 的使用
軟件的輸入文件是 sort 過後的 Bam 文件,一個常用例子:
  1. $ Discovar READS=sample-reads.bam REFERENCE=sample-genome.fasta              \
  2.          REGIONS='10:30892106-30933760' OUT_HEAD=./discovar-variants/assembly\
  3.          TMP=./discovar-variants/tmp
複製代碼
軟件常用參數:
  1. READS (String)
  2. 由逗號分割的一些 bam 文件,或內容爲每行一個bam文件路徑的 list 文件。
  3. REGIONS (String)
  4. 對指定區域進行分析。多個區域則用逗號分割。區域的寫法爲 chr:start-sotp。如果 REGIONS=all,則對所有區域進行分析。
  5. TMP (String)
  6. 指定臨時文件路徑
  7. OUT_HEAD (String)
  8. 輸出文件的前綴路徑
  9. NUM_THREADS (unsigned int) default: 0
  10. 使用的線程數。
  11. REFERENCE (String)
  12. 參考序列 fasta 文件。若提供此文件,則能進行 variant calling,並給出 VCF 文件。
複製代碼

3.2 DISCOVAR de novo (experimental) 的使用軟件的輸入文件是 sort 過後的 Bam 文件。程序在運行的時候會使用最大的線程數進行運算。

  1. $ DiscovarExp --help special
  2. 上述命令用來查看軟件的詳細參數。
  3. $ DiscovarExp READS=sample-reads.bam OUT_DIR=discovarexpOut
  4. 上述是軟件的常用命令。同時,軟件的參數非常少。
  5. $ ls discovarexpOut/a.final/a.lines.fasta
  6. 查看主要結果。
複製代碼

4. DISCOVAR結果4.1 結果表現形式
圖中,每個單獨的箭頭稱爲 edge,這些 edges 代表着序列;從起點到終點,有很多種不同的路徑,稱之爲 lines;上圖中有 4 個 cells,其中 3 個 cells 有 2 個 paths,有 1 個 cell 有 3 個 paths。
這種 multiple paths 可能表示:雜合位點;染色體變異;難以測序的位點等。
4.2 DISCOVAR 結果文件 生成的結果文件位於 discovar-variants/ 文件夾下,主要的結果文件是:
  1. assembly.final.fasta 所有的 edges 序列 (edges overlap by K-1 bases)
  2. assembly.final.fasta0 所有的 edges 序列 (without overlaps)
  3. assembly.final.dot dot格式的組裝圖
  4. assembly.final.variant VCF結果文件
複製代碼

4.3 DISCOVAR de novo 結果文件生成的結果文件位於 discovarexpOut/a.final/ 文件夾下,主要結果文件有:
  1. a.lines.fasta 多個 paths 中僅選擇第一個 path,得到的 lines 序列的 fasta 文件。
  2. a.lines.efasta 標準的 efasta 文件,有所有的 paths 結果。
  3. a.fasta 所有的 edges 序列
  4. a.lines 二進制文件
  5. a.lines.src 上一個文件的文本形式結果

文章來源:測序幫

複製代碼

5. 總結
Discovar 能根據 Illumina 測序數據比對到基因組上的結果來進行基因組 de novo 組裝,得到 edges 序列;若在提供了基因組序列的情況下,還能進行 Vaiants calling。

Discovar de novo (experimental) 能根據 Illumina 測序數據比對到基因組上的結果來進行基因組 de novo 組裝,得到 edges 序列。相比與前者,還能得到 lines 序列,這是比較完整的序列文件。


文章來源:測序幫

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章