DISCOVAR的使用說明

1. DISCOVAR簡介
DISCOVAR 是有 ALLPATHS-LG 軟件開發團隊做出來的軟件。主要用於利用 PE 250bp 數據與參考基因組的比對結果，對基因組進行 Variants calling 的同時，進行基因組的組裝。特別是近期公佈的 DISCOVAR de novo (experimental) 還能進行基因組的 De novo 組裝。

2. DISCOVAR的下載和安裝
2.1 DISCOVAR的下載和安裝
此軟件的安裝需要GCC 4.7或以上版本。

$ wget ftp://ftp.broadinstitute.org/pub/crd/Discovar/latest_source_code/LATEST_VERSION.tar.gz
$ tar zxf LATEST_VERSION.tar.gz
$ cd discov*
$ ./configure --prefix=/opt/biosoft/discovar && make -j 4 && make install
$ cd ..
$ rm -rf discov* LATEST_VERSION.tar.gz

複製代碼

2.2 DISCOVAR Denovo的下載和安裝
此軟件的安裝需要GCC 4.7或以上版本，jemalloc 3.6.0或以上版本和samtools（如果使用bam文件，則需要）。

$ wget ftp://ftp.broadinstitute.org/pub/crd/DiscovarExp/LATEST_VERSION.tar.gz
$ tar zxf LATEST_VERSION.tar.gz
$ cd discov*
$ sudo yum install *malloc*
如果沒有上一步，則在make過程中會提示錯誤“/usr/bin/ld: cannot find -ljemalloc”
$ ./configure --prefix=/opt/biosoft/discovarDenovo && make -j 4 && make install
$ echo 'export MALLOC_PER_THREAD=1' >> ~/.bashrc
上一步設置用於allowing per-threads memory management，能提高計算性能。
$ cd ..
$ rm -rf discov* LATEST_VERSION.tar.gz

複製代碼

2.3. 軟件使用的注意事項
1. 強烈推薦使用 PCR-free protocol library 數據；數據量推薦爲 ~60x，略大於或小於該值也是 OK 的。
2. 必須使用 Illumina MiSeq 或 HiSeq 2500 測序儀產生的 >=250 bp 長度的 Paired End 數據，並且首尾 reads 要有重疊。如果 PE 250bp 數據，則 Insert Size 長度要爲 400-500 bp（需要注意的是軟件的 manual 中可能寫成 700bp，這是不對的）。
3. 只能使用一個文庫的數據。，不支持輸入 mate paired 數據。
4. DISCOVAR de novo (experimental) 能進行基因組的 de novo 組裝，支持基因組大小可達 ~3 GB。

3. 軟件的使用
3.1 DISCOVAR 的使用軟件的輸入文件是 sort 過後的 Bam 文件，一個常用例子：

$ Discovar READS=sample-reads.bam REFERENCE=sample-genome.fasta \
REGIONS='10:30892106-30933760' OUT_HEAD=./discovar-variants/assembly\
TMP=./discovar-variants/tmp

複製代碼

軟件常用參數：

READS (String)
由逗號分割的一些 bam 文件，或內容爲每行一個bam文件路徑的 list 文件。
REGIONS （String）
對指定區域進行分析。多個區域則用逗號分割。區域的寫法爲 chr:start-sotp。如果 REGIONS=all，則對所有區域進行分析。
TMP （String）
指定臨時文件路徑
OUT_HEAD (String)
輸出文件的前綴路徑
NUM_THREADS （unsigned int) default: 0
使用的線程數。
REFERENCE （String)
參考序列 fasta 文件。若提供此文件，則能進行 variant calling，並給出 VCF 文件。

複製代碼

3.2 DISCOVAR de novo (experimental) 的使用軟件的輸入文件是 sort 過後的 Bam 文件。程序在運行的時候會使用最大的線程數進行運算。

$ DiscovarExp --help special
上述命令用來查看軟件的詳細參數。
$ DiscovarExp READS=sample-reads.bam OUT_DIR=discovarexpOut
上述是軟件的常用命令。同時，軟件的參數非常少。
$ ls discovarexpOut/a.final/a.lines.fasta
查看主要結果。

複製代碼

4. DISCOVAR結果4.1 結果表現形式

圖中，每個單獨的箭頭稱爲 edge，這些 edges 代表着序列；從起點到終點，有很多種不同的路徑，稱之爲 lines；上圖中有 4 個 cells，其中 3 個 cells 有 2 個 paths，有 1 個 cell 有 3 個 paths。
這種 multiple paths 可能表示：雜合位點；染色體變異；難以測序的位點等。
4.2 DISCOVAR 結果文件 生成的結果文件位於 discovar-variants/ 文件夾下，主要的結果文件是：

assembly.final.fasta 所有的 edges 序列 (edges overlap by K-1 bases)
assembly.final.fasta0 所有的 edges 序列 (without overlaps)
assembly.final.dot dot格式的組裝圖
assembly.final.variant VCF結果文件

複製代碼

4.3 DISCOVAR de novo 結果文件生成的結果文件位於 discovarexpOut/a.final/ 文件夾下，主要結果文件有：

a.lines.fasta 多個 paths 中僅選擇第一個 path，得到的 lines 序列的 fasta 文件。
a.lines.efasta 標準的 efasta 文件，有所有的 paths 結果。
a.fasta 所有的 edges 序列
a.lines 二進制文件
a.lines.src 上一個文件的文本形式結果

文章來源：測序幫

複製代碼

5. 總結
Discovar 能根據 Illumina 測序數據比對到基因組上的結果來進行基因組 de novo 組裝，得到 edges 序列；若在提供了基因組序列的情況下，還能進行 Vaiants calling。

Discovar de novo (experimental) 能根據 Illumina 測序數據比對到基因組上的結果來進行基因組 de novo 組裝，得到 edges 序列。相比與前者，還能得到 lines 序列，這是比較完整的序列文件。

文章來源：測序幫

DISCOVAR的使用說明

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

生信常用軟件

Unigene build produce(NCBI)(原文）

NCBI：UniGene數據庫

RNA測序研究現狀與發展

測序中常用的術語

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結