GATK使用流程簡介

1. 軟件介紹

GATK 是 Genome Analysis ToolKit 的縮寫,是一款從高通量測序數據中分析變異信息的軟件,是目前最主流的snp calling 軟件之一。GATK 設計之初是用於分析人類的全外顯子和全基因組數據,隨着不斷髮展,現在也可以用於其他的物種,還支持CNV和SV變異信息的檢測。

2. Call variant 流程

使用GATK4來進行Variant calling主要參考了官方 Germline Variant Calling 流程。 這個分析流程是從已經處理好的BAM文件開始的。生成可以使用的BAM文件則參考 了官方 Data processing 流 程

3. 安裝說明

3.1.下載方式

GATK下載網站:http://www.broadinstitute.org/gatk/download

4. 常用工具

4.1 gatk-AddOrReplaceReadGroups

這一步目的是對bam文件進行加header處理,用了picard tools的AddOrReplaceReadGroups工具加了read group,因爲GATK要求bam文件的header必須包含@RG,所以這一步應該是前面bwa比對時候,沒有在參數中增加相應部分(-r)。所以如果在bwa比對的時候增加了這個參數,這一步就可以免了

sentieon bwa mem -M -R '@RG\tID:case\tSM:case\tLB:189002792D-10_HUM_C_GC1A_4003_A_cd3_A\tPU:V300101334\tCN:GenePlus\tPL:illumina'

使用參數說明:

參數 說明
-jar gatk的jar包
– AddOrReplaceReadGroups 使用此工具
-I 輸入的bam文件
-O 輸出的bam文件
-ID 輸入reads集ID號
-LB 文庫名
-PL 測序平臺
-PU 測序平臺下級單位名稱;run名稱
-SM 樣本名稱

4.2 Mutect2

Mutect2是GATK的一個子模塊,主要是根據對正常-腫瘤樣本進行位點比較尋找snp和indels,如果沒有正常樣本,那麼軟件能正常使用,但假陽性會很高。

4.2.1 參數說明

參數 說明
-jar gatk的jar
-T MuTect2
--bamout
-R 參考基因組fa文件
-I:tumor 腫瘤樣本bam文件
-I:normal 正常樣本bam文件
-L 參考bed文件
--dbsnp dbsnp數據庫
--cosmic cosmic數據庫
-contamination
--max_alt_alleles_in_normal_count
--max_alt_alleles_in_normal_qscore_sum
-- max_alt_allele_in_normal_fraction
-dt 在給定基因座處使用的讀取下采樣類型(NONE\ALL_READS\BY_SAMPLE)
-o 輸出文件夾

4.2.2 輸入文件

正常樣本與腫瘤樣本的bam文件

4.2.3輸出文件

通過腫瘤樣本和正常樣本檢出的體系突變的vcf文件

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章