GATK官方文檔翻譯-Data pre-processing for variant discovery

原文所在鏈接:Data pre-processing for variant discovery

針對變異發現的數據預處理
1.目的

     爲進行變異發現而進行的數據預處理,是強制性的第一階段,必須先於所有變異發現。需要對以FASTQ或uBAM格式提供的原始序列化數據進行預處理,以生成可用於分析的BAM文件。涉及到對照參考基因組操作、一些數據清洗操作,來糾正技術偏差、使得數據更適於分析。

                                                   

2.期望輸入

      這個工作流是被設計用於對單個樣本進行操作的,因此,數據最初以被稱爲readgroups的不同子集組織起來。這些readgroups對應於由多重化(是混合多個文庫、在多條泳道上序列化這些文庫的過程,以減少風險和人爲因素的影響)產生的文庫交集(從生物樣本中提取、用於測序的DNA產物,包含用可識別條形碼進行片段化、標記的產物)和泳道(在DNA測序芯片上的物理分離單位)。

        我們所參照實現的,期望讀取的數據是以未映射的BAM(uBAM)格式輸入的。轉換使用程序可以實現從FASTQ格式到uBAM格式的轉換。

3.主要步驟

        通過將序列讀取映射到參考基因組,我們開始進行數據預處理,這種方式可以產生按座標排序的SAM/BAM格式的文件。而後,我們標記重複數據,來減輕數據生成步驟(如PCR擴增)引入的偏差。最後,考慮到變體調用算法很大程度上依賴於每個序列讀取分配給各個鹼基調用的質量分數,我們重新對基準質量評分進行。 

3.1映射到參考基因組

需要的工具:BWA,MergeBamAlignments

        作爲第一個處理步驟,這個步驟是按每個讀取組進行的,由將每個獨立的讀取對映射到參考基因組(一種對常見基因組序列--用於所有基因組分析的共同協調框架,的合成單鏈表示)操作組成。由於映射算法獨立地處理每個讀取對,因此,這一步驟可以採取大規模並行化的形式進行處理,以提高吞吐量,滿足需求。

3.2標記重複

需要的工具:MarkDuplicates,SortSam

        作爲第二個處理步驟,這個步驟是按每個樣本進行的,識別可能通過一些人爲過程從相同原始DNA片段的重複中產生的讀取對。識別過程中所需要的操作被認爲是非獨立地觀察,因此,程序在每一組重複內標記除讀取對之外的所有對,使得它們在變體發現過程中被默認忽略。這一步驟構成了一個主要的瓶頸,因爲它涉及在所有readgroups範圍內對所有屬於樣本的讀取對進行大量比較。而後,進行排序操作(沒有明確地顯示在工作流中),排序操作也導致了性能瓶頸,因爲它也是對所有屬於樣本的讀取對進行操作。兩種算法持續地成爲優化工作的目標,來減少對延遲的影響。

3.3基準(質量評分)重新校準

需要的工具:BaseRecalibrator,Apply Recalibration,AnalyzeCovariates(可選)

        作爲第三個處理步驟,這個步驟是按每個樣本進行的,應用機器學習來檢測和校正基準質量評分(由定序器對每個基準指定的置信度值)中的系統誤差模式。在變異發現過程中,基因質量評分對衡量支持/反對可能的變異等位基因的證據的權重發揮着重要作用,因此,糾正在數據中所觀察到的任何系統性偏差都是很重要的。偏差可能源於文庫製備、測序過程中的生物化學過程,也可能源於芯片的製造缺陷或測序儀中的儀器缺陷。重新校準過程包含從數據集的所有鹼基調用中收集協變量統計數據,根據這些統計數據構建模型,而後基於構建的模型,將基準調整應用與數據集中。初試數據收集可通過散射基因組座標並行化,通常通過對染色體或染色體批次進行散射,如果需要也可以進一步細分以提高吞吐量。

       而後,必須將按區域統計的數據收集到單個全基因組共變模型中,這一步是不可能並行化的,單它在計算上是微不足道的,因而不會成爲一個瓶頸。最後,應用從模型導出的重新校準規則到原始數據集中,來生成重新校準數據集。與初始統計信息收集的並行化處理方式相同,在基因組區域間進行並行化處理,而後,通過一個最終的文件合併操作,爲每個樣本生成一個可用於分析的文件。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章