CoLoRMap: Correcting Long Reads by Mapping short reads CoLoRMap:通過映射短讀來糾正長讀

CoLoRMap: Correcting Long Reads by Mapping short reads

CoLoRMap:通過映射短讀來糾正長讀

Motivation:

第二代測序技術爲測序基因組數量的異常增長鋪平了道路,包括原核和真核。然而,短讀很難組裝,並且常常導致高度碎片化的組裝。長讀測序方法的最新進展爲解決這一問題提供了一種有希望的方法。然而,到目前爲止,長讀操作的特點是錯誤率高,從長讀操作進行組裝需要較高的覆蓋深度。這推動了混合方法的開發,利用高質量的短讀來糾正長讀中的錯誤。

Results:我們介紹了一種混合方法CoLoRMap,用於校正長read,例如PacBio測序技術產生的長讀,使用高質量的Illumina雙端讀映射到長讀。我們的算法基於兩個新穎的思想:使用經典的最短路徑算法找到一個重疊的短讀序列,將編輯分數最小化爲長讀,並通過映射短讀的未映射夥伴的本地裝配擴展校正區域。我們在細菌、真菌昆蟲數據集上的結果表明,與現有的混合校正方法相比,CoLoRMap具有較好的效果。

Introduction

   高通量測序(HTS)技術在基因組學和精密醫學領域的許多最新進展是通過對大量基因組集合的應用而實現的。HTS技術自誕生以來就在不斷髮展(Margulies等人,2005),特別是最近引進了單分子測序技術,如太平洋生物科學(Eid等人,2009;Korlach等人,2010)和牛津納米孔測序儀(Cherf等人,2012);艾森斯坦,2012年;曼勞等人,2012年)。

  儘管HTS技術已經證明了它們在編目正常人類基因組變異(1000個基因組項目聯盟,2010年,2012)、發現導致突變的疾病(O’roak et al.,2011)和構建新的基因組組裝(Gnerre et al.,2011)方面的能力,但對它們產生的數據的計算分析仍然具有高度挑戰性。目前流行的測序技術的主要侷限在於其相對於普通重複序列長度的短讀長度(Alkan et al.,2011;Hormozdiari et al.,2009)。

太平洋生物科學公司(pacific biosciences)和牛津納米孔公司(oxford nanopore)的新技術正在產生更長的讀取時間,從而有可能克服中短程重複的困難。這種技術用於從頭組裝(Ee et al.,2014;Ferrarini et al.,2013;Hoefler et al.,2013)、混合從頭組裝(Goodwin et al.,2015;Gross et al.,2013;Koren et al.,2012)(其中長讀數與illumina的低誤差短讀數混合)、填補腳手架空隙(English et al.,2012;Lam et al.,2015)。基因組整理(Bashir et al.,2012;Brown et al.,2014;Chin et al.,2013)、GC富集區和複雜區的重建(Huddleston et al.,2014;Scott and Ely,2015;Shin et al.,2013)和結構變異檢測(Chaisson et al.,2015;Doi et al.,2014;Ummat and Bashir,2014)。人們可能會認爲,讀取時間越長,總體分析就越容易,但由於它們的高排序錯誤率,這些技術生成的讀取很難處理。事實上,Pacbio(Thompson and Milos,2011;Travers et al.,2010)和Oxford Nanopore(Goodwin et al.,2015)的錯誤率分別高達20%和35%,這些讀數無法直接用於爲Illumina技術開發的下游分析管道。

爲了提高讀取的質量,開發了許多工具(參見Laehnemann等人,(2016)對錯誤糾正工具的回顧)。這些工具可以分爲兩類:(i)自校正方法和(ii)混合方法。在“自校正”方法中,其思想是通過只使用長讀來校正長讀。在這種方法中,讀取之間的多重序列比對是通過每兩個長讀取的成對比對(全比對)來構建的。在此基礎上,建立了具有較高質量序列的一致序列。該方法已在HGAP(Chin等人,2013)中實現,HGAP是一種能夠處理細菌基因組數據的非混合彙編程序。最近引入的彙編程序Canu (Berlin et al.,2015)依賴於局部哈希的思想來檢測長讀之間的重疊,並使用重疊圖來組裝它們。另一方面,混合方法。PacBioToCA (Koren et al.,2012),LSC (Au et al.,2012),proovread(Hackl et al.,2014),LoRDEC (Salmela and, 2014)]試圖聯合利用高質量的短讀和嘈雜的長讀來糾正長讀。PacBioToCALSC地圖的短讀(如。將長讀映射到長讀上,並通過調用這些短讀映射的一致性來糾正長讀;proovread使用了類似的思想,只是在映射和校正的迭代過程中,靈敏度不斷提高。Nanocorr(Goodwin et al., 2015)和LoRDEC(Salmela and, 2014)採用了一種與本地組裝類似的不同方法。Nanocorr依賴於計算重疊讀取的最長遞增子序列(LIS)。相反,LoRDEC從短讀構建一個De Bruijn圖,然後通過在長讀的實區之間尋找一條路徑,將每個長讀對齊到這個De Bruijn圖,該路徑的目的是用區域序列最小化編輯距離。

自校正方法的一個主要缺點是,它需要大量的計算能力,以便執行長讀的全對全比對,以發現它們之間的重疊,儘管最近的進展需要較少的資源(Berlin等人,2015)。更重要的是,使用自校正方法需要至少50倍的長讀覆蓋率(Koren和Phillippy,2015年),以便找到可以用於糾錯。考慮到單分子測序技術的低通量,獲得50個覆蓋率是昂貴的。混合方法的優勢來自於這樣一個事實,即可以以更低的成本生成高通量的短讀,從而補充來自同一供體的低覆蓋長讀。

我們介紹了一種混合方法CoLoRMap,它利用高質量的短讀和糾正長讀的噪聲。與LSC和PacBioToCA類似,CoLoRMap將短讀映射到長讀作爲第一步。但是它不尋找一個共識基地呼叫在每個基地,但制定糾正的問題很長的閱讀區域作爲本地裝配問題旨在找到一個最優路徑重疊映射短讀最小化編輯評分的長閱讀區域,一個可以解決的問題完全使用經典的最短路徑算法(SP);因此,我們的標準與Nanocorr中定義的標準不同,後者基於最長遞增子序列方法(注意,在提交時,Nanocorr中使用的目標函數的精確定義是不可用的;它只是聲明,它懲罰重疊,同時最大化對齊長度和精度'),雖然一般原則是類似的。接下來,在第二個步驟中,CoLoRMap地址的問題糾正長期閱讀區域,由於更高的錯誤率,不短讀映射(稱爲缺口),使用的想法新創的一端錨(OEA),地圖上未標明的讀取的伴侶映射到一個側翼糾正。

爲了評估CoLoRMap,我們將其應用於三個數據集,一個細菌基因組,一個真菌基因組和一個昆蟲基因組,並將我們的結果與PacBioToCA, LSC, proovread和LoRDEC的結果進行比較。我們觀察到CoLoRMap糾正讀的準確性與LoRDEC的準確性,PacBioToCA proovread,同時更長的讀糾正CoLoRMap對齊到參考基因組與其它方法相比,無論是糾正讀取次數對齊到參考基因組以及對齊區域的總大小。例如,對於細菌基因組數據,在全部校正長序列後,89.7%的長序列鹼基與參考基因組比對,平均比對率爲99.38%,而LoRDEC比對率爲86.9%,平均比對率爲99.48%。我們還觀察到,使用修正後的長讀,由Canu assembler (https://github.com/marbl/canu)生成的程序集的CoLoRMap質量稍好一些

與大多數混合的糾錯方法類似,CoLoRMap的輸入有兩組讀操作,即短讀操作和長讀操作,它們來自於同一個輸入源。CoLoRMap首先使用BWA-MEM將短讀映射爲長讀(Li, 2013)。然後,它使用從BWA-MEM獲得的映射集來構建類似於重疊圖的圖結構。使用多項式時間SP算法,然後,CoLoRMap可以重建一個重疊的映射短讀序列,使覆蓋的長讀區域的編輯分數最小化,並可以用作該區域的校正序列。

由於短讀和長讀都是從相同的輸入源進行排序的,映射的短讀通常覆蓋長讀的很大一部分(見表5)。然而,由於它們被映射到有噪聲的長讀,長讀上的一些區域不被任何短讀覆蓋,我們稱之爲間隙,因爲它們位於長讀的末端,或在兩個校正區域之間。在第二步中,CoLoRMap嘗試使用OEAs擴展正確的區域,OEAs是那些沒有映射到長讀的讀操作,但是對應的讀操作被映射到長讀操作的正確區域的讀操作。對於每個gap,CoLoRMap然後使用Minia (Chikh and Rizk,2013)來執行與gap相關的OEAs集合的本地裝配,並使用獲得的contigs來糾正gap。

3 Results

3.1 Data and computational setting

3.2評價措施

爲了檢查校正方法的性能,我們跟蹤了(Salmela和競爭對手,2014),並調查了校正良好的長讀序列如何與參考基因組對齊,然後檢查校正良好的長讀序列如何用於從頭組裝。爲了將long reads映射到參考基因組,我們使用了BLASR (Chaisson and Tesler, 2012)和BWA-MEM (Li, 2013)。使用這兩種工具進行評估的基本原理是,觀察到通常有一些讀取,其中一個工具發現映射,而另一個工具沒有報告映射。BLASR是專門爲調整PacBio長讀到參考序列而設計的。使用選項-noSplitSubreads -bestn 1運行BLASR,爲每個長讀提供一個最佳對齊。BWA-MEM是一個快速對齊工具,它支持將長讀映射到參考序列,並且可以通過選項-x pacbio處理嘈雜的pacbio長讀。需要注意的是,很多時候BWA-MEM報告的是長讀的多塊映射,而不是一個連續的對齊。在我們的評估中,如果這些片段在引用上的映射位置之間的距離不大於長讀的長度,我們仍然考慮長讀的所有這些片段對齊。我們考慮的第一個評估指標是與參考基因組對齊的長讀數。我們還記錄了校正長讀數中對齊的鹼基的數量,以及與對齊中的參考值匹配的鹼基的數量。我們在(Salmela and, 2014)中計算了身份的概念,定義爲參考基因組中比對區域長度的鹼基匹配數。

3.2.1糾正讀數的修邊、分切

在比較的校正工具中,CoLoRMap和LoRDEC報告全長讀,用大寫表示校正後的高質量區域,用小寫表示未校正的區域。proovread輸出完整的校正長讀(但不標記校正區域)和作爲獨立序列的校正區域。然而,PacBioToCA僅輸出作爲獨立序列的長讀校正區域。我們評估了從CoLoRMap、LSC、LoRDEC和proovread獲得的完整長讀,以及在保留間隙(未校正區域的兩側有校正區域)的情況下從長讀的兩端刪除所有未校正的鹼基後獲得的修剪長讀。爲了與PacBioToCA和proovread進行比較,我們還評估了從CoLoRMap和LoRDEC中分離出來的長讀序列,這些長讀序列是通過從長讀序列中提取正確的區域得到的,每個區域都被認爲是一個單獨的序列。

3.3基於比對的比較

實驗結果見表2-5。這些結果是基於BLASR的校準(參見補充資料,以獲得基於BWA-MEM校準的相同結果)。我們可以觀察到,CoLoRMap在校正回參考基因組的讀數方面表現最好,同時保持較高的平均水平,儘管略低於PacBioToCA、LoRDEC和proovread。同樣有趣的是,OEA步驟對校正區域的大小有不可忽視的改進,同時也提高了被修剪讀的平均一致性。在校正區域方面,proovread計算最長的區域,看看是否有可能將proovread的分層方法與我們的算法結合起來,這可能會很有趣。

3.4基於裝配的比較

除了比較校正後的長讀的質量,我們還研究了不同工具的校正後的長讀可以用於下游分析任務的程度。我們選擇了De novo組件的任務,因爲存在一個專門的彙編程序,CANU(柏林等人,2015),可用於長時間的噪聲讀取。爲了評估組裝contigs的質量,我們使用了quast(gurevich等人,2013)。

補充表s5-s7顯示了通過運行由不同校正工具校正的長讀數集上的CANU獲得的組件的QUAST輸出。對大腸桿菌和酵母菌數據集的觀察表明,從我們校正的長讀數據中組裝的一組contig具有最高的NGA50、較低的不匹配數和索引,更好地覆蓋參考基因組。然而,果蠅黑腹果蠅數據集的集合似乎並不可靠,這可能是由於長讀的覆蓋率較低(覆蓋率爲9.7,而canu建議覆蓋率至少爲50倍)。

Discussion

我們描述了一種新的長讀校正方法CoLoRMap,它的主要特點是

(i)依賴於一個SP算法應用於一個加權對齊圖,以找到一個校正後的序列,使長讀和的編輯分數最小化(ii)使用未映射的短讀(即所謂的OEAs)配對擴展初始校正。

我們的實驗結果表明,CoLoRMap與現有的方法相比有很好的效果,特別是對長讀的校正,可以映射到參考文獻中,並用於下游分析,比現有方法在保持較高精度的同時對長讀的校正效果更好。

CoLoRMap算法的基本原理是將兩種一致方法(如proovread)和基於優化的方法(如LoRDEC和Nanocorr)的優點結合起來。作爲共識方法,我們的確依靠映射讀取,即正確的地區使用映射讀取(SP算法)或映射的伴侶讀(OEA算法),但是,與LoRDEC一樣,我們也佔短讀的全局上下文選擇校正利用SP算法的優化準則。

第一步的原則類似於最近的Nanocorr修正方法,儘管有不同的客觀標準(將編輯分數最小化到長讀)。與LoRDEC(也考慮最小化編輯距離,但採用啓發式方法)一起,這些方法與基於一致性的方法有很大的不同,並且這些基於對齊的優化方法獲得的結果與基於一致性的方法(proovread和PacBioToCA)相比更優。

由於這一步依賴於短讀到長讀的映射,因此映射工具的性能對糾錯性能的影響是不可避免的。爲了減輕這種影響,CoLoRMap允許用戶選擇塊的大小,以便在準確性和運行時間之間進行權衡(參見補充表S2)。另一種可能的解決方案是使用帶有仔細參數選擇的all-mapper工具。這種工具的一個例子是mrFAST-2.5 (Xin et al.,2013)。

我們方法的第二步依賴於基於映射的方法中通常不考慮的數據,即未映射讀取。我們的實驗表明,OEA的加入顯著地改善了修正區域的大小,甚至平均特徵。這顯示了這種有針對性的reads招聘方法的潛力,其原理已被用於其他問題,如填補空缺等。這將是有趣的,看看使用LoRDEC原則只有在這些讀取(即試圖最小化的編輯距離De Bruijn基於裝配的OEA讀)將改善的質量校正儘管錯誤的初始比例高的長閱讀差距阻止任何短讀的對齊。同樣值得探索的是一種迭代方法,它將嘗試基於在修正區域中組裝的讀檢測新的OEA。未校正區域的平均小尺寸(表5)表明,這可能會顯著提高校正長讀的分數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章