PaSS: a sequencing simulator for PacBio sequencing PaSS:用於PacBio測序的測序模擬器

背景:PacBio測序等第三代測序平臺近年來發展迅速。PacBio測序產生的讀取比第二代測序(或第二代測序,NGS)技術長得多,具有獨特的測序錯誤模式。有效的讀取模擬器對於評估和促進PacBio測序數據分析新生物信息學工具的開發至關重要。

結果:我們開發了一種新的PacBio測序模擬器(PaSS)。它可以從當前可用的PacBio測序數據中學習序列模式。除了讀取長度和錯誤率的分佈之外,我們還包括上下文特定的排序錯誤模型。與現有的PacBio測序模擬器如PBSIM、LongISLND、NPBSS等相比,PaSS在很多方面都有更好的表現。裝配試驗也表明,通過PaSS模擬的reads與實驗測序數據最相似。

結論:PaSS是一種有效的PacBio序列模擬方法。它將有助於評估和開發新的第三代測序數據分析工具。

關鍵詞:第三代測序,下一代測序,PacBio測序,測序模擬器,測序誤差,序列模式

背景

包括PacBio或SMRT(單分子實時)測序和nanopore測序在內的第三代測序技術正在基因組學研究領域掀起一場革命,因爲它們爲研究人員提供了前所未有的測序讀取長度爲[1]的基因組研究。由美國太平洋生物科學公司開發的SMRT測序是應用最廣泛的第三代測序技術之一。越來越多的生物信息學工具和算法,如序列比對程序BLASR[3]和GraphMap[4],基因組裝配程序canu[5]和miniasm[6],以及結構變異調用者PBHoney[7]和Sniffles[8]等,已經出現在SMRT數據分析中。此外,PacBio測序已迅速發展多個版本。對這些工具進行基準測試和評估是非常重要的,這些工具使用的是針對PacBio技術特定版本的序列模擬器模擬的reads。PacBio數據的模擬可以幫助用戶爲自己的研究項目[9]選擇最合適的分析工具或方法。此外,生成硅數據可以顯著降低改進下游分析工具[10]所需的成本和時間。

     PacBio reads的特點與第二代測序reads有很大的不同。它能夠產生大約10-15 kb的reads,這比現有的第二代測序方法要長得多。長讀對於跨越重複的複雜的區域(如大的結構變化)很有用,因爲可以更精確地確定基因組中讀的映射位置。因此,長讀在分析重複區域和較大的結構變化方面具有優勢。相比之下,第二代測序比較困難,可能會導致錯誤的組裝和缺口。然而,在第二代測序技術中,每個鹼基的錯誤率大約爲15%,而在不到1%的情況下,錯誤率主要由indels[11]控制。然而,單分子循環測序或多通道測序可以緩解高錯誤率。在測序過程中,可以使用圓形模板[12]對目標分子的正鏈和反鏈進行多次測序。被稱爲聚合酶讀的輸出序列可以分成多個讀,稱爲子讀。通過生成這些子序列的一致性,可以提高最終輸出序列的讀取質量。雖然吞吐量仍然很低,最新的測序器續集可以產生7到10倍的序列比舊的測序器PacBio RSII。它可以產生5-10Gb的基礎與約365 k~ 500k讀每運行[13]。此外,與NGS方法相比,PacBio測序速度更快,沒有GC偏置[14]。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章