Genomes correction and assembling - Present methods and tools

基因組校正和組裝-現有的方法和工具

摘要

新一代測序(NGS)技術的迅速發展對基因組學研究領域產生了重大影響，使許多以前受技術成本限制的新物種測序項目得以實施。隨着NGS的發展，需要對裝配程序進行調整。新算法必須在合理的時間限制內處理大量的數據計算，處理能力和硬件也是一個重要因素。在這篇論文中，我們討論的問題組裝管道de novo基因組裝配提供的程序，目前可供科學家作爲商業和開源軟件。實現四種不同的方法—貪婪、重疊—佈局—一致(OLC)、De Bruijn和導致性能變化的集成是我們討論的主要焦點，並對短讀和長讀校正問題進行了深入分析。

關鍵詞:基因組測序，下一代裝配，基因組裝配修正，圖結構，NGS1.

介紹

新一代高通量測序平臺的出現推動了新的裝配算法和軟件的誕生。然而，隨着新的測序技術的出現，基因組的組裝出現了新的問題。裝配的基本問題是不可能在一次讀取中直接測序整個基因組與目前的測序平臺的實施。取而代之的是散彈槍方法。通過將基因組分成隨機的短序列，我們獲得了大量的短序列數據集，這些短序列數據集用於基因組重組過程，即基因組裝配。隨着以高通量測序和大量數據生成爲特徵的新一代測序技術的出現，基因組裝配者面臨的挑戰是在信息處理、索引和裝配過程中克服計算資源的限制。這項任務還受到測序錯誤(每個NGS平臺的特徵)和基因組中重複區域的阻礙。本文綜述了近年來在科學期刊上提出的利用NGS數據進行基因組從頭組裝的算法。

2. SEQUENCING TECHNOLOGIES

基因和DNA測序的革命始於第二代測序平臺的發展，也被稱爲下一代測序。這些技術的一個顯著特點是它們不依賴於桑格化學[1]，而是提供了高度並行操作、更高的收率和更簡單的機理。所有序列器都以reads的形式生成目標DNA片段的信息:單字母基調用的序列加上每個基調用的數值質量值(QV)。儘管qv提供了額外的信息，但它們的使用通常會增加程序的CPU和RAM需求。第一代讀數通常爲500 bp到1000 bp長。今天的NGS讀取範圍是400 - 600 bp(從454個[3]機器)，75 - 100 bp(從固體[4]和Illumina[3])，長讀甚至超過20 kb(與太平洋生物科學[5])(表1)。短讀的組裝需要更高的覆蓋率，部分是爲了滿足最小可檢測重疊標準，而在長讀的情況下，高錯誤率是一個問題，高覆蓋率可以克服這個障礙。然而，高覆蓋率增加了複雜性，並加劇了與大數據集相關的計算問題。

3. ASSEMBLY PIPELINE

基因組裝配過程是將序列數據映射到最有可能重建基因組的數據的結構化過程。它把讀到的片段分組成疊架，把疊架分組成支架。這個過程分爲幾個階段。順序讀取和質量值以FASTA或FASTQ文件的形式導入彙編程序，然後進行索引和排序數據集更容易訪問和管理的彙編軟件。某些彙編器提供了過濾或校正步驟，這些步驟也可以通過獨立的軟件來執行，從而提高讀取質量，實際上減少了不正確的彙編概率。圖構造步驟生成讀取之間的相關(重疊)的數學說明。在不同的實現方法中，這一階段過渡到路徑檢測，它提供了最可能的讀序列比對，從而產生一致序列，在理想情況下，該序列表示染色體或基因組(圖1)。結果以一組contigs或支架(取決於彙編器)的形式提供，並以非彙編讀作爲補充。這是對所有可用軟件的通用裝配管道的概述(表2)，它根據實現的方法、支持的排序技術和附加的階段、開發人員爲優化裝配過程提供的配置而變化。

3.1修正

與Sanger測序[1]相比，NGS數據有更高的錯誤率，這一特性給計算帶來了很多挑戰，尤其是在從頭開始的彙編中。降低基礎調用的錯誤水平，提高基礎特異性質量分數的準確性，對於NGS數據的裝配、多態性檢測和下游羣體基因組學分析具有重要的現實意義。在太平洋生物科學中，由於高錯誤率掩蓋了reads之間的比對並使分析變得複雜，因此錯誤校正尤其重要，因爲兩個reads之間的兩兩差異大約是它們各自的兩倍，這遠遠超出了大多數基因組組裝者所能容忍的閾值。(6、7)替代誤差是Illumina測序技術產生的數據中占主導地位的誤差來源，目前大多數方法側重於替代誤差的校正。現有的工具要麼在召回率或精確度方面得分較高，要麼在兩項指標上都不一致。

3.1.1短讀校正

從改進圖像分析和鹼基調用算法[8Erlich]，到改進鹼基調用後的潛在錯誤，短核苷酸序列的校正已經發展了很長時間，這些錯誤是通過利用基因組中每個位置平均被測序多次的[9]來實現的。最近的修正方法由ECHO和滑膛槍程序代表。前者提供了最佳參數檢測和誤差說明過程的自動化。ECHO的基礎是查找讀操作之間的重疊部分，這樣可以在不聚集潛在有用信息的情況下保存更多數據，但是會增加計算強度。此外，ECHO明確模擬二倍體基因組的雜合性，並允許以一種新的方式處理二倍體數據。另一種基於k - mer譜的方法爲Illumina平臺提供了有效的替代誤差校正。該過程包括兩個階段:k-mer譜構建和誤差校正。對於k-mer譜結構，Musket使用Bloom filter[11]和散列表的組合來計算所有非唯一k-mers的出現次數，從而減少對大型數據集的內存需求。在糾錯方面，Musket引入了三種技術，即雙邊保守糾錯、單邊積極糾錯和基於投票的改進[12]。執行短讀的錯誤糾正作爲預處理步驟，可以極大地簡化從頭組裝，特別是在低到中等的序列覆蓋深度的情況下。

3.1.2長讀校正長

讀校正的方法是使用短的、高精度的序列來校正長單分子序列中固有的錯誤。這個實現有兩種方法，一種是在Celera Assembler中開發和構建的，另一種是由LSC程序提供的。前者使用PBcR算法將短序列映射到長序列上，計算出高精度的混合一致性，從而實現對[13]的進一步修剪和校正。LSC的第二種方法則不同。第一階段是均聚物壓縮，每個均聚物被一個核苷酸取代。它既適用於短讀，也適用於長讀。其次，將長讀序列連接到染色體大小序列，創建短讀序列映射的參考。對齊後，根據一致信息修改LR，並進行均聚物減壓[14]。這種校正方法將讀取精度從85%提高到99%以上，爲從頭裝配提供了高質量的序列。

3.2圖形構建和路徑檢測

在對reads數據進行了介紹和索引之後，通過可選的校正，這個階段開始通過結合reads形成更長的連續序列(contigs)來對已測序的基因組進行適當的組裝。爲了實現這一功能，彙編程序合併了共享重疊區域的讀操作。大多數NGS彙編程序將它們的輸入短讀格式化爲圖形數據結構，但是它們在初始圖形構造、配置、遍歷和簡化過程方面有所不同。圖是由節點(頂點)和邊表示的抽象數學結構，分別對應於讀字符串和後綴與前綴重疊的[15]。基於貪心的、基於OLC的、基於德布魯因的和基於混合的四類圖構造方法是當前圖構造的主要發展方向。在接下來的章節中，我們將分別討論它們。

3.2.1基於貪婪算法

將貪心算法用於網絡圖的構造，實現了網絡圖的構造。這種方法依賴於一個操作，從隨機讀開始，與另一個讀結合，創建疊疊。此操作將重複進行，直到只剩下一個序列或不可能有其他操作爲止。合併讀取的過程基於最高的重疊分數(Figre 4)。貪心算法可能會陷入局部極大值，如果手頭上的疊架進行讀取，這將幫助其他疊架變得更大。像所有的彙編器一樣，貪婪算法需要避免將僞正重疊合併到疊架中。重複序列引起的重疊可能比共同原點位置引起的重疊得分更高。建立在假陽性重疊上的彙編程序將把不相關的序列連接到重複序列的任意一邊以產生嵌合體。基於貪心算法的彙編器適用於小型基因組。該方法用於SHARCGS[16]、SSAKE[17]和VCAKE[18](表2)。

3.2.2 Overlap-based（基於重疊羣）

在基於重疊的彙編語言中，圖形構造過程包括三個階段:重疊、佈局和一致(OLC)[19]。程序首先檢測輸入的讀取之間的所有重疊。接下來，在圖中對信息進行索引和組織，其中讀取用節點表示，節點之間用邊重疊。在第二階段，layout計算出了訪問圖中每個節點一次的最短哈密頓路徑，從而給出了序列裝配問題的結果。在共識階段，使用漢米爾頓路徑將讀合併成一個序列(contigs)(圖5)。最小重疊長度是裝配算法成功的關鍵。由於較小的值會通過增加錯誤重疊的頻率來增加圖中的分支節點，較大的值將通過增加非重疊讀取[20]的頻率來增加死角。

3.2.3 De Bruijn-based

這種範式也稱爲k譜方法，由幾個階段組成。一開始，k- mers是根據所提供的讀碼生成的，讀碼代表k-譜。在隨後的相位圖中，節點表示k - mers，邊表示相鄰節點之間的k - 1重疊。在理想情況下，通過只訪問每個節點一次來檢測歐拉路徑(圖6)。De Bruijn圖是在新的裝配策略中實現的，特別是解決基因組中的重複序列問題，是目前軟件面臨的主要挑戰。這個範例是由最近編譯的算法開發的。該算法是一種基於k維加權的de Bruijn多重圖的新算法，能夠檢索出重複序列的長度段採用短讀，專爲NGS數據的從頭裝配而設計。該算法根據覆蓋統計信息估計SSR長度，並能夠正確地組合連續的重複序列。該算法僅使用DNA雙螺旋結構的編碼鏈，因此其應用受到限制。它在無錯讀上進行了測試，從幾個模型基因組中得到的二氧化硅比其他算法少5%的重疊基因組。這個算法擴展了[27]，它可以從兩個鏈(編碼和互補)讀取數據，但仍然不使用配對數據。De Bruijn圖是在諸如ALLPATHS - LG[28]、Velvet[29]、Euler[30]、ABySS[31]和SOAPdenovo[32]這樣的彙編程序中實現的(表2)。

3.2.4集成

集成方法是兩種不同的圖結構模型之間的混合，旨在通過利用使用的模型的優點來提高彙編程序的性能。在Taipan[33]中實現了OLC和貪婪圖的混合，其中節點是讀，邊代表重疊，並且遍歷圖來尋找貪婪路徑，而不是像OLC方法[34]那樣尋找哈密頓路徑。該特性能夠實現與基於重疊的彙編器相對應的彙編質量，但是減少了對計算能力和硬件資源的要求。此外，還有針對不同平臺使用不同類型reads的方法，Wang提出了使用三種平臺(454、SOLiD和Illumina)來減少最終基因組序列的間隙數和延長支架長度的方法[35,36]。

3.3疊架與支架組裝

在每一種討論的方法中，彙編器根據圖中檢測到的路徑(貪心的，哈密頓的，歐拉的)，並以未裝配的讀集合作爲補充，提交一組生成的contigs。根據NGS技術、覆蓋範圍、使用軟件和校正步驟的不同，獲取的疊架數量可能有所不同。除了contigs數量，彙編器還提供統計分析，包括在contigs中的核苷酸數量，平均的contig長度，平均值，N25,N50和N75值，這對彙編過程的質量有重要的概述。採用配對/配對端數據的彙編器在一定程度上克服了重複區域問題，提高了彙編質量，增加了contigs的平均長度，並在一些軟件生成支架中實現了更好的基因組組織。

4. 轉錄組的組裝

最近的研究進展使得利用深度RNA-Seq重新構建整個轉錄組成爲可能，即使沒有參考基因組。然而，來自數十億個RNA-Seq序列的轉錄組組裝(通常非常短)對信息學構成了與基因組組裝類似的重大挑戰。已經開發了一些從頭開始的轉錄組彙編器。Rnnotator[37]、multik[38]和Trans-ABySS[39]彙編程序遵循相同的策略;他們使用基於De Bruijn圖的方法6-8,58對數據集進行多次組裝，從廣泛的表達水平重建轉錄本，然後對組裝進行後處理以合併contigs並消除冗餘相比之下，其他彙編程序(Trinity[40]和Oases[41])通過應用配對端讀取信息直接遍歷De Bruijn圖，在每個軌跡上裝配每個亞型。

5. 結論

基於新一代測序數據的基因組裝配過程面臨着讀取長度短、大多數測序平臺的高通量、測序錯誤和基因組重複區域等難題。此外，不同類型的讀取和質量值強制裝配參數的自定義取決於使用的排序平臺和計算資源。像第一個彙編器一樣，新的彙編器仍然缺乏交互的用戶界面，這是一個障礙，限制了沒有信息學背景的科學家使用這個軟件。本文討論了利用NGS數據進行新基因組組裝的幾種方法。OLC圖和De Bruijn圖是裝配領域中最常用的兩種方法。兩者都依賴於輸入讀之間的重疊，並將這些集合轉換爲直接圖。它們不同的圖形表示是相似的，如果不是等價的。與OLC方法相比，DBG範式在計算資源方面具有較大優勢，更適合於管理主要來自短讀排序技術的大數據集的讀操作。數據量將繼續增加，而製造成本下降。測序技術的出現，無論是在吞吐量和讀取長度都爲更簡單和更快速的大基因組測序創造了機會重複區域的數量。這種演變爲裝配軟件開發人員尋找有效的數據管理和裝配過程的解決方案帶來了新的挑戰。

參考文獻

https://www.spiedigitallibrary.org/conference-proceedings-of-spie/9290/92901X/Genomes-correction-and-assembling-present-methods-and-tools/10.1117/12.2075624.short?SSO=1

wangchuang2017

發佈了517 篇原創文章 · 獲贊 83 · 訪問量 20萬+

他的留言板關注

Genomes correction and assembling - Present methods and tools

3.1修正

3.1.1短讀校正

3.1.2長讀校正長

3.2圖形構建和路徑檢測

3.2.1基於貪婪算法

3.2.2 Overlap-based（基於重疊羣）

3.2.3 De Bruijn-based

3.2.4集成

4. 轉錄組的組裝

5. 結論

Python實現大麥網搶票的四大關鍵技術點解析

騰訊雲服務器雲數據庫MySQL

LoRDEC: a tool for correcting errors in long sequencing reads 糾正長序列讀取錯誤的工具

The Third Revolution in Sequencing Technology 測序技術的第三次革命

大數據，正在到來的數據革命——塗子沛

單分子測序技術取得重要突破

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結