校正第三代測序數據

校正第三代測序數據

皮埃爾·莫里斯 1 詳細信息

LITIS-計算機科學,信息處理和系統實驗室

在FR

摘要:本論文的目標是處理來自高速定序器(尤其是第三代定序器)的數據的廣泛問題的一部分,該問題主要針對於校正序列錯誤,以及校正對基礎分析質量(尤其是對裝配體)的影響。首先,本論文的目標之一是評估和比較各種混合校正方法(另外還使用短讀)和自校正(僅基於最新閱讀的長篇文章中包含的信息。通過這種評估,可以輕鬆地確定哪種校正方法最適合給定的情況,尤其是根據所研究基因組的複雜程度,測序深度或讀取錯誤率來確定。此外,開發人員可以識別現有方法的侷限性,以指導他們的工作並提出克服這些侷限性的新解決方案。已經開發了一種新的評估工具,與迄今爲止唯一可用的工具相比,它提供了許多其他指標。該工具將多重比對方法與細分策略相結合,還大大減少了評估所需的時間。使用此工具,可以提供所有可用校正方法的基準,從各種各樣的數據集,測序深度,錯誤率和複雜程度(從貝氏桿菌到人類)進行分析。該基準使我們有可能確定現有工具的兩個重要侷限性:讀取錯誤率高於30%,讀取長度超過50,000個鹼基對。因此,本論文的第二個目標是糾正非常嘈雜的讀碼。爲此,已經開發出一種混合校正工具,其結合了現有技術的不同方法,以克服現有方法的侷限性。特別地,該工具結合了使用de Bruijn圖的方式將長讀短讀對齊的策略,並具有可變順序的特殊性。因此,該圖用於鏈接對齊的讀段,從而校正長讀段的未覆蓋區域。與ELISA方法相比,該方法可校正錯誤率高達44%的讀段,同時可擴展大型基因組並減少處理時間。最先進的技術。最後,本論文的第三個目標是對超長閱讀的糾正。爲此,已經開發了使用這次自我校正方法的工具,再次結合了現有技術的不同方法。更具體地說,一種策略是先計算讀段之間的重疊,然後通過多重比對再使用局部de Bruijn圖來進行雙校正步驟,在這裏使用。爲了使該方法能夠有效地擴展極長的讀取,已對上述分割策略進行了概括。這種自校正方法可以校正多達340,000個鹼基對的讀數,同時在更復雜的基因組(例如人)上具有出色的可擴展性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章