ubiome類似數據處理探索7

前面做的許多處理基本上自己拼湊來的,下面再看下完整解決方案。researchgate網站上有人說qiime1版本有這個雙向數據配對不拼接的選項?這個沒找到。主要發現了有兩個方案,一個是有篇文章提出了一個流程Hybrid-denovo,還有一篇peer review的文章,幾個人評議還有一個人不同意,anyway,都看下。

1.Hybrid-denovo流程處理nonoverlapping 擴增子[2]

這裏其實主要指的是爲了提高精度測幾個V區,比如 V3-V5這種,找到了一篇梅奧醫學的同行發表在華大Giga Science上的文章,看名字作者中有多個華人,也學習下。其實這篇文章主要是要充分利用雙向測序數據和質控去除的不配對單向數據的,也可以用於單純地雙向nonoverlapping數據。由於OTU聚類已經不是未來研究的主流,所以,這個方法經典,但以後可能要用ASV。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ibSeD65N-1580977777742)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/hybrid-denovo1.jpg)]

摘要

背景

Illumina-16S雙向測序數據相比單向測序提供了更好的物種分辨率,這是因爲有效測序長度的增加。但是,反向測序數據R2的質量相比正向數據R1會有迅速地下降,很大比例地反向測序數據會在質控中被丟棄,導致clean reads成爲Paired-end reads和Single-end reads的混合。一個典型的16S數據分析流程一般是隻處理Paired-end reads或者Single-end reads數據。這樣,定量的準確性和統計上的說服力會由於這些數據的損失而減小。結果是,罕見的物種Paired-end reads數據可能檢測不到,而Single-end reads數據會導致低的物種分辨率。

結果

爲了充分利用Paired-end reads高分辨率和Single-end reads高覆蓋率的優勢,提出了一個OTU-picking的流程hybrid-denovo,可以處理Paired-end reads和Single-end reads的混合。使用高質量的Paired-end reads作爲金標準,結果顯示hybrid-denovo和金標準的一致性最高,在物種多樣性和豐度上,比單獨Paired-end reads或者Single-end reads數據表現更好。應用於類風溼性關節炎(RA)數據集, hybrid-denovo流程也檢測了更多的微生物多樣性,更多的RA-相關菌。

結論

hybrid-denovo充分利用了Paired-end reads和Single-end reads,推薦用於分析16S rRNA基因雙向測序數據。

簡介

16S數據分析中,OTU(操作分類單元)聚類仍然是一個主要部分,有de novo和基於參考序列的兩種,前者基於序列相似度,不需要參考序列,產生的OTU能更好地和數據比對,然而,需要對同一基因區域進行比較。後者可以克服這個,可是依賴於一個建好的OTU代表序列數據庫,可能對一些特定數據集不適合。

2013-2015年期間,梅奧醫學的數據集中,只有24%的R2數據通過了質控,而R1有83%。我們一般是隻用Paired-end 一小部分數據和測序深度更高的R1數據進行分析。爲了充分利用Paired-end reads和Single-end reads的優勢,最大化地檢出罕見物種,我們提出了hybrid-denovo

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-MJ0JzPvl-1580977777748)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/m_gix129fig1.jpeg)]

A圖是hybrid-denovo的流程圖,B圖是使用金標準加三種不同比例的高質量R2數據獲得的beta多樣性矩陣Mantel相關性檢驗(unweighted UniFrac, weighted UniFrac, and Bray-Curtis),誤差條表示基於100引導的估計的標準誤差。C圖是56個流行屬相對丰度的相關盒形圖

方法

1.僅使用paired-end reads,構建OTU骨架,餘下的single-end reads (R1)比對到這個OTU骨架上,如果沒比對上,建立新的OTU,和IM-TORNADO方法使用相同的質控和OTU聚類過程。具體就是,具體來說,使用Trimmomatic進行質量過濾,對5’和3’末端的讀數嚴格截斷PHRED得分Q3,以移動平均得分Q15修剪3’末端,窗口大小爲4個鹼基 ,並刪除所有少於原始讀取長度75%的剩餘讀取。去除任何不確定的鹼基,統一兩個reads的長度,然後進行連接,按照簇大小排序。

2.使用UPARSE算法進行de novo聚類,基於RDP Gold數據庫參考序列進行UCHIME去嵌合,得到一個高質量的OTU代表序列。

3.使用USEARCH把單向R1數據比對到OTU序列的R1端(如果有多個具有相同得分的匹配,則默認情況下將選擇最豐富的匹配),其餘的未比對上的R1通過UPARSE算法聚集到新的OTU中,並添加到由配對末端讀取生成的OTU列表中。因此,OTU是長短序列兩者的混合,然後,我們使用在覈糖體數據庫項目(RDP)的數據庫上訓練的結構比對算法對齊所有OTU表。未比對上的OTU序列被刪除,因爲認爲它們代表非細菌

4.FastTree構建系統發育進化樹,FastTree對末端gap的影響很小,這在處理單端讀取和成對讀取的混合時非常有利。

5.最後,將R1和R2用歧義核苷酸(一串Ns)連接在一起,然後由RDP分類器Greengenes分配分類。

6.未歸類爲細菌的和singleton OTU被認爲是污染物,因此被刪除。注意,此步驟可能丟失了數據庫中未表示的多樣性,這是準確性和完整性之間的權衡。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Sx3M9eyT-1580977777753)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/m_gix129fig2.jpeg)]

在屬水平比較mothur, QIIME和hybrid-denovo, Hybrid-denovo在具有不同百分比的高質量R2讀取(100%,75%,50%和25%)的數據集上運行。 每列代表在所有重複樣本中平均值的個體的微生物羣譜。 維恩圖中顯示了3個流程之間檢測到的屬的重疊。

爲了驗證我們的方法,我們基於在Mayo核心實驗室(V3-V5 16S擴增子,694nt,357F / 926R引物)上測序的837個高覆蓋率人類糞便樣品,創建了具有高質量配對末端讀數的金標準數據集 )。這些糞便樣本使用6種不同方法(無添加劑,RNAlater,70%乙醇,EDTA,幹拭子和糞便潛血試驗[FOBT])從20位受試者中收集。立即將樣品冷凍或在室溫下保存4天,以研究微生物羣的穩定性。 每個條件都有2-3個技術重複,以評估可重複性。我們運行Trimmomatic進行質量控制,並將R1降低至250 bp,將R2降低至200 bp,以確保較高的鹼基質量,從而實現了非重疊的配對末端reads。 對於每個樣本,我們獲得了8000個高質量的配對末端讀數。然後,我們使用IM-TORNADO基於這些配對末端讀段執行OTU揀選和分類法分配。 這些最終的OTU及其相關的分類法構成了黃金標準數據集。 然後,我們將剩餘的R2讀數的25%,50%和75%劃分爲黃金標準。這3個子數據集代表了實踐中遇到的R2質量的不同級別。我們比較了基於單端R1或使用子數據集的雙端讀取的從頭方法與Hybrid-denovo方法。通過計算Spearman與金標準在微生物β多樣性(未加權和加權的UniFrac和Bray-Curtis距離)和屬水平相對丰度方面的相關性來評估性能。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-rk2vSSns-1580977777761)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/gold-standard.jpg)]

我們還將我們的管道與QIIME和mothur(分別爲1.8.0版和1.39.3版)對金標準數據進行了比較。由於QIIME和mothur目前不支持基於非重疊讀取的從頭OTU聚類,因此我們在R1讀取中運行QIIME和mothur。選擇的參數設置與Hybrid-denovo的設置相當。當我們使用Trimmomatic創建高質量的讀取文件時,通過不應用其他讀取QC過濾器,我們減少了管道之間性能的潛在差異。使用經過Greengenes v13.5訓練的RDP分類器對所有管道的讀取進行分類。濾除singleton和非細菌OTU(基於分類法)。補充說明1中記錄了除了用於重現結果的命令外,這三個管道之間的主要區別。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-5kgVjBu0-1580977777763)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/qiime.jpg)]

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-xicKWcEY-1580977777766)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/mothur.jpg)]

我們通過研究(1)在屬水平上檢測到的屬的數目和未分類讀物的百分比,(2)使用Bray-Curtis(BC)矩陣的Mantel相關性,以及(3)這些的類內相關係數(ICC)來評估性能 在超過90%的樣本中觀察到了核心OTU和屬。ICC是技術複製之間相關性的一種度量。較高的值表示較小的測量誤差。 使用R包 ICC計算ICC。

最後,我們在風溼性關節炎(RA)患者糞便微生物組研究的數據集上論證了該方法的性能,該數據集由40位RA患者和49位對照(V3-V5 16S擴增子,694 nt)組成。我們將DESeq2應用於分類單元計數數據以進行差異丰度分析,並比較了RA相關的OTU和通過不同方法回收的屬。

結果

三種方法中,微生物β多樣性與金標準的相關性通常都很高(圖1B)但是,當使用BC距離時,基於單端R1的方法往往具有較低的相關性(單端R1方法對於R2的數量不變)。另一方面,當僅保留25%的R2時,成對末端方法與未加權UniFrac的相關性要低得多。這是由於以下事實:未加權的UniFrac主要決定於羣落成員,這主要是由稀有分類單元貢獻的,並且由於讀取丟失,成對末端方法不再能夠檢測到許多稀有分類單元。相反,Hybrid-denovo非常出色,並且在兩種多樣性指標中與黃金標準的相關性最佳或接近最佳。對於加權UniFrac距離,這三種方法的相關性都相似,因爲加權UniFrac受佔比例大的分類單元的影響最大,並且所有方法都很好地量化了這些顯性分類單元(圖1B)。

接下來,我們研究了所提出方法的分類分析性能。基於56個屬的出現率大於10%,hybrid-denovo在所有考慮的場景中均與金標準具有更高的相關性,並且其性能對剩餘的R2s百分比不是很敏感(圖1C)。相反,成對端方法的性能在很大程度上取決於R2質量,而當R2質量低時,其相關性要低得多。單端R1方法對於預期的R2數量是不變的,並且僅在R2質量較低時才比配對端方法更好,補充圖3是屬水平的相關性。對於單端方法,2個屬與金標準顯示0相關性,因爲它們的所有R1由於其較短的長度而被重新分類到科級別(Lachnobacterium映射爲Ruminococcaceae,Erwinia映射爲Enterobacteriaceae),這表明系統發育分辨率提高了 使用配對末端讀取。對於配對末端方法,具有低丰度的屬表現出較低的相關性,表明由於配對末端讀數的丟失而降低了定量準確性。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-3PZP7Nqu-1580977777769)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/m_gix129fig3.jpeg)]

mothur,QIIME和hybrid-denovo對核心屬(A)和OTU(B)的類內相關係數(ICC)的比較。 ICC是根據6種不同糞便收集方法的技術重複計算得出的。 Hybrid-denovo在具有不同百分比的高質量R2讀取(100%,75%,50%和25%)的數據集上運行。

基於金標準數據集,我們還比較了mothur和QIIME(兩種用於16S數據的主要管道)與hybrid-denovo。Mothur和QIIME分別花費了大約24和6個小時來完成金標準數據集(n = 837)的分析,而我們的流程大約需要1個小時。Mothur和QIIME分別總共生成了4599和2898個非單OTU,而hybrid-denovo在具有不同質量的R2讀取百分比的數據集上分別生成了1094、1086、1079和1049個非單OTU(100%,75%,50 %和25%)。儘管我們的流程生成的OTU數量較少,但我們檢測到的屬數比mothur和QIIME多。例如,將hybrid-denovo應用於具有50%優質R2讀數的數據集,共產生110屬,而QIIME和mothur分別爲70和84(圖2,右上方,維恩圖)。在針對Greengenes數據庫的QIIME和mothur特定屬(基於R1讀物進行分類)的配對末端配對中使用BLAST,會將許多reads重新分配給其他屬。這表明這些屬可能由於讀長短而被錯誤分類。儘管所有管道中20位受試者的菌羣水平菌羣譜均相似(圖2),但hybrid-denovo的具有未知菌種(5%)的reads比例分別要比mothur和QIIME(14%和18)低得多 。綜上所述,這些觀察結果表明,由於使用更長的讀段,雜交-denovo具有更高的分類學分辨率。有趣的是,所有管道都可以產生相似的樣本間關係,這是根據基於Bray-Curtis距離矩陣的Mantel相關係數測得的(表1)。數據集技術複製的可用性使我們能夠使用類內相關係數比較不同的管道。高ICC表示由生物信息學渠道引入的變異性較小。我們計算了核心OTU和屬的不同糞便收集方法的ICC,這些ICC發生在90%以上的樣本中。我們的管道通常比mothur和QIIME具有更高的ICC(技術複製之間的差異較小)(圖3)。相反,在覈心OTU和屬上,mothur和QIIME的性能分別不佳。

表格1:QIIME,Mothur和Hybrid-denovo之間樣本間距離的Mantel相關性。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-WTLJNXuz-1580977777771)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/com%E6%80%95%E7%83%AD.jpg)]

我們還將我們的方法應用於來自RA研究的數據集[18],其中質量控制後約有40%的R2被丟棄(補充表1)。如預期的那樣,hybrid-denovo產生OTU和屬的數量最多(圖4A),並且涵蓋了成對端方法的所有屬和單端R1方法的大多數屬(圖4C)。在這5個R1特異屬中,將梭狀芽孢桿菌梭菌科和梭狀芽孢桿菌梭菌科02d0細菌重新分類爲梭狀芽胞桿菌梭菌科的梭狀芽胞桿菌屬,由於R1讀長短導致錯誤分類。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-GTKdSz8g-1580977777772)(https://jiawen.zd200572.com/wp-content/uploads/2020/02/m_gix129fig4.jpeg)]

RA數據集上R1,配對和混合方法的比較。 A,檢測到的OTU數量(紅色)和屬(藍色)。 B,通過差異丰度分析(FDR≤0.01)得出的有效OTU數(紅色)和屬(藍色)。 C,檢測到的屬的維恩圖。 D,通過差異丰度分析得出的重要屬的維恩圖。

除了比較檢測到的屬外,我們還證明了在使用DESeq2進行差異丰度分析的背景下,我們流程的優勢。
我們從測試中排除了少於10%樣本中出現的OTU。分別使用混合Denovo,配對和R1方法測試了總共758、578和393個OTU。由於更高的讀取計數和更高的系統發育分辨率,雜交denovo恢復了更多的差異OTU。在FDR調整後的P值爲0.01的情況下,我們總共確定了126個重要的OTU,而對於雙端和單端R1方法,分別爲93和80個OTU。由於不同的方法具有自己的OTU定義,並且很難直接比較差分OTU,因此我們比較了已識別OTU的屬身份。混合-denovo鑑定出的差異性OTU分爲33屬,而雙端和單端R1方法分別爲32和34(圖4B)。這3種方法共有20個重要屬(圖4D),其中許多是以前的研究報告的。例如,擬桿菌中的對照樣品中富集,而柯林斯菌屬,埃格特氏菌,普雷沃特氏菌和梭狀芽胞桿菌中的RA樣品則富集。 即使所有方法的差異屬的總數相似,我們的流程仍可確定其他兩種方法中的一種均共享的最多屬(n = 11),而配對末端和配對方法分別爲6和9。 這表明雜交-denovo方法能夠識別被雙端R1方法或單端R1方法遺漏的差異屬。此外,hybrid-denovo與配對末端(n = 6)和R1單末端(n = 5)的比較中,方法特定屬的數目最少(n = 2)。由於缺乏其他方法的支持,特定於方法的屬可能不太可靠。例如,R1方法發現Veillonella富含對照樣品,這與先前的研究相矛盾。有趣的是,在Zhang等人的報道中,在兩個雜種-denovo特異性屬中,克雷伯氏菌在健康人羣中富集。

討論

我們提出了基於配對末端16S序列標籤的從頭OTU挑選的Hybrid-denovo。 通過仿真和實際數據示例,我們證明了在定量微生物多樣性和生物分類丰度方面,我們的方法比單端或雙端方法具有更好的性能,這是由於在雙端讀取中充分利用了信息。

根據16S擴增子的大小和配對末端讀段的長度,我們可能會有重疊或不重疊的配對末端reads。例如,對V4區域(252 nt,515F / 806R引物)進行測序可產生重疊的配對末端讀數,而對V3-V5區域(694 nt,F357 / R926引物)進行測序可導致使用Illumina產生不重疊的PE reads MiSeq(250 bp×2)。由於QIIME和mothur當前不支持基於非重疊PE reads的從頭OTU揀選,因此我們管道的主要優勢在於能夠處理非重疊配對末端讀取。但是,我們的流程也可以通過使用PANDAseq 將成對的末端讀取拼接在一起而應用於重疊的成對末端讀取。要注意的是,一些現有的流水線還可以處理具有不同容量的雙端和單端讀取的混合。例如,最近提出的LotuS流程使用高質量的R1讀取來構建OTU,然後對R1和R2進行後聚類合併以提高分類法的準確性。 但是,OTU級別的分辨率仍然由R1讀取確定。

有一些針對16S數據開發的新管道。將這些先進的流程與Hybrid-denovo進行基準比較很有意思。我們選擇DADA2和LotuS進行比較,因爲它們已被證明比QIIME和mothur具有更好的整體性能,並且已被社區越來越多地使用。我們對具有完整讀取對的金標準數據集重複了相同的分析。補充說明1中記錄了用於DADA2和LotuS的特定命令行。DADA2產生18 389個序列變體(SV),而LotuS產生472個OTU。雜交denovo和LotuS之間的OTU / SV級Bray-Curtis距離上的Mantel相關性很高(ρ= 0.93),而雜交denovo和DADA2之間的Mantel相關性中等(ρ= 0.71)。有趣的是,所有方法之間在屬水平Bray-Curtis距離上的Mantel相關性都很高(ρ> 0.97),這表明所有方法都可以產生相似的屬水平分佈(補充圖4)。類似的ICC分析表明,所有方法均具有相對較高的ICC,但Hybrid-denovo總體上具有最佳性能(補充圖5)。

從頭OTU聚類的一個問題是潛在的OTU編號膨脹,這可能是由於諸如測序錯誤,嵌合體和環境污染物之類的來源引起的。 在Hybrid-denovo中,我們使用了各種質量過濾標準來減少虛假OTU的數量。 例如,我們應用Trimmomatic [4]修剪和刪除了低鹼基質量的讀段,刪除了含歧義鹼基的讀段,刪除了單例OTU,使用Infernal軟件包[9]刪除了非結構對齊的OTU,並使用了基於參考的 UCHIME作爲附加的嵌合體去除方法[6]。 但是,由於未知的排序錯誤,即使是這些濾波器也可能無法減少誇大的分集估計。 改進流程的多樣性估計將是我們未來工作的重點。

(全文完)

2.再來看看這篇有同行不同意的文章

這篇文章是用於不同文章meta分析的,並不能用於非重疊reads序列的數據分析,反而是上面提到的兩個流程中的LotuS流程可以嘗試體驗一下。摘要也放在這。

摘要

背景

對16S核糖體RNA(rRNA)基因的短而高變部分進行大規模高通量測序已改變了描述複雜生物羣落內部和整個微生物羣落中微生物多樣性的方法論視野。但是,一些研究表明,所觀察到的樣品組成和分佈是由方法而不是生物學差異引起的。儘管經常忽略這一事實,但這會損害薈萃分析。

結果

由於16S rRNA區域特異性的表現,通常觀察到不同的生物學結果。 NG-Tax表現出了對區域選擇和其他與16S rRNA基因擴增子測序研究相關的技術偏見的強大魯棒性,從而減小了其影響並提供了真實樣品組成的準確定性和定量表示。這將改善研究之間的可比性,並促進標準化工作。估計也是和上面一樣的情況。QIIME作爲常用管道。通過在Illumina的HiSeq2000平臺上進行三個獨立的測序運行,對兩個可變的16S rRNA基因區域V4和V5-V6進行測序,對49個獨立擴增的模擬樣品的微生物組成進行了表徵。這可以評估分類學分類中技術偏見的重要原因:1)逐次測序變異,2)PCR錯誤和3)區域/引物特異性擴增偏倚。儘管閱讀時間短(〜140 nt)和所有技術偏見,但模擬羣體中所包含系統型的分類學分配的平均特異性爲97.78%。平均而言,至少有99.95%和88.43%的讀數可以分配給家族或屬,而“虛假屬”的分配平均僅佔每個樣本讀數的0.21%。對α和β多樣性的分析證實了由生物學指導而不是上述方法論指導的結論,而QIIME未能實現這一結論。

結論

由於16S rRNA區域特異性的表現,通常觀察到不同的生物學結果。 NG-Tax表現出了對區域選擇和其他與16S rRNA基因擴增子測序研究相關的技術偏見的強大魯棒性,從而減小了其影響並提供了真實樣品組成的準確定性和定量表示。這將改善研究之間的可比性,並促進標準化工作

參考:

1.https://www.researchgate.net/post/do_you_know_the_possibilities_of_the_use_of_non-overlapping_Illumina_PE_reads_for_16S_rDNA_microbial_population_studies

2.Hybrid-denovo: a de novo OTU-picking pipeline integrating single-end and paired-end 16S sequence tags

3.NG-Tax, a highly accurate and validated pipeline for analysis of 16S rRNA amplicons from complex biomes

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章