Microbiome:使用16S rRNA基因數據集實現種水平的分類

編譯A國民少女,編輯:小菌菌、江舜堯。

導讀

16S rRNA基因測序的低成本促進了人口規模的分子流行病學研究。現有的計算算法可以將16S rRNA基因序列解析爲高分辨率擴增子序列變體(ASV),這代表了可用於不同研究的一致標籤。將這些ASV分配給物種級別的分類,可增強基於16S rRNA基因的微生物羣研究的生態和/或臨牀相關性,並進一步促進跨研究的數據比較。

論文ID

原名:Construction of habitat-specific training sets to achieve species-level assignment in 16S rRNA gene datasets

譯名:16S rRNA基因數據集實現種水平的分類-構建棲息地特異的訓練集 

期刊:Microbiome

IF:11.6

DOI:https://doi.org/10.1186/s40168-020-00841-w

發表時間2020.05.15

第一作者:Isabel F. Escapa, Yanmei Huang

通信作者:Katherine P. Lemon

合作作者:Tsute Chen, Maoxuan Lin, Alexis Kokaras, Floyd E. Dewhirst

通信作者單位:美國馬薩諸塞州福塞斯研究所(微生物學)

實驗設計

本研究假設可以開發一種方法來快速生成針對特定棲息地的訓練集,以利用樸素的貝葉斯RDP分類器的優勢來從本地開始,持續實現ASV的物種或超物種(即亞屬)級分類學分配,基於系統發生學的高分辨率(即,以≥98.5%的相似度)精選的參考序列集,具有不同的分類學名稱。在這裏,該研究將樸素的貝葉斯RDP分類器與訓練集結合使用,在該訓練集中,每個分類單元由一組高度相似的序列表示,這些序列捕獲了每個物種的自然變異性,從而實列短讀長的正確物種級別的分類學分配和16S rRNA基因的長讀長序列。這代表了方法學上的進步。本研究用於生成訓練集的系統方法適用於任何感興趣的生態系統/生境,並在圖1中進行了概述。此方法需要從生境中編譯高質量的接近全長的16S rRNA基因數據集(圖1a)。這些編譯後的數據集用於識別策劃的參考序列,以建立一個16S rRNA基因數據庫(圖1b),從該數據庫導出該棲息地的訓練集(圖1c)。

本實驗的數據分析方法如下:

  1. 1.     基於eHOMD的樸素貝葉斯RDP分類器訓練數據集的構建

  2. 2.     源自eHOMDV1-V3 16S rRNA基因模擬數據集的生成

  3. 3.     鼻竇PacBio-SMRT測序的全長16S rRNA基因數據集的重新分析

  4. 4.     從全長16S rRNA基因克隆庫(CL)生成測試V1-V3人體呼吸道(hADT)微生物羣數據集

  5. 5.     使用樸素的貝葉斯RDP分類器進行分類分配

  6. 6.     DADA2完全匹配的分類分配

  7. 7.     使用blastn進行分類分配

 

1 在爲特定棲息地(人類消化道)構造訓練集時,數據集、數據庫和訓練集之間的關係。 a:從公共資源庫收集的數據集或通過對新樣品進行測序獲得的數據集用於探索目標生境的16S rRNA基因多樣性。這些包括用於方法驗證或基準測試的16S rRNA全長序列和區域特定的短讀序列。 b:通過從那些數據集中選擇命名和尚未命名或未知物種(如:eHOMD中的HMT)的代表性序列,以迭代的方式組裝並擴展了一個精選的棲息地特異性全長16S rRNA基因參考數據庫,並且將它們放置在系統發育樹中。 c:訓練集源自棲息地特定數據庫的分類體系,並通過以下步驟得到增強:編譯多個16S rRNA基因序列來代表每個分類羣的自然序列變異性,修正訓練集以匹配序列化區域,並將共享密切相關序列的物種置於超物種分類標準中。

結果

1 在訓練集中對每個分類單元的密切相關序列進行編譯,可提高物種級分類的準確性

屬級分類分配不是樸素貝葉斯RDP分類器的固有限制。更確切地說,16SrRNA基因短讀的分類分配受到兩個方面的限制,一是數據集中序列的分辨能力,二是所使用的訓練集的性質。前者可以通過使用DADA2UNOISE2等方法在單核苷酸水平上解決序列變異。我們假設訓練集固有的侷限性也可以被克服。樸素貝葉斯RDP分類器算法表明,訓練集中每個分類單元的序列個數越大,分類分配就越有信心。基於一個分類單元(T)的成員的條件概率,在訓練集中給定的可識別的“k-mer”出現的頻率越高,對該分類單元的賦值就越有信心,即,可以明確地對更多的序列進行分類。因此,隨着訓練集合中每個分類單元的序列數(M)的增加(2a和圖2b),精確分配的數量應該增加。因此,爲了系統地增加M,我們使用了eHOMD中的每個參考序列(即eHOMDrefs)作爲誘餌,以捕獲緊密匹配的,公開可用的序列,並將每個分類羣的序列結果組合成接近完全的長度彙編訓練集(FL_ Compilation_TS),它反映了每個分類單元的當前已知的16SrRNA基因序列變異性,包括自然誤差和測序誤差。

爲了評估FL_Compilation_TS的性能並進行進一步的方法優化,我們通過在訓練集序列的V1-V3修整版本中引入1%的錯誤率,創建了模擬數據集V1V3_eHOMDSim_250N100。此模擬數據集旨在模擬真實測序的短讀,類似於使用我們的方法獲得的16S rRNA基因V1-V3區域信息豐富的方法使用Illumina MiSeq進行測序數據,然後使用訓練集FL_Compilation_TS(圖3a中的橙色條形)與訓練集FL_eHOMDrefs_TS(圖3a中的紫色條形)相比,後者僅由eHOMDrefs組成。這樣做,我們觀察到在編譯時分類爲TS的物種級別的讀取的百分比有所增加,但引導值是100。我們假設,引導分類爲100的訓練集FL_eHOMDrefs_ TS所分類的其他序列被錯誤分類了序列。由於訓練集FL_eHOMDrefs_TS僅包含每個分類單元的幾個代表性序列,因此預期會有較高的錯誤分類率。因此,我們接下來分析任何錯誤分類。在每個引導閾值下,使用訓練集,被錯誤分類的讀數的百分比至少低50 FL_Compilation_TS(圖3b,橙色線)要比訓練集FL_eHOMDrefs_TS(圖3b,紫色線)高。因此,當使用訓練集時,對數據集V1V3_eHOMDSim_250N100的分類顯示出降低的錯誤率和增加的置信度,該訓練集由緊密相關的序列的彙編組成,而不是每個分類羣僅由一個或幾個參考序列組成的訓練集。

 

2 生成序列特定習性訓練集的步驟示意圖。

a : FL_eHOMDrefs_TS訓練集包含來自eHOMDv15.1的所有全長eHOMDrefs(粗線)及其各自的分類分配。當只有一個讀代表每一個分類單元(M = 1),一個給定的區分k-mer(綠色片段)只能出現存在(1)或不存在(0)。b:每個分類單元(M)的序列數量更多,可以更好地解決分配問題,每個讀數簇(綠色片段)中存在給定的區分k-merwi),表示爲比例(m)該分類單元中讀取的總數的總數(M)。c:訓練集V1V3_Raw_TSFL_Compilation_TS訓練集的V1-V3精簡版本。該示意圖說明了對該區域的精簡如何導致具有兩個不同分類名稱的相同讀取(紫色線)

 

3  FL_Compilation_TS訓練集提供了更高的分類百分比和更低的錯誤率。 a:使用FL_eHOMDrefs_TS訓練集(紫色)相對於FL_Compilation_TS訓練集(橙色)對eHOMD衍生的模擬讀段的百分比。 b:被錯誤分類的分類讀物的百分比(即,爲其分配的分類學身份不同於從其獲得模擬讀物的原始序列的已知身份的讀物)。樸素的貝葉斯RDP分類器使用的引導值範圍爲50100

 

2 向合適的短讀段訓練集移動

訓練集FL_Compilation_TS由接近全長的16S rRNA基因序列組成。我們假設,在訓練集中V1-V3區域之外存在k-mers時,將其與V1-V3區域數據集一起使用可能會導致錯誤分類。爲此,當使用基於大型通用數據庫的訓練集時,修正參考序列以匹配測序區域會增加分配給分類法的序列數量。因此,我們將訓練集FL_Compilation_TS中的序列修整爲僅覆蓋生成訓練集V1V3_Raw_TSV1-V3區域(圖2c)。使用此方法,在分類爲物種級別的模擬數據集V1V3_ eHOMDSim_250N100中,讀取的百分比沒有增加(圖4a,綠色條)。此外,我們觀察到錯誤分類讀取的百分比增加(圖4b,綠線),即分配準確度降低了。因此,我們接下來確定了爲什麼在此訓練集中使用適當的短讀片段會自相矛盾地降低物種級別分配的置信度和準確性,並解決了該問題。。

 

將密切相關的,無法區分的分類單元合併到超物種中,可以減少短讀訓練集的錯誤率

考慮到上述悖論的可能解釋,我們意識到具有獨特的全長16S rRNA基因序列的類羣可以具有相同的V1-V3序列。在計算機上,僅使用V1-V3eHOMD中約770種物種分類單元中的37種就不再能夠與至少一種其他物種以100%的身份進行區分。因此,我們假設使用訓練集V1V3_Raw_TS觀察到的準確性損失是由於具有多個物種名稱的相同序列,例如Veillonella parvulaVeillonella dispar。爲了解決這個問題,我們刪除了重複的序列,併爲剩下的唯一序列分配了一個組合名稱,即特定於訓練集的超種名稱。我們注意到,術語``超物種''並不是一個有效的分類標籤,因爲它取決於數據庫,並且對於不同的短讀16S rRNA基因區域可能有所不同,即特定於訓練集。這導致了訓練集V1V3_Curated_TS,與FL_Compilation_TSV1V3_Raw_TS相比,其顯示出更高的準確性(圖4b,紅線)。但是,這種改進的結果是,在每個自舉閾值下,指定爲超物種或物種水平分類法的讀數降低了0.7%至4.4%(圖4a,紅色條)。這種權衡可以通過在每個自舉閾值處繪製圖表來說明,其中包括使用模擬的V1V3_eHOMDSim_250N100數據集的讀取錯誤百分比,以及使用樸素的貝葉斯RDP分類器使用V1V3_Curated_TS確定的物種級別分類標準(圖4c)。

 

將訓練集修剪到特定的序列區域可進一步降低錯誤率。 a:使用FL_Compilation_TS(橙色)訓練集與後續修剪版本V1V3_Raw_TS(綠色)和V1V3_Curated_TS(紅色)相比,源自eHOMD的模擬讀數在物種級別分類的百分比。 b:被這三個訓練集中的每個分類錯誤的分類讀物的百分比。 c:此圖特定於eHOMD訓練集構造(V1V3_eHOMDSim_250N100數據集),表明研究人員如何通過確定可接受的錯誤分類讀物百分比(藍線;可接受的水平)來確定要與樸素貝葉斯RDP分類器一起使用的引導程序值。未分類的讀取百分比(紅線)。樸素的貝葉斯RDP分類器使用的引導值範圍爲50100

 

4 爲了使樸素貝葉斯RDP分類器在短序列亞屬級分類分配中的性能最大化,需要將超物種作爲分類級別插入並設置閾值引導

要獲得使用超物種定義的好處,需要執行兩個步驟。首先,在訓練集的每個序列的名稱標頭中的屬和種之間正式插入超種作爲訓練集特定的分類學級別,從而產生訓練集V1V3_Supraspecies_TS(圖2e)。其次,建立在物種級別未分配序列的自舉截止值,這樣,樸素的貝葉斯RDP分類器將默認爲超物種級別,而不是默認爲屬,從而允許更高百分比的讀取被分配(圖5a,藍色條)。後面的步驟將保留在ASV中編碼的子屬級別信息。該選擇不可避免地涉及準確性和分類在屬水平以下的讀取百分比之間的權衡,例如,參見圖4c。爲了我們的目的,我們選擇了保守的引導帶值爲70(圖5b,藍線)。利用已知真相的模擬數據,得出的錯誤率約爲0.05%。值得注意的是,儘管樸素的貝葉斯RDP分類器的一個常見引導程序設置爲50,但對於V1V3_Supraspecies_TS的物種級分類分配,我們使用了更爲保守的值。

 

在訓練集中加入一個超物種等級會增加分類閱讀的百分比。 a :使用V1V3_Curated_TS訓練集(紅色)與FL_Supraspecies_TS訓練集(藍色)在物種/超物種級別分類的eHOMD衍生模擬讀數的百分比。 b:在每個培訓集中被錯誤分類的分類閱讀的百分比。樸素的貝葉斯RDP分類器使用的引導值範圍爲50100

 

5 eHOMD培訓集優於SILVA和RDP訓練集

本實驗將分類學分配方法與其他當前可用的數據庫(與RDPSILVA數據庫)相結合的使用進行了比較。爲此,我們使用了三個不同的數據集:(1)生成了一個V1-V3數據集,該數據集來自人類消化道16S rRNA基因克隆庫(V1V3_hADT_CL;附加文件9);(2)先前分析過的HMP 16S rRNA基因V1-V3 454測序的鼻孔數據集;(3FL_sinonasal_SMRT_ASV數據集的接近全長的ASV。然後,使用樸素的貝葉斯RDP分類器將它們的屬級分類法分配給所有這些,它們的自舉閾值爲70,並結合三種不同的訓練集:eHOMD訓練集(V1-V3FL),RDP16SILVA132(後兩個來自https://benjjneb.github.io/dada2/training.html)。 eHOMD訓練集導致每個數據集分配給特定屬的讀物百分比更高;但是,所有三個訓練集都導致屬級分配大於90%的序列。相反,將分類法分配給物種級別時,不同工作流之間出現了顯着差異。研究將樸素的貝葉斯RDP分類器與eHOMD訓練集結合使用的方法,與目前在DADA2 R軟件包中結合SILVA132RDP16實施的精確字符串匹配方法相比,在分類讀取的百分比方面顯示出優異的性能。不出所料,精確匹配算法將比V1-V3區域ASV更高的接近全長ASV百分比分配給了分類法。需要說明的是,這些綜合數據庫的註釋錯誤率估計高達10%至17%。對於V1-V3區域的ASV,與HMP V1-V3數據集相比,V1-V3人類空氣消化道克隆文庫數據集中的V1-V3序列的性能也要好得多。我們推測發生這種情況是因爲來自人類航空消化道克隆庫(V1V3_hADT_CL)數據集的近乎全長序列是RDPSILVA數據庫的一部分,而HMP V1-V3 454序列卻不是。這些數據的關鍵意義在於,使用V1-V3短讀序列,我們的整體方法可對人的消化道的16SrRNA基因測序產生可比的物種水平結果,與使用接近完整的方法相比,這是非常經濟的長的PacBio SMRT序列。另一個含義是,對於缺乏高分辨率,準確的16S rRNA基因數據庫的棲息地微生物羣進行物種水平分析,提供有效的物種級分類學分配。值得注意的是,超種一詞不是有效的分類標籤,因爲它取決於數據庫,並且對於不同的短讀16S rRNA基因區域可能有所不同。這樣,需要爲每個感興趣的短讀區域生成一個單獨的訓練集。另外,訓練集需要與數據庫相關聯的定期維護,並且需要在其關聯數據庫的每個主要修訂版本中進行重新生成。從理論上講,其他分類標準的封閉參考方法可能會受益於中間分類學級別的添加,以保持該方法可能的最高分辨率,例如,如果菌株之間的關係過於緊密,則物種和菌株之間的超應變相關明確區分。

 

討論

本研究開發了一種廣泛適用的方法來構建高分辨率訓練集,該方法基於在感興趣的棲息地發現的微生物之間的系統發育關係。當與樸素貝葉斯核糖體數據庫項目(RDP)分類器一起使用時,該訓練集實現了16S rRNA基因衍生ASVs的物種/超物種級分類分配。生成這樣一個訓練集的關鍵步驟是:

(1)構建一個精確而全面的基於系統進化的、特定於棲息地的數據庫;

(2)編譯多個16S rRNA基因序列,表示數據庫中每個分類單元的自然序列變異性;

(3)必要時對訓練集進行修整,使其與序列區域相匹配;

(4)將共享密切相關序列的物種置於訓練集特有的超物種分類水平,以保持亞屬水平的分辨率。

作爲原則性的證明,實驗開發了一個V1-V3區域訓練集,使用在擴展人類口腔微生物組數據庫(eHOMD)中編譯的全長16S rRNA基因參考序列來訓練人類呼吸消化道的細菌微生物羣。該研究還克服了技術上的限制,成功地將Illumina序列用於16S rRNA基因V1 - V3區域,該區域是對原生於人類空氣消化道的細菌進行分類的信息最豐富的片段。最後,研究生成了一個長篇eHOMD 16 s rRNA基因訓練集與一個獨立的PacBio單分子,結合使用實時(SMRT)鼻腔鼻竇數據集驗證細菌測序在我們訓練集的代表性物種。這也確定了全長訓練集對分配長期閱讀的16S rRNA基因數據集的分類的有效性。

 

結論

本文提出了一種系統的方法,用於構建基於系統發育的,高分辨率的,棲息地特定的訓練集,該訓練集允許將物種/超物種級別的分類學分配給短和長閱讀的16S rRNA基因衍生的ASV。這一進步增強了基於16S rRNA基因的微生物羣研究的生態和/或臨牀相關性。

猜你喜歡

10000+:菌羣分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組  宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

必備技能:提問 搜索  Endnote

文獻閱讀 熱心腸 SemanticScholar Geenmedical

擴增子分析:圖表解讀 分析流程 統計繪圖

16S功能預測   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在線工具:16S預測培養基 生信繪圖

科研經驗:雲筆記  雲協作 公衆號

編程模板: Shell  R Perl

生物科普:  腸道細菌 人體上的生命 生命大躍進  細胞暗戰 人體奧祕  

寫在後面

爲鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論羣,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入羣,務必備註“姓名-單位-研究方向-職稱/年級”。PI請明示身份,另有海內外微生物相關PI羣供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決羣內討論,問題不私聊,幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”

點擊閱讀原文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章