NAR:宏基因組網絡分析工具MetagenoNets

MetagenoNets:微生物相關網絡的綜合推斷和整合見解

MetagenoNets: comprehensive inference and meta-insights for microbial correlation networks

Nucleic Acids Research [IF:11.147]

2020-04-27  Web Server

DOI: https://doi.org/10.1093/nar/gkaa254

第一作者:Sunil Nagpal, Rashmi Singh, Deepak Yadav

通訊作者:Sharmila S Mande([email protected])

作者單位:TCS研究部生物科學研發部,印度馬哈拉施特拉邦(Bio-Sciences R&D Division, TCS Research, Pune, Maharashtra 411013, India)

摘 要

微生物關聯網絡通常用於理解和比較微生物組數據集中的羣落動態。然而,要推斷此類網絡的微生物相關性並獲得有意義的生物學見解,就需要冗長的數據管理工作流程,選擇適當的方法,進行統計計算,然後通過不同的流程進行適當的可視化、報告和比較。隨着通常與微生物組研究相關的多組“元數據”和“組學”功能概況的增加,複雜性進一步增加。這不僅需要分類網絡,而且需要集成的雙向網絡。網絡推理算法的多種選擇進一步增加了執行基於相關性的微生物組相互作用研究所需的工作量。我們介紹了MetagenoNets,這是一個基於Web的應用程序,它接受多環境微生物的丰度和功能配置文件,智能地分隔“連續和分類”的元數據,並允許對分類,集成(組間)和分類的推理和可視化雙向網絡。MetagenoNets的模塊化結構可確保在直觀且交互式的個性化儀表板驅動的框架中進行邏輯分析(推理,集成,探索和比較)。動態選擇過濾,標準化,數據轉換和相關算法可確保最終用戶獲得微生物網絡分析的一站式解決方案。MetagenoNets可從 https://web.rniapps.net/metagenonets 免費使用。

背景

由於存在於各種混雜因素或環境條件相互作用下的多種微生物,微生物生態系統本質上是複雜的。宏基因組學是對從環境樣品中獲取的基因組材料的研究,其目標是微生物DNA破譯收集到的樣品的分類學和功能屬性,隨着下一代測序技術的出現,該方法獲得了極大的發展。獲得有關各種微生物組合物的結構或組成方面的見解始終始終是大多數宏基因組學研究的主要目標之一。然而,微生物組研究人員感興趣的另一個問題與微生物羣落動態有關,即在所研究的宏基因組學環境中各種微生物如何相互關聯或相關。即使有多種策略可用於挖掘微生物與微生物的關聯,例如基於證據的關係挖掘和功能驅動的關聯,一種常用的微生物相互作用挖掘方法旨在探測在環境中檢測到的微生物的發生(丰度)分佈之間的相關性,這樣的網絡也被稱爲共現網絡(occurrence networks),並經常在宏基因組研究中使用)。然而。鑑於微生物生態系統的複雜性以及與網絡/圖論方法相關的技術方面,研究人員在進行有意義的網絡分析時經常面臨多重挑戰。這些挑戰可以分爲三類:

冗長的微生物網絡分析工作流程

Lengthy workflow for microbial network analysis

網絡推理的典型工作流程通常涉及(a)大量數據過濾以去除虛假或不相關的特徵,(b)從多種數據歸一化和轉換策略中進行選擇,以考慮樣本間偏差,混淆因素,組成等。(c)在多種相關推斷方法中進行選擇以得出網絡文件(相關矩陣,鄰接矩陣,邊列表等)。(d)使用圖論算法來計算網絡特徵(例如全球網絡屬性,局部中心度量等)使用所述網絡文件,並且(e)使用可視化工具查看網絡

宏基因組數據帶來了額外的複雜性

Meta-data introduces additional complexity

與宏基因組學研究相關的綜合元數據的可用性爲推斷和探測微生物關聯網絡的問題增加了另一層複雜性。對於給定的環境,可以有多個級別的元數據組或類別(例如,地理上的環境可以將國家作爲組)。這就需要爲每個這樣的組分別處理網絡。此外,還經常收集連續的元數據(如BMI,年齡),因此研究人員也有興趣探索微生物丰度與此類連續數據點(或協變量)的相關性

組間數據進一步增加了複雜性

Inter-omic data further increases complexity

宏基因組學研究通常具有一個或多個“相關的”組學內丰度特徵。例如,隨機宏基因組學測序研究不僅可以爲研究人員提供微生物的丰度概況,還可以爲各種功能單元(如酶,GO,COG,基因等)提供丰度。對同一組樣品的相關組學研究(如轉錄組圖譜)也可以成爲緊密相關的組學數據。16S研究的推斷功能是與微生物丰度數據集相關的組間圖譜的另一個示例。此類二級數據集的可用性通常導致需要挖掘具有此類組間單元(如功能,基因等)的微生物的相關性。這種關聯的結果通常以“組間集成網絡”和“雙向網絡”的形式可視化。因此,期望爲每個元數據類別(和相應的組)實現相同的過程是複雜且乏味的。

例如,對於從健康個體以及受疾病影響的各個身體部位採集的樣本人羣,以下與典型微生物羣落動力學研究有關的問題可能具有相關性:

a. 健康和受影響個體特有的微生物共生模式是什麼?

b. 健康個體和受影響個體的身體部位特有的關聯模式是什麼?這些網絡如何在交互和各種網絡屬性方面進行比較?

c. 在所有/任何類別的網絡中,某些微生物的出現與年齡或BMI或體重或個體的任何其他“連續”特徵之間是否存在相關性?

d. 給定樣品的代謝特徵、微生物或一組微生物的出現與目標代謝物或一組代謝物的分佈之間是否有關聯?

這些問題中有許多使研究人員興奮不已,要找到答案,需要共同努力。在當前的最新狀態下,對微生物相關網絡的典型研究要求依賴於獨立的通用軟件、插件、本地安裝的程序以及高級編程知識。數量有限的可用Web應用程序要麼太專門於其他研究領域,要麼提供的功能很少。此外,當前缺乏允許組間關聯網絡分析和有意義的可視化來解決此類問題的網絡服務器。表1提供了當前最新狀態下網絡生物學領域(包括專門用於微生物組研究的工具)的各種工具的範圍和特徵的全面比較。

表1.比較當前網絡生物學領域中各種工具(包括專門用於微生物組研究的工具)的範圍和關鍵特徵

Table 1.
Comparison of the scope and key features of various tools in the network biology space (including those specifically used for microbiome research) in the current state of the art. Links to access the tools have been provided in the last column of the table

我們介紹了MetagenoNets,這是一個基於Web的模塊化框架,旨在簡化推理和分析相關驅動的微生物關聯網絡的過程。MetagenoNets的以下功能預計將在微生物組網絡分析領域帶來巨大的附加值:

接受小到大的微生物特徵表(發生率或丰度分佈圖)以及多級元數據。提供輔助功能表(如功能配置文件)可以爲集成分析提供更深入的見解。

a. 提供常用的數據標準化策略和轉換方法。

b. 通過流行度和基於事件的過濾器來減少特徵。

c. 研究人員經常使用的相關性驅動網絡推斷方法的可用性。

d. 將元數據智能分類爲分類和連續數據類型。

e. 提供分類,集成和雙向網絡的生成和可視化。

f. 所有網絡,網絡屬性和相關性值的交互式可視化。

g. 通過交互式維恩圖進行分類網絡的組成比較。

h. 獨立註冊的個性化儀表板系統,可實現隱私,可追溯性,協作性。

數據格式,輸入參數和方法

DATA FORMAT, INPUT PARAMETERS AND METHODS

丰度數據 Abundance data

MetagenoNets接受兩種類型的丰度數據集:(i)主要輸入數據;(ii)輔助輸入數據。主要輸入數據本質上是一個(製表符或逗號)定界的多元丰度表,表示從隨機測序宏基因組學研究或從16S研究中使用的各種基於新穎或基於參考的分類學分類器中獲得的各種操作生物分類單位(OTU)的丰度。。BIOM文件也可以提交。必須向MetagenoNets提供主要的輸入數據集。輔助輸入數據(也是多元丰度表)(或BIOM文件)是可選的輸入數據類型。該表可能包含主要輸入數據中提供的樣品的組間特徵(如途徑丰度,代謝物丰度等)。

元數據 Meta-data

MetagenoNets接受兩種類型的元數據,(i)主要元數據,(ii)節點元數據。主元數據是(製表符或逗號)定界的文件,其中包含多列示例信息。代表各種環境類別(例如疾病狀態,地理等)的元數據文件的每一列包含對應於總體中所有樣本的各種子類別的名稱或協變量的數量(例如BMI或年齡)。節點元數據是可選的,包含與主要輸入數據中存在的特徵有關的元信息(例如,不同微生物屬的門屬關係)。該元數據信息用於動態定製網絡節點的顏色。對於豐富的BIOM文件類型,將自動從上傳的輸入BIOM文件中提取元數據。

過濾參數 Filtration parameters

MetagenoNets爲最終用戶提供了通過普遍性和基於事件的過濾標準過濾稀疏特徵的規定。流行率是指樣本中必須存在給定特徵的最小丰度,而發生率是指在流行度閾值下必須存在給定特徵的最小樣本數。這些參數可以在開發個人儀表板(即分析工作區,如下所述)之前和之後進行調整。

標準和轉換方法 Normalization and transformation methods

MetagenoNets提供了用於微生物組數據集的大多數流行的數據歸一化和轉換方法。“總和比例縮放”(Total Sum Scaling,TSS),“累積和比例縮放”(Cumulative Sum Scaling,CSS)和四分位數歸一化(Quartile normalization)構成了一組歸一化技術,“相對對數表達式”(Relative Log Expression,RLE,在edgeR包中實現),“M值的均方根” (Trimmed Mean of M values,TMM)和“中心對數比率”(Centered-Log Ratio,CLR)是可供最終用戶使用的流行轉換方法。可以動態選擇更改歸一化或轉換方法的選擇,從而可以靈活地在單個工作空間或個人儀表板上檢驗各種策略(無需重新上傳數據)。值得注意的是,這些方法僅適用於主要輸入數據。

相關推理算法 Correlation inference algorithms

以前,研究人員依靠經典的相關指標(如Spearman或Pearson相關係數)來評估微生物/ OTU之間的相關關聯。在意識到微生物組數據集的組成特性之後,不僅推薦使用CCREPE/ReBoot,SPARCC,CCLasso和NAMAP之類的算法,而且建議將其用於有意義的分析。這些計算和統計密集型算法中的每一個在安裝,數據準備和工作流程方面都有其自身的挑戰。除了經典的相關度量,MetagenoNets還配備了上述算法,並且還包括其他經典的基於Spearman / Pearson相關方法的自舉變量(bootstrapped variants)。最終用戶可以動態選擇統計顯著性(P值,q值),迭代閾值和其他算法調整參數。

數據上傳和任務管理系統

UPLOAD PROCESS AND TASK MANAGEMENT SYSTEM

MetagenoNets遵循基於小部件的順序任務提交工作流。

步驟1與最終用戶可用的所有類型的數據上傳有關。考慮到免註冊框架,必須在此步驟中提供易於識別的“任務標籤”。此作業標籤映射到特定於用戶啓動的任務的唯一且個性化的(八個字符)儀表板標識符。可以通過MetagenoNets的工作歷史頁面進行訪問。提供實時狀態終端以跟蹤提交中的任何錯誤。

步驟2提供了用戶上傳的數據統計信息的摘要。值得注意的是,MetagenoNets會自動推斷提供的元數據文件中的分類元數據類型和連續元數據類型。統計摘要提供與所有輸入類別以及元數據有關的定量信息。

步驟3允許最終用戶提供數據過濾,歸一化/轉換參數的初始選擇,這些參數可以應用於開發個人儀表盤的主要輸入數據(即功能部件或OTU丰度配置文件)。

步驟4提供了所有輸入/選擇的全局摘要,並尋求最終用戶的批准以開發個人儀表板(即分析工作區)。一旦獲得批准,儀表板將立即開發,並且用戶可以選擇訪問儀表板。

使用作業標籤和相應的儀表板標識符同時更新作業歷史頁面,以供以後訪問工作區。作業歷史記錄部分中提供的作業搜索窗口小部件還允許用戶使用遠程協作者共享的唯一標識符訪問任何儀表板。

個性化面板和結果

PERSONAL DASHBOARD AND RESULTS

MetagenoNets的模塊

Modules of MetagenoNets

MetagenoNets中的四個模塊,分別指定用於一組特定的分析和可視化,在稱爲儀表板的個人工作區框架中提供。這些模塊包括:(i)分類網絡,(ii)集成網絡,(iii)Venn圖和(iv)屬性。

分類網絡模塊

Categorical networks module

該模塊允許推斷和可視化各種類別特定的網絡,其中類別是從MetagenoNets檢測到的類別元數據類別中自動得出的。例如,對於與“健康狀況”相關的類別,可能會顯示“疾病”和“健康”類別。不僅可以使用各種算法(和關聯的參數)動態推斷網絡,而且還可以使用交互式和可定製的網絡圖和相關圖表(相關矩陣的熱圖)對每個感興趣的類別進行可視化。在可視化中包含各種集中度量和節點元數據隸屬關係的選項進一步增加了該模塊的整體效用(圖1A)。該模塊的結果可以高分辨率圖像和可重複使用的文本數據(邊列表,相關矩陣,json格式文件等)的形式下載。

圖1. 由MetagenoNets的不同模塊生成的各種可視化的摘要

A summary of various visualizations generated by different modules of MetagenoNets.

(A)每組元數據類別(即疾病狀況)的分類網絡和相應的相關圖。結節根據其門所屬關係着色,並根據其程度確定大小。
(B)整合的二分網絡和sankey圖,探查微生物的發生與支鏈氨基酸(BCAA)的丰度、脂多糖生物合成(LPS)和甲基赤蘚糖醇磷酸途徑1功能之間的相關性。
(C)節點和邊組成維恩圖繪製了疾病狀況元數據類別中的所有網絡組。
(D)使用分組箱圖對每個組的網絡集中度度量進行比較。在網絡的兩個組(類別)中都比較了度中心度和聚類係數。

整合網絡模塊

Integrated networks module

該模塊允許對集成和雙向網絡進行推理和可視化。整合網絡表示混合特徵類型(例如分類羣或微生物),功能(例如代謝產物)和連續元數據類(例如年齡)之間的相關性,因此允許特徵內類型關聯以及特徵間類型關聯。另一方面,雙向網絡僅允許特徵間類型的相關性挖掘。MetagenoNets允許最終用戶使用具有搜索功能的小部件來選擇功能(或輔助功能)以及連續的元數據類,以探查所搜索功能與主要功能集(分類)的相關性。除了繼承分類網絡模塊的所有功能之外,MetagenoNets的該模塊還允許通過直觀的Sankey圖可視化雙向網絡,其中,分類單元沿左軸對齊,而協變量和函數沿右軸對齊(圖1B)。

維恩圖模塊

Venn diagram module

該模塊旨在探索給定類別的元數據的相關網絡之間的構成比較。組成比較是指識別相同或排他節點的集合以及相關網絡類別之間的邊緣。這是通過提供節和邊組成維恩圖的自動生成來實現的。用戶可以選擇任何感興趣的元數據類別,並在該類別的所有網絡類別中探查相交或互斥的節點和邊緣(圖1C)。該模塊中還提供了類,網絡算法和其他參數的動態選擇。

屬性模塊

Properties module

探索和比較與各種網絡相關的中心性度量是網絡生物學中一種合理且經常遵循的方法。屬性模塊允許探索流行的中心性度量(centrality measures),即度(degree),聚類係數(clustering coefficient),緊密度(closeness),介數(betweenness),離心率(eccentricity)和核數(coreness)。該模塊提供兩種類型的結果:

(i)選定網絡的所有節點的中心性度量(centrality measures)的列表,具有搜索,排序,過濾和導出結果的功能;

(ii)趨勢線嵌入式分組箱圖視圖,用於全局比較所選類別的元數據中所有類別的網絡中的所選中心性度量(圖1D)。像所有其他模塊一樣,該模塊中也提供了動態選擇類,網絡算法和相關參數的功能。

還提供了一個故障排除模塊,用於根據MetagenoNets的要求格式化數據。除了清除數據中是否存在特殊字符,NA(或缺失)值外,該模塊還允許從各種類型的BIOM文件中提取丰度數據和元數據。

演示和案例研究

DEMOS AND CASE STUDY

在MetagenoNets服務器上的 https://web.rniapps.net/metagenonets/demos.php 上託管了四個準備執行的演示。對應於儀表板ID:1a52c9c2 的演示之一與該用例有關,該用例旨在研究包括克羅恩病(CD)和潰瘍性結腸炎(UC)在內的炎症性腸病(IBD)中的微生物(組間)關聯模式。與宏基因組研究相對應的分類和功能概況(可從MetagenoNets演示頁面下載)是從與HMP2有關的炎症性腸病多組學數據庫(https://ibdmdb.org/)獲得的。

我們考慮了與研究中所有受試者相對應的零日樣本(76 IBD:48 CD,28 UC;24 非IBD)。該研究作者先前採用的Spearman相關係數用於關聯挖掘。與非IBD類別相比,與IBD樣本有關的分類網絡表明網絡密度明顯增加。關於微生物的門屬關係的節點元數據作圖表明,IBD樣品中屬於擬桿菌門的高度結點富集,而屬於菌門菌和放線菌的結節數減少(圖1A)。以前有報道稱,屬於厚壁菌門和放線菌門的成員會產生有益的代謝產物,如SCFA,有助於維持結腸健康和腸道內腔完整性。同樣,據報道,較高的擬桿菌門可能與各種代謝紊亂有關(36)。此外,我們使用了“整合網絡”模塊的搜索小部件,選擇了據報道富含IBD樣品類別的有害途徑(脂多糖生物合成途徑或LPS)和富含非IBD類別的有益途徑(支鏈氨基酸生物合成途徑或BCAA),以推斷出與這些功能相關的重要微生物,以及此類關聯在不同類別的網絡之間如何變化(圖1B)。可以注意到,雖然LPS是低度全身性炎症的已知標誌,但先前的研究報道[37],已知BCAA可以促進腸道健康。通過集成網絡模塊生成的二分網絡和Sankey圖表明,儘管在非IBD樣本中任何微生物和LPS之間都沒有顯著相關性,但發現大腸桿菌與革蘭氏陰性細菌呈正相關。LPS在IBD類別中。此外,雖然在非IBD樣品中發現BCAA生物合成與大多數共生和有益細菌菌株呈正相關,但觀察到這種相關性消失並轉移到IBD類別的致病菌株中。正如作者報告的那樣,在非IBD中甲基赤蘚糖醇磷酸酯(MEP)和腐臭菌之間存在正相關性,這是腐臭菌的過度轉錄功能(36,37)。爲分類網絡和整合網絡生成的相關圖表明瞭上述相關性的強度(圖1B)。

使用維恩圖模塊比較每個網絡類別的節點和邊緣組成,結果表明,大多數節點在IBD網絡和非IBD網絡之間是通用的,而邊維恩圖表明存在特定於疾病狀況的排他性邊緣。這肯定了,儘管IBD和非IBD特定分類網絡之間的節點集幾乎相似,但根據疾病狀況,它們的相互關聯卻發生了顯著變化或營養不良(圖1C)。此外,通過屬性模塊獲得的IBD和非IBD網絡類別的平均聚類係數也表明,與非IBD相比,IBD中出現了緊密聚集的羣落。還從屬性表中確定了網絡中每個類別的主要參與者,其中觀察到Alistipes shahii在IBD網絡中具有最高的程度和緊密度,而Dorea formicigenerans在非IBD網絡中則具有最高的程度和緊密度(圖1D)。

實施方式 IMPLEMENTATION

研究人員可以從 https://web.rniapps.net/metagenonets 免費訪問MetagenoNets。它的後端主要基於Python和C ++。數據可視化基於Cytoscape.js,jVenn,D3.js及其內部自定義,以提供更好的用戶體驗。服務器連接使用PHP建立,前端設計基於HTML,CSS和Javascript。該平臺已經過Mozilla Firefox,Chrome,Opera和Safari的檢驗。補充表S1提供對MetagenoNets中使用的各種算法的出版物/源代碼的描述和參考。

未來發展方向

FUTURE DIRECTIONS

使用統計檢驗(如Kruskal-Wallis和Wilcoxon檢驗)和標記特徵檢測算法(如基於分類和迴歸的方法)進行特徵約簡是微生物組研究人員所採用的常見策略。這樣的特徵縮減策略在使用統計上相關的主要特徵和次要特徵來生成整合網絡方面特別有用。當前,MetagenoNets僅採用基於標準發生和流行的特徵過濾方法,並依賴於相關的主要和輔助輸入數據集的可用性。MetagenoNets的未來版本計劃包括上述功能減少策略的實用程序。此外,考慮到基於排序的降維(在主要特徵集上)的普遍使用以及對組間相關推論的協慣性分析和過程分析,MetagenoNets的未來版本也將實現這些方法。MetagenoNets的許多功能是現有用戶羣不斷反饋和要求的結果,我們希望該工具也將繼續超越計劃的開發策略。

討論 DISCUSSION

網絡分析通常用於微生物組研究。但是,研究人員需要遵循冗長的工作流程來執行簡單的相關分析和可視化。使用輔助數據集或元數據中的協變量進行組間關聯挖掘的需求,進一步使推斷相關性和生成有意義的可視化過程變得更加複雜。我們已經開發了MetagenoNets(基於Web的應用程序),以減少進行此類分析所需的時間和精力。該工具中包含多種算法和數據管理方法,使研究人員能夠探索和採用適合其數據(及相關元數據)性質的適當策略。另外,在模塊化工作空間的框架中提供了多種交互式可視化技術和算法的實時選擇,確保了最終用戶可以在邏輯上解決微生物相關性分析的問題。儘管組間相關分析是微生物網絡分析中非常需要的方法,但在該領域很少有人使用。MetagenoNets已經進行了自動化集成和雙向網絡的推理和合適的可視化的初步嘗試。MetagenoNets的未來版本將着重擴大組間關聯挖掘的範圍,除了擴展使用微生物組數據集的微生物關聯挖掘的一般範圍。

數據可用性 DATA AVAILABILITY

MetagenoNets應用程序可從http://web.rniapps.net/metagenonets免費獲得。

猜你喜歡

10000+:菌羣分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組  宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

必備技能:提問 搜索  Endnote

文獻閱讀 熱心腸 SemanticScholar Geenmedical

擴增子分析:圖表解讀 分析流程 統計繪圖

16S功能預測   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在線工具:16S預測培養基 生信繪圖

科研經驗:雲筆記  雲協作 公衆號

編程模板: Shell  R Perl

生物科普:  腸道細菌 人體上的生命 生命大躍進  細胞暗戰 人體奧祕  

寫在後面

爲鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論羣,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入羣,務必備註“姓名-單位-研究方向-職稱/年級”。PI請明示身份,另有海內外微生物相關PI羣供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決羣內討論,問題不私聊,幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”

點擊閱讀原文,跳轉最新文章目錄閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章