MetagenoNets:在線宏基因組網絡分析實操教程

宏基因組研究中網絡分析已經十分普及,但卻缺少整合的分析方法,限制了廣大同行的使用。

關於網絡分析的基本步驟,和現在工具的比較,詳見原文解讀 - NAR:宏基因組網絡分析工具MetagenoNets

本文將介紹在 MetagenoNets 網站上進行網絡分析實操和結果解讀。

主頁:https://web.rniapps.net/metagenonets/

副標題:微生物相關網絡的推理和整合見解

特色:一站式平臺,可從豐富數據中推斷,分析,比較和可視化微生物關聯網絡

主頁上方有示例、提交和教程三個按鈕

簡介

什麼是MetagenoNets?

MetagenoNets的名稱源於微生物網絡生物學中的兩個非常普遍的需求:

1)根據環境(例如疾病狀態)的豐富程度推斷其“微生物關聯/網絡”
2)根據全面的“元數據”,對所有小組級別(例如健康、對照、感病)的網絡進行分別分析;推斷與“連續元數據類別”和所有組間關聯的相關性(給定相同環境的二級組間丰度概況)。

當前的侷限性和挑戰是什麼?

  1. 冗長的工作流程,需要進行豐富的配置文件、推斷見解和可視化:

典型的工作流程涉及(a)數據過濾以去除虛假或不相關的特徵(b)從多種數據歸一化和轉換策略中進行選擇以考慮樣本間偏差,混雜因素,組成等(c)在多種相關推斷方法中進行選擇導出網絡文件(相關矩陣,鄰接矩陣,邊列表,gmls,jsons)(d)使用圖論算法來計算網絡特徵(例如全局網絡屬性,局部中心度量)(e)使用可視化包查看網絡

  1. 元數據引入了額外的複雜性:

與宏基因組學研究相關的全面元數據的可用性爲推斷和探測微生物關聯網絡的問題增加了另一層複雜性。對於給定的宏基因組環境,可以有多個級別的元數據組(例如,地理環境可以將國家作爲組)。這就需要爲每個這樣的組分別處理網絡。此外,經常還會收集連續的元數據(如BMI,年齡),因此研究人員也有興趣探索微生物丰度與此類連續數據點的相關性。

  1. 組間數據進一步增加了複雜性:

宏基因組學研究通常具有一個或多個“相關”的組學內丰度圖。例如,WGS研究不僅可以爲研究人員提供微生物的丰度概況,還可以爲各種功能單元(如酶,GO,COG,基因等)提供丰度。對相同樣品進行的組學研究(如基因表達譜分析)也可以成爲緊密相關的組學數據。16S研究的推論功能是與微生物丰度圖譜相關的組間圖譜的另一個示例。此類二級數據集的可用性通常導致需要找到微生物譜與此類組間單元(如功能,基因等)的相關性。這種相關性的結果通常以“組間整合網絡”和“二分網絡”的形式可視化。然而爲每個元數據類別(和相應的組)實現相同的過程非常繁瑣。

MetagenoNets如何應對挑戰?

本次介紹MetagenoNets Web服務器是爲了簡化推斷和分析相關驅動的微生物關聯網絡的過程。MetagenoNets的以下功能有望爲微生物組網絡分析領域帶來巨大的附加價值:

(a)接受所有類型的小型到大型微生物特徵表以及多級元數據。提供輔助功能表可爲整合分析提供更深入的見解。

(b)提供常用的數據標準化方法(TSS,CSS,四分位數)和轉換策略(DeSeq2,TMM,CLR)

(c)通過基於流行和發生的過濾器來減少特徵

(d)全面提供主要的最新相關驅動網絡推理方法(i)SPARCC(ii)ReBoot / CCREPE(iii)NAMAP(改進的ReBoot),以及基於Pearson和Spearman係數的自舉(bootstrap)和經典方法

(e)將元數據智能分類爲分類數據和連續數據類型,從而允許最終用戶通過集成和二分網絡將連續元數據與主要特徵集自動關聯

(f)三種類型的網絡生成選項:(i)對各個單獨的網絡進行分類或分組(ii)元數據和/或輔助數據集成網絡(iii)二分網絡,從而能夠全面使用丰度數據集以及相關元數據

(g)網絡和網絡屬性的交互式可視化

(h)通過交互的維恩圖和交叉點的網絡圖對分類元數據驅動的網絡組進行基於集合的比較

(j)易於使用的用戶界面和現代網頁設計方法,可在前端實現無縫體驗

MetagenoNets方便最終用戶同時推斷,統計分析和比較相關性驅動的微生物關聯網絡,並在此過程中以自動化方式生成大量直觀、容易解讀的可視化輸出。

圖. 網站的主要結果示例

瀏覽器兼容性

支持關注主流的瀏覽器。

瀏覽器系統
Firefox v.71Linux, Windows, Mac
Chrome v.79Linux, Windows, Mac
Safari v.12Mac

演示數據和格式介紹

共有4套數據集,分別來自Huttenhower實驗室的IBD數據、現代和部落人腸道菌羣、高血壓腸道微生物組、HMP2的IBD數據。

以第一組IBD爲例進行詳細介紹和演示。

輸入文件:

  1. 主要數據(Primary Data):爲物種組成特徵表,通常爲屬水平的讀長計數(reads count)值;

  2. 元數據(Meta Data):元數據,即樣本的分組信息和其他屬性,如疾病狀態、性別、樣本類似以及測試的代謝物含量;

  3. 節點元數據(Node Metadata): 爲屬對應的更高級分類,包括門、綱、目、科

  4. 次要數據(Secondary Data):樣本對應的功能組成表。

點擊Next或上方實驗名稱切換不同數據。點擊RUN DEMO按扭運行此數據。

運行測試數據

網絡分析的基本步驟:

  1. 在左側選擇實驗組,並點更新(UPDATE)

  2. 等待幾秒會顯示計算好的結果;

  3. 如果要整合連續型數據,或多組學數據,切換至整合網絡(Integrated Networks);

  4. 選擇連續型 或 多組學特徵整合二分網絡。

分類網絡(Categorical networks)

CHOOSE NETWORK TO CREAT 是選擇分組,如CrD / Healthy,這裏選擇 Healthy ,點Update更新網絡。

此外面方還有參數可選:

  • 算法Algorithm:默認爲Spearman,可選Pearson, SparCC等;

  • p-value:默認爲0.05,邊多可進一步減少爲 0.01,0.005(不能選更小了);

  • 迭代(Iterations):默認100,0-500次,Sparcc需要5分鐘運行;

  • 相關閾值(Corr. cutoff): 默認爲嚴格r-value。可手動設定閾值篩選Spearman, Pearson, CCLasso的相關。

修改參數後,要點擊 PROPAGATE TO Modules 來更新網絡。

  • 左側爲分組,參數選擇面板;

  • 右側爲圖像預覽區;

  • 點大小,可按度、介數、緊密性、特徵向量(eigenvector)顯示;

  • 點可按分類學着色,

  • 邊按正、負着色;

  • 還有網絡屬性值,結點、邊、半徑、密度、平均度;

  • 佈局(Layout): 有6種方案可選,包括 HIER(層級,Hierachical,有點凌亂 )、CONC(同心圓,Concentric,三圈圓形分佈,按結點大小由外到內排序,推薦)、GRID(網格,按結點大小排序,適合矩陣區域展示)、COSE(中心緊密型)、CIRC(圓形,規則,但邊太長,浪費中心空間)、RAND(隨機,Random,明顯重疊);

  • 下載:有位圖PNG、矢量圖SVG、邊列表Edgelist(邊邊和正負相關的在三列表)、Gephi的GDF文件(所有邊點信息,包括末相關的點)、Cytoscape的Jason文件(包括點id、名稱、顏色、大小;邊的源-目標和顏色)、以及丰度表(Abundance table,即按組篩選後、標準化的特徵表)

整合網絡(Integrated networks)

整合網絡可以添加特徵表中額外的數據,如元數據中的連續型變量、以及第二個特徵表(如功能組成)。而且每種數據可多選。

這裏我們選擇元數據中的年齡(age),額外表中選擇糖酵解(Glycolysis_Gluconeogenesis)和三羧酸循環(TCA),點擊update,佈局切換爲自己喜歡的樣式,如CONC或GRID,點擊下載SVG,在新窗口中可再次調整佈局,增大點和文字大小到合適位置,觀察相關關係。

注:網站有bug,經常出現文字大小無法修改大小。可以下載矢量圖SVG,在新窗口中可以調整,或下載後使用如Adobe Illustrator等矢量圖編輯工具調整。

維恩圖(Venn diagrams)

選擇分組類型,如選擇DiseaseState,再點擊Update。出現4個組的維恩比較。這4組將不能進一步選擇,如需要調整可能需要在上傳前篩選元數據。

圖中包括韋恩圖、各種在網絡中的總結點數量柱狀圖、不同組共享的結點數量熱圖。默認爲經典(Classic)模式,可以切換爲EDWARDS模式,如下圖所示:

網絡屬性(Properties)

  1. 選擇分組類

  2. 再選擇分組中的一組,即顯示網絡屬性

  3. 表可以進一步搜索(Search)和導出(Export)

點擊PLOTS切換至繪圖:

  1. 點擊Update更新,展示度的組間箱線圖比較;

  2. 該圖形可切換不同屬性,也有7種樣式選擇,但只能下載png位圖;

數據實戰

準備輸入文件

  1. 屬丰度表,一般需要篩選,不然結點太多看不清。比如我的屬水平有500多個條目,我用R語言篩選均值大於千分之一的屬有70個屬(也可以在Excel中求均值再排序),也可以在線分析時靈活篩選;

  2. 樣本元數據,包括樣本的分組和其他數值型屬性;

  3. 屬水平高級分類,一般爲屬對應的門、綱、目、科四級信息。注:可以考慮把未分類屬去掉,不然層級註釋會有1對多的問題。

網站提交

訪問主頁:https://web.rniapps.net/metagenonets/

點擊:GOTO: SUBMISSION SECTION

  • 填寫任務名稱(Specify Job Label):隨便寫,如Project1

  • 屬級別特徵表(PRIMARY INPUT)

  • 樣本元數據(PRIMARY METADATA)

  • 屬水平高級分類(NODE METADATA)

  • 其他特徵表(SECONDARY INPUT),沒有可不填

點擊上傳和處理“UPLOAD AND PROCESS”,再點右下角下一步“NEXT”

會顯示數據概述信息,覈對信息是否識別正確,再點右下角下一步“NEXT”。

數據標準化。這裏默認就好。具體可按自己的數據類型選擇標準化方法如下:

  • 標準化(Normalization):可選總體、CSS和分位數標準化;這裏我們數據我們已經做過總體標準化,因此採用默認不標準化(DON”T NORMALIZE)

  • 流行度閾值(Prevalance threshold):即丰度閾值,默認爲0.0001,即萬分之一,此值對網絡圖中結果數量控制非常有效;

  • 出現頻率(Occurence threshold):默認在至少10%的樣本中出現;可有效過濾低頻特徵;

  • 數據轉換(Transformation):支持CLR、TMM等轉換。對結果相關性很差時可嘗試轉換重試,這裏使用默認不轉換。

再點右下角下一步“NEXT”。

以上信息再次確定 ,再點右下角下一步“APPROVE & SUBMIT”。開始分析,接下來分析步驟同上面示例數據演示。

分析中的一些經驗和問題

算法(Algorithm):默認爲Spearman相關分析,我的結果是有正,有負相關;而且SPARCC分析時,結果相關全爲正,不符合之前分析的預期。一般方法是沒有優劣之分,而是要根據背景知識來判斷結果是否合理,不同類型的數據可能需要不同的方法纔有科學合理的結果。

p-value過濾: 輸入70個屬,Spearman相關方法下,默認P值0.05時,68個屬,683條邊,邊多太看不清關係;修改爲0.01時,點Update更新,54個點,129個邊,閱讀性較強;如果還是太多看不清,可進一步提交閾值。

  • 常見問題

  1. 切換佈局後,修改字體(Font Size)有時會不可用;可選擇下載SVG,在彈出新窗口中可以選擇佈局和調整字體大小。

  2. 網絡屬性計算一次後,再修改參數結果也不再更新,有時需要重新建立任務重新計算。

擴展閱讀

猜你喜歡

10000+:菌羣分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組  宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

必備技能:提問 搜索  Endnote

文獻閱讀 熱心腸 SemanticScholar Geenmedical

擴增子分析:圖表解讀 分析流程 統計繪圖

16S功能預測   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在線工具:16S預測培養基 生信繪圖

科研經驗:雲筆記  雲協作 公衆號

編程模板: Shell  R Perl

生物科普:  腸道細菌 人體上的生命 生命大躍進  細胞暗戰 人體奧祕  

寫在後面

爲鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論羣,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入羣,務必備註“姓名-單位-研究方向-職稱/年級”。PI請明示身份,另有海內外微生物相關PI羣供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決羣內討論,問題不私聊,幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”

點擊閱讀原文,跳轉最新文章目錄閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章