221.Beta多樣性PCoA和NMDS排序

Beta多樣性與PCoA和NMDS排序

本節作者:文濤,劉永鑫

版本1.0.4,更新日期:2020年6月27日

本項目永久地址:https://github.com/YongxinLiu/MicrobiomeStatPlot ,本節目錄 221BetaPCoA,包含R markdown(*.Rmd)、Word(*.docx)文檔、測試數據和結果圖表,歡迎廣大同行幫忙審覈校對、並提修改意見。提交反饋的三種方式:1. 公衆號文章下方留言;2. 下載Word文檔使用審閱模式修改和批註後,發送至微信(meta-genomics)或郵件([email protected]);3. 在Github中的Rmd文檔直接修改並提交Issue。審稿人請在創作者登記表 https://www.kdocs.cn/l/c7CGfv9Xc 中記錄個人信息、時間和貢獻,以免專著發表時遺漏。

作爲高通量測序的代表之一,擴增子目早已成爲表徵微生物羣落的最主流手段,在後續的數據處理,生物信息學分析中最基礎也是最重要的分析就是羣落多樣性分析(alpha多樣性和beta多樣性)。今天我們來學習的就是羣落bate多樣性分析中最重要的-非限制性排序分析。

基本概念

β多樣性(Beta diversity)

β多樣性又稱生境間的多樣性(between-habitat diversity),是指沿環境梯度不同生境羣落之間物種組成的相異性或物種沿環境梯度的更替速率,用於研究羣落之間的種多度關係,例如:物種更替或物種組成的差異。

羣落的Beta多樣性分析包括非限制性排序(如PCoA,NMDS等)、層次聚類、限制性排序等,且均以羣落相似或距離爲基礎計算。

非限制性排序和層次聚類並是不獨立的,下面這張圖表示的就是非限制性排序和層次聚類的關係:

圖1. 排序與聚類的關係。a. 距離矩陣,b. 聚類結果,c. 排序結果,d. 聚類結果疊加排序結果。圖片來源 http://mb3is.megx.net/gustame/home

將聚類分析的結果與諸如非度量多維尺度分析(Non-metric multidimensional scaling, NMDS)產生的排序之類的結果結合,在圖中,聚類和NMDS結果疊加在左下方面板中。在此示例中,結果展現出現一致性:聚集在一起的對象也彼此接近。

相似性和距離

生態相似性(Ecological resemblance)以計算不同樣本羣落組成相似程度或距離(相異程度)爲基礎,是處理多元生態數據的基本方法之一。在羣落數據的分析中,常用其反映Beta多樣性。

如在物種數據的分析中,對於兩個羣落,若它們共享相同的物種,並且所有物種的丰度也一致,那麼這兩個羣落就具有最高的相似程度(或最低距離0)。生態學數據分析中的很多統計方法都以樣方之間的相似性或距離爲基礎,例如上述提到的Beta多樣性分析中的聚類、排序等,即使對於PCA實質上在計算時基於歐幾里得(euclidean)距離考慮的。

若兩個對象在各屬性上越近似,那麼它們的相似性就越高。對於羣落數據,這些屬性一般就是物種組成,或者環境屬性等。通常使用物種組成數據,依據相似性指數(similarity indices)判斷羣落相似性,範圍由0(兩個羣落不共享任何物種)到1(兩個羣落的物種類型和豐度完全一致)。所有相似性指數均可以轉換爲距離指數,轉化公式爲“距離指數 = 1 – 相似性指數”的關係。

(1)可以轉化爲相似性指數的距離指數,例如定量數據的相異百分率(也稱爲Bray-Curtis距離)等。二者相互轉換的公式通常表示爲D=1-S或S=1-D,其中S是相似性指數,D爲距離指數。

(2)無法轉化爲相似性指數的距離指數,例如歐幾里得距離、卡方距離。

距離指數(distance indices)或稱距離測度(distance measures),與相似性指數相反,距離數值越大表明羣落間差異越大。存在多種距離類型,例如歐幾里得(Euclidean)距離、Bray-Curtis距離、UniFrac距離等。對於物種組成數據,距離指數的最小值爲0(兩個羣落的物種類型和豐度完全一致),最大取值取決於距離類型和數據本身。

相似性或距離的衡量標準有很多種,Legendre於1998編寫的“Numerical Ecology”一書中的“Ecological resemblance”章節內容列出大約30種方法,

常見的相似性/距離指數

Jaccard:

Jaccard相似性指數(Jaccard similarity index)將兩個樣方共享的物種數量(a)除以兩個樣方中出現的所有物種的總和(a + b + c,其中b和c是僅在第一個和第二個樣方中出現的物種數量)。計算公式如下:

其中,y1j和y2j分別是對象1和2中元素j的數值。若是羣落物種數據,那麼y1j和y2j即分別是樣方1和2中物種j的丰度。p是物種數(樣方-物種矩陣中的物種數)

Bray-curtis距離(Bray-curtis distance):

Bray-curtis距離(Bray-curtis dissimilarity)其計算公式如下:

歐幾里得距離(Euclidean distance):

歐幾里得距離是多變量分析中經常使用的一種距離,如在線性排序方法PCoA、CCA。計算公式如下:

其中p是物種數(樣方-物種矩陣中的物種數),y1j和y2j表示兩個樣方中對應的物種多度。

但是在物種數據的分析中,歐幾里得距離卻表現不佳。因爲它將“雙零”現象視作相同存在的方式處理,會縮小兩個共享很少物種的羣落之間的距離。雙零”是指在計算羣落相似性(或距離)時,所比較的兩個樣方中缺失某些物種的情況。具體在羣落中一個物種在兩個樣方內同時缺失,並不能成爲這兩個樣方具有組成相似的依據,因爲引起缺失的原因可能完全不同,其次在物種矩陣內,不可解釋的雙零的數量取決於物種的數量,因此也會隨着檢測到的稀有種數量的增加而顯著增加。

若在羣落距離計算過程中使用歐幾里得距離,可以先對原始物種數據進行數據轉化(常見的如弦轉化、Hellinger轉化等),然後再使用轉化後的數據計算歐幾里得距離。儘管弦距離、Hellinger距離等然是對稱指數的範疇,但是相較於使用原始物種丰度數據所得的歐幾里得距離,弦距離、Hellinger距離的優勢體現在存在距離的“上限”,降低了歐幾里得距離對“物種丰度”的敏感性,有效減少了“雙零”問題導致的誤差。但是我們通常選擇使用非對稱的Bray-curtis距離等。

Bray-curtis距離的取值範圍範圍由0(兩個羣落的物種類型和豐度完全一致)到1(兩個羣落不共享任何物種),因此它也可以直接通過“1 – 距離指數=相似性指數”轉化爲相似性指數(上文提到的“相似百分率”)。Bray-curtis距離適用於羣落物種數據分析的原因在於它是一個非對稱指數,可有效忽略雙零。

Unifrac距離(Unifrac distance):

Unifrac距離,它常用於微生物羣落的數據中(例如,16S擴增子測序)。Bray-curtis距離僅考慮了物種的存在與否及其丰度,沒有考慮物種之間的進化關係,距離0表示兩個羣落的物種組成結構完全一致。在Unifrac距離中,除了關注考慮了物種的存在與否及其丰度外,還將物種之間的進化關係考慮在內,距離0更側重於表示兩個羣落的進化分類完全一致。

在16S擴增子測序中,根據16S序列組成構建OTUs進化樹,OTUs之間存在進化上的聯繫,因此不同OTUs之間的(系統發育)距離實際上有“親遠”之分。將系統發育樹和OTUs丰度數據共同考慮到距離計算就是Unifrac距離。而其它非進化距離,忽略了OTUs之間的進化關係,認爲OTUs間的關係平等。

Unifrac距離分爲非加權Unifrac距離(Unweighted unifrac distance)和加權Unifrac距離(Weighted unifrac distance)。兩種的主要區別是否考慮了物種的丰度。非加權Unifrac距離只考慮了物種有無的變化,不關注物種丰度,若兩個微生物羣落間存在的物種種類完全一致,則距離爲0;加權Unifrac距離同時考慮物種有無和物種丰度的變化,若兩個微生物羣落間存在的物種種類及丰度完全一致,則距離爲0。

關於Unifrac距離的計算方法,詳見 http://scikit-bio.org/docs/latest/generated/skbio.diversity.beta.html。

排序

排序過程是將樣品或物種排列在一定的空間,在一個低維空間中,使相似的樣品或物種距離相近,相異的樣品或物種距離較遠。也就是說排序可以揭示微生物-環境間的生態關係,降低維數,減少座標軸的數目,使排序軸能夠反映一定的生態梯度。常見的方法有:PCA、PCoA、CA、DCA、NMDS、RDA、CCA等等。

PCoA排序

主座標分析(PCoA;也稱爲度量多維標度)展示在低維歐氏空間中的對象間(非)相似性。PCoA不使用原始數據,而是使用(相異)相似度矩陣作爲輸入。
從概念上講,它與主成分分析(PCA)和對應分析(CA)相似,後者分別保留對象之間的歐幾里得距離和χ2(卡方)距離。但是,PCoA可以保留任何(距離)度量產生的距離,從而可以更靈活地處理複雜的生態學數據。

如果對解析理解有困難,可以結合下圖理解。假如你是一本養花工具宣傳冊的攝影師,你正在拍攝一個水壺。水壺是三維的,但是照片是二維的,爲了更全面的把水壺展示給客戶,你需要從不同角度拍幾張圖片。下圖是你從水壺背面,正面,正上方,斜上方的照片。

圖2. 主座標分析的通俗解析。圖片來源 https://blog.csdn.net/HLBoy_happy

我們看到斜上方的照片能最好的展示我們觀察的特徵。我們的PCoA分析的第1/2主軸的結果就類似於此圖。

PCoA和PCA的不同之處:PCA是基於OTU 表兩兩樣品間歐式距離計算,而PCoA是基於兩兩樣品之間的任何一種距離距離計算,即有更多的選擇,如果PCoA 也使用歐式距離,則PCA和PCoA的分析結果是一樣的。

另外,PCoA是基於距離矩陣,它的排序的目的是將N個樣品排列在一定的空間,使得樣品間的空間差異與原始距離矩陣保持一致,這類排序方法也稱作多維標定排序(Multi—dimensional scaling)。如果排序依賴於相異係數的數值,就叫有度量多維標定法(metric multi—dimensional scaling)所以說PCoA分析也叫有度量多維標定法;如果排序僅僅決定於相異係數的大小順序(秩次排序),則稱爲無度量多維標定法(Non—Metric Multi—Dimensional Scaling;NMDS)

NMDS 排序

非度量多維尺度法是一種將多維空間的研究對象(樣本或變量)簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關係的數據分析方法。適用於無法獲得研究對象間精確的相似性或相異性數據,僅能得到他們之間等級關係數據的情形。其基本特徵是將對象間的相似性或相異性數據看成點間距離的單調函數,在保持原始數據次序(秩)關係的基礎上,用新的相同次序的數據列替換原始數據進行度量型多維尺度分析。換句話說,當資料不適合直接進行變量型多維尺度分析時,對其進行變量變換,再採用變量型多維尺度分析,對原始資料而言,就稱之爲非度量型多維尺度分析。其特點是根據樣品中包含的物種信息,以點的形式反映在多維空間上,而對不同樣品間的差異程度,則是通過點與點間的距離體現的,最終獲得樣品的空間定位點圖。

NMDS過程是迭代的,並且分幾個步驟進行:

  • 在多維空間中定義羣落的原始位置;

  • 指定降低維度的數量(通常爲2個維度);

  • 二維構造樣本的初始配置;

  • 該初始配置下的距離相對於觀察到的(測量的)距離進行迴歸;

  • 根據迴歸確定應力(stress)或二維構造與預測值之間的差異;

如果應力較高,則按減小應力的方向重新定位2維中的點,然後重複進行直到應力低於某個閾值。經驗法則:應力<0.05可很好地表示尺寸減小,<0.1非常好,<0.2 還不錯,而應力<0.3 有待提高。

附加說明:最終結果可能會因初始配置(通常是隨機的)和迭代次數而有所不同,因此建議多次運行NMDS並儘可能減降低應力值

首先,NMDS需要距離矩陣或相異矩陣。原始歐幾里得距離並不是達到此目的的理想方法:它們對總丰度敏感,因此即使物種的標識不同,也可能將具有相似數量物種的站點(site)視爲相似物種。它們對物種的缺失也很敏感,因此可以將缺少相同物種數的站點視爲相似物種。

因此,生態學家使用Bray-Curtis相異性計算,該計算具有許多理想屬性:

  • 它不隨單位的變化而變化

  • 它不受添加/刪除兩個羣落中不存在的物種的影響

  • 它不受新增羣落的影響

  • 它可以識別總丰度的差異

實例分析

例1.兩地點重複的兩組PCoA

本文於2019年6月5日發表在Nature Biotechnology 雜誌(37卷第6期),並選爲當期封面文章。點擊查看中文解讀

兩圖並列展示兩組間明顯的微生物組差異且在不同地點可重複。不同組採用着色配置信橢圓突出組間差異。

c.基於Bray-Cutis距離的主座標軸分析(PCoA)表明秈粳稻的根系微生物組在第一主軸分開(P < 0.001,PERMANOVA採用Adonis函數置換檢驗)。橢圓包括亞種68%的數據。
d. 基於Bray-Cutis距離的PCoA在地塊2中結果表明秈粳稻根系微生物組也在第一主軸分開。

c, Unconstrained PCoA (for principal coordinates PCo1 and PCo2) with Bray–Curtis distance showing that the root microbiota of indica separate from those of japonica in field I in the first axis (P < 0.001, permutational multivariate analysis of variance (PERMANOVA) by Adonis). Ellipses cover 68% of the data for each rice subspecies. d, Unconstrained PCoA with Bray–Curtis distance showing that the root microbiota of indica separate from those of japonica in field II in the first axis (P < 0.001, PERMANOVA by Adonis).

結果

我們發現不同水稻亞種根系微生物組成存在差異。基於Bray-Curtis距離的非限制性主座標軸分析(PCoA)表明秈粳稻在地塊1的微生物組成明顯形成兩大類,且在第一主軸分開(圖1c;附圖2),表明水稻亞種分化是微生物組變異的最主要影響因素。同時也觀察到了由於地塊2的土壤不同,在地塊2存在微生物組的變化(附圖3;附表1)。但在兩塊地塊中,秈粳稻顯著分開保持一致(圖1d;附圖3)

We found that the composition of the root bacterial microbiotadiffered in rice subspecies. Unconstrained principal coordinateanalysis (PCoA) of Bray–Curtis distance revealed that theroot microbiota of indica and japonica in field I formed two distinctclusters, which separated along the first coordinate axis(Fig. 1c and Supplementary Fig. 2), indicating that the largest sourceof variation in the rice root microbiota was proximity to the subspeciationbetween indica and japonica. As expected, the root microbiotain field II differed from that in field I due to soil differences(Supplementary Fig. 3 and Supplementary Table 1), but the separationof root microbiota between indica and japonica varieties wasconsistent in the two locations (Fig. 1d and Supplementary Figs. 2and 3).

例2. PCoA時間序列

本文是劉永鑫博士負責分析,於2018年發表在中國科學的一篇文章封面文章,詳細描述了水稻田間全生育期根系微生物組的變化規律,發表2年被引31次。詳見:手把手帶你重現菌羣封面文章圖表。本文對圖1中的B/C子圖爲例進行說明和點評。

田間水稻微生物組隨生育時間變化。以水稻日本晴和IR24爲材料,並分別種植於昌平和上莊兩地,CP代表北京昌平農場,SZ代表北京海淀上莊。B-C. 主座標軸分析(PCoA)展示水稻微生物組隨時間變化,其中微生物羣落結構主要在第1/2軸上隨時間變化(B),而不同土壤類型主要在第3軸上明顯分開(C)

Figure 1 The rice root microbiota in fields shift over rice residence time in the field. B−C, Principle coordinate analysis showing that the rice microbiota shifts with rice residence time in the field and developmental stages in the first axis (B) and separated by geographical locations in the third axis (C).

結果:在所有樣品的Bray-Curtis距離的主座標分析(PCoA)中,土體土壤樣品聚集在一起,並且水稻根樣品在田間和發育階段的第一座標軸上沿着水稻的生長時間從土壤開始移動(圖1B),表明稻田在田間的停留時間和發育階段是影響根系微生物組成的主要因素。另外,儘管根微生物組在第三軸上被地理位置清楚地分開了,但水稻的生長時間和根系微生物組的動態變化在兩個不同的地點顯示出一致的趨勢(圖1C)。

In Principle Coordinate Analysis (PCoA) of Bray-Curtis distance from all samples, bulk soil samples clustered together, and rice root samples shifted farfrom the soil across rice residence time in the field and developmental stages in the first coordinate axis (Figure 1B),indicating that rice residence time in the field and developmental stage are main factors influencing the root microbiota composition. Additionally, although the root microbiotawere clearly separated by geographic location in the third axis, the rice residence time and development dependent shift of the root microbiota showed consistent trends in the two separate fields (Figure 1C).

  • 總結

  1. 圖1B/C是基於Bray-Curtis距離進行的PCoA分析,採用散點圖展示,並按時間順序填充彩虹色(比單色過渡明顯,但對色盲人羣不友好,有些雜誌不接受),按不同生態位和地點設置形狀,信息較豐富;一般人類顏色區分明顯,把顏色賦予想要表達的第一變量,如本文的時間變量,形態分配給次要因素;

  2. 圖1B展示PCo1/2軸,組間最大差異爲不同生態位與時間梯度上的變化,但 不同地點間是無法很好區分時,我們還需要繼續探索其他主座標軸。本文在圖1C展示PCo1/3軸,可進一步看到1軸的差異與時間變化一致,而3軸可以很好分開不同地點

例3.NMDS分析不同食物昆蟲組腸道菌羣

本文由荷蘭皇家科學院生態研究所的S. Emilia Hannula和中科院遺傳發育所朱峯研究員於2019年8月發表於Nature Communications (https://doi.org/10.1038/s41467-019-09284-w)。揭示了食葉昆蟲微生物羣落來源於土壤而不是取食植物。中文解讀詳見:[Nature子刊:植食昆蟲微生物組來自土壤](https://mp.weixin.qq.com/s/uiXqcGZEt3QX-V49r88J2w)

圖a-d 代表了植物羣落對土壤、毛蟲腸道、根系、植物葉片細菌羣落的影響。圖e-h代表了植物羣落對土壤、毛蟲腸道、根系、植物葉片真菌羣落的影響。NMDS分析基於Bray-Curtis相似性,二維應力值介於0.11-0.18之間。草地植被相關的羣落使用亮綠色表示。非禾本草本植物/闊葉草(forb)植被羣落使用青綠色點表示。草地和闊葉草植被混合羣落使用深綠色表示。每幅圖中小點代表樣品,大點代表每組樣品的中心點。圖中的標識爲置換檢驗結果。a,e代表土壤微生物羣落。b,f代表食用離體葉片和植株的毛蟲腸道微生物。c,g代表植物根系微生物羣落,d,h代表葉微生物羣落。

Plant community identity effects on bacterial a–d and fungal (e–h) communities in caterpillars, leaves, roots, and soil. NMDS plots are presented based on Bray–Curtis similarity. The 2D stress value for each panel ranges between 0.11–0.18. Soils originating from grass communities are presented with light green symbols, soils from forb communities with turquoise symbols and soils from mixed grass and forb communities with dark green symbols. In each panel, smaller symbols depict individual samples, centroids are depicted with larger markers. Significance of the plant community treatment effect based on a PERMANOVA is also presented in each panel. a, e represent the composition of microbiomes in soils, b, f microbiomes in caterpillars both on intact plants and on detached leaves. c, g microbiomes in roots and d, h microbiomes in leaves.

結果

我們通過兩個獨立的平行試驗,研究了田間植物羣落對土壤中微生物羣落組成、蒲公英和在這些植物上放養的毛蟲的影響。植被羣落改變了土壤細菌和真菌羣落,但是令人驚訝的是並沒有改變蒲公英根系和葉片微生物組成 (圖3c, d, g, h)。但是我們卻檢測到了不同植物羣落對毛蟲微生物羣落的影響,但這隻有在以完整植株爲食的毛蟲中檢測到。

We investigated the legacy effects created by field-grown plant communities, on the composition of microbial communities in soils, dandelions grown in those soils, and caterpillars reared on these plants, in two parallel assays. The composition of the plant community (fast- and slow-growing grasses or forbs) that conditioned the soils that were used, influenced the fungal and bacterial community structure in these soils (Fig. 3a, e). Surprisingly, this did not alter the root- or leaf -associated microbiomes in the dandelion plants that were growing in these soils (Fig. 3c, d, g, h). However, we did detect these soil-derived plant community effects in caterpillar microbiomes, but only when the caterpillars were fed on intact plants (Fig. 3b, f), suggesting that, even though they are plant feeders, the caterpillars had been in direct contact with the soil.

例4.NMDS分析組間的功能基因類羣

瑞士EAWAG研究所,西湖大學鞠峯教授於2019年發表於The ISME Journal的成果,發現污水廠抗性組受細菌組成和基因交換驅動且出水中抗性表達活躍(https://doi.org/10.1038/s41396-018-0277-8)。全文解讀詳見:[ISME:污水中抗性基因在細菌羣落和基因交換雙重驅動下在出水中活躍表達](https://mp.weixin.qq.com/s/dN0_iQkDSFS42TcFOjKXIA)。

污水廠不同處理部位抗性基因組的組成與細菌羣落組成相關。a-c NMDS分析描述了不同部位之間基於ARG(a)、BRG(b)、MRG(c)組成的Bary-curtis距離。

Resistome composition correlates with bacterial community composition and phylogeny across wastewater treatment compart-ments. a–c Non-metric multidimensional scaling plots depict Bray-Curtis distances between treatment compartments based on relative abundance of antibiotic (a), biocide (b), and metal (c) resistance genes in the metagenomes.

結果

細菌抗性組系統發育結構。爲了測試在我們的數據集中是否存在這種情況,我們使用排序方法來跟蹤抗性組(圖5)的結構變化。無論分析是基於抗性組、殺菌劑和金屬抗性基因的丰度指標(圖5a–c),樣品始終分爲三個主要類別。

Bacterial phylogeny structures soil resistomes. To test if this was the case in our dataset, we used ordination to follow structural variations in the resistomes (Fig. 5) both between and within treatment compartments. The samples consistently clustered into three main groups by treatment compartment with bioreactor samples closely clustered together, whether the analysis was based on abundance metrics of antibiotic, biocide, and metal resistance genes (Fig. 5a–c).

PCoA/NMDS實戰

關於更多本項目中示例文件的下載,R包安裝的內容,請參考之前的章節:

安裝和載入R包
if (!requireNamespace("devtools", quietly=TRUE))
    install.packages("devtools")
library(devtools)
if (!requireNamespace("amplicon", quietly=TRUE))
    install_github("microbiota/amplicon")
suppressWarnings(suppressMessages(library(amplicon)))
主座標軸分析 PCoA

主座標軸分析(principal coordinate analysis, PCoA)

在amplicon包中有beta_pcoa函數可以快速繪製PCoA散點圖,並按組着色和添加68%的置信橢圓

本次繪製使用函數內置數據演示,查看函數幫助,打問題(?)+函數名,如?beta_pcoa

# 使用內置數據,輸入距離矩陣、元數據和分組繪製PCoA
(p=beta_pcoa(beta_bray_curtis, metadata, "Group"))
# 保存位圖和矢量圖,分別用於預覽和出版
ggsave(paste0("p1.PCoA.bray.jpg"), p, width=89, height=56, units="mm")
ggsave(paste0("p1.PCoA.bray.pdf"), p, width=89, height=56, units="mm")

圖1. 散點圖展示基於Bray-Curtis距離的Beta多樣性PCoA。點代表樣本,顏色代表分組,並按每組添加68%置信度的橢圓方便組間比較,圖中展示主座標分析的前兩軸,解析率見座標軸括號中。

本次測試數據來自劉永鑫博士負責分析並於2019年發表於Science的文章(即上圖展示的內置數據),討論了基因型對菌羣的影響。詳見宏基因組公衆號詳細解讀-Science:擬南芥三萜化合物特異調控根系微生物組

我們再演示從文件讀取距離矩陣和元數據,數據位於Data/Science2019目錄,本次需要元數據(metadata.txt)和Beta多樣性距離矩陣(alpha/unifrac.txt)兩個輸入文件(注:距離矩陣這裏是由USEARCH -beta_div生成,將在擴增子流程部分詳細介紹,也可由vegan包計算生成)。

# USEARCH可選距離矩陣bray_curtis、unifrac、unifrac_binary、jaccard、manhatten、euclidean
# 設置距離矩陣類似,本次使用unifrac
distance_type="unifrac"
# 讀取距離矩陣並預測前3行3列,再讀取元數據
distance_mat=read.table(paste0("../Data/Science2019/beta/",distance_type,".txt"), header=T, row.names=1, sep="\t", comment.char="")
distance_mat[1:3, 1:3]
metadata=read.table("../Data/Science2019/metadata.txt", header=T, row.names=1, sep="\t", comment.char="", stringsAsFactors=F)
# PCoA散點圖,按metadata的Group列着色,添加標籤,PCo1/3
(p=beta_pcoa(distance_mat, metadata, groupID="Group", ellipse=T, label=T, PCo=13))
# 保存8:5的半版圖
ggsave(paste0("p2.PCoA.unifrac.jpg"), p, width=89, height=56, units="mm")
ggsave(paste0("p2.PCoA.unifrac.pdf"), p, width=89, height=56, units="mm")

圖2. 基於Unifrac距離的PCoA。看到PCo 1/2的解析率比前面Bray-Curtis距離結果有提高,表明在Unifrac距離前兩主軸一般可以解析更高比例的差異。由於Unifrac考慮進化距離,一般樣本/組間差異會進一步縮小。

有時我們更想知識組間是否存在顯著差異,使用?beta_pcoa_stat查看函數幫助,使用距離矩陣指定分組,對全部組別兩兩差異使用adonis函數進行檢測。

# 使用adonis檢測組件差異,注意是兩兩檢測,並且將檢測結果保存到當前路徑下。
beta_pcoa_stat(distance_mat, metadata, "Group", "beta_pcoa_stat.txt")
# 結果文件默認見beta_pcoa_stat.txt
beta_pcoa_stat(dis_mat=distance_mat, metadata=metadata, groupID="Group", pairwise=F, pairwise_list="../Data/Science2019/compare.txt")

輸入文件compare.txt,即兩組比較列表,製表符分隔。

KO    WT
OE    WT

結果文件beta_pcoa_stat.txt,計算時間和兩組比較P值

Sat Jun 27 22:35:03 2020
KO    WT    0.0174982501749825
OE    WT    0.0096990300969903
非度量多維尺度NMDS

我們將會用到BetaDiv函數,這個函數依賴phyloseq可以計算目前主流的降維排序方法,包括DCA, CCA, RDA, NMDS, MDS, PCoA, PCA, LDA,t-sne,並且結合了羣落差異分析,爲大家帶來相對全面的beta多樣性分析。我們下面以NMDS爲例演示函數的用法。?BetaDiv 顯示幫助

# 安裝Bioconductor的R包phyloseq
if (!requireNamespace("BiocManager", quietly=TRUE))
    install.packages("BiocManager")
suppressWarnings(suppressMessages(library(BiocManager)))
if (!requireNamespace("phyloseq", quietly=TRUE))
    BiocManager::install("phyloseq")
library(phyloseq)

# 輸入抽平標準化的特徵表、元數據、分組列名、距離類型、降維和統計方法
result=BetaDiv(otu=otutab_rare, map=metadata, group="Group",
                 dist="bray", method="NMDS", Micromet="adonis")
# 返回結果列表:標準圖,數據,標籤圖,成對比較結果,整體結果

#提取排序散點圖(結果列表中的1)
(p=result[[1]])
ggsave(paste0("p3.NMDS.bray.jpg"), p, width=89, height=56, units="mm")
ggsave(paste0("p3.NMDS.bray.pdf"), p, width=89, height=56, units="mm")

圖3. NMDS分析樣本微生物羣落結構,按組着色,stress值顯示於左上角。

# 提取出圖座標
plotdata=result[[2]]
plotdata[1:3,1:3]

# 提取帶標籤排序散點圖
(p=result[[3]])
ggsave(paste0("p4.NMDS.bray.label.jpg"), p, width=89, height=56, units="mm")
ggsave(paste0("p4.NMDS.bray.label.pdf"), p, width=89, height=56, units="mm")

圖4. NMDS分析樣本微生物羣落結構,添加樣本標籤。

# 提取兩兩比較差異檢測結果
(pair=result[[4]])

# 提取全部組整體差異檢測結果
(Mtest=result[[5]])
瞭解PhyloSeq對象

輸入數據除了支持特徵表、元數據+分組;還支持phyloseq對象。

我們將特徵表和元數據轉換爲PhyloSeq對象(簡稱ps)

# 指定目標分組列爲Group,作爲默認分組
metadata$Group=metadata[["Group"]]
# 輸入特徵表和元數據爲PhyloSeq對象
ps=phyloseq(otu_table(as.matrix(otutab),taxa_are_rows=TRUE),
            sample_data(metadata),phy_tree(tree))

當然,除了常用的adonis置換檢驗,可選anosim/MRPP差異顯著性檢驗方法。

result=BetaDiv(ps=ps, dist="bray", method ="NMDS", Micromet ="anosim")
result[[5]]

參考文獻

劉堯,Beta多樣性和生態相似性,科學網, http://wap.sciencenet.cn/home.php?mod=space&uid=3406804&do=blog&id=1195182

HLBayes,通俗理解PCA降維作用,CSDN,https://blog.csdn.net/HLBoy_happy/article/details/77146012

Xiao-Tao Jiang, Xin Peng, Guan-Hua Deng, Hua-Fang Sheng, Yu Wang, Hong-Wei Zhou & Nora Fung-Yee Tam. (2013). Illumina Sequencing of 16S rRNA Tag Revealed Spatial Variations of Bacterial Communities in a Mangrove Wetland. Microbial Ecology 66, 96-104, doi: https://doi.org/10.1007/s00248-013-0238-8

Jingying Zhang, Yong-Xin Liu, Na Zhang, Bin Hu, Tao Jin, Haoran Xu, Yuan Qin, Pengxu Yan, Xiaoning Zhang, Xiaoxuan Guo, Jing Hui, Shouyun Cao, Xin Wang, Chao Wang, Hui Wang, Baoyuan Qu, Guangyi Fan, Lixing Yuan, Ruben Garrido-Oter, Chengcai Chu & Yang Bai. (2019). NRT1.1B is associated with root microbiota composition and nitrogen use in field-grown rice. Nature Biotechnology 37, 676-684, doi: https://doi.org/10.1038/s41587-019-0104-4

Jingying Zhang, Na Zhang, Yong-Xin Liu, Xiaoning Zhang, Bin Hu, Yuan Qin, Haoran Xu, Hui Wang, Xiaoxuan Guo, Jingmei Qian, Wei Wang, Pengfan Zhang, Tao Jin, Chengcai Chu & Yang Bai. (2018). Root microbiota shift in rice correlates with resident time in the field and developmental stage. Science China Life Sciences 61, 613-621, doi: https://doi.org/10.1007/s11427-018-9284-4

S. Emilia Hannula, Feng Zhu, Robin Heinen & T. Martijn Bezemer. (2019). Foliar-feeding insects acquire microbiomes from the soil rather than the host plant. Nature Communications 10, 1254, doi: https://doi.org/10.1038/s41467-019-09284-w

Feng Ju, Karin Beck, Xiaole Yin, Andreas Maccagnan, Christa S. McArdell, Heinz P. Singer, David R. Johnson, Tong Zhang & Helmut Bürgmann. (2019). Wastewater treatment plant resistomes are shaped by bacterial composition, genetic exchange, and upregulated expression in the effluent microbiomes. The ISME Journal 13, 346-360, doi: https://doi.org/10.1038/s41396-018-0277-8

責編:劉永鑫 中科院遺傳發育所

版本更新歷史

1.0.0,文濤,初稿

1.0.1,劉永鑫,主題限定爲非限制排序,添加實例和整理代碼

1.0.2,席嬌,文字修改

1.0.3,文濤,刪減背景中非必需理論,校對全文

1.0.4,劉永鑫,添加PCoA背景示意圖,整理參考文獻

猜你喜歡

10000+:菌羣分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組  宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

必備技能:提問 搜索  Endnote

文獻閱讀 熱心腸 SemanticScholar Geenmedical

擴增子分析:圖表解讀 分析流程 統計繪圖

16S功能預測   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在線工具:16S預測培養基 生信繪圖

科研經驗:雲筆記  雲協作 公衆號

編程模板: Shell  R Perl

生物科普:  腸道細菌 人體上的生命 生命大躍進  細胞暗戰 人體奧祕  

寫在後面

爲鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論羣,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入羣,務必備註“姓名-單位-研究方向-職稱/年級”。PI請明示身份,另有海內外微生物相關PI羣供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決羣內討論,問題不私聊,幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”

點擊閱讀原文,跳轉最新文章目錄閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章