Bray-curtis,unifrac,weighted unifrac,jaccard計算方法比較

原文鏈接:https://www.jianshu.com/p/066d90b556ad

1、微生物β多樣性

利用宏基因組、16s rRNA測序等高通量測序技術分析微生物羣體結構的時候,常見到有α和β多樣性兩個指標。α多樣性主要反映樣本內多樣性,而β多樣性指的是樣本間多樣性(Between-sample diversity),它的本質是一個量化的數值,其值的大小反映每個組內各個樣本間的羣落物種組成差異。我們通過計算樣本間距離可以獲得樣本間的β值,後續一般會利用PCoA、進化樹聚類等分析對此數值關係進行圖形展示。

以下表爲例,表中5個樣本通過Unifrac計算出樣本間的β值。數值爲0時表示兩個樣本間不存在多樣性差異,數值越接近1,表示樣本間的β多樣性差異越大。

2、樣本間距離

樣本間距離是指樣本之間的相似程度,可以通過數學方法估算。如前所述,樣本間越相似,距離數值越小。計算微生物羣體樣本間距離的方法有多種,例如, Jaccard、Bray-Curtis、Unifrac等。這些距離算法主要分爲兩大類別:

  1. OTU間是否關聯;

  2. OTU是否加權(表2)。



 

  • 基於獨立OTU vs 基於系統發生樹

二代測序當中,我們對16s rDNA某個區域進行測序後,會根據序列的相似度定義OTU。這個時候,基於獨立OTU的計算方式認爲OTU之間不存在進化上的聯繫,每個OTU間的關係平等。而基於系統發生樹計算的方法,會根據16s的序列信息對OTU進行進化樹分類, 因此不同OTU之間的距離實際上有“遠近”之分。

舉個如圖1的例子,在基於獨立的OTU算法中,OTU1和OTU2間的距離與OTU1和OTU10間的距離沒有區別。但基於進化樹的算法中,相比於OTU10,OTU2和OTU1的距離更近。

  • 加權vs非加權

利用非加權的計算方法,主要考慮的是物種的有無,即如果兩個羣體的物種類型都一致,表示兩個羣體的β多樣性最小。而加權方法,則同時考慮物種有無和物種丰度兩個問題。如果A羣體由3個物種a和2個物種b組成,B羣體由2個物種a和3個物種b組成,則通過非加權方法計算,因爲A羣體與B羣體的物種組成完全一致,都只由物種a和b組成,因此它們之間的β多樣性爲0。但通過加權方法計算,雖然A與B羣體的組成一致,但物種a和b的數目卻不同,因此兩個羣體的β多樣性則並非一致。

3、不同距離計算方法比較

在宏基因組和16s測序的分析中,使用最多的距離算法主要有Bray-Curtis和Weighted 及Unweighted Unifrac。因此,下面我們就這幾種常用的微生物多樣性算法的特點和應用範圍進行簡單比較。

unifrac:對於系統發生樹種的所有枝,考查其指向的葉節點是否只存在於同一羣落,哪些葉節點只存在於同一羣落的枝的枝長和,佔整個樹的值長和的比例,就定義爲UniFrac距離。

weight unifrac:如果兩個樣本有相同的物種,unifrac 區分不出差異,引入weight unifrac。

Bray-Curtis距離:是以該統計指標的提出者J. Roger Bray和John T. Curtis的名字命名的,主要基於OTUs的計數統計,比較兩個羣落微生物的組成差異。與unifrac距離,包含的信息完全不一樣;相比於jaccard距離,Bray-Curtis則包含了OTUs丰度信息。
其中,S_(A,i)和S_(B,i)表示第i個OTU分別在A羣落和B羣落中的計數。min表示取兩者最小值。

jaccard index又稱爲jaccard similarity coefficient用於比較有限樣本集之間的相似性和差異性。在處理離散型(類別型)變量的相識度時非常有用。
給定兩個集合A,B jaccard 係數定義爲A與B交集的大小與並集大小的比值:


jaccard相似度的缺點是值適用於二元數據的集合。

  • Bray-Curtis距離vs Unifrac距離

Bray-Curtis距離和Unifrac距離的主要區別在於計算β值的時候是否考慮OTU的進化關係。根據表2,顯然,只有後者是有考慮。這會影響到它們的:

數值表述意義不同:雖然兩種方法的數值都是在0-1之間,但具體所表示的生物學意義卻不一樣。在Bray-Curtis算法中,0表示兩個微生物羣落的OTU結構(包括組成和豐度)完全一致;而在Unifrac中,0更側重於表示兩個羣落的進化分類完全一致。

實際應用的合理性:在實際微生物研究中,如果樣本間物種的近源程度較高(溫和處理樣本與對照樣本,生境相似的不同樣本等),利用Bray-Curtis這種把OTU都同等對待的方法,更有利於發現樣本間的差異。而Unifrac則更適合用於展示此類樣本的重複性。

  • Weighted Unifrac距離 vs Unweighted Unifrac距離

Unifrac除了具有考慮OTU之間的進化關係的特點之外,根據有沒有考慮OTU丰度的區別,Unifrac分析可以分爲加權(WeightedUunifrac)和非加權(Unweighted Unifrac)兩種方法。它們的不同在於:

數值表述意義:Unweighted UniFrac只考慮了物種有無的變化,因此結果中,0表示兩個微生物羣落間OTU的種類一致。而Weighted UniFrac則同時考慮物種有無和物種丰度的變化,結果中的0則表示羣落間OTU的種類和數量都一致。

實際應用的合理性:在環境樣本的檢測中,由於影響因素複雜,羣落間物種的組成差異更爲劇烈,因此往往採用非加權方法進行分析。但如果要研究對照與實驗處理組之間的關係,例如研究短期青黴素處理後,人腸道的菌落變化情況,由於處理後羣落的組成一般不會發生大改變,但羣落的丰度可能會發生大變化,因此更適合用加權方法去計算。

4、小結

最後,方法實際上是沒有好壞之分,主要是不同的研究目的而採用更爲適合的方法進行數據展示。如果實在不知道哪一種方法更適合,有條件的情況下,可以使用同時使用多個方法進行分析,最終挑選最能解釋生物學問題的方案。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章