【陪你學·生信】十一、構建系統發育樹

這個推送主要是系統發育樹相關內容（內容很多，但這篇文章並不包含多基因級聯建樹，挖個坑下次寫。我將一些tips和操作示例寫在了可以划動的模塊裏（只能在公衆號裏划動，簡書粘貼不來），讓整篇推送看起來結構清晰，如果不想看可以跳過划動部分）。上一個推送的多序列比對（【陪你學·生信】十、編輯對多序列比對結果【陪你學·生信】九、多序列比對-Multiple Sequence Alignment（MSA））是系統發育分析的基礎。

文章有點長，先放個流程圖便於理清思路。

一、系統發育樹能分析什麼

系統發育分析是根據生物核苷酸/蛋白序列的相似程度（進行MSA）將其歸結成分支和簇，從而推測一組基因或蛋白質或生物間的進化關係。當然，系統發育分析的前提是進化論。

實驗中系統發育分析常見目的有：物種鑑定，基因功能鑑定，追溯基因起源等。

二、準備序列數據時需要考慮的問題

1. 建什麼樹？用什麼序列？

（1）核苷酸序列nt還是氨基酸序列aa

系統發育分析所選的序列應包含足夠的信息，全基因組序列包含信息多，但是全基因組序列的分析麻煩、耗時長；且有的時候研究對象就是某一個基因或者蛋白。所以多數情況下，我們使用基因或蛋白序列建樹。

可以的話，選擇的這個基因在基因組的拷貝數最好爲1，這樣避免了旁系同源基因建樹的影響。有的生物基因組小，比如病毒，建立物種樹有時可以用全基因組序列（nt）進行系統發育分析（如果是蛋白序列同源性分析當然是aa序列，如果是非編碼區序列分析當然是nt序列）。

對於可以用aa或者nt序列分析的實驗材料，沒有標準的答案。如果DNA序列之間的一致度高於70%或進化距離很近用nt序列更合適，因爲nt序列的比對已經很整齊了，還可以保留同義突變；如果親緣關係較遠，用aa更合適，MSA時可以使保守區域對齊。也可以兩個都試一試，可以加入已知物種/進化關係的同源分子做對照，看哪個結果更符合已知事實。

之前看過一篇論文，說目前發表的文章中構建的系統發育樹多數都重複不出來。建樹很“主觀”，受到序列的選擇、MSA、比對後剪輯、建樹算法和參數等影響。所以在實驗得到一個相對準確和滿意的發育樹後，最好記錄下操作過程和參數。

（2）做的是基因樹 (gene tree) 還是物種樹 (species tree)

同源基因是指由共同祖先基因衍生的基因，主要有三種關係：直系同源、旁系同源、異源同源。

如果在建樹時選擇了一個生物中的旁系同源基因，或者選擇的是不同物種中的同源基因，即直系同源，那麼構建的都屬於基因樹。

我們視生殖隔離的產生爲物種分化的標誌，所以基因分化時間和物種分化時間不一致。基因樹和物種樹主要存在的差異有：①兩物種的兩個基因分化發生在物種形成事件之前，導致對系統發育樹中最長分支的分析過估計；②基因樹的拓撲結構可能和物種樹存在差異。

基於上述原因，只能通過基因樹來推測物種樹。研究人員構建物種樹時往往利用多個基因或蛋白級聯建樹。

（3）殘基替換飽和度檢驗（Test of substitution saturation）

生物在進化發育中，nt/aa序列的殘基會發生替換，通過對nt/aa殘基替代數計算獲得進化距離，而系統發育樹是在進化距離基礎上構建的。所以有必要對即將構建進化樹的序列進行替換飽和度檢驗。

替換飽和度指的是一條序列同一位點殘基發生多次替換（替換了幾次又變成一樣的殘基了），或不同序列發生相同的替換。這會導致原本應有很大差異的兩個序列，計算後卻進化距離很近，從而導致長枝吸引現象（long branch attraction ，LBA）。

如果序列替換趨向於飽和，那麼包含的系統發育信息少，用這些序列建樹的意義不大。很多時候我們直接建的樹感覺沒啥大問題，常忽略飽和度檢驗。

（4）其他建樹序列選擇的tips

避免使用不完整的序列片段開始多序列比對；

避免使用異源同源序列；

避免使用重組序列。

2. 多序列比對結果編輯

多序列比對結果的質量是影響建樹質量的關鍵因素。應使其儘量：

（1）沒有大量gap

（2）剪輯MSA不齊的兩端

（3）保守區域選擇：即優化MSA質量，保證比對結果中含有信息量大的板塊，使比對質量高，但是殘基一致性低。適用於信息位點足夠多的長序列。

根據以上原則（1）（2），圖片中短序列MSA結果中三個框的部分就可以刪除。

三、構建系統發育樹

1. 不同建樹方法

建樹原理主要分爲基於距離的方法，即輸入距離矩陣即可的距離法；以及基於序列信息的方法，即簡約法、似然法等。常見的方法簡單介紹如下（更詳細的原理有空再寫，挖個坑）：

（1）鄰接法（Neighbor-Joining，NJ）：基於最小進化原理，通過比較每對序列的距離，構建一個總距離最小的拓撲樹。速度最快，結果較爲準確，比較常用；更適用於進化距離不大（0<平均距離<1），信息位點少的短序列。

（2）最大簡約法（Maximum parsimony，MP）：基於進化過程中殘基替代數目應爲最少的假說，即尋找一個最簡約的含有最少轉換事件/核苷酸替換/氨基酸替換的拓撲結構。不需要替換模型，更適用於序列殘基差別小、具有近似變異率、信息位點較多的長序列。

（3）最大似然法（Maximum Likelihood，ML）：對所有可能系統發育樹的似然函數進行計算，即選定一個替代模型分析一組序列數據，選擇似然率最大的樹。在進化模型選擇合適的情況下，ML結果可與進化事實很好吻合。目前最常用，計算強度大時速度慢。

（4）貝葉斯法（Bayesian Inference，BI）：基於進化模型的統計推論法。可以處理大而複雜的數據集，將現有系統發育結論作爲先驗概率，通過後驗概率直觀反映各分支的可靠性而不需要通過自舉法檢驗。

2. 系統發育樹的評估

常用進化樹的檢驗用的是自展檢驗（Bootstrap method)法，檢驗次數一般1000次，可將分支上的百分數視爲這支結果的可信度。如果phylogeny test選擇是None的話，分支上就沒有數字。一般低於50是不太可信的，有人也說需要大於70，根據自己的實驗具體分析。

美化樹時也可以對步長值小於某個固定值的數字進行隱藏或者根據步長值對樹進行修改。

3. 看懂系統發育樹

從圖片右到左：

進化枝/操作分類單元（leafs/OTUs（Operational Taxonomic Units））：表示輸入的序列；

進化分支（branch）表示這個枝上的OTU和其他序列的進化關係；

分支長度（brance length）在有標尺的樹中可表示進化距離；

結點/節點（node）可表示非輸入的/可能的祖先序列；

根（root）是共同祖先序列位置，可以引入外羣構建有根樹，即與你待分析序列關係密切且能很好的聚爲一支（若外羣不止一條序列）的序列。若研究演化，一般選擇比目標序列具有較早進化歷史的序列作爲外羣。root應出現在外羣序列和其他分析序列的分支相連位置；

無根樹（unrooted tree），無根樹中的任何node都可能是距離原始序列最近的點，只表示這一組序列之間的相對進化關係。或者有時一組沒有外羣的序列建樹也產生了“根”，但它可能只是建樹上的“祖先”，並非具有準確生物學意義的祖先，因爲系統發育樹並不能確切指示進化方向，分析時不要混淆。

標尺（scale），不同算法，標尺的意義不同。NJ中表示遺傳距離；MP中表示性狀狀態變換的步驟數，ML和BI中表示每個位點上的替換數。

四、系統發育樹的美化

首推MEGA-X建樹後的美化功能，可以給系統發育樹不同的簇標色（也可以複製到word/PPT中簡單編輯）。

先選中一個node，然後點擊左側的小錘子，可以給這個結點之下的分支標色，右側也會有括號2，這個具體使用時，“2”可以是類/簇/不同寄主/不同界門綱目等的名稱。

還有一個線上美化網頁iTOL：

https://itol.embl.de/

以及需要下載的FigTree小軟件：

http://tree.bio.ed.ac.uk/software/figtree/

五、一些在線資源

除了MEGA-X等本地軟件，還有一些線上的資源，比如CLUSTAL多序列比對網站可以建樹，還有Phylip，PhyML等。

如果你的數據複雜，用本地軟件，可能很久都不能關機。這時候這些線上工具的優勢就來了！提交數據，留下郵箱，就可以關機啦。

不過有的服務器對序列文件有限制，大數據無法在線操作分析，這時只能選擇本地。

還有個很全的工具箱網站推薦：

https://molbiol-tools.ca/Phylogeny.htm

你們看sci-hub在飄雪花

很開心在這段拖更的日子裏居然漲粉了！

拖更是因爲，畢竟實驗嘛，又到了年底衝業績的時間啦，嘿嘿。

往期相關內容：

【陪你學·生信】序

【陪你學·生信】一、生信能幫我們做什麼

【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三、核苷酸序列數據庫的使用

【陪你學·生信】四、蛋白質相關的數據庫

【陪你學·生信】五、當你有一段待分析的DNA序列（基礎操作介紹）

【陪你學·生信】六、當你有一段待分析的氨基酸序列（基礎操作介紹）

【陪你學·生信】七、在數據庫中檢索相似的序列

【陪你學·生信】八、序列兩兩比對

【陪你學·生信】九、多序列比對-Multiple Sequence Alignment（MSA）

【陪你學·生信】十、編輯對多序列比對結果

【陪你學·生信】十一、構建系統發育樹

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

【陪你學·R語言繪圖】學術圖表介紹

關於碩博開題

【陪你學·生信】Bioinformatics For Dummies完結撒花

【陪你學·生信】十三、蛋白質3D結構簡單預測

【陪你學·生信】十二、RNA相關的簡單分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結