【陪你學·生信】九、多序列比對-Multiple Sequence Alignment（MSA）

一、多序列比對能幹嘛？

下面是多序列比對的主要應用：

1. 推測——Extrapolation

可以推測一條未知的aa序列屬於某個已知的蛋白質家族或者擁有相似蛋白質結構域甚至相似的蛋白質3D結構等。

2. 系統發育分析——Phylogenetic Analysis

如果選擇合適的序列進行多序列比對，可以分析他們的系統發育關係。比如利用BioWeb（https://bioweb.pasteur.fr/welcome）的Pasteur Phylip（https://evolution.gs.washington.edu/phylip.html）或者Phylogeny.fr等網頁上的工具可以實現（http://phylogeny.lirmm.fr/phylo_cgi/index.cgi，這個網站的新版：https://ngphylogeny.fr/ 剛剛朋友M還給我介紹了另一個工具：SMS，如果用PhyML建樹的話，可以在SMS上先跑一下，得到建樹的推薦參數設定）。

SMS的那篇論文

預測結構，預測功能，構建系統發育樹？聽上去都是生物研究中需要分析的基礎項。那麼怎麼做？就是將目標序列與數據庫中多條同源序列的相似部分擺放在同一欄，同一位置。

有一些工具可以幫助我們進行多序列比對，但是最好再根據結構、進化、功能、序列相似性人工矯正一下比對結果。

二、選擇合適的序列

1. 選擇序列時要注意的問題

選擇要比對的序列很重要，不然結果沒有意義。這些序列一般同源、同一家族等。但是同源，同一家族的蛋白質也太多了，我們選擇時一般可以注意以下幾個方面（比較通用的幾點，有特殊實驗要求的另外考慮）：

（1）一般選擇比較蛋白質序列比DNA更好（因爲蛋白質序列短而且含有的20種氨基酸信息比DNA有的的4種核苷酸信息更多；如果是非編碼區就只能選DNA序列比對）；

（2）選擇的數據庫中的序列最好有一些有詳細的註釋，這樣可以提供很多信息；

（3）多序列比對選用10-15條序列開始比對（如果10條的結果不錯，又想再加別的序列進行分析也可以。如果結果不好，需要對現有的序列進行處理，比如刪除，剪輯等。比對序列的數量不是越多結果越好，多了反倒增加軟件出錯概率，除非工作需要）；

（4）如果有一條序列與半數以上的其他序列一致性低於30%，比對會有些問題（一般aa序列一致性在30%-70%之間，E-value在10^-40到10^-5，不過這並不是硬性規定）；

（5）如果有序列之間一致性太高的，進行多序列比對也沒有什麼價值（除非有特殊實驗目的，具體問題具體分析。需要權衡結果是要能更多地體現相似性還是提供新信息。序列之間高度相似，一定會有很好的比對結果。但是提供的新信息會少）；

（6）很多工具善於比對總長度類似的序列，對長短不一的分析結果不好，如果可以，需要提前剪輯；

（7）一般工具對有重複片段的多序列進行比對時存在問題，尤其序列間重複的次數不同時問題更大，需要人工提取這部分，進行分析。

2. 操作示例

以人的鈣依賴性肌酶蛋白calcium-dependent kinase proteins—— 序列號爲P20472的序列爲例。可以在ExPASy、Swiss-Prot、NCBI的blastp頁面上直接輸入序列號，檢索，得到一系列同源序列，再按照上述規則選擇合適的多條序列，下載FASTA格式文件。

（1）下面截圖是ExPASy-blastp網頁的（https://web.expasy.org/blast/），如果選擇的序列它們長度相似且不需要額外剪輯，還可以直接勾選發送到ExPASy-Clustal W，進行多序列比對。

輸入序列號或者原始序列

得到多條比對結果，選擇並且導出FASTA格式或者直接發送到ExPASy-Clustal W（如下圖）

很多網站都有Clustal，MUSCLE的插件，在下面【三、選擇合適的多序列比對的方法】中會多介紹，這裏是因爲ExPASy等網站可以直接將數據發送到多序列比對MSA的頁面，就先寫了；同樣，很多MSA網頁又可以直接將比對結果send to系統發育分析的網頁。

（2）在UniProt網站使用序列號提取全部序列

如果我們知道自己要比對的多條序列的序列號，可以直接在這裏（https://www.uniprot.org/uploadlists/）提取，點擊底下的submit即可。

輸入序列號

這裏除了提取序列，還可以通過序列號直接提取序列的其他信息

三、多序列比對軟件/程序

目前常見的有Clustal,、MUSCLE、T-Coffee和MAFFT等。

1. Clustal

由於是第一款多序列比對的軟件，所以使用較多，很多網頁都有這個的功能插件（比如EBI，EMBnet，PIR，GenomeNet，DDBJ等）。它的更新版本也蠻多，之前是Clustalx，Clustal W系列。現在最新的是Clustal Omega，可最多比對4000條序列/小於4MB的文件。

EMBL-EBI-Clustal Omega

https://www.ebi.ac.uk/Tools/msa/clustalo/

GenomeNet-Clustal W

https://www.genome.jp/tools-bin/clustalw

Clustal Omega算法流程圖，整體來講，Clustal系列採用累進算法（progressive methods）。首先進行序列兩兩比對，構建距離矩陣→基於兩兩比對距離矩陣，由關係近的序列逐漸加入關係遠的序列構建引導樹guide tree→進行多序列比對。由此可見，比對的準確性高度依賴於一開始的兩兩比對，比較適用於親緣關係較近的序列。Clustal Omega中改進的新兩兩比對和建guide tree算法使Omega在W的基礎上，速度、準確度和數據處理量上與所提升。

2. MUSCLE（MUltiple Sequence Comparison by Log- Expectation）

https://www.ebi.ac.uk/Tools/msa/muscle/

最多比對500條序列/小於1MB的文件。

MUSCLE第一篇論文，介紹了算法。整體看也是累進算法，但是在此基礎上還有對引導樹受限分區進行調整和修正。

3. T-Coffee

最多比對500條序列/小於1MB的文件。

https://www.ebi.ac.uk/Tools/msa/tcoffee/

官網：http://tcoffee.crg.cat/apps/tcoffee/index.html

Coffee系列感覺很不錯啊，我是它顏粉。M-Coffee很與時俱進，顯示結果會指出其他的軟件，比如Clustal，MUSCLE等比對與Coffee結果一致的部分，一致部分比對可信度高，給科研工作者以參考，不用手動去不同平臺比對再進行比較了。

Coffee還推出了一個對MSA結果評估的工具TCS：

T-Coffee算法流程圖，方形框是操作，圓角框是數據結構。整體上還是累進算法，基於Clustal的算法。

4. MAFFT（Multiple Alignment using Fast Fourier Transform）

https://www.ebi.ac.uk/Tools/msa/mafft/

最多比對500條序列/小於1MB的文件。特定是速度快。

MAFFT中實現了兩種不同的算法，即累進方法（FFT‐NS‐2）和迭代優化方法（FFT‐NS‐i）。迭代方法（iterative methods）針對累進比對的不足，在比對過程中不斷重新比對各個亞組序列，再把亞組序列重排成包括所有序列在內的整體比對，從而獲得最優比對。

若我們在UniProt提取編號爲P20472, P80079, P02626, P02619, P43305, P32930, Q91482, P02620, P02622, P02627的蛋白質序列的FASTA格式，上傳上述四個網站，結果是差不多的（應該是我找的這幾個序列對比太簡單了，序列長度都類似）。硬要仔細比較，可能是MUSCLE吧，它的distance矩陣看起來好些。

搜了一下別人的看法，大家都各有慣用的工具。另外有一個上文沒有提到的工具“PRANK”在發現多序列保守區域中表現很好，只是速度太慢，不適合較大文件。而且用這些工具進行比對之後，往往還需要手動調整、裁剪等，再進行下一步分析。

用不同的工具進行多序列比對時，還可看看它們能設定的參數。有的明顯更加適合你的數據（或者有的數據用什麼工具的結果都類似，就像我文中選的這10條序列）。找到自己喜歡的工具和網頁，多瞭解可以設定的參數（一般網站設定參數後面都有小問號解釋），更好的進行分析。

MUSCLE的distance matrix

一組簡單序列用不同工具的MSA結果：

四、評估多序列比對結果

1. 從結果的顯示可以簡單看出：

保守程度由高到低爲“ *→：→ · ”

* 保守欄，序列一致。

：保守性突變，那幾個氨基酸可能是同種性質的，如分子量，電荷極性等。

· 半保守性突變。

2. Coffee-TCS也可以評估：

從粉到藍，good→bad

3. 對結果進行進一步分析

我們進行MSA多數是爲了找到這些序列的重要片段，重要片段的序列組成保守，不易突變，即使是在親緣關係較遠的序列間也相對保守。

上面的例子中幾個蛋白序列的MSA比對結果較好，通過評估只可以看出來N末端比C末端更加保守，推測在N末端更有可能是活性位點。但是範圍有些大且究竟是不是，還需引入差異大一些的序列進一步分析。

我們可以在擁有很好比對結果的序列基礎上引入兔子（P02586）和老鼠（P19123）的相應鈣依賴性肌酶蛋白的序列，再進行一次MSA（P20472, P80079, P02626, P02619, P43305, P32930, Q91482, P02620, P02622, P02627, P02586, P19123）。