一般多序列比對的結果都需要進行編輯再進行下一步分析。
這個推送中用於舉例操作的比對結果可以在網站下載:
http://www.tcoffee.org/dummy_aln.html
Fig.1 ClustalW / ALN格式的數據
一、MSA的數據格式
1. MSA結果的主要格式
一般多序列比對工具輸出的數據格式爲MSF(Multiple Sequence Format)或者不同工具有自己偏好的格式,但分析結果的軟件有可能只讀取FASTA格式的比對結果。這時需要重新組織數據格式,或者在MSA時選擇合適的格式輸出。
Fig. 2 EMBL-Clustal Omege可輸出的數據格式
常見的數據文本類型的格式有Clustal/ALN(Clustal默認輸出格式),FASTA(易於機器操作的格式,不包含額外的註釋信息,幾乎所有軟件支持的格式), MSF(MSA的常見格式,易於人理解,包含額外的註釋信息,很多軟件支持但是可能導入時有部分信息丟失), Phylip(適合進一步系統發育分析)。圖形類型的格式有post-script,PDF,HTML主要用於發表和打印。
這個網頁有更詳細的關於文件格式的介紹。
emboss.sourceforge.net/docs/themes/SequenceFormats.html
2. 格式轉換
有的網站可以實現一些格式間的轉換。
https://www.ebi.ac.uk/Tools/sfc/emboss_seqret/
不過需要注意格式轉換可能丟失或者搞錯的信息,比如序列的名字,序列的大小寫,以及一些特殊氨基酸殘基(X:表示不確定的氨基酸殘基)、核苷酸殘基(N:表示很多種核苷酸)可能在轉換中丟失或弄錯。需要留意一下。
二、用Geneious prime等軟件編輯MSA
1. 操作
首先下載數據,將Clustal W格式轉換爲FASTA格式,導入Geneious,結果如下。
之後就可以進行編輯,操作上很簡便。其他的編輯工具的操作也是類似的,可以對多序列中的某一條序列增減gap或者對MSA整體結果兩端進行編輯等。
2. 其他的編輯工具(部分列舉)
(1)Jalview
http://www.jalview.org/
(2)CINEMA
http://130.88.97.239/CINEMA/
(3)Seaview
http://pbil.univ-lyon1.fr/software/seaview3
三、結果分析和美化
1. Logos分析
http://weblogo.berkeley.edu/
圖中座標軸X上每個位置都是MSA的一欄,Y軸bits值越大的區域越保守。字母是該位置的氨基酸殘基,字母越大表示該位置出現它的頻率越高,並且它的logo顯示位置也是最高的。
2. Boxshade美化(黑白灰)
https://embnet.vital-it.ch/software/BOX_form.html
output format選擇RTF_new,最後美化結果是word document的格式;Fraction of sequences=0.5的意思是一半的殘基要上色;黑色表示一致,灰色表示相似。
3. 其他美化工具
(1)MView
https://www.ebi.ac.uk/Tools/msa/mview/
(2)ESPrint
http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi
往期相關內容:
【陪你學·生信】五、當你有一段待分析的DNA序列(基礎操作介紹)
【陪你學·生信】六、當你有一段待分析的氨基酸序列(基礎操作介紹)