【陪你學·生信】十、編輯對多序列比對結果

​一般多序列比對的結果都需要進行編輯再進行下一步分析。

這個推送中用於舉例操作的比對結果可以在網站下載:

http://www.tcoffee.org/dummy_aln.html

Fig.1 ClustalW / ALN格式的數據

一、MSA的數據格式

1. MSA結果的主要格式

一般多序列比對工具輸出的數據格式爲MSF(Multiple Sequence Format)或者不同工具有自己偏好的格式,但分析結果的軟件有可能只讀取FASTA格式的比對結果。這時需要重新組織數據格式,或者在MSA時選擇合適的格式輸出。

Fig. 2 EMBL-Clustal Omege可輸出的數據格式

常見的數據文本類型的格式有Clustal/ALN(Clustal默認輸出格式),FASTA(易於機器操作的格式,不包含額外的註釋信息,幾乎所有軟件支持的格式), MSF(MSA的常見格式,易於人理解,包含額外的註釋信息,很多軟件支持但是可能導入時有部分信息丟失), Phylip(適合進一步系統發育分析)。圖形類型的格式有post-script,PDF,HTML主要用於發表和打印。

這個網頁有更詳細的關於文件格式的介紹。

emboss.sourceforge.net/docs/themes/SequenceFormats.html

2. 格式轉換

有的網站可以實現一些格式間的轉換。

https://www.ebi.ac.uk/Tools/sfc/emboss_seqret/

不過需要注意格式轉換可能丟失或者搞錯的信息,比如序列的名字,序列的大小寫,以及一些特殊氨基酸殘基(X:表示不確定的氨基酸殘基)、核苷酸殘基(N:表示很多種核苷酸)可能在轉換中丟失或弄錯。需要留意一下。

二、用Geneious prime等軟件編輯MSA

1. 操作

首先下載數據,將Clustal W格式轉換爲FASTA格式,導入Geneious,結果如下。

之後就可以進行編輯,操作上很簡便。其他的編輯工具的操作也是類似的,可以對多序列中的某一條序列增減gap或者對MSA整體結果兩端進行編輯等。

2. 其他的編輯工具(部分列舉)

(1)Jalview

http://www.jalview.org/

(2)CINEMA

http://130.88.97.239/CINEMA/

(3)Seaview

http://pbil.univ-lyon1.fr/software/seaview3

三、結果分析和美化

1. Logos分析

http://weblogo.berkeley.edu/

圖中座標軸X上每個位置都是MSA的一欄,Y軸bits值越大的區域越保守。字母是該位置的氨基酸殘基,字母越大表示該位置出現它的頻率越高,並且它的logo顯示位置也是最高的。

2. Boxshade美化(黑白灰)

https://embnet.vital-it.ch/software/BOX_form.html

output format選擇RTF_new,最後美化結果是word document的格式;Fraction of sequences=0.5的意思是一半的殘基要上色;黑色表示一致,灰色表示相似。

3. 其他美化工具

(1)MView

https://www.ebi.ac.uk/Tools/msa/mview/

(2)ESPrint

http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

往期相關內容:

【陪你學·生信】序

【陪你學·生信】一、生信能幫我們做什麼

【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三、核苷酸序列數據庫的使用

【陪你學·生信】四、蛋白質相關的數據庫

【陪你學·生信】五、當你有一段待分析的DNA序列(基礎操作介紹)

【陪你學·生信】六、當你有一段待分析的氨基酸序列(基礎操作介紹)

【陪你學·生信】七、在數據庫中檢索相似的序列

【陪你學·生信】八、序列兩兩比對

【陪你學·生信】九、多序列比對-Multiple Sequence Alignment(MSA)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章