【陪你學·生信】七、在數據庫中檢索相似的序列

一、相似度Similarity

序列的分析離不開相似度這個指標，相似度比較高的序列往往具有相似的結構、執行相似的功能。所以用未知序列blast得到的結果可以對未知序列進行推測。

當兩個序列非常相似時，生物學家稱之爲同源。然而有一點不明確，就是什麼程度的相似可以稱之爲“非常”相似呢？書上說一般長度爲100以上核苷酸序列或者氨基酸序列，序列之間的一致度（identical）大於70%（nt）或25%（aa）可以推測同源。

不過有時，一致度或相似度很高的兩個序列也有可能非同源，這種進化上的“趨同”現象可能是隨機產生的，這樣的一對序列可稱爲同功序列。或者序列相似度很低，但是蛋白質三維結構幾乎一樣的情況也有。分析的時候還要結合E-value，兩序列中可對應的序列長度佔兩序列的比例，插入和刪除的殘基個數等一起判斷是否是同源。推薦閱讀往期推送【現學現賣】序列比對之identity VS similarity，【現學現賣】序列比對之bit-score VS E-value。

二、最棒的序列比對工具沒有之一——BLAST

之前第六章主要介紹了分析一條氨基酸序列理化性質，結構域的方法。這章說說序列比對，比對就不得不用BLAST。NCBI中蛋白質相關的blast有：blastp（用氨基酸序列在氨基酸數據庫中比對），tblastn（用氨基酸序列在覈苷酸數據庫中比對）。

1. NCBI-blastp

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

以序列號P09405的氨基酸序列爲例進行blastp。

很快返回結果頁面，點擊按鈕可以展開一些摺疊的結果，還有filter工具篩選你感興趣的東西。

上圖標記黃色的都可以點開看看，比如Graphic Summary打開後如下圖。彩色部分展示的是數據庫中得到的序列與查詢序列（query sequence）比對的位置，不同的顏色體現相似程度/得分。前面的幾個序列與查詢序列匹配程度很高，後面短的粉色部分的信息也並不是沒有用處，比如可以幫助我們找到蛋白質結構域。

在Alignments裏，上方是查詢序列，下方是匹配序列，中間那欄，如果是字母則表示匹配，如果是➕表示是相似氨基酸殘基，如果是空則表示未匹配上。

2. NCBI-blastn

BLASTing DNA序列和蛋白質序列很類似，而且如果你知道DNA序列的ORF，可以翻譯成氨基酸序列使用blastp，獲得更加準確的結果。

DNA序列比對可用blastn，還有tblastx和blastx，這裏面的t表示translated，就是你輸入DNA序列，在blast之前會有工具將其翻譯，再進行blast比對。tblastx數據庫是TDNA數據庫（系統將nt翻譯爲aa的一個數據庫），blastx數據庫是氨基酸序列庫。至於不同情況用什麼工具，見下圖。

3. 用BLAST方式思考問題（一些BLAST可以解決的問題）

（1）在基因組中尋找目標基因

可以將基因組分爲多條兩端互相重疊的序列（2-5kb），然後用blastx在NR庫（the Non Redundant protein database）中檢索。

（2）預測蛋白質功能

用blastp在Swiss-Prot數據庫中檢索，你輸入的蛋白序列可能擁有和高分結果相似的功能。

（3）預測蛋白質三級結構

用blastp在PDB數據庫中檢索，道理同（2）

4. 使用BLAST前可以設定的參數

一般情況下進行BLAST，會對organism進行限定，其他參數維持默認。那麼什麼情況下需要修改默認參數呢？比如沒有返回結果或者結果的E-value數值大，可以更改矩陣或空位罰分；或者返回太多結果，則可以限定所使用的數據庫、關鍵詞、E值等。

（1）blastp

一些蛋白質序列的某一部分複雜程度比較低（low-complexity/ low-entropy），一種或幾種氨基酸殘基在一段區域內富集。這樣兩個序列比對會產生高分結果，但是它們很可能毫不相干。爲了避免這個問題，可以勾選Algorithm parameters——filters and mask高級選項——“low complexity regions”，過濾這樣的比對結果。