一 序列比對
什麼是序列比對?alignment,也叫對位排列,聯配,對齊等
將兩條或多條(核苷酸或氨基酸)序列排列在一起,通過一定的算法找出序列之間最大相似性匹配的過程。
二 序列相似性
序列一致度(identity)與相似度(similarity)
一致度:如果兩個序列(蛋白質或核酸)長度相同,那麼它們的一致度定義爲它們對應位置上相同的殘基(一個字母,氨基酸或鹼基 )的數目佔總長度的百分數
相似度:如果兩個序列(蛋白質或核酸)長度相同,那麼它們的相似度定義爲它們對應位置上相似的殘基與相同的殘基的數目和佔長度的百分數
哪個殘基與哪個殘基算作相似?
答:殘基兩兩相似的量化關係被替換記分矩陣所定義。
替換記分矩陣(Substitution Matrix):反映殘基之間相互替換率的矩陣,它描述了殘基兩兩相似的量化關係。分爲DNA替換記分矩陣,和蛋白質替換記分矩陣
3種常見的DNA序列的替換記分矩陣
等價矩陣:最簡單的替換記分矩陣,其中相同的核苷酸之間的匹配得分爲1 ,不同的核苷酸間的替換得分爲0。由於不含有鹼基的理化信息和不區別對待不同的替換,在實際的序列比較中較少使用。
轉換-顛換矩陣(transition-transversion matrix):核酸的鹼基按照環結構特徵被劃分爲兩類,一類是嘌呤(腺嘌呤A,鳥嘌呤G),它們有兩個環。如果DNA鹼基的替換保持環數不變,則成爲轉換,如A—>G,C–>T;如果環數發生變化,則稱爲顛換,A–>C,T–>G等。在進化過程中,轉換髮生的頻率遠比顛換高。爲了反映這一情況,通常該矩陣中轉換的得分爲-1,二顛換的得分爲-5
BLAST矩陣:經大量實際比對發現,如果令被比對的兩個核苷酸相同時得分爲+5,反之爲-4,則比對效果較好,這個矩陣廣泛的被DNA序列比較所採用
蛋白質序列的替換記分矩陣
蛋白質最常用的兩種矩陣是 PAM 矩陣和 BLOSUM 矩陣
PAM 矩陣
PAM 矩陣基於進化原理。如果兩種氨基酸替換頻繁,說明自然界容易接受這種替換,那麼這一對氨基酸替換的得分就應該高。
PAM 矩陣的選擇
基礎的 PAM-1矩陣反應的是進化產生的每一百個氨基酸平均發生一個突變的量值,由統計方法得到。PAM-1 自乘 n 次,可以得到 PAM-n ,表示發生了更多次突變。我們需要根據要比較的序列之間的親緣關係遠近,來選擇適合的 PAM 矩陣。如果序列親緣關係遠,也就是說序列間會有很多突變,那就選 PAM 後面跟一個大數字的矩陣。如果親緣關係近,也就是突變比較少,序列間大多數地方都是一樣的,那就選 PAM 後面跟一個小數字的矩陣。
PAM250 矩陣。對角線上的數值爲匹配氨基酸的得分。其他位置上≥0 的得分代
表對應的一對氨基酸爲相似氨基酸,<0 的是不相似的氨基酸
BLOSUM 矩陣
BLOSUM 矩陣都是通過對大量符合特定要求的序列計算而來的。這點和 PAM 矩陣不同的。PAM-1 矩陣是基於相似度大於85%的序列計算產生的,也就是通過關係較近的序列計算出來的。那些進化距離較遠的矩陣,如 PAM-250,是通過 PAM-1 自乘得到的。也就是說,BLOSUM 矩陣的相似性是根據真實數據產生的,而 PAM 矩陣是通過矩陣自乘外推而來的。和 PAM 矩陣的另一個不同之處是BLOSUM 矩陣的編號。這些編號,比如 BLOSUM80 中的 80,代表這個矩陣是由一致度≥80%
的序列計算而來的。同理,BLOSUM62 是指這個矩陣是由一致度≥62%的序列計算而來的。因此,BLOSUM 後面跟一個小數字的矩陣適合用於比較相似度低的序列,也就是親緣關係遠的序列;而 BLOSUM 後面跟一個大數字的矩陣適合比較相似度高的序列,也就是親緣關係近的序列。
總結
親緣關係較近的序列之間的比較,用 PAM 數小的矩陣或BLOSUM 數大的矩陣;而親緣關係較遠的序列之間的比較,用 PAM 數大的矩陣或 BLOSUM數小的矩陣
如果關於要比較的序列你不知道親緣關係遠近,那麼就閉着眼睛用
BLOSUM62 吧!至此,只記住 BLOSUM62 這個名字,也可以走遍天下全不怕!
除了 PAM 和 BLOSUM 矩陣,還有兩個蛋白質的替換記分矩陣。一個是遺傳密碼矩陣,它是通過計算一個氨基酸轉換成另一個氨基酸所需的密碼子變化的數目而得到的。矩陣的值對應爲據此付出的代價。如果變化一個鹼基就可以使一個氨基酸的密碼子轉換爲另一個氨基酸的密碼子,則這兩個氨基酸的替換代價爲 1;如果需要 2 個鹼基的改變,則替換代價爲 2;再比如從蛋氨酸(Met)到酪氨酸(Tyr)三個密碼子都要變,則代價爲 3。遺傳密碼矩陣常用於進化距離的計算,它的優點是計算結果可以直接用於繪製進化樹,但是它在蛋白質序列比對,尤其是相似程度很低的蛋白質序列比對中,很少被使用
另一個疏水矩陣,它是根據氨基酸殘基替換前後疏水性的變化而得到的矩陣。若一次氨基酸替換導致疏水特性不發生太大的變化,則這種替換得分高,否則替換得分低。疏水矩陣物理意義明確,有一定的理化性質依據,適用於偏重蛋白質功能方面的序列比對。在這個矩陣裏,氨基酸按照親疏水性排列。前邊是親水的,後面是疏水的。
三 相似性與同源性
問題:相似性等於同源性嗎?
相似性(similarity)
概念:是指兩個序列之間的相關程度。比如說,A序列和B序列的相似性是85%,這是一個量化的關係,並不具有生物學意義。
同源性(homology)
概念:是指兩個序列具有共同的祖先,屬於質的判斷。就是說A和B的關係上,只有是同源序列,或者是非同源序列兩種關係。而說A和B的同源性爲85%則是不科學的。
相似性與同源性的關係
序列相似不一定同源(相似可能是偶然的)
序列不相似不一定不同源(高級結構相似)
總結:
一般來說序列間的相似性越高的話,它們是同源序列的可能性就越大,所以經常可以通過序列的相似來推斷序列是否同源(統計學推斷)。
四 比較兩個序列的方法
打點法
最簡單的比較兩個序列的方法,理論上用紙筆完成
用這種方法發現串聯重複序列(tandem repeat)
seq1:FASABCABCABCTHE
短串聯重複序列(short tandem repeat ,STR)也叫做微衛星DNA,是一類廣泛存在於真核生物基因組中的DNA串聯重複序列。它由2-6bp的核心序列組成,重複次數通常在15-30次。STR具有高度多態性,即存在重複次數的個體差異,而且這種差異在基因遺傳過程中一般遵循孟德爾顯性遺傳規律,所以他被廣泛用於法醫學個體識別,親子鑑定等領域。
我們只要數數在半個矩陣中包括主對角線在內的所有等距的平行線的個數,就可以知道重複的次數,而且最短的平行線對應的序列就是重複單元
最常用的 Dotlet 軟件:http://myhits.isb-sib.ch/cgi-bin/dotlet
序列比對法
較兩條序列可以通過打點法,但是用打點法只能讓你大致瞭解兩條序列是否相似,無法定量的描述。如果想要精確地知道兩條序列到底有多相似,就需要使用序列比對法
根據比對序列的個數可以把序列比對分爲雙序列比對和多序列比對。顧名思義,雙序列比對就是比 2 條,而多序列比對是比 2 條以上。此外根據序列比對的算法不同,雙序列比對又分爲全局比對和局部比對
全局比對就是全長比較,一個字符都不能落下。而局部比對是比較對得最好的局部,對得不好的部分會被忽略不計。
氨基酸背景知識
氨基酸分類 | 名稱 | 縮寫 |
---|---|---|
非極性疏水性氨基酸 | 甘氨酸 | Gly(G) |
非極性疏水性氨基酸 | 丙氨酸 | Ala (A) |
非極性疏水性氨基酸 | 纈氨酸 | Val(V) |
非極性疏水性氨基酸 | 亮氨酸 | Leu(L) |
非極性疏水性氨基酸 | 異亮氨酸 | Ile(I) |
非極性疏水性氨基酸(芳香族氨基酸 F,W,Y) | 苯丙氨酸 | Phe(F) |
極性氨基酸(芳香族氨基酸 F,W,Y) | 色氨酸 | Trp(W) |
極性氨基酸(芳香族氨基酸 F,W,Y) | 酪氨酸 | Tyr(Y) |
極性氨基酸 | 絲氨酸 | Ser(S) |
極性氨基酸 | 半胱氨酸 | Cys(C) |
極性氨基酸 | 甲硫氨酸 | Met(M) |
極性氨基酸 | 天冬醯胺 | Gln(Q) |
極性氨基酸 | 蘇氨酸 | Thr(T) |
酸性氨基酸 | 天冬氨酸 | Asp(D) |
酸性氨基酸 | 穀氨酸 | Glu(E) |
鹼性氨基酸 | 精氨酸 | Arg(R) |
鹼性氨基酸 | 組氨酸 | His(H) |
鹼性氨基酸 | 賴氨酸 | Lys (K) |
人體必需氨基酸(人體不能合成)甲硫氨酸,纈氨酸,異亮氨酸,苯丙氨酸,亮氨酸,色氨酸,蘇氨酸 ‘甲攜一本亮色書’
半必需氨基酸 :(合成速度遠不適應機體的需要)
精氨酸
還有一種是組氨酸 ,嬰兒不能合成。
非必需氨基酸11種