基因序列分析(生物信息學論壇)

基因序列分析，其實說白了就是核酸和蛋白質的序列分析，分析上使用的主要是計算機的算法理論和工具，但是也必須具有生物學的背景知識，在對序列進行分析時，首先應當明確序列的性質,是mRNA序列還是基因組序列？是計算機拼接得到還是經過PCR擴增測序得到？是原核生物還是真核生物？這些決定了分析方法的選擇和分析結果的解釋。

（一）核酸序列分析

      1、雙序列比對（pairwise alignment）雙序列比對是指比較兩條序列的相似性和尋找相似鹼基及氨基酸的對應位置，它是用計算機進行序列分析的強大工具，分爲全局比對（代表算法：Needleman-Wunsch算法）和局部比對（代表算法：Smith-Waterman算法）兩類。由於這些算法都是啓發式（heuristic）的算法，因此並沒有最優值。根據比對的需要，選用適當的比對工具，在比對時適當調整空格罰分（gap penalty）和空格延伸罰分（gap extension penalty），以獲得更優的比對。

         除了利用BLAST、FASTA等局部比對工具進行序列對數據庫的搜索外，我們還推薦使用EMBOSS軟件包中的Needle軟件（http://bioinfo.pbi.nrc.ca:8090/EMBOSS/），和Pairwise BLAST （http://www.ncbi.nlm.nih.gov/BLAST/）。

         以上介紹的這些雙序列比對工具的使用都比較簡單，一般輸入所比較的序列即可。

        （1）BLAST和FASTA

         FASTA（http://www.ebi.ac.uk/fasta33/）和BLAST（http://www.ncbi.nlm.nih.gov/BLAST/）是目前運用較爲廣泛的相似性搜索工具。這兩個工具都採用局部比對的方法，選擇計分矩陣對序列計分，通過分值的大小和統計學顯著性分析確定有意義的局部比對。使用FASTA和BLAST，進行數據庫搜索，找到與查詢序列有一定相似性的序列。一般認爲,如果蛋白的序列一致性爲25-30%,則可認爲序列同源。BLAST根據搜索序列和數據庫的不同類型分爲5種（表2），另外PSI-BLAST通過迭代搜索，可以搜索到與查詢序列相似性較低的序列。其中BLASTN、BLASTP在實踐中最爲常用，TBLASTN在搜索相似序列進行新基因預測時特別有用。使用BLAST時，先選擇需要使用的BLAST程序，然後提供相應的查詢序列，選擇所比對的數據庫即可。

         (2) Needle和Pairwise BLAST：其中Needle適用於蛋白質和DNA序列，而Pairwise BLAST僅適用於DNA序列

        （3）相似性和同源性：必須指出，相似性（similarity）和同源性( homology)是兩個完全不同的概念。同源序列是指從某一共同祖先經過趨異進化而形成的不同序列。相似性是指序列比對過程中檢測序列和目標序列之間相同鹼基或氨基酸殘基序列所佔比例的大小。經過比對，當相似性高於一定程度，可以推測序列可能是同源序列，具有一定同源性。

2、多序列比對和進化樹

        在研究生物問題時，常常需要同時對兩個以上的序列進行比對，這就是多序列比對。多序列比對可用於研究一組相關基因或蛋白，推斷基因的進化關係，還可用於發現一組功能或結構相關基因之間的共有模式（pattern）。最常用的多序列比對工具爲ClustalW（http://www.ebi.ac.uk/clustalw/），多用於比較蛋白序列。

         ClustalW用法：

      （1）輸入：序列以FastA格式輸入。

      （2）輸出：除了以文本形式外，還可以通過JalView顯示和編輯結果。此外，還可以另外使用GeneDoc（常見於文獻）及DNAStar軟件等顯示結果。多序列比對的結果還用於進一步繪製進化樹。

3、基因結構分析根據基因的mRNA序列及基因組序列，可以進行基因結構的分析。推薦使用BLAST或BLAT(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start)進行分析。由於真核生物轉錄後內含子將被剪切，因此將mRNA和基因組進行比對以後，會發現mRNA的每個外顯子與基因組序列片斷匹配，根據這些片段可以判斷外顯子的數目和大小。外顯子和內含子具體邊界的確定，可以參考GT/AG一致性規則。BLAT的結果直接顯示外顯子數目、大小及邊界。

（二）蛋白質序列分析

         1、跨膜區預測

           各個物種的膜蛋白的比例差別不大，約四分之一的人類已知蛋白爲膜蛋白。由於膜蛋白不溶於水，分離純化困難，不容易生長晶體，很難確定其結構。因此，對膜蛋白的跨膜螺旋進行預測是生物信息學的重要應用。

           推薦使用TMHMM軟件（http://www.cbs.dtu.dk/services/TMHMM/）對蛋白進行跨膜預測。TMHMM綜合了跨膜區疏水性、電荷偏倚、螺旋長度和膜蛋白拓撲學限制等性質，採用隱馬氏模型（Hidden Markov Models），對跨膜區及膜內外區進行整體的預測。TMHMM是目前最好的進行跨膜區預測的軟件,它尤其長於區分可溶性蛋白和膜蛋白，因此首選它來判定一個蛋白是否爲膜蛋白。所有跨膜區預測軟件的準確性都不超過52％，但86％的跨膜區可以通過不同的軟件進行正確預測。因此，綜合分析不同的軟件預測結果和疏水性圖以獲得更好的預測結果。

         方法：輸入待分析的蛋白序列即可。

         2、信號肽預測

         信號肽位於分泌蛋白的N端，當蛋白跨膜轉移位置時被切掉。信號肽的特徵是包括一個正電荷區域、一個疏水性區域和不帶電荷但具有極性的區域。信號肽切割位點的-3和-1位爲小而中性氨基酸。

         推薦使用SignalP軟件2.0版（http://www.cbs.dtu.dk/services/SignalP-2.0/）對PDCD5N端序列進行信號肽分析。SignalP2.0根據信號肽序列特徵，採用神經網絡方法或隱馬氏模型方法，根據物種的不同，分別選擇用真核和原核序列進行訓練，對信號肽位置及切割位點進行預測。信號肽切割位點預測用Y-score maximum來判斷，對是否分泌蛋白用mean S-score來判斷：如果mean S-score大於0.5，則預測爲分泌蛋白，存在信號肽，但II型跨膜蛋白的N端序列可能被錯誤預測爲分泌蛋白的信號肽。

         方法：輸入待分析的蛋白序列，如爲原核基因選擇原核訓練集，否則選擇真核訓練集。

         3、亞細胞定位預測

           亞細胞定位與蛋白質的功能存在着非常重要的聯繫。亞細胞定位預測基於如下原理：（1）不同的細胞器往往具有不同的理化環境,它根據蛋白質的結構及表面理化特徵,選擇性容納蛋白。（2）蛋白質表面直接暴露於細胞器環境中,它由序列摺疊過程決定,而後者取決於氨基酸組成。因此可以通過氨基酸組成進行亞細胞定位的預測。

           推薦使用PSORT（http://psort.nibb.ac.jp/）II軟件對PDCD5蛋白的細胞內定位進行預測。PSORT將動物蛋白質定位於10個細胞器：（1）細胞漿，（2）細胞骨架，（3）內質網，（4）胞外，（5）高爾基體，（6）溶酶體，（7）線粒體，（8）胞核，（9）過氧化物酶體（peroxisome）和（10）細胞膜。

Eugene_Chien

發佈了29 篇原創文章 · 獲贊 1 · 訪問量 3萬+

私信關注

基因序列分析(生物信息學論壇)

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

HMM之前向算法（forward algorithms）

基因序列分析(生物信息學論壇)

html5中的新屬性（一）

數據挖掘中的十大問題

html5的web存儲（五）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結