核酸序列分析

核酸序列分析
核酸序列分析
1、核酸序列檢索
可通過NCBI使用Entrez系統進行檢索,也可用EBI的SRS 服務器進行檢索。在同時檢索多條序列時,可通過羅邏輯關係式按照GenBank接受號進行批量檢索。如用“AF113671 [ac] OR AF113672 [ac]”可同時檢索這兩條序列。其中“[ac]”是序列接受號的描述字段。

2、核酸序列的基本分析
(1)分子質量、鹼基組成、鹼基分佈
分子質量、鹼基組成、鹼基分佈可通過一些常用軟件等直接獲得。如:
BioEdit(http://www.mbio.ncsu.edu/BioEdit/bioedit.html),
DNAMAN(http://www.lynnon.com)。
(2)序列變換
進 行序列分析時,經常需要對DNA序列進行各種變換,例如反向序列、互補序列、互補反向序列、顯示DNA雙鏈、轉換爲RNA序列等。這些用DNAMAN軟件 可很容易實現,這些功能集中在Sequence→Display,從中可選擇不同的序列變換方式對當前通道的序列進行轉換。
(3)限制性酶切分析
該方面最好的資源是限制酶數據庫(Restriction Enzyme Database,REBASE)。REBASE數據庫(http://rebase.neb.comhttp://neb.com/rebase)中含有限制酶的所有信息,包括甲基化酶、相應的微生物來源、識別序列位點、裂解位點、甲基化特異性、酶的商業來源及公開發表的和未發表的參考文獻。其它資源還有:
WebGene:http://www.bio.indiana.edu/~tjyin/WebGene/RE.html
http://www.hyper-dimensions.com/personal/tyin.html
WebCutter2:http://www/ccsi.com/firstmarkert/firstmarket/cutter/cut2.html
同時,很多軟件也能夠識別REBASE限制酶數據庫。強烈推薦使用集成化的軟件如BioEdit和DNAMAN等。所得出的結果給出指定DNA序列的酶切位點信息,爲克隆鑑定和亞克隆提供了重要信息。
在 實際進行分子生物學實驗中,有時需要對多條相關序列(如發生突變的一批序列)同時進行酶切分析,以便爲後續的克隆鑑定提供參考。此時DNAMAN軟件是一 個良好的選擇。在對所有序列進行多重對齊後,其輸出項“Output”中即有“Restriction Analysis”選項,執行後即可完成對所有參與對齊序列的酶切分析,能夠得到所有序列的差異酶切圖譜和一致酶切圖譜。
(4)克隆測序分析
得到測序結果後,需要對所測序列進行後續分析,其中主要包括對測序峯圖的查看和載體序列的去除等過程。
a. 測序峯圖的查看
最簡單的程序是澳大利亞的Conor McCarthy(http://trishul.sci.gu.edu.au./~conor/)開發的Chromas.exe程序,但該程序不支持Windows 95以上的長文件名。其實,集成化的軟件如BioEdit和DNAMAN也具有此功能。
b. 載體序列的去除
許多數據庫中收集了常用的測序載體序列,如:
vector-ig: ftp://ncbi.nlm.nih.gov/repository/vector-ig
      ftp://ncbi.nlm.nih.gov/repository/vector
UniVec數據庫: http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html
            http://ftp.ncbi.nlm.nih.gov/blast/db/vector.Z
VectorDB: http://www.atcg.com/vectordb/
如果用戶面對的是大批量序列的分析任務,則需要將這些載體數據庫下載後進行分析。使用Blast程序(http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html)對此類數據庫進行相似性分析即可得知目的序列中是否含有載體序列。如果是,那麼在對測序列數據進行進一步分析之前必須將載體序列去除。此過程雖然簡單,在覈酸序列數據庫中仍有一些序列含有載體序列的污染。
美國基因編碼公司(Gene Codes Corp/)所開發的SequencherTM軟件在識別載體序列方面具有很強的功能。SequencherTM軟件被多個公司用於測序數據的分析和管理。該分司同時提供該軟件的演示版,可通過其網址(http://www.genecodes.com/home.html) 獲得。運行SequencherTM軟件後,選擇File→Import→Sequences,選擇待進行載體序列分析的測序文件。該測序文件可爲文本格 式的序列文件,也可爲測序峯圖文件,甚至可將一個目錄下的所有的文件一次性輸入。編輯載體序列文件,在Name中填寫載體名稱,在PolyLinker處 填寫克隆插入位點的兩側序列,中間插入位點用星號(*)標識。選中待進行載體序列切除的序列圖標,選擇Sequence→Trim Vector,將得到切除結果。點最上方的Show Bases按鈕,將顯示具體序列。SequencherTM軟件可識別的載體序列文件也可來自VecBase數據庫。
(5)核酸序列的電子延伸
核 酸序列的電子延伸的基本過程是:①將待分析的核酸序列(稱爲種子序列)採用Blast軟件搜索GenBank的EST(expressed sequence tag,表達序列標籤)數據庫,選擇與種子序列具有較高同源性的EST序列(一般要求在重疊40個鹼基範圍內有95%以上的同源性),稱爲匹配序列。②將 匹配序列和種子序列裝配產生新生序列,此過程稱爲片段重疊羣分析(contig analysis)。③然後再以此新生序列作爲種子序列,重複上述過程,直到沒有新的匹配序列入選,從而生成最後的新生序列,作子種子序列的延伸產物。
在GCG軟件包中,以下分析工具用於完成序列的電子延伸:
gelstart程序爲測序工程創建一個新的數據庫;
gelenter程序將克隆序列輸入數據庫;
gelmerge程序自動分析克隆和片段末端重複情況;
gelassemble調整片段重疊羣的對齊結果;
gelview顯示單個片段重疊羣中的重疊情況;
geldisassemble將片段重疊羣中的克隆分解爲單個克隆序列。
GenBank 和UniGene數據庫、Tigem的EST Machine、EMBL的EST Cluster Project、美國Pangea的EST Assembly Project以及我國南方基因組中心的EST Assembly Project基本上採用此方式進行。由於該過程的計算需要大量計算機資源,所以目前沿無通過Web直接進行片段重疊羣分析的資源。在實際分析時,用戶一 般將自己的序列向上述數據庫提交,可直接從其中獲得已經完成拼接得較長的cDNA序列。序列拼接的有關生物學資源如下:
UniGene:http://www.ncbi.nlm.nih.gov/UniGene/,GenBank中EST序列按照基因簇分類結果。
STACK:http://www.sanbi.ac.za/Dbases.html,南非國家生物信息中心SANBI維護的一個序列標記聯配和代表序列知識庫。及與之密切有關的一個數據庫SANIGENE。
Staden可供下載進行片段重疊羣分析的軟件包網址:http://www.mrc-lmb.cam.ac.uk/pubseq/http://www.hgmp.mrc.ac.uk/Registered/Option/staden.html
以 UniGene數據庫進行電子延伸爲例,首先用進行序列同源性檢索。通常可從EST數據庫中檢索到一批與待分析序列高度同源的EST序列。選擇同源性比分 最高的一條EST序列,從UniGene數據庫中進行檢索,得到相應的UniGene編號。獲得待分析序列的UniGene編號後,就可將參與形成 UniGene Cluster的所有序列下載到本地,利用SequencherTM軟件或其他序列裝配軟件進行組裝,形成較長的新生序列。真正的cDNA序列還需要通過 實驗驗證。通過對延伸後的序列設計全長引物,經過反轉錄PCR即可驗證是否是對原序列的有效延伸。
(6)基因的電子錶達譜分析
核酸序列對 應基因的組織表達譜分析原理是,將待分析序列與EST數據庫進行序列對庫檢索,隨後用與待分析核酸序列具有高同源性的EST序列所對應的組織來源進行推 斷,從而得到該基因的組織表達譜。可用UniGene Cluster序列的組織/細胞來源來間接地反映待分析序列在何種組織中表達,體現在字段“cDNA sources”中。也可用Tigem服務器的電子原位雜交軟件及其數據庫(http://gcg.tigem.it/INSITU/insitublast.html)也同機關報可獲得組織/細胞表達譜。
(7)核酸序列的電子基因定位分析
對核酸序列進行電子基因定位(即基因的染色體定位)有三種策略,其一利用STS(sequence tagged site)數據庫,聯網到NCBI電子PCR資源(http://www.ncbi.nlm.nih.gov/genome/sts/eper.cgi), 輸入待分析序列進行;其二是利用UniGene數據庫進行,但首先要獲得待分析序列所對應的UniGene編號,大部分UniGene序列已經具有較爲明 確的利用放射性雜交(radiation hybrid,RH)技術給出的定位信息,根據UniGene/RH技術進行定位。其三是直接利用基因組序列進行電子基因定位。先將待分析序列進行對基因 組數據庫的同源性檢索,得到確定的基因組序列後點擊“Genome view”按鈕觀察其基因組結構,點擊用紅色標記所指示的染色體列表中選擇所對應的染色體區域,瀏覽器中將顯示詳細的基因定位結果,相關的基因譜數據庫如 RHdb、mouse RH、GeneMAP’99、HuGeMap。
(8)cDNA對應的基因組序列分析
可通過NCBI查詢全部基因組數據庫進行基因組序列分析,也可通過Sanger中心查詢基因組數據庫進行分析(http://www.sanger.ac.uk/HGP/blast_server.shtml)。
(9)基於核酸序列對齊分析的功能預測
主要內容如對庫比較、多序列以及序列之間的兩兩比較、同源性比較及結果的顯著性評價、分子進化樹的繪製等。可用BioEdit、Omiga、DNAMAN等集成了的Clustal W/X軟件分析,其分析結果可用來給制分子進化樹。
(10)可讀框架分析
AUG 可能是真核生物惟一的翻譯起始點。Kozak調查了200多種真核生物mRNA中5′末端第一個AUG前後序列發現,除此17個例外,其餘都是 A/GNNAUGG。具有生物學功能的起始密碼子AUG總是出現在一定的核苷酸閱讀框架內。首先,AUG上游(即5′方向)的第三個核苷酸常常是嘌呤,且 多數是A(即-3A);其次,緊跟在AUG後面的核苷酸,常常也是嘌呤,且多數情況下是G(即 4G)。實驗表明,AUG附近的核苷酸序中以 ANNAUGN和GNNAUGPu的利用率最高,而沒有起始功能的AUG附近核苷酸則無此保守性,即所謂的“Kozak序列”。
對於真核生物而言,一條全長cDNA序列將只含有單一的開放閱讀框(open reading frame,ORF)。非全長cDNA的序列如ESTs,通過將核苷酸序列中的所有相位進行搜索可很快獲得結果。相關資源如下。
①ORF查找器:將以FASTA格式提交的序列翻譯,按照所有可能的六個相位翻譯爲蛋白質序列。如果所查詢的序列擬使用非標準遺傳密碼,則可從相應的對話框中選擇正確的密碼子進行ORF分析。http://www.ncbi.nlm.nih.gov/gorf/gorf.html
②從第一個鹼基直接將DNA翻譯爲蛋白質:http://expasy.hcuge.ch/www/dna.html
在 進行ORF分析過程中,往往由於測序錯誤而導致編碼區分析失敗,例如相位錯位或錯誤終止密碼子出現均可導致氨基酸序列截短,以及在cDNA序列中出現幾個 不一致的5′末端。此種錯誤往往通過BlastX程序,對蛋白質序列數據庫搜索後加以校正。相位錯位的相似性分析結果表現爲在不同相位上與同一條蛋白質序 列相似,而異常的終止密碼子則導致在同一相位上與同一條蛋白質序分段對齊。
採用蛋白質序列進行後續分析十分重要,這主要是由由於DNA編碼的冗餘 性造成的(第三個鹼基的簡併性)——其直接結果是即使兩條DNA序列之間具有67% 的相似性,但是在蛋白質水平可獲得100%的一致性。而且用蛋白質序列進行後續分析顯然更能發現生物學意義。蛋白質水平之間的25%同源性就可提示其間功 能的相似性,但是在DNA水平上則需要40%以上的一致性。
(11)基因組序列中編碼區/內含子結構分析
真核生物基因斷裂結構的一個重要 特點是外顯子-內含子連接區(exon-intorn junction)的高度保守性和特異鹼基序列。外顯子-內含子連接區又稱邊界序列,有兩個重要特徵:①內含子的兩端序列之間沒有廣泛的同源性,因此內含 子兩端序列不能互補,這說明在剪接加工之前,內含子上游序列和下游序列不可能通過鹼基配對形成髮卡式二級結構;②外顯子-內含子連接區序列雖短,但卻是高 度保序的序列。這一序列與剪接機制有關,它是RNA剪接的信號序列。序列分析表明,幾乎每個內含子5′端起始的兩個鹼基都是GT,3′端最後兩個鹼基總是 AG。由於這兩個鹼基的高度保守性和存在的廣泛性,有人稱之爲GT-AG法則,即5′ GT……3′ AG。由於內含子兩端的接頭序列不同,因此可定向表明內含子的兩個末端,根據剪接加工過程沿內含子自左幾右進行的原則,一般將內含子的5′端接頭序列稱爲 左剪接位點,3′端接頭序列稱爲右剪接位點,有時也將前者稱爲供體位點(donor site),後者稱爲受體位點(acceptor site)。外顯子-內含子連接區幾乎在所有真核生物基因中都是保守的,表明存在共同的剪接加工機制。
基因組序列中編碼區/內含子結構分析最好的軟件是GRAIL(gene recognition analysis internet link)套裝軟件(http://avalon.epm.ornl.gov/Grainbin/EmptyGrailForm)其中GRAIL1→人、小鼠、果蠅,GRAIL 1a→人、小鼠,GRAIL2→人、小鼠、擬南芥、果蠅。可直接向服務器發送e-mail([email protected])得到最新的描述。
依靠與數據庫中已知蛋白質序列和cDNA序列、EST序列進行對比,來識別內含子、外顯子剪接位點是較爲可靠的方法。外顯子和內含子數據庫有:
IDB:http://nutmeg.bio.indiana.edu/intron/index.html。內含子序列數據庫。
ExInt:http://intron.bic.nus.edu.sg/。外顯子和內含子數據庫。
Intronerator:http://www.cse.ucsc.edu/~kent/intronerator/。C. elegans的內含子和選擇性剪接基因的數據庫。
也可用Gene Finder軟件(http://www.bioscience.org/urllists/genefind.html)進行基因組序列的內含子、外顯子分析。
在獲得了cDNA序列及其對應的基因組序列後,將二者進行對齊以直觀地顯示該基因的結構是十分重要的。Sim4程序(http://biom3.univlyon1.fr/sim4.html)提供該服務,分析結果則可保存下來用Lalnview程序在電腦上直觀地顯示。注意,向Sim4提交的序列應不含任何數字。
(12)基因啓動子及其他DNA調控位點分析
真 核生物啓動子在-25~-35之間含有TATA序列,在-70~-80區含有CCAAT序列,在-80~-110含有GCCACACCC或 GGGCGGG序列。習慣上,將TATA框上游的保守序列稱爲上游啓動子元件(upstream promoter element,UPE)或稱上游激活序列(upstream activating sequence,UAS)。TATA框存在與否至關重要,而CAAT和GC區主要控制轉錄起始頻率,基本不參與起始位點的確定。但並非每個基因的啓動子 都含有這3種序列。
一些保守的功能區如啓動子、增強子、轉錄因子結合位點、內含子和外顯子剪接位點等可通過生物信息學分析。已有大量的數據庫收集了啓動子位點(promoter site)和轉錄因子結合位點(transcription factor-binding site)的信息。
EPD (eukaryotic promoter database): ftp://ftp.ebi.ac.uk/pub/databases/epdhttp://www.epd.isb-sib.ch
ftp://ftp.infobiogen.fr/pub/db/epd
TRANSFAC: http://transfac.gbf.de/TRANSFACftp://ftp.ebi.ac.uk/pub/databases/transfac
TransTerm: ftp://ftp.ebi.ac.uk/pub/databases/transterm
TRRD: http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/
COMPEL: ftp://ftp.gbf-braunschweig.de(/pub/compel)
GeneExpress: http://wwwmgs.bionet.nsc.ru/mgs/systems/geneexpress/
         http://wwwmgs.bionet.nsc.ru/mgs/papers/kol/ismb98/
Promoter Scan: http://biosci.umn.edu/software/proscan/promoterscan.html
         http://bimas.dcrt.nih.gov/molbio/proscan/
Signal Scan: http://bimas.dcrt.nih.gov/molbio/signal
TFSearch: http://www.genome.ad.jp/SIT/TFSSEARCH.html
PatSearch: http://transfac.gbf.de/cgi-bin/patSearch/patsearch.pl
PromFD: ftp;//beagle.colorado.edu(/pub/PromFD.tar
同時還有一些軟件能直接搜索目的DNA序列中是否含有以上數據庫中所包括的序列模式。如聯網到http://www.fruitfly.org/seq_tools/promoter.html進行啓動子分析。
對於EPD數據庫(http:www.epd.isb-sib.ch/seq_download.html)進行檢索的一個策略是將其下載後格式化爲Blast軟件可識別的數據庫,然後用Blast軟件可對其進行檢索,判斷是否含有Promoter信息。
(13)重複序列分析
Genetic information research institute(GIRI)的RepBase(http://www.girinst.org/server/Repbase)是真核生物DNA中重複序列數據庫。聯網到RepeatMasker程序可進行重複序列片段分析。
RepeatMasker程序:http://ftp.genome.washington.edu/RM/ReapeatMasker.html
(14)引物設計
主 要軟件爲Primer Premier。通過“File/New sequence/New DNA”輸入核酸序列,隨後點擊“Primer”進入引物設計界面。用戶可選擇引物種類。點擊“search parameter”可進入參數調整界面。引物與模板匹配顯示區將實時地顯示引物的各種性質及其與模板匹配的信息,用戶可據此選擇合適的引物。其他還有 Oligo、Vector NT、Omiga、Primer3等。
其中Primer3提供聯網方式設計,並可對引物進行數據庫檢索,以儘可能排除非特異擴增的結果。其網址爲:http://www.genome.wi.mit.edu/cgi-bin/primer/primer3_www.cgi
(15)向數據庫中提交核酸序列
向EMBL數據庫提交序列的網絡表格參見:http://www.ebi.ac.uk/subs/emblsubs.html。序列被接受後將賦予一個序列接受號,用於在出版論文中引用。
GenBank數據庫中提交可聯網(http://www.ncbi.nlm.nih.gov/Genbank/index.html)進行,也可用Sequin軟件(可從NCBI下載)製作好序列提交文件,向NCBI發送e-mail([email protected])進行。
新基因的命名則要與國際基因命名委員會(http://www.gene.ucl.ac.uk/nomenclature/

發佈了27 篇原創文章 · 獲贊 31 · 訪問量 37萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章