本章將介紹一些極簡單的RNA生信分析,如利用在線網站預測RNA分子二級結構,分析非編碼RNA(non-coding RNA)等。前面我們講過DNA,蛋白質。而RNA分子的功能則更全面,它可以像DNA一樣承載遺傳信息,也可以像蛋白質一樣催化反應。
核糖核酸(Ribonucleic Acid,RNA)根據功能和結構不同分爲信使RNA和非編碼RNA。而非編碼RNA又可分爲非編碼大RNA(核糖體RNA(rRNA),長鏈非編碼RNA)和非編碼小RNA(轉運RNA(tRNA),核酶,小分子RNA(miRNA,siRNA,piRNA,scRNA,snRNA,snoRNA等))。
一、預測,建模,繪製RNA二級結構
RNA的高級結構的發現二十世紀70年代生物界的重要進展,而且人們欣喜地發現RNA結構遵循的原則簡單,主要是“沃森、克里克鹼基互補配對”原則。
"
單鏈RNA就像一段膠帶,很不穩定。只有在與其他配對纔可以,當然不同種類的配對的穩定性也不同,傾向於形成最穩定的結構,即最低能量模型(lowest-energy model),如果要解開這個結構就需要供能。
下圖是最典型的RNA二級結構——莖環結構。莖的部分也不總是完美配對的,會有不配對的殘基形成凸起(bulges)。僞結(pseudo-knots)部分與RNA和離子、蛋白、其他RNAs互作有關。
RNA結構的穩定性不僅受到GC含量影響,莖中鹼基對和環結(loop)大小,以及僞結也會對穩定性有影響。
其他蛋白或者分子也可能干預RNA結構的形成。目前對於RNA結構的預測,都是基於“該RNA自主形成高級結構”的假設上,所以預測也可能是錯誤的。
"
二、使用Mfold
Mfold是一個很古老又經典的網站,1995年就有了。它利用能量最低原則,同時考慮多種可能的影響因素,預測出最可能的RNA二級結構和次優結構。
下面用於舉例的序列:
>Haemophilus_influenzae_Rd.trna49-AlaGGC (307354-307279) Ala (GGC) 76 bp Sc: 85.98GGGGATATAGCTCAGTTGGGAGAGCGCTTGAATGGCATTCAAGAGGTCGTCGGTTCGATCCCGATTATCTCCACCA
mfold等各種fold的網址:
http://www.unafold.org/mfold/applications/rna-folding-form-v2.php
1. 輸入序列
輸入序列,點擊下面的fold RNA。如果事先不知道關於這段序列的任何信息,那麼其他的參數都保持默認。如果知道一些,那麼請按照“2”操作。
輸入序列
2. 條件設定
若是已知序列的某一段的結構,在點擊fold RNA之前,可以將已知條件輸入。
例如“ F 7 0 5 ”表示強制序列的第7~11個鹼基形成雙鏈。“ P 7 0 5 ”表示強制序列的第7~11個鹼基形成單鏈。還有強制連續排列的鹼基對或禁止連續排列,以及禁止某段與另一段配對等。
3. 返回結果
下載結果,有多種文件格式可選,這個序列有四種可能的摺疊
這裏展示其中的一個
4. 調整摺疊圖
展示形式可以調整。
摺疊部分結構還標註突出顯示
5. 穩定性分析
mfold網頁返回的結果不僅是這個摺疊的圖,還有關於每個結構穩定性的解析,以及一些dot plot。
三、在數據庫和基因組搜索RNA序列
1. 用tRNAscan在基因組中尋找tRNAs
TRNAscan-SE網址:
http://lowelab.ucsc.edu/tRNAscan-SE/
上傳FASTA格式的序列。
tRNAscan-SE結果
2. 用PatScan尋找RNA patterns
(1)PatScan UI網站:
https://patscan.secondarymetabolites.org/
首先將想要搜索的序列或基因組的FASTA文件上傳,然後輸入要在其中尋找的Pattern。這個操作裏比較麻煩的就是想要檢索的Pattern需要寫成PatScan識別的格式。
(2)關於輸入pattern的格式:
官網教程:
https://patscan.secondarymetabolites.org/tutorial#example1-1
一個簡單的例子,p1=8...9 3...8 ~p1表示:【p1=8...9】stem p1包含8到9個核苷酸(省略號表示在8到9之間),【3...8】一個3到8個核苷酸的模式結構,【~p1】表示stem p1的反向互補。我們可以用PatScan體寫出很多模式,還有一些書寫規則,見下表。
網頁會返回結果如下:
四、尋找小RNA:miRNAs和siRNAs
它們在細胞中起到調節作用,具體的發現過程和功能這裏就不展開了。我們已知siRNA(silencing RNA)是雙鏈,miRNA(micro-RNA)是單鏈,還往往形成莖環結構。
下面介紹一些相關網站和數據庫,使用方法和前面的介紹大同小異:
1. miRvestigator Framework
https://mirvestigator.systemsbiology.net/
輸入一個基因序列,將會返回一個最有可能調節這個基因的miRNA。
2. MIENTURNET
http://userver.bio.uniroma1.it/apps/mienturnet/
輸入基因返回miRNA,輸入miRNA返回基因的網站。
3. Dietary microRNA Database
http://sbbi-panda.unl.edu:5000/dmd/
已發表的microRNA數據庫和相關注釋信息。
4. miRNAminer
http://groups.csail.mit.edu/pag/mirnaminer/
已發表的microRNA數據庫和相關注釋信息。
5. PVsiRNAdb
http://14.139.61.8/PVsiRNAdb/index.ph
感染不同植物的不同病毒的vsiRNA序列相關的數據庫。
6. siRNAmod
http://crdd.osdd.net/servers/sirnamod/
siRNAmod是經過人工驗證的經過化學驗證的化學修飾siRNA的數據庫。
五、一些RNA分析線上資源的介紹
1. 核糖體RNA相關數據庫
(1)RDP
http://rdp.cme.msu.edu/
細菌和古細菌16S rRNA序列,真菌28S rRNA序列,以及分析工具。
2. non-coding RNA
(1)RNAcentral
https://rnacentral.org/
非編碼RNA數據庫
(2)sRNAtools
https://bioinformatics.caf.ac.cn/sRNAtools/
非編碼小RNA數據庫
3. 通用RNA資源庫
(1)RNAcentral Expert Databases
https://rnacentral.org/expert-databases
看名字就感覺很全面。
(2)ncRNA
https://www.ncrna.org/
簡易工具箱的感覺。
往期相關內容:
【陪你學·生信】五、當你有一段待分析的DNA序列(基礎操作介紹)
【陪你學·生信】六、當你有一段待分析的氨基酸序列(基礎操作介紹)