【陪你学·生信】十二、RNA相关的简单分析

​本章将介绍一些极简单的RNA生信分析,如利用在线网站预测RNA分子二级结构,分析非编码RNA(non-coding RNA)等。前面我们讲过DNA,蛋白质。而RNA分子的功能则更全面,它可以像DNA一样承载遗传信息,也可以像蛋白质一样催化反应。

核糖核酸(Ribonucleic Acid,RNA)根据功能和结构不同分为信使RNA和非编码RNA。而非编码RNA又可分为非编码大RNA(核糖体RNA(rRNA),长链非编码RNA)和非编码小RNA(转运RNA(tRNA),核酶,小分子RNA(miRNA,siRNA,piRNA,scRNA,snRNA,snoRNA等))。

一、预测,建模,绘制RNA二级结构

RNA的高级结构的发现二十世纪70年代生物界的重要进展,而且人们欣喜地发现RNA结构遵循的原则简单,主要是“沃森、克里克碱基互补配对”原则。

"

单链RNA就像一段胶带,很不稳定。只有在与其他配对才可以,当然不同种类的配对的稳定性也不同,倾向于形成最稳定的结构,即最低能量模型(lowest-energy model),如果要解开这个结构就需要供能。

下图是最典型的RNA二级结构——茎环结构。茎的部分也不总是完美配对的,会有不配对的残基形成凸起(bulges)。伪结(pseudo-knots)部分与RNA和离子、蛋白、其他RNAs互作有关。

RNA结构的稳定性不仅受到GC含量影响,茎中碱基对和环结(loop)大小,以及伪结也会对稳定性有影响。

其他蛋白或者分子也可能干预RNA结构的形成。目前对于RNA结构的预测,都是基于“该RNA自主形成高级结构”的假设上,所以预测也可能是错误的。

"

二、使用Mfold

Mfold是一个很古老又经典的网站,1995年就有了。它利用能量最低原则,同时考虑多种可能的影响因素,预测出最可能的RNA二级结构和次优结构。

下面用于举例的序列:

>Haemophilus_influenzae_Rd.trna49-AlaGGC (307354-307279)  Ala (GGC) 76 bp  Sc: 85.98GGGGATATAGCTCAGTTGGGAGAGCGCTTGAATGGCATTCAAGAGGTCGTCGGTTCGATCCCGATTATCTCCACCA

mfold等各种fold的网址:

http://www.unafold.org/mfold/applications/rna-folding-form-v2.php

1. 输入序列

输入序列,点击下面的fold RNA。如果事先不知道关于这段序列的任何信息,那么其他的参数都保持默认。如果知道一些,那么请按照“2”操作。

输入序列

2. 条件设定

若是已知序列的某一段的结构,在点击fold RNA之前,可以将已知条件输入。

例如“ F 7 0 5 ”表示强制序列的第7~11个碱基形成双链。“ P 7 0 5 ”表示强制序列的第7~11个碱基形成单链。还有强制连续排列的碱基对或禁止连续排列,以及禁止某段与另一段配对等。

3. 返回结果

下载结果,有多种文件格式可选,这个序列有四种可能的折叠

这里展示其中的一个

4. 调整折叠图

展示形式可以调整。

折叠部分结构还标注突出显示

5. 稳定性分析

mfold网页返回的结果不仅是这个折叠的图,还有关于每个结构稳定性的解析,以及一些dot plot。

三、在数据库和基因组搜索RNA序列

1. 用tRNAscan在基因组中寻找tRNAs

TRNAscan-SE网址:

http://lowelab.ucsc.edu/tRNAscan-SE/

上传FASTA格式的序列。

tRNAscan-SE结果

2. 用PatScan寻找RNA patterns

(1)PatScan UI网站:

https://patscan.secondarymetabolites.org/

首先将想要搜索的序列或基因组的FASTA文件上传,然后输入要在其中寻找的Pattern。这个操作里比较麻烦的就是想要检索的Pattern需要写成PatScan识别的格式。

(2)关于输入pattern的格式:

官网教程:

https://patscan.secondarymetabolites.org/tutorial#example1-1

一个简单的例子,p1=8...9 3...8 ~p1表示:【p1=8...9】stem p1包含8到9个核苷酸(省略号表示在8到9之间),【3...8】一个3到8个核苷酸的模式结构,【~p1】表示stem p1的反向互补。我们可以用PatScan体写出很多模式,还有一些书写规则,见下表。

网页会返回结果如下:

四、寻找小RNA:miRNAs和siRNAs

它们在细胞中起到调节作用,具体的发现过程和功能这里就不展开了。我们已知siRNA(silencing RNA)是双链,miRNA(micro-RNA)是单链,还往往形成茎环结构。

下面介绍一些相关网站和数据库,使用方法和前面的介绍大同小异:

1. miRvestigator Framework

https://mirvestigator.systemsbiology.net/

输入一个基因序列,将会返回一个最有可能调节这个基因的miRNA。

2. MIENTURNET

http://userver.bio.uniroma1.it/apps/mienturnet/

输入基因返回miRNA,输入miRNA返回基因的网站。

3. Dietary microRNA Database

http://sbbi-panda.unl.edu:5000/dmd/

已发表的microRNA数据库和相关注释信息。

4. miRNAminer

http://groups.csail.mit.edu/pag/mirnaminer/

已发表的microRNA数据库和相关注释信息。

5. PVsiRNAdb

http://14.139.61.8/PVsiRNAdb/index.ph

感染不同植物的不同病毒的vsiRNA序列相关的数据库。

6. siRNAmod

http://crdd.osdd.net/servers/sirnamod/

siRNAmod是经过人工验证的经过化学验证的化学修饰siRNA的数据库。

五、一些RNA分析线上资源的介绍

1. 核糖体RNA相关数据库

(1)RDP

http://rdp.cme.msu.edu/

细菌和古细菌16S rRNA序列,真菌28S rRNA序列,以及分析工具。

2. non-coding RNA

(1)RNAcentral

https://rnacentral.org/

非编码RNA数据库

(2)sRNAtools

https://bioinformatics.caf.ac.cn/sRNAtools/

非编码小RNA数据库

3. 通用RNA资源库

(1)RNAcentral Expert Databases

https://rnacentral.org/expert-databases

看名字就感觉很全面。

(2)ncRNA

https://www.ncrna.org/

简易工具箱的感觉。

往期相关内容:

【陪你学·生信】序

【陪你学·生信】一、生信能帮我们做什么

【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作

【陪你学·生信】三、核苷酸序列数据库的使用

【陪你学·生信】四、蛋白质相关的数据库

【陪你学·生信】五、当你有一段待分析的DNA序列(基础操作介绍)

【陪你学·生信】六、当你有一段待分析的氨基酸序列(基础操作介绍)

【陪你学·生信】七、在数据库中检索相似的序列

【陪你学·生信】八、序列两两比对

【陪你学·生信】九、多序列比对-Multiple Sequence Alignment(MSA)

【陪你学·生信】十、编辑对多序列比对结果

【陪你学·生信】十一、构建系统发育树

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章