<万万没想到> 蛋白组数据库对结果影响这么大!

说起蛋白组学数据分析,你可能会想到各种权威定性定量软件,或是各位编程大神的鬼畜代码,夺人眼球的图像绘制。今天<万万没想到>跟大家透露一个不起眼但对结果影响很大的小细节。正所谓,蚁穴虽小,溃之千里。在定性定量过程中,导入的一个小小蛋白组参考数据库直接决定“这是什么蛋白”“鉴定多少种蛋白”等问题... ...


Q1: 什么是蛋白质组的数据库?

对质谱图信号分析时,作为理论的蛋白质氨基酸序列集合,文件类型是.fasta 举个栗子:


Q2:“库”从哪里来?

蛋白组学通常用到2个公共数据库--Uniprot和NCBIUniprot是全球有关蛋白质方面信息最全面、使用频率高、冗余度最低的蛋白数据库,由Swiss-Prot,TrEMBL,PIR-PSD 三大数据库合并而成。NCBI是基因组研究最权威的数据库,记录着全世界的基因组测序信息,以及转录,蛋白等翻译后的序列信息。(如下图所示)


划重点:一般情况下,如果蛋白质组所研究的物种已经被测序,推荐使用Uniprot数据库作为搜库的数据库,如果所研究的物种在Uniprot数据库中蛋白数据较少,推荐使用NCBI数据库进行搜库。


Uniprot中的数据库有两个部分组成,以“人”为例:

共有196200个蛋白序列,其中,有20396个Reviewed蛋白质是经过人工校验的,或源于文献报道的蛋白序列信息;175804个Unreviewed蛋白是计算机直接由基因翻译得到的。通常我们用的是前者。如果有特殊的研究目的想关注未注释的蛋白,或者研究的物种没有经过测序,校验信息非常少时,则将两者合并使用。


当然,数据库大小会直接影响定性得到的蛋白数量。经测试,同一套人血清质谱数据,使用Unreviewed&Reviewed全库检索得到蛋白数量是Reviewed数据库检索结果的3倍多,表现出极度显著的数量提升。然而深究全库搜索的蛋白不难发现验证可信度高的蛋白约占20%-30%。这是软件不可避免的序列匹配随机性导致的。而且,随着数据库越大,就会增加随机匹配的概率,也就增加了假阳性蛋白鉴定的数量。


结论:不是库越大越好,需要在全面性和准确性上做好平衡。


是不是有宝宝开始举手了“我研究的物种在这两个网站都没找到数据库,怎么办?”


特别的方式送给特别的你~~

如果某些稀有物种在Uniprot和NCBI两大网站中都没有数据库,“私人定制”送给你!

1. 转录组测序后CDS序列理论翻译成蛋白质数据库;

2. 使用近缘物种的蛋白质数据库;

3. 使用植物/动物/微生物全库进行蛋白质鉴定;

以上三种选择优先度依次递减~


鹿明生物数据库

上海鹿明生物科技有限公司多年来,一直专注于生命科学和生命技术领域,是国内早期开展以蛋白组和代谢组为基础的多层组学整合实验与分析的团队。经过多年的发展沉淀,公司建立起了4D-DIA/LFQ/PRM、iTRAQ/TMT、DIA、PRM、修饰蛋白组等蛋白组学技术平台和空间代谢组学、全谱代谢组、靶向代谢组、拟靶向代谢组、脂质组、精准靶向等代谢组学技术平台以及相应的数据整合分析平台,并建立了科学完整的服务流程和精细规范的操作标准。同时鹿明生物的蛋白组学,代谢组学技术广泛应用于疾病标志物发掘、分型诊断、精准用药、药代药动、药物表征等多个领域。

同时针对蛋白组学和代谢组学也建立了多个自建数据库

◆新品 | 2大尚方宝剑,双平台+双自建数据库助力医学代谢组学研究

◆如何快速从主流数据库中获取人/小鼠数据?

◆官宣!Nature methods关注技术—蛋白组DIA技术,水稻深度研究数据库重磅发布

◆重磅 | 鹿明自主研发代谢组学LUG数据库新鲜出炉

◆【“硬核”库】6000+代谢物、500+物种 、代谢物算法升级——分类物种代谢物库

欢迎百度搜索鹿明生物——访问鹿明生物官网——点击咨询鹿明生物技术工程师

欢迎长按扫码咨询鹿明生物数据库

蛋白组学、代谢组学技术工程师

今天分享的小细节你学到了吗?!之后会继续推送“万万没想到”系列题材。欢迎各位看官Q小鹿,想聊什么话题,请在评论区留言哦!


猜您还想看

◆新品 | 2大尚方宝剑,双平台+双自建数据库助力医学代谢组学研究

◆如何快速从主流数据库中获取人/小鼠数据?

◆官宣!Nature methods关注技术—蛋白组DIA技术,水稻深度研究数据库重磅发布

◆重磅 | 鹿明自主研发代谢组学LUG数据库新鲜出炉

◆【“硬核”库】6000+代谢物、500+物种 、代谢物算法升级——分类物种代谢物库


END

文章来源于鹿明生物

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章