<萬萬沒想到> 蛋白組數據庫對結果影響這麼大!

說起蛋白組學數據分析,你可能會想到各種權威定性定量軟件,或是各位編程大神的鬼畜代碼,奪人眼球的圖像繪製。今天<萬萬沒想到>跟大家透露一個不起眼但對結果影響很大的小細節。正所謂,蟻穴雖小,潰之千里。在定性定量過程中,導入的一個小小蛋白組參考數據庫直接決定“這是什麼蛋白”“鑑定多少種蛋白”等問題... ...


Q1: 什麼是蛋白質組的數據庫?

對質譜圖信號分析時,作爲理論的蛋白質氨基酸序列集合,文件類型是.fasta 舉個栗子:


Q2:“庫”從哪裏來?

蛋白組學通常用到2個公共數據庫--Uniprot和NCBIUniprot是全球有關蛋白質方面信息最全面、使用頻率高、冗餘度最低的蛋白數據庫,由Swiss-Prot,TrEMBL,PIR-PSD 三大數據庫合併而成。NCBI是基因組研究最權威的數據庫,記錄着全世界的基因組測序信息,以及轉錄,蛋白等翻譯後的序列信息。(如下圖所示)


劃重點:一般情況下,如果蛋白質組所研究的物種已經被測序,推薦使用Uniprot數據庫作爲搜庫的數據庫,如果所研究的物種在Uniprot數據庫中蛋白數據較少,推薦使用NCBI數據庫進行搜庫。


Uniprot中的數據庫有兩個部分組成,以“人”爲例:

共有196200個蛋白序列,其中,有20396個Reviewed蛋白質是經過人工校驗的,或源於文獻報道的蛋白序列信息;175804個Unreviewed蛋白是計算機直接由基因翻譯得到的。通常我們用的是前者。如果有特殊的研究目的想關注未註釋的蛋白,或者研究的物種沒有經過測序,校驗信息非常少時,則將兩者合併使用。


當然,數據庫大小會直接影響定性得到的蛋白數量。經測試,同一套人血清質譜數據,使用Unreviewed&Reviewed全庫檢索得到蛋白數量是Reviewed數據庫檢索結果的3倍多,表現出極度顯著的數量提升。然而深究全庫搜索的蛋白不難發現驗證可信度高的蛋白約佔20%-30%。這是軟件不可避免的序列匹配隨機性導致的。而且,隨着數據庫越大,就會增加隨機匹配的概率,也就增加了假陽性蛋白鑑定的數量。


結論:不是庫越大越好,需要在全面性和準確性上做好平衡。


是不是有寶寶開始舉手了“我研究的物種在這兩個網站都沒找到數據庫,怎麼辦?”


特別的方式送給特別的你~~

如果某些稀有物種在Uniprot和NCBI兩大網站中都沒有數據庫,“私人定製”送給你!

1. 轉錄組測序後CDS序列理論翻譯成蛋白質數據庫;

2. 使用近緣物種的蛋白質數據庫;

3. 使用植物/動物/微生物全庫進行蛋白質鑑定;

以上三種選擇優先度依次遞減~


鹿明生物數據庫

上海鹿明生物科技有限公司多年來,一直專注於生命科學和生命技術領域,是國內早期開展以蛋白組和代謝組爲基礎的多層組學整合實驗與分析的團隊。經過多年的發展沉澱,公司建立起了4D-DIA/LFQ/PRM、iTRAQ/TMT、DIA、PRM、修飾蛋白組等蛋白組學技術平臺和空間代謝組學、全譜代謝組、靶向代謝組、擬靶向代謝組、脂質組、精準靶向等代謝組學技術平臺以及相應的數據整合分析平臺,並建立了科學完整的服務流程和精細規範的操作標準。同時鹿明生物的蛋白組學,代謝組學技術廣泛應用於疾病標誌物發掘、分型診斷、精準用藥、藥代藥動、藥物表徵等多個領域。

同時針對蛋白組學和代謝組學也建立了多個自建數據庫

◆新品 | 2大尚方寶劍,雙平臺+雙自建數據庫助力醫學代謝組學研究

◆如何快速從主流數據庫中獲取人/小鼠數據?

◆官宣!Nature methods關注技術—蛋白組DIA技術,水稻深度研究數據庫重磅發佈

◆重磅 | 鹿明自主研發代謝組學LUG數據庫新鮮出爐

◆【“硬核”庫】6000+代謝物、500+物種 、代謝物算法升級——分類物種代謝物庫

歡迎百度搜索鹿明生物——訪問鹿明生物官網——點擊諮詢鹿明生物技術工程師

歡迎長按掃碼諮詢鹿明生物數據庫

蛋白組學、代謝組學技術工程師

今天分享的小細節你學到了嗎?!之後會繼續推送“萬萬沒想到”系列題材。歡迎各位看官Q小鹿,想聊什麼話題,請在評論區留言哦!


猜您還想看

◆新品 | 2大尚方寶劍,雙平臺+雙自建數據庫助力醫學代謝組學研究

◆如何快速從主流數據庫中獲取人/小鼠數據?

◆官宣!Nature methods關注技術—蛋白組DIA技術,水稻深度研究數據庫重磅發佈

◆重磅 | 鹿明自主研發代謝組學LUG數據庫新鮮出爐

◆【“硬核”庫】6000+代謝物、500+物種 、代謝物算法升級——分類物種代謝物庫


END

文章來源於鹿明生物

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章