一文極速讀懂UniProt數據庫

mark

Uniprot (Universal Protein )是包含蛋白質序列,功能信息,研究論文索引的蛋白質數據庫,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大數據庫的資源。

  • EBI( European Bioinformatics Institute):歐洲生物信息學研究所(EMBL-EBI)是歐洲生命科學旗艦實驗室EMBL的一部分。位於英國劍橋欣克斯頓的惠康基因組校園內,是世界上基因組學領域最強的地帶之一。
  • SIB(the Swiss Institute of Bioinformatics):瑞士日內瓦的SIB維護着ExPASy(專家蛋白質分析系統)服務器,這裏包含有蛋白質組學工具和數據庫的主要資源。
  • PIR(Protein Information Resource):PIR由美國國家生物醫學研究基金會(NBRF)於1984年成立,旨在協助研究人員識別和解釋蛋白質序列信息。

目前,UniProt由主要由以下子庫構成:

數據庫名 全名 用途
UniProtKB/Swiss-Prot Protein knowledgebas (review) 高質量的、手工註釋的、非冗餘的數據庫
UniProtKB/TrEMBL Protein knowledgebase (unreview) 自動翻譯蛋白質序列,預測序列,未驗證的數據庫
UniParc Sequence 非冗餘蛋白質序列數據庫
UniRef Sequence clusters 聚類序列減小數據庫,加快搜索的速度
Proteomes Protein sets from fully sequenced genomes 爲全測序基因組物種提供蛋白質組信息

他們的關係如下:

通過EMBL,GenBank,DDBJ等公共數據庫得到原始數據,處理後存入UniParc的非冗餘蛋白質序列數據庫。UniProt作爲數據倉庫,再分別給UniProtKB,Proteomes,UNIRef提供可靠的數據集。其中在UniProtKB數據庫中Swiss-Prot是由TrEMBL經過手動註釋後得到的高質量非冗餘數據庫,也是我們今後常用的蛋白質數據庫之一。

mark

UniProtKB/Swiss-Prot

高質量的、手工註釋的、非冗餘的數據集

Swiss-Prot旨在提供與高水平註釋(例如,蛋白質功能,其域結構,翻譯後修飾,變體等的描述)相關的可靠蛋白質序列,最小程度的冗餘和高水平與其他數據庫的集成級別。註釋主要來自文獻中的研究成果和E-value校驗過計算分析結果,有質量保證的數據才被加入該數據庫 。

Swiss-Prot由Amos Bairoch博士在1986年創建,由瑞士生物信息學研究所開發,隨後由歐洲生物信息學研究所的Rolf Apweiler開發。也是說EBI和SIB共同製作了Swiss-Prot和TrEMBL數據庫。

Swiss-Prot條目的註釋中使用了一系列序列分析工具。包括手動評估,計算機預測,並選擇結果包含在相應的條目中。這些預測包括翻譯後修飾,跨膜結構域和拓撲,信號肽,結構域識別和蛋白質家族分類。

來自相同基因和相同物種的序列合併到相同的數據庫條目中。確定序列之間的差異包含:可變剪接,自然變異,錯誤的起始位點,錯誤的外顯子邊界,移碼,未識別的衝突。

註釋會用相關出版物通過搜索數據庫(例如PubMed)進行識別。閱讀每篇論文的全文,然後提取信息並將其添加到條目中。科學文獻中的註釋包括但不限於:

  • 蛋白質和基因名稱
  • 功能
  • 特定於酶的信息,例如催化活性,輔因子和催化殘基
  • 亞細胞定位
  • 蛋白質相互作用
  • 表達方式
  • 重要域和站點的位置和角色
  • 離子,底物和輔因子結合位點
  • 通過自然遺傳變異,RNA編輯,替代剪接,蛋白水解加工和翻譯後修飾產生的蛋白質變異形式

使用:

mark

UniProtKB/Swiss-Prot

高質量的、手工註釋的、非冗餘的數據集

Swiss-Prot旨在提供與高水平註釋(例如,蛋白質功能,其域結構,翻譯後修飾,變體等的描述)相關的可靠蛋白質序列,最小程度的冗餘和高水平與其他數據庫的集成級別。註釋主要來自文獻中的研究成果和E-value校驗過計算分析結果,有質量保證的數據才被加入該數據庫 。

Swiss-Prot由Amos Bairoch博士在1986年創建,由瑞士生物信息學研究所開發,隨後由歐洲生物信息學研究所的Rolf Apweiler開發。也是說EBI和SIB共同製作了Swiss-Prot和TrEMBL數據庫。

Swiss-Prot條目的註釋中使用了一系列序列分析工具。包括手動評估,計算機預測,並選擇結果包含在相應的條目中。這些預測包括翻譯後修飾,跨膜結構域和拓撲,信號肽,結構域識別和蛋白質家族分類。

來自相同基因和相同物種的序列合併到相同的數據庫條目中。確定序列之間的差異包含:可變剪接,自然變異,錯誤的起始位點,錯誤的外顯子邊界,移碼,未識別的衝突。

註釋會用相關出版物通過搜索數據庫(例如PubMed)進行識別。閱讀每篇論文的全文,然後提取信息並將其添加到條目中。科學文獻中的註釋包括但不限於:

  • 蛋白質和基因名稱

  • 功能

  • 特定於酶的信息,例如催化活性,輔因子和催化殘基

  • 亞細胞定位

  • 蛋白質相互作用

  • 表達方式

  • 重要域和站點的位置和角色

  • 離子,底物和輔因子結合位點

  • 通過自然遺傳變異,RNA編輯,替代剪接,蛋白水解加工和翻譯後修飾產生的蛋白質變異形式

常用的操作

image

<1>:這裏輸入基因名,UniProt ID,或者感興趣的關鍵字

<2>:篩選:Reviewed:存儲在Swiss-Prot數據庫中經過驗證的蛋白數據,Unreviewed:存儲在TrEMBL數據庫中沒有經過驗證的蛋白數據

<3>:篩選某個物種,點擊就好切換到該物種

<4>:通過基因名或蛋白名來篩選

<5>:依次是Unprot ID,該蛋白數據庫命名,蛋白質名,基因名,物種,序列長

<6>:如果需要Blast來查看某個蛋白有哪些序列相似的蛋白序列,先選中感興趣蛋白前的方框,點擊Blast

<7>:如果需要多序列比對,先選中感興趣蛋白前的方框,點擊Align

<8>:如果要下載信息,先選中感興趣蛋白前的方框,點擊Download下載。這裏不選擇序列,默認會下載全部序列

下面以 PO5F1_HUMAN 爲例,下載對應的fasta序列來看看:

image

下載到的序列:

>sp|Q01860|PO5F1_HUMAN POU domain, class 5, transcription factor 1 OS=Homo sapiens OX=9606 GN=POU5F1 PE=1 SV=1
  MAGHLASDFAFSPPPGGGGDGPGGPEPGWVDPRTWLSFQGPPGGPGIGPGVGPGSEVWGI
  PPCPPPYEFCGGMAYCGPQVGVGLVPQGGLETSQPEGEAGVGVESNSDGASPEPCTVTPG
  AVKLEKEKLEQNPEESQDIKALQKELEQFAKLLKQKRITLGYTQADVGLTLGVLFGKVFS
  QTTICRFEALQLSFKNMCKLRPLLQKWVEEADNNENLQEICKAETLVQARKRKRTSIENR
  VRGNLENLFLQCPKPTLQQISHIAQQLGLEKDVVRVWFCNRRQKGKRSSSDYAQREDFEA
  AGSPFSGGPVSFPLAPGPHFGTPGYGSPHFTALYSSVPFPEGEAFPPVSVTTLGSPMHSN

首先看 > 後的註釋信息

  • sp:Swiss-Prot數據庫的簡稱,也就是上面說的驗證後的蛋白數據庫

  • Q01860:UniProt ID號

  • PO5F1_HUMAN:是UniProt 的登錄名

  • POU domain, class 5, transcription factor 1:蛋白質名稱

  • OS=Homo sapiens:OS是Organism簡稱,Homo sapiens爲人的拉丁文分類命名,也就是這是人的蛋白質

  • OX=9606:Organism Taxonomy,也就是物種分類數據庫Taxonomy ID

  • GN=POU5F1:Gene name,基因名爲POU5F1

  • PE=1:Protein Existence,蛋白質可靠性,對應5個數字,數字越小越可靠:

    • 1:Experimental evidence at protein level

    • 2:Experimental evidence at tranlevel

    • 3:Protein inferred from homology

    • 4:Protein predicted

    • 5:Protein uncertain

  • SV=1:Sequence Version,序列版本號

UniProtKB/TrEMBL

在認識到序列數據的生成速度超過了Swiss-Prot的註釋能力時,爲了給不在Swiss-Prot中的那些蛋白質提供自動註釋,UniProt創建了TrEMBL(翻譯的EMBL核苷酸序列數據庫)。在三大核酸數據庫(EMBL-Bank/GenBank/DDBJ)中註釋的編碼序列都會被自動翻譯並加入該數據庫中。它也有來自PDB數據庫的序列,以及Ensembl、Refeq和CCDS基因預測的序列。之前提到的PIR組織製作了蛋白質序列數據庫(PIR-PSD)。

UniParc

UniProt Archive(UniParc)包含來自主要公共可用蛋白質序列數據庫的所有蛋白質序列的非冗餘數據集。蛋白質可能存在於幾個不同的來源數據庫中,並且在同一數據庫中存在多個副本。 爲了避免冗餘,UniParc僅將每個唯一序列存儲一次。 相同序列被合併,無論它們來自相同還是不同物種。 每個序列都有一個穩定且唯一的標識符(UPI),從而可以從不同的來源數據庫中識別相同的蛋白質。

UniParc僅包含蛋白質序列,沒有註釋。 UniParc條目中的數據庫交叉引用允許從源數據庫檢索有關該蛋白質的更多信息。 當源數據庫中的序列發生更改時,UniParc將跟蹤這些更改,並記錄所有更改的歷史記錄。

UniRef

UniProt Reference Clusters(UniRef):聚類序列可顯著減小數據庫大小,從而加快序列搜索的速度。用於計算的蛋白質序列來自UniProtKB和部分UniParc記錄的序列。UniRef100序列將相同的序列和序列片段(來自任何生物)合併到一個UniRef條目中,用於顯示代表性蛋白質的序列。 使用CD-HIT算法對UniRef100序列進行聚類,並構建UniRef90和UniRef50。UniRef90和UniRef50分別代表每個簇由與最長序列分別具有至少90%或50%序列同一性的序列組成。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章