一文極速讀懂 Gene Ontology (GO)數據庫

一、介紹

官方:基因本體(GO)知識庫是有關基因功能的全球最大信息來源。 這些知識既是人類可讀的,也是機器可讀的,並且是生物醫學研究中大規模分子生物學和遺傳學實驗的計算分析的基礎。

在讀懂基因本體論(Gene Ontology)前,我們先看看什麼是本體論:

本體論(Ontology )是探究世界的本原或基質的哲學理論 。

本體論通常處理的問題:存在哪些本質,如何將這些本質分組,在層次結構內關聯以及如何根據相似性和差異進行細分 。

個人理解:本體=本質=本原=基質

基因本體論(Gene Ontology)包含生物學領域知識體系本質的表示形式,本體通常由一組類(或術語或概念)組成,它們之間具有關係。 基因本體論(GO)從三個方面(GO domains)描述了我們對生物學領域的瞭解:

mark

  • 分子功能(Molecular Function,MF )

    單個的基因產物(包括蛋白質和RNA)或多個基因產物的複合物在分子水平上的活動,比如“催化”,“轉運”

    需要注意,這裏的描述只表示活動,而不指定執行功能的實體(分子或複合物),動作發生的地點,時間或背景

    廣義上的例子是催化活性和轉運蛋白活性。具體的例子是腺苷酸環化酶活性或Toll樣受體結合

    爲避免基因產物名稱與其分子功能之間的混淆,GO分子功能通常附加“活性(activity)”一詞。比如,蛋白激酶(protein kinase)具有GO分子功能:蛋白激酶活性( protein kinase activity)

  • 細胞組分(Cellular Component ,CC)

    基因產物在執行功能時所處的細胞結構位置,比如在線粒體,核糖體

    需要注意:細胞組分是細胞解刨結構,不指代過程

  • 生物過程(Biological Process ,BP)

    通過多種分子活動完成的生物學過程

    廣義上的例子是DNA修復或信號轉導。更加具體的例子是嘧啶核苷生物合成過程或葡萄糖跨膜轉運

    需要注意:生物學過程不等同於通路。目前,GO沒有表示完整的通路信息所需的動力學或依賴性的描述信息

理解了上述的概念,現在舉個例子,如果站在基因本體論GO的角度來解釋一個基因的話:

基因產物:細胞色素C(cytochrome c)

分子功能:氧化還原酶活性

細胞組分:線粒體基質

生物過程:氧化磷酸化

GO術語的構成

基本要素
  • 唯一標識符(GO ID)和名稱:比如GO:0005739,GO:1904659,GO:0016597和線粒體,葡萄糖跨膜轉運,氨基酸結合
  • 方面:該術語屬於細胞成分,生物過程或分子功能的哪一個。
  • 定義:術語的文字描述,以及信息來源的引用。
  • 關係:該術語與本體中其他術語的關係。 例如,葡萄糖跨膜轉運(GO:1904659)是單糖轉運(GO:0015749)。
可選要素
  • 次級ID(備用ID):當兩個或多個術語的含義相同並且合併爲一個術語時,就會出現輔助ID。 所有術語ID都會保留下來,因此不會丟失任何信息(例如,合併ID的註釋)。
  • 同義字:含義與術語名稱緊密相關的替代字詞或短語,表示名稱與同義詞範圍所賦予的同義詞之間的關係。 GO同義詞的範圍是:
    • 相同 Exact : 術語名稱可以互換; 例如 鳥氨酸循環是尿素循環的確切同義詞
    • 廣義Broad :同義詞比術語名稱更廣泛; 例如 細胞分裂是胞質分裂的廣義同義詞
    • 狹義 Narrow :同義詞比術語名稱更具體或更精確; 例如 用光裂酶修復嘧啶二聚體是光反應性修復的狹義同義詞
    • 相關 Related :術語以不精確的方式相關; 例如 細胞色素bc1複合體是泛醇-細胞色素c還原酶活性的相關同義詞毒力是發病機理的相關同義詞

自定義同義詞類型也用於本體中。 例如,許多同義詞被指定爲系統同義詞。 此類型的同義詞是術語名稱的確切同義詞。

基因本體論中的關係

GO以圖的形式構建,術語作爲同種的節點,術語間的關係(對象屬性)作爲連接。

關係的描述
  • 節點 node:是指GO術語
  • 父級 parent:是指更靠近圖的根的節點
  • 子級 child:是指更靠近葉節點的節點; 對於is_a和part_of關係,父級是一個更寬泛的GO術語,而子級是一個更具體的術語
  • 箭頭 arrowhead:指示關係的方向
  • 虛線 Dotted lines:表示推斷的關係,即本體中未明確說明的關係
節點的連接

GO圖中的節點與其他節點可以具有任意數量和類型的關係, 就像層次結構,例如,家譜或一個物種的分類法

一個節點可能與多個子節點(更特定的節點)具有連接,也可以具有多個父節點(較寬的節點)

利用關係與關係間的連接可以推斷相應的分組註釋,節點間關係的推斷,這個會在後面詳細研究:

mark

上圖表示:A is a B,B is part of C,所以可以推斷 A is part of C

節點間總體與部分關係:

一個節點可能與一個節點有一部分關係。 下圖說明了這一點:

mark

上圖:mitochondrion 是兩個節點的父節點:it is an organelle and it is part of the cytoplasm ;organelle 有兩個子節點: mitochondrion is an organelle, and organelle membrane is part of organelle

GO的主要關係

我們將上面的關係圖簡化表示爲箭頭導向性圖,這是圖中常見的關係表示:

縮寫 關係 符號 示例
i is a AmarkB 有絲分裂細胞週期 is a 細胞週期
P part of AmarkB 線粒體內膜 part of 線粒體
hP has part AmarkB 受體酪氨酸激酶活性 has part 激酶活性
R regulates AmarkB 抗凋亡 regulates 細胞程序性死亡
R+ positively regulates AmarkB 減數分裂激活 positively regulates 減數分裂
R- negatively regulates AmarkB 脊髓平滑信號通路 negatively regulates 脊髓腹側

接下我們詳細看看GO是怎樣來描述這幾種關係的:

1.is a

如果我們說 A is a B,則意味着節點A是節點B的子類型。例如,有絲分裂細胞週期是細胞週期,或者裂解酶活性是催化活性。

應該注意的是,a並不代表是實例。 從本體論上來說,一個實例是某個事物的具體示例。 例如 貓是哺乳動物,但加菲貓是貓的實例,而不是貓的亞型。 GO中的術語表示實體或現象的類別,而不是特定的表現形式(或實例)。 但是,如果我們知道貓是哺乳動物,則可以說貓的每個實例都是哺乳動物。

使用 is a 對批註進行分組是安全的。例如,如果將基因產物X註釋爲具有酪氨酸激酶活性,並且本體論證明酪氨酸激酶活性是激酶活性的一種(類型),那麼我們可以安全地得出結論,基因產物X具有激酶活性。

利用上面得到結論,我們可以將is a關係和其他關係類型結合來推斷,下圖表示了可以推斷的關係:

mark

2.part of

關係的一部分用於表示整個部分的關係。 part of 只有當B一定是A的一部分時,纔會在A和B之間部分關係:無論B存在於何處,它都是A的一部分,B的存在意味着A的存在。但是,考慮到A的出現,我們不能肯定地說B的存在。

使用的 part of 進行分組註釋是安全的。 例如,如果將基因產物X標註爲位於線粒體內膜上,而本體論記錄了線粒體內膜與線粒體之間的關係的一部分,則可以安全地得出結論X位於線粒體內。

利用上面得到結論,我們可以將part of關係和其他關係類型結合來推斷,下圖表示了可以推斷的關係:

mark

3.has part

has part是對關係部分的邏輯補充,它從父級的角度代表了“部分-整體”關係。

part of 一樣,GO關係 has part 僅在A始終將B作爲一部分的情況下使用,即A必定具有B的部分。 但是,如果B存在,我們不能肯定地說A存在。 即所有A都有B部分,但是A只是B的一部分。

使用has part註釋進行分組是不正確的。 例如,我們可以在本體論中斷言受體酪氨酸激酶活性具有部分激酶活性。 然而,將所有註釋歸類到受體酪氨酸激酶活性下的激酶活性將是不正確的。

利用上面得到結論,我們可以將has part關係和其他關係類型結合來推斷,下圖表示了可以推斷的關係:

mark

4.regulates

一種過程直接影響另一種過程或質量的表現,即前者調節後者。 調節的目標可以是另一種過程,例如調節途徑或酶促反應,或者可以是質量,例如細胞大小或pH。 與 part of 關係類似,該關係專門用於表示必定的調節:如果同時存在A和B,則B總是調節A,但是A可能不總是受B調節,即所有B都調節A; 一些A受B調節。

如果將基因產物X註釋爲參與調節糖酵解的過程,則不能得出結論X參與糖酵解是不正確的。 但是,某些工具使用調節關係來對批註進行分組, 這可用於基因集富集, 所得的基因集包括與分組術語有因果關係的過程中涉及的基因。

利用上面得到結論,我們可以將regulates關係和其他關係類型結合來推斷,下圖表示了可以推斷的關係:

mark

GO 圖(有向無環圖)

GO的結構可以用下圖來表示,這個圖也叫有向無環圖(Directed Acyclic Graph ,DAG)。

在圖論中,如果一個有向圖無法從某個頂點出發經過若干條邊回到該點,那麼這個圖就是有向無環圖。

因爲有向圖中一個點經過兩種路線到達另一個點未必形成環,因此有向無環圖未必能轉化成樹,但任何有向樹均爲有向無環圖。

下圖中從左到右依次是有向樹,有向無環圖,有向圖

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-kxfUUpud-1577669934280)(C:\Users\baimo\AppData\Local\Temp\1577331013387.png)]

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-akvgbVw5-1577669934280)(http://geneontology.org/assets/hexose-biosynthetic-process.png)]

如上圖所示,三個GO域(細胞成分,生物學過程和分子功能)分別由一個單獨的根本體術語表示。

一個域中的所有術語都可以將其父源追溯到一個根術語,通過到本體根的中間術語可能存在許多不同的路徑。

這三個根節點是不相關的,並且沒有公共的父節點,這意味着來自不同本體的術語之間沒有任何關係。但是,GO本體之間也存在其他關係,例如,分子功能術語“細胞週期蛋白依賴性蛋白激酶活性”是生物過程“細胞週期”的一部分。GO本體間相關http://geneontology.org/docs/ontology-relations/。

某些基於圖的軟件可能需要一個根節點。在這種情況下,可以將“假”術語添加爲三個現有根節點的代。

GO的動態更新

GO只代表生物學的當前認知,因此隨着生物學知識的積累,它會不斷地被修訂和擴展。也就是說目前的GO術語不一定代表某個基因產物所有的功能,組分或參加的過程,只是現階段對它的認知。

每週更新一次,由GOC本體團隊與請求更新的科學家共同完成的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章