一文極速讀懂 KEGG 數據庫

一、介紹

在進行生物學實驗或者生物信息的學習中,都會聽說KEGG富集分析,而且該方法在高通量測序分析中已然成爲數據分析中必不可少的一環。

這種分析方法依託的是由 Kanehisa實驗室 在1995年開發的KEGG數據庫,全稱爲 Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書)。它擁有多個子數據庫,包含基因組,生化反應,生化物質,疾病與藥物,以及最常用PATHWAY通路信息。

接下來進入KEGG官網:https://www.kegg.jp ,它的主頁主要由以下幾部分構成:

mark

二、KEGG的數據庫構成

KEGG子庫中存儲的信息是生物系統的計算機表示形式,由基因和蛋白質(基因組信息)和化學物質(化學信息)的分子部件組成,這些部件的相互作用,反應和關係構成調控網絡圖(系統信息),除此之外,還包含疾病和藥物信息(健康信息)。具體的分類及數據庫如下:

分類 數據庫 描述 標誌
系統
信息
KEGG PATHWAY KEGG 通路圖 kegg3
KEGG BRITE BRITE 層次結構和表
KEGG MODULE KEGG 模塊
基因組
信息
KEGG ORTHOLOGY (KO) 功能直系同源物 kegg4
KEGG GENOME KEGG 完整基因組 kegg1
KEGG GENES 基因和蛋白質
KEGG SSDB 基因序列相似性
化學
信息
KEGG COMPOUND 小分子 kegg2
KEGG GLYCAN 聚糖
KEGG REACTION 生化反應
KEGG RCLASS 反應類型
KEGG ENZYME 酶命名
健康
信息
KEGG NETWORK 疾病相關網絡 kegg5
KEGG VARIANT 人基因變異
KEGG DISEASE 人類疾病
KEGG DRUG 藥物
KEGG DGROUP 藥物分組
KEGG ENVIRON 健康相關物質

三、KEGG PATHWAY 數據庫

在所有子數據庫中最重要也是最常用的就是KEGG PATHWAY,它包括大量由科研人員根據已有研究文獻,通過手動繪製的KEGG通路圖,代表着代謝過程,環境信息過程,細胞過程,生物系統,人類疾病和藥物開發。

每個通路都由一個五位數字標識,後跟以下任意一個:map,ko,ec,rn和三字母或四字母生物代碼,它們分別代表五種通路類型:

  • map編號:代表reference pathway,根據已有的知識繪製的、概括的、詳盡的具有一般參考意義的代謝圖。 一個點同時表示一個基因,這個基因編碼的酶或這個酶參加的反應
  • org編號:物種特異性通路,這裏就是將K編號基因(直系同源基因,後面會介紹)換爲每個物種中對應的基因
  • ko編號:KO通路中的點表示直系同源基因
  • ec編號:EC通路中的點表示相關的酶
  • rn編號:化學反應通路中的點只表示該點參與的某個反應、反應物及反應類型

在瞭解每種通路之前我們先學會在KEGG中切換每種通路類型

地址:https://www.kegg.jp/kegg-bin/show_pathway?org_name=map&mapno=00020&mapscale=&show_description=hide

使用過程中切換各種通路類型,比如進入TCA循環 ,可以通過左上角下路菜單來切換:

mark

接下來,我們詳細介紹每種通路:

1. 參考通路圖 (map)

這裏以 TCA循環 的通路圖爲例,進入參考通路圖(Reference pathway)。這是原始版本的通路,也是後續幾種通路圖的"模板"。每個白框可以代表直系同源基因,酶,反應,也可以點擊鏈接至KO,ENZYME和REACTION詳細信息。

mark

上述的形狀,箭頭,線段代表如下意義:

mark

2. 物種特異性通路 (org)

我們選擇人的物種名Homo sapiens (human),點擊Go。可以看到與Reference pathway 圖(map00020)不同的是有物種特異性基因被標註爲綠色,而且通路編號爲hsa00020

訪問鏈接:https://www.kegg.jp/kegg-bin/show_pathway?org_name=hsa&mapno=00020&mapscale=&show_description=hide

當然,如果直接訪問hsa00020的鏈接也可以進入該通路:https://www.kegg.jp/kegg-bin/show_pathway?hsa00020

mark

點擊綠色基因,會進入Gene詳細信息

mark

3. 直系同源物通路 (ko)

藍色框超鏈接到從原始版本中選擇的KO條目

mark

進入PCK的直系同源基因信息

mark

4. 酶通路 (ec)

藍色框超鏈接到從原始版本中選擇的ENZYME條目

mark

進入ENZYME

mark

5. 反應通路 (reaction)

藍色框超鏈接到從原始版本中選擇的反應條目,

mark

點擊後進入對應的反應信息界面,如下圖

mark

四、KEGG ORTHOLOGY(KO)數據庫

KEGG ORTHOLOGY (KO)數據庫是構建Pathway和Module的基礎,相當於KEGG數據庫構建的基石,因此理解KO數據庫的構成對於使用及瞭解KEGG至關重要。

然而,這種通用方法不足以理解由物種內基因和基因組的變異所引起的更詳細的特徵,特別是對於理解與人類基因和基因組的疾病相關的變異而言。後來他們開發了 KEGG NETKERK,該數據庫不僅涉及基因變異,而且包括病毒和其他因素的網絡變異方面的疾病和藥物知識。

KEGG的開發者根據不同生物之間基因和基因組的保守和變異,引入直系同源物(KO)的概念,使得KEGG通路圖,BRITE層次結構和KEGG模塊的參考數據集可以廣泛應用於任何細胞生物。

mark

概念

1.KO號:表示不分物種的通路,相當於所有物種的這一通路的並集,比如ko00020代表的 TCA 循環 (下圖所示),下圖的每個圓角矩形也代表着一個KO通路。

mark

2.K號:表示基因,每個號代表的是所有物種的一個同源基因,比如上圖中的K01596代表的是 PCK

mark

進入K01596的詳細頁面,我們會看到它代表的是一個基因列表,這些基因具有一個功能卻來自於不同的物種。

mark

3.C號:表示化合物

mark

對於分析工具使用和kegg資源下載,會在後續文章中更新。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章