NAR-2018-dbCAN2鑑定宏基因組CAZYome碳水化合物相關基因


宏基因組數據分析中,經常會使用多種多樣的數據庫,如綜述型的有NCBI非冗餘核酸或蛋白序列庫(NR)、KEGG、COG、eggNOG、RFAM等。專業型的數據庫有CAZy(碳水化合物酶)、ARBD(抗生素抗性基因)、CARD、VFDB、PHI等衆多數據庫。同時基於這些數據庫,又開發了很多軟件、和在線服務器(web server)方便同行使用。

今天帶大家來學習一下CAZy數據庫的使用。這裏推薦一個今年剛發表在覈酸研究(IF>11)的webserver,方便大家鼠標點點,輕鬆完成宏基因組碳水化合物酶組學的註釋。

Science哈扎人CAZYome分析實例

之前精講過一篇Science封面文章,如下:

正文僅有3個主圖,圖2的宏基因組部分就圍繞着碳水化合物代謝相關基因組(CAZYome)進行的研究。今天就帶大家學習一下它是如何實現。

先回顧一下Science圖2的主要結果。

實例解讀

本圖主要基於宏基因組測序碳水化合物代謝基因的種類、丰度進行分析,揭示哈扎人菌羣功能週期的變化和與現代人的差別。

本圖有8個子圖分爲5組,從5個不同的角度/主題進行說明。

image

圖2. 哈扎人腸道菌羣功能隨季節週期循環

(A) 箱線圖展示宏基因組CAZYome基因Shannon多樣性按季節變化和與現代人比較;

(B) PCA分析CAZYome表明哈扎人與現代間此類基因顯著差異即爲樣品間主要差異;

© 動植物碳水化合物/粘多糖佔CAZYome中比例在哈扎人和現代人間存在顯著差異;

(D) 幾種CAZymes丰度在哈扎人中週期變化,以及與現代人比較

(E) 抗生素抗性基因多樣性,哈扎人低於現代人,且存在季節週期變化

點評:宏基因組中從整體到類別,可分析的結果很多,但結果是用於服務科學問題和故事主線的。其中飲食的不同,主要影響碳水化合物的比例和組成,以及抗性基因的種類和豐度。因此選定好的邏輯出發點和故事主線是高水平文章的重點,這個別人很難幫你。但你有了好思路,找技術達人合作或與課題負責分析的朋友溝通,那是水到渠成和錦上添花的事,即使花費大量時間去美化都是值得的。當然也可自學差異箱線圖繪製。

分析方法探索(順藤摸瓜)

看完以上結果,我們會感覺工作很漂亮。但如何實現呢?這是一個大問題。我們接下來查找文章的方法。

Science文章,正常只有2-3頁,大部分是結果,很少會有版面去描述方法。我們從文章主頁下載的補充材料。有宏基因組分析方法描述如下:

宏基因組測序分析

使用DeconSeq去除人類基因組數據。32個HMP人作爲對照同哈扎人相同方法分析。DynamicTrim對宏基因組數據質控,FragGeneScan鑑定編碼基因。數據採用HUMAnN2分配至KEGG數據庫。HMMER 3.0(45)使用dbCAN鑑定CAZymes(46);使用ResFams鑑定抗生素抗性基因(47),E-value < 1e-5。

  1. S. R. Eddy, A new generation of homology search tools based on probabilistic inference. Genome Inform. 23, 205–211 (2009). http://hmmer.org/
  2. Y. Yin, X. Mao, J. Yang, X. Chen, F. Mao, Y. Xu, dbCAN: A web resource for automated carbohydrate-active enzyme annotation. Nucleic Acids Res. 40, W445–451 (2012). http://cys.bios.niu.edu/dbCAN2/
  3. M. K. Gibson, K. J. Forsberg, G. Dantas, Improved annotation of antibiotic resistance determinants reveals microbial resistomes cluster by ecology. ISME J. 9, 207–216 (2015). http://www.dantaslab.org/resfams

我們列出了與CAZymes相關分析的方法段落,發現是使用dbCAN工具的HMMER方法鑑定的CAZymes,分別對應了引文45和46。再閱讀這兩篇文章,找到相關軟件和數據庫的主頁,發現了分析CAZymes的在線服務器dbCAN2,它整合了最新的數據庫和三種方法,我們可以輕鬆在線完成分析。

dbCAN2——碳水化合物在線分析服務器

文章:https://academic.oup.com/nar/article/46/W1/W95/4996582
image

dbCAN2於今年5月16日在線發表於《核酸研究》雜誌(IF=11.561),它是上文Science使用的dbCAN的升級版。知道爲什麼出2嗎?第一版2012年出表至今已經引用571次了。
image

dbCAN2簡介

網址:http://cys.bios.niu.edu/dbCAN2/

dbCAN2宏基因組服務器自動化碳水化合物酶註釋。相關的網站有CAZy, CAT(過時)和Hotpep。

dbCAN2的分析的主要步驟如下:

  • 可提交基因組或宏基因組序列fna文件。真核基因組請使用蛋白序列faa文件
  • 自動化註釋分三步
    • 基於dbCAN CAZyme結構域HMM數據庫,HMMER註釋CAZYme結構域的邊界
    • DIAMOND注快速釋blast比對CAZy數據庫
    • Hotpep基於PPR文庫鑑定短保守motifs
  • 提交faa + gff文件,服務器使用CGC-Finder可鑑定轉錄因子TF、轉動蛋白和CAZyme基因簇(CGCs)。
  • 結果可以可視化,如維恩圖多方法比較。提供比對結果表格下載。

本服務器每年更新一次CAZy數據庫。

image

主頁上有5個菜單,分別主頁簡介(Home)、在線註釋(Annotate)、下載本地版(Download)、幫助(Help)和聯繫作者(About us)

詳細的教程可見幫助頁。

在線分析

image

在線分析基本原理如上圖。DNA進行預測蛋白。再進行三種方法(HMM, diamond, hotpep)的預測。

點擊Annotate在線註釋

下圖以蛋白序列爲例。核酸序列,軟件還會利用Prodigal自動預測蛋白。

image

  1. 填寫E-mail,任務完成時獲得結果鏈接;
  2. 序列類型,可選fasta核酸或蛋白序列
  3. 工具選擇。默認只選了HMMER,一般也夠用了。可以再選diamond、hotpep和CGCFinder。
  4. 基因位置文件gff/bed格式(可選),蛋白則不需要;
  5. 序列文件,少量可粘貼,大量則上傳文件,要求小於100M。

點擊Submit就等着收結果吧。運行完成見如下頁面。即使關閉,會收到結果頁的鏈接。

image

上面維恩圖,是用三種註釋方法結果的比較。下面爲註釋結果的總結,和每種方法的結果。可以下載結果表格。也可以查看每種方法比對結果的詳細。

要想查看每種CAZy酶的註釋,可以點擊藍色的鏈接,跳轉CAZy官網查看。

image

基於註釋的結果,對我們宏基因組基因丰度矩陣進行篩選,就可以進行CAZyome的分析了。是不是挺容易的。

本地軟件和數據庫下載

http://cys.bios.niu.edu/dbCAN2/download/

有本平臺所有的軟件和數據庫,查看README.txt

The Tools directory contains tools used in dbCAN meta server. These include CGC-Finder, the Python verson of Hotpep, and a parser for HMMER. 

The Databases directory contains all the databases used in dbCAN meta server. These are CAZy, dbCAN, PPR, tcdb, and tf.

README.txt			this file

Tools/
	CGC-Finder.tar.gz	CGC-Finder program
	hmmscan-parser.tar.gz	分析hmm結果文件的腳本Script to parse hmmscan output of dbCAN search
	hotpep-python.tar.gz	Hotpep program and data
	run_dbcan.tar.gz	dbcan運行腳本 Script to run a stand alone version of dbCAN meta


Databases/
	[email protected]/		Data in the old dbCAN [email protected]
	tcdb.fa			轉運蛋白註釋 transporter proteins annotated at http://www.tcdb.org/
	tf.fa			轉錄因子 transcription factor proteins annotated at collectf DB, RegulonDB, and DBTBS
	CAZy.08312018.fa	CAZy數據庫 GenBank proteins annotated as CAZymes by CAZy
	dbCAN-HMMdb-V7.txt	模型 dbCAN HMM DB

碳水化合物蛋白數據庫

CAZyDB.07312018.fa 蛋白序列520Mb,可以用diamond比對

序列名爲GeneBankID,和分類

AWI06117.1|GT2

CAZyDB.07312018.fam-activities.txt 分類描述文件

AA10 AA10 (formerly CBM33) proteins are copper-dependent lytic polysaccharide monooxygenases (LPMOs); some proteins have been shown to act on chitin, others on cellulose;

CAZyDB.07312018.pr-with-ec.txt 基因對應酶學編號

AAC00570.1 GT1|2.4.1.195

HMM數據庫

dbCAN-HMMdb-V7.txt HMM模型

dbCAN2具體的本地安裝涉及較多軟件和數據庫的佈置,有時間寫個專門的文章進行講解。本文講的在線版分析可以滿足大多數同行

Reference

  1. Smits, Samuel A., et al. “Seasonal cycling in the gut microbiome of the Hadza hunter-gatherers of Tanzania.” Science 357.6353 (2017): 802-806. http://science.sciencemag.org/content/357/6353/802
  2. 附件目錄 http://science.sciencemag.org/content/suppl/2017/08/24/357.6353.802.DC1
  3. 補充方法 http://science.sciencemag.org/content/sci/suppl/2017/08/24/357.6353.802.DC1/aan4834_Smits_SM.pdf
  4. 附表1. 樣品列表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/1/aan4834_Table_S1.csv
  5. 附表3. KEGG通路表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/2/aan4834_Table_S3.csv
  6. 附表4. KEGG Carbohydrate Metabolism pathways http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/3/aan4834_Table_S4.csv
  7. Zhang, Han, et al. “dbCAN2: a meta server for automated carbohydrate-active enzyme annotation.” Nucleic acids research (2018).
  8. http://cys.bios.niu.edu/dbCAN2/

猜你喜歡

寫在後面

爲鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論羣,目前己有國內外2300+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入羣,務必備註“姓名-單位-研究方向-職稱/年級”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決羣內討論,問題不私聊,幫助同行。
image

學習擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”
image

點擊閱讀原文,跳轉最新文章目錄閱讀
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章