WGCNA分析+公共數據庫挖掘你感興趣的癌症

原文鏈接: Application of weighted gene co-expression network analysis to identify key modules and hub genes in oral squamous cell carcinoma tumorigenesis

DOI:10.2147/OTT.S171791 期刊:Onco Targets Ther.

影響因子:2.656

導讀

這是一篇完全基於公共數據挖掘,沒有做任何實驗的文章,充分利用了多種數據庫、網絡軟件和工具,除了WGCNA的分析過程,其他部分不需要編程基礎。而WGCNA的分析教程太多太多,優秀的如:

1.一文學會WGCNA分析

2.GEO數據挖掘-第三期-口腔鱗狀細胞癌(OSCC)

另外值得一提的是這篇文章發表的期刊:OncoTargets and Therapy,影響因子2.656,但是見刊速度驚人,從投稿到見刊總用時平均不超過2個月。如果是急於畢業等需要這種類型的文章,這篇文章的研究方法(套路)可以參考,該類型的期刊也可以關注下。

【研究方法】

【數據庫詳細介紹】

GEPIA (http://gepia.cancer-pku.cn/)

Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res, 10.1093/nar/gkx247.

GEPIA是2017年北京大學開發的一個腫瘤和正常基因表達的集分析和可視化的交互網站平臺。目前包括9736個腫瘤樣本和8587個正常樣本,數據分別來自TCGA數據庫和GTEx。

1. 可以做的分析

單個基因分析

任意輸入一個基因symbol,General信息裏會給出該基因研究現狀的一個summary;基因的平均表達值在tumor和normal的bodymap中的分佈;在不同癌症 癌症類型中的表達(包括dot plot, bar plot); 還給出了該基因的相似基因。同時還包括差異分析,定製表達譜圖分析,生存分析,相關性分析,PCA等。

癌症類型分析

給定一個癌症類型,用常用的統計學方法和閾值做差異基因分析以及基因在染色體上的分佈;還包括和癌症類型最顯著相關的基因的生存分析。

多個基因分析

包括多個基因比較,相關性分析,降維。

2. 應用範圍

該數據庫主要用於癌症分析,如果有感興趣的基因,可以使用該網站做差異、聚類、相關性和生存分析。

■ ■

Human Protein Atlas database (https://www.proteinatlas.org/)

人類蛋白質數據庫是2003年由瑞典人發起的,旨在利用不同的組學技術(包括抗體成像、質譜、轉錄組學和系統生物學等方法)繪製細胞、組織和器官中的所有人類蛋白質圖譜。

包括三部分,組織、細胞和致病圖譜:

Tissue Atlas 展示蛋白質在人體組織和器官的分佈

Uhlén M et al, 2015. Tissue-based map of the human proteome. Science, PubMed: 25613900 DOI: 10.1126/science.1260419

Cell Atlas 展示蛋白的的亞細胞定位

Thul PJ et al, 2017. A subcellular map of the human proteome. Science.PubMed: 28495876 DOI: 10.1126/science.aal3321

Pathology Atlas 展示蛋白質水平對癌症患者生存的影響

Uhlen M et al, 2017. A pathology atlas of the human cancer transcriptome. Science.PubMed: 28818916 DOI: 10.1126/science.aan2507

1. 使用介紹 ? 輸入一個基因,會給出該基因的相關蛋白的描述,亞細胞定位等

? 再看看Tissue/Cell/Pathology都包括哪些內容:

2. 應用範圍:

這篇文章中是利用該數據庫對hub genes在蛋白質水平上驗證。做腫瘤數據挖掘的可以利用該數據庫對感興趣的基因進行蛋白質驗證,不用做實驗,故事還可以說的更飽滿些。(數據庫內容很多,之後詳細介紹。)

■ ■

CBioPortal (http://www.cbioportal.org/)

cBioPortal for Cancer Genomics 提供了探索、可視化和分析多種維度的癌症基因組數據的網站資源。可以探索基因變異對臨牀的影響,包括多種可視化方法。

【文章結果】

WGCNA的分析結果

  • 樣本聚類和軟閾值的選擇
  • 構建共表達網絡
  • 顯著性模塊的選擇
  • 提取顯著性模塊中的hub genes, 用cytoscape做網絡圖
  • 模塊基因的GO和KEGG富集分析

Hub genes的驗證結果

  • 用GEPIA數據庫對hub genes進行生存分析
  • 差異基因和模塊基因的關聯分析,相互驗證
  • 轉錄本水平驗證
  • 翻譯水平驗證 用的Human Protein Atlas database數據庫

用CBioPortal對基因組變異和hub genes關聯分析

雖然這篇文章屬於套路文章,利用的也都是公共數據資源和工具,但是也有值得借鑑的地方,利用WGCNA找到hub genes後,從轉錄本水平、翻譯水平、臨牀結果和基因組變異多個角度驗證;還有文中提到的3個公共數據庫資源值得挖掘和利用,尤其是對做實驗的同學,完全可以用別人的工具驗證分析結果,繪製好看的圖。 君子生非異也,善假於物也。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章