TCGA數據庫介紹以及下載方式小結

美國政府發起的癌症和腫瘤基因圖譜(Cancer Genome Atlas,TCGA)計劃,試圖通過應用基因組分析技術,特別是採用大規模的基因組測序,將人類全部癌症(近期目標爲50種包括亞型在內的腫瘤)的基因組變異圖譜繪製出來,並進行系統分析,旨在找到所有致癌和抑癌基因的微小變異,瞭解癌細胞發生、發展的機制,在此基礎上取得新的診斷和治療方法,最後可以勾畫出整個新型“預防癌症的策略”。TCGA 使命:提高人們對癌症發病分子基礎的科學認識及提高我們診斷、治療和預防癌症的能力TCGA 目標:完成一套完整的與所有癌症基因組改變相關的“圖譜”。

TCGA收錄的了很全面的癌症基因組數據,包括突變,拷貝數變異,mRNA表達,miRNA表達,甲基化數據等

這些數據可分爲三個級別:

  • level-1: 原始的測序數據(fasta,fastq等)
  • level-2:比對好的bam文件
  • level-3:爲經過處理及標準化的數據

(其中level1和level2爲controlled-access,level1和level2 是原始數據,文件較大且數據粗糙不利於進一步分析,level-3有部分是controlled-access,數據類型爲controlled-access的數據需要向TCGA申請使用權限,數據類型爲open-access的可以直接下載利用)

若要下載需要使用官方提供的小工具:GDC Data Transfer Tool


常用下載方式

  • (1)官方下載方式

TCGA官網的data-portal: portal.gdc.cancer.gov
優點:數據最全,更新最快
缺點:下載速度慢,不利於進一步分析。

  • (2)Firehose網頁下載方式

Firehose服務器:gdac.broadinstitute.org
優點:這裏的數據經過了簡單的合併,將每種癌症相同類型的數據合併到了一個文件中,下載方式最簡單且可以直接下一步分析
缺點:臨牀隨訪數據幾乎沒有更新。

  • (3)使用R包的下載方式

R包包括TCGA-ASSEMBLER 、TCGA2STAT、GDCRNATOOLS等。但是我最常用的是TCGAbiolinks包,因爲該包更新比較快,同時也是直接下載官網數據保證準確性,同時該包的使用者比較多,利於進一步分析和挖掘。

TCGAbiolinks是一個基於GDC提供的API訪問GDC中TCGA的數據,並可以通過調用gdc-client下載數據,還可以對下載的數據進行整合和分析的R軟件包。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章