腫瘤基因預後預測數據庫:Kaplan-Meier Plotter

在進行腫瘤相關研究的時候,如果有這個腫瘤的隨訪時間和隨訪的結局,往往都可以進行預後分析。通過預後分析來了解某一個分組(治療方式,基因突變,基因表達高低)是否影響腫瘤患者的預後。那麼如果在基因研究的時候,能夠預測我們這個基因可以影響癌症的預後,那豈不是就說明我這個基因對於腫瘤而言很重要的嘛。由於隨訪數據很難獲得,那我又沒一個用來預測基因預後的數據庫呢?

所以今天小編就來給大家介紹一個非常好用的在線分析生存預後的工具:Kaplan-Meier Plotter(https://kmplot.com/analysis/)。通過名字我們就可以知道,這個網站通過Kaplan-Meier算法來進行預後分析的。它­­是可以對21種腫瘤(包括乳腺癌、卵巢癌、肺癌及胃癌)超過54000個基因(mRNA, miRNA, 蛋白)進行生存分析。其數據主要來源於GEO、EGA和TCGA。在介紹網站的使用之前,我們先簡單的介紹一下Kaplan Meier的分析過程以便大家更好的理解這個分析方法。

Kaplan-Meier

關於Kaplan-Meier具體的算法過程,具體的我們不做過多的介紹(小編其實也不清楚。。。)。主要還是想說的是這個算法的主要的分析過程的注意事項。

對於預後分析而言,目前常用的還是兩種分析方法,一種是COX迴歸,另外一種也就是Kaplan-Meier。對於COX迴歸而言,這個我們可以分析連續性變量和分類變量和預後的關係。而對於Kaplan-Meier而言。這個變量只能分析分類變量和預後的關係。所以如果我們拿到的是一個連續性變量,例如基因的表達量,我們首先第一步要基於一個cut off值來把這個變量變成分類變量(高低表達),然後才能進行Kaplan-Meier分析。因此對於一個連續性變量的分組就比較重要了。有時候分組不好還是影響預後分析的結果的。目前來說的,主要還是有三種連續性變量的分組方式。

中位值

中位值的分組方式是最常見的分組方式了,我們基於某一個基因表達的中位值來平均的把基因表達數據分成高低表達來進行分析。

最佳區分

這種方式有一個專業性的詞彙叫做:最大選擇秩統計量。簡單來說的話,由於連續性的變量是可以進行排序的,我們在排序之後,基於每一個現有的數值來進行高低表達劃分。例如下圖,我們有四個變量,分別爲:1、1.5、2、2.5。如果按照每一個數值排序的值進行分組的話,那就可以獲得三種分組。基於這三組我們分別做Kaplan-Meier分析,然後看哪個結果更好。然後就選擇哪種分組。

PS:在上面我們可以看到,其實中位值的分組也在裏面,其實通過這個方法也可以把中位值的選擇包括在裏面的。對於最佳區分發而言,容易造成某一個分組樣本特別少的時候結果有意義,這樣的話,結果偏倚就比較大了。所以在進行最佳區分的時候,最後設置一個最小分組是多少。

三分法比較

以上兩種方法,都是基於整個表達數據而言的。由於即使使用最佳區分,有時候分組之間的表達差異其實也沒那麼大,這個時候我們所謂的高低表達也不是很準確的。所以爲了解決這種問題,就有了三分法的分組方法。這種分組方法把數據基於大小分成三分(低高中表達),然後取低表達和高表達組來進行預後分析。這樣的分析方法,相當於去掉了中間的表達量,讓表達有一個明顯的區分,進而看錶達是否影響基因的預後。

以上就是關於Kaplan-Meier分析的幾個要點。下面來介紹一下這個文章的使用吧。

數據庫使用

根據官網地址,打開後主頁面如下:

根據上圖我們可以發現,該網站的數據類型包括芯片數據、高通量測序數據,涉及mRNA、miRNA、蛋白和DNA,並且在不斷豐富之中。

PS: 其中,在DNA方面這個數據庫分析的是某一個基因的突變對於預後的影響。由於突變也就分成有沒有這樣的類型,所以不涉及到我們上面講到的數據分組的問題。其他的由於都是連續性變量,所以都會涉及到數據分組的文章。

至於具體如何操作使用,很簡單。首先我們要有目的基因,明確分析的癌症類型。比如這裏我們想探討基因TP53在胃癌患者中的生存情況。可以發現,在mRNA RNA-seq當中的pan是有胃癌預後數據庫的(基於TCGA)。同時在mRNA 芯片當中也是有數據的。這裏我們利用gene chip數據進行生存分析。我們可以直接點擊下圖中紅色方框位置或在搜索欄內進行點擊胃癌。

填寫正確的基因名稱(這裏爲TP53)或者提供芯片的探針ID(芯片數據、探針ID和基因對應關係可從網頁Download中下載),選擇生存分析類型(OS、FP、PPS等)、隨訪時間、具體的病人分組標準等。具體不清楚的地方可以將鼠標置於

處,會自動彈出該項目的具體含義。

點擊"Draw"進行分析。

分析的結果主要包括兩個方面,一個是數據集的信息。

另外一個則是這個基因預後分析的,生存曲線圖。

上文提到亞組生存分析,其實主要是選擇將要分析的數據類型,例如針對性別、分期、分型等進行分析。比如這裏我們想要看一下男性胃癌患者中TP53的生存狀況。輸入目的基因後,性別選擇男性,點擊繪圖按鈕。

結果如下所示:

除了單基因的分析,如果我們有多個目的基因時,不可能一個個來輸入,該網站可以一次分析多個基因的預後,且可以分析基因間的相關性。點擊主頁面的use multiple genes。

經過分析,就可以一下子得到多個基因各自的生存曲線圖了。

數據庫使用場景

以上就是Kaplan-Meier這個數據庫的主要使用方法了。主要使用場景還是在在腫瘤方面基因相關研究的時候,如果想要查看基因的表達/突變是否影響預後,就可以使用這個數據庫的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章