腫瘤基因預後預測數據庫：Kaplan-Meier Plotter

在進行腫瘤相關研究的時候，如果有這個腫瘤的隨訪時間和隨訪的結局，往往都可以進行預後分析。通過預後分析來了解某一個分組(治療方式，基因突變，基因表達高低)是否影響腫瘤患者的預後。那麼如果在基因研究的時候，能夠預測我們這個基因可以影響癌症的預後，那豈不是就說明我這個基因對於腫瘤而言很重要的嘛。由於隨訪數據很難獲得，那我又沒一個用來預測基因預後的數據庫呢？

所以今天小編就來給大家介紹一個非常好用的在線分析生存預後的工具：Kaplan-Meier Plotter（https://kmplot.com/analysis/）。通過名字我們就可以知道，這個網站通過Kaplan-Meier算法來進行預後分析的。它是可以對21種腫瘤（包括乳腺癌、卵巢癌、肺癌及胃癌）超過54000個基因（mRNA, miRNA, 蛋白）進行生存分析。其數據主要來源於GEO、EGA和TCGA。在介紹網站的使用之前，我們先簡單的介紹一下Kaplan Meier的分析過程以便大家更好的理解這個分析方法。

Kaplan-Meier

關於Kaplan-Meier具體的算法過程，具體的我們不做過多的介紹(小編其實也不清楚。。。)。主要還是想說的是這個算法的主要的分析過程的注意事項。

對於預後分析而言，目前常用的還是兩種分析方法，一種是COX迴歸，另外一種也就是Kaplan-Meier。對於COX迴歸而言，這個我們可以分析連續性變量和分類變量和預後的關係。而對於Kaplan-Meier而言。這個變量只能分析分類變量和預後的關係。所以如果我們拿到的是一個連續性變量，例如基因的表達量，我們首先第一步要基於一個cut off值來把這個變量變成分類變量(高低表達)，然後才能進行Kaplan-Meier分析。因此對於一個連續性變量的分組就比較重要了。有時候分組不好還是影響預後分析的結果的。目前來說的，主要還是有三種連續性變量的分組方式。

中位值

中位值的分組方式是最常見的分組方式了，我們基於某一個基因表達的中位值來平均的把基因表達數據分成高低表達來進行分析。

最佳區分

這種方式有一個專業性的詞彙叫做：最大選擇秩統計量。簡單來說的話，由於連續性的變量是可以進行排序的，我們在排序之後，基於每一個現有的數值來進行高低表達劃分。例如下圖，我們有四個變量，分別爲：1、1.5、2、2.5。如果按照每一個數值排序的值進行分組的話，那就可以獲得三種分組。基於這三組我們分別做Kaplan-Meier分析，然後看哪個結果更好。然後就選擇哪種分組。

PS：在上面我們可以看到，其實中位值的分組也在裏面，其實通過這個方法也可以把中位值的選擇包括在裏面的。對於最佳區分發而言，容易造成某一個分組樣本特別少的時候結果有意義，這樣的話，結果偏倚就比較大了。所以在進行最佳區分的時候，最後設置一個最小分組是多少。

三分法比較

以上兩種方法，都是基於整個表達數據而言的。由於即使使用最佳區分，有時候分組之間的表達差異其實也沒那麼大，這個時候我們所謂的高低表達也不是很準確的。所以爲了解決這種問題，就有了三分法的分組方法。這種分組方法把數據基於大小分成三分(低高中表達)，然後取低表達和高表達組來進行預後分析。這樣的分析方法，相當於去掉了中間的表達量，讓表達有一個明顯的區分，進而看錶達是否影響基因的預後。

以上就是關於Kaplan-Meier分析的幾個要點。下面來介紹一下這個文章的使用吧。

數據庫使用

根據官網地址，打開後主頁面如下：

根據上圖我們可以發現，該網站的數據類型包括芯片數據、高通量測序數據，涉及mRNA、miRNA、蛋白和DNA，並且在不斷豐富之中。

PS: 其中，在DNA方面這個數據庫分析的是某一個基因的突變對於預後的影響。由於突變也就分成有沒有這樣的類型，所以不涉及到我們上面講到的數據分組的問題。其他的由於都是連續性變量，所以都會涉及到數據分組的文章。

至於具體如何操作使用，很簡單。首先我們要有目的基因，明確分析的癌症類型。比如這裏我們想探討基因TP53在胃癌患者中的生存情況。可以發現，在mRNA RNA-seq當中的pan是有胃癌預後數據庫的(基於TCGA)。同時在mRNA 芯片當中也是有數據的。這裏我們利用gene chip數據進行生存分析。我們可以直接點擊下圖中紅色方框位置或在搜索欄內進行點擊胃癌。