接上篇文章生存分析(1),本文將進一步介紹生存分析中有關生存率的具體算法及其應用
Kaplan-Meier法(K-M法、乘積極限法)
Kaplan-Meier法由Kaplan和Meier於1958年提出,直接用概率乘法定理估計生存率,故稱乘積極限法(product-limit method),是一種非參數法。
1.計算方法
a. 將樣本生存時間T從小到大排列成如表第1欄。若遇到非刪失值和刪失值相同時,非截刪失排在前面。
b. 列出與T相應的死亡人數d,如表第2欄
c. 列出期初病例數n,如表第3欄,即生存期爲某時間時尚存活的病例數
d. 計算活過各時點的生存率P(T>t),計算公式爲
2.標準誤計算
均數的標準誤
爲了表示均數的抽樣誤差大小如何,用的一種指標稱爲均數的標準誤。我們以樣本均數爲變量,求出它們的標準差即可表示其變異程度,所以將樣本均數這“標準差”定名爲均數的標準誤,簡稱標準誤,以區別於通常所說的標準差。標準差表示個體值的散佈情形,而標準誤則說明樣本均數的參差情況,兩者不能混淆。
(具體可參考這裏的介紹)
對於K-M法,標準誤的計算方法有兩種:
<1>
<1>
例數較多時,兩法計算結果相同,但例數逐漸減少,法1的結果偏小,法二的結果偏大。
3.生存率的可信區間
利用正態近似原理,估計總體生存率的可信區間,如95%置信度
上表中存活時間大於30天,生存率的95%可信區間爲
4.單因素分析(log-rank test)
對數秩檢驗(log-rank test)
屬於非參數檢驗,用於比較兩組或多組生存曲線或生存時間是否相同
檢驗統計量爲卡方
自由度=組數-1
其中A爲觀察死亡數,T爲理論死亡數。當有T<5時,用下式進行校正
計算完卡方值,查表得到P值,可得到推斷結論
具體而言,首先將數據按如下形式組織:
將A、B兩組的生存天數混在一起從小到大排序放在第二列,第一列是對應的組別,其他按表中給的填入
如此便可以得到A、B兩組各自的合計理論死亡數,和實際死亡數(注意刪失數據不參與計算),分別帶入公式計算卡方即可
K-M方法提供三種假設檢驗分別是
Log-rank檢驗、Breslow檢驗和Tarone Ware檢驗
三者都是構造卡方檢驗量,具體比較如下:
更爲具體的內容可參考這兒
當數據量較小(n<=50)且不含刪失數據時,可以選擇Wilcoxon 秩和檢驗,檢驗效果更好。
Wilcoxon 秩和檢驗
核心思想:如果兩個樣本來自相同的整體,那麼秩將大約均勻的分佈在兩個樣本中(秩:將樣本從小到大排序,排名即爲秩)。否則,則有一個樣本獲得較小的秩和,另一個獲得較大的秩和。
計算:
設兩個獨立樣本爲:第一個樣本x的樣本容量爲n1,第二個樣本y的樣本容量爲n2,在容量爲n1+n2的混合樣本(樣本x、y之和)中,x樣本的秩和爲
我們定義
可以知道樣本x在混合之後的秩和最小也是原秩和,即
對樣本y同理,即
根據
因此
接下來我們進行假設檢驗。
假設: x,y樣本來自相同總體
當原假設爲真時,所有的
一個比較實際的方法是,對於每個樣本數大於等於8的大樣本來說,我們可以採用標準正態分佈Z來近似檢驗。
因爲
W_x的方差
如果樣本中存在結,將影響公式中的方差(結:即相同的數據,此時秩會被平分)
按結值調整方差的公式爲:
其中
其中0.5是爲了對離散變量進行連續性修正,對於
算例
x組:11 15 10 18 11 20 24 22 25
y組:13 14 10 8 16 9 17 21
將二者統一如下:
可以看出
H0:兩個樣本的分佈是相同的。標準分佈z值的計算結果爲:
如果設定顯著水平
當然你也可以用第二個樣本的秩和
壽命表法(life table,LT)
生存資料按如下格式準備
1.計算方法
第一列爲人爲時間分組
第二至第四列按列名填入
第五欄校正人數,按公式
期內生存概率即條件生存概率,死亡概率同理計算,但是分母改爲校準人數N
生存率同樣使用乘法定理計算即可
2.標準誤計算
標準誤按如下公式計算
3.生存率可信區間
同K-M法
K-M法與壽命表法比較
1.格式與精確度
K-M法使用患者實際壽命作爲分佈區間,相對更精確
壽命表法採用人爲規定時間段作爲分佈區間,範圍擴大精確度有所下降
2.適用範圍
K-M法更適合於樣本量較少的數據
壽命表法更適合於樣本量較大的數據
(不過,考慮到現在計算能力的強大,一般程度的數據量並不會對計算速度有太大影響)
3.關注點不同
K-M法關注每一個時點的生存率,重視對生存率規律的細緻把握,可以利用K-M的結果去研究影響生存率變化(如曲線的突變點)的影響因素。
壽命表法則更重視對生存規律的總體把握(如各年生存率的情況)。
至此,有關生存分析的非參數研究方法K-M與壽命表法就介紹完了。接下來的一篇文章,將介紹含參數的研究方法—Cox比例風險迴歸模型。