生存分析(2)

接上篇文章生存分析(1),本文將進一步介紹生存分析中有關生存率的具體算法及其應用

Kaplan-Meier法(K-M法、乘積極限法)

Kaplan-Meier法由Kaplan和Meier於1958年提出,直接用概率乘法定理估計生存率,故稱乘積極限法(product-limit method),是一種非參數法
這裏寫圖片描述

1.計算方法

a. 將樣本生存時間T從小到大排列成如表第1欄。若遇到非刪失值和刪失值相同時,非截刪失排在前面。
b. 列出與T相應的死亡人數d,如表第2欄
c. 列出期初病例數n,如表第3欄,即生存期爲某時間時尚存活的病例數
d. 計算活過各時點的生存率P(T>t),計算公式爲

P(T>t)=p=ndn
2.標準誤計算

均數的標準誤
爲了表示均數的抽樣誤差大小如何,用的一種指標稱爲均數的標準誤。我們以樣本均數爲變量,求出它們的標準差即可表示其變異程度,所以將樣本均數這“標準差”定名爲均數的標準誤,簡稱標準誤,以區別於通常所說的標準差。標準差表示個體值的散佈情形,而標準誤則說明樣本均數的參差情況,兩者不能混淆。
具體可參考這裏的介紹

對於K-M法,標準誤的計算方法有兩種:
<1>Sp(T>t)=P(T>t)d(nd)n

<1>Sp(T>t)=P(T>t)1P(t>t)nd

例數較多時,兩法計算結果相同,但例數逐漸減少,法1的結果偏小,法二的結果偏大。

3.生存率的可信區間

利用正態近似原理,估計總體生存率的可信區間,如95%置信度

=P(T>t)±1.96Sp(T>t)

上表中存活時間大於30天,生存率的95%可信區間爲
P(T>30)±1.96×0.1107=(0.4646,0.8486)
4.單因素分析(log-rank test)

對數秩檢驗(log-rank test)
屬於非參數檢驗,用於比較兩組或多組生存曲線或生存時間是否相同
檢驗統計量爲卡方 χ2
自由度=組數-1

χ2=(AT)2T

其中A爲觀察死亡數,T爲理論死亡數。當有T<5時,用下式進行校正
χ2=(|AT|0.5)2T

計算完卡方值,查表得到P值,可得到推斷結論
具體而言,首先將數據按如下形式組織:

這裏寫圖片描述

將A、B兩組的生存天數混在一起從小到大排序放在第二列,第一列是對應的組別,其他按表中給的填入
如此便可以得到A、B兩組各自的合計理論死亡數,和實際死亡數(注意刪失數據不參與計算),分別帶入公式計算卡方即可

K-M方法提供三種假設檢驗分別是
Log-rank檢驗、Breslow檢驗和Tarone Ware檢驗
三者都是構造卡方檢驗量,具體比較如下:
這裏寫圖片描述
更爲具體的內容可參考這兒


當數據量較小(n<=50)且不含刪失數據時,可以選擇Wilcoxon 秩和檢驗,檢驗效果更好。

Wilcoxon 秩和檢驗
核心思想:如果兩個樣本來自相同的整體,那麼秩將大約均勻的分佈在兩個樣本中(秩:將樣本從小到大排序,排名即爲秩)。否則,則有一個樣本獲得較小的秩和,另一個獲得較大的秩和。

計算:
設兩個獨立樣本爲:第一個樣本x的樣本容量爲n1,第二個樣本y的樣本容量爲n2,在容量爲n1+n2的混合樣本(樣本x、y之和)中,x樣本的秩和爲Wx ,y樣本的秩和爲Wy ,且有

Wx+Wy=1+2++n=n(n+1)2

我們定義
W1=Wxn1(n1+1)2=xx
W2=Wyn2(n2+1)2=yy

可以知道樣本x在混合之後的秩和最小也是原秩和,即
min(Wx)=n1(n1+1)2
對樣本y同理,即
min(Wy)=n2(n2+1)2

根據WxWy 的關係可知,最大秩和爲
max(Wx)=n(n+1)2n2(n2+1)2
max(Wy)=n(n+1)2n1(n1+1)2

因此W1W2 的取值範圍均爲:
[0,n(n+1)2n1(n1+1)2n2(n2+1)2]=[0,n1n2]

接下來我們進行假設檢驗。

假設: x,y樣本來自相同總體
當原假設爲真時,所有的xiyi 相當於從同一總體中抽得的獨立隨機樣本,xiyi 構成可分辨的排列情況,可看成一排n個球隨機地指定n1 個爲x球另n2 個爲y球,共有Cn1n 種可能,而且它們是等可能的。基於這樣分析,在原假設爲真的條件下不難求出W1W2 的概率分佈,顯然它們的分佈還是相同的,這個分佈稱爲樣本大小爲n1n2 的Mann-Whitney-Wilcoxon分佈

一個比較實際的方法是,對於每個樣本數大於等於8的大樣本來說,我們可以採用標準正態分佈Z來近似檢驗。
因爲W1 的中心點爲n1n22 ,所以Wx 的中心點爲

μ=n1n22+n1(n1+1)2=n1(n1+n2+1)2

W_x的方差σ2 從數學上可推導出
σ2=n1n2(n1+n2+1)12

如果樣本中存在結,將影響公式中的方差(結:即相同的數據,此時秩會被平分)
按結值調整方差的公式爲:

σ2=n1n2(n1+n2+1)12n1n2((τ3jτj)12(n1+n2)(n1+n21)

其中τj 爲第j 個結的個數。結值的存在將使原方差變小,這是一個顯然正確的事實。標準化後Wx
z=Wxμ±0.5σ=Wxn1(n1+n2+1)2±0.5n1n2(n1+n2+1)12n1n2(τ3jτ)12(n1+n2)(n1+n21)N(0,1)

其中0.5是爲了對離散變量進行連續性修正,對於Wxμ>0 減0.5修正,反之加0.5修正。

算例
x組:11 15 10 18 11 20 24 22 25
y組:13 14 10 8 16 9 17 21
將二者統一如下:

這裏寫圖片描述

可以看出n1=9n2 =8,Wx =96.5,Wy =56.5.
H0:兩個樣本的分佈是相同的。標準分佈z值的計算結果爲:

z=96.59(9+8+1)20.59×8(9+8+1)129×8(82+82)12(9+8)(9+91)=1.44515

如果設定顯著水平α=0.05 ,我們知道標準正態分佈在0.05顯著水平時,上臨界值爲1.645,下下臨界值爲-1.645,由1.445<1.645,所以不能拒絕原假設。
當然你也可以用第二個樣本的秩和Wy 來計算標準正態分佈,此時要注意公式中的n1n2 發生對換。

壽命表法(life table,LT)

生存資料按如下格式準備
這裏寫圖片描述

1.計算方法

第一列爲人爲時間分組
第二至第四列按列名填入
第五欄校正人數,按公式N=LW2
期內生存概率即條件生存概率,死亡概率同理計算,但是分母改爲校準人數N
生存率同樣使用乘法定理計算即可

2.標準誤計算

標準誤按如下公式計算

Sp(T>n)=p(T>n)qpN
3.生存率可信區間

同K-M法

K-M法與壽命表法比較

1.格式與精確度
K-M法使用患者實際壽命作爲分佈區間,相對更精確
壽命表法採用人爲規定時間段作爲分佈區間,範圍擴大精確度有所下降

2.適用範圍
K-M法更適合於樣本量較少的數據
壽命表法更適合於樣本量較大的數據
(不過,考慮到現在計算能力的強大,一般程度的數據量並不會對計算速度有太大影響)

3.關注點不同
K-M法關注每一個時點的生存率,重視對生存率規律的細緻把握,可以利用K-M的結果去研究影響生存率變化(如曲線的突變點)的影響因素。
壽命表法則更重視對生存規律的總體把握(如各年生存率的情況)。

至此,有關生存分析的非參數研究方法K-M與壽命表法就介紹完了。接下來的一篇文章,將介紹含參數的研究方法—Cox比例風險迴歸模型

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章