生存分析（2）

接上篇文章生存分析（1），本文將進一步介紹生存分析中有關生存率的具體算法及其應用

Kaplan-Meier法（K-M法、乘積極限法）

Kaplan-Meier法由Kaplan和Meier於1958年提出，直接用概率乘法定理估計生存率，故稱乘積極限法（product-limit method），是一種非參數法。

1.計算方法

a. 將樣本生存時間T從小到大排列成如表第1欄。若遇到非刪失值和刪失值相同時，非截刪失排在前面。
b. 列出與T相應的死亡人數d，如表第2欄
c. 列出期初病例數n,如表第3欄，即生存期爲某時間時尚存活的病例數
d. 計算活過各時點的生存率P（T>t），計算公式爲

P (T > t) = \prod p = \prod n - d n

2.標準誤計算

均數的標準誤
爲了表示均數的抽樣誤差大小如何，用的一種指標稱爲均數的標準誤。我們以樣本均數爲變量，求出它們的標準差即可表示其變異程度，所以將樣本均數這“標準差”定名爲均數的標準誤，簡稱標準誤，以區別於通常所說的標準差。標準差表示個體值的散佈情形，而標準誤則說明樣本均數的參差情況，兩者不能混淆。
（具體可參考這裏的介紹）

對於K-M法，標準誤的計算方法有兩種：
<1>Sp(T>t)=P(T>t)∑d(n−d)n−−−−−−−√

<1>Sp(T>t)=P(T>t)1−P(t>t)n−d−−−−−−−√

例數較多時，兩法計算結果相同，但例數逐漸減少，法1的結果偏小，法二的結果偏大。

3.生存率的可信區間

利用正態近似原理，估計總體生存率的可信區間,如95%置信度

可 信 區 間 = P (T > t) \pm 1.96 S p (T > t)

上表中存活時間大於30天，生存率的95%可信區間爲

P (T > 30) \pm 1.96 \times 0.1107 = (0.4646, 0.8486)

4.單因素分析（log-rank test）

對數秩檢驗（log-rank test）
屬於非參數檢驗，用於比較兩組或多組生存曲線或生存時間是否相同
檢驗統計量爲卡方 χ2
自由度=組數-1

χ 2 = \sum ( A - T ) 2 T

其中A爲觀察死亡數，T爲理論死亡數。當有T<5時，用下式進行校正

χ 2 = \sum ( | A - T | - 0.5 ) 2 T

計算完卡方值，查表得到P值，可得到推斷結論
具體而言，首先將數據按如下形式組織：

將A、B兩組的生存天數混在一起從小到大排序放在第二列，第一列是對應的組別，其他按表中給的填入
如此便可以得到A、B兩組各自的合計理論死亡數，和實際死亡數（注意刪失數據不參與計算），分別帶入公式計算卡方即可

K-M方法提供三種假設檢驗分別是
Log-rank檢驗、Breslow檢驗和Tarone Ware檢驗
三者都是構造卡方檢驗量，具體比較如下：

更爲具體的內容可參考這兒

當數據量較小（n<=50）且不含刪失數據時，可以選擇Wilcoxon 秩和檢驗，檢驗效果更好。

Wilcoxon 秩和檢驗
核心思想：如果兩個樣本來自相同的整體，那麼秩將大約均勻的分佈在兩個樣本中（秩：將樣本從小到大排序，排名即爲秩）。否則，則有一個樣本獲得較小的秩和，另一個獲得較大的秩和。

計算：
設兩個獨立樣本爲：第一個樣本x的樣本容量爲n1，第二個樣本y的樣本容量爲n2，在容量爲n1+n2的混合樣本（樣本x、y之和）中，x樣本的秩和爲Wx ，y樣本的秩和爲Wy ，且有

W x + W y = 1 + 2 + \dots + n = n ( n + 1 ) 2

我們定義

W1=Wx−n1(n1+1)2=x統一秩和−x原秩和

W2=Wy−n2(n2+1)2=y統一秩和−y原秩和

可以知道樣本x在混合之後的秩和最小也是原秩和，即
min(Wx)=n1(n1+1)2
對樣本y同理，即
min(Wy)=n2(n2+1)2

根據Wx 和Wy 的關係可知，最大秩和爲
max(Wx)=n(n+1)2−n2(n2+1)2
max(Wy)=n(n+1)2−n1(n1+1)2

因此W1 和W2 的取值範圍均爲：
[0,n(n+1)2−n1(n1+1)2−n2(n2+1)2]=[0,n1n2]

接下來我們進行假設檢驗。

假設： x，y樣本來自相同總體
當原假設爲真時，所有的xi 和yi 相當於從同一總體中抽得的獨立隨機樣本，xi 和yi 構成可分辨的排列情況，可看成一排n個球隨機地指定n1 個爲x球另n2 個爲y球，共有Cn1n 種可能，而且它們是等可能的。基於這樣分析，在原假設爲真的條件下不難求出W1 和W2 的概率分佈，顯然它們的分佈還是相同的，這個分佈稱爲樣本大小爲n1 和n2 的Mann-Whitney-Wilcoxon分佈

一個比較實際的方法是，對於每個樣本數大於等於8的大樣本來說，我們可以採用標準正態分佈Z來近似檢驗。
因爲W1 的中心點爲n1n22 ，所以Wx 的中心點爲

μ = n 1 n 2 2 + n 1 ( n 1 + 1 ) 2 = n 1 ( n 1 + n 2 + 1 ) 2

W_x的方差

σ2 從數學上可推導出

σ 2 = n 1 n 2 ( n 1 + n 2 + 1 ) 12

如果樣本中存在結，將影響公式中的方差（結：即相同的數據，此時秩會被平分）
按結值調整方差的公式爲：

σ 2 = n 1 n 2 ( n 1 + n 2 + 1 ) 12 - n 1 n 2 ( \sum ( τ 3 j - τ j ) 12 ( n 1 + n 2 ) ( n 1 + n 2 - 1 )

其中

τj 爲第

j 個結的個數。結值的存在將使原方差變小，這是一個顯然正確的事實。標準化後

Wx 爲

z = W x - μ \pm 0.5 σ = W x - n 1 ( n 1 + n 2 + 1 ) 2 \pm 0.5 n 1 n 2 ( n 1 + n 2 + 1 ) 12 - n 1 n 2 \sum ( τ 3 j - τ ) 12 ( n 1 + n 2 ) ( n 1 + n 2 - 1 ) - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt \sim N (0, 1)

其中0.5是爲了對離散變量進行連續性修正，對於

Wx−μ>0 減0.5修正，反之加0.5修正。

算例
x組：11 15 10 18 11 20 24 22 25
y組：13 14 10 8 16 9 17 21
將二者統一如下：

可以看出n1=9 ，n2 =8，Wx =96.5，Wy =56.5.
H0:兩個樣本的分佈是相同的。標準分佈z值的計算結果爲：

z = 96.5 - 9 ( 9 + 8 + 1 ) 2 - 0.5 9 \times 8 ( 9 + 8 + 1 ) 12 - 9 \times 8 ( 8 - 2 + 8 - 2 ) 12 ( 9 + 8 ) ( 9 + 9 - 1 ) - - - - - - - - - - - - - - - - - - - - - \sqrt = 1.44515

如果設定顯著水平

α=0.05 ，我們知道標準正態分佈在0.05顯著水平時，上臨界值爲1.645，下下臨界值爲-1.645，由1.445<1.645，所以不能拒絕原假設。
當然你也可以用第二個樣本的秩和

Wy 來計算標準正態分佈，此時要注意公式中的

n1 和

n2 發生對換。

壽命表法（life table，LT）

生存資料按如下格式準備

1.計算方法

第一列爲人爲時間分組
第二至第四列按列名填入
第五欄校正人數，按公式N=L−W2
期內生存概率即條件生存概率，死亡概率同理計算，但是分母改爲校準人數N
生存率同樣使用乘法定理計算即可

2.標準誤計算

標準誤按如下公式計算

S p (T > n) = p (T > n) \sum q p N - - - - - - - \sqrt

3.生存率可信區間

同K-M法

K-M法與壽命表法比較

1.格式與精確度
K-M法使用患者實際壽命作爲分佈區間，相對更精確
壽命表法採用人爲規定時間段作爲分佈區間，範圍擴大精確度有所下降

2.適用範圍
K-M法更適合於樣本量較少的數據
壽命表法更適合於樣本量較大的數據
（不過，考慮到現在計算能力的強大，一般程度的數據量並不會對計算速度有太大影響）

3.關注點不同
K-M法關注每一個時點的生存率，重視對生存率規律的細緻把握，可以利用K-M的結果去研究影響生存率變化（如曲線的突變點）的影響因素。
壽命表法則更重視對生存規律的總體把握（如各年生存率的情況）。

至此，有關生存分析的非參數研究方法K-M與壽命表法就介紹完了。接下來的一篇文章，將介紹含參數的研究方法—Cox比例風險迴歸模型。

生存分析（2）

Kaplan-Meier法（K-M法、乘積極限法）

1.計算方法

2.標準誤計算

3.生存率的可信區間

4.單因素分析（log-rank test）

壽命表法（life table，LT）

1.計算方法

2.標準誤計算

3.生存率可信區間

K-M法與壽命表法比較

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

R語言-數據框取列

ID3決策樹（Java實現）

生存分析（2）

R語言-生存分析

生存分析（3）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結