SPSS(二十)SPSS之生存分析(圖文+數據集)
生存分析背景
爲什麼要使用生存分析而不是使用傳統方法,大家可參考(理論介紹的非常詳細)
https://wenku.baidu.com/view/453b1a0c26284b73f242336c1eb91a37f11132d2.html
傳統方法在分析隨訪資料時的困難
(隨訪是指醫院對曾在醫院就診的病人以通訊或其他的方式,進行定期瞭解患者病情變化和指導患者康復的一種觀察方法。)
- 時間和生存結局都成爲了要關心的因素
除了生存結局作爲判定標準以外,只要能讓病人存活時間延長,這種藥物也應當是被認爲有效的。即時間延長也認爲有效
如果將兩者均作爲因變量擬和多元模型,則時間分佈不明(肯定不呈正態分佈,在不同情況下的分佈規律也不同),擬和多元模型極爲困難
- 存在大量失訪
失去聯繫(病人搬走,電話號碼改變)
無法觀察到結局(死於其他原因)
研究截止
顯然,將失訪數據無論是算作死亡還是存活似乎都不大合理
生存分析的主要研究內容
- 描述生存過程
研究人羣生存狀態的規律
研究生存率曲線的變動趨勢
是人壽保險業的基礎
- 生存過程影響因素分析及結局預測
瞭解哪些因素會影響生存過程
對生存結局加以預測
在臨牀中應用的非常廣泛
生存分析專業術語
- 失效事件(Failure event)
也被稱爲稱“死亡”事件或失敗事件,表示觀察到隨訪對象出現了我們所規定的結局。失效事件的認定是生存分析的基石,必須絕對準確。失效事件應當由研究目的而決定,並非一定是死亡(如研究燈泡壽命),而死亡也被並非一定是發生了失效事件(如肺癌患者死於其他疾病)。
- 截尾值(Censored value)
終止隨訪不是由於失效事件發生,而是無法繼續隨訪下去,常用符號“+”表示。
生存但中途失訪:包括拒絕訪問、失去聯繫或中途退出試驗。
死於其它與研究無關的原因:如肺癌患者死於心機梗塞、自殺或因車禍死亡,終止隨訪時間爲死亡時間。
隨訪截止:隨訪研究結束時觀察對象仍存活。
- 生存時間(Survival time)
隨訪觀察持續的時間,按失效事件發生或失訪前最後一次的隨訪時間記錄,常用符號t表示。
根據失效事件的定義不同,生存時間可以是各種類型的指標,甚至於根本就不是“時間”
從症狀緩解到再次惡化
設備從開始使用到失效
汽車的累積行駛里程
- 生存率(Survival rate)
實際上應當是生存概率,指某個觀察對象活過t時刻的概率,常用p(x>t)表示。
根據不同隨訪資料的失效事件,生存率可以是緩解率、有效率等。
生存分析方法分類
- 參數法(使用非線性迴歸來擬合【Nonliner過程】)
(該方法興起是二戰的時候去評價一個新的武器壽命的,這個武器壽命t往往符合某些特定的分佈)
首先要求觀察的生存時間t服從某一特定的分佈,採用估計分佈中參數的方法獲得生存率p(X>t)的估計值。
生存時間的分佈可能爲指數分佈、Weibull分佈、對數正態分佈等,這些分佈曲線都有相應的生存率函數形式。只需求得相應參數的估計值,即可獲得p(X>t)的估計值和曲線。
- 非參數法(生存壽命表【Life tables過程】和Kaplan-Meier過程)
(比如人的生存t不知是何種分佈,參數法就不適用了)
實際工作中,多數生存時間的分佈不符合上述所指的分佈,就不宜用參數法進行分析,應當用非參數法。
這類方法的檢驗假設與以往所學的非參數法一樣,假設兩組或多組的總體生存率曲線分佈相同,而不論總體的分佈形式和參數如何。
非參數法是隨訪資料的常用分析方法。
- 半參數法(Cox Regression過程與Cox w/Time-Dep Cov過程)
(非參數法一般只針對單變量,對於多變量就沒辦法了)
只規定了影響因素和生存狀況間的關係,但是沒有對時間(和風險函數)的分佈情況加以限定
這種方法主要用於分析生存率的影響因素,屬多因素分析方法,其典型方法是Cox比例風險模型
SPSS中的相應模塊
- Nonliner過程
可以針對任何種類的時間分佈加以擬和
- Life tables過程
分析分組生存資料,主要用於計算壽命表
- Kaplan-Meier過程
用於未分組生存資料
- Cox Regression過程
最重要的一個分析方法
- Cox w/Time-Dep Cov過程
對比例風險模型的擴展,允許影響因素的影響程度雖時間而變化
參數法案例--Kaplan-Meier方法
是最基本的一種生存分析方法
案例:Prednisolone新藥對慢性肝炎療效的研究
2 0 1
6 0 1
12 0 1
54 0 1
56 1 1
68 0 1
89 0 1
96 0 1
96 0 1
125 2 1
128 2 1
131 2 1
140 2 1
141 2 1
143 0 1
145 2 1
146 0 1
148 2 1
162 2 1
168 0 1
173 2 1
181 2 1
2 0 2
3 0 2
4 0 2
7 0 2
10 0 2
22 0 2
28 0 2
29 0 2
32 0 2
37 0 2
40 0 2
41 0 2
54 0 2
61 0 2
63 0 2
71 0 2
127 2 2
140 2 2
146 2 2
158 2 2
167 2 2
182 2 2
定義失效事件
結果:
兩組都有22個人,新藥組出現失效事件的有11人,存在刪失的案例也爲11人,佔總體50%
對照組出現失效事件的有16人,存在刪失的案例也爲6人,佔總體27.3%
下面的生存表是每一個案例的生存時間
新藥組最快出現失效事件爲2個月,累計人數1人,此時生存率爲95.5%
到第56個月時候,出現刪失,失訪,生存率不用重新計算,但是剩餘個數少了
均值:新藥組平均生存125.264個月,對照組生存平均週期爲72.545個月(均值並非簡單的均值求和)
中位數:新藥組50%的人可以生存146個月,對照組可生存40個月
以圖形方式展現出來,更加直觀展示
Kaplan-Meier曲線
那這兩個到底有沒有差別呢?我們在圖形中查看發現其是有差別的,檢驗一下
對數秩:比較注重全局的(使用的比較對)
對數秩:比較注重前半截的
Tarone-Ware:介於對數秩和對數秩中間的一個方法(使用的比較少)
H0:相應兩組全時間段無區別,曲線是重疊的
三個檢驗的Sig.<0.05,拒絕原假設,說明新藥組確實和對照組不一樣,有明顯的積極作用。
Cox比例風險模型
Kaplan-Meier只是研究單因素的
屬於半參數模型
與參數模型相比,該模型不能給出各時點的風險率,但對生存時間分佈無要求,可估計出各研究因素對風險率的影響,因而應用範圍更廣。爲了紀念Cox的貢獻,統計學家把它稱爲Cox比例風險模型。
相對於logistic來說,其無常數項
我們還是剛纔上面的數據做Cox比例風險模型
結果(Cox比例風險模型與邏輯迴歸模型SPSS結果結構呈現差不多)
塊0:由於無常數項,所以擬合了一個無效的模型
-2倍對數似然值:假如加入自變量後模型效果變好,這個值會降低
塊1:有自變量,-2倍對數似然值比塊0小,說明模型變好了,但是這個變量有沒有加入的必要呢?
Sig.<0.05說明自變量有加入的需要,EXP(B)說明在任何時間的情況下,對照組的風險是新藥組的兩倍(由於Cox比例風險模型假設是任何時間點的情況下風險是等比例的,如何驗證其是等比例的呢?可用Cox w/Time-Dep Cov過程,本質就是加入group與時間的交互項,假如有意義就不是任何一個時間點都一樣了)
用圖形展示出來呢?
這是把group平均起來的曲線,假如想分開畫呢?
這些都是按照模型估計出來的,並非原始的值做的圖
邏輯迴歸與生存分析怎麼選擇?
邏輯迴歸比較關注單點的比較,5年、10年
生存分析全程都關注,而且對生存分析來說結局和時間都非常重要