SPSS（二十）SPSS之生存分析（圖文+數據集）

生存分析背景

爲什麼要使用生存分析而不是使用傳統方法，大家可參考（理論介紹的非常詳細）

https://wenku.baidu.com/view/453b1a0c26284b73f242336c1eb91a37f11132d2.html

傳統方法在分析隨訪資料時的困難

（隨訪是指醫院對曾在醫院就診的病人以通訊或其他的方式，進行定期瞭解患者病情變化和指導患者康復的一種觀察方法。）

時間和生存結局都成爲了要關心的因素

除了生存結局作爲判定標準以外，只要能讓病人存活時間延長，這種藥物也應當是被認爲有效的。即時間延長也認爲有效
如果將兩者均作爲因變量擬和多元模型，則時間分佈不明（肯定不呈正態分佈，在不同情況下的分佈規律也不同），擬和多元模型極爲困難

存在大量失訪

失去聯繫（病人搬走，電話號碼改變）
無法觀察到結局（死於其他原因）
研究截止
顯然，將失訪數據無論是算作死亡還是存活似乎都不大合理

生存分析的主要研究內容

描述生存過程

研究人羣生存狀態的規律
研究生存率曲線的變動趨勢
是人壽保險業的基礎

生存過程影響因素分析及結局預測

瞭解哪些因素會影響生存過程
對生存結局加以預測
在臨牀中應用的非常廣泛

生存分析專業術語

失效事件(Failure event)

也被稱爲稱“死亡”事件或失敗事件，表示觀察到隨訪對象出現了我們所規定的結局。失效事件的認定是生存分析的基石，必須絕對準確。失效事件應當由研究目的而決定，並非一定是死亡（如研究燈泡壽命），而死亡也被並非一定是發生了失效事件（如肺癌患者死於其他疾病）。

截尾值（Censored value）

終止隨訪不是由於失效事件發生，而是無法繼續隨訪下去，常用符號“＋”表示。
生存但中途失訪：包括拒絕訪問、失去聯繫或中途退出試驗。
死於其它與研究無關的原因：如肺癌患者死於心機梗塞、自殺或因車禍死亡，終止隨訪時間爲死亡時間。
隨訪截止：隨訪研究結束時觀察對象仍存活。

生存時間（Survival time）

隨訪觀察持續的時間，按失效事件發生或失訪前最後一次的隨訪時間記錄，常用符號t表示。
根據失效事件的定義不同，生存時間可以是各種類型的指標，甚至於根本就不是“時間”
從症狀緩解到再次惡化
設備從開始使用到失效
汽車的累積行駛里程

生存率（Survival rate）

實際上應當是生存概率，指某個觀察對象活過t時刻的概率，常用p(x>t)表示。
根據不同隨訪資料的失效事件，生存率可以是緩解率、有效率等。

生存分析方法分類

參數法（使用非線性迴歸來擬合【Nonliner過程】）

（該方法興起是二戰的時候去評價一個新的武器壽命的，這個武器壽命t往往符合某些特定的分佈）

首先要求觀察的生存時間t服從某一特定的分佈，採用估計分佈中參數的方法獲得生存率p(X>t)的估計值。
生存時間的分佈可能爲指數分佈、Weibull分佈、對數正態分佈等，這些分佈曲線都有相應的生存率函數形式。只需求得相應參數的估計值，即可獲得p(X>t)的估計值和曲線。

非參數法（生存壽命表【Life tables過程】和Kaplan-Meier過程）

（比如人的生存t不知是何種分佈，參數法就不適用了）

實際工作中，多數生存時間的分佈不符合上述所指的分佈，就不宜用參數法進行分析，應當用非參數法。
這類方法的檢驗假設與以往所學的非參數法一樣，假設兩組或多組的總體生存率曲線分佈相同，而不論總體的分佈形式和參數如何。
非參數法是隨訪資料的常用分析方法。

半參數法（Cox Regression過程與Cox w/Time-Dep Cov過程）

（非參數法一般只針對單變量，對於多變量就沒辦法了）

只規定了影響因素和生存狀況間的關係，但是沒有對時間（和風險函數）的分佈情況加以限定
這種方法主要用於分析生存率的影響因素，屬多因素分析方法，其典型方法是Cox比例風險模型

SPSS中的相應模塊

Nonliner過程

可以針對任何種類的時間分佈加以擬和

Life tables過程

分析分組生存資料，主要用於計算壽命表

Kaplan-Meier過程

用於未分組生存資料

Cox Regression過程

最重要的一個分析方法

Cox w/Time-Dep Cov過程

對比例風險模型的擴展，允許影響因素的影響程度雖時間而變化

參數法案例--Kaplan-Meier方法

是最基本的一種生存分析方法

案例：Prednisolone新藥對慢性肝炎療效的研究

定義失效事件

結果：

兩組都有22個人，新藥組出現失效事件的有11人，存在刪失的案例也爲11人，佔總體50%

對照組出現失效事件的有16人，存在刪失的案例也爲6人，佔總體27.3%

下面的生存表是每一個案例的生存時間

新藥組最快出現失效事件爲2個月，累計人數1人，此時生存率爲95.5%

到第56個月時候，出現刪失，失訪，生存率不用重新計算，但是剩餘個數少了

均值：新藥組平均生存125.264個月，對照組生存平均週期爲72.545個月（均值並非簡單的均值求和）

中位數:新藥組50%的人可以生存146個月，對照組可生存40個月

以圖形方式展現出來，更加直觀展示

Kaplan-Meier曲線

那這兩個到底有沒有差別呢？我們在圖形中查看發現其是有差別的，檢驗一下

對數秩：比較注重全局的（使用的比較對）

對數秩:比較注重前半截的

Tarone-Ware:介於對數秩和對數秩中間的一個方法（使用的比較少）

H0：相應兩組全時間段無區別，曲線是重疊的

三個檢驗的Sig.<0.05，拒絕原假設，說明新藥組確實和對照組不一樣，有明顯的積極作用。

Cox比例風險模型

Kaplan-Meier只是研究單因素的

屬於半參數模型
與參數模型相比，該模型不能給出各時點的風險率，但對生存時間分佈無要求，可估計出各研究因素對風險率的影響，因而應用範圍更廣。爲了紀念Cox的貢獻，統計學家把它稱爲Cox比例風險模型。

相對於logistic來說，其無常數項

我們還是剛纔上面的數據做Cox比例風險模型

結果（Cox比例風險模型與邏輯迴歸模型SPSS結果結構呈現差不多）

塊0:由於無常數項，所以擬合了一個無效的模型

-2倍對數似然值：假如加入自變量後模型效果變好，這個值會降低

塊1：有自變量，-2倍對數似然值比塊0小，說明模型變好了，但是這個變量有沒有加入的必要呢？

Sig.<0.05說明自變量有加入的需要，EXP（B）說明在任何時間的情況下，對照組的風險是新藥組的兩倍（由於Cox比例風險模型假設是任何時間點的情況下風險是等比例的，如何驗證其是等比例的呢？可用Cox w/Time-Dep Cov過程，本質就是加入group與時間的交互項，假如有意義就不是任何一個時間點都一樣了）