SPSS（二十）SPSS之生存分析（图文+数据集）

生存分析背景

为什么要使用生存分析而不是使用传统方法，大家可参考（理论介绍的非常详细）

https://wenku.baidu.com/view/453b1a0c26284b73f242336c1eb91a37f11132d2.html

传统方法在分析随访资料时的困难

（随访是指医院对曾在医院就诊的病人以通讯或其他的方式，进行定期了解患者病情变化和指导患者康复的一种观察方法。）

时间和生存结局都成为了要关心的因素

除了生存结局作为判定标准以外，只要能让病人存活时间延长，这种药物也应当是被认为有效的。即时间延长也认为有效
如果将两者均作为因变量拟和多元模型，则时间分布不明（肯定不呈正态分布，在不同情况下的分布规律也不同），拟和多元模型极为困难

存在大量失访

失去联系（病人搬走，电话号码改变）
无法观察到结局（死于其他原因）
研究截止
显然，将失访数据无论是算作死亡还是存活似乎都不大合理

生存分析的主要研究内容

描述生存过程

研究人群生存状态的规律
研究生存率曲线的变动趋势
是人寿保险业的基础

生存过程影响因素分析及结局预测

了解哪些因素会影响生存过程
对生存结局加以预测
在临床中应用的非常广泛

生存分析专业术语

失效事件(Failure event)

也被称为称“死亡”事件或失败事件，表示观察到随访对象出现了我们所规定的结局。失效事件的认定是生存分析的基石，必须绝对准确。失效事件应当由研究目的而决定，并非一定是死亡（如研究灯泡寿命），而死亡也被并非一定是发生了失效事件（如肺癌患者死于其他疾病）。

截尾值（Censored value）

终止随访不是由于失效事件发生，而是无法继续随访下去，常用符号“＋”表示。
生存但中途失访：包括拒绝访问、失去联系或中途退出试验。
死于其它与研究无关的原因：如肺癌患者死于心机梗塞、自杀或因车祸死亡，终止随访时间为死亡时间。
随访截止：随访研究结束时观察对象仍存活。

生存时间（Survival time）

随访观察持续的时间，按失效事件发生或失访前最后一次的随访时间记录，常用符号t表示。
根据失效事件的定义不同，生存时间可以是各种类型的指标，甚至于根本就不是“时间”
从症状缓解到再次恶化
设备从开始使用到失效
汽车的累积行驶里程

生存率（Survival rate）

实际上应当是生存概率，指某个观察对象活过t时刻的概率，常用p(x>t)表示。
根据不同随访资料的失效事件，生存率可以是缓解率、有效率等。

生存分析方法分类

参数法（使用非线性回归来拟合【Nonliner过程】）

（该方法兴起是二战的时候去评价一个新的武器寿命的，这个武器寿命t往往符合某些特定的分布）

首先要求观察的生存时间t服从某一特定的分布，采用估计分布中参数的方法获得生存率p(X>t)的估计值。
生存时间的分布可能为指数分布、Weibull分布、对数正态分布等，这些分布曲线都有相应的生存率函数形式。只需求得相应参数的估计值，即可获得p(X>t)的估计值和曲线。

非参数法（生存寿命表【Life tables过程】和Kaplan-Meier过程）

（比如人的生存t不知是何种分布，参数法就不适用了）

实际工作中，多数生存时间的分布不符合上述所指的分布，就不宜用参数法进行分析，应当用非参数法。
这类方法的检验假设与以往所学的非参数法一样，假设两组或多组的总体生存率曲线分布相同，而不论总体的分布形式和参数如何。
非参数法是随访资料的常用分析方法。

半参数法（Cox Regression过程与Cox w/Time-Dep Cov过程）

（非参数法一般只针对单变量，对于多变量就没办法了）

只规定了影响因素和生存状况间的关系，但是没有对时间（和风险函数）的分布情况加以限定
这种方法主要用于分析生存率的影响因素，属多因素分析方法，其典型方法是Cox比例风险模型

SPSS中的相应模块

Nonliner过程

可以针对任何种类的时间分布加以拟和

Life tables过程

分析分组生存资料，主要用于计算寿命表

Kaplan-Meier过程

用于未分组生存资料

Cox Regression过程

最重要的一个分析方法

Cox w/Time-Dep Cov过程

对比例风险模型的扩展，允许影响因素的影响程度虽时间而变化

参数法案例--Kaplan-Meier方法

是最基本的一种生存分析方法

案例：Prednisolone新药对慢性肝炎疗效的研究

定义失效事件

结果：

两组都有22个人，新药组出现失效事件的有11人，存在删失的案例也为11人，占总体50%

对照组出现失效事件的有16人，存在删失的案例也为6人，占总体27.3%

下面的生存表是每一个案例的生存时间

新药组最快出现失效事件为2个月，累计人数1人，此时生存率为95.5%

到第56个月时候，出现删失，失访，生存率不用重新计算，但是剩余个数少了

均值：新药组平均生存125.264个月，对照组生存平均周期为72.545个月（均值并非简单的均值求和）

中位数:新药组50%的人可以生存146个月，对照组可生存40个月

以图形方式展现出来，更加直观展示

Kaplan-Meier曲线

那这两个到底有没有差别呢？我们在图形中查看发现其是有差别的，检验一下

对数秩：比较注重全局的（使用的比较对）

对数秩:比较注重前半截的

Tarone-Ware:介于对数秩和对数秩中间的一个方法（使用的比较少）

H0：相应两组全时间段无区别，曲线是重叠的

三个检验的Sig.<0.05，拒绝原假设，说明新药组确实和对照组不一样，有明显的积极作用。

Cox比例风险模型

Kaplan-Meier只是研究单因素的

属于半参数模型
与参数模型相比，该模型不能给出各时点的风险率，但对生存时间分布无要求，可估计出各研究因素对风险率的影响，因而应用范围更广。为了纪念Cox的贡献，统计学家把它称为Cox比例风险模型。

相对于logistic来说，其无常数项

我们还是刚才上面的数据做Cox比例风险模型

结果（Cox比例风险模型与逻辑回归模型SPSS结果结构呈现差不多）

块0:由于无常数项，所以拟合了一个无效的模型

-2倍对数似然值：假如加入自变量后模型效果变好，这个值会降低

块1：有自变量，-2倍对数似然值比块0小，说明模型变好了，但是这个变量有没有加入的必要呢？

Sig.<0.05说明自变量有加入的需要，EXP（B）说明在任何时间的情况下，对照组的风险是新药组的两倍（由于Cox比例风险模型假设是任何时间点的情况下风险是等比例的，如何验证其是等比例的呢？可用Cox w/Time-Dep Cov过程，本质就是加入group与时间的交互项，假如有意义就不是任何一个时间点都一样了）