SPSS(二十)SPSS之生存分析(图文+数据集)
生存分析背景
为什么要使用生存分析而不是使用传统方法,大家可参考(理论介绍的非常详细)
https://wenku.baidu.com/view/453b1a0c26284b73f242336c1eb91a37f11132d2.html
传统方法在分析随访资料时的困难
(随访是指医院对曾在医院就诊的病人以通讯或其他的方式,进行定期了解患者病情变化和指导患者康复的一种观察方法。)
- 时间和生存结局都成为了要关心的因素
除了生存结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当是被认为有效的。即时间延长也认为有效
如果将两者均作为因变量拟和多元模型,则时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难
- 存在大量失访
失去联系(病人搬走,电话号码改变)
无法观察到结局(死于其他原因)
研究截止
显然,将失访数据无论是算作死亡还是存活似乎都不大合理
生存分析的主要研究内容
- 描述生存过程
研究人群生存状态的规律
研究生存率曲线的变动趋势
是人寿保险业的基础
- 生存过程影响因素分析及结局预测
了解哪些因素会影响生存过程
对生存结局加以预测
在临床中应用的非常广泛
生存分析专业术语
- 失效事件(Failure event)
也被称为称“死亡”事件或失败事件,表示观察到随访对象出现了我们所规定的结局。失效事件的认定是生存分析的基石,必须绝对准确。失效事件应当由研究目的而决定,并非一定是死亡(如研究灯泡寿命),而死亡也被并非一定是发生了失效事件(如肺癌患者死于其他疾病)。
- 截尾值(Censored value)
终止随访不是由于失效事件发生,而是无法继续随访下去,常用符号“+”表示。
生存但中途失访:包括拒绝访问、失去联系或中途退出试验。
死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。
随访截止:随访研究结束时观察对象仍存活。
- 生存时间(Survival time)
随访观察持续的时间,按失效事件发生或失访前最后一次的随访时间记录,常用符号t表示。
根据失效事件的定义不同,生存时间可以是各种类型的指标,甚至于根本就不是“时间”
从症状缓解到再次恶化
设备从开始使用到失效
汽车的累积行驶里程
- 生存率(Survival rate)
实际上应当是生存概率,指某个观察对象活过t时刻的概率,常用p(x>t)表示。
根据不同随访资料的失效事件,生存率可以是缓解率、有效率等。
生存分析方法分类
- 参数法(使用非线性回归来拟合【Nonliner过程】)
(该方法兴起是二战的时候去评价一个新的武器寿命的,这个武器寿命t往往符合某些特定的分布)
首先要求观察的生存时间t服从某一特定的分布,采用估计分布中参数的方法获得生存率p(X>t)的估计值。
生存时间的分布可能为指数分布、Weibull分布、对数正态分布等,这些分布曲线都有相应的生存率函数形式。只需求得相应参数的估计值,即可获得p(X>t)的估计值和曲线。
- 非参数法(生存寿命表【Life tables过程】和Kaplan-Meier过程)
(比如人的生存t不知是何种分布,参数法就不适用了)
实际工作中,多数生存时间的分布不符合上述所指的分布,就不宜用参数法进行分析,应当用非参数法。
这类方法的检验假设与以往所学的非参数法一样,假设两组或多组的总体生存率曲线分布相同,而不论总体的分布形式和参数如何。
非参数法是随访资料的常用分析方法。
- 半参数法(Cox Regression过程与Cox w/Time-Dep Cov过程)
(非参数法一般只针对单变量,对于多变量就没办法了)
只规定了影响因素和生存状况间的关系,但是没有对时间(和风险函数)的分布情况加以限定
这种方法主要用于分析生存率的影响因素,属多因素分析方法,其典型方法是Cox比例风险模型
SPSS中的相应模块
- Nonliner过程
可以针对任何种类的时间分布加以拟和
- Life tables过程
分析分组生存资料,主要用于计算寿命表
- Kaplan-Meier过程
用于未分组生存资料
- Cox Regression过程
最重要的一个分析方法
- Cox w/Time-Dep Cov过程
对比例风险模型的扩展,允许影响因素的影响程度虽时间而变化
参数法案例--Kaplan-Meier方法
是最基本的一种生存分析方法
案例:Prednisolone新药对慢性肝炎疗效的研究
2 0 1
6 0 1
12 0 1
54 0 1
56 1 1
68 0 1
89 0 1
96 0 1
96 0 1
125 2 1
128 2 1
131 2 1
140 2 1
141 2 1
143 0 1
145 2 1
146 0 1
148 2 1
162 2 1
168 0 1
173 2 1
181 2 1
2 0 2
3 0 2
4 0 2
7 0 2
10 0 2
22 0 2
28 0 2
29 0 2
32 0 2
37 0 2
40 0 2
41 0 2
54 0 2
61 0 2
63 0 2
71 0 2
127 2 2
140 2 2
146 2 2
158 2 2
167 2 2
182 2 2
定义失效事件
结果:
两组都有22个人,新药组出现失效事件的有11人,存在删失的案例也为11人,占总体50%
对照组出现失效事件的有16人,存在删失的案例也为6人,占总体27.3%
下面的生存表是每一个案例的生存时间
新药组最快出现失效事件为2个月,累计人数1人,此时生存率为95.5%
到第56个月时候,出现删失,失访,生存率不用重新计算,但是剩余个数少了
均值:新药组平均生存125.264个月,对照组生存平均周期为72.545个月(均值并非简单的均值求和)
中位数:新药组50%的人可以生存146个月,对照组可生存40个月
以图形方式展现出来,更加直观展示
Kaplan-Meier曲线
那这两个到底有没有差别呢?我们在图形中查看发现其是有差别的,检验一下
对数秩:比较注重全局的(使用的比较对)
对数秩:比较注重前半截的
Tarone-Ware:介于对数秩和对数秩中间的一个方法(使用的比较少)
H0:相应两组全时间段无区别,曲线是重叠的
三个检验的Sig.<0.05,拒绝原假设,说明新药组确实和对照组不一样,有明显的积极作用。
Cox比例风险模型
Kaplan-Meier只是研究单因素的
属于半参数模型
与参数模型相比,该模型不能给出各时点的风险率,但对生存时间分布无要求,可估计出各研究因素对风险率的影响,因而应用范围更广。为了纪念Cox的贡献,统计学家把它称为Cox比例风险模型。
相对于logistic来说,其无常数项
我们还是刚才上面的数据做Cox比例风险模型
结果(Cox比例风险模型与逻辑回归模型SPSS结果结构呈现差不多)
块0:由于无常数项,所以拟合了一个无效的模型
-2倍对数似然值:假如加入自变量后模型效果变好,这个值会降低
块1:有自变量,-2倍对数似然值比块0小,说明模型变好了,但是这个变量有没有加入的必要呢?
Sig.<0.05说明自变量有加入的需要,EXP(B)说明在任何时间的情况下,对照组的风险是新药组的两倍(由于Cox比例风险模型假设是任何时间点的情况下风险是等比例的,如何验证其是等比例的呢?可用Cox w/Time-Dep Cov过程,本质就是加入group与时间的交互项,假如有意义就不是任何一个时间点都一样了)
用图形展示出来呢?
这是把group平均起来的曲线,假如想分开画呢?
这些都是按照模型估计出来的,并非原始的值做的图
逻辑回归与生存分析怎么选择?
逻辑回归比较关注单点的比较,5年、10年
生存分析全程都关注,而且对生存分析来说结局和时间都非常重要