SPSS(二十)SPSS之生存分析(图文+数据集)

SPSS(二十)SPSS之生存分析(图文+数据集)

生存分析背景

为什么要使用生存分析而不是使用传统方法,大家可参考(理论介绍的非常详细)

https://wenku.baidu.com/view/453b1a0c26284b73f242336c1eb91a37f11132d2.html

传统方法在分析随访资料时的困难

随访是指医院对曾在医院就诊的病人以通讯或其他的方式,进行定期了解患者病情变化和指导患者康复的一种观察方法。

  • 时间和生存结局都成为了要关心的因素

除了生存结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当是被认为有效的。即时间延长也认为有效
如果将两者均作为因变量拟和多元模型,则时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难

  • 存在大量失访

失去联系(病人搬走,电话号码改变)
无法观察到结局(死于其他原因)
研究截止
显然,将失访数据无论是算作死亡还是存活似乎都不大合理
 

生存分析的主要研究内容

  • 描述生存过程

研究人群生存状态的规律
研究生存率曲线的变动趋势
是人寿保险业的基础

  • 生存过程影响因素分析及结局预测

了解哪些因素会影响生存过程
对生存结局加以预测
在临床中应用的非常广泛

 

生存分析专业术语

  • 失效事件(Failure event)

也被称为称“死亡”事件或失败事件,表示观察到随访对象出现了我们所规定的结局。失效事件的认定是生存分析的基石,必须绝对准确。失效事件应当由研究目的而决定,并非一定是死亡(如研究灯泡寿命),而死亡也被并非一定是发生了失效事件(如肺癌患者死于其他疾病)。

  • 截尾值(Censored value)

终止随访不是由于失效事件发生,而是无法继续随访下去,常用符号“+”表示。 
生存但中途失访:包括拒绝访问、失去联系或中途退出试验。
死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。
随访截止:随访研究结束时观察对象仍存活。

  • 生存时间(Survival time)

随访观察持续的时间,按失效事件发生或失访前最后一次的随访时间记录,常用符号t表示。
根据失效事件的定义不同,生存时间可以是各种类型的指标,甚至于根本就不是“时间”
从症状缓解到再次恶化
设备从开始使用到失效
汽车的累积行驶里程

  • 生存率(Survival rate)

实际上应当是生存概率,指某个观察对象活过t时刻的概率,常用p(x>t)表示。
根据不同随访资料的失效事件,生存率可以是缓解率、有效率等。

 

 生存分析方法分类

  • 参数法(使用非线性回归来拟合【Nonliner过程】)

(该方法兴起是二战的时候去评价一个新的武器寿命的,这个武器寿命t往往符合某些特定的分布)

首先要求观察的生存时间t服从某一特定的分布,采用估计分布中参数的方法获得生存率p(X>t)的估计值。
生存时间的分布可能为指数分布、Weibull分布、对数正态分布等,这些分布曲线都有相应的生存率函数形式。只需求得相应参数的估计值,即可获得p(X>t)的估计值和曲线。 

  • 非参数法(生存寿命表【Life tables过程】和Kaplan-Meier过程

(比如人的生存t不知是何种分布,参数法就不适用了)

实际工作中,多数生存时间的分布不符合上述所指的分布,就不宜用参数法进行分析,应当用非参数法。
这类方法的检验假设与以往所学的非参数法一样,假设两组或多组的总体生存率曲线分布相同,而不论总体的分布形式和参数如何。
非参数法是随访资料的常用分析方法。 

  • 半参数法(Cox Regression过程与Cox w/Time-Dep Cov过程

(非参数法一般只针对单变量,对于多变量就没办法了)

只规定了影响因素和生存状况间的关系,但是没有对时间(和风险函数)的分布情况加以限定
这种方法主要用于分析生存率的影响因素,属多因素分析方法,其典型方法是Cox比例风险模型

 

SPSS中的相应模块

  • Nonliner过程
     

可以针对任何种类的时间分布加以拟和

  • Life tables过程

分析分组生存资料,主要用于计算寿命表

  • Kaplan-Meier过程

用于未分组生存资料

  • Cox Regression过程

最重要的一个分析方法

  • Cox w/Time-Dep Cov过程

对比例风险模型的扩展,允许影响因素的影响程度虽时间而变化

 

参数法案例--Kaplan-Meier方法

是最基本的一种生存分析方法

案例:Prednisolone新药对慢性肝炎疗效的研究

2	0	1
6	0	1
12	0	1
54	0	1
56	1	1
68	0	1
89	0	1
96	0	1
96	0	1
125	2	1
128	2	1
131	2	1
140	2	1
141	2	1
143	0	1
145	2	1
146	0	1
148	2	1
162	2	1
168	0	1
173	2	1
181	2	1
2	0	2
3	0	2
4	0	2
7	0	2
10	0	2
22	0	2
28	0	2
29	0	2
32	0	2
37	0	2
40	0	2
41	0	2
54	0	2
61	0	2
63	0	2
71	0	2
127	2	2
140	2	2
146	2	2
158	2	2
167	2	2
182	2	2

定义失效事件

结果:

两组都有22个人,新药组出现失效事件的有11人,存在删失的案例也为11人,占总体50%

对照组出现失效事件的有16人,存在删失的案例也为6人,占总体27.3%

下面的生存表是每一个案例的生存时间

新药组最快出现失效事件为2个月,累计人数1人,此时生存率为95.5%

到第56个月时候,出现删失,失访,生存率不用重新计算,但是剩余个数少了

均值:新药组平均生存125.264个月,对照组生存平均周期为72.545个月(均值并非简单的均值求和)

中位数:新药组50%的人可以生存146个月,对照组可生存40个月

 

以图形方式展现出来,更加直观展示

 

Kaplan-Meier曲线

那这两个到底有没有差别呢?我们在图形中查看发现其是有差别的,检验一下

对数秩:比较注重全局的(使用的比较对)

对数秩:比较注重前半截的

Tarone-Ware:介于对数秩和对数秩中间的一个方法(使用的比较少)

H0:相应两组全时间段无区别,曲线是重叠的

三个检验的Sig.<0.05,拒绝原假设,说明新药组确实和对照组不一样,有明显的积极作用。

 

Cox比例风险模型

Kaplan-Meier只是研究单因素的

属于半参数模型
与参数模型相比,该模型不能给出各时点的风险率,但对生存时间分布无要求,可估计出各研究因素对风险率的影响,因而应用范围更广。为了纪念Cox的贡献,统计学家把它称为Cox比例风险模型。

相对于logistic来说,其无常数项

 

我们还是刚才上面的数据做Cox比例风险模型

结果(Cox比例风险模型与逻辑回归模型SPSS结果结构呈现差不多

块0:由于无常数项,所以拟合了一个无效的模型

-2倍对数似然值:假如加入自变量后模型效果变好,这个值会降低

块1:有自变量,-2倍对数似然值比块0小,说明模型变好了,但是这个变量有没有加入的必要呢?

Sig.<0.05说明自变量有加入的需要,EXP(B)说明在任何时间的情况下,对照组的风险是新药组的两倍(由于Cox比例风险模型假设是任何时间点的情况下风险是等比例的,如何验证其是等比例的呢?可用Cox w/Time-Dep Cov过程,本质就是加入group与时间的交互项,假如有意义就不是任何一个时间点都一样了)

用图形展示出来呢?

 

这是把group平均起来的曲线,假如想分开画呢? 

 

这些都是按照模型估计出来的,并非原始的值做的图

 

逻辑回归与生存分析怎么选择?

逻辑回归比较关注单点的比较,5年、10年

生存分析全程都关注,而且对生存分析来说结局和时间都非常重要

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章