文章最后更新时间:2022-12-22 23:11:32,由管理员负责审核发布,若内容或图片失效,请留言反馈!
生存分析介绍
生存分析(Survival Analysis)是一类比较特殊的分析方法,起源于医学和生物科学。跟之前的方法不同,生存分析不仅考虑了结局(生存或死亡),还兼顾了结局发生的时间。收集其相应资料的方法主要是随访资料或长期跟踪研究。比如两组癌症患者的比较,若观察时间较长,可能绝大多数研究对象的结局都殊途同归,即死亡。这时仅看结局的状态, 已没有意义,只有结合结局发生的时间来考虑,才能更好地揭示事物的真相。
总的来说,生存分析(Survival Analysis)是将事件的结果/结局与出现这一结果/结局所经历的时间结合起来分析的一类统计分析方法。生存分析除应用在医学、生物科学外,生存分析也可应用在社会学、经济学、工程学等领域,社会学与经济学有时称之为事件-历史分析(Event History Analysis),工程学称之为失效时间分析(Failure Time Analysis)或可靠性分析(Reliability Analysis)。
究其数据而言,生存时间多数情况下是连续性数据,但也的确存在生存时间为离散型数据的情况。
生存分析的一个主要特点是可以处理删失(Censor)。所谓删失是指准确生存时间未被观察到的情况,如:在医学研究中,一个病人的生存时间往往由于失访、研究结束等原因而无法被准确地记录下来,只知道该病人的生存时间大于某一时间点(上一次随访时点、研究结束时点。生存分析当然也可以对没有删失的生存时间(完全生存时间)进行分析,这时的生存分析与一般统计方法没有太大差别。但是,一旦有删失存在,则必须考虑删失,无视删失的分析将导致偏倚的结果。因为从某种意义上讲,生存时间越长越容易导致删失。
生存分析的另外一个主要特点是作为分析对象的生存时间非负且其分布常常右偏(右侧拖长尾),这使得通常基于正态分布理论的统计方法不一定适用。而生存分析方法就可以很好地处理这一问题。
生存分析基本概念
在一个统计分析模块中,会有不同的概念,在此我们依次介绍生存分析的基本概念:
1.事件 Event
事件也可称为失效事件,指由研究者所规定的生存结局,根据研究目的的不同而不同。如:在医学研究中,事件可以是死亡、疾病复发;在工业上,事件可以是机器发生的故障。在生存分析中,事件是非常重要的概念,它的定义应尽可能地清楚明了,并应该在研究计划阶段确定,而不是等数据收集上来后在分析阶段确定。
在生存分析中,事件的定义多是负面的、消极的,但有时也是积极的、正面的。如,在社会学研究汇总,一个工人经历了下岗之后再上岗。事件的定义只是学术概念,不能等同于人们在日常生活中的常识,如在肺癌研究中,如肺癌患者最终死于车祸或其他与肺癌无关的疾病,则不能作为失效事件的发生。
2.生存时间 Survival Time
广义的生存时间是指从某个起始事件开始,到某个终点事件的发生所经历的时间,也称为失效时间(Failure time)。起始事件和 终点事件可根据研究目的和专业知识在设计阶段确定。起始事件可以是疾病的确诊、某种处理(治疗)的实施等,终点事件可以某种疾病发生、某种处理的反应、病情的复发或死亡等。常用符号t表示。
生存时间中的时间未必是日常生活中日历时间。如在工业研究中,可将汽车行驶的公里数作为生存时间的案例。
生存时间特点:
- 分布类型不易确定,一般不服从正态分布,有时近似服从指数分布、Weibull分布、Gompertz分布,多数情况下都不服从于特定的分布类型。
- 影响生存时间的因素较为复杂,而且不易控制。
3. 完全数据
随访研究中,对某些观察对象如观察到了给定的终点事件,准确的生存时间称为生存时间的完全数据(complete data)。
4. 截尾数据/删失数据
由于某种原因未能观察到给定的终点时间,并不确切的生存时间,称为生存时间的截尾数据(censored data)。原因:
- 研究结束也未发生终点事件
- 不完全随访,也可是生存但中途失访:包括失访、退出实验或者失去联系
- 死于其他与研究无关的原因,如肺癌患者死于心肌梗死、自杀或因车祸死亡,终止随访时间为死亡时间
由于不知道这些观察对象发生失效事件的实际,他们的实际数据并不完整,其截尾生存时间计算为起始事件到截尾点所经历的时间。通常在右上角标记“+”
5. 生存概率
生存概率表示某单位时段开始时,存活的个体到该时刻结束时仍存活的可能性,用p表示,
p=活满某时段的人数/该实际期初观察人数=1-q(q为死亡率);
若该时段内有删失数据,则分母需用校正人口数=(期初人数-截尾数/2)代替。
6. 生存率与生存函数
生存率指研究对象经过t个时段后仍存活的概率,即生存时间大于等于t的概率,用p(T>=t)表示。
生存率岁时间t的变化而变化,是t的函数,记为S(t),称之为生存函数,生存函数在某时刻的函数值就是生存率。计算公式分为两种情况:
- 若前t个时段没有删失数据,则S(t)=P(T>=t)=t时段结束时仍存活的人数/研究期初观察宫人数;
- 若观察期内存在删失数据,假定多个对象在各单位时段内是否生存的事件是相互独立的,其生存概率分别记为 p1, p2, p3,……pt,则由S(t)= p1*p2*p3*…..*pt
生存函数又称为累计生存函数,即将时刻t尚存活看做是前t个时段一直存活的累计结果。
7. 生存率曲线
以生存时间为横轴,生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。
曲线形状分为如下两种:
- 阶梯形:多是小样本资料用直接法估计得到的生存曲线
- 折线形:多是大样本资料用频数表法估计得到的生存曲线
8. 风险函数
表示一个生存到时间 t 的观察对象,从 t 到 t+△t 区间内死亡的概率极限,常用h(t)表示,计算公式:
实际工作中,也可为:
9. 中位生存时间和平均生存时间
中位生存时间:是描述生存状况的一个重要指标,指生存时间的中位数,表示恰有50%的个体尚存活的时间,即生存曲线上纵轴50%所对应横轴的生存时间,反映了生存时间的平均水平。
平均生存时间:表示生存曲线下的面积
生存分析方法
- 生存率估计:根据样本生存资料总体生存率及其他有关指标(如中位生存期等)
- 生存率比较:比较不同组别生存率有无差别,或平衡某些因素影响后,研究某个因素对生存率的影响。
- 影响因素分析:目的是为了探索和了解影响生存时间长短的因素
各种方法后续会一一讲解。
发表评论