Kaplan-Meier 曲线又称生存曲线,是一种生存分析的常用方法,主要分析单一因素对生存期的影响,用于估计患者生存率和绘制生存曲线。
生存曲线以生存时间为横轴,生存率为纵轴,绘制而成的连续型的阶梯形曲线,用以说明生存时间与生存率之间的关系。
生存曲线一般是平滑且水平延伸的,当某个时间点一旦有患者发生终点事件(如死亡),曲线就会垂直下降,下降幅度是该时间点上患者发生终点事件个数与上一个时间节点后随访的患者样本量的比。
这里介绍几个关键的指标:
1、事件(失效事件):研究中规定的生存研究的终点。一般指患者死亡,也可以自定义为肿瘤复发、血压达标等等其他感兴趣的二分类结局事件
2、生存时间:从检测开始到事件发生所经过的时间,对于失访者,是失访前最后一次随访的时间。
3、删失(截尾):研究对象在观察时间内没有发生事件。一种情况是研究对象在中途失访或退出;另一种情况是超过了最长的随访时间事件仍未发生。删失数据是一种不完整数据,是生成分析独有的重要组成部分
Kaplan-Meier 算法是由英国科学家 Kaplan 和 Meier 于 1958 年提出的,是利用概率乘法定理计算生存率,故又称乘积限法,Kaplan-Meier 过程适用于小样本或大样本未分组资料生存率的 Kaplan-Meier 分析,生存率和组间生存率比较。
1.1 Kaplan-Meier 生存曲线的画法
1)在每个发生死亡事件的时间点上,进行生存率的计算
2)在每个发生删失的时间点上,画小竖线标记删失样本
3)根据观察/对照条件分组作图
1.2 生存率的点估计
设 ni-1,ni,di 和 ci 分别表示活过时间 ti-1 且未在 ti-1 截尾的对象处、期初例数、死亡数和截尾数,则时间 ti 处的生存率估计为:
1.3 生存率的区间估计
Greenwood 生存率标准误差的近似计算公式为:
假定生存率近似服从正态分布,则总体生存率的(1-α)置信区间为:
1.4 生存率的组间比较
Log rank 检验是生存率比较的非参数方法之一,其基本思想是当 H0 成立时,根据 ti 时点的死亡率,可以计算出各组的理论死亡数,则统计量的计算公式为:
其中,Vg 为第 g 组理论数 Tg 的方差估计
对 Log rank 检验,wi=1,当比较的两总体生存曲线成比例时,检验效能最大;wi=ni,则对应 Breslow 检验或 Wilcoxon 检验,该检验给实际死亡率与理论死亡数的早期差别最大的权重。而在 Tarone-Ware 检验中,wi=√ni,其中 ni 表示时间 ti 处所对应的期初例数。
近似服从自由度为(组数-1)的分布。由于该检验能对各组的生存率做整体比较,因此实际工作中应用较多。
1.5 模型基本步骤
1.展示样本的事件/删失数情况等基本数据情况。
2.估计生存时间中位数和均值,从而分析各组生存时间的情况,由于生存时间往往不是正态分布,故一般以中位数为准。
3.使用多种卡方检验检验生存函数(生存率)是否存在显著性差异。
4.绘出Kaplan-Meier曲线图,揭示生存时间和生存率之间的关系。
医院需要研究一种新药的疗效情况,使用 Kaplan-Meier 曲线得到是否使用新药对患者总生存时间的影响。
患者状态:0代表存活或失访,1代表死亡。
1)模型数据摘要
上表展示了样本的事件数(状态=1)/删失数(状态=0)以及事件数占比的情况。
2)生存情况的均值和中位数
使用新药的中位生存时间是 58 周,而不使用新药是 26 周。可以认为新药的使用明显带来好处,使得生存时间有较大延长。
3)生存状态差异检验
Log-Rank 检验,每个时点有相同的权重,对后期的差异更为敏感,最为常用。
Breslow 检验,各时间点的观察例数为权重,例数越多权重越高,对前期的差异更为敏感。
Tarone-Ware 检验,结合以上两种方法,适合生存曲线有交叉的情况使用。
三种方法的 P 值均小于 0.05,可以认为水平呈现显著性,拒绝原假设,因此认为这两组的生存率存在差异(原假设为生存率无差异)。
4)Kaplan-Meier 曲线
上图展示了 Kaplan-Meier 曲线,横轴为时间,纵轴为生存率,该曲线展示了随着时间变化生存率的变化情况,每一个“台阶”都对应着一个发生终点(死亡)事件的时间点。
X轴为0时,随访刚刚开始,还没有患者死亡,所以两组患者的生存率都是100%,随着时间的推移,有患者发生死亡,终点事件发生,生存率从1开始下降。在随后的随访过程中,我们发现未使用新药的死亡率在任何一个时间均高于使用新药,从图可见使用新药相比未使用新药,能明显增加生存率。
注意:
状态变量只能是二分类 0、1 变量,并且 1 代表是事件发生(如死亡/阳性等);
Kaplan-Meier 生存曲线在于研究某 1 个因素对于 Y 的影响,COX 回归研究多个因素对于 Y 的影响