生存分析之Kaplan-Meier曲线

百度首页

Kaplan-Meier 曲线又称生存曲线，是一种生存分析的常用方法，主要分析单一因素对生存期的影响，用于估计患者生存率和绘制生存曲线。

生存曲线以生存时间为横轴，生存率为纵轴，绘制而成的连续型的阶梯形曲线，用以说明生存时间与生存率之间的关系。

生存曲线一般是平滑且水平延伸的，当某个时间点一旦有患者发生终点事件(如死亡)，曲线就会垂直下降，下降幅度是该时间点上患者发生终点事件个数与上一个时间节点后随访的患者样本量的比。

这里介绍几个关键的指标：

1、事件（失效事件）：研究中规定的生存研究的终点。一般指患者死亡，也可以自定义为肿瘤复发、血压达标等等其他感兴趣的二分类结局事件

2、生存时间：从检测开始到事件发生所经过的时间，对于失访者，是失访前最后一次随访的时间。

3、删失（截尾）：研究对象在观察时间内没有发生事件。一种情况是研究对象在中途失访或退出；另一种情况是超过了最长的随访时间事件仍未发生。删失数据是一种不完整数据，是生成分析独有的重要组成部分

1 模型理论

Kaplan-Meier 算法是由英国科学家 Kaplan 和 Meier 于 1958 年提出的，是利用概率乘法定理计算生存率，故又称乘积限法，Kaplan-Meier 过程适用于小样本或大样本未分组资料生存率的 Kaplan-Meier 分析，生存率和组间生存率比较。

1.1 Kaplan-Meier 生存曲线的画法

1）在每个发生死亡事件的时间点上，进行生存率的计算
2）在每个发生删失的时间点上，画小竖线标记删失样本
3）根据观察/对照条件分组作图

1.2 生存率的点估计

设 ni-1,ni,di 和 ci 分别表示活过时间 ti-1 且未在 ti-1 截尾的对象处、期初例数、死亡数和截尾数，则时间 ti 处的生存率估计为：

1.3 生存率的区间估计

Greenwood 生存率标准误差的近似计算公式为：

假定生存率近似服从正态分布，则总体生存率的（1-α）置信区间为：

1.4 生存率的组间比较

Log rank 检验是生存率比较的非参数方法之一，其基本思想是当 H0 成立时，根据 ti 时点的死亡率，可以计算出各组的理论死亡数，则统计量的计算公式为：

其中，Vg 为第 g 组理论数 Tg 的方差估计

对 Log rank 检验，wi=1，当比较的两总体生存曲线成比例时，检验效能最大；wi=ni，则对应 Breslow 检验或 Wilcoxon 检验，该检验给实际死亡率与理论死亡数的早期差别最大的权重。而在 Tarone-Ware 检验中，wi=√ni，其中 ni 表示时间 ti 处所对应的期初例数。

近似服从自由度为（组数-1）的分布。由于该检验能对各组的生存率做整体比较，因此实际工作中应用较多。

1.5 模型基本步骤

1.展示样本的事件/删失数情况等基本数据情况。

2.估计生存时间中位数和均值，从而分析各组生存时间的情况，由于生存时间往往不是正态分布，故一般以中位数为准。

3.使用多种卡方检验检验生存函数（生存率）是否存在显著性差异。

4.绘出Kaplan-Meier曲线图，揭示生存时间和生存率之间的关系。