《生存分析首医大研究生.ppt》由会员分享,可在线阅读,更多相关《生存分析首医大研究生.ppt(96页珍藏版)》请在第壹文秘上搜索。
1、 Survival analysis and Cox regression analysis引例1假定用甲、乙两种药物治疗某病,其治愈率均为,能否说两种疗效一致?还应考虑时间效应问题,如果甲药平均天治愈,而乙药平均天治愈,则可以认为甲药比乙药的疗效好。引例2 现用新旧两种方法治疗某癌病现用新旧两种方法治疗某癌病患者各患者各100人,结果如下表,试评价其人,结果如下表,试评价其疗效疗效 表表1新旧两种方法治疗某癌病新旧两种方法治疗某癌病 死亡人数死亡人数 新法组新法组 旧法组旧法组 RRRR一年一年 16 15 1.0116 15 1.01二年二年 25 35 25 35 0.700.70五年五
2、年 40 80 0.50 40 80 0.50 * * Survival analysis “ 生存生存”的概念的概念 生物生存生物生存 与死亡与死亡 仪器始使正常 与出现故障疾病产生 与治愈疾病治愈 与复发 阴性 与阳性起始事件 随访时间 终点事件疾病确诊 死亡 治疗开始 死亡治疗开始 痊愈接触危险物 出现反映1.观察起点观察起点是指对个体开始观察的时刻。观察起点是指对个体开始观察的时刻。在一项研究中对观察起点应作统一、明确在一项研究中对观察起点应作统一、明确地规定。根据研究目的不同可有不同起点地规定。根据研究目的不同可有不同起点:第一次发现症状日期,不够准确;第一次发现症状日期,不够准确;
3、确诊日期;确诊日期;接受手术治疗、放疗、化疗日期;接受手术治疗、放疗、化疗日期;手术后存活出院日期。手术后存活出院日期。观察终点是指个体出现最终结局的时刻,但观察终点是指个体出现最终结局的时刻,但有时由于某些原因,一些个体无法观察至终点,有时由于某些原因,一些个体无法观察至终点,不得不停止对他们的观察,即出现截尾值(不得不停止对他们的观察,即出现截尾值(censored data censored data )。一般包括:)。一般包括:观察期内病人死于其他疾病;观察期内病人死于其他疾病;由于迁移或其他原因与病人失去联系;由于迁移或其他原因与病人失去联系;观察结束时病人仍健在。观察结束时病人仍健
4、在。 2.观察终点(1 1)生存分析中的基本概念)生存分析中的基本概念生存时间(survival time):疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。所经历的时间称为生存时间。完全与不完全数据 一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据:censor data)。ta+tb+tc+td生 存 分 析 ( s u r v i v a l analysis):生存时间一般是
5、通过随访收集。不完全数据提供了部分信息。须要用专门的方法进行统计处理,这类统计方法起源于对寿命资料的统计分析,故称为生存分析。 生存资料统计学处理方法生存资料统计学处理方法 (一)设计(一)设计 目的:专业目的:据专业知识确定。目的:专业目的:据专业知识确定。 统计学目的:统计学目的: 估计估计:根据样本生存资料估计总体生存率:根据样本生存资料估计总体生存率及其它有关指标(如中位生存期等),如及其它有关指标(如中位生存期等),如根据脑瘤患者治疗后的生存时间资料,估根据脑瘤患者治疗后的生存时间资料,估计不同时间的生存率、生存曲线以及中位计不同时间的生存率、生存曲线以及中位生存期等。生存期等。 比
6、较比较:对不同处理组生存率进行比较,如:对不同处理组生存率进行比较,如比较不同疗法治疗脑瘤的生存率,以了解比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。哪种治疗方案较优。n影响因素分析影响因素分析:目的是为了探索和了解影:目的是为了探索和了解影响生存时间长短的因素,或平衡某些因素响生存时间长短的因素,或平衡某些因素影响后,研究某个或某些因素对生存率的影响后,研究某个或某些因素对生存率的影响。如为改善脑瘤病人的预后,应了解影响。如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。龄、性别、病程、肿瘤分
7、期、治疗方案等。n预测预测:具有不同因素水平的个体生存预测,:具有不同因素水平的个体生存预测,如根据脑瘤病人的年龄、性别、病程、肿如根据脑瘤病人的年龄、性别、病程、肿瘤分期、治疗方案等预测该病人瘤分期、治疗方案等预测该病人t t年(月)年(月)生存率。生存率。 方法:方法: 确定起始事件、终点事件、随访终止日确定起始事件、终点事件、随访终止日期、生存时间、截尾。期、生存时间、截尾。 确定可能的影响因素、水平以及量化方确定可能的影响因素、水平以及量化方法。法。设计调查表:设计调查表: 调查表中应包括调查表中应包括可能的影响因素可能的影响因素观察起点和终点(年、月、日)观察起点和终点(年、月、日)
8、 生存时间生存时间 生存结局生存结局样本含量样本含量:非截尾例数非截尾例数至少是可能影响因素至少是可能影响因素的的10倍。倍。三联体三联体数据数据 (二)搜集资料(二)搜集资料 可能的影响因素:可能的影响因素: 从病历获得。从病历获得。 生存时间及结局:生存时间及结局: 短期可观察到的结局可从病历获得;短期可观察到的结局可从病历获得; 长期结局一般不能从病历直接获得,通过长期结局一般不能从病历直接获得,通过信访、电话等得到。信访、电话等得到。生存资料基本要求生存资料基本要求 样本由随机抽样方法获得,要有一定的数样本由随机抽样方法获得,要有一定的数量。量。 死亡例数不能太少,截尾比例不能太大。死
9、亡例数不能太少,截尾比例不能太大。 生存时间尽可能准确。因为常用的生存分生存时间尽可能准确。因为常用的生存分析方法都在生存时间排序的基础上作统计析方法都在生存时间排序的基础上作统计处理,即使是小小的舍入误差,也可能改处理,即使是小小的舍入误差,也可能改变生存时间顺序而影响结果。变生存时间顺序而影响结果。 缺项应尽量补齐。缺项应尽量补齐。随访记录表 随访资料记录随访资料记录 记录的项目通常包括处理组别,开始观察日期,终止观察日期,结局,生存时间等。 大肠癌患者的随访记录大肠癌患者的随访记录 编号编号 性别性别 年龄年龄 手术日期手术日期 随访终止日期随访终止日期 随访结局随访结局 生存时间生存时
10、间(天天)1 男男 45 1991.05.20 1995.06.04 死亡死亡 1476 2 男男 50 1992.01.12 1998.08.25 死亡死亡 2417 3 女女 36 1991.10.24 1994.03.18 失访失访 876+ 4 男男 52 1994.11.02 2000.12.30 存活存活 2250+ 5 女女 56 1994.06.25 1995.03.17 死亡死亡 265 6 女女 60 1993.12.05 1996.08.16 死于其它死于其它 985+ 生存时间生存时间生存时间的度量单位可以是年、月、生存时间的度量单位可以是年、月、日、小时等。常用符号日
11、、小时等。常用符号t表示,截尾数据在其右上表示,截尾数据在其右上角标记角标记“+”。生存资料的主要特点:生存资料的主要特点:含有截尾数据。含有截尾数据。截尾数据的特点:真实的生存时间未知,只知截尾数据的特点:真实的生存时间未知,只知道比观察到的截尾生存时间要长。道比观察到的截尾生存时间要长。生存时间的分布一般不呈正态分布。生存时间的分布一般不呈正态分布。9例病人的随访记录病号 性别 开始日期 终止日期 结局 处理 1 男 08/31/82 10/31/89 死亡 手术 2 男 08/31/82 08/28/86 失访 非手术 3 女 10/30/83 03/31/90 死亡 非手术 4 男 1
12、2/01/84 10/01/87 死亡 非手术 5 女 01/01/84 10/01/88 死亡 手术 6 男 07/01/85 10/01/88 死亡 手术 7 男 08/31/87 12/30/90 生存 手术 8 女 07/11/86 12/17/90 死亡 手术 9 男 08/31/86 10/01/90 死亡 非手术 (三)整理资料(三)整理资料 认真检查、核对原始数据,包括影响因素、认真检查、核对原始数据,包括影响因素、生存时间和生存结局。生存时间和生存结局。 尽量避免缺失值。尽量避免缺失值。 建立数据库建立数据库 FoxBase、Foxpro、Epidata等专业数等专业数据库据
13、库 统计软件数据库(统计软件数据库(SAS、SPSS等)等) Office办公软件中的办公软件中的Excel、Access9例病人随访记录的数据库 n sex time outcome treat 1 1 7 1 1 2 1 4 0 0 3 0 6 1 0 4 1 3 1 0 5 0 4 1 1 6 1 3 1 1 7 1 3 0 1 8 0 4 1 1 9 1 4 1 0 (四)分析资料(四)分析资料 估计估计: 乘积极限法,寿命表法乘积极限法,寿命表法 比较比较: log-rank检验检验 影响因素分析影响因素分析:Cox比例风险回归模型比例风险回归模型(Cox回归模型),是生存分析中最重
14、回归模型),是生存分析中最重要的模型之一。要的模型之一。 预测预测: Cox回归模型预测生存率。回归模型预测生存率。 截尾数据的处理 因为不太好处理截尾数据,很多临床研究工作者常常将失访或中止等原因造成的截尾数据在分析时抛弃。截尾数据提供的信息虽然是不完全的,但也很有价值,不应随便删掉它。例在对资料进行描述时: 5名癌症患者存活时间(月) 6 10 14 20 206 10 14 20 20 n=5 n=5 平均生存时间平均生存时间, , mean=18mean=18,median=当有截尾数据时, 7 8+ 25 35 + 50 ? 死亡概率(mortality probability)是指
15、死于某时段内的可能性大小.记为q年死亡概率计算公式为: 某年内死亡数q 某年年初人口数 若年内有删失,则分母用校正人口数:校正人口数年初人口数校正人口数年初人口数1/21/2删失数删失数()生存资料常计算的几种率死亡概率(2)是指已活满t时刻的个体,在此后一段时期(t至 )内死亡的可能性。死亡概率的计算公式为 时刻的个体数活过数时段内死于本病的个体至ttttqtt若t至 内有截尾值,上式的死亡概率将偏低,可对分母加以调整,为:如果间隔时期很短,即 时,死亡概率/ 为t时刻的瞬时死亡概率,或称为风险函数(hazard function, h(t)),其意义为刚刚活过t时刻的个体在t时刻死亡的概率
16、。2/期内截尾值个数时刻的个体数活过数时段内死于本病的个体至ttttq0tttt 生存概率(survival probability)表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,记为p。年生存概率计算公式为: 活满某一年人数p 1q 某年年初人口数 若年内有删失,则分母用校正人口数。生存概率与死亡概率之间关系生存概率与死亡概率之间关系: : p=1-q p=1-q生存率与生存函数生存率与生存函数 生存率生存率是研究对象存活时间长于是研究对象存活时间长于t t的概率,它是时间的概率,它是时间t t的函数的函数 。 若令s(t)为任意时刻t的生存率,T为生存期,得s(t)=p(Tt) 0t0,RR1,说明变量,说明变量X增加时,危险增加时,危险率增加,即率增加,即X是危险因素。是危险因素。0,RR1,说明变量,说明变量X增加时,危险增加时,危险率下降,即率下降,即X是保护因素。是保护因素。=0,RR=1,说明变量,说明变量X增加时,危险增加时,危险率不变,率不变,即即X是危险无关因素。是危险无关因素。(5 5)CoxCox回归模型的检验回归模型的检验(一)参数估计(一