《第4章抽样误差与假设检验ppt课件名师编辑PPT课件.ppt》由会员分享,可在线阅读,更多相关《第4章抽样误差与假设检验ppt课件名师编辑PPT课件.ppt(23页珍藏版)》请在第壹文秘上搜索。
1、 第四章第四章 抽样误差与假设检验抽样误差与假设检验 (Sampling Sampling E Error and rror and H Hypothesis ypothesis T Testest)第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误 一、均数的抽样误差一、均数的抽样误差 在医学研究中,绝大多数情况是由样本信息研在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论究总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数总体时会存在一定的误差,如样本均数 往往不往往不等于总体均数等于总体均数 ,这种由抽样造成的样本均数与总
2、,这种由抽样造成的样本均数与总体均数的差异称为抽样误差体均数的差异称为抽样误差。对于抽样研究,抽。对于抽样研究,抽样误差不可避免。样误差不可避免。X 二、抽样误差的分布二、抽样误差的分布 理论上可以证明:若从正态总体理论上可以证明:若从正态总体 中,反中,反复多次随机抽取样本含量固定为复多次随机抽取样本含量固定为n 的样本,那么的样本,那么这些样本均数这些样本均数 也服从正态分布,即也服从正态分布,即 的总体均的总体均数仍为数仍为 ,样本均数的标准差为,样本均数的标准差为 。2N(,)XX/n抽样分布抽样分布 抽样分布示意图抽样分布示意图 中心极限定理中心极限定理:当样本含量很大的情况下,无论
3、原始测量变量服当样本含量很大的情况下,无论原始测量变量服从什么分布,从什么分布,的抽样分布的抽样分布均均近似正态。近似正态。X抽样分布抽样分布 抽样分布示意图抽样分布示意图 三、标准误(三、标准误(Standard ErrorStandard Error)样本均数的标准差称为标准误。样本均数的标准差称为标准误。样本均数的样本均数的变异越小说明估计越精确,变异越小说明估计越精确,因此可以用标准误表因此可以用标准误表示抽样误差的大小:示抽样误差的大小:实际中总体标准差实际中总体标准差 往往未知,故只能求往往未知,故只能求得样本均数标准误的估计值得样本均数标准误的估计值 :nXXSnSSX 例例4.
4、1 在某地随机抽查成年男子在某地随机抽查成年男子140人,计算得红人,计算得红细胞均数细胞均数4.771012/L,标准差,标准差0.38 1012/L,试计,试计算均数的标准误。算均数的标准误。标准误是抽样分布的重要特征之一,可用于衡标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。间估计和对不同组之间的参数进行比较。120.380.032(10/L)140XSSn 第二节第二节 总体均数的估计总体均数的估计 一、可信区间的概念一、可信区间的概念(Confidence Inter
5、val(Confidence Interval)区间估计:区间估计:指按预先给定的概率,计算出一个区间,指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的概率使它能够包含未知的总体均数。事先给定的概率 称为可信度,通常取称为可信度,通常取 。参数估计参数估计点估计:不考虑抽样误差,如点估计:不考虑抽样误差,如区间估计:考虑抽样误差区间估计:考虑抽样误差195.01X二、可信区间的计算二、可信区间的计算(一)(一)已知已知nXu/95.096.1/96.1nXP95.096.196.1nXnXP)96.1,96.1(XXXX),(2/2/XXuXuX一般情况一般情况其中其
6、中 为标准正态分布的双侧界值。为标准正态分布的双侧界值。2/u 可信区间:可信区间:v 5v 1v()f t标准正态分布(二)(二)未知未知 通常未知,这时可以用其估计量通常未知,这时可以用其估计量S 代替,但代替,但 已不再服从标准正态分布,而是服已不再服从标准正态分布,而是服从著名的从著名的 t 分布。分布。)/()(nSX 图图4-2 4-2 不同自由度的不同自由度的 t 分布图分布图 可信区间的计算可信区间的计算:计算可信区间的原理与前完全相同,仅仅是两计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即侧概率的界值有些差别。即1)/()(2/)(2/tnSXtP).()(
7、2/)(2/XXStXStX,可信区间:可信区间:需要注意:在小样本情况下,应用这一公式的需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下条件是原始变量服从正态分布。在大样本情况下(如(如n100),100),也可以用也可以用 替换替换 近似计算。近似计算。2/u2/t 例例4.2 4.2 某医生测得某医生测得2525名动脉粥样硬化患者血浆名动脉粥样硬化患者血浆纤维蛋白原含量的均数为纤维蛋白原含量的均数为3.32 g/L3.32 g/L,标准差为,标准差为0.57 0.57 g/Lg/L,试计算该种病人血浆纤维蛋白原含量总体均,试计算该种病人血浆纤维蛋白原含量
8、总体均数的数的95%95%可信区间。可信区间。下限:下限:上限:上限:(g/L)09.325/57.0064.232.3.)(2/XStX(g/L)56.325/57.0064.232.3.)(2/XStX 例例4.3 4.3 试计算例试计算例4.14.1中该地成年男子红细胞总体中该地成年男子红细胞总体均数的均数的95%95%可信区间。可信区间。本例属于大样本,可采用正态近似的方法计算本例属于大样本,可采用正态近似的方法计算可信区间。因为可信区间。因为 ,则,则95%95%可可信区间为:信区间为:14038.077.4n,)L/10(71.4140/38.096.177.4.122/XSuX)
9、L/10(83.4140/38.096.177.4.122/XSuX下限:下限:上限:上限:三、模拟实验三、模拟实验 模拟抽样成年男子红细胞数。设定模拟抽样成年男子红细胞数。设定:产生产生100100个随机样本,分别计算其个随机样本,分别计算其95%95%的可信区间,的可信区间,结果用图示的方法表示。从图可以看出:绝大多数结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数可信区间包含总体参数 ,只有,只有6 6个可信区间个可信区间没有包含总体参数(用星号标记)。没有包含总体参数(用星号标记)。14039.075.4n,754.图图4-2 4-2 模拟抽样成年男子红细胞数模拟抽样成
10、年男子红细胞数100100次的次的95%95%可信区间示意图可信区间示意图 )14039.075.4(n,*第三节第三节 假设检验的意义和步骤假设检验的意义和步骤 (H Hypothesis ypothesis T Test)est)统计推断的另一个重要内容,目的是统计推断的另一个重要内容,目的是通过样通过样本数据本数据比较总体参数之间有无差别。比较总体参数之间有无差别。一、假设检验的基本思想一、假设检验的基本思想 例例4.4 4.4 使用使用黑加仑油软胶囊黑加仑油软胶囊治疗治疗高脂血症高脂血症,3030名名高脂血症高脂血症患者治疗前后血清甘油三酯检测结患者治疗前后血清甘油三酯检测结果的差值为
11、果的差值为1.381.380.76(g/L)0.76(g/L),问治疗后血清甘,问治疗后血清甘油三酯是否有所改善?油三酯是否有所改善?样样 本本治疗前后甘油三治疗前后甘油三酯的变化(差值)酯的变化(差值)d38.1 76.0 30dSnd?0d问题归纳:问题归纳:样本疗效样本疗效 药物作用药物作用+机遇机遇?d01.38d对上面问题可以作如下考虑:对上面问题可以作如下考虑:问题:问题:究竟多大能够下究竟多大能够下“有效有效”的结论?的结论?|d|0 假定治疗前后血清甘油三酯检测结果的差值服从正态分布,假定治疗前后血清甘油三酯检测结果的差值服从正态分布,若若 则则 服从服从t t 分布。分布。根
12、据根据 t 分布能够计算出有如此大差异的概率分布能够计算出有如此大差异的概率P P,如果,如果P P 值很小,即计算出的值很小,即计算出的t t 值超出了给定的界限,则倾向于拒绝值超出了给定的界限,则倾向于拒绝H0 0,认为治疗前后有差别。,认为治疗前后有差别。0:0dHnSdtd/0图图4-3 4-3 利用利用t t 分布进行假设检验原理示意图分布进行假设检验原理示意图 二、假设检验的基本步骤二、假设检验的基本步骤 1.1.建立假设和确定检验水准建立假设和确定检验水准 无效假设无效假设H0 0(null hypothesis)(null hypothesis)指需要检验的假设,指需要检验的假
13、设,备择假设备择假设H1 1(alternative hypothesis)(alternative hypothesis)指在指在H0 0成成立证据不足的情况下而被接受的假设。例如建立立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假治疗前后血清甘油三酯疗效的无效假设和备择假设分别为设分别为 0:0dH0:1dH 检验水准检验水准 是预先规定的拒绝域的概率值,实是预先规定的拒绝域的概率值,实际中一般取际中一般取 。05.0 说明说明 :备择假设有双侧和单侧两种情况。双侧:备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差,若显著地超出检验指不
14、论正方向还是负方向的误差,若显著地超出检验水准则拒绝检验水准则拒绝H0 0,即为双侧检验;单侧即为双侧检验;单侧检验指仅在出现正方向或负方向误差超出规定的水准检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝时则拒绝H0 0 ,如治疗后血清甘油三酯下降的假设可,如治疗后血清甘油三酯下降的假设可表示为表示为 ):H:Hd1d10(或 001d:H 双侧检验和单侧检验应如何选择,需根据研究目的双侧检验和单侧检验应如何选择,需根据研究目的和专业知识而定。和专业知识而定。一般情况下,双侧检验更为稳妥,一般情况下,双侧检验更为稳妥,因为对相同的样本,双侧检验得出有显著性差别的结因为对相同的样本,双侧
15、检验得出有显著性差别的结论,单侧检验也一定是显著的。论,单侧检验也一定是显著的。2.2.选择检验方法和计算检验统计量选择检验方法和计算检验统计量 根据资料类型、研究设计方案和统计推断的目的,根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法,不同检验方法各有其相应的检选择适当的检验方法,不同检验方法各有其相应的检验统计量及计算公式。许多假设检验方法是以检验统验统计量及计算公式。许多假设检验方法是以检验统计量来命名的,如计量来命名的,如 t 检验、检验、u检验、检验、F检验和检验和 检验检验等。等。3.3.确定确定P P 值并做出统计推断结论值并做出统计推断结论 查表得到检验用的临界
16、值,然后将算得的统计量查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定与拒绝域的临界值作比较,确定P 值。如对双侧值。如对双侧 t 检检验验 ,则,则 ,按检验水准按检验水准 拒绝拒绝H0 0。2/2()t|t|P 小小 结结 1.1.总体参数值在现实中通常不能获得总体参数值在现实中通常不能获得,而是通过而是通过随机样本来进行估计。由于个体存在差异,因此通随机样本来进行估计。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,这种由抽样过样本推论总体时会存在一定的误差,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。造成的样本均数与总体均数的差异称为抽样误差。抽样误差抽样误差的大小可以用标准误进行衡量。的大小可以用标准误进行衡量。2.2.参数估计有点估计和区间估计两种方式。点估参数估计有点估计和区间估计两种方式。点估计计的重要表达方式是平均值;的重要表达方式是平均值;区间估计是指按预先区间估计是指按预先给定的概率,计算出一个区间,使它能够包含未知给定的概率,计算出一个区间,使它能够包含未知的总体均数。区间的总体均数。区间越窄说明估计的准确度越高。越窄说