《第5章方差分析.ppt》由会员分享,可在线阅读,更多相关《第5章方差分析.ppt(56页珍藏版)》请在第壹文秘上搜索。
1、第第5章章 方差分析方差分析Analysis of Variance(ANOVA)5.1 方差分析简介5.2 单因素方差分析5.3 双因素方差分析 2学习目标学习目标l掌握方差分析中的基本概念;l掌握方差分析的基本思想和原理;l掌握单因素方差分析的方法及应用;l初步了解多重比较方法的应用;l了解双因素方差分析的方法及应用。35.1 方差分析中的基本概念方差分析中的基本概念和假设和假设 4为什么要进行方差分析?为了比较四个专业的起薪,我们从某高校四个专业的毕业生中分别随机选择6人调查他们的起薪。如何根据样本数据比较不同专业毕业生的平均起薪?5要研究的问题要研究的问题总体总体1 1,1 1(专业(
2、专业=1=1)总体总体2 2,2 2 (专业专业=2=2)总体总体3 3,3 3(专业专业=3=3)样本样本1 1样本样本2 2样本样本3 3样本样本4 4总体总体4 4,4 4(专业专业=4=4)211,sx222,sx233,sx244,sx?4321 6各个总体的均值相等吗?各个总体的均值相等吗?Xf(X)1 2 3 4Xf(X)3 1 2 4 7研究方法:两样本的研究方法:两样本的t检验?检验?l用t检验比较两个均值:l每次只能比较两个均值,要解决上述问题需要进行6次t检验l在整体检验中犯第一类错误的概率显著增加:如果在每次t检验中犯第一类错误的概率等于5%,则在整体检验中等于1-(1
3、-0.05)6=0.2649 8方差分析可以用来比较多个均值方差分析可以用来比较多个均值l方差分析(Analysis of variance,ANOVA)的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。l可以看作t检验的扩展,只比较两个均值时与t检验等价。l20世纪20年代由英国统计学家费希尔(R.A.Fisher)最早提出的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。95.1.1 方差分析中的几个基本概念方差分析中的几个基本概念l因变量:我们实际测量的、作为结果的变量,例如失业持续时间。l自变量:作为原因的、把观测结果分成几个组以进行比较的变量例如奖金水平。l
4、在方差分析中,自变量也被称为因素(factor)。l因素的不同表现,即每个自变量的不同取值称为因素的水平。105.1.1 基本概念基本概念l方差分析主要用来研究一个定量因变量与一个或多个定性自变量的关系l只有一个自变量的方差分析称为单因素方差分析。l研究多个因素对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。115.1.1:固定效应与随机效应模型:固定效应与随机效应模型 l固定效应模型:因素的所有水平都是由实验者审慎安排而不是随机选择的。l随机效应模型:因素的水平是从多个可能的水平中随机选择的。l固定效应和随机效应模型在假设的设置和参数估计上有所差异,本章研究的都
5、是固定效应模型。125.1.2:方差分析中的基本假设:方差分析中的基本假设l(1)在各个总体中因变量都服从正态分布;l(2)在各个总体中因变量的方差都相等;l(3)各个观测值之间是相互独立的。13(1)正态性的检验)正态性的检验 l各组数据的直方图l峰度系数、偏度系数lQ-Q图,K-S检验*14(2)等方差性的检验)等方差性的检验 l经验方法:计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。最大值和最小值的比例等于1.833.32,p-值=0.00020.05,因此检验的结论是采伐对林木数量有显著影响。变差源SSdfMSFP-valueF crit组间625.16
6、2312.5811.430.00023.32组内820.723027.36总计1445.8832 325.2.4 方差分析中的多重比较方差分析中的多重比较l在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这在方差分析中称为事后检验(Post Hoc test)。l多重比较是对各个总体均值进行的两两比较。方法很多,如Fisher最小显著差异(Least Significant Difference,LSD)方法、Tukey的诚实显著差异(HSD)方法或Bonferroni的方法等。这里我们只介绍最小显
7、著差异方法。33用用LSD法进行多重比较的步骤法进行多重比较的步骤l1、提出假设lH0:i=jlH1:i jl2、计算检验的统计量 l3a、如果 或 则拒绝H0。l3b、计算 的置信区间:如果0包含在该置信区间内则不能拒绝H0,否则拒绝H0。)11(jijinnMSExxt2/tt2/tt jixx)11()(2/jijinnMSEtxx 34实例:热带雨林采伐实例:热带雨林采伐l很多统计软件都可以直接进行多重比较。下表是SPSS对热带雨林例子的输出结果。l置信区间5.3114.03,3.2612.68不包括0,差异显著。l置信区间-6.043.02包括了0,差异不显著。(I)采伐类型(J)采
8、伐类型均值差(I-J)标准误p-值95%置信区间下限上限从未采伐过1年前采伐过9.672.140.00015.3114.038年前采伐过7.972.310.00173.2612.681年前采伐过从未采伐过-9.672.140.0001-14.03-5.318年前采伐过-1.692.310.4682-6.403.028年前采伐过从未采伐过-7.972.310.0017-12.68-3.261年前采伐过1.692.310.4682-3.026.40 355.3 双因素方差分析双因素方差分析l5.3.1 无交互作用的双因素方差分析l5.3.2 有交互作用的双因素方差分析l5.3.3 双因素方差分析的
9、步骤 36交互作用交互作用l交互作用即一个因素对因变量的影响程度受另一个因素的影响的情况。l假设学生分两类:在校和在职。把两类学生随机分成两组,分别采用课堂讲授和交互式教学方法,考试结果如下表。l可见课堂讲授的方式更适合于在校生,交互式教学方式更适合于在职生。在这种情况下我们说两个因素之间存在着交互作用。课堂讲授交互式教学在校学生9075在职学生7590 37双因素方差分析的类型和基本假设双因素方差分析的类型和基本假设l双因素方差分析中因素A和B对结果的影响相互独立时称为无交互作用的双因素方差分析。l如果除了A和B对结果的单独影响外还存在交互作用,这时的双因素方差分析称为有交互作用的双因素方差
10、分析。l双因素方差分析中的基本假设是各个子总体都服从正态分布,有相同的方差,并且各个观测值之间相互独立(与单因素时相同)。385.3.1无交互作用的双因素方差分析模型无交互作用的双因素方差分析模型l在无交互作用的双因素方差分析模型中因变量的取值受四个因素的影响:总体的平均值;因素A导致的差异;因素B导致的差异;以及误差项。写成模型的形式就是:ijkiiijX 395.3.1无交互作用的双因素方差分析模型无交互作用的双因素方差分析模型l离差平方和的分解:SSESSBSSAXXXXXXrmXXsmXXSSTrisjmkjiijksjjriirisjmkijk111212121112)()()()(
11、SSASSBSSESST 40无交互作用的双因素方差分析表无交互作用的双因素方差分析表变差来源离差平方和SS自由度df均方MSF值A因素SSAr-1MSA=SSA/(r-1)FA=MSA/MSEB因素SSBs-1MSB=SSB/(s-1)FB=MSB/MSE误 差SSEn-r-s+1MSE=SSE/(n-r-s+1)合 计SSTn-1 415.3.2 有交互作用的双因素方差分析模型有交互作用的双因素方差分析模型l在有交互作用的双因素方差分析模型中因变量的取值受五个因素的影响:总体的平均值;因素A导致的差异;因素B导致的差异;由因素A和因素B的交互作用导致的差异;以及误差项。写成模型的形式就是:
12、ijkijiiijX)(425.3.2 有交互作用的双因素方差分析模型有交互作用的双因素方差分析模型l离差平方和的分解:SSESSABSSBSSAXXXXXXmXXrmXXsmXXSSTrisjmkijijkrisjjiijsjjriirisjmkijk111211212121112)()()()()(SSTSSASSBSSESSAB 43有交互作用的双因素方差分析表有交互作用的双因素方差分析表变异来源离差平方和SS自由度df均方MSF值A因素SSAr-1MSA=SSA/(r-1)FA=MSA/MSEB因素SSBs-1MSB=SSB/(s-1)FB=MSB/MSEAB交互作用SSAB(r-1)
13、(s-1)MSAB=SSAB/(r-1)(s-1)FAB=MSAB/MSE误 差SSErs(m-1)MSE=SSE/rs(m-1)合 计SSTn-1 445.3.3 双因素方差分析的步骤(双因素方差分析的步骤(1)l双因素方差分析的步骤与单因素分析类似,主要包括以下步骤:l1.分析所研究数据能否满足方差分析要求的假设条件,需要的话进行必要的检验。如果假设条件不满足需要先对数据进行变换。455.3.3 双因素方差分析的步骤(双因素方差分析的步骤(2)l2、提出零假设和备择假设。双因素方差分析可以同时检验两组或三组零假设和备择假设。l要说明因素A有无显著影响,就是检验如下假设:l要说明因素B有无显
14、著影响,就是检验如下假设:l在有交互作用的双因素方差中,要说明两个因素的交互作用是否显著还要检验第三组零假设和备择假设:0:210rH0:211不全为,rH0:210sH0:211不全为,sH0)()(:rs12110H0)()()(:rs12111不全为,H 465.3.3 双因素方差分析的步骤(双因素方差分析的步骤(3)l 3、计算F检验值。l4、根据实际值与临界值的比较,或者p-值与的比较得出检验结论。l与单因素方差分析的情况类似,对FA、FB和FAB,当F的计算值大于临界值F(或者p-值)时 拒绝零假设H0。47双因素方差分析:起薪的例子(双因素方差分析:起薪的例子(1)同时考虑专业和
15、性别因素,二者对起薪有显著影响吗?(假设无交互作用)序号序号专业专业性别性别起薪(元)起薪(元)1103000210310031033004114000511370061135007203500 48双因素方差分析:起薪的例子(双因素方差分析:起薪的例子(2)l1、同时考虑两个因素时,每种实验条件下的数据只有3个,不适合直接进行正态性和等方差性检验。假设这些条件成立。l2、提出假设(有交互作用的方差分析模型):l对专业因素:l对性别因素:0:43210H0:43211不全为,H0:210H0:211不全为,H 49双因素方差分析:起薪的例子(双因素方差分析:起薪的例子(3)l在SPSS菜单中选
16、择“分析”“一般线性模型”“单变量”,经过相应的设定后输出的方差分析表。源III 型平方和df均方FSig.校正模型7528333 41882083.33 17.52 0.0000 截距216600417 1216600416.67 2016.12 0.0000 专业4927917 31642638.89 15.29 0.0000 性别2600417 12600416.67 24.20 0.0001 误 差2041250 19107434.21 总计226170000 24校正的总计9569583 23 50双因素方差分析:起薪的例子(双因素方差分析:起薪的例子(4)l由于专业变量对应的p值(Sig.一栏)为0.0000,说明在考虑了性别因素以后各专业之间的平均起薪差异仍然是显著的。l从性别对起薪的影响看,该变量对应的p值为0.0001,小于通常使用的a值,说明平均起薪的性别差异也是显著的。51双因素方差分析:失业保险的例子(双因素方差分析:失业保险的例子(1)年龄组123928894奖 11008980859078868878金21088972937579967782水 392797