《生物统计学十四.ppt》由会员分享,可在线阅读,更多相关《生物统计学十四.ppt(59页珍藏版)》请在第壹文秘上搜索。
1、l因果关系:回归分析l平行关系:相关分析四、直线回归的区间估计四、直线回归的区间估计l当直线回归关系显著之后,既可用样本统计数a、b来估计总体参数、,又可利用回归方程去估计某一x值对应y总体的平均数和预测单个y值所在的区间。l(一)回归截距和回归系数的置信区间)1(22/2xxyaSSxnssxxyaSSxnss2/1asatastaL1astaL2bstbL1bstbL2回归截距a的方差为:回归截距a的标准误 和t值为:as总体回归截距a的置信区间为:总体回归系数的置信区间为:P141 例7.5(二) 的置信区间和单个y的预测区间 l由 ,故 的标准误为:条件总体平均数 的95%置信区间为:
2、 L1= -t 0.05 ,L2= +t0.05 xy /)(xxbyyy xxyxxyxybyySSxxnsxxSSsnsxxsss2/22/2/222)(1)()(xy /y y ysys ysys2/22/2/2/222xyxxyxyxybyysxxSSsnssxxsss)()(xxySSxxns2/)(11单个y值的标准误为:保证概率为0.95的y 的预测区间为: L1= -t0.05 ,L2= +t0.05 y y P142例7.6l(三) 和单个y观测值置信区间图示 l首先取若干个等距的x 值(x 取值愈密,作图愈准确),算得与其相应的 、 、 和 、 的值;然后再由 和 算得各x
3、上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。 y ysysyst 0.05yst 0.05ysty 0.05ysty 0.05xy/试制作例1资料的y估计值包括和y在内有95%可靠度的置信区间图。表2 例1资料的置信区间和y y的预测区间的计算y XY /ysyst 0.05ysyst 0.051L2L (2)(3)(4)(6)(7)(8),(1)x的95置信区间计算y的95预测区间计算(5)L1,L23032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.751.371.131.091.121.351.72
4、2.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9 一代三化螟盛发期估计及其 95%置信限 l画出 的图像
5、,依次标出l(x,L1)和(x,L2)坐标点,l再连接各(x,L1)得 线,l连接各(x,L2)得 线。连l接各(x,L2)得 线。 和 l 所夹的区间即包括 l在内有95可靠度的置信区间。 l称(x, )的连线 ,(x, )l的连线 。其所夹的区间即l为y的95的预测区间或预测带。 3月下至4月中旬平均温度累积值 例1资料的y y 估计值及其95%置信带y CDABABCDXY /1LGH2LEFAB-15-10-5051015202528303234363840424446五、直线回归的应用及注意问题五、直线回归的应用及注意问题l(一)直线回归的应用l(二)应用直线回归时的注意问题第三节第
6、三节 直线相关直线相关l一、相关系数和决定系数l二、相关系数的假设测验l三、相关系数的区间估计l四、应用直线相关的注意事项一、相关系数和决定系数一、相关系数和决定系数l(一)相关系数l(X,Y )总体没有相关,则落在象限、的点是均匀分散的,因而正负相消, = 0。 Nyxyx1)(l当(X,Y )总体呈正相关时,落在象限、的点一定比落在象限、的多,故 一定为正;同时落在象限、的点所占的比率愈大,此正值也愈大。 Nyxyx1)()(l当(X,Y )总体呈负相关时,则落在象限、的点一定比落在象限、的为多,故 一定为负;且落在象限、的点所占的比率愈大,此负值的绝对值也愈大。 Nyxyx1)(l 的值
7、可用来度量两个变数直线相关的相关程度和性质。但是,x和y 的变异程度、所取单位及N的大小都会影响其大小。l这些因素的影响是可以消去的。方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N 除之。Nyxyx1)(l可定义双变数总体的相关系数为:l l上式中的已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。 l相关系数是两个变数标准化离差的乘积之和的平均数。 NyyxxyxN1122)()()(yyxyxxyxl样本的相关系数 r l因为: 在回归分析时分成了两个部分:一部分是离回归平方和Q ,另一部分是回归平方和
8、U =(SP)2/SSx。l因此,又可有定义: yxSSSSSPyyxxyyxxr22)()()(2)(yySSy2) (yy2)(yyyxyxySSSSSPSSSSSPyyyySSUr/)()()(222lr 的取值区间是-1,1。双变数的相关程度决定于 |r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。 lr 的显著与否还和自由度有关,df越大,受抽样误差的影响越小,r 达到显著水平的值就较小。正的r 值表示正相关,负的r 值表示负相关。而相关系数r的正或负和回归系数b是保持一致。 决定系数决定系数 l决定系数(determination coefficient)定义为由x不
9、同而引起的y 的平方和 占y总平方和SSy= 的比率;也可定义为由y不同而引起的x 的平方和 占x总平方和SSx= 的比率,其值为: 2)(yyU2)(yy2)(xxU2)(xxyyxSSbSPSSSSSPr22)(yySSQSSU1l所以决定系数即相关系数r 的平方值。l决定系数和相关系数的区别在于: 除掉|r |=1和0的情况外,r2总是小于|r |。这就可以防止对相关系数所表示的相关程度作夸张的解释。例如,r =0.5,只是说明由x 的不同而引起的y 变异(或由y 的不同而引起的x 变异)平方和仅占y 总变异(或 x 总变异)l平方和的r2 =0.25,即25%,而不是50%。l r 是
10、可正可负的,而r2则一律取正值,其取值区间为0,1。因此,在相关分析由r 的正或负表示相关的性质,由r2 的大小表示相关的程度。l 相关系数和决定系数的计算lP146 例7.8l一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表7.1。试计算其直线回归方程。 x累积温y盛发期35.534.131.740.336.840.231.739.244.212169273139-1 表7.1 累积温和一代三化螟盛发期的关系 x2x y2 yyxn = 9 =35.5+34.1+44
11、.2=333.7 =35.52+34.12+44.22=12517.49 =12+16+(-1)=70 =122+162+(-1)2=794 =(35.512)+(34.116)+44.2(-1)=2436.4l首先由表7.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据): nxx22)(nyy22)(nyxyxxnxyny SSx =12517.49-(333.7)2/9 =144.6356=794-(70)2/9 =249.55562436.4-(333.770)/9= -159.0444333.7/9=37.077870/9=7.7778*SSy =SP=xSSSP /xb
12、y 因而有: b=-159.0444/144.6356= - 1.0996天/(旬度)a= =7.7778-(-1.099637.0778)=48.5485(天)然后,由一级数据算得5个二级数据:l故得表7.1资料的回归方程为:l上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时,=48.5;因y是以5月10日为0,故48.5为6月2728日)。l由于x变数的实测区间为31.7,44.2,当x31.7或44.2时,y的变化是否还符合=48.5-1.1x的规律,观
13、察数据中未曾得到任何信息。=48.5485-1.0996xy 二、相关系数的假设测验二、相关系数的假设测验l(一) 的假设测验l测验一个样本相关系数 r 所来自的总体相关系数是否为0,所作的假设为H0: 对HA: 0。l在的总体中抽样,r的分布随样本容量n的不同而不同。lr的抽样误差:0 021nrsr2l当 时:l 或 l此 t 值遵循df=n-2的t分布,由之可测验 H0: 。l对于同一资料,线性回归的显著性等价于线性相关的显著性。l将上式移项,即可得到自由度和显著水平一定时的临界 r 值:22tdft0 rsrt 21rnr20r=P136 例7.9三、相关系数的区间估计三、相关系数的区
14、间估计)11lg(1513. 1)11ln(5 . 0rrrrz) 3(1nzzzL1zzL2) 1() 1(22LLeerP137 例7.10四、应用直线相关的注意事项四、应用直线相关的注意事项l1、直线相关分析时对变量的要求l2、相关系数应进行检验l3、变量应尽可能多l4、正确理解相关系数的含义l直线回归与相关的内在关系l回归与相关间的内在联系:l(1)相关系数是标准化的回归系数l回归系数b是有单位的,但若对b作消去单位的标准化处理,即对b中x和y的离均差以各自的标准差sx和sy为单位,则有:222222)()()()()()(xxxxyyyyxxxxsssyyxxsxxsyysxxxyx
15、xyx 所以,有时把相关系数称为标准回归系数。l(2) 相关系数r是y依x的回归系数by/x和x依y的回归系数bx/y的几何平均数。l若对同一资料计算x 依y 的回归,则有bx/y=SP/SSy,因此rSSSSSPyyxxyyxxyx22)()()(rrSSSSSPSSSPSSSPbbyxyxyxxy22/(3)线性回归方程也可用相关系数表示因为xyxyyxxxyssrSSSSSSSSSPSSSPb/所以由(94)表示的回归方程可改写成:)(xxssryyxy (4) 线性回归和离回归的平方和也可用相关系数表示。yyyxxSSrSSSSSSSPSSSPU222yySSrUSSQ)(12l直线回
16、归和相关的应用要点l(1) 回归和相关分析要有学科专业知识作指导。l(2) 要严格控制研究对象(X 和Y )以外的有关因素,即要在 X 和Y 的变化过程中尽量使其它因素保持稳定一致。l(3) 直线回归和相关分析结果不显著,并不意味着X和Y 没有关系,而只说明X 和Y 没有显著的线性关系,它并不能排除两变数间存在曲线关系的可能性。l(4) 一个显著的r 或b 并不代表X 和Y 的关系就一定l是线性的,因为它并不排斥能够更好地描述X 和Y 的各种曲线的存在。l(5)在X 和Y 的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用描述y变数有显著提高。l(6) 一个显著的相关或回归并不一定具有实践上的预测意义。 l(7) 为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。 lExcel在计算平均数、求和、最大值、最小值时的应用lExcel 在频率分布中的应用:frequency函数lExcel在二项分布中的应用:函数BINOMDIST lBINOMDIST 的函数可以计算出二项分布的概率以及累积概率。BINOMDIST 函数可以