《第3章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第3章多元线性回归.ppt(59页珍藏版)》请在第壹文秘上搜索。
1、第三章第三章 多元线性回归多元线性回归 3.1 多元线性回归模型3.2 回归参数的估计3.3 参数估计量的性质3.4 回归方程的显著性检验3.5 中心化和标准化3.6 相关阵与偏相关系数3.7 本章小结与评注 3.1 多元线性回归模型一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 y=0+1x1+2x2+pxp+2)var(0)(E3.1 多元线性回归模型一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 对n组观测数据(xi1,xi2,xip;yi),i=1,2,n,线性回归模型表示为:nnppnnnppppxxxyxxxyxxxy221102222221102111
2、2211101 3.1 多元线性回归模型一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 写成矩阵形式为:y y=XX+,其中,nyyy21y)1(11 1pnnpn2n12p22211p1211 x x x x x x x x xXp10 0n213.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 1.解释变量x1,x2,xp是确定性变量,不是随机变量,且要求rk(X)=p+1n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 2 .随机误差项具有0均值和
3、等方差,即 这个假定称为Gauss-Markov条件),2,1,()(,2,1,)(ni,j j0 ,ij,i,cov n0,iE2jii3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 3.正态分布的假定条件为:相互独立,1,2,),0(212niniN用矩阵形式(3.5)式表示为:N(0,2In)3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 在正态假定下:yN(X,2In)E(y y)=XXvar(y)=2In 3.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 y表示空调机的销售量,x1
4、表示空调机的价格,x2表示消费者可用于支配的收入。y=0+1x1+2x2+E(y)=0+1x1+2x2在x2保持不变时,有在x1保持不变时,有11)(xyE22)(xyE3.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 考虑国内生产总值GDP和三次产业增加值的关系,GDP=x1+x2+x3现在做GDP对第二产业增加值x2的一元线性回归,得回归方程24855.19.2895xy3.1 多元线性回归模型年份GDP第一产业增加值x1第二产业增加值x2第三产业第三产业增加值增加值x3199018 547.9 5 017.0 7 717.4 5 813.5 199121 61
5、7.8 5 288.6 9 102.2 7 227.0 199226 638.1 5 800.0 11 699.5 9 138.6 199334 634.4 6 882.1 16 428.5 11 323.8 199446 759.4 9 457.2 22 372.2 14 930.0 199558 478.1 11 993.0 28 537.9 17 947.2 199667 884.6 13 844.2 33 612.9 20 427.5 199774 462.6 14 211.2 37 222.7 23 028.7 199878 345.2 14 552.4 38 619.3 25 17
6、3.5 199982 067.5 14 472.0 40 557.8 27 037.7 200089 468.1 14 628.2 44 935.3 29 904.6 200197 314.8 15 411.8 48 750.0 33 153.0 2002105 172.3 16 117.3 52 980.2 36 074.8 2003117 390.2 16 928.1 61 274.1 39 188.0 2004136 875.9 20 768.1 72 387.2 43 720.63.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 建立GDP对x1和x2的回归,
7、得二元回归方程=2 914.6+0.607 x1+1.709 x2y 你能够合理地解释两个回归系数吗?3.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的普通最小二乘估计 最小二乘估计要寻找使得,,210pniippiiiniippiiipxxxyxxxyQp1222110,1222110210)(min )(),(2103.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的普通最小二乘估计 0)(20)(20)(20)(212211012221102221122110111122110000niipippiiipppniiippiii
8、niiippiiiniippiiixxxxyQxxxxyQxxxxyQxxxyQ3.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的普通最小二乘估计 经整理后得用矩阵形式表示的正规方程组 0 0X Xy yX X)(y yX XX XX X1X XX X当y yX XX XX X-1)(移项得存在时,即得回归参数的最小二乘估计为:3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差ippiiixxxy22110称为回归值y yX XX XX XX XX Xy y-1)(X XX XX XX XH H-1)(称为帽子矩阵,其主对角线元素记为hii,
9、则3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差 此式的证明只需根据迹的性质tr(ABAB)=tr(BABA),因而1)(1phHtrniii1)1ppt tr r(I I)X XX XX XX Xt tr r()X XX XX Xt tr r(X Xt tr r(H H)-1-1)()(3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差 cov(e,e)=cov(cov(e,e)=cov((I-HI-H)Y,Y,(I-HI-H)Y)Y)=(I-HI-H)cov(Y,Y)cov(Y,Y)(I-HI-H)=2 2(I-HI-H)I In n(I-HI-
10、H)=2 2(I-HI-H)得 D(ei)=(1-hii)2,i=1,2,nH H)y y-(I IH Hy yy yy yy ye e3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差 niiepnpnSSEpn12211(1111)e ee e是2的无偏估计2112)1()()(pneDeEniinii得 3.2 回归参数的估计回归参数的估计 三三、回归参数的最大似然估计、回归参数的最大似然估计 y yN(X,X,2I In)似然函数为)X X-y yX X-y y(21exp()2(2222nnL)X X-y yX X-y y(21)ln(2)2ln(2ln22nnL
11、等价于使(y y-XX)(y y-XX)达到最小,这又完全与OLSE一样3.2 回归参数的估计回归参数的估计 例例3.13.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1
12、998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。3.2 回归参数的估计回归参数的估计 CoefficientsCoefficientsa a-205.388117.019-1.755.096-1.43822.913-.012-.063.9512.62218.599.023.141.8893.2972.468.7491.336.198-.9461.298-.312-.729.476-5.5214.514-.963-1.223.2374.0683.960.7601.027.31
13、84.1625.079.446.819.423-15.40410.835-.520-1.422.17217.3388.3741.0382.071.0539.15510.168.221.900.380-10.5365.622-.780-1.874.0771.3705.006.042.274.787(Constant)x1x2x3x4x5x6x7x8x9x10 x11x12Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:ya.3.3 参数估计量的性质参数估计量
14、的性质 性质性质1 是随机向量y的一个线性变换。y yX XX XX X-1)(性质性质2 是是的无偏估计。的无偏估计。X XX XX XX XX XX XX XX Xy yX XX XX Xy yX XX XX X)1-1-1-1)()E()()E()()(E(E3.3 参数估计量的性质参数估计量的性质 y yX XX XX Xy yX XX XX XE EE E1 11 1E)(E()(E(),cov()(D)11-X XX XX X-X XX XX XX XX XX XX XX XX XX XX X1 11 1()(EE1 11 11 11 11 11 11 1X XX XX XX XX
15、 XI IX XX XX XX XX X)X)XX XX XX XX XX XX XX XX XX X2n2)E(E(E3.3 参数估计量的性质参数估计量的性质 当p=1时 niiniiniixxxn1211 X XX Xxx22212xx2L nL xxxxniiLxLxxn )(1112221niiniiniixxxX XX XX XX X3.3 参数估计量的性质参数估计量的性质 性质性质4 Gauss-Markov定理预测函数 020210100ppxxxy是 的线性函数 Gauss-Markov定理定理 在假定E(y)=X,D(y)=2In时,的任一线性函数 的最小方差线性无偏估计(B
16、est Lnear Unbiased Estimator简记为BLUE)为c,其中c是任一p+1维向量,是的最小二乘估计。C3.3 参数估计量的性质参数估计量的性质 第一,取常数向量c的第j(j=0,1,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。第二,可能存在y1,y2,yn的非线性函数,作为 的无偏估计,比最小二乘估计 的方差更小。第三,可能存在 的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计 更好。第四,在正态假定下,是 的最小方差无偏估计。也就是说,既不可能存在y1,y2,yn的非线性函数,也不可能存在y1,y2,yn的其它线性函数,作为 的无偏估计,比最小二乘估计 方差更小。CCCCCCCC3.3 参数估计量的性质参数估计量的性质 性质性质5 cov(,e)=0此性质说明 与e e不相关,在正态假定下等价于与e e独立,从而与 独立。eeSSE性质性质6 在正态假设时),(2nIXyN时)(,(21XXN(1)(2)1(/22 pnSSE3.4 回归方程的显著性检验回归方程的显著性检验 一、一、F检验检验 H0:1=2