《第15章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第15章多元线性回归.ppt(38页珍藏版)》请在第壹文秘上搜索。
1、1 多元(重)线性回归多元(重)线性回归 multiple linear regression 2回归模型:回归模型:Y=+X+(总体)(总体)回归方程:回归方程:Y=a+bX34偏回归系数偏回归系数(partial regression coefficient)j(j=1,2,m)的意义:的意义:01122mmYbb Xb Xb X52()YY63.前提条件(前提条件(LINE)(,)0,(;,1,)ijCov e eij i jn0,ieN2()iVar e7参数估计参数估计22()iQeY Y201122()mmYbb Xb Xb Xmin01000mQQQbbb,8m+194.求偏回归
2、系数求偏回归系数1112121111mmnnmxxxxXxx12nyyYyijx1012211121222122212mmmmmmmnxxxxxx xx xAxx xxx xXXxx xx xx1112 myxyCXYxyxy111213112122232231231111nnmmmnmnyxxxxyxxxxyxxxxy 12X XBX Y1()BX XX Y1AX Y1A CX1AXA1301112()mbbBbA CX XX Yb14(三三)回归方程的假设检验及回归效果粗评回归方程的假设检验及回归效果粗评检验回归方程检验回归方程/(1)MSSSSSmFMSSSSSnm回回回回剩剩剩剩152
3、22()()/SSYyYYn总2()j jySSyyb l回SSSSSS剩总回(1)1nmnm剩总回162.2.粗评回归效果粗评回归效果确定系数确定系数 R R 2 2 (coefficient of determination)(coefficient of determination)R 2的假设检验的假设检验 (与回归方程假设检验等价)(与回归方程假设检验等价)22/(1)/(1)MSRmFRnmMS回剩17 方程中所有自变量均有统计学意义而方程方程中所有自变量均有统计学意义而方程外所有自变量均无统计意义止外所有自变量均无统计意义止18/1/(1)jjXSSXFSSnm回剩()jSSX回
4、jXjX19jjjbbbtSjbS12|/(1)jjjjbejjymjjbbtSSn mCSC=n-m-120P262 例例15-112345.9433+0.1424+0.3515-0.2706+0.6382YXXXX214.4.自变量的筛选的方法自变量的筛选的方法2223245.5.回归方程回归效果的评价回归方程回归效果的评价 (自变量筛选评判标准)(自变量筛选评判标准)确定系数:确定系数:R R2 2校正确定系数校正确定系数256.6.评价各自变量对因变量相对贡献的大小评价各自变量对因变量相对贡献的大小标准偏回归系数标准偏回归系数(/)/jjjyjjjyybb SSbll jb26jb11
5、22ppYb Xb Xb Xpmjb/jjjjXXxSjb由于由于 没有量纲,因此可以相互比较大小,没有量纲,因此可以相互比较大小,反映自变量对应变量的相对作用大小。反映自变量对应变量的相对作用大小。jb2728iy29iyixiyiy1,nmiiyytS iy112iyymggSSX AX11ggSSX AXnm剩301,nmiyytS1121iyymggSSX A X1(1)1eggSSX A XnmgXgXix31哑变量哑变量(dummy variable)110X代表男性代表女性210X代表汉族少数民族再如职业。32违背回归模型基本假设的情形 33多重共线性(multicollinea
6、rity)34以下问题的发生,在排除了数据质量、样本的代表性有问题等因素后,应该考虑是由于自变量之间的线性关系造成的,称为多重共线性。n1)在某个检验水平在某个检验水平下,回归方程的统计检验下,回归方程的统计检验P,而,而分别各偏回归系数的检验均出现分别各偏回归系数的检验均出现P的矛盾现象;的矛盾现象;n2)偏回归系数的估计值明显地与实际情况不符,如偏回偏回归系数的估计值明显地与实际情况不符,如偏回归系数的符号与专业知识知道的情况相反,或者是偏回归系数的符号与专业知识知道的情况相反,或者是偏回归系数的绝对值大(或小)得不可信;归系数的绝对值大(或小)得不可信;n3)根据专业知识,该自变量与因变
7、量之间关系密切,而根据专业知识,该自变量与因变量之间关系密切,而偏回归系数的检验结果却偏回归系数的检验结果却P;n4)增加(或剔除)一个变量,或者改变(或删除)一个增加(或剔除)一个变量,或者改变(或删除)一个观察值,引起偏回归系数的估计值发生大的变化。观察值,引起偏回归系数的估计值发生大的变化。35多重共线性的识别方差膨胀因子方差膨胀因子36多重共线性的解决办法 虽有很多文献加以讨论,但目前虽有很多文献加以讨论,但目前尚无十全十美尚无十全十美的办法的办法,大体上这些方法可以归为三类:,大体上这些方法可以归为三类:n一是筛选自变量,通过将引起多重共线性的变量从模型中一是筛选自变量,通过将引起多
8、重共线性的变量从模型中剔除出去,从而解决多重共线性问题,如逐步回归法剔除出去,从而解决多重共线性问题,如逐步回归法(stepwise regression)就是成功应用的一种方法;就是成功应用的一种方法;n二是适当选取参数估计方法,如利用有偏估计替代最小二二是适当选取参数估计方法,如利用有偏估计替代最小二乘法,岭回归分析乘法,岭回归分析(ridge regression)、主成分回归分析(详、主成分回归分析(详见第见第20章)等;章)等;n三是其它方法,如通过改变变量定义形式(差分法),或三是其它方法,如通过改变变量定义形式(差分法),或增加样本含量,使增加样本含量,使Cov(B)计算公式中分
9、母项增大以减少方计算公式中分母项增大以减少方差,提高估计精度差,提高估计精度,或利用已知信息得到变量之间的线性关或利用已知信息得到变量之间的线性关系代入方程,减少自变量个数等方法。系代入方程,减少自变量个数等方法。37异方差性(variance heterogeneity)n不满足不满足ei的方差是一个常数的方差是一个常数(i=1,2,n)。n如果出现异方差性,使得参数的假设检验和可信区间的建如果出现异方差性,使得参数的假设检验和可信区间的建立发生困难、回归方程的预测精度降低。立发生困难、回归方程的预测精度降低。n很难说哪一种检验方法是最好的,常用的方法有:图求检很难说哪一种检验方法是最好的,
10、常用的方法有:图求检验法、等级相关检验法、验法、等级相关检验法、Glejser检验、检验、Goldfeld-Quandt检检验、验、Bartlett检验等。检验等。n克服异方差性的方法有变量变换后再建立模型、加权最小克服异方差性的方法有变量变换后再建立模型、加权最小二乘法(二乘法(WLS)、广义最小二乘法()、广义最小二乘法(GLS)等)等。38多元回归分析的注意事项 n(1)回归分析要有实际意义,线性回归用于预测时,最好回归分析要有实际意义,线性回归用于预测时,最好不要外推。不要外推。n(2)注意线性回归分析的应用条件(注意线性回归分析的应用条件(LINE)n(3)方程与变量的检验方程与变量
11、的检验 回归方程有统计学意义,并不表示回归方程有统计学意义,并不表示方程中每个自变量均有统计学意义,因此除了对方程进行方程中每个自变量均有统计学意义,因此除了对方程进行检验,还要对每个自变量的作用进行检验。检验,还要对每个自变量的作用进行检验。n(4)变量的筛选方法很多,最常用的是逐步前进法和逐步变量的筛选方法很多,最常用的是逐步前进法和逐步后退法。用逐步回归分析所得结果不一定是全局最优的,后退法。用逐步回归分析所得结果不一定是全局最优的,而是局部最优的。而是局部最优的。理论上剔除变量和选择变量是同一个界值。理论上剔除变量和选择变量是同一个界值。但实际但实际分析时我们总选两个界值,分析时我们总选两个界值,P 剔剔略大于略大于P 选选,或,或F 剔剔略小于略小于F 选选,以免计算机进入,以免计算机进入“死循环死循环”。n(5)样本含量样本含量 作多元回归分析需要的样本含量作多元回归分析需要的样本含量n:至少是至少是所研究的变量数所研究的变量数m的的1020 倍。倍。