《第12讲回归概念、回归系数.ppt》由会员分享,可在线阅读,更多相关《第12讲回归概念、回归系数.ppt(43页珍藏版)》请在第壹文秘上搜索。
1、1SPSS基础与基础与Access数据库数据库J姓 名:(电 话:*E-mail:上课时间:,上课程点:/答疑地点:答疑时间:2相关分析 相关分析就是描述两个或两个以上变量间关系密切程度的统计方法,有效地揭示事物之间相关关系的强弱程度。二元变量分析偏相关分析距离相关分析上节回顾3第第13讲讲回归分析回归分析4基本概念基本概念5一、一、“回归回归”起源起源“回归回归”一词是英国生物学家、统计学家高尔顿一词是英国生物学家、统计学家高尔顿(F.GaltonF.Galton)在研究父亲身高和其成年儿)在研究父亲身高和其成年儿子身高关系时提出的。子身高关系时提出的。从大量父亲身高和其成年儿子身高数据的散
2、点图中,GaltonGalton发现了一条贯穿其中的直线,它能描述父亲身高和其成年儿子身高的关系,并可以用于根据父亲身高预测其成年儿子身高。Galton通过上述研究发现儿子的平均身高一般总是介于其父亲与其种族的平均高度之间,即儿子的身高在总体上有一种“回归”到其所属种族高度的趋势,这种现象称为回归现象,贯穿数据的直线称为回归线。回归概念产生以后,被广泛应用于各个领域之中,并成为研究随机变量与一个或多个自变量之间变动关系的一种统计分析技术。6二、回归分析的基本概念二、回归分析的基本概念1.1.回归分析的概念回归分析的概念 回归分析就是研究一个或多个变量的变动对另一个变量的变动的影响程度的方法。2
3、.相关分析与回归分析的关系相关分析与回归分析的关系 相关分析是根据统计数据,通过计算分析变量之间关系的方向和紧密程度,而不能说明变量之间相互关系的具体形式,无法从一个变量的变化来推测另一个变量的变化情况。回归分析能够确切说明变量之间相互关系的具体形式,可以通过一个相关的数学表达式,从一个变量的变化来推测另一个变量的变化情况,使估计和预测成为可能。相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。相关与回归7二、回归分析的基本概念二、回归分析的基本概念3.3.回归分析的目的回归分析的目的 根据已知的资料或数据,找出变量之间的关系表达式(找到回归方程),用自变量的已知值去推测因变量的
4、值或范围(进行预测),实际上是研究因果关系。(例如:)4.4.回归分析的基本过程回归分析的基本过程u确定自变量u选择回归分析的模型u估计模型中的参数u模型检验u模型应用xy108二、回归分析的基本概念二、回归分析的基本概念5.5.回归分析可以回归分析可以解决的问题解决的问题u确定因变量与若干个自变量之间联系的定量表达式,即回归方程或数学模型u通过控制可控变量的数值,借助数学模型来预测或控制因变量的取值和精度u进行因素分析,从影响因变量变化的自变量中区分出重要因素和次要因素6.6.分类分类 根据变量之间相关关系的根据变量之间相关关系的表现形式表现形式分为分为u线性回归分析:变量之间的相关关系是线
5、性关系u非线性回归分析:变量之间的相关关系是非线性关系 根据影响因变量的根据影响因变量的自变量的多少自变量的多少分为分为u一元回归分析u多元回归分析9二、回归分析的基本概念二、回归分析的基本概念7.7.回归分析的功能回归分析的功能 实现回归分析的功能主要在实现回归分析的功能主要在“AnalyzeAnalyzeRegression”Regression”命令菜单中,命令菜单中,主要分为:主要分为:u 线性回归分析u 曲线估计分析u 二维逻辑分析u 多维逻辑分析u 顺序分析u 概率分析u 非线性回归分析u 加权估计分析u 两阶最小二乘分析 10线性回归分析线性回归分析11三、线性回归分析三、线性回
6、归分析1.线性回归的线性回归的概念概念 线性函数是变量之间存在的各种关系中最简单的形式,具有这种关系的回归叫做线性回归。线性回归根据自变量多少分为一元回归和多元回归2.对数据的要求:对数据的要求:u自变量和因变量必须是数值型变量u标志或范畴变量,如专业、性别,必须记录为二元的哑变量(虚拟变量)或者其他类型的对立变量u对于因变量的所有观测值(样本)应该认为是来自相互独立的等方差(方差齐性)的正态总体(正态分布),并且因变量和各自变量之间应有一定的线性关系12三、线性回归分析三、线性回归分析3.线性回归的模型线性回归的模型 下面以一元线性回归为例,解析线性回归模型。一元线性回归的数学模型为:在数学
7、模型中 分别称为回归常数和回归系数,称为随机误差。从数学模型可以看出因变量y的变化由两部分组成u自变量x的变化所引起的y的线性变化,即u其他随机因素引起的y的变化,即 如果随机误差的期望为0,那么数学模型可以转化为:称为一元线性回归方程 从几何意义上讲,一元线性回归方程是一条直线,即回归线。从一元线性回归方程可以看出,一元线性回归分析是在不考虑随机因素条件下进行分析的,所以是在比较理想状态下的分析xy10 xy1010、xy10多元线性回归数学模型nnxxxy.2211013三、线性回归分析三、线性回归分析4.线性回归方程的统计检验线性回归方程的统计检验 通过样本数据建立的回归方程,不能立即用
8、于对实际问题的分析和预测,还需要进行各项统计检验。回归方程的回归方程的拟合优度检验拟合优度检验 拟合优度检验采用判定(决定)系数 和调整判定(决定)系数 ,来检验。其中 是,自变量x和因变量y之间的相关系数。和 取值范围是01,越接近1表示拟合优度越高,反之就越低。2R2RR2R2R14三、线性回归分析三、线性回归分析4.线性回归方程的统计检验线性回归方程的统计检验 回归方程和回归系数的显著性检验回归方程和回归系数的显著性检验 1.显著性检验H0假设是:回归系数与0无显著性差异。2.检验采用F统计量和t统计量,SPSS自动计算统计量的观测值和对应的伴随概率。3.如果伴随概率小于显著性水平(0.
9、05),拒绝H0假设,回归系数与0有显著性差异,表明自变量x和因变量y之间有线性关系,回归方程有实际意义。反之,接受H0假设,回归系数与0无显著性差异,表明自变量x和因变量y之间线性关系不显著,回归方程无实际意义。0.0211n15三、线性回归分析三、线性回归分析4.线性回归方程的统计检验线性回归方程的统计检验 残差分析残差分析 残差是指由回归方程计算所得的预测值与实际样本值之间的差距。残差分析是回归方程检验的重要组成部分,如果回归方程能够较好地反映变量之间的变化规律,那么残差中不包含明显的规律性和趋势性。16三、线性回归分析三、线性回归分析4.线性回归方程的统计检验线性回归方程的统计检验 残
10、差分析的主要内容残差分析的主要内容 (1)残差均值为0的正态性分析 对应的残差有正负,但总体上应服从以0为均值的正态分布。可以通过绘制标准化(或学生化)残差的累计概率图来分析。(2)残差的独立性分析 回归方程要求前期和后期的残差数值之间不存在相关关系,即不存在自相关。可以通过绘制残差的序列图、计算残差的自相关系数和DW(Durbin-Watson)检验来分析 17三、线性回归分析三、线性回归分析4.线性回归方程的统计检验线性回归方程的统计检验 残差分析的主要内容残差分析的主要内容 (3)异方差分析 无论变量的取值如何变化,对应的残差分析的方差都应相等(齐性),否则认为出现了,异方差现象。可以通
11、过绘制残差图和等级相关分析来分析。(4)探测样本中的异常值 异常值对回归方程影响较大,可以利用残差分析探测样本中的异常值,加以排除。对于探测因变量y中的异常值方法:标准化残差、学生化残差和剔除残差 对于探测自变量x中的异常值方法:杠杆值、库克距离、标准化回归系数和标准化预测值的变化18三、线性回归分析三、线性回归分析5.5.SPSSSPSS操作及案例分析操作及案例分析 例一:一元线性回归分析例一:一元线性回归分析 一家地产公司调查了某城市的房地产销售价格与房产的评估价值的数据,请用一元线性回归分析,能否用房产的评估价值来预测房地产销售的价格。分析:分析:u自变量x:房产的评估价值;u因变量y:
12、房地产销售价格u散点图分析u一元线性回归结果分析19三、线性回归分析三、线性回归分析5.5.SPSSSPSS操作及案例分析操作及案例分析 操作步骤:操作步骤:(1)根据数据建立散点图,进行初步分析 (2)Analyze RegressionLinear 数据文件:9-linear_one.sav 保存文件:9-linear_one.spo12自变量自变量因变量因变量20三、线性回归分析三、线性回归分析5.5.SPSSSPSS操作及案例分析操作及案例分析 结果分析:结果分析:从建立的散点图来看,自变量x和因变量y之间存在一定的线性关系,而且相关程度较高。21V Va ar ri ia ab bl
13、 le es s E En nt te er re ed d/R Re em mo ov ve ed db b房产评估价值a.EnterModel1VariablesEnteredVariablesRemovedMethodAll requested variables entered.a.Dependent Variable:销售价格b.表表1 1M Mo od de el l S Su um mm ma ar ry y.916a.839.830936.42276Model1RR SquareAdjustedR SquareStd.Error ofthe EstimatePredictors
14、:(Constant),房产评估价值a.表表2 2三、线性回归分析三、线性回归分析5.5.SPSSSPSS操作及案例分析操作及案例分析结果分析:结果分析:(1)表1:变量进入/移出表 Enter表示选定变量全部进入模型(2)表2:模型综述表 相关系数R=0.916、判定系数R2=0.839、调整判定系数R2=0.830,说明变量之间相关程度高,回归方程的拟合优度高。22三、线性回归分析三、线性回归分析5.5.SPSSSPSS操作及案例分析操作及案例分析 结果分析:结果分析:(3)表3方差分析表 F检验统计量得观测值=93.567,伴随概率=0.0000.05,拒绝零假设,说明自变量x和因变量y
15、之间线性关系显著,可以建立线性模型。(4)模型系数表 常数项Constant=895.020,回归系数=1.351;回归系数的伴随概率=0.000,拒绝零假设,说明自变量x和因变量y之间线性关系显著,可以建立线性模型。结论:根据上述分析结果,可以得到回归方程,用该方程来进行分析和预测实际问题,结果较为准确。ANOVAANOVAb b82047704182047703.5593.567.000a1578397618876887.5809783168019RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors:(
16、Constant),房产评估价值a.表表3 3C Co oe ef ff fi ic ci ie en nt ts sa a895.020535.8331.670.1121.351.140.9169.673.000(Constant)房产评估价值Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:销售价格a.表表4 4xy351.102.89523三、线性回归分析三、线性回归分析5.5.SPSSSPSS操作及案例分析操作及案例分析 例二:一元线性回归分析例二:一元线性回归分析 Nambe Mills公司生产5种金属餐具产品,分别是Bowl(碗)、Casserole(焙盘)、Dish(碟)、Tray(托盘)、Plate(盘子)。在生产过程中都有一个抛光的过程。为了有助于安排生产,记录了59个产品的抛光时间(time)、产品类型(type)和产品直径(diam)。用一元线性回归分析能否用产品的直径来预测产品的抛光时间。24三、线性回归分析三、线性回归分析5