《第七章相关分析和回归分析.ppt》由会员分享,可在线阅读,更多相关《第七章相关分析和回归分析.ppt(65页珍藏版)》请在第壹文秘上搜索。
1、w第一节 变量间的相关关系w第二节 简单回归分析w第三节 多元回归分析第一节第一节 变量间的相关关系变量间的相关关系相关的概念相关分析的内容相关系数及其计算相关系数的检验一、变量相关的概念一、变量相关的概念变量间的函数关系变量间的函数关系是一一对应的确定关系设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量1、某种商品的销售额(y)与销售量(x)之间的关系可表示为 y=p x(p 为单价)2、圆的面积(S)与半径之间的关系可表示为S=
2、R2 3、企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1 x2 x3变量间的相关关系变量间的相关关系现象之间存在的一种非确定性的数量依存关系(家庭收入和储蓄)变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定。当变量 x 取某个值时,变量 y 的取值可能有几个。1、商品的消费量(y)与居民收入(x)之间的关系2、商品销售额(y)与广告费支出(x)之间的关系3、粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系4、收入水平(y)与受教育程度(x)之间的关系5、父亲身高(y)与子女身高(x)之间
3、的关系相关关系的类型相关关系的类型(课本第(课本第114页)页)相关关系相关关系正正相相关关负负相相关关相关方向相关方向变量多少变量多少单单相相关关复复相相关关相关形式相关形式线线性性相相关关非非线线性性相相关关完完全全相相关关中中度度相相关关低低度度相相关关相关程度相关程度弱弱相相关关高高度度相相关关相关关系的图示相关关系的图示二、相关分析的内容二、相关分析的内容(1)判断现象之间有无相关关系(2)判断相关关系的方向、表现形态和密切程度特点:w不必区分自变量和因变量w是回归分析的基础手段w定性分析、相关表、相关图、相关系数相关表和相关图相关表和相关图 将变量X与Y对应数据用统计表反映,形成相
4、关表。探讨变量x,y的相关关系时,常须先做出散点图(Scatter Diagram),以坐标系上的点代表x,y的观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。相关表相关表 表表 10-1:Click 宝珠笔的地区调查结果宝珠笔的地区调查结果 地区地区 销售额销售额 (千美元)(千美元)广告广告 (电视时段(电视时段/月)月)X1X1 销售代表人数销售代表人数 X2X2 005005 260.3260.3 5 5 3 3 019019 286.1286.1 7 7 5 5 033033 279.4279.4 6 6 3 3 039039 410.8410.8 9 9 4
5、4 061061 438.2438.2 1212 6 6 082082 315.3315.3 8 8 3 3 091091 565.1565.1 1111 7 7 101101 570.0570.0 1616 8 8 .“Click”公司对公司对40个销售地区的调查结果见表个销售地区的调查结果见表相关图相关图(见前(见前“相关关系的图示相关关系的图示”)图:图:Click宝珠笔的地区调查散点图宝珠笔的地区调查散点图 700 700 600 600 500 500 400 400 300 300 200 200 100 100 5 10 15 20 25 X1 2 4 6 8 10 X2 电 视
6、 广 告(a)销 售 代 表 人 数(b)由“click”公司的散点图可以看到销售额随每月电视广告时数增加时增加(a图);某地区销售代表人数变多时,该地区的销售额也随之上升(b图)。a图和b图进一步表示销售额与各变量之间的关系呈直线关系。现在问题在于各变量之间的紧密关系究竟强到何种程度。这就涉及到一个常用的指标相关系数。三、相关系数及其计算三、相关系数及其计算1、对变量之间关系密切程度的度量2、对两个变量之间线性相关程度的度量称为简单相关系数(偏相关系数与复相关系数见课本第115页)yxrxy2xy 变量x和y的协方差 x变量x的标准差 y变量y的标准差nyynxxyyxxnyxxy222)(
7、)()(1相关系数的演变公式相关系数的演变公式22222222 yynxxnyxxynynyxnxyxnxyr相关系数取值及其意义相关系数取值及其意义1、r 的取值范围是-1,12、|r|=1,为完全相关r=1,为完全正相关;r=-1,为完全负正相关3、r=0,不存在线性相关关系相关4、-1r0,为负相关;0r1,为正相关5、|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切w 1、双胞胎身高间的相关系数是r=0.95w 2、美国2534岁男子收入与受教育程度r=0.34 美国5564岁男子收入与受教育程度 r=0.44生活中的相关:生活中的相关:两点注意两点注意w 1、r=0只表明
8、不存在线性相关,而不能说明是否存在非线性相关(亦即:r=0 时可能存在曲线相关)。w 2、r值仅表明两变量相关程度,不表明因果关系。例:美国1874岁男子身高与体重之间的相关系数约为0.54,以下说法正确的是:(1)较高的男子趋于较重(2)体重较重的男子趋于较高(3)体重与身高之间的相关系数为0.54(4)如果多吃一些从而增加体重,你的身材就会变高。表:表:我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据 单位单位:元元年份年份人均人均国民收入国民收入x人均人均消费金额消费金额y年份年份人均人均国民收入国民收入人均人均消费金额消费金额19811982198319841985
9、19861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关系数算例相关系数算例w根据样本相关系数的计算公式有 w人均国民收入与人均消费金额之间的相关系数为 0.9987上面介绍的是简单相关系数,其次还有复相关系数,偏相关系数和等级相关系数等。(偏相关系数与复相关系数见课本第115页)等级相关系数等级相关系数有些变量无法用数量定大小,只能以等级排序。如才智
10、高低、事态轻重、色泽深浅、效率大小、味道好坏等。斯皮尔曼等级相关系数)1(6122nndrs例:确定学校名气和毕业生表现业例:确定学校名气和毕业生表现业绩之间是否存在相关联?绩之间是否存在相关联?学校12345678910学校名气10791623854毕业生表现排名83729451061差距(d)242-1-3-2-2-2-13差距平方(d2)41641944419四、相关系数的显著性检验四、相关系数的显著性检验样本数据(样本数据(r值)表明两个变量存在相关关系,值)表明两个变量存在相关关系,是否能说明总体变量也存在相关关系?是否能说明总体变量也存在相关关系?检验步骤1、提出假设:H0:;H1
11、:02、计算检验统计量3、相关系数的显著性检验相关系数的显著性检验(实例)(实例)对前例计算的相关系数进行显著性检(0.05)1、提出假设:H0:;H1:02、计算检验的统计量第二节第二节 简单回归分析简单回归分析回归分析的内容回归分析的内容回归模型和回归方程回归模型和回归方程简单线性回归(一元线性回归方简单线性回归(一元线性回归方 程)的建程)的建立(拟合)立(拟合)线性回归方程拟合优度的测定线性回归方程拟合优度的测定回归方程的显著性检验回归方程的显著性检验回归预测回归预测回归方法描述一个变量如何地依赖另一个变量。身高和体重;成绩与努力程度;工作好坏与实力、机遇等“回归”一词来源于生物学。英
12、国生物统计学家高尔顿根据1078对父子身高的散点图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子,但平均而言,父母身材高的其子要矮些,而身材矮小的,其子要高些。这种遗传上身高趋于一般,“退化到平庸”的现象,高尔顿称作回归。高尔顿的学生皮尔逊继续研究,把回归的概念和高尔顿的学生皮尔逊继续研究,把回归的概念和数学方法联系起来,把代表现象之间一般数量关数学方法联系起来,把代表现象之间一般数量关系的直线或曲线称为回归直线或回归曲线。系的直线或曲线称为回归直线或回归曲线。回归:借用的遗传学概念,现指变量之间的一般数量关系。回归分析:用函数关系近似表达现象之间数量变化的一般规律。反映现象间相关关系数
13、量变化规律的函数表达式称为回归模型或方程。回归分析的特点w两个变量不是对等的,必须区分自变量和因变量w回归方程是用来由自变量的给定值来推算因变量数值的。自变量一般是给定的,因变量是随机的。w回归分析是相关分析的目的回归分析与相关分析的区别回归分析与相关分析的区别(见课本(见课本113页)页)1、相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量(dependent variable),处在被解释的地位,x 称为自变量(independent variable),用于预测因变量的变化2、相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机
14、变量,自变量 x 可以是随机变量,也可以是非随机的确定变量3、相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 一、回归分析的内容一、回归分析的内容1、简单线性回归方程的拟合。从一组样本数据出发,确定变量之间的数学关系式2、拟合优度的测定及回归方程的显著性检验。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3、回归预测。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度二、回归模型和回归方程二、
15、回归模型和回归方程回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归回归模型的类型回归模型回归模型1、回答“变量之间是什么样的关系?”2、方程中运用1 个数字的因变量(响应变量)被预测的变量1 个或多个数字的或分类的自变量(解释变量)用于预测的变量3、主要用于预测和估计一元线性回归模型一元线性回归模型(概念要点(概念要点)1、当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归2、对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系3、描述因变量 y 如何依赖于自变量
16、x 和误差项 的方程称为回归模型一元线性回归模型一元线性回归模型(概念要点(概念要点)对于只涉及一个自变量的简单线性回归模型可表示为 模型中,y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数bxay一元线性回归模型一元线性回归模型(基本假定)(基本假定)1、误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为 E(y)=a+b x2、对于所有的 x 值,的方差2 都相同3、误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关回归方程回归方程(概念要点)(概念要点)1、描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程回归方程2、简单线性回归方程的形式如下 E(y)=a+b x三、简单线性