《数学建模回归分析.ppt》由会员分享,可在线阅读,更多相关《数学建模回归分析.ppt(32页珍藏版)》请在第壹文秘上搜索。
1、回归分析回归分析引言引言 回归分析是处理很难用一种精确方法表示出回归分析是处理很难用一种精确方法表示出来的变量之间关系的一种数学方法,它是最常用来的变量之间关系的一种数学方法,它是最常用的数理统计方法,能解决预测、控制、生产工艺的数理统计方法,能解决预测、控制、生产工艺优化等问题。它在工农业生产和科学研究各个领优化等问题。它在工农业生产和科学研究各个领域中均有广泛的应用。域中均有广泛的应用。 回归分析一般分为线性回归分析和非线性回回归分析一般分为线性回归分析和非线性回归分析。本节着重介绍线性回归分析的基本结论归分析。本节着重介绍线性回归分析的基本结论及其在及其在MatlabMatlab中的相应
2、命令。线性回归分析是两中的相应命令。线性回归分析是两类回归分析中较简单的一类,也是应用较多的一类回归分析中较简单的一类,也是应用较多的一类。类。一一 一元线性回归分析一元线性回归分析 针对一组(二维)数据针对一组(二维)数据 (其中(其中 互不相同),其最简单的数据拟合形式为互不相同),其最简单的数据拟合形式为寻求直线寻求直线 ,使,使 在最小二乘在最小二乘准则下与所有数据点最为接近。准则下与所有数据点最为接近。 但由于随机观测误差的存在,满足上述数据点但由于随机观测误差的存在,满足上述数据点的直线应该是的直线应该是 (1.1)(1.1) 其中其中x x, , y y是准确的是准确的, , 是
3、两个未知参数,是两个未知参数, 是均是均值为零的随机观测误差,具有不可观测性,值为零的随机观测误差,具有不可观测性, 可以合理地假设这种观测误差服从正态分布可以合理地假设这种观测误差服从正态分布。ix 于是我们得到一元线性回归模型为于是我们得到一元线性回归模型为 (1.2)(1.2) 其中其中 未知,固定的未知参数未知,固定的未知参数 称为称为回归回归系数系数,自变量,自变量x x称为称为回归变量回归变量。 (1.1)(1.1)式两边同时取期望得:式两边同时取期望得: 称为称为y y 对对x x的回归直线方程。的回归直线方程。 在该模型下,第在该模型下,第i i个观测值可个观测值可以看作样本(
4、这些样本相互独立但不同分布以看作样本(这些样本相互独立但不同分布, ,i i = 1,2,= 1,2, ,n n)的实际抽样值,即样本值。)的实际抽样值,即样本值。 一元线性回归分析的一元线性回归分析的主要任务主要任务是:是:a.a.用实验值(样本值)对用实验值(样本值)对 作点估计;作点估计;b.b.对回归系数对回归系数 作假设检验;作假设检验;c.c.在在 处对处对y y 作预测,并对作预测,并对y y作区间估计。作区间估计。1 1、 回归参数回归参数 估计估计 假设有假设有n n组独立观测值:组独立观测值: 则则由由(1.2)(1.2)有有 (1.31.3) 其中其中 相互独立。记相互独
5、立。记 称称 为偏离真实直线的偏差平方和。由最为偏离真实直线的偏差平方和。由最小二乘法得到的估计小二乘法得到的估计 称为称为 的最小二的最小二乘估计,其中乘估计,其中 (经验)回归方程为(经验)回归方程为 (1.4) 这样我们得到这样我们得到 的无偏估计的无偏估计 ,其中其中 服从正态分布服从正态分布2 模型的假设、预测、控制模型的假设、预测、控制1 1、回归方程的显著性检验回归方程的显著性检验 在实际问题中,因变量在实际问题中,因变量y y 与自变量与自变量x x之间是否之间是否有线性关系有线性关系(1.1)(1.1)只是一种假设,在求出回归方程只是一种假设,在求出回归方程之后,还必须对这种
6、回归方程同实际观测数据拟之后,还必须对这种回归方程同实际观测数据拟合的效果进行检验。合的效果进行检验。 由由(1.1)(1.1)可知,可知, 越大,越大,y y 随随x x变化的趋势就变化的趋势就 越明显;反之,越明显;反之, 越小,越小,y y 随随x x变化的趋势就越不变化的趋势就越不明显。特别当明显。特别当 =0=0时,则认为时,则认为y y 与与x x之间不存在线之间不存在线性关系,当性关系,当 时,则认为时,则认为y y与与x x之间有线性关系。之间有线性关系。因此,问题归结为对假设因此,问题归结为对假设 进行检验。进行检验。11110 假设假设: : 被拒绝,则回归显著,认为被拒绝
7、,则回归显著,认为y y 与与x x之间存在线性关系,所求的线性回归方程有意之间存在线性关系,所求的线性回归方程有意义;否则回归不显著,义;否则回归不显著,y y与与x x的关系不能用一元线的关系不能用一元线性回归模型来描述,所得的回归方程也无意义。性回归模型来描述,所得的回归方程也无意义。此时,可能有如下几种情况:此时,可能有如下几种情况:(1 1)x x对对y y没有显著影响没有显著影响,此时应丢掉变量,此时应丢掉变量x x;(2 2)x x对对y y 有显著影响有显著影响,但这种影响不能用线性关,但这种影响不能用线性关 系来表示,应该用非线性回归;系来表示,应该用非线性回归;(3 3)除
8、除x x之外,还有其他不可忽略的变量对之外,还有其他不可忽略的变量对y y 有显有显 著影响,著影响,从而削弱了从而削弱了x x对对y y 的影响。此时应用的影响。此时应用 多元线性回归模型多元线性回归模型。因此,在接受。因此,在接受H0 H0 的同的同 时,需要进一步查明原因以便分别处理。时,需要进一步查明原因以便分别处理。检验方法:(检验方法:(a a)F F检验法检验法 对样本方差对样本方差 进行分解,有进行分解,有 上式中的上式中的 是由实际观测值没有落在回归直线上是由实际观测值没有落在回归直线上引起的(否则为零),引起的(否则为零),U U 是由回归直线引起的。因是由回归直线引起的。
9、因此,此,U U 越大,越大, 就越小,表示就越小,表示y y 与与x x的线性关系就越的线性关系就越显著;否则,显著;否则,U U 越小,越小, 就越大,表示就越大,表示y y 与与x x的线性的线性关系就越不显著。这样我们就找到了一种判别回归关系就越不显著。这样我们就找到了一种判别回归直线拟合程度好坏的方法:直线拟合程度好坏的方法:如果如果U U /s/s接近于接近于1 1,即,即U U / / 较大时,则对拟合效果感到满意。较大时,则对拟合效果感到满意。 由由F F分布有分布有其中其中r r称为相关系数。对给定的显著水平称为相关系数。对给定的显著水平a a ,有置信,有置信水平为水平为1
10、-a 1-a 的临界值的临界值 ,从而,从而F F检验法检验法的检验准则为:当的检验准则为:当 时,拒绝时,拒绝 ;否则就接受;否则就接受(b b)t t检验法检验法当成立时,由当成立时,由T T分布的定义有分布的定义有因此,对于给定的显著水平因此,对于给定的显著水平a a ,用,用T T统计量检验统计量检验 ,有置信水平为有置信水平为1-a 1-a 的临界值的临界值, ,从而从而t t检验法的检验准则为:检验法的检验准则为:当当 时,拒绝时,拒绝 ;否则就接受;否则就接受2 2、预测与控制、预测与控制当检验结果拒绝了当检验结果拒绝了: : ,接下来的问题是如,接下来的问题是如何利用回归方程何
11、利用回归方程 进行预测和控制。进行预测和控制。预测预测就是对固定的就是对固定的x x值预测相应的值预测相应的y y 值,值,控制控制就是通就是通过控制过控制x x的值,以便把的值,以便把y y 的值控制在制定的范围内。的值控制在制定的范围内。(a)(a)预测预测 设设y y 与与x x满足模型满足模型(1.2)(1.2)。令。令 表示表示x x的某个固的某个固定值,且定值,且 假设假设 相互独立,则相互独立,则 的预测值和预的预测值和预测区间如下。测区间如下。 y y 的预测值为的预测值为 的回归值的回归值 。它是。它是 的无偏估计,即的无偏估计,即 给定显著水平给定显著水平 , 的置信水平为
12、的置信水平为1- 1- 的预测区间的预测区间 为为 ,其中,其中 由上式可知,剩余标准差由上式可知,剩余标准差 越小,预测区间越越小,预测区间越小,预测值越精确;对于给定的样本观测值和置信小,预测值越精确;对于给定的样本观测值和置信水平而言,水平而言, 越靠近越靠近 时,预测精度就越高。时,预测精度就越高。 (b)(b)控制控制 若要若要 的值以的值以1- 1- 的概率落在的概率落在 指定区间指定区间( (c c, ,d d) )之内,变量之内,变量x x应控制在什么范围内应控制在什么范围内 的问题就是所谓的控制问题。它是预测问题的反的问题就是所谓的控制问题。它是预测问题的反 问题。问题。 只
13、要控制只要控制x x满足以下两不等式满足以下两不等式 这要求这要求 若方程若方程 分别有解分别有解a a, ,b b,则,则( (a a, ,b b) )就是所求的就是所求的x x的控制区间的控制区间。二二 可线性化的一元非线性回归(曲线回归)可线性化的一元非线性回归(曲线回归) 在工程技术中,自变量在工程技术中,自变量x x与因变量与因变量y y 之间有时之间有时呈现出非线性(或曲线)关系,这是通常出现两呈现出非线性(或曲线)关系,这是通常出现两种情况:种情况:一种是呈现多项式的关系一种是呈现多项式的关系,这种情况通,这种情况通过变量替换可化为多元线性回归问题给予解决;过变量替换可化为多元线
14、性回归问题给予解决;另一种是呈现出其它非线性关系另一种是呈现出其它非线性关系,通过变量替换,通过变量替换可化为一元线性回归问题给予解决。可化为一元线性回归问题给予解决。 若匹配曲线(经验公式)为含参量若匹配曲线(经验公式)为含参量a a, ,b b的非线的非线性曲线,采用的办法是通过性曲线,采用的办法是通过变量替换变量替换把把非线性回非线性回归化为线性回归归化为线性回归。通常匹配的含参量。通常匹配的含参量a a, ,b b的非线性的非线性曲线有以下六类,具体的替换方法如下:曲线有以下六类,具体的替换方法如下: 1 1 双曲线双曲线 作变量替换作变量替换 得得 2 2 幂函数曲线幂函数曲线 两边
15、取常用对数:两边取常用对数: ,再作,再作 代换代换 则幂函则幂函 数曲线方程就变成直线方程数曲线方程就变成直线方程 注:注:对于非线性回归问题的对于非线性回归问题的MatlabMatlab实现问题,一实现问题,一种方法是化为相应的线性模型实现,另种方法是种方法是化为相应的线性模型实现,另种方法是直接应用直接应用MatlabMatlab中相应的命令,其结果是一致的。中相应的命令,其结果是一致的。三三 多元线性回归分析多元线性回归分析 一般地,在实际问题中影响应变量一般地,在实际问题中影响应变量y y 的自变量往的自变量往 往不止一个,不妨设有往不止一个,不妨设有k k 个为个为 。通。通 过观
16、测得到一组(过观测得到一组(k k +1+1维)相互独立的试验观测维)相互独立的试验观测 数据数据 , 其中其中n n k k +1+1。假设变量。假设变量y y 与变量与变量 之间有线性关系:之间有线性关系: (1.5)(1.5) 其中其中 是随机变量,一般假设是随机变量,一般假设 则观测数据满足则观测数据满足 (1.6)(1.6) 其中其中 互不相关且均是与互不相关且均是与 同分布的随同分布的随机变量。令机变量。令 则则(1.6)(1.6)可简写为可简写为 其中其中X X 为已知的为已知的n n* *( (k k +1)+1)矩阵,称为回归设计矩矩阵,称为回归设计矩阵或资料矩阵,阵或资料矩阵,Y Y 是是n n维观察值列向量,维观察值列向量, 为为k k +1+1维未知的列向量,维未知的列向量, 是满足是满足 的的n n维随机列向量维随机列向量. . 一般称一般称 (1.7)(1.7) 为为k k 线性回归模型(高斯线性回归模型(高斯马尔科夫线性模型)马尔科夫线性模型) 对对(1.7)(1.7)取数学期望得到取数学期望得到 称为线性回归方程。称为线性回归方程。 对线性模型所要考虑的