《华北理工卫生统计学教案11简单线性回归.docx》由会员分享,可在线阅读,更多相关《华北理工卫生统计学教案11简单线性回归.docx(2页珍藏版)》请在第壹文秘上搜索。
1、课程名称:卫生统计学A第11周,第20讲次摘要授课题目(章、节)第十一章简单线性回归第一节线性回归第二节线性回归的应用本讲目的要求及重点难点:【目的要求】通过本讲课程的学习,掌握线性回归的概念、适用条件及回归系数计算的方法。【重点】线性回归的概念、适用条件及回归系数计算的方法。【难点】回归系数计算的方法。内容【本讲课程的引入】上节课我们学习了两变量的关联性分析,通过相关系数可以描述两变量相关的方向及密切程度,如果发现两变量存在相关性,比如呈正相关的话,表示一个变量增加另一个变量也会相应增加,但是二者在数量上改变的程度应该如何表示呢,这一点通过相关分析是不能解决的,而要研究两变量在数量上的依存关
2、系的话,就要使用回归分析。这次课程我们就来学习一下简单回归分析。【本讲课程的内容】第一节线性回归一、线性回归的概念及其统计描述回归:描述反应变量如何随自变量变化而变化的规律性。回归分析的基本任务:在相关分析的基础上,具体描述反应变量(Y)对自变量(X)的线性依赖关系的形式。联系相关 介绍 回归上一章中得例题:基础代谢随体重增大而增大且呈直线趋势,但并非14个点恰好全部都在一直线上。两变量数量间虽然存在一定关系,但不是十分确定的。这与两变量间严格对应的函数关系不同,称为直线回归(Linearregression)0直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregres
3、sion)反应变量(Y)与自变量(X)的简单线性模型(simplelinearregressionmodel)可表达为:Yi=a+Xi+i在通常情况下,研究者只能获取一定数量的样本数据,用该样本数据建立的有关丫与X变化的线性方程称为回归方程(regressionequation)即:Y=a+bX二、线性回归模型的适用条件1 .线性是指反应变量Y的总体平均值与自变量X呈线性关系。2 .独立是指任意两观察值互相独立。3 .正态性假定是指任意给定X值,对应的随机变量丫都服从正态分布。因变量y为来自正态分布的随机变量;X可以是规律变化的或人为选定的一些数值(I型回归),也可以是随机变量(型回归)。4
4、.等方差是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。三、回归参数的估计一)回归参数估计的最小二乘原则参数一般只能通过样本数据来估计。当X取值为Xi时,丫的平均值的估计应为a+bXi,而实际观察值为Yi。两者之差称为残差,ei=Yi-(a+bXi),即当a与b取不同值时获取不同的候选直线,如能求a与b的适宜值,能使所有实测值到这条直线的上纵向距离的平方和为最小,则称这一对a和b为与的最小二乘估计。二)回归参数的估计方法a为Y轴上的截距;b为斜率,表示X每改变一个单位,Y的变化的值,称为回归系数;表示在X值处Y的总体均数估计值。为求a和b两系数,根据数学上的最小二乘法原理,可导出
5、a和b的算式如下:(a=Y-bX对本例求回归系数b和截距a0=6L4229a=Y-bX=06.1S64列出回归方程?=110679+61.42X四、总体回归系数的统计推断1 .方差分析P218例11-22 .t检验P219例11-3第二节线性回归的应用一、Y的总体均数的置信区间yfbL例11-1中,试计算当Xl=50.7时,的95%可信区间。y=a+bx=1106.79+61.42x50.7=4220.784X=55,5143,Ixx=1144.577Sx=165.1311SLSY.X=49.9991VnIXX422Q7842.17949.9991=(4111.84,4329.73)二、个体Y值的预测区间”广Sdl+gj%用例11-1所求回归方程,试计算当Xl=50.7时,个体Y值的95%容许区间。Sy因=xjl1=172.5346422Q7842.1791725346=(3844.83,4596737)举例【本讲课程的小结】【本讲课程的作业】回归系数的意义。