《2023-2024学年人教A版选择性必修第三册 第8章成对数据的统计分析章末知识梳理 学案.docx》由会员分享,可在线阅读,更多相关《2023-2024学年人教A版选择性必修第三册 第8章成对数据的统计分析章末知识梳理 学案.docx(9页珍藏版)》请在第壹文秘上搜索。
1、章末知识梳理知识结轲理脉络I变量的相关关系成对数据的 统计相关性I相关关系一T正相关I-I负相关II样本相关系数一一1计算公式及丽 一|相关系数性质I即数据的统计分析一一元线性回归模型及其应用Ll 一无线性WI归模型III -L-I最小二乘估计IT Li最小二乘法|一经验回归方程l-l列联表与独 立性检验分类变员可列联衣T独立性检验I-计算及应用要点梳理斯精华知识点1变量的相关关系1.散点图为了直观地描述成对样本数据中两个变量间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则每一对成对样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.2.线性相关与非线性相关(1
2、)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.(2)非线性相关一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关.知识点2样本相关系数1 .样本相关系数(1)计算公式:ZXiyS-nxy(2)取值范围:-1,1.2 .样本相关系数的意义样本相关系数,,是一个描述成对样本数据的数字特征,r的符号反映了相关关系的正负性;3的大小反映了两个变量相关的程度,具体如下:(Dr的正负当上0时,称成对数据正相关;当KO时,称成对数据负相关.(2)z的绝对值当Irl越接近于1时,成对数据的线性相关程度越强;IrI越接
3、近于0,成对数据线性相关程度越弱.3 .判断相关关系的两种方法(D通过作散点图,观察由所给的数据描出的点是否在一条直线附近来判定,直观方便.(2)利用相关系数.知识点3一元线性回归模型参数的最小二乘估计1 .最小二乘估计设满足一元线性回归模型的两个变量的对样本数据为(乂,(在,,外),当小。的取值为时,。(随机误差的平方和)达到最小.我们将=x+称为y关于X的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做6,a的最小二乘估计.2 .残差分析对于响应变量必通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观
4、测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等.残差分析的一般方法有以下两种:(D残差图(2)4的表达式及其意义计算公式#=1一.对于已获取的样本数据,/表达式中的(%7)2为确定的数,因此越大,残差平/=1方和(匕一下越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果/=I越差.知识点4分类变量与列联表(1)分类变量(2)2X2列联表如下表所示,我们将给出成对分类变量数据的交叉分类频数的表格,称为2X2列联表.yyi合计XiabaZ?X2Cdc+d合计a+cb+da+c+d(3)等高堆积条形图
5、与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.分别计算出中间四个数各自的频率,可以用等高堆积条形图直观展示上述计算结果.注意:(D在等高堆积条形图中,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;同一行中两列数据对应不同的颜色.(2)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,如果两个高度相差比较明显和扁相差很大),就判断两个分类变量之间有关联.知识点5独立性检验的基本思想1.独立性检验的定义一般地,假设有两个分类变量X和匕其样本频数Y合计Y=Qr=/=0aba+6X=Cdc+d合计a+cb+d
6、2=a+b+c+d依据上述2X2列联表构造统计量-=(+)(;,;?)(+,/),利用随机变量小的取值推断分类变量是否独立的方法称为炉独立性检验,简称独立性检验.2.临界值表0.10.050.010.0050.001Xa2.7063.8416.6357.87910.8283.应J用独立性检验的lE要环节(1)提出零假设“:分类变量I和F相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2X2列联表,计算一的值,并与临界值人比较.(3)根据检验规则得出推断结论.(4)在和V不独立的情况下,根据需要,通过比较相应的频率,分析才和V间的影响规律.G素养突破提技能要点一回归分析回归分析是对具有相
7、关关系的两个变量进行统计分析的一种常用方法,也是本章的重点、高考的热点,主要考查线性回归分析.题型既有选择、填空题,也有解答题.典例1连锁经营公司所属5个零售店某月的销售额利润资料如表:商店名称BCDE销售额千万元35679利润额y/百万元23345(D画出销售额和利润额的散点图;(2)若销售额和利润额具有相关关系,试计算利润额?对销售额X的经验回归直线方程;(3)估计要达到1OOO万元的利润额,销售额约为多少万元.(%一X)(必一y)ZMD-Xy/=1J=I_参考公式:=,yXZ(XLX)2x,nX2=ii分析(1)根据表中所给的数据,在平面直角坐标系中画出散点图即可;(2)求出对应的_55
8、_数值X,y,以及Xy,工XM,E总和X2,代入公式即可求出经验回归直线方程的系Z=I/=I数与方程;(3)根据题意,令=IO(注意单位),求出X的值即可.解析(1)根据表中所给的5对数据,在平面直角坐标系中画出散点图,如图所示.V)5-4-3-2-I-,oI123456789万元)(2)vT3579=6,23+3+4+517./JX-17y =5X6XV=IO2,ZMM=3X2+5X3+6X3+7X4+9X5=112,Z=IZ=32+52+62+72+92=200,/=1T2=562=180,1121021L=200-180=5=05172=yX=0.56=0.4,OO,利润额y对销售额X的
9、经验回归直线方程是=0.5x+0.4.(3)根据题意,令=0.5x+0.4=10,解得X=19.2(千万元),故销售额约为19200万元.规律方法1.建立经验回归模型的步骤(D确定研究对象,明确变量必y.(2)画出变量的散点图,观察它们之间的关系.(3)确定经验回归方程的类型.(4)按一定规则估计经验回归方程中的参数(如最小二乘法).(5)得出经验回归方程.2.分析两个变量线性相关的常用方法(D散点图法,该法主要是用来直观地分析两变量间是否存在相关关系.(2)相关系数法,该法主要是从量上分析两个变量间相互联系的密切程度,Irl越接近于1,相关程度越大;61越接近于0,相关程度越小.要点二独立性
10、检验的基本思想与方法独立性检验的基本思想是:先作出零假设“,即假设两个分类变量没有关系,再根据这个假设应用统计的方法进行分析,得到一个统计量炉的值,再由统计学得到的各临界值,确定我们的假设是否成立,以及假设的不合理程度.典例2某校为了探索一种新的教学模式,进行了一项课题实验,乙班为实验班,甲班为对比班,甲、乙两班均有50人,一年后对两班进行测试,成绩如下表(总分:150分).甲班成绩80,90)90,100)100,110)110,120)120,130频数42015101乙班成绩80,90)90,100)100,110)110,120)120,130频数11123132(1)现从甲班成绩位于
11、90,120)内的试卷中抽取9份进行试卷分析,请问用什么抽样方法更合理,并写出最后的抽样结果;(2)根据所给数据可估计在这次测试中,甲班的平均分是101.8,请你估计乙班的平均分,并计算两班平均分相差几分;(3)完成下面2X2列联表,依据小概率值。=0.05的独立性检验,分析这两个班在这次测试中成绩的差异与实施课题实验是否有关,并说明理由.成绩小于100分成绩不小于100分总计甲班2650乙班1250总计3664100解析(I)用分层抽样的方法更合理.甲班成绩位于90,120)内的试卷共有20+15+1091=45(份),从中抽取9份,抽样比为京=于故在90,100),100,110),110
12、,120)各分数段内4bD抽取试卷20X2=4(份),I5X=3(份),10X1=2(份)估计乙班的平均分为X乙=85xJ+95X+105X+115X+125x4=105.8,105.8-101.8=4,即两班的平均分相差4分.(3)补全列联表如下:成绩小于100分成绩不小于100分总计甲班242650乙班123850总计3664100零假设幕:两个班的成绩差异与实施课题实验无关.由列联表中的数据,得小的观测值为Y=史嚓聚点笠宜=6253.841=mo5,根据小概率值。=0.05的独立检验,我们推断4不成立,即认为这两个班在这次测试中成绩的差异与实施课题有关,此推断犯错误率不超过0.05.规律
13、方法使用2X2列联表进行独立性检验:(D根据数据绘制2X2列联表,并检验数据是否符合要求.(2)由公式*=(a+:(a;C)(ZHdT计算出/的值.(3)将炉的数值与临界值进行对比.(4)作出统计判断.要点三概率、统计与独立性检验的综合问题概率、统计与独立性检验的综合问题在高考中常常出现,一般为解答题,难度中等.有时古典概型与独立性检验综合,有时样本的分布与独立性检验综合,更有三者融合在一起的综合性较强的题目出现.典例3某电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查.根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图如图所示:将日均收看该体育节目的时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2X2列联表,试根据小概率值。=0.05的独立性检验,分析“体育迷”是否与性别有关;性别电视观众合计非体育迷体育迷男女1055合计(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X若每次抽取的结果是相互独立的,求才的分布列,期望0)和方差O).nad-b02(a+b)(c+cQ+c)(b+0.050.01k3.8416.635解析(D由频率分布直方图可知,