《成对数据的统计分析 第7课时 列联表与独立性检验.docx》由会员分享,可在线阅读,更多相关《成对数据的统计分析 第7课时 列联表与独立性检验.docx(15页珍藏版)》请在第壹文秘上搜索。
1、8.3列联表与独立性检验(2课时单元教学设计)第一课时梁伟(安徽省淮南第四中学)第二课时洪敏(安徽省淮南第三中学)1教学内容和内容解析1.1 内容第1课时分类变量的概念、2X2列联表、等高条形图:第2课时两个分类变量的独立性检验.1.2 内容解析(1)引入分类变量的必要性:在当今大数据时代和“互联网+”的大背景下,本节课对提升学生的数据分析素养和提高学生的信息处理能力起到一个至关重要的作用.“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的.因此,教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即利用随机抽样获得一定的样本数据,再利用随机事
2、件发生的频率稳定于概率的原理,求出相关概率进行比较,或借助更加直观的方法一等高条形图,为后续引出相对更精确的解决办法一独立性检验做铺垫.(2)分类变量:分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等.教材首先举例说明了前面两节讨论的变量都是数值变量,通过数值变量与分类变量的对比,引出分类变量.从而引出我们本节课主要讨论分类变量的关联性问题.(3)22列联表:实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.教材
3、通过举例的方法介绍了什么是2x2列联表.22列联表给出了成对分类变量数据的交叉分类频数.(4)等高条形图:教材介绍了如何通过不同的统计软件绘制等高条形图,并让学生感受利用等高堆积条形图可以更加直观地展示分类变量的关联性.(5)独立性检验是研究随机变量独立性的一种统计方法。为了解总体中两个分类变量是否相互独立,可以从总体中抽取简单随机样本,整理成一个2x2列联表,独立性检验就是根据列联表检验两个分类变量是否相互独立。独立性检验是假设检验的一个特例,假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断
4、的结果是拒绝或接受零假设。所以独立性检验本质上是一种概率推断,是一种依据概率在“0:无实质差异”与aH1:有实质差异”这两种推断中选择其一。这是一种“概率反证法”,通过样本出现的事件是否属于小概率事件来判断总体假设的真伪。独立性检验的数学基础是条件概率与独立事件概率的乘法公式,其推断步骤可分为:第一步,提出想要验证的假设”0,称为零假设;第二步,若假设“0不成立,则提出假设称为对立假设;第三步,若假设Ho成立,构造一个只有在小概率的情况下才能观察到的现象?;第四步,依据样本数据确认是否观察到了现象?;第五步,若能观察到现象/的情况下,则推断假设“0是错误的,此时便可以拒绝“0,而选择假设第六步
5、,若未能观察到现象,则无法拒绝假设H。,可选择假设独立性检验的依据是小概率原理:即小概率事件在一次试验中几乎不可能发生。在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设。所以独立性检验是检验假设而不是证明假设,所以推论会出现两类错误:第一类错误是拒绝了正确的零假设,犯了第一类错误的概率是Q;第二类错误是没有拒绝错误的零假设。独立性检验在犯第一类错误的概率和犯第二类错误之间做平衡,希望犯这两种错误的概率都尽可能地小,但减少第一类错误的概率就会增大犯第二类错误的概率。因为第
6、二类错误对样本量特别敏感,所以可以通过样本量降低第二类错误的概率。独立性检验是从样本数据中发现关系,是成对样本数据统计分析的重要内容,是依据数据进行合理推理的典型方法,体现了数学的理性精神,也是提升数据分析和逻辑推理素养的重要素材。2目标和目标解析2.1目标(1)了解分类变量与数值变量的区别.(2)了解回归与相关的区别.(3)通过实例,理解通过比较相关比率,利用2x2列联表或等高图可以初步检验两个随机变量的独立性.(4)通过对建立回归分析模型步骤的回忆,获得分析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能
7、会犯错误.(6)基于2x2列联表,通过具体实例,了解独立性检验的基本思想。(7)掌握独立性检验的基本步骤,会用独立性检验解决简单的实际问题,提升数据分析能力。2.2目标解析达成上述目标的标志分别是:(1)会判断一个变量是否是分类变量、是否是数值变量.(2)面对不同的数据分析案例,知道什么时候用回归分析,什么时候用相关分析.(3)会通过比较相关比率,判断两个随机变量的独立性.(4)会对简单的数据分析案例进行初步独立性分析.(5)明白通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误,为下节课独立性检验做准备.(6)基于2x2列联表,通过具体实例,解释通过条件概率分析两个分类变量独立性的方
8、法,以及能说明用于两个分类变量独立性的统计量/构造的合理性;能说出基于小概率原则的独立性检验的基本思想,发展数据分析和逻辑推理素养。(7)能说出独立性检验的基本步骤,并能用独立性检验方法解决简单的实际问题。3教学问题诊断分析3.1 问题诊断(1)回归和相关的区别是初学者容易感到迷惑的地方.也是本章内容的重点,我们要从课前预习、课中设问、课后反思的不同学习阶段突出重点、突破难点.通过频率分析法和图形分析法,得到的结论有可能是错误的,是同学们的理解难点,这里通过合理设问突破难点.(2)学生已经学习过统计、变量回归分析等知识,在了解列联表的基础上,能用频率的稳定性直观推断两分类变量的独立性,也知道这
9、种推断有可能出现错误。在本节中,通过引导,学生能将分类变量的独立性与事件的独立性联系起来,但要将独立性检验与一个小概率事件进行关联存在困难,这不仅是学生首次遇到这样的问题,更是逻辑推理过渡到概率推理的统计思想的提升。关于小概率。的正确理解。如果从一个样本中能够观察到小概率事件发生,表明拒绝假设0而接受假设其这个结论发生错误的概率不超过,但不表明假设成立的概率超过1-a。小概率Q是针对检验的样本的,并不是关于零假设的,零假设或者对或者错,永远只能是这二者之一,对于这样的结论的理解是比较困难的,这是造成学生对于独立性检验的结论认知困难的主要原因。在理解独立性检验的推断可能会犯错误,学生也可能存在接
10、受上的困难。此外,涉及的统计思想方法主要是假设检验的思想方法,也是学生可能感到困惑的。为了突破学习上的障碍,教学中创设一些生活化的问题情境引导学生学习,先定性描述再定量刻画,先直观理解再逻辑表达,强调用分类变量的样本频率分布与理论分布的误差及频率稳定于概率的原理来构造小概率事件,通过举例、讨论等形式突破难点。以具体案例为载体,帮助学生理解统计量的内涵,体会独立性检验的思想方法。3.2 教学难点(1)分析清楚回归与相关的区别.(2)卡方统计量的导出和意义,独立性检验的思想和方法.4教学支持条件分析本节课研究的是2019人教A版普通高中教科书数学选择性必修第三册)第八章”成对数据的统计分析第三节“
11、列联表与独立性检验的内容,是在前面学生学习的普通高中教科书数学(必修第二B)(第九弹统计)中蟒I知识的i片步应用,并与本册教材前面提到的事件的独立性一节关系紧密.本节课是在学生学习完回归分析之后的内容,所以可以将上一节课的统计研究方法进行总结,并应用到本节课的统计案例中来.借助GeoGCbra软件中的统计功能,直观呈现?分布的密度曲线,并利用力?分布密度曲线依据小概率值确定临界值与,帮助学生理解独立性检验的思想。此外,还使用了Geogebra软件解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上。6教学过程设计2第二课时1.1 教学内容两个分类变
12、量的独立性检验.1.2 教学目标(1)基于2x2列联表,通过具体实例,了解独立性检验的基本思想.(2)掌握独立性检验的基本步骤,会用独立性检验解决简单的实际问题,提升数据分析能力.1.3 教学重难点教学重点:独立性检验的基本思想和基本方法.教学难点:1.用概率推理研究两个分类变量的独立性,关于小概率。的正确理解.2. %?独立性检验的原理和方法,理解独立性检验的推断可能犯错误.1.4 教学过程设计6. 4.1创设情境,提出问题问题1:在上一节课,我们学习了22列联表,依据随机事件的频率稳定于概率的原理,利用相关比率和条件概率推断两个分类变量之间是否有关联.还借助等高堆积条形图,直观分析两个分类
13、变量是否有关联.但用频率推断两个分类变量是否有关联有可能是错误的,为什么?师生活动:教师引导学生对频率与概率的比较,由频率具有随机性,与概率之间存在差异;通过数据改变,由样本容量较小时,犯错误的概率较大,得出用频率推断两个分类变量是否有关联有可能是错误的.问题2:有没有一种更合理的推断方法,同时也希望对出现的错误推断的概率有一定的控制或估算?设计意图:以旧知引出新知,为选用更具科学性的统计手段研究两个分类变量的相关关系做好铺垫.7. 4.2初步探索、展示内涵问题3:在上节课例1中,我们希望判断学校是否与数学成绩优秀率有关联,如何从概率的角度去研究两个分类变量X和Y是否有关联?师生活动1:教师引
14、导学生思考如何将其数学化,用数学的语言表示.用。表示两所学校学生构成的集合.考虑以。为样本空间的古典概型,并定义一对分类变量X和y如下:对于。中的每个学生,分别令:y=fo,该生来自甲校,rJo,该生数学成绩不优秀,l1该生来自乙校,一八该生数学成绩优秀.如果从甲校和乙校中各随机选取一人,那么该甲校学生数学成绩优秀的概率是p(y=x=o),该乙校学生数学成绩优秀的概率是尸(y=)我们要判断学校是否影响学生的数学成绩,就看事件Y=1与事件X=1或事件X=0是否有关联,即比较条件概率p(y=x=o)和p(y=)师生活动2:为了使问题的讨论具有一般性,我们将两个分类变量的列联表抽象简化,以0,1分别
15、表示事件发生的两种结果,如表所示,即我们需要了解事件X=1与Y=1是否存在关联.X=OX=IY=OX=0,Y=OX=l,Y=OY=IX=0,Y=IX=l,Y=I我们通过样本数据去判断两个变量是否有关联,有点类似法官凭证据判案.法官在判定某个嫌疑犯是否有罪前,应先作一个无罪假设,这叫“无罪推定”.统计中在推断两个变量是否有关联前,也往往先作个无关联的假定.Ho:P(r=lx=0)=P(y=x=i),通常称HO为零假设或原假设.这里,P(Y=Iix=O)表示从x=o中随机选取一个样本点,该样本点属于x=o,y=i的概率;而p(y=ii=i)表示从x=i中随机选取一个样本点,该样本点属于=,y=i的概率.设计意图:以例1的生活实例,通过将问题抽象为以概率语言表达的数学问题,提升学生的数学抽象素养,激发学生类比迁移的能力.通过以法官判案为例,形象地解释零假设的含义,帮助学生突破难点.问题4:能否能用条件概率的知识,分析零假设HO,给出分类变量X和y独立的定义?师生活动:由条件概率的定义可知,零假设HO等价于P(X=O,y=)P(X=Ly=I)P(X=O)-P(X=I)即P(X=O,y=)P(X=I)=P(X=I,y=)p(x=o)(*)注意到X=0和=l为对立事件,于是P(X=O)=I-