《讲课3第一章统计案例1.2独立性检验的基本思想及其初步应用课件新课标人教A版选修1.ppt》由会员分享,可在线阅读,更多相关《讲课3第一章统计案例1.2独立性检验的基本思想及其初步应用课件新课标人教A版选修1.ppt(23页珍藏版)》请在第壹文秘上搜索。
1、 日常生活中我们关心这样一些问题:1.吸烟与患呼吸道疾病有无关系?2.秃顶与心脏病之间有无关系?3.性别与喜欢数学课之间有无关系?以上问题用什么知识来解决呢?1.2 1.2 独立性检验的基本思想及其初步应用独立性检验的基本思想及其初步应用 在统计学中,独立性检验就是检验两个分类变量是在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。否有关系的一种统计方法。所谓所谓“分类变量分类变量”,就是指个体所属的类别不同,也,就是指个体所属的类别不同,也称为称为属性变量属性变量或或定型变量定型变量。在日常生活中,我们常常关心两个分类变量之间是在日常生活中,我们常常关心两个分类变量之间是否
2、有关系,例如吸烟是否与患肺癌有关系?性别是否对否有关系,例如吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响等等。于喜欢数学课程有影响等等。吸烟与患肺癌列联表吸烟与患肺癌列联表患肺癌患肺癌不患肺癌不患肺癌总计总计吸烟吸烟49492099209921482148不吸烟不吸烟42427775777578177817总计总计91919874987499659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表2 22 2在不吸烟者中患肺癌的比重是在不
3、吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 0.54%0.54%2.28%2.28%1)通过图形直观判断通过图形直观判断三维柱三维柱状图状图2)通过图形直观判断通过图形直观判断二维二维条形图条形图3)通过图形直观判断通过图形直观判断患肺癌患肺癌比例比例不患肺癌不患肺癌比例比例等高等高(频率频率)条形图条形图问题1:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?说明:说明:吸烟者和不吸烟者患肺癌的可能吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大性存在差异,吸烟者患肺癌的可能性大问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断
4、?问题3:能否用数量刻画出“有关”的程度?独立性检验H H0 0:吸烟吸烟和和患肺癌患肺癌之间之间 没有没有关系关系 通过数据和图表分析,得到通过数据和图表分析,得到结论是:结论是:吸烟与患肺癌有关吸烟与患肺癌有关结论的可靠结论的可靠程度如何?程度如何?吸烟与患肺癌列联表吸烟与患肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+dacac,a+bc+da+bc+d a c+d c a+b,a c+d c a+b,adbc吸烟的人中不患肺癌的比例:吸烟的人中不患肺癌的比例:b
5、aa不吸烟的人中不患肺癌的比例:不吸烟的人中不患肺癌的比例:dcc若若H H0 0成立成立0.adbcad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强dcban其中dbcadcbabcadnK22引入一个引入一个随机随机变变量量 (卡方统计量卡方统计量)2k随机随机变变量量:p12:p12页划书页划书通过公式计算通过公式计算 吸烟与患肺癌列联表吸烟与患肺癌列联表患肺癌患肺癌不患肺癌不患肺癌总计总计吸烟吸烟49492099209921482148不吸
6、烟不吸烟42427775777578177817总计总计91919874987499659965632.569198742148781720994249777599652kk:k2的一个观测得到 此结果此结果,说明说明“两个变量有关系两个变量有关系”的程度的程度 有多大呢有多大呢?界定的标准是什么哪界定的标准是什么哪?。已知已知在在H H0 0成立的情况下成立的情况下(卡方分布规律表卡方分布规律表p13p13),故有故有99%99%的把握认为的把握认为H H0 0不成立,即有不成立,即有99%99%的的把握把握认为认为患肺癌与吸烟有关系患肺癌与吸烟有关系现在的卡方的观测值现在的卡方的观测值 k
7、=56.632k=56.632的观测值远的观测值远大于大于6.6356.635,出现这样的观测值的概率不超,出现这样的观测值的概率不超过过0.010=10.010=1%。即在即在 成立的情况下,成立的情况下,大于大于6.6356.635概率非常小,概率非常小,近似为近似为0.0100.0100H2K010.0)635.6(2KPH H0 0:表示:表示吸烟吸烟和和患肺癌患肺癌之间之间没有没有关系关系随机事件随机事件1212页划书页划书 认为认为“患肺癌与吸烟有关系患肺癌与吸烟有关系”犯错误犯错误的概率不会超过的概率不会超过.010=1%.010=1%.a+b+c+da+b+c+db+db+da
8、+ca+c总计总计c+dc+dd dc ca+ba+bb ba a总计总计一般地,对于两个分类变量一般地,对于两个分类变量X X和和Y Y。X X有两类取值:有两类取值:即类即类 和和 (如吸烟与不吸烟);(如吸烟与不吸烟);Y Y也有两类取值:也有两类取值:即类即类 和和 (如患病与不患病)。于是得到下列样(如患病与不患病)。于是得到下列样本频数的本频数的2 22 2列联表为:列联表为:x1x2y2y1y1y2x1x2 用卡方统计量来确定在多大程度上可以认为用卡方统计量来确定在多大程度上可以认为“两个分类变量有关系两个分类变量有关系”的方法称为这两个分类变的方法称为这两个分类变量的量的独立性
9、检验独立性检验。要推断要推断“X X和和Y Y有关系有关系”,可按下面的步骤进行:,可按下面的步骤进行:(1 1)提出假设)提出假设H H0 0 :X X和和Y Y没有没有关系;关系;(3 3)查对临界值,作出判断。)查对临界值,作出判断。(2 2)根据)根据2 22 2列联表列联表与公式计算与公式计算 的值;的值;2k2K0k0k10.8287.8796.6355.0243.8410.0010.0050.0100.0250.052.7062.0721.3230.7080.4550.100.150.250.400.50P()小结小结反证法原理与独立性检验独立性检验原理反证法原理:在一个已知假设
10、下,如果推出一个矛盾,就证明了这个假设不成立。独立性独立性检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。例例1.在某医院在某医院,因为患心脏病而住院的因为患心脏病而住院的665名男性病人名男性病人中中,有有214人秃顶人秃顶;而另外而另外772名不是因为患心脏病而住名不是因为患心脏病而住院的男性病人中有院的男性病人中有175秃顶秃顶.分别利用图形和独立性检分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系验方法判断秃顶与患心脏病是否有关系?你所得的结论你所得的结论在什么范围内有效在什么范围内有效?秃顶与患心脏病列联表秃顶与患心脏病列联表患心脏病患
11、心脏病患其他病患其他病总计总计秃顶秃顶214175389不秃顶不秃顶4515971048总计总计6657721437有有99%的把握认为的把握认为“秃顶与患心脏病有关秃顶与患心脏病有关”635.6373.167726651048389)451175597214(14372k说明:在熟悉独立性检验的原理后,可以通说明:在熟悉独立性检验的原理后,可以通过直接计算过直接计算K K的观测值(不画等高条形图)的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题,来解决两个分类变量的独立性检验问题,但是,借助图形更直观。但是,借助图形更直观。犯错误的概率是指将犯错误的概率是指将“秃顶与患心脏病有秃
12、顶与患心脏病有关系关系”错判成错判成“秃顶秃顶与心脏病没有关系与心脏病没有关系”的概率的概率例例2 为考察高中生的性别与是否喜欢数学课程之间的关为考察高中生的性别与是否喜欢数学课程之间的关系。在某城市的某校高中生随机抽取系。在某城市的某校高中生随机抽取300名学生。得到名学生。得到如下列联表:如下列联表:性别与喜欢数学课程列联表性别与喜欢数学课程列联表喜欢喜欢不喜欢不喜欢总计总计男男3785122女女35143178总计总计72228300 由表中数据计算得到由表中数据计算得到K2的观测值的观测值k4.514。能够。能够以以95的把握认为高中生的性别与是否喜欢数学课程的把握认为高中生的性别与是
13、否喜欢数学课程之间有关系吗?为什么?之间有关系吗?为什么?解:在假设解:在假设 “性别与是否喜欢数学课程之间没有关系性别与是否喜欢数学课程之间没有关系”的前提下,的前提下,应该很小,并且应该很小,并且而我们所得到的而我们所得到的 的观测值的观测值 超过超过3.8413.841,这就,这就意味着意味着“性别与是否喜欢数学课程之间有关系性别与是否喜欢数学课程之间有关系”这一结论这一结论是错误的可能性约为是错误的可能性约为0.050.05,即有,即有95%95%的把握认为的把握认为“性别与性别与是否喜欢数学课程之间有关系是否喜欢数学课程之间有关系”。2K2K2K05.0)841.3(2KP514.4
14、k作业:作业:P15 P15 练习题练习题 再再见见练习练习:(P17)甲乙两个班级进行一门考试甲乙两个班级进行一门考试,按照学生考试成绩优秀和按照学生考试成绩优秀和不优秀统计后不优秀统计后,得到如下列联表得到如下列联表:优秀优秀不优秀不优秀总计总计甲班甲班103545乙班乙班73845总计总计177390画出列联表的条形图出列联表的条形图,并通过图形判断成绩与班级是否并通过图形判断成绩与班级是否有关有关.利用列联表的独立性检验估计利用列联表的独立性检验估计,认为认为“成绩与班级成绩与班级有关系有关系”犯错误的概率是多少。犯错误的概率是多少。由图及表直观判断,好像由图及表直观判断,好像“成绩优秀与班级有关系成绩优秀与班级有关系”,由表中,由表中数据计算,得数据计算,得 的观察值为的观察值为 。由教科书中表。由教科书中表1-121-12,得,得从而由从而由50%50%的把握认为的把握认为“成绩优秀与班级有关系成绩优秀与班级有关系”,即断言,即断言“成成绩优秀与班级有关系绩优秀与班级有关系”犯错误的概率为犯错误的概率为0.50.5。2K455.0653.0k50.0)455.0(2KP100%90%80%70%60%50%40%30%20%10%0%优秀优秀不优秀不优秀列联表的条形图:列联表的条形图: