《推断统计学原理.ppt》由会员分享,可在线阅读,更多相关《推断统计学原理.ppt(35页珍藏版)》请在第壹文秘上搜索。
1、推断统计学原理推断统计学原理 抽样分布(抽样分布(sampling distribution) 参数估计(参数估计(parameter estimation) 假设检验(假设检验(hypothesis testing) 抽样分布是参数估计与假设检验的抽样分布是参数估计与假设检验的理论基础理论基础三种不同性质的分布三种不同性质的分布 总体分布(总体分布(population distribution):总):总体内个体数值的次数分布。体内个体数值的次数分布。 样本分布(样本分布(sample distribution):样本):样本内个体数值的次数分布。内个体数值的次数分布。 抽样分布(抽样分布
2、(sampling distribution):根:根据所有可能的样本观察值计算出来的某一据所有可能的样本观察值计算出来的某一种种统计量的观察值统计量的观察值的概率分布。的概率分布。从总体分布到抽样分布从总体分布到抽样分布 总体总体X的概率分布的概率分布 这是一个均匀分布(这是一个均匀分布(uniform distribution)总体)总体住户住户第一户第一户第二户第二户第三户第三户第四户第四户 第五户第五户日支出日支出(X)2025303540户数户数11111概率概率0.200.200.200.200.20总体平均数和总体方差总体平均数和总体方差 305)4035302520(1NXNi
3、i50)(122NXNii样本(样本(n=2)的所有可能结果)的所有可能结果第一户第一户第二户第二户第三户第三户第四户第四户第五户第五户第一户第一户(20, 20)M=20(25,20)M=22.5(30,20)M=25(35,20)M=27.5(40,20)M=30第二户第二户(20,25)M=22.5(25,25)M=25(30,25)M=27.5(35,25)M=30(40,25)M=32.5第三户第三户(20,30)M=25(25,30)M=27.5(30,30)M=30(35,30)M=32.5(40,30)M=35第四户第四户(20,35)M=27.5(25,35)M=30(30,
4、35)M=32.5(35,35)M=35(40,35)M=37.5第五户第五户(20,40)M=30(25,40)M=32.5(30,40)M=35(35,40)M=37.5(40,40)M=40样本(样本(n=2)的平均数的抽样分布)的平均数的抽样分布平平均均数数2022.52527.53032.53537.540次次数数123454321概概率率.04.08.12.16.20.16.12.08.04样本样本(n=2)的平均数的抽样分布图的平均数的抽样分布图0 00.050.050.10.10.150.150.20.2202025253030353540400 00.050.050.10.1
5、0.150.150.20.2202022.522.5252527.527.5303032.532.5353537.537.54040不同总体情况下的抽样分布不同总体情况下的抽样分布示意图示意图抽样分布的定理抽样分布的定理 设总体设总体X服从分布服从分布F(x),(,(X1,X2,Xn)是抽自该总体的一个简单随机样本)是抽自该总体的一个简单随机样本(simple random sample),总体均值与),总体均值与样本均值、总体方差与样本均值的方差样本均值、总体方差与样本均值的方差有如下关系:有如下关系:XXE)(nXDX22)(抽样分布的定理抽样分布的定理 从总体中随机抽出容量为从总体中随机
6、抽出容量为n的一切可能样的一切可能样本的平均数之平均数等于总体的平均数;本的平均数之平均数等于总体的平均数; 从总体中随机抽出容量为从总体中随机抽出容量为n的一切可能样的一切可能样本的平均数的方差,等于总体方差除以本的平均数的方差,等于总体方差除以n样本(样本(n=2)平均数的平均数和方差)平均数的平均数和方差NXNiiX1=(20+22.52+253+27.54+305+32.54+353+37.52+40)/25= 30 25)(122NXNiXX样本均值的抽样分布(样本均值的抽样分布(2已知已知)若(若(X1,X2,Xn)是抽自总体)是抽自总体X的一个容量为的一个容量为n的简单随机样本,
7、则依据的简单随机样本,则依据样本的所有可能观察值计算出的样本均样本的所有可能观察值计算出的样本均值的分布,称为样本均值的抽样分布。值的分布,称为样本均值的抽样分布。样本均值的抽样分布样本均值的抽样分布 定理定理设(设(X1,X2,Xn)是抽自正态分)是抽自正态分布总体布总体XN(, 2)的一个容量为的一个容量为n的简单的简单随机样本,则其样本均值也是一个正态随机样本,则其样本均值也是一个正态分布随机变量,且有分布随机变量,且有样本均值的抽样分布样本均值的抽样分布XXE)(nXDX22)(),(2nNX)1 , 0(/2NnXZ例题例题 某类产品的强度服从正态分布,总体平某类产品的强度服从正态分
8、布,总体平均数为均数为100,总体标准差为,总体标准差为5。从该总体。从该总体中抽取一个容量为中抽取一个容量为25的简单随机样本,的简单随机样本,求这一样本的样本均值介于求这一样本的样本均值介于99101的概的概率。如果容量为率。如果容量为100呢?呢?样本均值的抽样分布(样本均值的抽样分布(2已知已知) 非正态总体、非正态总体、已知时已知时设总体设总体X的均值的均值和和2,当样本容量趋,当样本容量趋向无穷大时,样本均值的抽样分布趋于向无穷大时,样本均值的抽样分布趋于正态分布,且样本均值的数学期望和方正态分布,且样本均值的数学期望和方差分别为差分别为XXE)(nXDX22)(例题例题 某类产品
9、的强度不服从正态分布,某类产品的强度不服从正态分布,总体平均数为总体平均数为100,总体标准差为,总体标准差为5。从该总体中抽取一个容量分别为从该总体中抽取一个容量分别为25的简单随机样本,求这一样本的样的简单随机样本,求这一样本的样本均值介于本均值介于99101的概率。如果容的概率。如果容量为量为100呢?呢?例题例题 某种灯具平均寿命为某种灯具平均寿命为5000小时,标准差小时,标准差为为400小时,从产品中抽取小时,从产品中抽取100盏,问它盏,问它们的平均使用寿命不低于们的平均使用寿命不低于4900小时的概小时的概率是多少?率是多少? 如果是从如果是从2000盏灯具中不放回地抽取盏灯具
10、中不放回地抽取100盏呢?盏呢?有限总体修正系数有限总体修正系数 设总体设总体X服从分布服从分布F(x),(,(X1,X2,Xn)是以不放回形式抽自该总体的一个)是以不放回形式抽自该总体的一个样本,总体均值与样本均值、总体方差样本,总体均值与样本均值、总体方差与样本均值的方差有如下关系:与样本均值的方差有如下关系:XXE)(nNnNXDX221)(参数估计参数估计 用样本统计量的来估计相应总体参数,称用样本统计量的来估计相应总体参数,称为为参数估计参数估计 判断判断估计量估计量优劣的标准优劣的标准 无偏性无偏性 有效性有效性 一致性一致性 充分性充分性参数估计的基本方式参数估计的基本方式 点估
11、计(点估计(point estimation) 用某一样本统计量的值来估计相应总体参数用某一样本统计量的值来估计相应总体参数的值叫总体参数的的值叫总体参数的点估计点估计。 区间估计(区间估计(interval estimation) 以样本统计量的抽样分布(概率分布)为理以样本统计量的抽样分布(概率分布)为理论依据,按一定概率要求,由样本统计量的论依据,按一定概率要求,由样本统计量的值估计总体参数值的所在范围,称为总体参值估计总体参数值的所在范围,称为总体参数的数的区间估计区间估计。区间估计区间估计示意图示意图区间估计的基础抽样分布区间估计的基础抽样分布 根据抽样分布的原理,可得到不同条件下根
12、据抽样分布的原理,可得到不同条件下总体参数的区间估计的计算方法总体参数的区间估计的计算方法 区间估计涉及置信水平(区间估计涉及置信水平(confidence level)和置信区间(和置信区间(confidence interval)。)。例题例题 某种零件的长度服从正态分布。已知总某种零件的长度服从正态分布。已知总体标准差体标准差=1.5厘米。从总体中抽取厘米。从总体中抽取100个零件组成样本,测得它们的平均长度个零件组成样本,测得它们的平均长度为为10.00厘米。试估计在厘米。试估计在95%置信水平下,置信水平下,全部零件平均长度的置信区间。全部零件平均长度的置信区间。例题例题* 上例中,
13、若已知该批零件共有上例中,若已知该批零件共有2000件,件,抽样方式采用不放回抽样,求该批零件抽样方式采用不放回抽样,求该批零件平均长度的置信水平为平均长度的置信水平为95%的置信区间。的置信区间。假设检验假设检验 假设检验回答的问题假设检验回答的问题某总体平均水平有无显著变化?某总体平均水平有无显著变化?两总体平均水平有无显著差异?两总体平均水平有无显著差异?多个总体平均水平有无显著差异?多个总体平均水平有无显著差异?两个或多个总体方差有无显著差异?两个或多个总体方差有无显著差异? 以上:参数假设检验以上:参数假设检验某总体是否服从正态分布(或其他分布)?某总体是否服从正态分布(或其他分布)
14、?某串数据是否随机?某串数据是否随机? 以上:非参数假设检验以上:非参数假设检验非参数假设检验举例非参数假设检验举例 单样本游程检验单样本游程检验 某食堂窗口前排队性别规律性:某食堂窗口前排队性别规律性: F M F M F F F F F M M M F F M M F M F M F M F M F M F M F M F M F F F F F F F F M M M M M M M M M M M M M M M M F F F F F F F F F M F M F F F F F M M M F F M M F M F M F M F M F M F M F M F M F F F
15、 F F F F F M M M M M M M M M M M M M M M M F F F F F F F F假设检验假设检验 利用样本信息利用样本信息 根据一定概率根据一定概率 对总体参数或对总体参数或 分布的分布的 某一假设作出某一假设作出 拒绝拒绝 或保留的或保留的 决断决断 称为称为假设检验假设检验假设假设 有两个相互对立的假设有两个相互对立的假设 即零假设(即零假设(null hypothesis,或称原假设、,或称原假设、虚无假设、解消假设)虚无假设、解消假设) 备择假设(备择假设(alternative hypothesis,或称研,或称研究假设、对立假设)究假设、对立假设
16、)假设检验是从零假设出发,视其被拒绝的机假设检验是从零假设出发,视其被拒绝的机会,从而得出决断。会,从而得出决断。 假设检验假设检验示意图示意图显著性水平显著性水平 拒绝零假设的概率称为显著性水平拒绝零假设的概率称为显著性水平(significance level)。 显著性水平和可靠性程度(置信水平)显著性水平和可靠性程度(置信水平)之间的关系是:两者之和为之间的关系是:两者之和为1。双侧检验与单侧检验双侧检验与单侧检验 双侧检验(双侧检验(two-tailed test,two-sided test):零假设为无显著差异的情况;):零假设为无显著差异的情况; 左侧检验(左侧检验(left-tailed test):零假设为):零假设为大于等于的情况;大于等于的情况; 右侧检验(右侧检验(right-tailed test) :零假设:零假设为小于等于的情况。为小于等于的情况。例题例题 某小学历届毕业生汉语拼音测验平均分某小学历届毕业生汉语拼音测验平均分数为数为66分,标准差为分,标准差为10分。现以同样的分。现以同样的试题测验应届毕业生(假定应届与历届试题测验应届毕业生(假定应届与