《第六章抽样分布.docx》由会员分享,可在线阅读,更多相关《第六章抽样分布.docx(9页珍藏版)》请在第壹文秘上搜索。
1、第六章抽样分布第一节总体和样本一、总体和样本总体:研究中依据研究目的而确定的所有想要研究的个体(或事件)的集合。(有限总体VS无限总体)个体:构成总体的基本单元,可以是符合特定描述条件的人、事物或者是一个组织或机构。样本:从一个总体中抽取出来的一部分个体(或事件)的集合。样本容量:组成样本的个体数量决定了样本的大小。样本VS总体VS个体的关系:总体和样本都是由个体组成的,样本是总体的一个子集。由于研究问题的范围不同,同一团体或集合在不同的研究中可以是总体,也可能是样本。二、参数与统计量参数:描述总体特性的值,i般用希腊字母表示,总体的参数值是唯一确定的。统计量:描述样本特性的值,i般用拉丁字母
2、表示,随着样本的不同而发生变化。总体VS样本的关系:1 .从总体中抽取部分个体组成了样本;2 .通过对样本特征的描述,获得了样本特征的统计量;3 .根据统计量对总体的参数或者某些特性做出推断;4 .把样本中获得的结果推论到总体之中。第二节抽样技术一、非概率抽样和概率抽样二、概率抽样中的误差来源三、概率抽样的具体方法一、非概率抽样和概率抽样非概率抽样:研究者依据自身的经验或抽样方便程度,有目的、主观地选择一部分个体作为样本。典型调查、重点调查以及方便抽样都是常见的非概率抽样C概率抽样:要求总体中的每个个体都有定的概率被抽中,遵循随机性原则。随机会随意选择总体中的某些个体作为样本。这是一个概率问题
3、,需要用一定的方法保证每一个个体都有机会被选中。二、概率抽样中的误差来源任何一个抽样都会存在误差,称为抽样误差。抽样误差的来源主要有两个方面:1.抽样方法本身如何选择合理的抽样方法:抓阉和简单随机抽样。5 .由样本的随机性造成的样本信息和总体信息之间的误差注意:不可避免!但是可以通过增加样本容量降低误差。抽样误差的两重性:1 .抽样误差是无法完全避免的。2 .只能尽量加以控制:一是选择适当的抽样方法,消除抽样的偏差;二是增加样本容量,降低抽样的变异性。三、概率抽样的具体方法(一)简单随机抽样简单随机抽样是最基本的抽样方法,操作简便,适用性广。简单随机抽样有两种方法:抽签法:需放回抽样。随机数法
4、:给总体内的每个个体都赋予一个编号,然后随机抽取数字决定抽取的样本包含哪些个体。采用简单随机抽样时,总体中的每个个体都有可能被抽取到,每个个体被抽到的概率都是相等的,这就为样本的代表性提供了保障。简单随机抽样的评价:优势:1 .是其他抽样方法的基础,操作方法简单直观,可以直接从总体中抽取出所需的样本,在多数情况下效率是比较高的;2 .由于每个个体被抽中的概率相等,在之后的统计推断中计算更为方便。局限性:1 .在很大规模的抽样调查中,获取总体中每个个体的名单并不容易,给总体中每个个体进行编号更加不易;2 .抽取出的样本分布较散,在实施调查的过程中会遇到比较大的困难,易造成资源上的较大程度浪费。(
5、二)系统抽样系统抽样:也称为等距抽样。具体的操作方法是,先将总体内的个体按照一定次序排列,然后在规定的范围内随机确定一个抽样的起点(起始号码),之后根据总体容量与样本容量的比值确定抽样间隔k,然后都按照固定的间隔k抽取个体,最后组成样本。例如,要在300个产品中抽取10个作为样本,检查它们的合格率。K=30010=300在130之间随机选择2为起点,每隔30抽样一名,就会抽取编号为2、32、62、92、122这一系列的个体作为样本。1 .只要个体在总体中的分布较为均匀,系统抽样将会非常接近于简单随机抽样。2 .当总体中的个体本身已经有记录的情况下,或者总体容量非常大的时候,采用系统抽样将会比简
6、单随机抽样更为方便。3 .如果有信息能够使总体中的个体有组织地排列,那么这样抽取的样本是均匀地分散分布在总体中的,能够很好地保证样本的代表性,可以有效提高估计的精度。4 .如果总体的分布具有一定的周期性,则使用系统抽样抽取的样本可能会存在较大的误差,不能很好地代表样本。(三)分层随机抽样分层随机抽样:按照某些特征或标准将总体分为几个部分,然后在每个部分中分别进行随机抽样,最后将每个部分中抽取出的个体全部组合在一起得到样本。每个部分在此都称作一个层,因此叫作分层随机抽样。方法:在确定各层抽取的个体数时,可以简单地按照所需样本容量占总体容量的比例来抽取。适用条件:当总体中的个体间差异很大,而且能够
7、根据这些差异将总体分成明显的几个亚群体时,采用分层抽样方法能够很好地保证样本结构与总体结构一致,从而使样本具有更好的代表性。优势:首先,从样本代表性上来讲,简单随机抽样有可能出现较为极端的情况,在总体中分布不够均匀;而分层随机抽样保证了这样得到的样本与总体的结构更容易保持一致,在总体中分布更为均匀。其次,从抽样工作实施的方便程度来讲,在较大规模的抽样调查中,分层随机抽样具备更强的可操作性。最后,从调查结果的丰富性来讲,分层抽样不仅能够推断总体的情况,还能用来推断各层的情况。(四)整群抽样整群抽样:将总体按照一定的规则或标准分成若干个群,然后抽取其中一个或几个群,以这些被选中的群里的所有个体作为
8、样本。采用整群抽样时,往往是总体先前已经分成了若干个群体,有可能是天然的、有可能是社会的。在这样的情况下,采用这样的抽样方法非常方便且经济,因此在实际的社会调查中这种方法是非常常见的。与分层抽样不同的是,整群抽样要求同一个群体内的个体差异较大、异质性较高;不同群体之间则差异较小、同质性较高。因为这种抽样方法以整群为单位,只有确保这样的前提条件使样本结构与总体结构更相近,才能保证样本的代表性。整群抽样还有单阶段整群抽样和多阶段整群抽样之分。单阶段整群抽样:抽取总体中的若干个亚群体之后,对这些群体中的所有个体全部进行调查。多阶段整群抽样:将总体分成了不同层次的整群,在抽中第一层的群体之后,还会在第
9、二层、第三层等的群体中再进行抽取。(大规模研究)优势:实施方便、花费较小。弊端:1 .因为在采用整群抽样时,群往往是已经根据某些自然或社会的标准提前进行了划分,群内个体之间的差异很多时候比较小,从而使得这样抽取的样本对总体的代表性不够而,存在较大的抽样误差;2 .统计运算更为复杂。样本容量与抽样误差:在一次抽样调查中可以结合使用多种抽样方法,来达到最好的效果。样本容量增加,抽样误差逐步减少。一般来讲,样本容量n30的样本即可被称作大样本。当然,在实际的研究中,要确定样本容量还要考虑更多复杂的因素(研究经费、人员等)。第三节抽样分布一、基本概念(一)总体分布、样本分布和抽样分布总体分布:总体内个
10、体观察值的次数分布或概率分布。总体分布可以是连续的,也可以是离散的。样本分布:样本内个体观察值的次数分布或概率分布。抽样分布:在同一总体下,相同样本容量的所有可能样本的某个统计量观察值的理论概率分布。样本的平均数、标准差等都是样本的统计量。样本的所有统计量都会有其相应的抽样分布。例:现在有一个由4位同学构成的总体,他们的体重分别是40kg、44kg48kg、52kgo如果我们从中有放回地抽取样本容量为2的样本,会形成什么样的抽样分布呢?表6-1总体分布表体重kg40444852频数1111图67总体分布图X40444852U=46N4O=U-=20VN当采用有放回的抽样方式从中抽取n=2的样本
11、时,总共可以得到16个不同的样本。表6-2所有可能的样本及其平均数样本编号数据构成样本平均数第一个第二个1IO10402401142340IS-114105216511104264444447H-11S46S115248948IO4410484446114811SIS124852501352IO46145244481552IS5016.525252表6-3样本平均数分布样本平均数40424446485052频数1231321图6-5样本平均数分布图计算所有样本平均数的平均数和标准差:M匕1N40+42+44462+44+46+48+44+46+48+50+46+4+50+5216从样本平均数分
12、布中得出样本平均数的概率问题。如,样本平均数大于48的概率:P(x48)三(二)中心极限定理中心极限定理:如果总体的平均数为,标准差为。那么样本容量为n的样本平均数分布的平均数为,标准差为云;且当样本容量n趋于无穷大时,样本平均数的分布也趋于正态分布。当样本容量等于或大于30时,抽样分布就已经接近正态分布了。另外,这个定理说明,任何分布形态总体的抽样分布都是有章可循的。当拿到一个样本时,就可以据此计算任意和样本相关的概率,这是通过样本特征推断总体的基础。例:某次测验总体平均值=IO0,总体标准差。=6。如果从中随机抽取一个n=36的样本,该样本的平均数大于101的概率是多少?解析,根据中心极限
13、定理可知,样本平均数的分布符合正态分布,且=IOQGy=Io当X=Iol时,Z=KnTOo=I%_1查正态分布表可得,101)=l)=015866因此,该样本的平均数大干10访概率为15.87%(三)标准误标准误:样本平均数分布的变异性,也就是样本平均数分布的标准差。标准误一般用文表示,有时也用SE表示。公式为:F使用样本标准差来替代总体标准差:标准误的大小会受到样本大小和总体标准差的影响。样本量越大,样本平均数就更容易接近总体平均数,就会更集中地聚集在总体平均数附近,标准误也就越小。总体标准差描述了总体的离散程度,总体的离散程度越低,抽取样本时抽到极端值的概率就越低,样本的平均数也就更容易集
14、中在总体平均数周围,标准误也就会越小。二、样本平均数的抽样分布(一)t分布在总体标准差未知,只知道样本标准差S的前提下,要了解样本统计量的抽样分布特征,就要先学习一种新的分布一一t分布。t分布是1908年,统计学者高赛特提出的。=沛t分布的特征:(1)均值为0;(2)以0为中心,是左右对称的单峰分布;(3)t分布是一簇曲线,它的形态变化与自由度df=nT的大小有关;自由度df越小,t分布曲线越低平:自由度df越大,t分布曲线越接近正态分布曲线。(4)随着自由度增大,t分布逐渐接近正态分布。认识t值表:表6-4t值表(截取)dfP0.250.100.050.0250.010.00511.0003.0786.31412.70631.82163.65720.8161.8862.9204.3036.9659.92530.7651.6382.3533.1824.5415.84140.7411.5332.1322.7763.7474.60450.7271.4762.0152.5713.3654.03260.7181.440