《用样本估计整体.docx》由会员分享,可在线阅读,更多相关《用样本估计整体.docx(11页珍藏版)》请在第壹文秘上搜索。
1、这就是说。各个小长方形的面积等于相应各组的频率。显然。所有张方形面积之和等于1.为了了解全部产品中优等品所占比例。可以统计出内径尺寸在区间25.325到25.475内的个体数载样本容量中所占的比例、也就是他的频率。从表中容易看出,这个频率值等于012+0.18+025+0.16+013=0.84,于是可以估计出所有生产的钢管中有84%的优等品、工厂可以根据质量标准。看看是否到达优等品率的要求,如果没有到达。就需要进一步分析原因。解决问题。当然。用样本的频率分布估计总体的分布时。要使样本能够很好的反响总体的特征。必须随机抽取样本。由于抽样的随机性,可以想到(参考本届练习A第三题),如果随机抽取另
2、外-个容量为100的样本,所形成的样本频率分布一般会与请按一个样本频率分布有所不同。但是。他们都可以近似的看做总体的分布。从频率分布直方图可以清楚的看出数据分布的总体态势,但是从直方图本身得不出原式的数据内容。所以,把数据表示成直方图后,原有的具体数据信息就被抹掉了。把频率分布直方图各个张方形上边的中点用线段连接起来,就得到频率分布折线图,为了方便看图。一般习惯于吧频率分布折线图化成与横轴相连。所以横轴上的左右两端点没有实际的意义。图中各个小长方形的面积,说明了所抽取的100件产品中内径尺寸落在各个小组内的产品个数与100的比值大小。如果样本容量越大,所分组数越多。图中表示的频率分布就越接近于
3、总体在各个小组内取值的个数与总数比值的大小。设想如果样本容量不断增大,分组的组距不断缩小,那么频率分布直方图实际上越来越接近于总体的分布,他可以用仪表光滑取消Y=f(X)来描绘。这条光滑曲线就叫做总体密度曲线。总体密度曲线精确地反映了一个总体在各个区域内取值的规律。产品尺寸落在(a,b)内的百分率就是图中带斜线局部的面积,对本例来说,总体密度曲线呈中间高两边低的“钟”形分布,总体的数据大致呈对称分布,并且大局部数据都集中在靠近中间的区间内。抽样后的样本数据汇总。号可以借助计算机来准确、快速的作出,图就是运用前面所讲到的画直方图的步骤,在工作表中对样本数据汇总得出的结果。茎叶图:某赛季甲乙两名篮
4、球运发动每场比赛的得分情况如下:甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50.乙的得分:8,13,14,16,23,26,28,33,38,39,51.上面的发数据可以用图来表示。他的中间局部像一棵植物的茎,两边局部像这个植物茎上生长出来的叶子。用中间的数字表示两位运发动得分的十位数,两边的数字分别表示两个人各场比赛得分个位数。例如。用3389就表示了33,38,39这三个数据,通常把这样的图焦作茎叶图,根据上图可以对两名运发动的成绩进行比拟。从上面的茎叶图可以看出,甲运发动的得分情况是大致对称的。中位数是36,:乙运发动的得分情况除一个特殊得分外。也
5、大致对称。中位数是26.用茎叶图表示数据有两个突出的优点。一是从统计图上没有原始信息的损失,所有的数据信息都可以从茎叶图中得到。二是茎叶图可以在比赛时随时记录。方便记录与表示。用样本的数字特征估计总体的数字特征在日常生活的很多情况下,我们往往并不需要了解总体的分布形态,而是更关心总体的某一数字特征。比方购置灯泡时,消费者希望知道的是这批灯泡的平均使用寿命,我们怎样来了解这批灯泡的平均使用寿命呢?当然不可能把所有的灯泡逐一测试,因为测试后灯泡就报废了。于是,需要通过随机抽样。把这批灯泡的寿命看做整体,从中随机抽取出假设干个个体作为样本,算出样本的数字特征,用样本的数字特征(如平均数等)来估计总体
6、的数字特征。1用样本的平均数估计总体平均数我们在初中学过,平均数描述了数据的平均水平,定量的反响了数据的集中趋势所处的水平,那么,怎样用样本的平均数估计总体的平均数呢?例1:从某大型企业全体员工某月的月工资中随机抽取50名员工的月工资资料如下(单位:元)试计算这50员工的月工资平均数,并估计这个企业的员工平均工资。解月平均工资-800+800+2逆7划元怛月干刁灾5。由此可以估计这家企业的员工月平均工资为1320元。假设你去这家公司应聘职位,月平均工资水平是你考虑的重要因素。一般来讲,月平均工资的水平可以与同类公司待遇进行比拟。同样,再随机抽取50名公司职员的工资。计算说得的样本的平均数般会与
7、例1中的样本平均数不同,所以。用样本平均数估计总体平均数时。样本的平均数只是总体平均数的近似。-x1+x2+xn我们知道,N个样本xl,x2,Xn的平均数,那么有X=X+/+%。也就是把每个(=12J)都用X代替后,数据总和保持不变,所以平均数X对数据有“取齐”的作用,代表了一组数据的数值平均水平。在例1中,可能有人会猜想,应用50%的员工工资超过平均数,而50%低于平均数。我们用前面学习的方法画出例1中月工资的频率分布直方图。并标出样本平均数,又数据可以得出,只有30%的员工月平均工资超过平均数,其余70%的在平均数以下,想一想什么原因导致了这个结果。数据的离散程度可以用极差、方差或标准差来
8、描述。我们知道,样本方差描述了一个数据围绕平均数波动的大小,为了得到以样本数据的单位表示的波动幅度,通常要求求出样本方差的算是平方根,一般的,设样本的元素xl,x2,.xn,样本的平均数为X,定义、其中S的平方表示样本方差。S表示样本标准差。计算样本数据xl,x2,.xn的标准差的算法是:Sl算出样本数据的平均数X:S2算出每个样本数据与样本平均数的差七一Mj=I,2,3,./)S3算出S2中七一x(i=1,2,3,)的平方S4算出S3中N个平方数的平均数,即为样本方差。S5算出S4中平均数的算术平方根,即为样本标准差。例2.计算数据5,7,7,8,10,11的标准差。a-5+7+7+8+10
9、+11o解:SlX=8629+1+1+0+4+9,s=二4S46S5s=2所以这组数据的标准差为2.例4从甲乙两名学生中选拔一人参加设计比赛,对他们的设计水平进行了测试,两人在相同条件下各射击10次,命中的环数如下:甲:78686591074乙:9578768677(1) 计算甲乙两人你射击命中环数的平均数和标准差:(2) 比拟两个人的成绩,然后决定选择哪一人参赛解:(1)计算得X甲=7%乙=7;SFn=I.73S乙=1.10(2)又(1)可知,甲乙两人的平均成绩相等,但S乙VS甲,这说明乙的成绩比甲的成绩稳定一些,从成绩的稳定性考虑,可以选择乙参加比赛。样本标准差和频率分布直方图有什么关系呢
10、?从标准差的定义可知,如果样本各数据值都相等,那么标准差得0,说明数据没有波动幅度,数据没有离散性。假设个体的值与平均数的差的绝对值较大,那么标准差也较大。说明数据的波动幅度也很大,数据离散程度很高,因此标准差描述了数据对平均数的离散程度。再来看钢管内径尺寸的例子,他的样本平均数为25.401,标本标准差为0.056,在这放图中用虚线i标出平均数所在的位置,并画出距平均数两侧各一倍的标准差和两倍标准差的区间,可以看到大约有70%的钢管内径尺寸落在距离平均数两侧各一倍标准差的区间内,即区间(X-S,X+S),大约有95%的钢管内径尺寸落在距平均数两侧各两倍标准差的区间内,即区间(X-25,x+2
11、5),由此我们估计总体中也有大致比率的产品尺寸落入到相应的区间内。实际生产、生活中有大量的例子符合这样的统计规律,比方同一年龄段的人群的身高、体重、同一生产线生产的带装洗衣粉的质量等。变量的相关关系变量与变量之间的关系常见的有两类:一类是确定性的函数关系,像长方形的边长a和面积S的关系。另一类是变量间确实存在关系,但又不具备函数关系所要求确实定性,他们的关系是带有随机性的,例如,人的身高并不能确定体重,但一般来说:“身高者,体也重”,我们说身高与体重这两个变量具有相关关系。怎样判断两个变量有没有相关关系,我们来看下面的例子。例设某地10户家庭的年收入和年饮食支出的统计资料如下表。由表中数据可以
12、看出,y有随X增加而增加的趋势,并且增加的趋势变缓。为了更清楚的看出X与y是否有相关关系,我们以年收入X的取值做横坐标,把年饮食支出y的相应取值作为纵坐标,在直接坐标系中描点(xhyl)(i=l,2,3,,10),如下图,这样的图形叫做散点图,从图中可以只直观的看出家庭年收入和年饮食支出之间具有相关关系,并且当年收入的值由小变大时,年饮食支出的值也在由小变大,这种关系称为正相关,反之,如果一个变量的值由小变大时,另一个变量的值由大变小,这种关系称为负相关。两个变量的线性相关看下面的例子下表是某小卖部六天卖出的热茶的杯数与当天天气温度的比照表。甯)将表中的数据画成散点图;(2) 你能从散点图中发
13、现温度与饮料杯数近似成什么关系吗?(3)如果近似成线性关系的话,请画出一条直线近似地表示这种线性关系解:C)画出的散点图如图(2)从图中可以发现温度和杯数具有相关关系,当温度的值由小到大变化时,杯数的值由大变小,所以温度和杯数成负相关。图中的数据点大致分布在一条直线附近,因此温度和杯数近似成线性相关关系。(3)根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系,比方连接最左侧点和最右侧点得到一条直线,或者让画出的直线上方的点和下方的点数目相等。同学们也可以自己尝试制定标准来画出近似直线,管家能在与这一标准是否合理,是否能够得到最正确的近似直线。(最优拟合直线)。由图2-11可见,所有
14、数据点都分布在一条直线附近,显然这样的直线还可以画出许多条,而我们希望找出其中一条,它能最好的反响X和y之间的关系,换言之,我们要找出一条直线,使这条直线“最贴近”的数据点,几座直线方程为Ay=a+bx这里在y的上方加几号“八”,是为了区分Y的实际值y,表示当X取值xi(i=l,2,3,,6)时,Y相应的观察值为yl,而直线上对应与Xi的纵坐标是:=+加,式叫做Y对X的回归直线方程叫做回归系数,要确定回归直线方程,只要确定a与回归系数b。下面我们来研究回归直线方程的求法,设X,Y的一组观察值为(xi,yi)i=l,2,,nA且回归直线方程为y=+bxA当X取值Xi(i=l,2,,n)时,Y的观
15、察值为yi,差一刻画了实际观察值yi与回归直线上相应点纵坐标之间的偏高程度,我们希望这n个离差构成的总离差越小越好,才能使所找的直线很贴近点。一个自然的想法是把各个离差加起来作为总离差,可是。由于离差有正有负,直接相加会相互抵消,这样就无法反映这些数据点的贴近程度,即这个总离差不能用n个离差之和(%-:)来表示,通常是/=I用离差的平方和,即Q二汽(y-。-最)2作为总离差,并使之到达最小,这样,回归直线就是所有直Z=I线中Q取最小值的那一条,由于平方又叫二乘方。所以这种使“离差平方和为最小”的方法,焦作最小二乘法。用最小二乘法求回归直线中的a,b有下面的公式:fy_-b=-4-a=y-bx22xi-nxZ=IA其中a,b的上方加“人”,表示是由观察值按最小二乘法得的估计值,匕也叫回归系数,a,6求出后,回归直线方程就建立起来了。例2在某种产品外表进行腐蚀刻线试验,得到腐蚀深度Y与腐蚀时间X之间相应的一组观察值如下表。(1)画出表中数据的散点图(2)求Y对X的回归直线方程。(结果保存到小数点后3位数字)(3)试预测腐蚀时间为100S时腐蚀深度是多少解:(1)散点图如图(3) 根据公式求腐蚀深度Y对腐蚀时间X的回归直线方程的步骤