《统计学bootstrap.ppt》由会员分享,可在线阅读,更多相关《统计学bootstrap.ppt(55页珍藏版)》请在第壹文秘上搜索。
1、1上节课内容总结n统计推断基本概念n统计模型:参数模型与非参数模型n统计推断/模型估计:点估计、区间估计、假设检验n估计的评价:无偏性、一致性、有效性、MSEn偏差、方差、区间估计nCDF估计:n点估计、偏差、方差及区间估计n统计函数估计n点估计n区间估计/标准误差n影响函数nBootstrapnBootstrap也可用于偏差、置信区间和分布估计等计算2本节课内容n重采样技术(resampling)nBootstrapn刀切法(jackknife)3引言n 是一个统计量,或者是数据的某个函数,数据来自某个未知的分布F,我们想知道 的某些性质(如偏差、方差和置信区间)n假设我们想知道 的方差n如
2、果 的形式比较简单,可以直接用上节课学习的嵌入式估计量 作为 的估计n例: ,则n ,其中 n ,其中n问题:若 的形式很复杂(任意统计量),如何计算/估计?()1,.,nnTg XX=nTnT( )FnTV( )FnTV( )FnTV( )nnFTV11nniiTnX-=( )2FnTns=V()( )( )22,xdF xxdF xsmm=-=蝌( )2nnFTns=V()221nniiXXns=-( )FnTV4Bootstrap简介nBootstrap是一个很通用的工具,用来估计标准误差、置信区间和偏差。由Bradley Efron于1979年提出,用于计算任意估计的标准误差n术语“B
3、ootstrap”来自短语“to pull oneself up by ones bootstraps” (源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)n计算机的引导程序boot也来源于此n意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/自举n1980年代很流行,因为计算机被引入统计实践中来5Bootstrap简介nBootstrap:利用计算机手段进行重采样n一种基于数据的模拟(simulation)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对
4、模型做任何假设(非参数bootstrap)n无需标准误差的理论计算,因此不关心估计的数学形式有多复杂nBootstrap有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟6重采样n通过从原始数据 进行n次有放回采样n个数据,得到bootstrap样本n对原始数据进行有放回的随机采样,抽取的样本数目同原始样本数目一样n如:若原始样本为n则bootstrap样本可能为()1,.,nXXX=()1*,.,nbXXX=()12345,XXXXXX=()*123545,XXXXXX=()*213145,XXXXXX=7计算bootstrap样本n重复B次,n1. 随机选
5、择整数 ,每个整数的取值范围为1, n,选择每个1, n之间的整数的概率相等,均为n2. 计算bootstrap样本为:nWeb上有matlab代码:nBOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander,nhttp:/www.csp.curtin.edu.au/downloads/bootstrap_ toolbox.htmlnMatlab函数:bootstrp1 n1,.,nii()*1,.,iinXXX=8Bootstrap样本n在一次bootstrap采样中,某些原始样本可能没被采到,另外一些样本可
6、能被采样多次n在一个bootstrap样本集中不包含某个原始样本 的概率为n一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括()11,1,.10.368njiXXjnen-骣?=-换桫PiX9模拟n假设我们从 的分布 中抽取IID样本 ,当 时,根据大数定律,n也就是说,如果我们从 中抽取大量样本,我们可以用样本均值 来近似n当样本数目B足够大时,样本均值 与期望 之间的差别可以忽略不计()( ),11BPnn bnnbTTtdGtTB=?EnT,1,.,nn BTTnT( )nTEnT( )nTEnGnGB10模拟n更一般地,对任
7、意均值有限的函数h,当 有n则当 时,有n用模拟样本的方差来近似方差()()()( )(),11BPn bnnbh Th t dGth TB=?E()()()( )22,11BPn bnnnnbTTTTTB=-?=EV( )nTV()()2,n bn bnh TTT=-B11模拟n怎样得到 的分布?n已知的只有X,但是我们可以讨论X的分布Fn如果我们可以从分布F中得到样本 ,我们可以计算n怎样得到F?用 代替(嵌入式估计量)n怎样从 中采样?n因为 对每个数据点 的质量都为1/n n所以从 中抽取一个样本等价于从原始数据随机抽取一个样本n也就是说:为了模拟 ,可以通过有放回地随机抽取n个样本(
8、bootstrap 样本)来实现1*,.,nXX()1*,.,nnTg XX=1*,.,nnXXFnTnFnFnFnF1,.,nXX12Bootstrap:一个重采样过程n重采样:n通过从原始数据 进行有放回采样n个数据,得到bootstrap样本n模拟:n为了估计我们感兴趣的统计量 的方差/中值/均值,我们用 bootstrap样本对应的统计量(bootstrap复制) 近似,其中()1,.,nXXX=( )()1,.,nnTgg XX=X( )* ,1111BBn bootn bbbbTTgBB=邋X( )(),1,*,.,n bbn bbTg Xg XX=()1,*,.,bn bbXXX
9、=1,.,bB=13例:中值X = (3.12, 0, 1.57, 19.67, 0.22, 2.20)Mean=4.46X1=(1.57,0.22,19.67, 0,0,2.2,3.12)Mean=4.13X2=(0, 2.20, 2.20, 2.20, 19.67, 1.57)Mean=4.64X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22)Mean=1.74()14.134.641.743.503bootMean=+=14Bootstrap方差估计n方差: n其中n注意:F为数据X的分布,G为统计量T的分布n通过两步实现:n第一步:用 估计 n插入估计,积分符
10、号变成求和n第二步:通过从 中采样来近似计算nBootstrap采样+大数定律近似()()22,TTntdGtsm=-( )2FnTTns=V()TntdGtm=( )()2*,1111, nBBnn bnnn bFbbTTTTTBB=-=邋V( )FnTV( )nnFTV( )nnFTVnF15Bootstrap:方差估计nBootstrap的步骤:n1.画出n2.计算n3.重复步骤1和2共B次,得到n4.(大数定律)2*,1111Bnbootn bn rbrvTTBB=骣=-桫邋(计算boostrap样本)(计算boostrap复制)*1,.,nnXXF:()*1,.,nnTg XX=*,
11、1,.,nn BTT16例:混合高斯模型:n假设真实分布为n现有n=100个观测样本:( )()()2: 0.21,20.86,1FF XNN=+5,m=()1100,.,XXX=4.997,nX =( )()2221 nniniXXXns=-V直接用嵌入式估计结果:0.0484=7.0411 4.8397 5.3156 6.7719 7.06165.2546 7.3937 4.3376 4.4010 5.17247.4199 5.3677 6.7028 6.2003 7.57074.1230 3.8914 5.2323 5.5942 7.14793.6790 0.3509 1.4197 1.
12、7X =585 2.4476-3.8635 2.5731 -0.7367 0.5627 1.6379-0.1864 2.7004 2.1487 2.3513 1.4833-1.0138 4.9794 0.1518 2.8683 1.62696.9523 5.3073 4.7191 5.4374 4.61086.5975 6.3495 7.2762 5.9453 4.69936.1559 5.8950 5.7591 5.2173 4.99804.5010 4.7860 5.4382 4.8893 7.29405.5741 5.5139 5.8869 7.2756 5.84496.6439 4.5
13、224 5.5028 4.5672 5.87186.0919 7.1912 6.4181 7.2248 8.41537.3199 5.1305 6.8719 5.2686 5.80555.3602 6.4120 6.0721 5.2740 7.23297.0912 7.0766 5.9750 6.6091 7.21354.9585 5.9042 5.9273 6.5762 5.37024.7654 6.4668 6.1983 4.3450 5.3261轾犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏臌17例:混合高斯模型(续)n用Bootstrap计算统计量
14、的方差:n1. 得到B=1000个bootstrap样本 ,其中n2. 计算B=1000个bootstrap样本对应的统计量的值n 3. ()1,100,*,., 1, ., bbbXXXbB=*11000,.,XX,*11n bn bi bniTXXn=nnTX=(),2*,1111,n bnBnbootnn rbrvXXXXBB=-=邋*1005.001,X=0.0489,bootv=与直接用嵌入式估计得到的结果比较:4.997,nX =20.0484,s=0.221bootbootsev=20.22ses=18Bootstrap:方差估计n真实世界:nBootstrap世界:n发生了两个
15、近似n近似的程度与原始样本数目n及bootstrap样本的数目B有关()11,.,.,nnnnFXXTg XX揶=()*11,.,.,nnnnFXXTg XX揶=( )()( )()11nOnOBFnnbootFTTv=?VV19Bootstrap:方差估计n在方差估计中, 可为任意统计函数n如均值(混合高斯模型的例子)n中值(伪代码参见教材)n偏度(例子参见教材)n极大值(见后续例子)nn除了用来计算方差外,还可以用作其他应用nCDF近似、偏差估计、置信区间估计nT20CDF近似n令 为 的CDFn则 的bootstrap估计为()()nnGtTt=?PnTnG()()*,11Bnn bbG
16、tI TtB=?21偏差估计n偏差的bootstrap估计定义为:nBootstrap偏差估计的步骤为:n得到B个独立bootstrap样本n计算每个bootstrap样本 对应的统计量的值n计算bootstrap期望:n计算bootstrap偏差:( )( )*bootnFnnBiasTTT=-E*1,.,BXX( )(),1,*,.,n bbn bbTg Xg XX=*,11nnn rrTTB=( )*nbootnnBiasTTT=-*bX22例:混合高斯模型: n标准误差估计n在标准误差估计中,B为50到200之间结果比较稳定n偏差估计4.997nX =bootsebootBias( )*FXE23Bootstrap置信区间n正态区间:n简单,但该估计不是很准确,除非 接近正态分布n 百分位区间: ,对应 的样本分位数n还有其他一些计算置信区间的方法n如枢轴置信区间:()*212,nCTTaa-=2nTzseanT*,1,.,nn BTT()*1222,2,nCTTTTaa-=-24例:Bootstrap置信区间n例8.6:Bootstrap方法的发明者Bradley Efron