Bootstrap Method是Efron于1979年在Annals of Statistics所发表的一个办法,是近代统计发展上极重要的一个里程碑。
当我们通过样本均数来描述总体均数时,常常根据样本均数的抽样分布(sampling distribution)来计算标准误,并用置信区间(confidence interval,CI)来表示总体均数可能的范围。当样本所来自总体为正态分布时,其sampling distribution可为正态分布或为t分布(小样本含量)。而当样本所来自总体不是正态分布时,我们需要用电脑模拟或用渐进分析的办法加以克服。当对总体了解不够深时,渐进分析的办法是较有效的方法,故中央极限定理(Central Limit Theorem),Edgeworth Expansion(small sample theory)等办法及其可行性及限制等於文献中广被探讨,人们虽不全然喜欢这些办法,但也找不出更理性的方法来取代渐进分析的办法。而自助法确是一个相当具说服力的方法,更提供了统计工作者另一个寻找sampling distribution 的办法,故在近年来於文献中广被探讨。
“Bootstrap”法是指用原样本自身的数据抽样得出新的样本及统计量。在原始数据的范围内作有放回的再抽样(resampling),样本含量仍为n,原始数据中每个观察单位每次被抽到的概率相等,为1/n,所得样本称为bootstrap样本。于是可得到参数θ的一个估计值θ(b),这样重复若干次(记为B),设B=1000,就得到该参数的1000个估计值,当θ(b)的频数分布近似正态时,以其均数作为点估计,用正态原理估计可信区间;当θ(b)的频数分布为偏态时,以其中位数作为点估计,以上、下2.5%分位数作为其95%可信限。
One approach to determining frequentist error bars is the bootstrap (Efron,1979; Hastie et al.,2001),in which multiple data sets are created as follows. Suppose our original data set consists of N data points X = {x1,. . .,xN }. We can create a new data set XB by drawing N points at random from X,with replacement,so that some points in X may be replicated in XB,whereas other points in X may be absent from XB . This process can be repeated L times to generate L data sets each of size N and each obtained by sampling from the original data set X. The statistical accuracy of parameter estimates can then be evaluated by looking at the variability of predictions between the different bootstrap data sets.