自助法(bootstrap)的0.632是怎么来的?

  统计/机器学习 抽样方法    浏览次数:11954        分享
5

自助法(bootstrap)就是从样本中有放回的抽样。如果样本集中有n个样本,要自助法选出n个样本,那么一个样本被选出的概率是0.632。请问这个是怎么来的?有证明吗?谢谢!

 

FTD   2017-05-10 11:05



   1个回答 
17

有$n$个样本,我们有放回的随机从中抽取$n$次。

在第一次抽取时,样本A被选中的概率是$\frac{1}{n}$,不被选中的概率自然就是$1-\frac{1}{n}$。每次抽取都是独立的,所以当抽完$n$次之后,A一次都没有被抽中的概率就是

$$(1-\frac{1}{n})^n.$$

这个式子眼熟吗?这个就是高等数学中那个著名的极限

$$\lim_{n\rightarrow\infty}(1-\frac{1}n)^n=\frac{1}{e}.$$

所以当bootstrap样本总数很大的时候,任意一个样本被抽中的概率就是$1-\frac{1}{e}\approx1-\frac{1}{2.71828}\approx0.632$。


SofaSofa数据科学社区DS面试题库 DS面经

MrMath   2017-05-14 09:13

两年前面试还被问到过,可惜当时一脸懵X了 - Nagozi   2018-04-02 07:57
有点6,大一高数两个重要极限 - chrisliang   2019-01-14 15:42


  相关讨论

滚雪球抽样算法的实现

两阶段抽样和分层抽样是一回事吗?

蓄水池抽样算法的问题

Jackknife vs Bootstrap

bootstrap 一般用在哪些方面

parametric bootstrap和nonparametric bootstrap的区别是什么?

python产生一个随机置换?

python对给定的集合进行有放回抽样?

把训练集分成n份,用同种算法在每个子训练集上训练再把预测平均,效果如何?

SMOTE对于categorical feature如何处理?

  随便看看

两个独立的正态随机变量的乘积服从什么分布?

tsne被忽视?tsne有什么缺点?

python(matplotlib)中如何把折线图和柱状图画在一起?

如何重命名pandas的dataframe的列名

pip install opencv-python失败,难道非要编译安装?