滚雪球抽样算法的实现

  统计/机器学习 抽样方法    浏览次数:1097        分享
0

有了解滚雪球算法的吗?

我知道这个算法的大概的意思,但是想实现这个算法,却没有什么思路,有哪位大神可以给个思路或者伪代码的?谢谢!

 

ZackLi   2017-06-18 12:51



   1个回答 
1

这个问题一直没人回答,我讲一下我的理解。

有时候大规模抽样的成本很高,所以我们就需要一些技巧。滚雪球抽样就是这种技巧,它本质上就是“一传十,十传百”。基本步骤是:

1. 从一个小的范围内抽取符合条件的样本

2. 从符合条件的样本顺藤摸瓜,从每个合格样本在小范围外有联系的样本中再挑出合格样本

3. 反复

这个方法常用在社交网络,比如说要调查喜欢极限运动的人,这种人的总体很小,所以对整体人口调查基本上大海捞针。突破口就是:

1. 先找到一两个喜欢极限运动的人

2. 看他们的朋友(在网络结构里就是一度连接)里有哪些人也是喜欢极限运动的

3. 再看朋友的朋友

这样就会很快收集到足够多的样本

SofaSofa数据科学社区DS面试题库 DS面经

matt   2019-04-16 08:22



  相关主题

两阶段抽样和分层抽样是一回事吗?   1回答

蓄水池抽样算法的问题   1回答

parametric bootstrap和nonparametric bootstrap的区别是什么?   1回答

自助法(bootstrap)的0.632是怎么来的?   1回答

bootstrap 一般用在哪些方面   1回答

Jackknife vs Bootstrap   1回答

python产生一个随机置换?   1回答

python对给定的集合进行有放回抽样?   2回答

把训练集分成n份,用同种算法在每个子训练集上训练再把预测平均,效果如何?   1回答

SMOTE对于categorical feature如何处理?   2回答

什么是SMOTE sampling方法?   3回答

关于两个正态总体抽样分布的独立性问题   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!