AB检测里selection bias是什么?

  统计/机器学习 AB Test 抽样方法    浏览次数:2925        分享
0

AB检测里selection bias是什么?一般是怎么造成的?

 

bugoutong   2019-09-09 08:11   2个回答 
4

AB test中分成对照组和实验组,在实验开始前,对照组和实验组的样本和样本相关属性应该是同分布的。

但是实际过程中,由于对照组的样本和实验组的样本都是人为选定的,所以很难做到同分布,往往有偏差,这种偏差就是选择偏差(selection bias)。

比如想通过AB test检验一本辅导教材的效果,对照组是一个普通中学的全体学生,实验组是一个重点中学的全体学生。这两所学校的学生就不是同分布的。

比如想通过AB test检验一个在线汽车广告的效果,对照组是青年女性用户,实验组是中年男性用户。这两批人群也不是同分布的。这样选择样本都会有选择偏差。要做到无偏差,一般会通过完全随机取样。

SofaSofa数据科学社区DS面试题库 DS面经

东布东   2019-09-16 22:15

3

通俗的讲.如果你想要测试两个产品的好坏,例如网站1.0和2.0。那么单独将拿给两波人用,再进行反馈统计,用户对网站的好评率就是比较的指标。

selection bias就是个来源于测试群体的“样本选择偏差”。再举个例子,例如两种型号键盘通过abtest比较好坏。得到统计结果实验者用a键盘错字率2%,b键盘错字率5%。看上去a键盘更好吧?但如果a键盘实验者是个程序员b键盘实验者是个小白呢?因为测试群体随机性,正如楼上的重点中学和普通中学学生能力不同。会导致*不客观结果*

SofaSofa数据科学社区DS面试题库 DS面经

栗悟饭与龟波功   2019-09-18 01:28  相关讨论

AB Testing里Geo Hashing是什么意思?

AB实验的哈希分桶技术是什么意思?

AB测试样本量的问题

AB检验里的spillover effect是什么意思?

AB实验里的灰度实验概念是什么意思?

MAB里的tompson抽样算法是怎么操作的?

双盲实验是什么意思?

如果样本不是正态分布,还能用t-test或者z-test吗?

蓄水池抽样算法的问题

parametric bootstrap和nonparametric bootstrap的区别是什么?

  随便看看

凸优化中局部最优解就是全局最优解吗?

特征归一化对K Means有影响吗?

seaborn如何显示图?

sklearn可以用gpu加速吗?

为什么神经网络模型不用交叉验证?