AB测试样本量的问题

  统计/机器学习 AB Test    浏览次数:3941        分享
0

项目上线要AB测试(测试CTR是否大于原来的CTR),假设每天测试有10000人,现在我只统计里面1000人的CTR,问我要连续测试多少天,才能让得到的结论有95%的置信度

 

zhangyang17   2020-03-21 10:48



   1个回答 
4

其实你问的就是样本量的问题。样本量是有一套自己的计算公式的

$$S=\frac{\frac{z^2p(1-p)}{e^2}}{1+\frac{z^2p(1-p)}{e^2N}}$$

可以根据上面的式子计算出所需要的样本量$S$。$N$是样本总数,你这里是10000,$z$是z-值,根据95%置信区间,我们知道$z=1.96$,$e$是边际误差,你没有给出,默认是1%吧。$p$是CTR,假设这里是$0.05$。

把数值带进去,可以得到$S\approx1543\gt1000$,所以你一天的数据是不够的。

如果你连续测两天,也就是$N=20000$,此时再计算一遍样本量,得到$S\approx 1672 \lt 2000$,所以两天就够了。

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2020-03-23 23:22

这是我在网上看到的一个面试题 不知道该用什么公式 后来一想觉得有些指标也可以当作已知 - zhangyang17   2020-03-24 13:19
还有 就是这里面是只统计10000人中1000人的 所以应该是20天吧 - zhangyang17   2020-03-24 13:20
为什么是20天呢? - LiShanfei   2020-03-24 23:48


  相关讨论

AB实验的哈希分桶技术是什么意思?

AB实验里的灰度实验概念是什么意思?

AB Testing里Geo Hashing是什么意思?

AB检验里的spillover effect是什么意思?

双盲实验是什么意思?

AB检测里selection bias是什么?

如果样本不是正态分布,还能用t-test或者z-test吗?

MAB里的tompson抽样算法是怎么操作的?

如何从假设检验的角度去理解AB testing

怎么提高一个假设检验的效力(power)?

  随便看看

xgboost的gblinear是什么意思?

micro和macro F1 score分别是什么意思?

推荐系统中的召回(recall)是什么意思?

神经网络中的dense和sparse是什么意思?

tsne被忽视?tsne有什么缺点?