AB测试样本量的问题

  统计/机器学习 AB Test    浏览次数:175        分享
0

项目上线要AB测试(测试CTR是否大于原来的CTR),假设每天测试有10000人,现在我只统计里面1000人的CTR,问我要连续测试多少天,才能让得到的结论有95%的置信度

 

zhangyang17   2020-03-21 10:48



   1个回答 
2

其实你问的就是样本量的问题。样本量是有一套自己的计算公式的

$$S=\frac{\frac{z^2p(1-p)}{e^2}}{1+\frac{z^2p(1-p)}{e^2N}}$$

可以根据上面的式子计算出所需要的样本量$S$。$N$是样本总数,你这里是10000,$z$是z-值,根据95%置信区间,我们知道$z=1.96$,$e$是边际误差,你没有给出,默认是1%吧。$p$是CTR,假设这里是$0.05$。

把数值带进去,可以得到$S\approx1543\gt1000$,所以你一天的数据是不够的。

如果你连续测两天,也就是$N=20000$,此时再计算一遍样本量,得到$S\approx 1672 \lt 2000$,所以两天就够了。

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2020-03-23 23:22

这是我在网上看到的一个面试题 不知道该用什么公式 后来一想觉得有些指标也可以当作已知 - zhangyang17   2020-03-24 13:19
还有 就是这里面是只统计10000人中1000人的 所以应该是20天吧 - zhangyang17   2020-03-24 13:20
为什么是20天呢? - LiShanfei   2020-03-24 23:48


  相关主题

AB Testing里Geo Hashing是什么意思?   1回答

AB实验里的灰度实验概念是什么意思?   1回答

怎么提高一个假设检验的效力(power)?   1回答

如何从假设检验的角度去理解AB testing   2回答

如果样本不是正态分布,还能用t-test或者z-test吗?   4回答

AB检测里selection bias是什么?   2回答

MAB里的tompson抽样算法是怎么操作的?   1回答

因子分析的维度是怎么划分的呢   0回答

关于大规模稀疏矩阵的问题   2回答

线性基分类器的XGboost的原理是怎样的?   2回答

生存分析中left censored, right censored有什么区别?   1回答

有人关注机器学习在量化交易中的应用吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!