MAB里的tompson抽样算法是怎么操作的?

  统计/机器学习 AB Test 抽样方法 强化学习    浏览次数:1836        分享
0

MAB里的tompson抽样算法是怎么操作的?

 

cyh   2019-12-04 11:00



   1个回答 
3

MAB就是老虎机游戏,老虎机有很多台,每台赚钱的概率不同,Thompson Sampling需要一边探索各个老虎机赚钱的概率,一边又想保证自身的收益。

算法其实很简单,假定你能从一个老虎机赚钱的概率为p,每个老虎机都保持一个beta分布的参数,在没有足够数据的情况下可以假设先验分布为beta(1,1)。每次试验后,选中一个老虎机,摇一下,有收益则该机的wins增加1,否则该机的lose增加1。 

每次选择机器的方式是:用每个机器现有的beta分布产生一个随机数b,产生的随机数中最大的那个机器去摇。

SofaSofa数据科学社区DS面试题库 DS面经

简Cheng   2019-12-14 17:16



  相关讨论

AB检测里selection bias是什么?

AB测试样本量的问题

AB实验的哈希分桶技术是什么意思?

AB检验里的spillover effect是什么意思?

AB Testing里Geo Hashing是什么意思?

AB实验里的灰度实验概念是什么意思?

Bellman equation里没有梯度下降为什么会有学习率?

双盲实验是什么意思?

Q-learning里的Q是什么意思?

关于举办“迁移学习(Transfer Learning)核心技术

  随便看看

python里怎么求一个矩阵的秩?

推荐系统中的召回(recall)是什么意思?

spark里怎么refresh表?

pandas.DataFrame更改列名

python里的<<或者>>符号是什么意思?