MAB里的tompson抽样算法是怎么操作的？-SofaSofa

MAB里的tompson抽样算法是怎么操作的？

cyh 2019-12-04 11:00

MAB就是老虎机游戏，老虎机有很多台，每台赚钱的概率不同，Thompson Sampling需要一边探索各个老虎机赚钱的概率，一边又想保证自身的收益。

算法其实很简单，假定你能从一个老虎机赚钱的概率为p，每个老虎机都保持一个beta分布的参数，在没有足够数据的情况下可以假设先验分布为beta(1,1)。每次试验后，选中一个老虎机，摇一下，有收益则该机的wins增加1，否则该机的lose增加1。

每次选择机器的方式是：用每个机器现有的beta分布产生一个随机数b，产生的随机数中最大的那个机器去摇。

简Cheng 2019-12-14 17:16

MAB里的tompson抽样算法是怎么操作的？