MAB里的tompson抽样算法是怎么操作的?
1个回答
MAB就是老虎机游戏,老虎机有很多台,每台赚钱的概率不同,Thompson Sampling需要一边探索各个老虎机赚钱的概率,一边又想保证自身的收益。
算法其实很简单,假定你能从一个老虎机赚钱的概率为p,每个老虎机都保持一个beta分布的参数,在没有足够数据的情况下可以假设先验分布为beta(1,1)。每次试验后,选中一个老虎机,摇一下,有收益则该机的wins增加1,否则该机的lose增加1。
每次选择机器的方式是:用每个机器现有的beta分布产生一个随机数b,产生的随机数中最大的那个机器去摇。
SofaSofa数据科学社区DS面试题库 DS面经