Bandit based Monte-Carlo Planning

原創

2023-03-04 13:32

发表时间：2006（ECML 2006）
文章要点：这篇文章提出了UCT算法，把bandit的UCB1算法用到Monte-Carlo planning里面。
首先假设我们有一个generative model，就是我给一个状态和动作，就告诉我下一个状态和reward。有了这个model之后，通常的做法就是搞个lookahead search。最常见的算法就是Monte-Carlo search,通过随机采样或者某种heuristic biasing的方法来选动作往前看n步，再回溯看哪个动作的value最高。这个方法的缺点就是sample是随机的，相互之间没有联系。作者的想法就是，如果在搜索过程中，如果在前期的sampling过程中能识别出一些比较好的动作的子集，那么就会提升后期的性能（if one is able to identify a large subset of the suboptimal actions early in the sampling procedure then huge performance improvements can be expected.）。同时，这个子集不可能一上来就选对了，所以还需要扩张或者删减，所以还需要平衡exploration-exploitation。然后作者就提出了经典的UCT算法来选择动作。首先在bandit问题里，UCB1是

同时，由Hoeffding's inequality可得

这个不等式就说明了UCB1在bandit问题上的收敛性。然后作者就说，planning其实就相当于是non-stationary bandit，只需要让

然后取一个合适的\(C_p>0\)就可以满足那个概率不等式了。这就成了经典的UCT算法了。

总结：算是MCTS的起源文章了，很经典也很有效，像AlphaZero这类算法都是基于UCT改进的，影响力是真的大。
疑问：里面具体的证明还需要看看UCB的文章。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Bandit based Monte-Carlo Planning

如何基于surging跨网关跨语言进行缓存降级

2024合集

程序员天天 CURD，怎么才能成长，职业发展的思考(2)

移位操作搞定两数之商

教你用Perl实现Smgp协议

如何通过前端表格控件在10分钟内完成一张分组报表？

win11关闭自动检测病毒删文件

千兆宽带实际网速能到达多少？

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

Reflexion: Language Agents with Verbal Reinforcement Learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結