Monte-Carlo tree search as regularized policy optimization

原創

2023-02-26 13:32

發表時間：2020（ICML 2020）
文章要點：這篇文章把MCTS和policy optimization結合起來，說AlphaZero這類算法其實可以看作是帶正則項的policy optimization（AlphaZero's search heuristics, along with other common ones such as UCT, are an approximation to the solution of a specific regularized policy optimization problem.）。然後以policy optimization的角度提出了一種AlphaZero的變種，在simulation次數較少的情況下取得比AlphaZero更好的效果。
首先，在AlphaZero中，有個神經網絡表示的policy \(\pi_\theta\)，然後MCTS會得到一個由visit counts生成的概率分佈\(\hat{\pi}\)，然後更新的目的就是讓網絡接近\(\hat{\pi}\)

然後這個網絡又會繼續用到MCTS裏面，繼續提升。這個過程就相當於一個generalized policy improvement。然後在AlphaZero的MCTS裏面，動作的選擇爲

而在policy optimization裏面，策略表示爲

這裏第一項其實就是最大化Q value，後面一項就是一個正則項。接下來就是要把MCTS和這個policy optimization聯繫起來。首先把\(\hat{\pi}\)寫出來

這裏多加了一個動作空間的常數，不過不影響。然後定義一個乘子

就可以把式子（1）寫成

拆開其實是一樣的

寫成向量形式可以表示爲

接下來定義另一個策略\(\bar{\pi}\)作爲regularized policy optimization的解

求解有

並且說\(\hat{\pi}\)其實是\(\bar{\pi}\)的近似。這裏中間還有好幾個proposition就不貼出來了，作者最後證到的就是在無窮範數下，這兩策略的誤差以O(1/N)的速度減小

然後作者提出的改進就是把基於visit count的policy \(\hat{\pi}\)換成從policy optimization求解出來的\(\bar{\pi}\)，具體可以換三個地方，一個是和環境交互的時候，二個是在做搜索的時候，三個是在擬合policy網絡的時候。然後基於muzero做了驗證。
總結：很喜歡這篇文章啊，雖然最後做的實驗其實不做也能想得到，但是能把MCTS和policy optimization聯繫到一起，找出其中的共同點，這是真的牛皮啊。
疑問：式子（8）那裏\(\bar{\pi}\)是怎麼求出來的沒看。
幾個proposition和附錄的證明都沒看。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Monte-Carlo tree search as regularized policy optimization

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

State Distribution-aware Sampling for Deep Q-learning

Large Batch Experience Replay

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結