Monte-Carlo tree search as regularized policy optimization


發表時間:2020(ICML 2020)
文章要點:這篇文章把MCTS和policy optimization結合起來,說AlphaZero這類算法其實可以看作是帶正則項的policy optimization(AlphaZero's search heuristics, along with other common ones such as UCT, are an approximation to the solution of a specific regularized policy optimization problem.)。然後以policy optimization的角度提出了一種AlphaZero的變種,在simulation次數較少的情況下取得比AlphaZero更好的效果。
首先,在AlphaZero中,有個神經網絡表示的policy \(\pi_\theta\),然後MCTS會得到一個由visit counts生成的概率分佈\(\hat{\pi}\),然後更新的目的就是讓網絡接近\(\hat{\pi}\)

然後這個網絡又會繼續用到MCTS裏面,繼續提升。這個過程就相當於一個generalized policy improvement。然後在AlphaZero的MCTS裏面,動作的選擇爲

而在policy optimization裏面,策略表示爲

這裏第一項其實就是最大化Q value,後面一項就是一個正則項。接下來就是要把MCTS和這個policy optimization聯繫起來。首先把\(\hat{\pi}\)寫出來

這裏多加了一個動作空間的常數,不過不影響。然後定義一個乘子

就可以把式子(1)寫成

拆開其實是一樣的

寫成向量形式可以表示爲

接下來定義另一個策略\(\bar{\pi}\)作爲regularized policy optimization的解

求解有

並且說\(\hat{\pi}\)其實是\(\bar{\pi}\)的近似。這裏中間還有好幾個proposition就不貼出來了,作者最後證到的就是在無窮範數下,這兩策略的誤差以O(1/N)的速度減小

然後作者提出的改進就是把基於visit count的policy \(\hat{\pi}\)換成從policy optimization求解出來的\(\bar{\pi}\),具體可以換三個地方,一個是和環境交互的時候,二個是在做搜索的時候,三個是在擬合policy網絡的時候。然後基於muzero做了驗證。
總結:很喜歡這篇文章啊,雖然最後做的實驗其實不做也能想得到,但是能把MCTS和policy optimization聯繫到一起,找出其中的共同點,這是真的牛皮啊。
疑問:式子(8)那裏\(\bar{\pi}\)是怎麼求出來的沒看。
幾個proposition和附錄的證明都沒看。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章