Value targets in off-policy AlphaZero: a new greedy backup


發表時間:2021
文章要點:這篇文章給AlphaZero設計了一個新的value targets,AlphaZero with greedy backups (A0GB)。
AlphaZero的樹裏面有探索,而value又是所有結果的平均,所以並不準確。而選動作也是依概率選的,但真正測試的時候是選的訪問次數最多的動作,所以這個方法是off-policy,也會存在不一致。作者比較了文章中提出的方法和幾種常見的方法的區別,如下圖所示

其中AlphaZero target用的是真實數據的勝負關係,Soft-Z target用的是根節點的估計,A0C target用的是根節點的子節點中最大的那個value backup回去得到的,文章提出的A0GB是用的greedy策略走到葉節點的value再backup回去得到的。
這裏就涉及幾個維度,一個是真實遊戲的backup depth,另一個是樹裏面的backup depth,最後一個是樹裏面的backup width,所以作者就畫了最上面那幅三個維度的圖,以及總結的關係如下表

最後就在幾個遊戲上測試了一下,說他這個方式效果最好。
總結:感覺這個問題還挺有意思的,可以深入研究下這裏面的關係。
疑問:無。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章