Muesli: Combining Improvements in Policy Optimization


發表時間:2021(ICML 2021)
文章要點:這篇文章提出一個更新policy的方式,結合regularized policy optimization 以及model learning as an auxiliary loss。最後直接用policy net輸出動作,不做搜索,就能有很好的效果。
具體的,作者提出了clipped MPO (CMPO) regularizer的更新方式。Regularizer爲KL散度


有了Regularizer之後,更新就是PG

接着就是用model學一個輔助任務,在model裏執行k步,然後有一個policy,用來和真實環境裏的policy算一個KL的約束

然後差不多就結束了。作者在這前其實還提了一些設計思路和需要考慮的東西,感覺有點廢話,不過還是放到這裏

總結:感覺主要的地方已經變成policy optimization了,muzero裏面的learned model,tree search基本上都被弱化了,就有點不像是search的算法了。
疑問:裏面解釋了很多有的沒的,沒有細看。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章