Learning Off-Policy with Online Planning


發表時間:2021(CoRL 2021)
文章要點:這篇文章提出Off-Policy with Online Planning (LOOP)算法,將H-step lookahead with a learned model和terminal value function learned by a model-free off-policy結合起來,做online planning。然後提出一個Actor Regularized Control (ARC)方法來解決Actor Divergence問題。
具體的,就是去學一個model,然後選動作的時候就基於model選使得累積回報最大的動作

最後的這個value是在訓強化的時候得到的。這裏有個問題就是,做online planning的策略和訓練value的策略不是同一個策略,會導致online planning得到的動作不一定是最好的,這個作者就叫做Actor Divergence,作者提的方法就是在最大化回報的同時控制這兩個策略的距離

然後就結束了。
總結:不知道點在哪,感覺就沒有創新。
疑問:感覺這文章沒啥新東西啊,也不知道怎麼就能發了。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章