Remember and Forget for Experience Replay

發表時間:2019(ICML 2019)
文章要點:這篇文章想說如果replay的經驗和當前的policy差別很大的話,對更新是有害的。然後提出了Remember and Forget Experience Replay (ReF-ER)算法,(1)跳過那些和當前policy差別很大的experience的更新(2)用trust region來約束更新步長。
作者把experience分爲“near-policy" or “far-policy",然後更新基於near-policy experience。區分的表徵是計算當前policy和之前policy的ratio,然後設置一個閾值,落在範圍內的就是near-policy experience

其中\(c_{max}>1\)
更新的準則就是隻有near-policy的experience提供梯度

接着就是控制更新步長,讓更新的policy離上一個policy不要差太遠

然後作者就把這個方法用到各個算法上,DDPG,NAF,V-RACER,處理的問題都是連續動作空間。

總結:思路就是用最新的樣本更新,然後控制更新幅度不要太大。感覺就是往on-policy的算法上靠。
疑問:無。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章