Experience Replay with Likelihood-free Importance Weights


發表時間:2020
文章要點:這篇文章提出LFIW算法用likelihood作爲experience的採樣權重(likelihood-free density ratio estimator),reweight experiences based on their likelihood under the stationary distribution of the current policy,這種方式鼓勵讓經常訪問的狀態有更小的誤差估計(encourage small approximation errors on the value function over frequently encountered states)。
大概思路是維護兩個buffer

Slow replay buffer存所有樣本\(d^D\),fast replay buffer存on-policy的樣本\(d^\pi\).然後採樣基於ratio \(d^\pi (s,a)/d^D (s,a)\),作者如下估計ratio

最後更新爲

效果上看,在一些環境上是有效果的

總結:思路就是儘量採on-policy的樣本,給他們賦予更高的權重。
疑問:其實不是很明白爲啥這個ratio會好。
圖裏看有的效果不如SAC,爲啥在table裏又是這個方法在所有環境上都好了,統計方法不一樣?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章