Regret Minimization Experience Replay in Off-Policy Reinforcement Learning

發表時間:2021 (NeurIPS 2021)
文章要點:理論表明,更高的hindsight TD error,更加on policy,以及更準的target Q value的樣本應該有更高的採樣權重(The theory suggests that data with higher hindsight TD error, better on-policiness and more accurate target Q value should be assigned with higher weights during sampling.)。之前的方法只部分考慮了這些strategy,並且之前的這些目標並沒有直接和RL的目標函數一致,minimize policy regret,所以他們在某些情況下可能和RL的目標是mismatch的。這篇文章從regret minimization的角度來設計experience replay,直接和RL的目標一致,提出了ReMERN和ReMERT算法。ReMERN學習了一個error network來度量Q value的誤差,ReMERT利用了狀態的時序關係,越接近終止狀態的value誤差越小。
作者先給了個例子來說明,更低的TD error或者更準的target Q value不能保證更好的效果,因爲他們的目標和RL最大化return的目標不一定匹配。如下圖所示

這個例子裏最大return的policy應該是先一直左走,最後一步往右走。假設Q value初始化爲0,那麼對PER(prioritizes state-action pairs with high TD error)來說往左走的TD error比往右走大,導致剛開始就學錯了。對於DisCor(perform Bellman update on state-action pairs that have more accurate Bellman targets)來說,直接一步到terminal state肯定有最準的target Q,所以DisCor一上來也會學錯。
作者先定義regret minimization的優化目標

然後拆開推出來最小化這個目標就相當於最小化這些項

最後總結下來就是Higher hindsight Bellman error,More on-policiness,Closer value estimation to oracle,Smaller action likelihood。
作者借鑑DisCor的思路,

然後自身的採樣權重可以寫爲

剩下的是就是估計\(\Delta_{k-1}\)了,作者用神經網絡,基於公式(6)用bootstrapped target的方式來更新,這就是ReMERN (Regret Minimization Experience Replay using Neural Network)。
接着作者提出了一個不需要用網絡來估計的改進算法ReMERT (Regret Minimization Experience Replay using Temporal Structure),基於離terminal state越近,Q value越準,作者先定義到終止狀態的距離

然後推導了Q的誤差可以大概率被這個距離控制住

然後基於這個來設計採樣權重

最後貼幾個結果,個人感覺效果不是很明顯


總結:主要還是在做理論推導吧感覺,最後落到實際算法,主要就是一個度量on policy的ratio以及一個target Q的誤差估計。效果上來看的話,不是很明顯。
疑問:裏面這個Smaller action likelihood指的是什麼,沒看懂

ReMERN裏面用網絡估計誤差的時候還需要一個最優貝爾曼算子,這個地方直接近似了嗎?

給了個github鏈接,但是還沒代碼,開源了可以試試效果。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章