Regret Minimization Experience Replay in Off-Policy Reinforcement Learning

原創

2023-07-10 13:37

發表時間：2021 (NeurIPS 2021)
文章要點：理論表明，更高的hindsight TD error，更加on policy,以及更準的target Q value的樣本應該有更高的採樣權重（The theory suggests that data with higher hindsight TD error, better on-policiness and more accurate target Q value should be assigned with higher weights during sampling.）。之前的方法只部分考慮了這些strategy，並且之前的這些目標並沒有直接和RL的目標函數一致，minimize policy regret，所以他們在某些情況下可能和RL的目標是mismatch的。這篇文章從regret minimization的角度來設計experience replay，直接和RL的目標一致，提出了ReMERN和ReMERT算法。ReMERN學習了一個error network來度量Q value的誤差，ReMERT利用了狀態的時序關係，越接近終止狀態的value誤差越小。
作者先給了個例子來說明，更低的TD error或者更準的target Q value不能保證更好的效果,因爲他們的目標和RL最大化return的目標不一定匹配。如下圖所示

這個例子裏最大return的policy應該是先一直左走，最後一步往右走。假設Q value初始化爲0，那麼對PER（prioritizes state-action pairs with high TD error）來說往左走的TD error比往右走大，導致剛開始就學錯了。對於DisCor（perform Bellman update on state-action pairs that have more accurate Bellman targets）來說，直接一步到terminal state肯定有最準的target Q，所以DisCor一上來也會學錯。
作者先定義regret minimization的優化目標

然後拆開推出來最小化這個目標就相當於最小化這些項

最後總結下來就是Higher hindsight Bellman error，More on-policiness，Closer value estimation to oracle，Smaller action likelihood。
作者借鑑DisCor的思路，

然後自身的採樣權重可以寫爲

剩下的是就是估計\(\Delta_{k-1}\)了，作者用神經網絡，基於公式（6）用bootstrapped target的方式來更新，這就是ReMERN (Regret Minimization Experience Replay using Neural Network)。
接着作者提出了一個不需要用網絡來估計的改進算法ReMERT (Regret Minimization Experience Replay using Temporal Structure)，基於離terminal state越近，Q value越準，作者先定義到終止狀態的距離