Large Batch Experience Replay

原創

2024-02-17 13:32

發表時間：2021(ICML 2022)
文章要點：這篇文章把experience replay看做一個通過importance sampling來估計梯度的問題，從理論上推導經驗回放的最優採樣分佈，然後提出LaBER (Large Batch Experience Replay)算法來近似這個採樣分佈。
非均勻採樣mini batch可以看成一個基於replay buffer的importance sampling的問題，梯度估計的方差越小，收斂就會越快。PER就可以看做這樣一個算法（PER is a special case of such approximations in the context of ADP, and propose better sampling schemes）。
作者首先推導，更新Q的梯度爲

所以這裏的關鍵就是G，作者推出來最大化收斂速度其實就是要最小化一個和G相關的期望項，最後就成了一個和Q的梯度有關的一個權重

PER有效的原因其實就可以認爲TD error其實就是一個和Q的梯度有關的權重

PER裏面有幾個近似，一個是用TD error來近似最優採樣分佈裏的Q的梯度，另一個是PER的估計是outdated，只有樣本被採到的時候纔會更新，這樣來看PER的方差是沒有被控制住的。於是作者提出兩個改進Gradient Experience Replay（GER），直接用Q的梯度的範數作爲權重，不過這個梯度也是outdated的