Large Batch Experience Replay


發表時間:2021(ICML 2022)
文章要點:這篇文章把experience replay看做一個通過importance sampling來估計梯度的問題,從理論上推導經驗回放的最優採樣分佈,然後提出LaBER (Large Batch Experience Replay)算法來近似這個採樣分佈。
非均勻採樣mini batch可以看成一個基於replay buffer的importance sampling的問題,梯度估計的方差越小,收斂就會越快。PER就可以看做這樣一個算法(PER is a special case of such approximations in the context of ADP, and propose better sampling schemes)。
作者首先推導,更新Q的梯度爲

所以這裏的關鍵就是G,作者推出來最大化收斂速度其實就是要最小化一個和G相關的期望項,最後就成了一個和Q的梯度有關的一個權重

PER有效的原因其實就可以認爲TD error其實就是一個和Q的梯度有關的權重

PER裏面有幾個近似,一個是用TD error來近似最優採樣分佈裏的Q的梯度,另一個是PER的估計是outdated,只有樣本被採到的時候纔會更新,這樣來看PER的方差是沒有被控制住的。於是作者提出兩個改進Gradient Experience Replay(GER),直接用Q的梯度的範數作爲權重,不過這個梯度也是outdated的

另一個改進是Large Batch Experience Replay(LaBER),先採樣一個大的batch,計算importance sampling,再down sample成一個方差最小的mini batch來近似最優採樣分佈。這個時候的梯度估計就是最新的


有了batch之後,更新的加權作者也試了幾種,
直接歸一化

用大batch的mean歸一化

不歸一化,直接全部放到learning rate裏

用最大權重來歸一化

從效果上看,mean要好些。最後效果如下,

總結:看起來在某些環境上是有效果的。作者開源了代碼,可以試試。
疑問:無。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章