Large Batch Experience Replay

原創

2024-02-17 13:32

发表时间：2021(ICML 2022)
文章要点：这篇文章把experience replay看做一个通过importance sampling来估计梯度的问题，从理论上推导经验回放的最优采样分布，然后提出LaBER (Large Batch Experience Replay)算法来近似这个采样分布。
非均匀采样mini batch可以看成一个基于replay buffer的importance sampling的问题，梯度估计的方差越小，收敛就会越快。PER就可以看做这样一个算法（PER is a special case of such approximations in the context of ADP, and propose better sampling schemes）。
作者首先推导，更新Q的梯度为

所以这里的关键就是G，作者推出来最大化收敛速度其实就是要最小化一个和G相关的期望项，最后就成了一个和Q的梯度有关的一个权重

PER有效的原因其实就可以认为TD error其实就是一个和Q的梯度有关的权重

PER里面有几个近似，一个是用TD error来近似最优采样分布里的Q的梯度，另一个是PER的估计是outdated，只有样本被采到的时候才会更新，这样来看PER的方差是没有被控制住的。于是作者提出两个改进Gradient Experience Replay（GER），直接用Q的梯度的范数作为权重，不过这个梯度也是outdated的