Revisiting Prioritized Experience Replay: A Value Perspective


發表時間:2021
文章要點:這篇文章想說Prioritized experience replay這類方法通過surprise (the magnitude of the temporal-difference error)來採樣,但是surprise只能量化unexpectedness,experience的重要性還是不清楚(importance)。作者定義experience的重要度在於可以給更新帶來多大的累計回報的提升(We define the value of experience as the increase in the expected cumulative reward resulted from updating on the experience)。作者提出了三個指標來度量experience的重要性,然後理論證明了surprise是上界,最後做實驗驗證效果。
首先,作者定義expected value of backup

這個式子就定義了更新前和更新後的value的區別。然後這個式子可以拆開寫成兩項,evaluation improvement value和policy improvement value

根據這個式子,作者推了Q-learning和soft Q-learning的情形。然後基於這個新的指標去採樣。最後的結果如下

作者中間還證了一下bound,貼到這裏


總結:從最後的結果來看,基本沒有提升,可能主要還是做理論吧,畢竟只有bound變緊了纔有效果,文章裏的指標也不好說到底緊了沒,緊了多少。
疑問:證明沒看。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章