A Deeper Look at Experience Replay


發表時間:2017(Deep Reinforcement Learning Symposium, NIPS 2017)
文章要點:這篇文章主要研究了replay buffer大小對Q-learning的影響,得出的結論是大的buffer會損害performance,因爲採樣的樣本會更加stale。基於此,文章提出了一個簡單的改進combined experience replay (CER),就是每次採樣更新都把最新產生的樣本放到batch裏訓練。
文章比較了三個簡單的算法,Q-Learning with online transitions,Q-Learning with experience replay以及Q-Learning with CER。
總結:感覺還是有一定道理的,不過測試的環境都還很簡單,而且結論也不是完全一致的,可能還是跟具體任務有關。比如在gird world上,Combined-Q緩解了buffer大小的影響,

但是在Lunar Lander上和Pong上,好像並沒有啥用


疑問:無。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章