A Deeper Look at Experience Replay
發表時間:2017(Deep Reinforcement Learning Symposium, NIPS 2017)
文章要點:這篇文章主要研究了replay buffer大小對Q-learning的影響,得出的結論是大的buffer會損害performance,因爲採樣的樣本會更加stale。基於此,文章提出了一個簡單的改進combined experience replay (CER),就是每次採樣更新都把最新產生的樣本放到batch裏訓練。
文章比較了三個簡單的算法,Q-Learning with online transitions,Q-Learning with experience replay以及Q-Learning with CER。
總結:感覺還是有一定道理的,不過測試的環境都還很簡單,而且結論也不是完全一致的,可能還是跟具體任務有關。比如在gird world上,Combined-Q緩解了buffer大小的影響,
但是在Lunar Lander上和Pong上,好像並沒有啥用
疑問:無。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
一些可用於研究的GIS數據資源
harlee44
2024-05-07 14:31:18
如何在低代碼平臺中引用 JavaScript ?
葡萄城技術團隊
2024-05-07 14:30:48
如何使用 JavaScript 獲取當前頁面幀率 FPS
劉漢貴
2024-05-07 14:26:58
Dash 2.17版本新特性介紹
費弗裏
2024-05-07 14:21:37
人大金倉數據庫使(cai)用(keng)記錄
M_mxy
2024-05-07 14:17:06
《最新出爐》系列入門篇-Python+Playwright自動化測試-43-分頁測試
北京-宏哥
2024-05-07 14:14:46
Ubuntu18 安裝NoMachine遠程桌面(解決遠程桌面延遲)
iucx
2024-05-07 14:11:26
大數據面試SQL每日一題系列:最高峯同時在線主播人數。字節,快手等大廠高頻面試題
魯邊
2024-05-07 14:06:45
工程款拖欠,農民工怎麼了?就得一直忍着委屈求全嗎?
久曲健
2024-05-07 14:06:15
Canvas簡歷編輯器-我的剪貼板裏究竟有什麼數據
WindrunnerMax
2024-05-07 14:05:25
HarmonyOS 實現下拉刷新,上拉加載更多
西北野狼
2024-05-07 14:05:15
【轉】在 Linux 里布署 Docker
z5337
2024-05-07 14:05:05
使用.NET源生成器(SG)實現一個自動注入的生成器
萬雅虎
2024-05-07 14:04:44
最新文章
-
REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
-
Reflexion: Language Agents with Verbal Reinforcement Learning
-
Large Language Models Are Semi-Parametric Reinforcement Learning Agents
-
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems
-
Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience