MODEL-AUGMENTED PRIORITIZED EXPERIENCE REPLAY

原創

2023-07-03 13:32

發表時間：2022（ICLR 2022）
文章要點：這篇文章想說Q網絡通常會存在under- or overestimate，基於TD error的experience replay通常都是無效的，因爲TD error是基於Q網絡的值計算的。作者提出了model-augmented prioritized experience replay (MaPER)，用model based的輔助任務來幫助計算priority的score，這樣就可以避開Q網絡估計不準的問題。
具體的，作者修改了網絡結構，讓critic網絡同時預測reward和狀態轉移，modify the critic network by additionally predicting the reward and the transition with shared weights, which we call Model-augmented Critic Network (MaCN).然後提出MaPER，計算priority的時候同時考慮模型估計誤差和TD error。這個方式的好處是前期可能會更多考慮model error的樣本，後期會更多考慮TD error的樣本，同時learn model這個輔助任務也會幫助Q value的擬合

具體的，網絡的損失變成三項

這裏R是reward的預測，T是transition的預測，Q就是Q value，注意這裏target Q的計算

現在這個r不再是真實的環境reward，而是基於model預測的reward了

有了這個訓練之後，另一個問題就是priority的計算，作者直接三項求和

剩下的就是PER的方式計算採樣概率以及權重修正

整個算法如下

效果看起來也不錯

總結：出發點是非常有道理的，畢竟TD error確實可能就不準。整個計算代價增加的不多，效果看起來也不錯，值得借鑑一下。另外補充材料裏面把所有環境的圖都貼一遍介紹一下，又學到了。
疑問：這幾個error引入了三個權重參數，是看成一個multi-task的任務自適應調整的，也沒具體給出數值，感覺可以看看這篇引文，A simple general approach to balance task difficulty in multi-task learning。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

MODEL-AUGMENTED PRIORITIZED EXPERIENCE REPLAY

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

ffmpeg 百度雲盤

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

State Distribution-aware Sampling for Deep Q-learning

Large Batch Experience Replay

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結