Experience Replay Optimization

原創

2023-07-31 13:32

發表時間：2019 (IJCAI 2019)
文章要點：這篇文章提出experience replay optimization (ERO)算法，通過learning a replay policy來採樣，相對於rule-based replay，可以自動調整採樣策略。所以整個過程會交互更新兩個policy，agent policy和replay policy，agent policy最大化累計回報，replay policy選擇最有用的experience。
具體的，replay policy會給每個狀態輸出一個0-1的得分作爲採樣的權重，然後更新的方式和PER一樣，每次採到的時候纔會再次更新。這個權重拿來用bernoulli分佈採0-1的值作爲label，然後從buffer裏均勻採樣的樣本需要滿足label爲1.

這相當於是兩階段的採樣，一個是均勻分佈採樣，另一個是用bernoulli來篩選樣本。
下一個問題是如何訓練replay policy，作者度量採樣更新前後的reward差作爲訓練的reward，

然後這個reward直接從最近的episodes裏面拿出來的，不用重新做evaluate。有了這個之後，就用REINFORCE訓練。
作者最後結合了DDPG算法，看起來有一點效果，但是也不明顯

作者最後分析，這個方法更傾向於採more recent transition，low TD error以及high reward（作者認爲是因爲訓到後面buffer裏的reward都比較高）。
總結：應該是第一個來學experience replay的，不過效果不是很明顯。
疑問：無。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Experience Replay Optimization

《日本蠟燭圖》讀書筆記 & 技術分析回測

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

State Distribution-aware Sampling for Deep Q-learning

Large Batch Experience Replay

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結