Experience Replay Optimization

原創

2023-07-31 13:32

发表时间：2019 (IJCAI 2019)
文章要点：这篇文章提出experience replay optimization (ERO)算法，通过learning a replay policy来采样，相对于rule-based replay，可以自动调整采样策略。所以整个过程会交互更新两个policy，agent policy和replay policy，agent policy最大化累计回报，replay policy选择最有用的experience。
具体的，replay policy会给每个状态输出一个0-1的得分作为采样的权重，然后更新的方式和PER一样，每次采到的时候才会再次更新。这个权重拿来用bernoulli分布采0-1的值作为label，然后从buffer里均匀采样的样本需要满足label为1.

这相当于是两阶段的采样，一个是均匀分布采样，另一个是用bernoulli来筛选样本。
下一个问题是如何训练replay policy，作者度量采样更新前后的reward差作为训练的reward，

然后这个reward直接从最近的episodes里面拿出来的，不用重新做evaluate。有了这个之后，就用REINFORCE训练。
作者最后结合了DDPG算法，看起来有一点效果，但是也不明显

作者最后分析，这个方法更倾向于采more recent transition，low TD error以及high reward（作者认为是因为训到后面buffer里的reward都比较高）。
总结：应该是第一个来学experience replay的，不过效果不是很明显。
疑问：无。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Experience Replay Optimization

linux安装cuda和cudnn

Mellanox网卡开启SR-IOV

全面系统的AI学习路径，帮助普通人也能玩转AI

模拟手机设备：使用 Playwright 实现移动端自动化测试

HTML 00 Tutorial

uni-app实现上拉加载

vue3编译优化之“静态提升”

又是一个月-20240513

flask 如何保证返回json有序

linux服务器设置ssh免密

RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

Reflexion: Language Agents with Verbal Reinforcement Learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結