Agent57: Outperforming the Atari Human Benchmark

原創

2022-05-03 13:32

发表时间：2020（ICML）
文章要点：这篇文章提出Agent57算法，是第一个在所有57个Atari游戏上超过人类表现的算法。主要的思路就是基于Never Give Up (NGU)和R2D2((RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING))算法，用分布式框架训练一组策略，既有偏重exploration的，也有偏重exploitation的。
具体的，作者说当前RL里面有两个问题需要解决，一个是long-term credit assignment，另一个是exploration。NGU算法主要改进就是设计了short-term novelty within an episode和long-term novelty across episodes作为intrinsic reward来做探索。然后作者做的改进主要是把intrinsic reward和extrinsic reward分开来学，并且用一个meta-controller的模块来自动选择policy的训练，各个policy的区别就在于探索率和折扣因子\((\beta_j,\gamma_j)\)。最后相对于R2D2算法，把循环神经网络的window扩大一倍。
然后就套DQN算法，用\(\epsilon_l\)-greedy的方式来交互，每个policy的greedy概率都不一样，然后Q function分解为

meta-controller就用UCB的变种

这里的\(\epsilon\)就和DQN一样，然后sliding-window就是说在算UCB的时候，我的value因为是一直在变化的，所以就用一个sliding-window平均一下。
总结：是一个巨大的进步吧，不过这个交互的算力还是太惊人了，都要1e11了。

疑问：Q function分开更新估计还有不少细节啊。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Agent57: Outperforming the Atari Human Benchmark

探究职业发展的关键：能力模型解读

如何在低代码平台中引用 JavaScript ？

高效率使用windows

智能决策新时代：可视化大屏是否能够超越传统白板？

解密Prompt系列28. LLM Agent之金融领域摸索：FinMem & FinAgent

分享几个.NET开源的AI和LLM相关项目框架

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

Reflexion: Language Agents with Verbal Reinforcement Learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結