Agent57: Outperforming the Atari Human Benchmark


發表時間:2020(ICML)
文章要點:這篇文章提出Agent57算法,是第一個在所有57個Atari遊戲上超過人類表現的算法。主要的思路就是基於Never Give Up (NGU)和R2D2((RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING))算法,用分佈式框架訓練一組策略,既有偏重exploration的,也有偏重exploitation的。
具體的,作者說當前RL裏面有兩個問題需要解決,一個是long-term credit assignment,另一個是exploration。NGU算法主要改進就是設計了short-term novelty within an episode和long-term novelty across episodes作爲intrinsic reward來做探索。然後作者做的改進主要是把intrinsic reward和extrinsic reward分開來學,並且用一個meta-controller的模塊來自動選擇policy的訓練,各個policy的區別就在於探索率和折扣因子\((\beta_j,\gamma_j)\)。最後相對於R2D2算法,把循環神經網絡的window擴大一倍。
然後就套DQN算法,用\(\epsilon_l\)-greedy的方式來交互,每個policy的greedy概率都不一樣,然後Q function分解爲

meta-controller就用UCB的變種

這裏的\(\epsilon\)就和DQN一樣,然後sliding-window就是說在算UCB的時候,我的value因爲是一直在變化的,所以就用一個sliding-window平均一下。
總結:是一個巨大的進步吧,不過這個交互的算力還是太驚人了,都要1e11了。

疑問:Q function分開更新估計還有不少細節啊。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章