原创 PROCEDURAL GENERALIZATION BY PLANNING WITH SELF-SUPERVISED WORLD MODELS

發表時間:2022(ICLR2022) 文章要點:這篇文章基於muzero來度量model-based agent的泛化能力。主要研究了三個因素:planning, self-supervised representation learn

原创 Policy Distillation

發表時間:2016(ICLR 2016) 文章要點:這篇文章考慮的情形是從一個RL的policy網絡提取策略,遷移到另一個policy網絡。其實就是知識遷移(Distillation is a method to transfer kno

原创 Deep Exploration via Bootstrapped DQN

發表時間:2016(NIPS 2016) 文章要點:這篇文章提出了Bootstrapped DQN算法來做深度探索。作者認爲,當前的探索策略比如ϵ-greedy,並沒有進行深度探索(temporally-extended (or deep

原创 MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments

發表時間:2019 文章要點:這篇文章做了一個簡化版的Atari。現在的Atari game還是太慢了,大家做實驗基本上都跑不超過5個隨機種子,實驗說服力不夠。這篇文章搞了個簡化版,輸入只有1010n的binary的表徵,其中n表示cha

原创 An Investigation of Model-Free Planning

發表時間:2019(ICML 2019) 文章要點:這篇文章主要是做實驗探討了一下什麼形式算planning。之前的planning通常會設置一個具體的planning算法,比如Monte Carlo rollouts,MCTS等等,或者

原创 A0C: Alpha Zero in Continuous Action Space

發表時間:2018 文章要點:這篇文章提出A0C算法,把AlphaZero做到連續動作空間上,主要使用的方式是progressive widening和continuous prior(就是continuous policy networ

原创 Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices

發表時間:2021(ICML 2021) 文章要點:這篇文章想說,通常強化學習算法exploration和exploitation都是混在一起的,既探索環境的dynamics,同時也利用探索到的信息來提升策略。但是要想更好的更新策略,就需

原创 Discovering symbolic policies with deep reinforcement learning

發表時間:2021(ICML 2021) 文章要點:這篇文章想說神經網絡的解釋性太差,用簡單的符號式子來表示策略具有更好的解釋性,而且性能也不錯。這裏符號式子就是一個簡單的函數。作者就提出了一個叫deep symbolic policy的

原创 Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research

發表時間:2021(ICML 2021) 文章要點:這篇文章就是在小的環境上重新測試了一遍DQN以及一系列變種的效果,得出的結論就是說即使是在簡單任務上進行測試,也能得到有價值的結果,呼籲降低研究RL的算力門檻。具體的,作者先說就算是At

原创 EXPLORATION BY RANDOM NETWORK DISTILLATION

發表時間:2018(ICLR 2019) 文章要點:文章提出了一個random network distillation (RND)的算法,通過比較一個預測網絡和一個隨機初始化網絡的越策誤差作爲exploration bonus來增加探索

原创 Planning to Explore via Self-Supervised World Models

發表時間:2020(ICML 2020) 文章要點:這篇文章提出了一個Plan2Explore的model based方法,通過self-supervised方法來做Task-agnostic的探索,在這個過程中有效學習了world mo

原创 NEVER GIVE UP: LEARNING DIRECTED EXPLORATION STRATEGIES

發表時間:2020(ICLR 2020) 文章要點:這篇文章的思路是運用distributed RL的形式,基於intrinsic reward,並行多個agent,將exploration策略和exploitation策略分開單獨訓練,

原创 Discovering and Achieving Goals via World Models

發表時間:2021(NeurIPS 2021) 文章要點:這篇文章提出Latent Explorer Achiever (LEXA)算法,通過學習world model的imagined rollouts來訓練一個explorer策略和一

原创 Agent57: Outperforming the Atari Human Benchmark

發表時間:2020(ICML) 文章要點:這篇文章提出Agent57算法,是第一個在所有57個Atari遊戲上超過人類表現的算法。主要的思路就是基於Never Give Up (NGU)和R2D2((RECURRENT EXPERIENC

原创 Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

發表時間:2020(IJCAI 2020) 文章要點:這篇文章提出Policy Transfer Framework (PTF)算法來做policy transfer。主要思路就是自動去學什麼時候用哪一個source policy用來作爲