原创 Learning model-based planning from scratch

發表時間:2017 文章要點:這篇文章想說,之前的文章去做planning的時候,都會去設計一個planning的方法。這篇文章提出了一個端到端的方法,Imagination-based Planner,不去設計planning的方式,做

原创 Discretizing Continuous Action Space for On-Policy Optimization

發表時間:2020(AAAI 2020) 文章要點:作者想說,連續動作通常都假設每個維度是高斯分佈的,這就限制了策略一定是一個單峯,而離散動作就沒有這個約束,所以有離散的必要。然後這篇文章提出了一個把連續動作空間離散化的方法,同時避免維度

原创 Finite-time Analysis of the Multiarmed Bandit Problem

發表時間:2002(Machine Learning, 47, 235–256, 2002) 文章要點:這篇文章主要是分析了針對Multiarmed Bandit Problem的幾個經典算法的收斂性。我們知道這類問題主要就是在解決exp

原创 Disentangling the independently controllable factors of variation by interacting with the world

發表時間:2018(Learning Disentangled Representations, NIPS 2017 Workshop) 文章要點:這篇文章想說,可以分解出獨立的可控的各種因素的表徵才叫好的representation,作

原创 COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES

發表時間:2020(ICLR 2020) 文章要點:這篇文章提出Search with Amortized Value Estimates(SAVE)算法,將Q-learning和MCTS結合起來。用Q value來指導MCTS,然後用得

原创 Bandit based Monte-Carlo Planning

發表時間:2006(ECML 2006) 文章要點:這篇文章提出了UCT算法,把bandit的UCB1算法用到Monte-Carlo planning裏面。 首先假設我們有一個generative model,就是我給一個狀態和動作,就告

原创 Monte-Carlo tree search as regularized policy optimization

發表時間:2020(ICML 2020) 文章要點:這篇文章把MCTS和policy optimization結合起來,說AlphaZero這類算法其實可以看作是帶正則項的policy optimization(AlphaZero's s

原创 HIERARCHICAL REINFORCEMENT LEARNING BY DISCOVERING INTRINSIC OPTIONS

發表時間:2021(ICLR 2021) 文章要點:這篇文章提出了一個分層強化學習算法HIDIO (HIerarchical RL by Discovering Intrinsic Options),用自監督的方式來學習任務無關的opti

原创 PROCEDURAL GENERALIZATION BY PLANNING WITH SELF-SUPERVISED WORLD MODELS

發表時間:2022(ICLR2022) 文章要點:這篇文章基於muzero來度量model-based agent的泛化能力。主要研究了三個因素:planning, self-supervised representation learn

原创 Policy Distillation

發表時間:2016(ICLR 2016) 文章要點:這篇文章考慮的情形是從一個RL的policy網絡提取策略,遷移到另一個policy網絡。其實就是知識遷移(Distillation is a method to transfer kno

原创 Deep Exploration via Bootstrapped DQN

發表時間:2016(NIPS 2016) 文章要點:這篇文章提出了Bootstrapped DQN算法來做深度探索。作者認爲,當前的探索策略比如ϵ-greedy,並沒有進行深度探索(temporally-extended (or deep

原创 MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments

發表時間:2019 文章要點:這篇文章做了一個簡化版的Atari。現在的Atari game還是太慢了,大家做實驗基本上都跑不超過5個隨機種子,實驗說服力不夠。這篇文章搞了個簡化版,輸入只有1010n的binary的表徵,其中n表示cha

原创 An Investigation of Model-Free Planning

發表時間:2019(ICML 2019) 文章要點:這篇文章主要是做實驗探討了一下什麼形式算planning。之前的planning通常會設置一個具體的planning算法,比如Monte Carlo rollouts,MCTS等等,或者

原创 A0C: Alpha Zero in Continuous Action Space

發表時間:2018 文章要點:這篇文章提出A0C算法,把AlphaZero做到連續動作空間上,主要使用的方式是progressive widening和continuous prior(就是continuous policy networ

原创 Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices

發表時間:2021(ICML 2021) 文章要點:這篇文章想說,通常強化學習算法exploration和exploitation都是混在一起的,既探索環境的dynamics,同時也利用探索到的信息來提升策略。但是要想更好的更新策略,就需