原创 Learning model-based planning from scratch
發表時間:2017 文章要點:這篇文章想說,之前的文章去做planning的時候,都會去設計一個planning的方法。這篇文章提出了一個端到端的方法,Imagination-based Planner,不去設計planning的方式,做
原创 Discretizing Continuous Action Space for On-Policy Optimization
發表時間:2020(AAAI 2020) 文章要點:作者想說,連續動作通常都假設每個維度是高斯分佈的,這就限制了策略一定是一個單峯,而離散動作就沒有這個約束,所以有離散的必要。然後這篇文章提出了一個把連續動作空間離散化的方法,同時避免維度
原创 Finite-time Analysis of the Multiarmed Bandit Problem
發表時間:2002(Machine Learning, 47, 235–256, 2002) 文章要點:這篇文章主要是分析了針對Multiarmed Bandit Problem的幾個經典算法的收斂性。我們知道這類問題主要就是在解決exp
原创 Disentangling the independently controllable factors of variation by interacting with the world
發表時間:2018(Learning Disentangled Representations, NIPS 2017 Workshop) 文章要點:這篇文章想說,可以分解出獨立的可控的各種因素的表徵才叫好的representation,作
原创 COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES
發表時間:2020(ICLR 2020) 文章要點:這篇文章提出Search with Amortized Value Estimates(SAVE)算法,將Q-learning和MCTS結合起來。用Q value來指導MCTS,然後用得
原创 Bandit based Monte-Carlo Planning
發表時間:2006(ECML 2006) 文章要點:這篇文章提出了UCT算法,把bandit的UCB1算法用到Monte-Carlo planning裏面。 首先假設我們有一個generative model,就是我給一個狀態和動作,就告
原创 Monte-Carlo tree search as regularized policy optimization
發表時間:2020(ICML 2020) 文章要點:這篇文章把MCTS和policy optimization結合起來,說AlphaZero這類算法其實可以看作是帶正則項的policy optimization(AlphaZero's s
原创 HIERARCHICAL REINFORCEMENT LEARNING BY DISCOVERING INTRINSIC OPTIONS
發表時間:2021(ICLR 2021) 文章要點:這篇文章提出了一個分層強化學習算法HIDIO (HIerarchical RL by Discovering Intrinsic Options),用自監督的方式來學習任務無關的opti
原创 PROCEDURAL GENERALIZATION BY PLANNING WITH SELF-SUPERVISED WORLD MODELS
發表時間:2022(ICLR2022) 文章要點:這篇文章基於muzero來度量model-based agent的泛化能力。主要研究了三個因素:planning, self-supervised representation learn
原创 Policy Distillation
發表時間:2016(ICLR 2016) 文章要點:這篇文章考慮的情形是從一個RL的policy網絡提取策略,遷移到另一個policy網絡。其實就是知識遷移(Distillation is a method to transfer kno
原创 Deep Exploration via Bootstrapped DQN
發表時間:2016(NIPS 2016) 文章要點:這篇文章提出了Bootstrapped DQN算法來做深度探索。作者認爲,當前的探索策略比如ϵ-greedy,並沒有進行深度探索(temporally-extended (or deep
原创 MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments
發表時間:2019 文章要點:這篇文章做了一個簡化版的Atari。現在的Atari game還是太慢了,大家做實驗基本上都跑不超過5個隨機種子,實驗說服力不夠。這篇文章搞了個簡化版,輸入只有1010n的binary的表徵,其中n表示cha
原创 An Investigation of Model-Free Planning
發表時間:2019(ICML 2019) 文章要點:這篇文章主要是做實驗探討了一下什麼形式算planning。之前的planning通常會設置一個具體的planning算法,比如Monte Carlo rollouts,MCTS等等,或者
原创 A0C: Alpha Zero in Continuous Action Space
發表時間:2018 文章要點:這篇文章提出A0C算法,把AlphaZero做到連續動作空間上,主要使用的方式是progressive widening和continuous prior(就是continuous policy networ
原创 Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices
發表時間:2021(ICML 2021) 文章要點:這篇文章想說,通常強化學習算法exploration和exploitation都是混在一起的,既探索環境的dynamics,同時也利用探索到的信息來提升策略。但是要想更好的更新策略,就需