原创 Heuristic-Guided Reinforcement Learning

發表時間:2021 (NeurIPS 2021) 文章要點:這篇文章提出了一個Heuristic-Guided Reinforcement Learning (HuRL)的框架,用domain knowledge或者offline dat

原创 Teachable Reinforcement Learning via Advice Distillation

發表時間:2021 (NeurIPS 2021) 文章要點:這篇文章提出了一種學習policy的監督範式,大概思路就是先結構化advice,然後先學習解釋advice,再從advice中學policy。這個advice來自於外部的teac

原创 Deep Dynamics Models for Learning Dexterous Manipulation

發表時間:2019 (CoRL 2019) 文章要點:文章提出了一個online planning with deep dynamics models (PDDM)的算法來學習Dexterous multi-fingered hands,

原创 EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS

發表時間:2020(ICLR 2020) 文章要點:這篇文章說現在的planning方法都是在動作空間裏randomly generated,這樣很不高效(其實瞎扯了,很多不是隨機的方法啊)。作者提出在model based RL裏用po

原创 Learning Off-Policy with Online Planning

發表時間:2021(CoRL 2021) 文章要點:這篇文章提出Off-Policy with Online Planning (LOOP)算法,將H-step lookahead with a learned model和termina

原创 The Second Type of Uncertainty in Monte Carlo Tree Search

發表時間:2020 文章要點:MCTS裏通常通過計算訪問次數來做探索,這個被稱作count-derived uncertainty。這篇文章提出了第二種uncertainty,這種uncertainty來源於子樹的大小,一個直覺的想法就是

原创 Value targets in off-policy AlphaZero: a new greedy backup

發表時間:2021 文章要點:這篇文章給AlphaZero設計了一個新的value targets,AlphaZero with greedy backups (A0GB)。 AlphaZero的樹裏面有探索,而value又是所有結果的平

原创 Visualizing MuZero Models

發表時間:2021 文章要點:這篇文章主要想看看muzero裏面的model具體學到了什麼表徵。通過PCA降維的方式,發現最開始編碼狀態的h函數學到的embedding和動態轉移函數g學到的embedding並不統一,存在很大差異。因爲m

原创 Demonstration-Conditioned Reinforcement Learning for Few-Shot Imitation

發表時間:2021(ICML 2021) 文章要點:這篇文章提出了demonstration-conditioned reinforcement learning (DCRL)來做Few-Shot Imitation,將demonstra

原创 Phasic Policy Gradient

發表時間:2021(ICML 2021) 文章要點:這篇文章想說,通常強化都有一個policy網絡一個value網絡,這兩部分要麼分開訓兩個網絡,要麼合到一起作爲一個網絡的兩個頭。分開的好處是policy和value互相不會影響,合到一起

原创 The Predictron: End-To-End Learning and Planning

發表時間:2017(ICML 2017) 文章要點:這篇文章設計了一個叫Predictron的結構,在abstract的狀態上進行學習,通過multiple planning depths來使得model self-consistent,

原创 Learning model-based planning from scratch

發表時間:2017 文章要點:這篇文章想說,之前的文章去做planning的時候,都會去設計一個planning的方法。這篇文章提出了一個端到端的方法,Imagination-based Planner,不去設計planning的方式,做

原创 Discretizing Continuous Action Space for On-Policy Optimization

發表時間:2020(AAAI 2020) 文章要點:作者想說,連續動作通常都假設每個維度是高斯分佈的,這就限制了策略一定是一個單峯,而離散動作就沒有這個約束,所以有離散的必要。然後這篇文章提出了一個把連續動作空間離散化的方法,同時避免維度

原创 Finite-time Analysis of the Multiarmed Bandit Problem

發表時間:2002(Machine Learning, 47, 235–256, 2002) 文章要點:這篇文章主要是分析了針對Multiarmed Bandit Problem的幾個經典算法的收斂性。我們知道這類問題主要就是在解決exp

原创 Disentangling the independently controllable factors of variation by interacting with the world

發表時間:2018(Learning Disentangled Representations, NIPS 2017 Workshop) 文章要點:這篇文章想說,可以分解出獨立的可控的各種因素的表徵才叫好的representation,作