台部落initial

發表時間：2021 (NeurIPS 2021) 文章要點：這篇文章提出了一個Heuristic-Guided Reinforcement Learning (HuRL)的框架，用domain knowledge或者offline dat

2023-05-07 13:32:48

發表時間：2021 (NeurIPS 2021) 文章要點：這篇文章提出了一種學習policy的監督範式，大概思路就是先結構化advice，然後先學習解釋advice，再從advice中學policy。這個advice來自於外部的teac

2023-05-03 13:32:19

發表時間：2019 (CoRL 2019) 文章要點：文章提出了一個online planning with deep dynamics models (PDDM)的算法來學習Dexterous multi-fingered hands，

2023-05-01 13:32:22

發表時間：2020（ICLR 2020）文章要點：這篇文章說現在的planning方法都是在動作空間裏randomly generated，這樣很不高效（其實瞎扯了，很多不是隨機的方法啊）。作者提出在model based RL裏用po

2023-04-28 13:35:24

發表時間：2021（CoRL 2021）文章要點：這篇文章提出Off-Policy with Online Planning (LOOP)算法，將H-step lookahead with a learned model和termina

2023-04-23 13:32:27

發表時間：2020 文章要點：MCTS裏通常通過計算訪問次數來做探索，這個被稱作count-derived uncertainty。這篇文章提出了第二種uncertainty，這種uncertainty來源於子樹的大小，一個直覺的想法就是

2023-04-21 13:32:35

發表時間：2021 文章要點：這篇文章給AlphaZero設計了一個新的value targets，AlphaZero with greedy backups (A0GB)。 AlphaZero的樹裏面有探索，而value又是所有結果的平

2023-04-16 13:38:13

發表時間：2021 文章要點：這篇文章主要想看看muzero裏面的model具體學到了什麼表徵。通過PCA降維的方式，發現最開始編碼狀態的h函數學到的embedding和動態轉移函數g學到的embedding並不統一，存在很大差異。因爲m

2023-04-13 13:32:36

發表時間：2021（ICML 2021）文章要點：這篇文章提出了demonstration-conditioned reinforcement learning (DCRL)來做Few-Shot Imitation，將demonstra

2023-04-10 13:32:45

發表時間：2021（ICML 2021）文章要點：這篇文章想說，通常強化都有一個policy網絡一個value網絡，這兩部分要麼分開訓兩個網絡，要麼合到一起作爲一個網絡的兩個頭。分開的好處是policy和value互相不會影響，合到一起

2023-04-07 13:32:38

發表時間：2017（ICML 2017）文章要點：這篇文章設計了一個叫Predictron的結構，在abstract的狀態上進行學習，通過multiple planning depths來使得model self-consistent，

2023-04-03 13:32:53

發表時間：2017 文章要點：這篇文章想說，之前的文章去做planning的時候，都會去設計一個planning的方法。這篇文章提出了一個端到端的方法，Imagination-based Planner，不去設計planning的方式，做

2023-03-28 13:34:46

發表時間：2020（AAAI 2020）文章要點：作者想說，連續動作通常都假設每個維度是高斯分佈的，這就限制了策略一定是一個單峯，而離散動作就沒有這個約束，所以有離散的必要。然後這篇文章提出了一個把連續動作空間離散化的方法，同時避免維度

2023-03-23 13:32:53

發表時間：2002（Machine Learning, 47, 235–256, 2002）文章要點：這篇文章主要是分析了針對Multiarmed Bandit Problem的幾個經典算法的收斂性。我們知道這類問題主要就是在解決exp

2023-03-20 13:32:41

發表時間：2018（Learning Disentangled Representations, NIPS 2017 Workshop）文章要點：這篇文章想說，可以分解出獨立的可控的各種因素的表徵才叫好的representation，作

2023-03-19 13:32:26