原创 MODEL-AUGMENTED PRIORITIZED EXPERIENCE REPLAY

發表時間:2022(ICLR 2022) 文章要點:這篇文章想說Q網絡通常會存在under- or overestimate,基於TD error的experience replay通常都是無效的,因爲TD error是基於Q網絡的值計算

原创 Remember and Forget for Experience Replay

發表時間:2019(ICML 2019) 文章要點:這篇文章想說如果replay的經驗和當前的policy差別很大的話,對更新是有害的。然後提出了Remember and Forget Experience Replay (ReF-ER)算

原创 LEARNING TO SAMPLE WITH LOCAL AND GLOBAL CONTEXTS FROM EXPERIENCE REPLAY BUFFERS

發表時間:2021(ICLR 2021) 文章要點:這篇文章想說,之前的experience replay的priority比如PER,都是單個transition獨立設置的,並沒有考慮transition之間的關係。這篇文章提出了一個叫

原创 Prioritized Sequence Experience Replay

發表時間:2020 文章要點:這篇文章提出了Prioritized Sequence Experience Replay (PSER),一個新的經驗回放機制來提升訓練速度和效果。主要的出發點就是不僅要給重要的transition高的pri

原创 Revisiting Fundamentals of Experience Replay

發表時間:2020(ICML2020) 文章要點:這篇文章研究了experience replay in Q-learning,主要考慮了兩個方面:replay capacity(buffer的大小,the total number of

原创 Revisiting Prioritized Experience Replay: A Value Perspective

發表時間:2021 文章要點:這篇文章想說Prioritized experience replay這類方法通過surprise (the magnitude of the temporal-difference error)來採樣,但是

原创 Muesli: Combining Improvements in Policy Optimization

發表時間:2021(ICML 2021) 文章要點:這篇文章提出一個更新policy的方式,結合regularized policy optimization 以及model learning as an auxiliary loss。最

原创 POLICY IMPROVEMENT BY PLANNING WITH GUMBEL

發表時間:2022(ICLR 2022) 文章要點:AlphaZero在搜索次數很少的時候甚至動作空間都不能完全被訪問到,這個時候AlphaZero的效果是不好的。文章提出了Gumbel AlphaZero算法,利用policy impr

原创 The Difficulty of Passive Learning in Deep Reinforcement Learning

發表時間:2021(NeurIPS 2021) 文章要點:這篇文章提出一個tandem learning的實驗範式來研究爲什麼offline RL很難學。對於offline RL來說,一個很嚴重的問題就是extrapolation err

原创 Off-Policy Deep Reinforcement Learning without Exploration

發表時間:2019(ICML 2019) 文章要點:這篇文章想說在offline RL的setting下,由於外推誤差(extrapolation errors)的原因,標準的off-policy算法比如DQN,DDPG之類的,如果數據的分

原创 A Deeper Look at Experience Replay

發表時間:2017(Deep Reinforcement Learning Symposium, NIPS 2017) 文章要點:這篇文章主要研究了replay buffer大小對Q-learning的影響,得出的結論是大的buffer會

原创 DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

發表時間:2020 (NeurIPS 2020) 文章要點:這篇文章想說,對於監督學習來說就算剛開始訓的不準,後面的新數據也會給你正確的feedback,這樣的話隨着訓練進行,總會修正之前的錯誤。但是對於像Q-learning這樣的強化學

原创 DYNAMICS-AWARE UNSUPERVISED DISCOVERY OF SKILLS

發表時間:2020(ICLR2020) 文章要點:這篇文章提出了一個無監督的model-based的學習算法Dynamics-Aware Discovery of Skills (DADS),可以同時發現可預測的行爲以及學習他們的dyna

原创 Heuristic-Guided Reinforcement Learning

發表時間:2021 (NeurIPS 2021) 文章要點:這篇文章提出了一個Heuristic-Guided Reinforcement Learning (HuRL)的框架,用domain knowledge或者offline dat

原创 Teachable Reinforcement Learning via Advice Distillation

發表時間:2021 (NeurIPS 2021) 文章要點:這篇文章提出了一種學習policy的監督範式,大概思路就是先結構化advice,然後先學習解釋advice,再從advice中學policy。這個advice來自於外部的teac