原创 Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

發表時間:2020 文章要點:這篇文章主要介紹當前offline RL的研究進展,可能的問題以及一些解決方法。 作者先介紹了強化學習的準備知識,比如policy gradients,Approximate dynamic programm

原创 Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

發表時間:2021(IEEE Transactions on Neural Networks and Learning Systems) 文章要點:這篇文章提出一個新的experience replay的方法,improved SAC (

原创 State Distribution-aware Sampling for Deep Q-learning

發表時間:2018(Neural Processing Letters 2019) 文章要點:這篇文章認爲之前的experience replay的方法比如PER沒有將transition的分佈情況考慮在內,於是提出一個新的experie

原创 Large Batch Experience Replay

發表時間:2021(ICML 2022) 文章要點:這篇文章把experience replay看做一個通過importance sampling來估計梯度的問題,從理論上推導經驗回放的最優採樣分佈,然後提出LaBER (Large Ba

原创 Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update

發表時間:2019 (NeurIPS 2019) 文章要點:這篇文章提出Episodic Backward Update (EBU)算法,採樣一整條軌跡,然後從後往前依次更新做experience replay,這種方法對稀疏和延遲迴報的

原创 Experience Replay with Likelihood-free Importance Weights

發表時間:2020 文章要點:這篇文章提出LFIW算法用likelihood作爲experience的採樣權重(likelihood-free density ratio estimator),reweight experiences b

原创 Experience Replay Optimization

發表時間:2019 (IJCAI 2019) 文章要點:這篇文章提出experience replay optimization (ERO)算法,通過learning a replay policy來採樣,相對於rule-based re

原创 Improved deep reinforcement learning for robotics through distribution-based experience retention

發表時間:2016(IROS 2016) 文章要點:這篇文章提出了experience replay方法的改進,讓experience的分佈介於當前policy和均勻分佈之間,作者做實驗發現這個時候的效果是最好的(the ideal di

原创 The importance of experience replay database composition in deep reinforcement learning

發表時間:2015(Deep Reinforcement Learning Workshop, NIPS 2015) 文章要點:這篇文章基於DDPG探索了buffer裏面experience的組成對性能的影響。一個重要的觀點是,次優的經驗

原创 Selective Experience Replay for Lifelong Learning

發表時間:2018(AAAI 2018) 文章要點:這篇文章想解決強化學習在學多個任務時候的遺忘問題。作者提出了一種對通常的experience replay增廣的方式,就是在保持之前的buffer的同時,再維持一個buffer用來存少部

原创 Reverb: A Framework For Experience Replay

發表時間:2021 文章要點:這篇文章主要是設計了一個用來做experience replay的框架Reverb,主要是把experience replay擴展到了分佈式和多臺機器上(Reverb is designed to work

原创 TOPOLOGICAL EXPERIENCE REPLAY

發表時間:2022(ICLR 2022) 文章要點:這篇文章指出根據TD error來採樣是低效的,因爲估計TD error的target Q就不準(since a state's correct Q-value precondition

原创 Regret Minimization Experience Replay in Off-Policy Reinforcement Learning

發表時間:2021 (NeurIPS 2021) 文章要點:理論表明,更高的hindsight TD error,更加on policy,以及更準的target Q value的樣本應該有更高的採樣權重(The theory suggest

原创 Effective Diversity in Population-Based Reinforcement Learning

發表時間:2020 (NeurIPS 2020) 文章要點:這篇文章提出了Diversity via Determinants (DvD)算法來提升種羣裏的多樣性。之前的方法通常都考慮的兩兩之間的距離,然後設計一些指標或者加權來增加種羣多

原创 MODEL-AUGMENTED PRIORITIZED EXPERIENCE REPLAY

發表時間:2022(ICLR 2022) 文章要點:這篇文章想說Q網絡通常會存在under- or overestimate,基於TD error的experience replay通常都是無效的,因爲TD error是基於Q網絡的值計算