- 論文題目:An Optimistic Perspective on Offline Reinforcement Learning
所解決的問題
提出一種基於基於DQN replay dataset
的offline
強化學習算法。用Random Ensemble Mixture (REM)
一種更加魯棒的Q-Learning
算法增強模型的泛化能力。
背景
深度學習的成功取決於大量地數據集,而強化學習卻需要不斷與環境交互進行學習。離線強化學習就是考慮能不能從大量地數據中進行學習,這種方法不僅更加貼近現實生活,並且能夠通過學習以往的經驗,更好地進行歸納總結。
在離線強化學習中,智能體不會接收到在線的環境所給予的反饋信息,需要從一個固定的數據集,泛化到在線交互過程。這種方法就能夠使得算法能夠學任何policy
收集的數據。
Offline RL
的問題在於當前策略和收集Offline Data
的策略不匹配問題,策略不匹配導致的問題就是採取非相同的動作,並不知道獎勵應該給多少。
這篇文章就是想要驗證在offline data
上訓練智能體,能不能不修正策略之間的分佈差異也能夠學地很好。
所採用的方法?
提出兩個deep Q-learning
算法Ensemble DQN
和REM
,使得其自適應集成,改善穩定性。data的收集來自大量混合策略。
Ensemble-DQN
Ensemble-DQN
是DQN
的一個擴展,將Q-function
集成
其中是Huber loss
:
- Huber loss:PJ Huber. Robust estimation of a location parameter. Ann. Math. Stat., 1964.
Random Ensemble Mixture (REM)
REM
是將多個Q
值組合成一個Q
值的估計,因此Q
函數近似爲()個採樣的混合概率,其Loss
函數定義爲:
其中表示個採樣所得到的的概率分佈。動作的選擇使用K
個值函數估計的均值:
取得的效果?
所出版信息?作者信息?
谷歌最新論文,第一作者Rishabh Agarwal主要研究智能體的魯棒性,認爲深度強化學習可以繼承監督學習的方法來改進,本文就是這種思想。
參考資料
-
Scott Fujimoto, Edoardo Conti, Mohammad Ghavamzadeh, and Joelle Pineau. Benchmarking batch deep reinforcement learning
algorithms. arXiv preprint arXiv:1910.01708, 2019a. -
Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. NeurIPS, 2019.
-
Yifan Wu, George Tucker, and Ofir Nachum. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.
-
Noah Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner,
Nicolas Heess, and Martin Riedmiller. Keep doing what worked: Behavior modelling priors for offline reinforcement learning. ICLR, 2020. -
代碼鏈接:https://github.com/google-research/batch_rl