谷歌大腦阿爾伯塔聯合發表：離線強化學習的優化視角【附代碼】

原創

小小何先生

2020-04-20 09:54

文章目錄

論文題目：An Optimistic Perspective on Offline Reinforcement Learning

所解決的問題

提出一種基於基於DQN replay dataset的offline強化學習算法。用Random Ensemble Mixture (REM)一種更加魯棒的Q-Learning算法增強模型的泛化能力。

背景

深度學習的成功取決於大量地數據集，而強化學習卻需要不斷與環境交互進行學習。離線強化學習就是考慮能不能從大量地數據中進行學習，這種方法不僅更加貼近現實生活，並且能夠通過學習以往的經驗，更好地進行歸納總結。

在離線強化學習中，智能體不會接收到在線的環境所給予的反饋信息，需要從一個固定的數據集，泛化到在線交互過程。這種方法就能夠使得算法能夠學任何policy收集的數據。

Offline RL的問題在於當前策略和收集Offline Data的策略不匹配問題，策略不匹配導致的問題就是採取非相同的動作，並不知道獎勵應該給多少。

這篇文章就是想要驗證在offline data上訓練智能體，能不能不修正策略之間的分佈差異也能夠學地很好。

所採用的方法？

提出兩個deep Q-learning算法Ensemble DQN和REM，使得其自適應集成，改善穩定性。data的收集來自大量混合策略。

Ensemble-DQN

Ensemble-DQN是DQN的一個擴展，將Q-function集成 $Q_{\theta}^{k}(s,a)$

$\mathcal{L}(\theta)=\frac{1}{K} \sum_{k=1}^{K} \mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}}\left[\ell_{\lambda}\left(\Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)\right)\right]$

$\Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)=Q_{\theta}^{k}(s, a)-r-\gamma \max _{a^{\prime}} Q_{\theta^{\prime}}^{k}\left(s^{\prime}, a^{\prime}\right)$

其中 $l_{\lambda}$ 是Huber loss：

$\ell_{\lambda}(u)=\left\{\begin{array}{ll} \frac{1}{2} u^{2}, & \text { if }|u| \leq \lambda \\ \lambda\left(|u|-\frac{1}{2} \lambda\right), & \text { otherwise } \end{array}\right.$

Huber loss：PJ Huber. Robust estimation of a location parameter. Ann. Math. Stat., 1964.

Random Ensemble Mixture (REM)

REM是將多個Q值組合成一個Q值的估計，因此Q函數近似爲( $K-1$ )個採樣的混合概率，其Loss函數定義爲：

$\begin{aligned} \mathcal{L}(\theta) &=\mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}}\left[\mathbb{E}_{\alpha \sim \mathrm{P}_{\Delta}}\left[\ell_{\lambda}\left(\Delta_{\theta}^{\alpha}\left(s, a, r, s^{\prime}\right)\right)\right]\right] \\ \Delta_{\theta}^{\alpha} &=\sum_{k} \alpha_{k} Q_{\theta}^{k}(s, a)-r-\gamma \max _{a^{\prime}} \sum_{k} \alpha_{k} Q_{\theta^{\prime}}^{k}\left(s^{\prime}, a^{\prime}\right) \end{aligned}$

其中 $P_{\Delta}$ 表示 $K-1$ 個採樣所得到的的概率分佈。動作的選擇使用K個值函數估計的均值：

$Q(s, a)=\sum_{k} Q_{\theta}^{k}(s, a) / K$

取得的效果？

所出版信息？作者信息？

谷歌最新論文，第一作者Rishabh Agarwal主要研究智能體的魯棒性，認爲深度強化學習可以繼承監督學習的方法來改進，本文就是這種思想。

參考資料

Scott Fujimoto, Edoardo Conti, Mohammad Ghavamzadeh, and Joelle Pineau. Benchmarking batch deep reinforcement learning
algorithms. arXiv preprint arXiv:1910.01708, 2019a.
Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. NeurIPS, 2019.
Yifan Wu, George Tucker, and Ofir Nachum. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.
Noah Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner,
Nicolas Heess, and Martin Riedmiller. Keep doing what worked: Behavior modelling priors for offline reinforcement learning. ICLR, 2020.
代碼鏈接：https://github.com/google-research/batch_rl

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

谷歌大腦阿爾伯塔聯合發表：離線強化學習的優化視角【附代碼】

文章目錄

所解決的問題

背景

所採用的方法？

Ensemble-DQN

Random Ensemble Mixture (REM)

取得的效果？

所出版信息？作者信息？

參考資料

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

本地SSL證書過期輸入命令在IIS自動生成

FPGA智能傳感系統(二)基於FPGA的交通燈設計

Python進階(一)Python中的內置函數詳解

Python進階(六)文件操作

Python進階(五)模塊、包詳解

Python進階(四)Python中的異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結