谷歌大腦阿爾伯塔聯合發表:離線強化學習的優化視角【附代碼】

  • 論文題目:An Optimistic Perspective on Offline Reinforcement Learning

作者及標題信息截圖

所解決的問題

  提出一種基於基於DQN replay datasetoffline強化學習算法。用Random Ensemble Mixture (REM)一種更加魯棒的Q-Learning算法增強模型的泛化能力。

背景

  深度學習的成功取決於大量地數據集,而強化學習卻需要不斷與環境交互進行學習。離線強化學習就是考慮能不能從大量地數據中進行學習,這種方法不僅更加貼近現實生活,並且能夠通過學習以往的經驗,更好地進行歸納總結。

  在離線強化學習中,智能體不會接收到在線的環境所給予的反饋信息,需要從一個固定的數據集,泛化到在線交互過程。這種方法就能夠使得算法能夠學任何policy收集的數據。

  Offline RL的問題在於當前策略和收集Offline Data的策略不匹配問題,策略不匹配導致的問題就是採取非相同的動作,並不知道獎勵應該給多少。

  這篇文章就是想要驗證在offline data上訓練智能體,能不能不修正策略之間的分佈差異也能夠學地很好。

所採用的方法?

  提出兩個deep Q-learning算法Ensemble DQNREM,使得其自適應集成,改善穩定性。data的收集來自大量混合策略。

Ensemble-DQN

  Ensemble-DQNDQN的一個擴展,將Q-function集成 Qθk(s,a)Q_{\theta}^{k}(s,a)

L(θ)=1Kk=1KEs,a,r,sD[λ(Δθk(s,a,r,s))]\mathcal{L}(\theta)=\frac{1}{K} \sum_{k=1}^{K} \mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}}\left[\ell_{\lambda}\left(\Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)\right)\right]

Δθk(s,a,r,s)=Qθk(s,a)rγmaxaQθk(s,a)\Delta_{\theta}^{k}\left(s, a, r, s^{\prime}\right)=Q_{\theta}^{k}(s, a)-r-\gamma \max _{a^{\prime}} Q_{\theta^{\prime}}^{k}\left(s^{\prime}, a^{\prime}\right)

  其中lλl_{\lambda}Huber loss

λ(u)={12u2, if uλλ(u12λ), otherwise \ell_{\lambda}(u)=\left\{\begin{array}{ll} \frac{1}{2} u^{2}, & \text { if }|u| \leq \lambda \\ \lambda\left(|u|-\frac{1}{2} \lambda\right), & \text { otherwise } \end{array}\right.

  • Huber loss:PJ Huber. Robust estimation of a location parameter. Ann. Math. Stat., 1964.

Random Ensemble Mixture (REM)

  REM是將多個Q值組合成一個Q值的估計,因此Q函數近似爲(K1K-1)個採樣的混合概率,其Loss函數定義爲:

L(θ)=Es,a,r,sD[EαPΔ[λ(Δθα(s,a,r,s))]]Δθα=kαkQθk(s,a)rγmaxakαkQθk(s,a)\begin{aligned} \mathcal{L}(\theta) &=\mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}}\left[\mathbb{E}_{\alpha \sim \mathrm{P}_{\Delta}}\left[\ell_{\lambda}\left(\Delta_{\theta}^{\alpha}\left(s, a, r, s^{\prime}\right)\right)\right]\right] \\ \Delta_{\theta}^{\alpha} &=\sum_{k} \alpha_{k} Q_{\theta}^{k}(s, a)-r-\gamma \max _{a^{\prime}} \sum_{k} \alpha_{k} Q_{\theta^{\prime}}^{k}\left(s^{\prime}, a^{\prime}\right) \end{aligned}

  其中PΔP_{\Delta}表示K1K-1個採樣所得到的的概率分佈。動作的選擇使用K個值函數估計的均值:

Q(s,a)=kQθk(s,a)/KQ(s, a)=\sum_{k} Q_{\theta}^{k}(s, a) / K

DQN、Distributional QR-DQN、以及本文提出的兩種方法的對比

取得的效果?

與C51算法對比

所出版信息?作者信息?

  谷歌最新論文,第一作者Rishabh Agarwal主要研究智能體的魯棒性,認爲深度強化學習可以繼承監督學習的方法來改進,本文就是這種思想。

谷歌官方博客截圖

參考資料

  • Scott Fujimoto, Edoardo Conti, Mohammad Ghavamzadeh, and Joelle Pineau. Benchmarking batch deep reinforcement learning
    algorithms
    . arXiv preprint arXiv:1910.01708, 2019a.

  • Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. NeurIPS, 2019.

  • Yifan Wu, George Tucker, and Ofir Nachum. Behavior regularized offline reinforcement learning. arXiv preprint arXiv:1911.11361, 2019.

  • Noah Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner,
    Nicolas Heess, and Martin Riedmiller. Keep doing what worked: Behavior modelling priors for offline reinforcement learning. ICLR, 2020.

  • 代碼鏈接:https://github.com/google-research/batch_rl

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章