【CoRL 2018】通過元策略優化的MBRL算法

  • 論文題目:Model-Based Reinforcement Learning via Meta-Policy Optimization

作者及標題信息截圖

所解決的問題?

  提出一種不依賴於learned dynamic model精度的學習算法Model-Based Meta-Policy-Optimization (MB-MPO),。同樣是使用emsemble的方法集成learned model,然後用meta-train的方法學一個policy,使得其能夠對任意一個model都具有較好的學習效果。最終使得算法的魯棒性更強。

背景

  之前的大多數model-based方法都集中在trajectory sample和dynamic model train這兩個步驟。如用貝葉神經網絡的這些方法。貝葉斯的方法一般用於低維空間,神經網絡雖然具備用於高維空間的潛力,但是很大程度會依賴模型預測的精度才能取得較好效果。

  也有前人工作是解決model學習不準確的問題,與本文最相似的就是EM-TRPO算法,而本文采用的是元學習算法,指在模型不精確的情況下加強其魯棒性。

所採用的方法?

Model Learning

  在學習model的時候,作者學習的是狀態的改變量。用的是one-step預測:

minϕk1Dk(st,at,st+1)Dkst+1f^ϕk(st,at)22\min _{\boldsymbol{\phi}_{k}} \frac{1}{\left|\mathcal{D}_{k}\right|} \sum_{\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}, \boldsymbol{s}_{t+1}\right) \in \mathcal{D}_{k}}\left\|\boldsymbol{s}_{t+1}-\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right\|_{2}^{2}

  爲了防止過擬合,作者採用以下三點:

  1. early stopping the training based on the validation loss;
  2. normalizing the inputs and outputs of the neural network;
  3. weight normalization
  • T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.

Meta-Reinforcement Learningon Learned Models

  Each task constitutes a different belief about what the dynamics in the true environment could be. 優化目標爲:

maxθ1Kk=0KJk(θk) s.t.: θk=θ+αθJk(θ)\max _{\boldsymbol{\theta}} \frac{1}{K} \sum_{k=0}^{K} J_{k}\left(\boldsymbol{\theta}_{k}^{\prime}\right) \quad \text { s.t.: } \quad \boldsymbol{\theta}_{k}^{\prime}=\boldsymbol{\theta}+\alpha \nabla_{\boldsymbol{\theta}} J_{k}(\boldsymbol{\theta})

  其中Jk(θ)J_{k}(\boldsymbol{\theta})表示是在策略πθ\pi_{\boldsymbol{\theta}}和估計的動態模型f^ϕk(st,at)\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)下的期望回報。

Jk(θ)=Eatπθ(atst)[t=0H1r(st,at)st+1=f^ϕk(st,at)]J_{k}(\boldsymbol{\theta})=\mathbb{E}_{\boldsymbol{a}_{t} \sim \pi_{\boldsymbol{\theta}}\left(\boldsymbol{a}_{t} | \boldsymbol{s}_{t}\right)}\left[\sum_{t=0}^{H-1} r\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right) | \boldsymbol{s}_{t+1}=\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right]

MB-MPO

  這裏是直接學習如何調整θ\theta,而不是從學好的模型的數據中學習policy,這也是與ME-TRPO的區別。

取得的效果?

  與model-free算法對比:

與Model-Free算法對比

  與model-based算法對比:

與Model-Based方法對比

  作者還做了一些實驗與MR-TRPO算法對比,感興趣可以參考原文。

所出版信息?作者信息?

  Ignasi Clavera 加州大學伯克利分校 CS的三年級博士生,導師伯克利人工智能研究(BAIR)實驗室的Pieter Abbeel。研究方向是機器學習與控制的交集,旨在使機器人系統能夠學習如何有效地執行復雜的任務。

Ignasi Clavera

參考鏈接

  • 官方介紹:https://sites.google.com/view/mb-mpo
  • 代碼鏈接:https://github.com/jonasrothfuss/model_ensemble_meta_learning
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章