【CoRL 2018】通過元策略優化的MBRL算法

原創

2020-04-15 01:30

論文題目：Model-Based Reinforcement Learning via Meta-Policy Optimization

所解決的問題？

提出一種不依賴於learned dynamic model精度的學習算法Model-Based Meta-Policy-Optimization (MB-MPO),。同樣是使用emsemble的方法集成learned model，然後用meta-train的方法學一個policy，使得其能夠對任意一個model都具有較好的學習效果。最終使得算法的魯棒性更強。

背景

之前的大多數model-based方法都集中在trajectory sample和dynamic model train這兩個步驟。如用貝葉神經網絡的這些方法。貝葉斯的方法一般用於低維空間，神經網絡雖然具備用於高維空間的潛力，但是很大程度會依賴模型預測的精度才能取得較好效果。

也有前人工作是解決model學習不準確的問題，與本文最相似的就是EM-TRPO算法，而本文采用的是元學習算法，指在模型不精確的情況下加強其魯棒性。

所採用的方法？

Model Learning

在學習model的時候，作者學習的是狀態的改變量。用的是one-step預測：

$\min _{\boldsymbol{\phi}_{k}} \frac{1}{\left|\mathcal{D}_{k}\right|} \sum_{\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}, \boldsymbol{s}_{t+1}\right) \in \mathcal{D}_{k}}\left\|\boldsymbol{s}_{t+1}-\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right\|_{2}^{2}$

爲了防止過擬合，作者採用以下三點：

early stopping the training based on the validation loss；
normalizing the inputs and outputs of the neural network；
weight normalization

T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.

Meta-Reinforcement Learningon Learned Models

Each task constitutes a different belief about what the dynamics in the true environment could be. 優化目標爲：

$\max _{\boldsymbol{\theta}} \frac{1}{K} \sum_{k=0}^{K} J_{k}\left(\boldsymbol{\theta}_{k}^{\prime}\right) \quad \text { s.t.: } \quad \boldsymbol{\theta}_{k}^{\prime}=\boldsymbol{\theta}+\alpha \nabla_{\boldsymbol{\theta}} J_{k}(\boldsymbol{\theta})$

其中 $J_{k}(\boldsymbol{\theta})$ 表示是在策略 $\pi_{\boldsymbol{\theta}}$ 和估計的動態模型 $\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)$ 下的期望回報。

$J_{k}(\boldsymbol{\theta})=\mathbb{E}_{\boldsymbol{a}_{t} \sim \pi_{\boldsymbol{\theta}}\left(\boldsymbol{a}_{t} | \boldsymbol{s}_{t}\right)}\left[\sum_{t=0}^{H-1} r\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right) | \boldsymbol{s}_{t+1}=\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right]$

這裏是直接學習如何調整 $\theta$ ，而不是從學好的模型的數據中學習policy，這也是與ME-TRPO的區別。

取得的效果？

與model-free算法對比：

與model-based算法對比：

作者還做了一些實驗與MR-TRPO算法對比，感興趣可以參考原文。

所出版信息？作者信息？

Ignasi Clavera 加州大學伯克利分校 CS的三年級博士生，導師伯克利人工智能研究（BAIR）實驗室的Pieter Abbeel。研究方向是機器學習與控制的交集，旨在使機器人系統能夠學習如何有效地執行復雜的任務。

參考鏈接

官方介紹：https://sites.google.com/view/mb-mpo
代碼鏈接：https://github.com/jonasrothfuss/model_ensemble_meta_learning

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【CoRL 2018】通過元策略優化的MBRL算法

所解決的問題？

背景

所採用的方法？

Model Learning

Meta-Reinforcement Learningon Learned Models

取得的效果？

所出版信息？作者信息？

參考鏈接

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

01 穩定性（一）如何應對事故並做好覆盤？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

FPGA智能傳感系統(二)基於FPGA的交通燈設計

Python進階(一)Python中的內置函數詳解

Python進階(六)文件操作

Python進階(五)模塊、包詳解

Python進階(四)Python中的異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結