- 論文題目:Model-Based Reinforcement Learning via Meta-Policy Optimization
所解決的問題?
提出一種不依賴於learned dynamic model
精度的學習算法Model-Based Meta-Policy-Optimization (MB-MPO),。同樣是使用emsemble的方法集成learned model,然後用meta-train的方法學一個policy,使得其能夠對任意一個model都具有較好的學習效果。最終使得算法的魯棒性更強。
背景
之前的大多數model-based方法都集中在trajectory sample和dynamic model train這兩個步驟。如用貝葉神經網絡的這些方法。貝葉斯的方法一般用於低維空間,神經網絡雖然具備用於高維空間的潛力,但是很大程度會依賴模型預測的精度才能取得較好效果。
也有前人工作是解決model學習不準確的問題,與本文最相似的就是EM-TRPO算法,而本文采用的是元學習算法,指在模型不精確的情況下加強其魯棒性。
所採用的方法?
Model Learning
在學習model的時候,作者學習的是狀態的改變量。用的是one-step預測:
爲了防止過擬合,作者採用以下三點:
- early stopping the training based on the validation loss;
- normalizing the inputs and outputs of the neural network;
- weight normalization
- T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.
Meta-Reinforcement Learningon Learned Models
Each task constitutes a different belief about what the dynamics in the true environment could be. 優化目標爲:
其中表示是在策略和估計的動態模型下的期望回報。
這裏是直接學習如何調整,而不是從學好的模型的數據中學習policy,這也是與ME-TRPO的區別。
取得的效果?
與model-free算法對比:
與model-based算法對比:
作者還做了一些實驗與MR-TRPO算法對比,感興趣可以參考原文。
所出版信息?作者信息?
Ignasi Clavera 加州大學伯克利分校 CS的三年級博士生,導師伯克利人工智能研究(BAIR)實驗室的Pieter Abbeel。研究方向是機器學習與控制的交集,旨在使機器人系統能夠學習如何有效地執行復雜的任務。
參考鏈接
- 官方介紹:https://sites.google.com/view/mb-mpo
- 代碼鏈接:https://github.com/jonasrothfuss/model_ensemble_meta_learning