- 論文題目:model-ensemble trust-region policy optimization
所解決的問題?
model free的方法具有high sample complexity ,難將其用於real-world。用ensemble的方式來克服model bias。
背景
標準的model-based方法是交替使用model learning和policy aptimization。model learning通常就是用智能體與環境的交互數據做監督學習,而策略優化部分是基於learned model做搜索,尋求策略改進。這一類算法被稱作vanilla model-based RL。此類算法需要足夠多的數據來學習model,所學的模型越準確,優化策略越好,在real world中也會有較好的表現。
vanilla model-based RL在低維相對較簡單問題上會有較好的處理效果,然而在連續控制問題上效果較差,並且非常不穩定。 The reason is that the policy optimization tends to exploit regions where insufficient data is available to train the model, leading to catastrophic failures. 這類問題被稱作model-bias,或者也可以被視爲過擬合。處理過擬合問題,當然可以從監督學習算法方面尋求靈感,比如加regularization或者cross validation,這類算法處理的數據滿足獨立同分布,而model-based強化學習算法中數據稀缺,模型不精準,如果再引入像神經網絡這樣的expressive models只會惡化結果。
model-based的方法最多的用於機器人領域。效果較好的是線性模型的方法。然而這種方法對複雜非線性系統,或者說高維狀態空間系統效果不好。另一種辦法就是非參數的高斯過程的方法(GP),這類方法有維度災難的問題,目前主要用於低維空間。
儘管也有一些基於神經網絡的model-based 強化學習方法效果還是不太好。對於一些較難的控制對象,通常會結合model-free的強化學習方法或者是結合特定領域的學習和規劃算法。
所採用方法
原始的MBRL方法:
作者採用一個ensemble Neural Network來處理enviorment中數據的不確定性。其實說白了就是model的學習用了一個集成的神經網絡來做。使用交替執行model learning和policy learning,與固定dataset學習model的方法相比,能夠處理更具挑戰性的任務。
本文是假定獎勵函數已知,而狀態轉移概率未知來做的,因此並未學習獎勵函數。
Model Learning
model learning的過程中,作者使用神經網絡去預測狀態的改變量,而不是預測下一個狀態。這會使得神經網絡不需要去記住輸入狀態。這種做法在上下狀態改變較小的情況下會比較有效。其loss函數如下:
Policy Learning
Policy Learning的目標是:
其中表示的就是model用的是所學的model。
ME-TRPO
取得的效果?
策略學習效果魯棒性更強,較好避免過擬合。達到了與SOTA model-free算法相同的結果。
所出版信息?作者信息?
一篇來自伯克利的文章,一作Thanard Kurutach是加州大學伯克利分校AI研究(BAIR)的博士,由Stuart Russell教授和Pieter Abbeel教授共同指導。興趣是開發使機器人能夠通過學習和計劃有效解決複雜決策問題的算法。
個人主頁:http://people.eecs.berkeley.edu/~thanard.kurutach/
其它鏈接
- Videos available at: https://sites.google.com/view/me-trpo.
- Code available at: https://github.com/thanard/me-trpo.