- 論文題目:Algorithmic framework for model-based deep reinforcement learning with theoretical guarantees
所解決的問題?
提出了一種具有理論性保證的基於模型的強化學習算法框架。設計了一個元算法,該算法在理論上保證了將單調性改進到期望報酬的局部最大值。將這個框架用於MBRL得到 Stochastic Lower Bounds Optimization (SLBO)算法。(同樣是假定獎勵函數已知)。
背景
model-free的強化學習算法取得了巨大成功,但是其採樣成本昂貴。model-based方法通過在learned mode上規劃學習,在採樣效率上取得了巨大成功。
Our meta-algorithm (Algorithm 1) extends the optimism-in-face-of-uncertainty principle to non-linear dynamical models in a way that requires no explicit uncertainty quantification of the dynamical models.
所採用的方法?
model的學習過程採用的是 use a multi-step prediction loss for learning the models with norm。其loss定義如下:
再引入策略,整體的公式(6.2)loss定義如下:
原論文中還涉及大量理論推導,以後有研究需要再看吧,感興趣的可以看看。
取得的效果?
所出版信息?作者信息?
ICLR 2019的一篇文章,作者來自普林斯頓大學計算機科學系三年級博士,導師Sanjeev Arora,之前就讀於清華姚班。主要研究機器學習,尤其是強化學習算法。
參考鏈接
Sanjeev Arora主要從事機器學習理論性收斂分析。
-
Sanjeev Arora個人主頁:https://www.cs.princeton.edu/~arora/
-
代碼鏈接:https://github.com/roosephu/slbo
擴展閱讀
設爲真實環境下的值函數,爲評估模型下的值函數。設計一個可證明的upper bound,用於衡量estimate 和real dynamical model之間的值函數估計誤差,與真實的值函數相比leads to lower bound :
算法先通過與環境交互收集數據, builds the lower bound above, and then maximizes it over both the dynamical model and the policy 。lower bounds的優化可以使用任何RL算法,因爲它是用sample trajectory from a fixed reference policy 來優化的,而不是一個交互的策略迭代過程。
值函數的定義如下:
待續。。。。