- 论文题目:Algorithmic framework for model-based deep reinforcement learning with theoretical guarantees
所解决的问题?
提出了一种具有理论性保证的基于模型的强化学习算法框架。设计了一个元算法,该算法在理论上保证了将单调性改进到期望报酬的局部最大值。将这个框架用于MBRL得到 Stochastic Lower Bounds Optimization (SLBO)算法。(同样是假定奖励函数已知)。
背景
model-free的强化学习算法取得了巨大成功,但是其采样成本昂贵。model-based方法通过在learned mode上规划学习,在采样效率上取得了巨大成功。
Our meta-algorithm (Algorithm 1) extends the optimism-in-face-of-uncertainty principle to non-linear dynamical models in a way that requires no explicit uncertainty quantification of the dynamical models.
所采用的方法?
model的学习过程采用的是 use a multi-step prediction loss for learning the models with norm。其loss定义如下:
再引入策略,整体的公式(6.2)loss定义如下:
原论文中还涉及大量理论推导,以后有研究需要再看吧,感兴趣的可以看看。
取得的效果?
所出版信息?作者信息?
ICLR 2019的一篇文章,作者来自普林斯顿大学计算机科学系三年级博士,导师Sanjeev Arora,之前就读于清华姚班。主要研究机器学习,尤其是强化学习算法。
参考链接
Sanjeev Arora主要从事机器学习理论性收敛分析。
-
Sanjeev Arora个人主页:https://www.cs.princeton.edu/~arora/
-
代码链接:https://github.com/roosephu/slbo
扩展阅读
设为真实环境下的值函数,为评估模型下的值函数。设计一个可证明的upper bound,用于衡量estimate 和real dynamical model之间的值函数估计误差,与真实的值函数相比leads to lower bound :
算法先通过与环境交互收集数据, builds the lower bound above, and then maximizes it over both the dynamical model and the policy 。lower bounds的优化可以使用任何RL算法,因为它是用sample trajectory from a fixed reference policy 来优化的,而不是一个交互的策略迭代过程。
值函数的定义如下:
待续。。。。