【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制

  • 论文题目:Autonomous Helicopter Control using Reinforcement Learning Policy Search Methods

作者及标题信息

所解决的问题?

  将策略搜索方法用于直升机控制(外环控制)。并建立了一个对所学得的model鲁棒性更强的框架。

背景

  传统的基于模型的强化学习算法make a certainty equivalence assumption on their learned models,然后使用动态规划的算法进行求解,然而将其用于实际问题还是会存在许多问题:

  1. 实际问题状态观测通常是非完美的,是POMDP问题。
  2. Physical Systems 通常具有较高维度的状态空间,存在维度灾难问题(curse of dimensionality)。并且不管你使用何种学习算法,其都不能学习到控制系统的微妙之处,因此我们期望控制算法对undermodeling(model bias)具有一定的鲁棒性。
  3. 在实际的问题中采样成本比较高。算法需要权衡探索和利用的关系,用于最大程度减少采样。

所采用方法

modeling

N-step predictive sampler

控制器

  控制器用的PD和贝叶斯优化什么的,作者在总结中提到了将策略搜索用于内层循环,也就是Dyna框架。

  感兴趣的看原文吧,我已经看地晕晕地。看早些年的论文经常都是看得不明不白。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章