【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制

原創

小小何先生

2020-06-25 01:46

论文题目：Autonomous Helicopter Control using Reinforcement Learning Policy Search Methods

所解决的问题？

将策略搜索方法用于直升机控制(外环控制)。并建立了一个对所学得的model鲁棒性更强的框架。

背景

传统的基于模型的强化学习算法make a certainty equivalence assumption on their learned models，然后使用动态规划的算法进行求解，然而将其用于实际问题还是会存在许多问题：

实际问题状态观测通常是非完美的，是POMDP问题。
Physical Systems 通常具有较高维度的状态空间，存在维度灾难问题(curse of dimensionality)。并且不管你使用何种学习算法，其都不能学习到控制系统的微妙之处，因此我们期望控制算法对undermodeling(model bias)具有一定的鲁棒性。
在实际的问题中采样成本比较高。算法需要权衡探索和利用的关系，用于最大程度减少采样。

所采用方法

modeling

控制器

控制器用的PD和贝叶斯优化什么的，作者在总结中提到了将策略搜索用于内层循环，也就是Dyna框架。

感兴趣的看原文吧，我已经看地晕晕地。看早些年的论文经常都是看得不明不白。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

24小時熱門文章

最新文章

最新評論文章