【5分鐘paper】基於強化學習的策略搜索算法的自主直升機控制

  • 論文題目:Autonomous Helicopter Control using Reinforcement Learning Policy Search Methods

作者及標題信息

所解決的問題?

  將策略搜索方法用於直升機控制(外環控制)。並建立了一個對所學得的model魯棒性更強的框架。

背景

  傳統的基於模型的強化學習算法make a certainty equivalence assumption on their learned models,然後使用動態規劃的算法進行求解,然而將其用於實際問題還是會存在許多問題:

  1. 實際問題狀態觀測通常是非完美的,是POMDP問題。
  2. Physical Systems 通常具有較高維度的狀態空間,存在維度災難問題(curse of dimensionality)。並且不管你使用何種學習算法,其都不能學習到控制系統的微妙之處,因此我們期望控制算法對undermodeling(model bias)具有一定的魯棒性。
  3. 在實際的問題中採樣成本比較高。算法需要權衡探索和利用的關係,用於最大程度減少採樣。

所採用方法

modeling

N-step predictive sampler

控制器

  控制器用的PD和貝葉斯優化什麼的,作者在總結中提到了將策略搜索用於內層循環,也就是Dyna框架。

  感興趣的看原文吧,我已經看地暈暈地。看早些年的論文經常都是看得不明不白。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章