【5分鐘paper】基於強化學習的策略搜索算法的自主直升機控制

原創

小小何先生

2020-06-25 01:46

論文題目：Autonomous Helicopter Control using Reinforcement Learning Policy Search Methods

所解決的問題？

將策略搜索方法用於直升機控制(外環控制)。並建立了一個對所學得的model魯棒性更強的框架。

背景

傳統的基於模型的強化學習算法make a certainty equivalence assumption on their learned models，然後使用動態規劃的算法進行求解，然而將其用於實際問題還是會存在許多問題：

實際問題狀態觀測通常是非完美的，是POMDP問題。
Physical Systems 通常具有較高維度的狀態空間，存在維度災難問題(curse of dimensionality)。並且不管你使用何種學習算法，其都不能學習到控制系統的微妙之處，因此我們期望控制算法對undermodeling(model bias)具有一定的魯棒性。
在實際的問題中採樣成本比較高。算法需要權衡探索和利用的關係，用於最大程度減少採樣。

所採用方法

modeling

控制器

控制器用的PD和貝葉斯優化什麼的，作者在總結中提到了將策略搜索用於內層循環，也就是Dyna框架。

感興趣的看原文吧，我已經看地暈暈地。看早些年的論文經常都是看得不明不白。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

24小時熱門文章

關於遊戲付費的一點想法

最新文章

最新評論文章