Heuristic-Guided Reinforcement Learning


發表時間:2021 (NeurIPS 2021)
文章要點:這篇文章提出了一個Heuristic-Guided Reinforcement Learning (HuRL)的框架,用domain knowledge或者offline data構建heuristic,將問題變成一個shorter-horizon的子問題,從而更容易解決。
具體的,就是將原始的MDP變換成一個新的reward和gamma的MDP,其中reward由原始reward和heuristic組成,然後gamma就可以變小了

所以就相當於縮短了horizon。這個方式相當於在reward和heuristic之間做trade off,HuRL effectively introduces horizon-based regularization that determines whether long-term value information should come from collected experiences or the heuristic.
然後作者舉了個例子,就想說,如果heuristic很好,可以產生很好的policy,如果heuristic不夠好,那麼對訓練是有害的,

接下來就是幾個證明,沒看明白。
總結:感覺什麼都沒說錯,但是也什麼都沒說。可能就是提出了horizon-based regularization for RL這麼一個觀念吧。
疑問:有的時候真的不能理解,到底什麼樣的文章能中。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章