EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS


發表時間:2020(ICLR 2020)
文章要點:這篇文章說現在的planning方法都是在動作空間裏randomly generated,這樣很不高效(其實瞎扯了,很多不是隨機的方法啊)。作者提出在model based RL裏用policy網絡來做online planning選擇動作,提出了model-based policy planning (POPLIN)算法。作者提出了兩個變種,model-based policy planning in action space (POPLIN-A)和model-based policy planning parameter space (POPLIN-P)。
具體的,POPLIN-A就是用一個policy network來生成動作序列,然後用CEM來fine-tune確定最終的動作。這個CEM就是假定了一個高斯分佈,然後在動作序列上添加這個高斯噪聲來看效果是提升還是減少,然後再優化這個高斯分佈使得最終的return最大。

這裏作者又細分了兩個方法,POPLIN-A-Init和POPLIN-A-Replan。POPLIN-A-Init就是說policy network只用來生成最初的動作序列,剩下的fine-tune交給CEM去做。

POPLIN-A-Replan就是說每次都會用policy network重新plan一下。

另一個算法POPLIN-P,這個和POPLIN-A的區別就是CEM的噪聲是加在網絡的參數上的,而不是動作空間上的

總結:之前還感覺沒有任何新東西,算法也是別人早就提過,就是做試驗了,可能圖畫的比較好看吧。不過做實驗應該也挺辛苦的。
疑問:確實不太清楚創新點在哪。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章