Learning model-based planning from scratch


發表時間:2017
文章要點:這篇文章想說,之前的文章去做planning的時候,都會去設計一個planning的方法。這篇文章提出了一個端到端的方法,Imagination-based Planner,不去設計planning的方式,做到全部的端對端訓練,agent會決定什麼時候去planning(imagine),什麼時候去真實環境裏面做動作(act)。模型主要包括這幾個模塊:manager用來決定是imagine還是act,controller用來執行動作,imagination是一個model用來預測狀態轉移,memory就相當於buffer。然後planning的時候就相當於policy rollout,只是rollout的結構有區別,“1-step”,“n-step”,and“tree”。要麼一個狀態planning多次,要麼planning一條長軌跡,要麼二者的折中

訓練的目標函數就是最大化外部reward,以及最小化planning的計算量。訓練方式就是REINFORCE和stochastic value gradients (SVG),然後就沒了。
總結:感覺很不靠譜啊。。。
疑問:無。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章