The Predictron: End-To-End Learning and Planning


發表時間:2017(ICML 2017)
文章要點:這篇文章設計了一個叫Predictron的結構,在abstract的狀態上進行學習,通過multiple planning depths來使得model self-consistent,進行端對端的學習。這裏的設定是MRP,不是MDP,所以沒有動作,只有狀態轉移。整個模型包括一個state representation,也就是encoder,一個model,用來做狀態轉移,以及一個value function。這裏的一個想法就是,不管是1-step的planning,還是k-step的planning,他們最終學到的值都應該是一樣的。就算我搞一個\(\lambda\)-return,最終的預測還是應該是一個東西。然後在學這個model的時候,就把所有的這些目標都一起學。比如只學k-step就是

學0-K步就是

\(\lambda\)-return就是

最後這些目標其實都是同一個目標,所以還可以讓他們互相擬合,比如對着\(\lambda\)-return學

然後就結束了。
總結:其實這個背景設置是Markov reward process,所以沒有policy,整個過程就是在學model和value。
疑問:不是很理解創新在哪,可能比較早吧。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章