DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION


發表時間:2020(ICLR 2020)
文章要點:文章提出一個叫Dreamer的算法,就是去學一個world model,然後強化學習在compact state space上進行。就相當於所有的學習過程都不是和真正的環境交互學習,而是在world model上進行,所以把這個東西叫做Dreamer,相當於夢裏學習,夢裏啥都有。
Model包含三個部分,Representation model,Transition model和Reward model

這裏的s指的不是真實的狀態,而是compact state space的狀態。去學這幾個model,作者提了三種常用的方法,第一種是Reward prediction,就是直接整個model合到一起,目標就是去學reward。
第二種是Reconstruction,目標就是把image重建出來,

這個方法通常用the variational lower bound (ELBO)或者the variational information bottleneck (VIB)算一個bound,然後優化這個bound

這個部分應該和《Learning Latent Dynamics for Planning from Pixels》一樣。
第三種是Contrastive estimation,就是用一個state model去從觀測預測狀態

相當於是對比一下observation和state的區別,比如用noise contrastive estimation (NCE)去學。
然後在這個model的基礎上去學強化,文章用的actor critic方法,所以包括policy和value

然後整個算法僞代碼如下

總結:感覺這個文章主要就是想說整個學習過程都弄到world model上去,儘量減少和真實environment的交互。文章裏面說了很多怎麼學model的方式,感覺還挺複雜的。從最後結果上來看,至少在連續控制的問題上,交互數量變成了1e6的量級,而model free的方法用了1e8,1e9,所以sample efficiency是有顯著提升的。不過DISCRETE CONTROL上面,比如Atari,還是沒有明顯優勢。
疑問:ontact dynamics到底是啥,這裏又出現了。
noise contrastive estimation (NCE)沒看過。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章