Planning to Explore via Self-Supervised World Models


發表時間:2020(ICML 2020)
文章要點:這篇文章提出了一個Plan2Explore的model based方法,通過self-supervised方法來做Task-agnostic的探索,在這個過程中有效學習了world model,然後可以遷移到下游的具體任務上,實現zero or few-shot RL。具體的,world model包含encoder,dynamics,reward,decoder幾個部分

然後RL部分有actor和value

在做exploration的時候,reward就是model的uncertainty。實現的方式是ensemble,通過學多個one-step predictive models,得到下一個圖像的embedding預測

然後通過計算方差得到reward

整個結構長這樣

然後就可以用RL進行訓練了,訓練的方式和Dreamer算法一樣,就是把RL用到world model上訓練更新policy,同時在environment上交互,收集數據更新model。算法僞代碼如下

有了這個之後,當需要學習某個具體的任務的時候,就根據任務構造一個新的reward function,基於這個reward function來學習policy。需要注意的是,這裏的訓練都是在world model裏進行的,可以不用和真實環境交互

總結:model-based planning的好處還是在於可以探索沒有見過的狀態,而不是像count-based和prediction error based方法那樣只能返回之前見過的狀態,還是會有優勢的(unlike prior methods which retrospectively compute the novelty of observations after the agent has already reached them, our agent acts efficiently by leveraging planning to seek out expected future novelty.)。explore部分還是很make sense的,就是不知道後面few shot RL效果具體如何,感覺model不管怎麼訓練,應該都會有誤差,不知道對訓練policy影響如何。
疑問:Model裏面已經有了posterior dynamics

爲啥還要搞個prior dynamics?

而且這裏區分了一下features和latent state,這兩有啥關係,爲啥要搞兩個東西?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章