【NIPS 2018】循環World模型促進策略演變

  • 論文題目:Recurrent World Models Facilitate Policy Evolution

作者及標題信息

所解決的問題?

從world model中學一個policy,並將遷移到real world。

背景

人類通常是通過自己的感官數據建立自己對這個世界的認知模型。比如看同一張圖片,不同的人能夠得到不同的抽象理解,而這個理解跟他自己之前建立的世界觀存在相關性。這種對世界的認知能夠幫助我們,遇到問題或者是危險的時候,快速做出反應。

所採用的方法?

作者結合RNN和概率建模的方法做的。在這之前基於模型的強化學習算法能夠取得比較好的效果,但是很多仍然在真實的環境中進行訓練。而作者提出一種在生成的world model中學policy,並將其遷移到真實環境中。

Flow diagram showing how V, M, and C interacts with the environment (left).

VAE用於壓縮信息得到latent vector。RNN用於輸出一個概率密度函數p(z)p(z) (混合高斯模型做的)。RNN建模表示爲P(zt+1at,zt,ht)P(z_{t+1}|a_{t},z_{t},h_{t}),具體關係如上圖所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

總的來說就是基於觀測的隱變量,對上一幀隱變量的預測,以及動作去預測下一幀隱變量。然後當前狀態的隱變量和預測的狀態隱變量來共同決定所選取哪個動作。

算法流程

這裏作者期望RNN能夠學的環境的編碼之後隱變量與動作交互數據的潛在規律(因爲RNN的輸出是含有所有之前的歷史信息的),然後用於輔助決策。VAE和RNN的訓練都可以不需要獎勵信息,只給交互數據就可以。

這麼做的原因就是先對環境信息做了一個特徵抽取,然後基於這個抽取的特徵再用於訓練得到policy,好處在於做了特徵提取之後,觀測的有效信息比較多,特徵比較明顯,那當然再做policy的學習會更快。

取得的效果?

實驗結果

基於手工提取特徵的智能體得分是V model 632分上下浮動。

實驗效果

實驗結果

所出版信息?作者信息?

David Ha谷歌大腦成員,主要研究機器智能。

David Ha

其它參考鏈接

  • 官方網頁介紹:https://worldmodels.github.io/
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章