【NIPS 2018】循環World模型促進策略演變

原創

小小何先生

2020-04-15 01:30

論文題目：Recurrent World Models Facilitate Policy Evolution

所解決的問題？

從world model中學一個policy，並將遷移到real world。

背景

人類通常是通過自己的感官數據建立自己對這個世界的認知模型。比如看同一張圖片，不同的人能夠得到不同的抽象理解，而這個理解跟他自己之前建立的世界觀存在相關性。這種對世界的認知能夠幫助我們，遇到問題或者是危險的時候，快速做出反應。

所採用的方法？

作者結合RNN和概率建模的方法做的。在這之前基於模型的強化學習算法能夠取得比較好的效果，但是很多仍然在真實的環境中進行訓練。而作者提出一種在生成的world model中學policy，並將其遷移到真實環境中。

VAE用於壓縮信息得到latent vector。RNN用於輸出一個概率密度函數 $p(z)$ (混合高斯模型做的)。RNN建模表示爲 $P(z_{t+1}|a_{t},z_{t},h_{t})$ ，具體關係如上圖所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

總的來說就是基於觀測的隱變量，對上一幀隱變量的預測，以及動作去預測下一幀隱變量。然後當前狀態的隱變量和預測的狀態隱變量來共同決定所選取哪個動作。

這裏作者期望RNN能夠學的環境的編碼之後隱變量與動作交互數據的潛在規律(因爲RNN的輸出是含有所有之前的歷史信息的)，然後用於輔助決策。VAE和RNN的訓練都可以不需要獎勵信息，只給交互數據就可以。

這麼做的原因就是先對環境信息做了一個特徵抽取，然後基於這個抽取的特徵再用於訓練得到policy，好處在於做了特徵提取之後，觀測的有效信息比較多，特徵比較明顯，那當然再做policy的學習會更快。

取得的效果？

基於手工提取特徵的智能體得分是V model 632分上下浮動。

所出版信息？作者信息？

David Ha谷歌大腦成員，主要研究機器智能。

其它參考鏈接

官方網頁介紹：https://worldmodels.github.io/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【NIPS 2018】循環World模型促進策略演變

所解決的問題？

背景

所採用的方法？

取得的效果？

所出版信息？作者信息？

其它參考鏈接

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

FPGA智能傳感系統(二)基於FPGA的交通燈設計

Python進階(一)Python中的內置函數詳解

Python進階(六)文件操作

Python進階(五)模塊、包詳解

Python進階(四)Python中的異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結