- 論文題目:Imagination-Augmented Agents for Deep Reinforcement Learning
所解決的問題?
背景
最近也是有很多文章聚焦於基於模型的強化學習算法,一種常見的做法就是學一個model,然後用軌跡優化的方法求解一下,而這種方法並沒有考慮與真實環境的差異,導致你求解的只是在你所學model上的求解。解決這種問題就是Dyna架構通過切換world model和real model來實現在real model上具有好的泛化能力。
模型的學習準確精度也很大程度決定了最終算法的性能。並且模型很多時候本身就具有不確定性,那神經網絡這種確定性的輸出去擬合不確定性的標籤是不合適的。因此有了另外一個分支基於概率的。
所採用的方法?
主要就是在model-free的框架下增加了一個想象的過程,預想未來將會發生什麼,然後將這個想象信息作爲輔助決策變量。既然有想象部分,那就一定會有對未來的預測,因爲預測就是想象,而換一個名詞再引用幾篇神經學科的文章,就能瞬間提高文章檔次。
Enviorment Model
基於動作條件的模型預測結構如下圖所示。
接收當前觀測和動作,預測下一幀觀測和獎勵。動作的選取來自rollout policy
,這個policy
通過模仿智能體與真實環境得到的軌跡所得到,這種非完美的近似對平衡探索和利用也具有潛力。
整體框架
動作的選擇來自rollout policy
,基於這個策略預測下一個時候的觀測和獎勵,組成Imagination core
模塊(下圖中左圖部分)。基於這個模塊預測 條軌跡 ,每條trajectory
都由一系列特徵組成 ,其中 表示的是當前時刻,表示rollout
的長度,表示環境模型的輸出(下一幀觀測/獎勵)。
儘管有很多很好的訓練環境模型的方法,但是一個很關鍵的問題就是不可能得到與真實環境模型一樣的完美預測模型。因此作者這裏這裏使用的是trajectories
進行編碼,這是因爲一個軌跡中所包含的信息比單步決策所得到的信息要更多。每條軌跡編碼可表示爲:,最終將其集成,得到:。
基於當前的觀測和model-based
的對於未來的預測信息,輸出策略向量和評估值函數。如果沒有model-based
這條路徑的話,I2A
就是一個標準的model-free
框架。
取得的效果?
在經典規劃問題Sokoban
上的實驗結果。
上圖中standard
表示standard model-free agent
。I2A
能夠解決85%
的問題,而標準的智能體不到60%
。右圖表示的是rollout
的深度對性能的影響。
預測模型性能對整體性能影響結果。
所出版信息?作者信息?
文章來自DeepMind
團隊2017
年的論文。已被NIPS2017
接收。作者Théophane Weber
,DeepMind
資深研究科學家,博士就讀於MIT
。研究方向爲機器學習和人工智能,深度學習,強化學習和基於模型的RL
,概率建模(和概率編程)以及可變推理方法等。