【NIPS 2017】基於深度強化學習的想象力增強智能體

  • 論文題目:Imagination-Augmented Agents for Deep Reinforcement Learning

所解決的問題?

作者及標題信息截圖

背景

最近也是有很多文章聚焦於基於模型的強化學習算法,一種常見的做法就是學一個model,然後用軌跡優化的方法求解一下,而這種方法並沒有考慮與真實環境的差異,導致你求解的只是在你所學model上的求解。解決這種問題就是Dyna架構通過切換world model和real model來實現在real model上具有好的泛化能力。

模型的學習準確精度也很大程度決定了最終算法的性能。並且模型很多時候本身就具有不確定性,那神經網絡這種確定性的輸出去擬合不確定性的標籤是不合適的。因此有了另外一個分支基於概率的。

所採用的方法?

主要就是在model-free的框架下增加了一個想象的過程,預想未來將會發生什麼,然後將這個想象信息作爲輔助決策變量。既然有想象部分,那就一定會有對未來的預測,因爲預測就是想象,而換一個名詞再引用幾篇神經學科的文章,就能瞬間提高文章檔次。

Enviorment Model

基於動作條件的模型預測結構如下圖所示。

環境模型預測結構

接收當前觀測和動作,預測下一幀觀測和獎勵。動作的選取來自rollout policy,這個policy通過模仿智能體與真實環境得到的軌跡所得到,這種非完美的近似對平衡探索和利用也具有潛力。

整體框架

動作的選擇來自rollout policy π^\widehat{\pi} ,基於這個策略預測下一個時候的觀測和獎勵,組成Imagination core模塊(下圖中左圖部分)。基於這個模塊預測nn 條軌跡 T^1,,T^n\hat{\mathcal{T}}_{1}, \ldots, \hat{\mathcal{T}}_{n},每條trajectory都由一系列特徵組成(f^t+1,,f^t+τ)\left(\hat{f}_{t+1}, \ldots, \hat{f}_{t+\tau}\right) ,其中tt 表示的是當前時刻,τ\tau表示rollout的長度,f^t+i\hat{f}_{t+i}表示環境模型的輸出(下一幀觀測/獎勵)。

I2A architecture
儘管有很多很好的訓練環境模型的方法,但是一個很關鍵的問題就是不可能得到與真實環境模型一樣的完美預測模型。因此作者這裏這裏使用的是trajectories進行編碼,這是因爲一個軌跡中所包含的信息比單步決策所得到的信息要更多。每條軌跡編碼可表示爲:ei=E(T~i)e_{i}=\mathcal{E}\left(\tilde{\mathcal{T}}_{i}\right),最終將其集成,得到:cia=A(e1,,en)c_{\mathrm{ia}}=\mathcal{A}\left(e_{1}, \ldots, e_{n}\right)

基於當前的觀測和model-based的對於未來的預測信息,輸出策略向量π\pi和評估值函數VV。如果沒有model-based這條路徑的話,I2A就是一個標準的model-free框架。

取得的效果?

在經典規劃問題Sokoban上的實驗結果。

Sokoban上的實驗結果

上圖中standard表示standard model-free agentI2A能夠解決85%的問題,而標準的智能體不到60%。右圖表示的是rollout的深度對性能的影響。

對比模型好壞對整體性能影響

預測模型性能對整體性能影響結果。

所出版信息?作者信息?

文章來自DeepMind團隊2017年的論文。已被NIPS2017接收。作者Théophane WeberDeepMind資深研究科學家,博士就讀於MIT。研究方向爲機器學習和人工智能,深度學習,強化學習和基於模型的RL,概率建模(和概率編程)以及可變推理方法等。

Théophane Weber

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章