【NIPS 2017】基於深度強化學習的想象力增強智能體

原創

小小何先生

2020-04-15 21:07

論文題目：Imagination-Augmented Agents for Deep Reinforcement Learning

所解決的問題？

背景

最近也是有很多文章聚焦於基於模型的強化學習算法，一種常見的做法就是學一個model，然後用軌跡優化的方法求解一下，而這種方法並沒有考慮與真實環境的差異，導致你求解的只是在你所學model上的求解。解決這種問題就是Dyna架構通過切換world model和real model來實現在real model上具有好的泛化能力。

模型的學習準確精度也很大程度決定了最終算法的性能。並且模型很多時候本身就具有不確定性，那神經網絡這種確定性的輸出去擬合不確定性的標籤是不合適的。因此有了另外一個分支基於概率的。

所採用的方法？

主要就是在model-free的框架下增加了一個想象的過程，預想未來將會發生什麼，然後將這個想象信息作爲輔助決策變量。既然有想象部分，那就一定會有對未來的預測，因爲預測就是想象，而換一個名詞再引用幾篇神經學科的文章，就能瞬間提高文章檔次。

Enviorment Model

基於動作條件的模型預測結構如下圖所示。

接收當前觀測和動作，預測下一幀觀測和獎勵。動作的選取來自rollout policy，這個policy通過模仿智能體與真實環境得到的軌跡所得到，這種非完美的近似對平衡探索和利用也具有潛力。

整體框架

動作的選擇來自rollout policy $\widehat{\pi}$ ，基於這個策略預測下一個時候的觀測和獎勵，組成Imagination core模塊(下圖中左圖部分)。基於這個模塊預測 $n$ 條軌跡 $\hat{\mathcal{T}}_{1}, \ldots, \hat{\mathcal{T}}_{n}$ ，每條trajectory都由一系列特徵組成 $\left(\hat{f}_{t+1}, \ldots, \hat{f}_{t+\tau}\right)$ ，其中 $t$ 表示的是當前時刻， $\tau$ 表示rollout的長度， $\hat{f}_{t+i}$ 表示環境模型的輸出(下一幀觀測/獎勵)。

儘管有很多很好的訓練環境模型的方法，但是一個很關鍵的問題就是不可能得到與真實環境模型一樣的完美預測模型。因此作者這裏這裏使用的是trajectories進行編碼，這是因爲一個軌跡中所包含的信息比單步決策所得到的信息要更多。每條軌跡編碼可表示爲： $e_{i}=\mathcal{E}\left(\tilde{\mathcal{T}}_{i}\right)$ ，最終將其集成，得到： $c_{\mathrm{ia}}=\mathcal{A}\left(e_{1}, \ldots, e_{n}\right)$ 。

基於當前的觀測和model-based的對於未來的預測信息，輸出策略向量 $\pi$ 和評估值函數 $V$ 。如果沒有model-based這條路徑的話，I2A就是一個標準的model-free框架。

取得的效果？

在經典規劃問題Sokoban上的實驗結果。

上圖中standard表示standard model-free agent。I2A能夠解決85%的問題，而標準的智能體不到60%。右圖表示的是rollout的深度對性能的影響。

預測模型性能對整體性能影響結果。

所出版信息？作者信息？

文章來自DeepMind團隊2017年的論文。已被NIPS2017接收。作者Théophane Weber，DeepMind資深研究科學家，博士就讀於MIT。研究方向爲機器學習和人工智能，深度學習，強化學習和基於模型的RL，概率建模（和概率編程）以及可變推理方法等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【NIPS 2017】基於深度強化學習的想象力增強智能體

所解決的問題？

背景

所採用的方法？

Enviorment Model

整體框架

取得的效果？

所出版信息？作者信息？

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

01 穩定性（一）如何應對事故並做好覆盤？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

FolkMq v1.4.6 發佈（可以內嵌的消息中間件）

京東面試：如何進行JVM調優？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

FPGA智能傳感系統(二)基於FPGA的交通燈設計

Python進階(一)Python中的內置函數詳解

Python進階(六)文件操作

Python進階(五)模塊、包詳解

Python進階(四)Python中的異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結