【ICLR2020】基於模型的強化學習算法玩Atari【附代碼】

論文題目：Model Based Reinforcement Learning for Atari

所解決的問題？

model-free的強化學習算法已經在Atari遊戲上取得了巨大成功，但是與人類選手相比，model-free的強化學習算法需要的交互數據往往大地多。其根本原因在於人類選手能夠很容易學習到遊戲的大概運行規律，從而進行預測規劃。因此爲了達到用少量數據學習控制Atari遊戲的目的，作者提出了一種基於video prediction models的model based Simulated Policy Learning (SimPLe)算法，來解決需要大量交互數據的問題。在所學到的model上得到的policy，用於原始model上能夠取得較好效果。主要貢獻在於將planning算法與learned model結合起來，並取得了SOTA效果。

背景

人類選手可以在幾分鐘內學會玩Atari遊戲，而及時最好的model-free強化學習方法也需要成百上千步迭代嘗試才能達到，需要幾周的訓練時間。而人類選手能夠做地這麼好的原因就是：人類已經具備一些先驗知識能夠預測遊戲接下來的走勢。也有一些結合深度學習預測下一幀數據的方法，或者是預測獎勵的方法，但是它們大多數都是用於model-free的強化學習算法上。model-free的強化學習算法做地比較好的有：Rainbow和IMPALA兩大算法。而基於model-based的強化學習方法能夠大大提高採樣效率，以往的方法大多都在學習潛在的動力學方程，以及一些新奇的結合好奇心、反事實等東西做一些創新，以及其它的一些改進方法。

所採用的方法？

使用video prediction技術學習model，並且基於所學到的model訓練得到policy。

預測Video

這一部分主要是依據Junhyuk Oh 2015年在Atari所做的Video prediction的工作，和Silvia Chiappa在2017年所做的Recurrent environment simulators這兩篇文章來做的。本文作者主要是focus在學習如何預測才能更好地玩遊戲，而不是在學習如何預測，而學習出來的model用於得到policy，並且在原環境model上也能取得較好效果。

Felix Leibfried在 2016 年將Video prediction的工作擴展到Video和reward的同時預測，但是並沒有基於預測結果去做得到policy的這部分工作。大多數的這些類似的工作(包括本文)都是在隱式地編碼遊戲的模型。

爲了獲取更好的預測video的網絡結構，作者基於models developed in the context of robotics和下述文獻提出了stochastic video prediction model。

Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett (eds.), Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA, pp. 6306–6315, 2017.
Lukasz Kaiser and Samy Bengio. Discreteauto encoders for sequence models. CoRR, abs/1801. 09797, 2018.

predictive model has stochastic latent variables so it can be applied in highly stochastic environments

model-based

作者用的ppo算法。

整體算法

大體上的思路：其實就是用神經網絡構建一個環境模型(world model)，基於這個學習到的world model去得到policy，然後再拿這個policy與真實的環境進行交互，收集數據，然後更新神經網絡訓練得到的world model。算法僞代碼如下：

目的就是爲了在減少與真實的環境互動的同時，獲得在真實環境上較好的policy。初始的world model訓練數據來自真實環境的隨機rollout數據。

爲了獲取更好的world model，作者嘗試了很多結構，最終提出一種 novel stochastic video prediction model 如下圖所示：

取得的效果？

SimPLe在大多數遊戲中比現今的SOTA算法還具有更高的採樣效率。具體實驗結果可以查看論文，主要是應用在Atari上的工作。

所出版信息？作者信息？

論文已被ICLR2020接收，作者Lukasz Kaiser谷歌大腦成員，主要研究神經網絡和NLP領域，早期有做機器博弈相關理論研究。

其它參考鏈接

官方博客介紹：https://sites.google.com/view/modelbasedrlatari/home
代碼鏈接：https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl

【ICLR2020】基於模型的強化學習算法玩Atari【附代碼】

所解決的問題？

背景

所採用的方法？

預測Video

model-based

整體算法

取得的效果？

所出版信息？作者信息？

其它參考鏈接

相關文獻

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

01 穩定性（一）如何應對事故並做好覆盤？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

FPGA智能傳感系統(二)基於FPGA的交通燈設計

Python進階(一)Python中的內置函數詳解

Python進階(六)文件操作

Python進階(五)模塊、包詳解

Python進階(四)Python中的異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結