【ICLR2020】基於模型的強化學習算法玩Atari【附代碼】

  • 論文題目:Model Based Reinforcement Learning for Atari

作者及標題信息

所解決的問題?

  model-free的強化學習算法已經在Atari遊戲上取得了巨大成功,但是與人類選手相比,model-free的強化學習算法需要的交互數據往往大地多。其根本原因在於人類選手能夠很容易學習到遊戲的大概運行規律,從而進行預測規劃。因此爲了達到用少量數據學習控制Atari遊戲的目的,作者提出了一種基於video prediction models的model based Simulated Policy Learning (SimPLe)算法,來解決需要大量交互數據的問題。在所學到的model上得到的policy,用於原始model上能夠取得較好效果。主要貢獻在於將planning算法與learned model結合起來,並取得了SOTA效果。

背景

  人類選手可以在幾分鐘內學會玩Atari遊戲,而及時最好的model-free強化學習方法也需要成百上千步迭代嘗試才能達到,需要幾周的訓練時間。而人類選手能夠做地這麼好的原因就是:人類已經具備一些先驗知識能夠預測遊戲接下來的走勢。也有一些結合深度學習預測下一幀數據的方法,或者是預測獎勵的方法,但是它們大多數都是用於model-free的強化學習算法上。model-free的強化學習算法做地比較好的有:RainbowIMPALA兩大算法。而基於model-based的強化學習方法能夠大大提高採樣效率,以往的方法大多都在學習潛在的動力學方程,以及一些新奇的結合好奇心、反事實等東西做一些創新,以及其它的一些改進方法。

所採用的方法?

  使用video prediction技術學習model,並且基於所學到的model訓練得到policy。

預測Video

  這一部分主要是依據Junhyuk Oh 2015年在Atari所做的Video prediction的工作,和Silvia Chiappa在2017年所做的Recurrent environment simulators這兩篇文章來做的。本文作者主要是focus在學習如何預測才能更好地玩遊戲,而不是在學習如何預測,而學習出來的model用於得到policy,並且在原環境model上也能取得較好效果。

  Felix Leibfried在 2016 年將Video prediction的工作擴展到Video和reward的同時預測,但是並沒有基於預測結果去做得到policy的這部分工作。大多數的這些類似的工作(包括本文)都是在隱式地編碼遊戲的模型。

  爲了獲取更好的預測video的網絡結構,作者基於models developed in the context of robotics和下述文獻提出了stochastic video prediction model。

  • Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett (eds.), Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA, pp. 6306–6315, 2017.
  • Lukasz Kaiser and Samy Bengio. Discreteauto encoders for sequence models. CoRR, abs/1801. 09797, 2018.

  predictive model has stochastic latent variables so it can be applied in highly stochastic environments

model-based

  作者用的ppo算法。

整體算法

  大體上的思路:其實就是用神經網絡構建一個環境模型(world model),基於這個學習到的world model去得到policy,然後再拿這個policy與真實的環境進行交互,收集數據,然後更新神經網絡訓練得到的world model。算法僞代碼如下:

SimPle

  目的就是爲了在減少與真實的環境互動的同時,獲得在真實環境上較好的policy。初始的world model訓練數據來自真實環境的隨機rollout數據。

SimPle的主循環

  爲了獲取更好的world model,作者嘗試了很多結構,最終提出一種 novel stochastic video prediction model 如下圖所示:

網絡結構

取得的效果?

  SimPLe在大多數遊戲中比現今的SOTA算法還具有更高的採樣效率。具體實驗結果可以查看論文,主要是應用在Atari上的工作。

所出版信息?作者信息?

  論文已被ICLR2020接收,作者Lukasz Kaiser谷歌大腦成員,主要研究神經網絡和NLP領域,早期有做機器博弈相關理論研究。

Lukasz Kaiser

其它參考鏈接

  • 官方博客介紹:https://sites.google.com/view/modelbasedrlatari/home
  • 代碼鏈接:https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl

相關文獻

  • Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Gheshlaghi Azar, and David Silver. Rainbow: Combining improvements in deep reinforcement learning. In Sheila A. McIlraith and Kilian Q. Weinberger (eds.), Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pp. 3215–3222. AAAI Press, 2018

  • Lasse Espeholt, Hubert Soyer, Rémi Munos, Karen Simonyan, Volodymyr Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, and Koray Kavukcuoglu. IMPALA: scalable distributed deep-rl with importance weighted actor-learner architectures. In Proceedings of the 35th International Conference on Machine Learning, ICML, pp. 1406–1415, 2018.

  • Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L. Lewis, and Satinder P. Singh. Action conditional video prediction using deep networks in atari games. In NIPS, pp. 2863–2871, 2015.

  • Silvia Chiappa, Sébastien Racanière, Daan Wierstra, and Shakir Mohamed. Recurrent environment simulators. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. URL https: //openreview.net/forum?id=B1s6xvqlx.

  • Felix Leibfried, Nate Kushman, and Katja Hofmann. A deep learning approach for joint video frame and reward prediction in Atari games. CoRR, abs/1611.07078, 2016.

我的微信公衆號名稱:深度學習先進智能決策
微信公衆號ID:MultiAgent1024
公衆號介紹:主要研究深度學習、強化學習、機器博弈等相關內容!期待您的關注,歡迎一起學習交流進步!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章