令人激動!谷歌推強化學習新框架「多巴胺」,基於TensorFlow,已開源丨附github

郭一璞 發自 凹非寺 量子位 報道 | 公衆號 QbitAI

上週那個在DOTA2 TI8賽場上“裝逼失敗”的OpenAI Five,背後是強化學習的助推。

其實不僅僅是OpenAI Five,下圍棋的AlphaGo和AlphaGo Zero、玩雅達利街機遊戲的DeepMind DQN(deep Q-network),都離不開強化學習(Reinforcement Learning)。

現在,谷歌發佈了一個基於TensorFlow的強化學習開源框架,名叫Dopamine

另外,還有一組Dopamine的教學colab。

和它的名字Dopamine(多巴胺)一樣,新框架聽上去就令人激動。

清晰,簡潔,易用

新框架在設計時就秉承着清晰簡潔的理念,所以代碼相對緊湊,大約是15個Python文件,基於Arcade Learning Environment (ALE)基準,整合了DQN、C51、 Rainbow agent精簡版和ICML 2018上的Implicit Quantile Networks。

可再現

新框架中代碼被完整的測試覆蓋,可作爲補充文檔的形式,也可以用ALE來評估。

基準測試

爲了讓研究人員能快速比較自己的想法和已有的方法,該框架提供了DQN、C51、 Rainbow agent精簡版和Implicit Quantile Networks的玩ALE基準下的那60個雅達利遊戲的完整訓練數據,以Python pickle文件和JSON數據文件的格式存儲,並且放到了一個可視化網頁中。

另外,新框架中還有訓練好的深度網絡、原始統計日誌,以及TensorBoard標註好的TensorFlow事件文件。

傳送門

開源框架資源

Dopamine谷歌博客: https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下載: https://github.com/google/dopamine/tree/master/docs#downloads

colabs: https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

遊戲訓練可視化網頁: https://google.github.io/dopamine/baselines/plots.html

相關資料

ALE基準: https://arxiv.org/abs/1207.4708

DQN(DeepMind): https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51(ICML 2017): https://arxiv.org/abs/1707.06887

Rainbow: https://arxiv.org/abs/1710.02298

Implicit Quantile Networks(ICML 2018): https://arxiv.org/abs/1806.06923

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章