谷歌發佈開源Dopamine 2.0,讓強化學習變得更靈活

強化學習(RL)已成爲最受歡迎的機器學習領域之一,並且在過去幾年中取得了許多重大進展。因此,研究人員和教育工作者越來越需要獲得一個清晰可靠的RL研究和教育框架。去年8月,谷歌發佈了一款全新的開源強化學習框架 Dopamine,該框架基於 TensorFlow,主打靈活性、穩定性、復現性,能夠提供快速的基準測試。

今天,谷歌發佈Dopamine 2.0,爲強化學習提供了更高的靈活性以及更多的測試環境。

去年八月,谷歌發佈了Dopamine,這是一款靈活的強化學習框架。初始版本專注於特定類型的RL研究:基於 Arcade 學習環境(一個成熟的、易於理解的基準)和四個基於值的代理 DQN、C51、Rainbow 代理的簡化版本以及隱式分位數網絡代理實現的。

開源地址:https://github.com/google/dopamine

據官方博客介紹:

開發小組收到的最常見的請求之一是對更多環境的支持。這證實了他們在內部看到的情況,在測試新算法時,OpenAI的Gym支持的簡單環境非常有用。於是,谷歌正式發佈Dopamine 2.0,這一版本包括了對離散域Gym環境(如離散狀態和動作)的支持。框架的核心保持不變,只是簡單地概括了與環境的接口。爲了向後兼容,用戶仍然可以下載1.0版本。

此外,新版本還包括兩個經典控制環境的默認配置:CartPole和Acrobot;在這些環境中,用戶可以在幾分鐘內訓練Dopamine代理。與標準Atari 2600遊戲的訓練時間(標準GPU上大約5天)相比,這些環境允許研究人員在更大規模的Atari遊戲上測試比之前更快地迭代研究思路。新版本還包括一個合作實驗室,演示如何在Cartpole和Acrobot上訓練代理。最後,GymPreprocessing類爲如何將Dopamine與其他自定義環境一起使用提供了示例。

拓展閱讀

吊打OpenAI!谷歌重磅開源強化學習框架Dopamine

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章