谷歌推出開源強化學習框架Dopamine

編譯:chux

出品:ATYUN訂閱號

強化學習研究在過去幾年取得了許多重大進展。這些進步使得智能體以超越人類的級別玩遊戲,值得注意的例子包括DeepMind的DQN玩Atari遊戲,AlphaGo,AlphaGo Zero,以及Open AI Five。具體而言,在DQN中引入重播記憶,智能體可以利用以前的經驗,大規模分佈式訓練,實現跨多個工作分配學習過程,以及分配方法允許智能體模擬完整的分佈,而不僅僅是他們的期望值,以便更全面地瞭解它們所處的情況。這種類型的進展很重要,因爲產生這些進步的算法還適用於其他領域,例如機器人技術。

通常,開發這些進步需要快速迭代設計(通常沒有明確的方向),打破既定方法的結構。然而,大多數現有的RL框架不具有靈活性和穩定性,研究人員不能有效地迭代RL方法,從而探索新研究方向可能沒有直接而明顯的收益。此外,從現有框架再現結果通常太耗時,這可能導致科學的再現性問題。

今天,谷歌推出了一個新的基於Tensorflow的框架,旨在爲新的和經驗豐富的RL研究人員提供靈活性,穩定性和可重複的工具。這一平臺的靈感來自於大腦中獎賞動機行爲的一個主要組成部分,反映了神經科學與強化學習研究之間的強烈聯繫,該平臺旨在推動一種能夠推動重大發現的投機性研究。此版本還包括一組闡明如何使用框架的colabs:github.com/google/dopamine/blob/master/dopamine/colab/README.md

易用性

清晰度和簡潔性是設計該框架的兩個關鍵因素。谷歌提供的代碼是緊湊的(大約15個Python文件),並且有詳細記錄。這是通過專注於街機學習環境(一個成熟的,易於理解的基準)和四個基於價值的智能體來實現的:DQN,C51,一個精心策劃的Rainbow代理的簡化版本,以及Implicit Quantile Network智能體(上個月剛在國際機器學習會議上發佈)。這種簡單性使研究人員能夠輕鬆瞭解智能體的內部運作並快速嘗試新的想法。

再現性

再生性在強化學習研究中非常重要。爲此,谷歌爲代碼提供完整的測試,這些測試在文檔附表裏。此外,我們的實驗框架遵循Machado等人給出的建議,將經驗評估與街機學習環境標準化。

基準測試

對於新的研究人員而言,能夠根據既定方法快速對其思想進行基準測試非常重要。因此,谷歌谷歌提供四個提供的代理的完整訓練數據,包括Arcade學習環境支持的60個遊戲,可用作Python pickle文件(用於使用谷歌框架訓練的智能體)和JSON數據文件(與受過其他框架訓練的智能體進行比較);谷歌另外提供一個網站(google.github.io/dopamine/baselines/plots.html),可以快速查看所有60場比賽中所有提供的智能體的訓練運行。下面展示的是在Seaquest上的4個智能體的訓練,這是由Arcade學習環境支持的Atari 2600遊戲之一。

4個智能體在Seaquest中訓練。x軸代表迭代,每個迭代都有100萬個遊戲幀(4個半小時的實時遊戲);y軸是每個遊戲獲得的平均分數。陰影部分顯示了5個獨立運行的置信區間。

谷歌還提供利用這些智能體訓練的深度網絡,原始統計日誌以及用於Tensorboard可視化的Tensorflow事件文件:google.github.io/dopamine/baselines/plots.html

谷歌希望其框架的靈活性和易用性將使研究人員能夠嘗試新的想法。谷歌已經積極地將它用於研究,並發現它能夠快速迭代許多想法,靈活性高。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章