令人激動！谷歌推強化學習新框架「多巴胺」，基於TensorFlow，已開源丨附github

原創

2018-09-29 10:28

郭一璞發自凹非寺量子位報道 | 公衆號 QbitAI

上週那個在DOTA2 TI8賽場上“裝逼失敗”的OpenAI Five，背後是強化學習的助推。

其實不僅僅是OpenAI Five，下圍棋的AlphaGo和AlphaGo Zero、玩雅達利街機遊戲的DeepMind DQN（deep Q-network），都離不開強化學習（Reinforcement Learning）。

現在，谷歌發佈了一個基於TensorFlow的強化學習開源框架，名叫Dopamine。

另外，還有一組Dopamine的教學colab。

和它的名字Dopamine（多巴胺）一樣，新框架聽上去就令人激動。

清晰，簡潔，易用

新框架在設計時就秉承着清晰簡潔的理念，所以代碼相對緊湊，大約是15個Python文件，基於Arcade Learning Environment (ALE)基準，整合了DQN、C51、 Rainbow agent精簡版和ICML 2018上的Implicit Quantile Networks。

可再現

新框架中代碼被完整的測試覆蓋，可作爲補充文檔的形式，也可以用ALE來評估。

基準測試

爲了讓研究人員能快速比較自己的想法和已有的方法，該框架提供了DQN、C51、 Rainbow agent精簡版和Implicit Quantile Networks的玩ALE基準下的那60個雅達利遊戲的完整訓練數據，以Python pickle文件和JSON數據文件的格式存儲，並且放到了一個可視化網頁中。

另外，新框架中還有訓練好的深度網絡、原始統計日誌，以及TensorBoard標註好的TensorFlow事件文件。

傳送門

開源框架資源

Dopamine谷歌博客： https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下載： https://github.com/google/dopamine/tree/master/docs#downloads

colabs： https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

遊戲訓練可視化網頁： https://google.github.io/dopamine/baselines/plots.html

令人激動！谷歌推強化學習新框架「多巴胺」，基於TensorFlow，已開源丨附github

郭一璞發自凹非寺量子位報道 | 公衆號 QbitAI

清晰，簡潔，易用

可再現

基準測試

傳送門

開源框架資源

相關資料

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

數據展示動態（跑分）顯示

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

探祕亞馬遜最特別的機器人工廠：800只機器人在奔跑，人類卻沒有被淘汰？

史上最佳GAN被超越！生成人臉動物高清大圖真假難辨，DeepMind發佈二代VQ-VAE

電信移動聯通廣電喜提5G牌照，5G手機明年爆發

AI學術圈，又吵了起來

Nature：最強癌基因找到了，居然不在染色體上

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

令人激動！谷歌推強化學習新框架「多巴胺」，基於TensorFlow，已開源丨附github

郭一璞 發自 凹非寺 量子位 報道 | 公衆號 QbitAI

清晰，簡潔，易用

可再現

基準測試

傳送門

開源框架資源

相關資料

郭一璞發自凹非寺量子位報道 | 公衆號 QbitAI