谷歌大腦AI飛速解鎖雅達利，訓練不用兩小時：預測能力前所未有

原創

IT專員

2019-03-08 13:38

　　AI玩個遊戲，一定要打幾十萬上百萬局才能學會?

　　谷歌大腦給自家的強化學習AI，建造了一個有的放矢的高效學習環境：基於視頻預測的模擬器SimPLe。

　　團隊說，模擬器的預測能力前所未有，有時可以一幀都不錯：

　　左爲模擬器，中爲Ground Truth，右爲差別

　　有了它，AI的學習壓力明顯減輕，只需要相當於人類玩兩小時的訓練強度，就能解鎖雅達利遊戲。

　　與優秀的無模型前輩Rainbow相比，基於模型的SimPLE要訓練到相同的成績，運動量能減少一個數量級。

　　乒乓球21：0

　　怎樣的模擬器?

　　和許多遊戲AI前輩不同，SimPLe的智能體不是在真實遊戲裏訓練的。

　　它的遊戲策略，完全是在模擬器裏煉成的。

　　這裏，有個視頻預測模型，會給AI的每個動作預測一個結果。按照谷歌的傳統，它也叫世界模型 (World Model) 。

　　爲什麼要有這個模型?

　　在許多雅達利遊戲裏面，隨機探索是很難獲得足夠多樣化的數據的：

　　有些地方智能體可能沒去過，有些動作智能體可能沒做過。

　　環境數據不夠豐富，AI就不能更有效地學習。

　　所以，要讓智能體用更高效的方法探索世界：

　　團隊用了一個迭代過程，由數據收集、模型訓練、策略訓練三個階段交替而成。

　　這樣，隨着智能體的策略 (Policy) 變得越來越好用，模擬器的預測能力也越來越強。

　　相輔相成之間，智能體不用像沒頭蒼蠅隨性試錯，便能更快解鎖遊戲技能了。

　　怎樣預測?

　　試用了幾種不同的架構，團隊發現最好的模型是前饋CNN，用一疊卷積編碼了一個輸入幀 (Input Frames) 的序列。

　　給定智能體做出的動作，模型就能依靠一疊反捲積 (Deconvolution) ，解碼下一幀。

　　研究人員還發現，給模型引入隨機性(Stochasticity) 非常有效，可以讓策略在更加豐富的場景裏，得到訓練。

　　具體做法是，加入一個潛在變量(Latent Variable) ，把它的樣本加到瓶頸表徵 (Bottleneck Representation) 裏面去。

　　在這項研究的設定下，離散變量是最好用的，被編碼成比特序列 (Sequences of Bits) 。

　　有點像變分自編碼器 (Variational Autoencoder) ：潛在變量的後驗，是基於整個序列近似出來的;

　　從後驗裏取出一個值，再用上輸入幀和智能體的動作，來預測下一幀。

　　最終，有了一個隨機離散模型(Stochastic Discrete Model) ，長這樣：

　　成果喜人

　　注意，團隊並沒有爲了雅達利的不同遊戲，特別調整過模型，也沒有特別調整過超參數。

　　AI玩家表現

　　訓練過程中，環境變化了40萬幀，智能體和環境的互動，只有10萬次：相當於人類玩耍兩小時。

　　你看，AI打“乒乓球” (Pong) 已經能刷對方一個光頭。可能找到了系統的弱點：

　　更有趣的是“過馬路” (Freeway) 遊戲。

　　看上去簡單，但對探索的要求非常高。

　　在這裏，智能體是隻小雞，它的進步是很慢的，因爲不停地被車撞。

　　那麼，很難成功過一次馬路，所以幾乎得不到獎勵。

　　不過，SimPLe捕捉到這樣稀有的事件，把它們內化到預測模型裏面去，學習到優秀的策略。

　　對比一下，發現在過馬路遊戲裏，達到相同的成績，SimPLe和環境互動的次數比Rainbow前輩少了一個數量級。

　　而在大多數遊戲裏，SimPLe和環境的互動次數，都比Rainbow少了一半以上。

　　預測之星　　大連婦科醫院 http://yiyuan.120ask.com/dlfk/

　　拿到這樣的成績，模擬器的預測居功至偉。

　　團隊在AI遊戲視頻裏，發現了許多完美預測的片段，最長達到50個時間步。

　　比如，過馬路里有連續的11秒，模型預測的每一幀都和Ground Truth一毛一樣。

　　另外，乒乓球和打磚塊(Brick) 裏面，也發現過這樣的片段。

　　團隊說，把完美預測的時間再延長，是個很好的研究方向了。

　　也遇到了困難

　　有些遊戲裏，預測模型根本生成不了有用的預測。

　　研究人員說，最常見的原因，是有些很小的物體，左右了玩家的命運：

　　比如在亞特蘭提斯 (Atlantis) 和戰區 (Battle Zone) 裏，×××很小，又稍縱即逝。

　　團隊說，如果想注意到它們，還是讓視頻預測模型，慢速高清地觀察比賽現場吧。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

谷歌大腦AI飛速解鎖雅達利，訓練不用兩小時：預測能力前所未有

不差錢的攪局者們來了，百年老車廠們能扛住嗎？

加州大學伯克利分校最新研究，教機器人學會 “摸物辨形”

用AI預測地震、洪水、颶風和火山噴發現在已經成爲了可能

搜狗錄音筆顛覆傳統：支持錄音轉寫和同聲傳譯功能

面向開發者的18個機器學習平臺

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結