谷歌大腦AI飛速解鎖雅達利,訓練不用兩小時:預測能力前所未有

  AI玩個遊戲,一定要打幾十萬上百萬局才能學會?

  谷歌大腦給自家的強化學習AI,建造了一個有的放矢的高效學習環境:基於視頻預測的模擬器SimPLe。

  團隊說,模擬器的預測能力前所未有,有時可以一幀都不錯:

  


  左爲模擬器,中爲Ground Truth,右爲差別

  有了它,AI的學習壓力明顯減輕,只需要相當於人類玩兩小時的訓練強度,就能解鎖雅達利遊戲。

  與優秀的無模型前輩Rainbow相比,基於模型的SimPLE要訓練到相同的成績,運動量能減少一個數量級。

  


  乒乓球21:0

  怎樣的模擬器?

  和許多遊戲AI前輩不同,SimPLe的智能體不是在真實遊戲裏訓練的。

  它的遊戲策略,完全是在模擬器裏煉成的。

  這裏,有個視頻預測模型,會給AI的每個動作預測一個結果。按照谷歌的傳統,它也叫世界模型 (World Model) 。

  爲什麼要有這個模型?

  在許多雅達利遊戲裏面,隨機探索是很難獲得足夠多樣化的數據的:

  有些地方智能體可能沒去過,有些動作智能體可能沒做過。

  環境數據不夠豐富,AI就不能更有效地學習。

  所以,要讓智能體用更高效的方法探索世界:

  團隊用了一個迭代過程,由數據收集、模型訓練、策略訓練三個階段交替而成。

  這樣,隨着智能體的策略 (Policy) 變得越來越好用,模擬器的預測能力也越來越強。

  相輔相成之間,智能體不用像沒頭蒼蠅隨性試錯,便能更快解鎖遊戲技能了。

  怎樣預測?

  試用了幾種不同的架構,團隊發現最好的模型是前饋CNN,用一疊卷積編碼了一個輸入幀 (Input Frames) 的序列。

  給定智能體做出的動作,模型就能依靠一疊反捲積 (Deconvolution) ,解碼下一幀。

  研究人員還發現,給模型引入隨機性(Stochasticity) 非常有效,可以讓策略在更加豐富的場景裏,得到訓練。

  具體做法是,加入一個潛在變量(Latent Variable) ,把它的樣本加到瓶頸表徵 (Bottleneck Representation) 裏面去。

  在這項研究的設定下,離散變量是最好用的,被編碼成比特序列 (Sequences of Bits) 。

  有點像變分自編碼器 (Variational Autoencoder) :潛在變量的後驗,是基於整個序列近似出來的;

  從後驗裏取出一個值,再用上輸入幀和智能體的動作,來預測下一幀。

  最終,有了一個隨機離散模型(Stochastic Discrete Model) ,長這樣:

  成果喜人

  注意,團隊並沒有爲了雅達利的不同遊戲,特別調整過模型,也沒有特別調整過超參數。

  AI玩家表現

  訓練過程中,環境變化了40萬幀,智能體和環境的互動,只有10萬次:相當於人類玩耍兩小時。

  你看,AI打“乒乓球” (Pong) 已經能刷對方一個光頭。可能找到了系統的弱點:

  更有趣的是“過馬路” (Freeway) 遊戲。

  看上去簡單,但對探索的要求非常高。

  在這裏,智能體是隻小雞,它的進步是很慢的,因爲不停地被車撞。

  那麼,很難成功過一次馬路,所以幾乎得不到獎勵。

  不過,SimPLe捕捉到這樣稀有的事件,把它們內化到預測模型裏面去,學習到優秀的策略。

  對比一下,發現在過馬路遊戲裏,達到相同的成績,SimPLe和環境互動的次數比Rainbow前輩少了一個數量級。

  而在大多數遊戲裏,SimPLe和環境的互動次數,都比Rainbow少了一半以上。

  預測之星  大連婦科醫院 http://yiyuan.120ask.com/dlfk/

  拿到這樣的成績,模擬器的預測居功至偉。

  團隊在AI遊戲視頻裏,發現了許多完美預測的片段,最長達到50個時間步。

  比如,過馬路里有連續的11秒,模型預測的每一幀都和Ground Truth一毛一樣。

  另外,乒乓球和打磚塊(Brick) 裏面,也發現過這樣的片段。

  團隊說,把完美預測的時間再延長,是個很好的研究方向了。

  也遇到了困難

  有些遊戲裏,預測模型根本生成不了有用的預測。

  研究人員說,最常見的原因,是有些很小的物體,左右了玩家的命運:

  比如在亞特蘭提斯 (Atlantis) 和戰區 (Battle Zone) 裏,×××很小,又稍縱即逝。

  團隊說,如果想注意到它們,還是讓視頻預測模型,慢速高清地觀察比賽現場吧。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章