OpenAI和DeepMind的AI智能體在兩個Atari遊戲中表現優於人類

編譯:chux

出品:ATYUN訂閱號

通過觀看人類來學習玩遊戲的智能體研究又有了新進展。OpenAI和DeepMind在發表的一篇論文“Reward learning from human preferences and demonstrations in Atari”中,描述了一種AI系統,該系統結合了從兩種人類反饋中學習的方法:專家演示和軌跡偏好。

他們的深度神經網絡與其他神經網絡一樣,由大腦神經元模擬的數學函數組成,並在9個Atari遊戲測試中的兩個(Pong和Enduro)中獲得了優於人類的表現,並在7個遊戲測試中擊敗了基線模型。

該研究已提交給神經信息處理系統(NIPS 2018),該會議計劃於12月的第一週在加拿大蒙特利爾舉行。

“爲了通過強化學習解決複雜的現實問題,我們不能依賴手動指定的獎勵功能,”該團隊寫道,“相反,我們可以讓人類直接向智能體傳達目標。”

這是一種在先前的研究中被稱爲“反向強化學習”的技術,對於那些目標定義不明確、容易使AI系統出錯的任務來說,這種技術是有前途的。正如該論文的作者所指出的那樣,強化學習系統使用獎勵或懲罰來驅動AI智能體實現特定目標,但如果所討論的目標缺乏反饋機制,那麼這種學習就沒有多大用處。

由研究人員的AI模型創建的遊戲智能體不僅模仿人類行爲,因爲只是這樣它們就不會具有特別的可擴展性,因爲它們需要一個人類專家來教他們如何執行特定任務,而且永遠不會實現比專家顯著更好的性能。

研究人員的系統結合了多種形式的反饋,包括來自專家演示的模仿學習和使用軌跡偏好的獎勵模型。基本上,它沒有假設直接可用的獎勵,例如分數增加或遊戲內獎金;相反,依靠循環中人類的反饋,它試圖通過(1)模仿示範和(2)最大化推斷的獎勵函數來儘可能接近預期的行爲。

該模型由兩部分組成:深度Q-Learning網絡,即DeepMind在先前的研究中用於實現Atari 2600遊戲中的優於人類表現的網絡,以及獎勵模型,一種卷積神經網絡,在任務訓練過程中由註釋者或合成系統提供的標記進行訓練。

智能體隨着時間的推移從演示和經驗中學到了更多。與此同時,人類專家一直阻止他們利用可能損害績效的意外獎勵來源,這種獎勵來源被稱爲獎勵黑客。

在測試中,研究人員在Arcade學習環境中設置AI模型的智能體,這是一個開源框架,用於設計可以玩Atari 2600遊戲的AI智能體。研究人員寫道,Atari遊戲具有“強化學習中最多樣化的環境”的優勢,並提供“明確的”獎勵功能。

經過5000萬步和6800個標記的完整訓練,在除《私家偵探》(Private Eye)以外的所有遊戲測試中(包括Beamride,Breakout,Enduro,Pong,Q*bert,Seaquest),使用研究人員系統訓練的智能體都優於模擬學習基線。研究人員發現,研究人員發現,通常情況下,要達到同樣的表現水平,人類需要的時間減少了一半。

論文:arxiv.org/pdf/1811.06521.pdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章