OpenAI製作的系統在Montezuma的Revenge上比人類更好

人工智能(AI)可以生成腦癌的合成掃描同時在語言之間進行轉換,並教導機器人以人類靈活性操縱物體。正如OpenAI的新研究所揭示的那樣,它在玩視頻遊戲方面也相當不錯。

週二,OpenAI--一家位於舊金山的非營利性人工智能研究公司,由Elon Musk,Reid Hoffman和Peter Thiel以及其他技術名人提供支持 - 詳細介紹了一篇研究論文AI,它可以在復古平臺遊戲Montezuma's Revenge中成爲最佳人類。表現最佳的迭代發現了第一級中24個房間中的22個,偶爾會發現所有24個房間。

6月份OpenAI開發的機器人可以擊敗Valve的Dota 2技術團隊

正如OpenAI在隨附的博客文章中指出的那樣,Montezuma的Revenge對於機器學習算法的掌握來說是非常困難的。這是唯一一個在2015年挫敗谷歌子公司DeepMind炙手可熱的深度Q-Learning網絡的Atari 2600遊戲,該遊戲獲得了人均得分(4.7K)的0%。

“簡單的探索策略極不可能收集任何獎勵,或者看到該級別的24個房間中的一些以上,”OpenAI寫道。“從那時起,蒙特祖瑪復仇的進步被許多人視爲探索進步的代名詞。”

上圖:控制玩家角色的代理人。

圖片來源:OpenAI

OpenAI調用其方法隨機網絡蒸餾(RND),並表示它被設計用於任何強化學習算法 - 即使用獎勵和懲罰系統的模型,以便在特定目標的方向上驅動AI代理。

傳統上,代理人從他們的經驗中學習下一狀態預測模型,並將預測誤差用作內在獎勵。與現有方法不同,RND引入獎勵獎勵,該獎勵基於預測下一狀態下固定和隨機初始化神經網絡的輸出。

在奔跑過程中,經紀人完全隨機地玩蒙特祖瑪的復仇,通過反覆試驗改進他們的戰略。由於RND組件,他們被激勵去探索他們可能沒有的遊戲地圖區域,即使沒有明確傳達也能實現遊戲的目標。

OpenAI解釋說:“好奇心促使代理商發現新的房間並找到增加遊戲內得分的方法,而這種外在的獎勵促使它在培訓後期再次訪問這些房間。” “好奇心爲我們提供了一種更簡單的方式來教授代理與任何環境進行交互,而不是通過廣泛設計的任務特定的獎勵功能,我們希望這些功能與解決任務相對應。使用不屬於環境細節的通用獎勵功能的代理可以在廣泛的環境中獲得基本的能力水平,從而使代理能夠確定即使在沒有精心設計的獎勵的情況下哪些行爲也是如此。

上圖:AI代理商受好奇心驅使。

圖片來源:OpenAI

RND解決了強化學習方案中的另一個常見問題:所謂的噪聲電視問題,其中AI代理可能會卡在隨機數據中尋找模式(如電視上的靜態)。

OpenAI寫道:“就像賭博機上的賭徒吸引機會的結果一樣,代理人有時會被其好奇心困住。” “代理人在環境中找到了隨機性的來源,並不斷觀察它,總是會對這種轉變產生很高的內在回報。”

那怎麼表現呢?平均而言,OpenAI的代理商在九次運行中獲得了10K,最佳平均回報率爲14.5K。較長時間運行的測試產生了17.5K的運行,相當於通過第一級並找到所有24個房間。

他們掌握的不僅僅是蒙特蘇馬的復仇。當在超級馬里奧上放鬆時,代理人發現了11個級別,發現了祕密房間,並且擊敗了老闆。經過幾個小時的訓練,他們學會了如何擊敗Breakout。當他們在Pong與一名人類球員一起打球時,他們試圖延長比賽而不是贏球。

除了遊戲之外,OpenAI還掌握了許多AI餡餅。

去年,它開發了一種軟件,通過隨機化模擬場景中的顏色,光照條件,紋理和相機設置,爲神經網絡生成高質量數據集。(研究人員用它來教一個機械化的手臂從雜貨桌上移除一罐垃圾郵件。)最近,在2月,它發佈了Hindsight Experience Replay(HER),這是一種開源算法,有效地幫助機器人從失敗中吸取教訓。在7月,它推出了一個系統,指導機器人手掌握和操縱具有最先進精度的物體

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章