臥槽!AI,感受被『分手廚房』支配的恐懼...

魚羊 發自 凹非寺
量子位 報道 | 公衆號 QbitAI

盆友,你感受過被分手廚房,啊不,《煮糊了》(Overcooked)支配的恐懼嗎?

其實,別說是你,就是AI們碰上需要多人配合,又得切菜,又得上鍋,又得送菜,地形還複雜的情況,也一樣會分分鐘敗下陣來。

這不,來自諾丁漢大學、UC伯克利和微軟研究院的研究人員,現在就提出:不會玩《煮糊了》的深度強化學習模型,不是好協作AI。

他們還發現,當前多數深度RL模型,竟然都沒法兒在《煮糊了》裏拿到65%以上的分數。

爲此,他們專門寫了一篇論文。

用簡化版《煮糊了》進行基準測試

想要在現實世界中應用深度強化學習模型,實現AI與人類的協作,目前一個大的挑戰在於,這類系統在遇到開發過程中未曾見過的情況、未訓練過的行爲時,能否保持魯棒性。

而如何去評估模型的魯棒性,也是困擾學界的一個難點。

不知道是不是分手廚房帶來的胡鬧現場啓發了他們,研究人員認爲,《煮糊了》能夠成功在系統能夠處理的範圍內,測試出潛在的邊緣案例。

比如,在遊戲中,系統必須應對這樣的場景:盤子被不小心落在了櫃檯上,搭檔因爲思考或者暫時離開停留在原地……

於是,他們根據《煮糊了》的環境,設計了簡化版的單元測試。

主要分爲三類:

狀態魯棒性單元測試,這時成功的標準不取決於搭檔的狀態。如上圖(a)中,綠帽子廚師已經拿到了一個盤子,所以無論綠帽子廚師接下來作出怎樣的決策,藍帽子廚師都只要向左拿一個洋蔥就是了。

智能體魯棒性單元測試,這時搭檔的狀態會影響結果,需要衡量智能體的魯棒性。如上圖(b)中,通道只有一條,綠帽子廚師想要去送湯,藍帽子廚師就得讓開。

智能體&記憶魯棒性單元測試。如上圖(c)中,綠帽子廚師沒動靜了,出於離開狀態,那麼藍帽子廚師應該自己去取盤子送湯。這個狀態需要結合歷史記錄來檢測。

研究人員表示,這套基於《煮糊了》的測試套件,能提供無法通過簡單考慮驗證獎勵獲得的信息,因此未來可以作爲一個評判人工智能協作能力的基準指標。

傳送門

論文地址:
https://arxiv.org/abs/2101.05507

代碼地址:
https://github.com/HumanCompatibleAI/human_ai_robustness

參考鏈接:
https://venturebeat.com/2021/01/15/researchers-propose-using-the-game-overcooked-to-benchmark-collaborative-ai-systems/



本文分享自微信公衆號 - Creator星球遊戲開發社區(creator-star)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章