臥槽！AI，感受被『分手廚房』支配的恐懼...

原創

2021-01-30 11:09

盆友，你感受過被分手廚房，啊不，《煮糊了》（Overcooked）支配的恐懼嗎？

其實，別說是你，就是AI們碰上需要多人配合，又得切菜，又得上鍋，又得送菜，地形還複雜的情況，也一樣會分分鐘敗下陣來。

這不，來自諾丁漢大學、UC伯克利和微軟研究院的研究人員，現在就提出：不會玩《煮糊了》的深度強化學習模型，不是好協作AI。

他們還發現，當前多數深度RL模型，竟然都沒法兒在《煮糊了》裏拿到65%以上的分數。

爲此，他們專門寫了一篇論文。

用簡化版《煮糊了》進行基準測試

想要在現實世界中應用深度強化學習模型，實現AI與人類的協作，目前一個大的挑戰在於，這類系統在遇到開發過程中未曾見過的情況、未訓練過的行爲時，能否保持魯棒性。

而如何去評估模型的魯棒性，也是困擾學界的一個難點。

不知道是不是分手廚房帶來的胡鬧現場啓發了他們，研究人員認爲，《煮糊了》能夠成功在系統能夠處理的範圍內，測試出潛在的邊緣案例。

比如，在遊戲中，系統必須應對這樣的場景：盤子被不小心落在了櫃檯上，搭檔因爲思考或者暫時離開停留在原地……

於是，他們根據《煮糊了》的環境，設計了簡化版的單元測試。

主要分爲三類：

狀態魯棒性單元測試，這時成功的標準不取決於搭檔的狀態。如上圖（a）中，綠帽子廚師已經拿到了一個盤子，所以無論綠帽子廚師接下來作出怎樣的決策，藍帽子廚師都只要向左拿一個洋蔥就是了。

智能體魯棒性單元測試，這時搭檔的狀態會影響結果，需要衡量智能體的魯棒性。如上圖（b）中，通道只有一條，綠帽子廚師想要去送湯，藍帽子廚師就得讓開。

智能體&記憶魯棒性單元測試。如上圖（c）中，綠帽子廚師沒動靜了，出於離開狀態，那麼藍帽子廚師應該自己去取盤子送湯。這個狀態需要結合歷史記錄來檢測。

研究人員表示，這套基於《煮糊了》的測試套件，能提供無法通過簡單考慮驗證獎勵獲得的信息，因此未來可以作爲一個評判人工智能協作能力的基準指標。

論文地址：
https://arxiv.org/abs/2101.05507

代碼地址：
https://github.com/HumanCompatibleAI/human_ai_robustness

參考鏈接：
https://venturebeat.com/2021/01/15/researchers-propose-using-the-game-overcooked-to-benchmark-collaborative-ai-systems/

本文分享自微信公衆號 - Creator星球遊戲開發社區（creator-star）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.