DeepMind提出強化學習新方法，可實現人機合作

原創

2021-12-03 08:03

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文來自BDTechTalks網站的“"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/tag\/ai-research-papers\/","title":null,"type":null},"content":[{"type":"text","text":"AI研究論文評論"}]},{"type":"text","text":"”專欄。該專欄提供人工智能最新發現的系列解讀文章。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"儘管人工智能研究人員正力圖建立能在圍棋、星際爭霸到Dota等複雜遊戲中擊敗人類專家的強化學習系統，但如何創建出能與人類開展合作而非競爭的強化學習系統是人工智能正面臨的更大挑戰。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在一篇由DeepMind的人工智能研究人員"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/abs\/2110.08176","title":null,"type":null},"content":[{"type":"text","text":"最新預發佈的論文"}]},{"type":"text","text":"中，提出了一種稱爲FCP（Fictitious Co-Play，虛擬合作）的新方法。該方法實現智能體與不同技能水平人類間的合作，無需人工生成數據訓練強化學習智能體（agent）。論文已被今年的NIPS會議接收。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"論文通過使用一款稱爲Overcooked的解謎遊戲進行測試，結果表明在與人類玩家的組隊合作中，FCP方法創建的強化學習智能體表現更優，混淆度最低。論文結果可爲進一步研究人機協作系統提供重要方向。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"訓練強化學習智能體"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/09\/02\/deep-reinforcement-learning-explainer\/","title":null,"type":null},"content":[{"type":"text","text":"強化學習"}]},{"type":"text","text":"可持續無休地學習任何具有明確獎勵（award）、動作（action）和狀態（state）的任務。只要具備足夠的計算能力和時間，強化學習智能體可根據所在的環境（environment）去學習出一組動作序列或“策略”，以實現獎勵（award）的最大化。強化學習在"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2018\/07\/02\/ai-plays-chess-go-poker-video-games\/","title":null,"type":null},"content":[{"type":"text","text":"玩遊戲"}]},{"type":"text","text":"中的有效性，已得到很好的證明。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但強化學習智能體給出的遊戲策略通常並不能很好地匹配真人隊友的玩法。一旦組隊合作，智能體執行的操作會令真人隊友大感困惑。由此，強化學習難以應用於需各方參與者協同規劃和分工的場景。如何彌合機器智能與真人玩家間存在的鴻溝，是人工智能社區正面對的一個重要挑戰。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"研究人員正致力於創建各種強化學習智能體，達到能適應包括其它強化學習智能體和人類在內的各合作方的行爲習慣。"}]},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/90\/dd\/90cf9f120eef3949895989a9d153e2dd.jpeg","alt":null,"title":"圖1 強化學習智能體的多種訓練方法","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"SP方法(self-play，左右互搏法)是遊戲使用的經典強化學習訓練方法。該方法讓強化學習智能體與自身的一個副本持續對戰，能非常高效地學習出實現遊戲獎勵最大化的策略。但該方法的問題在於，所生成的強化學習模型會過擬合智能體自身的遊戲玩法，導致完全無法與使用其他方法訓練的玩家合作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"另一種訓練方法是PP方法 (popuation play，羣體參與法)，它在強化學習智能體訓練中引入了多種具有不同參數和結構的隊友模型。儘管在與真人玩家合作的競技遊戲中，PP方法要明顯地優於SP方法，但其依然缺乏應對“共同收益”（common-payoff）場景下的多樣性（diversity）問題。“共同收益”指玩家必須協同解決問題，並根據環境變化去調整合作策略。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第三種方法稱爲BCP方法(behavioral cloning play，行爲克隆法)，它使用人工生成的數據訓練強化學習智能體。有別於在環境中隨機選取起始點，BCP方法根據採集自真人玩家的遊戲數據去調整模型參數，使智能體生成更接近於人類玩家遊戲模式的行爲。如果可以採集具有不同技能水平和遊戲風格玩家的數據，那麼智能體就能更靈活地適應隊友的行爲，更有可能與真人玩家很好地配合。然而BCP方法的挑戰性在於如何獲取真人數據，特別是考慮到要使強化學習模型達到最佳設置，通常所需的遊戲量是人工所無法企及的。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"FCP方法"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind新提出的強化學習FCP方法，其關鍵理念是在無需依賴於人工生成數據的情況下，創建可與具有不同風格和技能水平玩家協作的智能體。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"FCP方法的訓練分爲兩個階段。首先，DeepMind研究人員創建了一組使用SP方法的強化學習智能體，分別在不同的初始條件下獨立完成訓練，使模型收斂於不同的參數設置，由此創建了一個多樣化的強化學習智能體池。爲實現智能體池中技能水平的多樣化，研究人員保存了每個智能體在不同訓練階段的快照。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"正如論文所述，“最後一個檢查點表示的是一個經完全訓練的‘熟練’玩家，而較早的檢查點則代表技能尚不純熟的玩家。需說明的是，使用多個檢查點實現各個玩家技能的多樣性，這並不會導致的額外訓練成本。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第二個階段使用池中所有的智能體，訓練出一個新的強化學習模型。新智能體必須達成策略上的調優，才能實現與具有不同參數值和技能水平的隊友開展協同。論文提出，“FCP智能體完全可以達到跟隨真人玩家帶隊，在給定範圍的策略和技能中去學習出一個通用的策略。”"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"測試FCP"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind的人工智能研究人員將FCP方法應用於解謎遊戲Overcooked。遊戲玩家在網格化場景中移動，與物體互動，執行一系列步驟，最終完成烹飪和送餐任務。Overcooked的遊戲邏輯簡單，並需要隊友間的協作和工作分配，因此非常適合測試。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲測試FCP方法，DeepMind研究人員簡化了完整的Overcooked遊戲任務。他們精心挑選了一組具有多種挑戰的地圖，包括強制協作和受限空間等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/i1.wp.com\/bdtechtalks.com\/wp-content\/uploads\/2021\/11\/Overcooked-simplified-environment-1024x576.jpg","alt":null,"title":"圖2 DeepMind使用簡化版Overcooked測試FCP方法","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"研究人員分別訓練了一組SP、PP、BCP和FCP智能體。爲了比較各方法的性能，他們首先組了三個隊，分別測試每種強化學習智能體類型，即基於人類遊戲數據訓練的BCP模型、在不同技能水平上訓練的SP智能體，以及代表低水平玩家的隨機初始化智能體。測試根據在相同數量劇集中所能提供的餐食數，衡量各方法的性能優劣。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"結果表明，FCP方法的表現要明顯優於其他強化學習智能體訓練方法，可以很好地泛化各種技能水平和遊戲風格。出乎意料的是，測試進一步表明了其他訓練方法是非常脆弱的。正如論文所述，“這意味着其他方法可能無法達到與技能水平一般的玩家組隊。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/i0.wp.com\/bdtechtalks.com\/wp-content\/uploads\/2021\/11\/FCP-compared-to-other-RL-methods.jpg","alt":null,"title":"圖3 對於強化學習智能體訓練，FCP方法優於其他方法","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"論文進而測試了每種類型的強化學習智能體在與人類玩家合作中的表現。研究人員開展了有114名人類玩家參加的在線研究，其中每位玩家參與20輪遊戲。在每一輪遊戲中，玩家與其中一種強化學習智能體組隊，但並不知道該智能體的具體類型，隨機進入一個廚房場景。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"根據實驗結果，“人類-FCP”組隊的性能，要優於其他所有“人類-強化學習智能體”組隊。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"每兩輪遊戲後，參與玩家根據與強化學習智能體組隊的體驗，給出一個1到5之間的評分。相對其他智能體，參與玩家對FCP隊友表現出明顯的偏好。反饋表明，FCP智能體的行爲更加連貫、更好預測，適應性更強。例如，強化學習智能體似乎具備了感知隊友行爲的能力，在每個烹飪場景中選擇了特定角色，避免相互產生混淆。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"與之相比，其他強化學習智能體的行爲則被測試參與者描述爲“混亂無章，難以合作”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/45\/85\/45f52a97f83f1c8b925ea50efba96485.jpeg","alt":null,"title":"圖4 DeepMind使用各種強化學習智能體與人類玩家組隊","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"下一步工作"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在論文中，研究人員也指出了該工作的一些侷限性。例如，在FCP智能體的訓練中，只使用了32個強化學習合作隊友。儘管這完全可應對簡化版的Overcooked遊戲，但應用於更復雜的環境時可能會受限。DeepMind研究人員指出，“對於更復雜的遊戲，爲表示足夠多樣化的策略，FCP所需合作伙伴的總體規模可能難以企及。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/06\/07\/deepmind-artificial-intelligence-reward-maximization\/","title":null,"type":null},"content":[{"type":"text","text":"獎勵定義"}]},{"type":"text","text":"是限制FCP應用於更復雜環境的另一個挑戰。在簡化版Overcooked中，獎勵是簡單而且明確的。但在其他環境中，強化學習智能體在獲得主要獎勵前，必須去完成一些子目標。而智能體實現子目標的方式，必須要與人類合作伙伴的方式保持一致。這在缺少人類數據的情況下，是很難去評估和調優的。研究人員提出，“如果任務的獎勵函數與人類處理任務的方式非常不一致，那麼和所有缺少人類數據的方法一樣，該方法同樣很可能會生成非最優的合作伙伴。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind的研究可歸爲人機協作領域研究。在"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/11\/01\/reinforcement-learning-hanabi\/","title":null,"type":null},"content":[{"type":"text","text":"麻省理工學院科學家的一項最新研究"}]},{"type":"text","text":"中，探索了強化學習智能體在與真人玩家玩紙牌遊戲Hanabi中的侷限性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind提出的強化學習新技術，在彌合人類和人工智能間鴻溝上取得了進步。研究人員希望其“能爲未來研究人機協作造福社會這一重要挑戰奠定堅實的基礎。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"原文鏈接："},{"type":"text","text":" "},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/11\/22\/deepmind-reinforcement-learning-fictitious-coplay\/","title":null,"type":null},"content":[{"type":"text","text":"DeepMind RL method promises better co-op between AI and humans"}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

谷歌發佈生態系統RLDS，可在強化學習中生成、共享和使用數據集

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-20 10:53:54

程序員如何建立第二大腦

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-20 10:43:54

從前端到全棧 -- 最全面向對象總結

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

程序员海军

2021-12-21 10:54:01

跨語言的多模態、多任務檢索模型MURAL解讀

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-21 10:54:01

Facebook 如何做大規模服務的自主測試

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:54:01

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

文心千帆：從PPT製作到數字人主播，ERNIE-Bot|BLOOMZ大模型調優與RLHF訓練全攻略

隨着人工智能技術的不斷髮展，文心千帆作爲一款領先的人工智能模型，已經在多個領域展現出其強大的實力。無論是PPT製作，還是數字人主播，文心千帆都能夠爲用戶提供驚豔的應用體驗。而背後支撐這一切的，正是ERNIE-Bot|BLOOMZ大模型的強大

2024-03-29 00:01:17

人工智能大模型原理與應用實戰：自動駕駛技術的飛躍

一、人工智能大模型的基本原理人工智能大模型，尤其是深度學習模型，通常由多層神經網絡組成。這些神經網絡通過海量的參數來建立輸入數據和輸出數據之間的複雜映射關係。在訓練過程中，模型通過反向傳播算法不斷調整參數，使得模型的預測結果與真實結果儘可

2024-03-15 00:33:20

阿里雲PAI-靈駿大模型訓練工具 Pai-Megatron-Patch 正式開源！

Pai-Megatron-Patch是什麼 Pai-Megatron-Patch工具是阿里雲機器學習平臺PAI算法團隊研發，基於阿里雲智算服務PAI-靈駿平臺的大模型最佳實踐解決方案配套工具，旨在幫助大模型開發者快速上手靈駿產品，完成大語

2023-10-07 12:29:41

快速成長的祕訣｜學會自我培養和培養他人

快速成長總共三篇，分別是《完成自我認知升級》、《自我成長好方法》和《自我培養和培養他人》。本篇是第三篇，篇幅較長。針對長文的閱讀方式，依舊建議在《完成自我認知升級》中提到的閱讀方式：“在一個不被打擾的時間做好隻字不差閱讀，用批判性思維思考和

2023-09-13 01:22:12

BeautifulPrompt：PAI 推出自研 Prompt 美化器，賦能 AIGC一鍵出美圖

背景 Stable Diffusion（SD）是一種流行的AI生成內容（AI Generated Content，AIGC）模型，能在文字輸入的基礎上生成各種風格多樣的圖像。在目前的AIGC方向，SD是開源社區最熱門的模型。然而，SD能夠

2023-06-21 12:25:47

我在京東做研發 | 從好玩到好用，爆火ChatGPT前沿分享

| 嘉賓：吳友政，京東集團高級總監、京東科技語音語言算法部負責人。 2006年中科院自博士畢業後，先後在日本國立信息通信研究機構、英國愛丁堡大學、索尼中國研究院從事自然語言處理相關研究工作，主要聚焦自然語言處理、人機對話、語音識別、機器翻

2023-02-24 23:41:13

強化學習入坑總結

總結一下自己入坑強化學習的經驗。在入坑之前，自己對強化學習基本一無所知，所以對於強化學習的學習基本上是從零開始。下面總結一下自己學習強化學習所看的網課，教材，論文，代碼網課莫煩的強化學習教程。這個教程真的是通俗易懂，完全針對初

2021-12-25 21:10:24

24小時熱門文章

最新文章

最新評論文章