DeepMind提出强化学习新方法，可实现人机合作

原創

2021-12-03 08:03

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文来自BDTechTalks网站的“"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/tag\/ai-research-papers\/","title":null,"type":null},"content":[{"type":"text","text":"AI研究论文评论"}]},{"type":"text","text":"”专栏。该专栏提供人工智能最新发现的系列解读文章。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"尽管人工智能研究人员正力图建立能在围棋、星际争霸到Dota等复杂游戏中击败人类专家的强化学习系统，但如何创建出能与人类开展合作而非竞争的强化学习系统是人工智能正面临的更大挑战。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在一篇由DeepMind的人工智能研究人员"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/abs\/2110.08176","title":null,"type":null},"content":[{"type":"text","text":"最新预发布的论文"}]},{"type":"text","text":"中，提出了一种称为FCP（Fictitious Co-Play，虚拟合作）的新方法。该方法实现智能体与不同技能水平人类间的合作，无需人工生成数据训练强化学习智能体（agent）。论文已被今年的NIPS会议接收。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"论文通过使用一款称为Overcooked的解谜游戏进行测试，结果表明在与人类玩家的组队合作中，FCP方法创建的强化学习智能体表现更优，混淆度最低。论文结果可为进一步研究人机协作系统提供重要方向。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"训练强化学习智能体"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/09\/02\/deep-reinforcement-learning-explainer\/","title":null,"type":null},"content":[{"type":"text","text":"强化学习"}]},{"type":"text","text":"可持续无休地学习任何具有明确奖励（award）、动作（action）和状态（state）的任务。只要具备足够的计算能力和时间，强化学习智能体可根据所在的环境（environment）去学习出一组动作序列或“策略”，以实现奖励（award）的最大化。强化学习在"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2018\/07\/02\/ai-plays-chess-go-poker-video-games\/","title":null,"type":null},"content":[{"type":"text","text":"玩游戏"}]},{"type":"text","text":"中的有效性，已得到很好的证明。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但强化学习智能体给出的游戏策略通常并不能很好地匹配真人队友的玩法。一旦组队合作，智能体执行的操作会令真人队友大感困惑。由此，强化学习难以应用于需各方参与者协同规划和分工的场景。如何弥合机器智能与真人玩家间存在的鸿沟，是人工智能社区正面对的一个重要挑战。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"研究人员正致力于创建各种强化学习智能体，达到能适应包括其它强化学习智能体和人类在内的各合作方的行为习惯。"}]},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/90\/dd\/90cf9f120eef3949895989a9d153e2dd.jpeg","alt":null,"title":"图1 强化学习智能体的多种训练方法","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"SP方法(self-play，左右互搏法)是游戏使用的经典强化学习训练方法。该方法让强化学习智能体与自身的一个副本持续对战，能非常高效地学习出实现游戏奖励最大化的策略。但该方法的问题在于，所生成的强化学习模型会过拟合智能体自身的游戏玩法，导致完全无法与使用其他方法训练的玩家合作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"另一种训练方法是PP方法 (popuation play，群体参与法)，它在强化学习智能体训练中引入了多种具有不同参数和结构的队友模型。尽管在与真人玩家合作的竞技游戏中，PP方法要明显地优于SP方法，但其依然缺乏应对“共同收益”（common-payoff）场景下的多样性（diversity）问题。“共同收益”指玩家必须协同解决问题，并根据环境变化去调整合作策略。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第三种方法称为BCP方法(behavioral cloning play，行为克隆法)，它使用人工生成的数据训练强化学习智能体。有别于在环境中随机选取起始点，BCP方法根据采集自真人玩家的游戏数据去调整模型参数，使智能体生成更接近于人类玩家游戏模式的行为。如果可以采集具有不同技能水平和游戏风格玩家的数据，那么智能体就能更灵活地适应队友的行为，更有可能与真人玩家很好地配合。然而BCP方法的挑战性在于如何获取真人数据，特别是考虑到要使强化学习模型达到最佳设置，通常所需的游戏量是人工所无法企及的。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"FCP方法"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind新提出的强化学习FCP方法，其关键理念是在无需依赖于人工生成数据的情况下，创建可与具有不同风格和技能水平玩家协作的智能体。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"FCP方法的训练分为两个阶段。首先，DeepMind研究人员创建了一组使用SP方法的强化学习智能体，分别在不同的初始条件下独立完成训练，使模型收敛于不同的参数设置，由此创建了一个多样化的强化学习智能体池。为实现智能体池中技能水平的多样化，研究人员保存了每个智能体在不同训练阶段的快照。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"正如论文所述，“最后一个检查点表示的是一个经完全训练的‘熟练’玩家，而较早的检查点则代表技能尚不纯熟的玩家。需说明的是，使用多个检查点实现各个玩家技能的多样性，这并不会导致的额外训练成本。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第二个阶段使用池中所有的智能体，训练出一个新的强化学习模型。新智能体必须达成策略上的调优，才能实现与具有不同参数值和技能水平的队友开展协同。论文提出，“FCP智能体完全可以达到跟随真人玩家带队，在给定范围的策略和技能中去学习出一个通用的策略。”"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"测试FCP"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind的人工智能研究人员将FCP方法应用于解谜游戏Overcooked。游戏玩家在网格化场景中移动，与物体互动，执行一系列步骤，最终完成烹饪和送餐任务。Overcooked的游戏逻辑简单，并需要队友间的协作和工作分配，因此非常适合测试。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"为测试FCP方法，DeepMind研究人员简化了完整的Overcooked游戏任务。他们精心挑选了一组具有多种挑战的地图，包括强制协作和受限空间等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/i1.wp.com\/bdtechtalks.com\/wp-content\/uploads\/2021\/11\/Overcooked-simplified-environment-1024x576.jpg","alt":null,"title":"图2 DeepMind使用简化版Overcooked测试FCP方法","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"研究人员分别训练了一组SP、PP、BCP和FCP智能体。为了比较各方法的性能，他们首先组了三个队，分别测试每种强化学习智能体类型，即基于人类游戏数据训练的BCP模型、在不同技能水平上训练的SP智能体，以及代表低水平玩家的随机初始化智能体。测试根据在相同数量剧集中所能提供的餐食数，衡量各方法的性能优劣。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"结果表明，FCP方法的表现要明显优于其他强化学习智能体训练方法，可以很好地泛化各种技能水平和游戏风格。出乎意料的是，测试进一步表明了其他训练方法是非常脆弱的。正如论文所述，“这意味着其他方法可能无法达到与技能水平一般的玩家组队。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/i0.wp.com\/bdtechtalks.com\/wp-content\/uploads\/2021\/11\/FCP-compared-to-other-RL-methods.jpg","alt":null,"title":"图3 对于强化学习智能体训练，FCP方法优于其他方法","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"论文进而测试了每种类型的强化学习智能体在与人类玩家合作中的表现。研究人员开展了有114名人类玩家参加的在线研究，其中每位玩家参与20轮游戏。在每一轮游戏中，玩家与其中一种强化学习智能体组队，但并不知道该智能体的具体类型，随机进入一个厨房场景。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"根据实验结果，“人类-FCP”组队的性能，要优于其他所有“人类-强化学习智能体”组队。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"每两轮游戏后，参与玩家根据与强化学习智能体组队的体验，给出一个1到5之间的评分。相对其他智能体，参与玩家对FCP队友表现出明显的偏好。反馈表明，FCP智能体的行为更加连贯、更好预测，适应性更强。例如，强化学习智能体似乎具备了感知队友行为的能力，在每个烹饪场景中选择了特定角色，避免相互产生混淆。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"与之相比，其他强化学习智能体的行为则被测试参与者描述为“混乱无章，难以合作”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/45\/85\/45f52a97f83f1c8b925ea50efba96485.jpeg","alt":null,"title":"图4 DeepMind使用各种强化学习智能体与人类玩家组队","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"下一步工作"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在论文中，研究人员也指出了该工作的一些局限性。例如，在FCP智能体的训练中，只使用了32个强化学习合作队友。尽管这完全可应对简化版的Overcooked游戏，但应用于更复杂的环境时可能会受限。DeepMind研究人员指出，“对于更复杂的游戏，为表示足够多样化的策略，FCP所需合作伙伴的总体规模可能难以企及。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/06\/07\/deepmind-artificial-intelligence-reward-maximization\/","title":null,"type":null},"content":[{"type":"text","text":"奖励定义"}]},{"type":"text","text":"是限制FCP应用于更复杂环境的另一个挑战。在简化版Overcooked中，奖励是简单而且明确的。但在其他环境中，强化学习智能体在获得主要奖励前，必须去完成一些子目标。而智能体实现子目标的方式，必须要与人类合作伙伴的方式保持一致。这在缺少人类数据的情况下，是很难去评估和调优的。研究人员提出，“如果任务的奖励函数与人类处理任务的方式非常不一致，那么和所有缺少人类数据的方法一样，该方法同样很可能会生成非最优的合作伙伴。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind的研究可归为人机协作领域研究。在"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/11\/01\/reinforcement-learning-hanabi\/","title":null,"type":null},"content":[{"type":"text","text":"麻省理工学院科学家的一项最新研究"}]},{"type":"text","text":"中，探索了强化学习智能体在与真人玩家玩纸牌游戏Hanabi中的局限性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind提出的强化学习新技术，在弥合人类和人工智能间鸿沟上取得了进步。研究人员希望其“能为未来研究人机协作造福社会这一重要挑战奠定坚实的基础。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"原文链接："},{"type":"text","text":" "},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/11\/22\/deepmind-reinforcement-learning-fictitious-coplay\/","title":null,"type":null},"content":[{"type":"text","text":"DeepMind RL method promises better co-op between AI and humans"}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

谷歌发布生态系统RLDS，可在强化学习中生成、共享和使用数据集

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-20 10:53:54

从前端到全栈 -- 最全面向对象总结

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

程序员海军

2021-12-21 10:54:01

跨语言的多模态、多任务检索模型MURAL解读

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-21 10:54:01

Facebook 如何做大规模服务的自主测试

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:54:01

MindSpore强化学习：使用PPO配合环境HalfCheetah-v2进行训练

本文分享自華爲雲社區《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński

2024-04-29 10:33:13

京东广告研发 —— 京东推荐广告排序机制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

文心大模型ERNIE-Tiny：轻量化技术的全面解读

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

RAG 修炼手册｜一文讲透 RAG 背后的技术

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

文心千帆：从PPT制作到数字人主播，ERNIE-Bot|BLOOMZ大模型调优与RLHF训练全攻略

隨着人工智能技術的不斷髮展，文心千帆作爲一款領先的人工智能模型，已經在多個領域展現出其強大的實力。無論是PPT製作，還是數字人主播，文心千帆都能夠爲用戶提供驚豔的應用體驗。而背後支撐這一切的，正是ERNIE-Bot|BLOOMZ大模型的強大

2024-03-29 00:01:17

人工智能大模型原理与应用实战：自动驾驶技术的飞跃

一、人工智能大模型的基本原理人工智能大模型，尤其是深度學習模型，通常由多層神經網絡組成。這些神經網絡通過海量的參數來建立輸入數據和輸出數據之間的複雜映射關係。在訓練過程中，模型通過反向傳播算法不斷調整參數，使得模型的預測結果與真實結果儘可

2024-03-15 00:33:20

阿里云PAI-灵骏大模型训练工具 Pai-Megatron-Patch 正式开源！

Pai-Megatron-Patch是什麼 Pai-Megatron-Patch工具是阿里雲機器學習平臺PAI算法團隊研發，基於阿里雲智算服務PAI-靈駿平臺的大模型最佳實踐解決方案配套工具，旨在幫助大模型開發者快速上手靈駿產品，完成大語

2023-10-07 12:29:41

快速成长的秘诀｜学会自我培养和培养他人

快速成長總共三篇，分別是《完成自我認知升級》、《自我成長好方法》和《自我培養和培養他人》。本篇是第三篇，篇幅較長。針對長文的閱讀方式，依舊建議在《完成自我認知升級》中提到的閱讀方式：“在一個不被打擾的時間做好隻字不差閱讀，用批判性思維思考和

2023-09-13 01:22:12

BeautifulPrompt：PAI 推出自研 Prompt 美化器，赋能 AIGC一键出美图

背景 Stable Diffusion（SD）是一種流行的AI生成內容（AI Generated Content，AIGC）模型，能在文字輸入的基礎上生成各種風格多樣的圖像。在目前的AIGC方向，SD是開源社區最熱門的模型。然而，SD能夠

2023-06-21 12:25:47

我在京东做研发 | 从好玩到好用，爆火ChatGPT前沿分享

| 嘉賓：吳友政，京東集團高級總監、京東科技語音語言算法部負責人。 2006年中科院自博士畢業後，先後在日本國立信息通信研究機構、英國愛丁堡大學、索尼中國研究院從事自然語言處理相關研究工作，主要聚焦自然語言處理、人機對話、語音識別、機器翻

2023-02-24 23:41:13

强化学习入坑总结

總結一下自己入坑強化學習的經驗。在入坑之前，自己對強化學習基本一無所知，所以對於強化學習的學習基本上是從零開始。下面總結一下自己學習強化學習所看的網課，教材，論文，代碼網課莫煩的強化學習教程。這個教程真的是通俗易懂，完全針對初

2021-12-25 21:10:24

24小時熱門文章

DAPPER 事务 TRANSACTION

最新文章

最新評論文章