DeepMind的新强化学习系统是迈向通用AI的下一步吗？

原創

2021-09-26 11:13

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文是TechTalks在人工智能领域最新研究发现的"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/tag\/ai-research-papers\/","title":"xxx","type":null},"content":[{"type":"text","text":"论文评论系列"}]},{"type":"text","text":"。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"对于精通围棋、星际争霸2以及其他游戏的深度强化学习模型而言，关键的挑战之一"},{"type":"text","text":"是它们无法将其能力泛化到训练领域之外。这种限制使得将这些系统应用到现实世界中变得非常困难，在现实世界中，情况比训练 AI 模型的环境复杂得多且不可预测。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"最近，DeepMind AI研究实验室中的科学家们在一篇“开放式学习”倡议的博文中，宣布他们“初步训练出了可以在无需接受人类交互数据的情况下，游玩多种游戏的代理”。他们新的项目包括一个有现实动态变化的3D环境，以及可以学习解决各种挑战的深度强化学习代理。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"据DeepMind的AI研究者称，这套全新的系统是向着“创造更加通用、具备适应持续变化环境的弹性能力的代理”迈出的重要一步。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"该论文的发现表明，在将强化学习应用于复杂问题方面取得了一些令人印象深刻的进展。但它们也提醒人们，当前的系统距离实现人工智能社区几十年来一直梦寐以求的通用智能能力还有多远。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"深度强化学习的脆弱性"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/2c\/0c\/2c412fa3778388ebb5b9d30d9e76010c.png","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2019\/05\/28\/what-is-reinforcement-learning\/","title":null,"type":null},"content":[{"type":"text","text":"强化学习"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"的一个关键优势在于其可以在执行动作并接受反馈的同时发展出新的行为方式，这种做法与人类和动物通过与环境互动学习知识的方式相类似。有些科学家将强化学习称为是“"},{"type":"link","attrs":{"href":"https:\/\/venturebeat.com\/2021\/01\/02\/leading-computer-scientists-debate-the-next-steps-for-ai-in-2021\/","title":null,"type":null},"content":[{"type":"text","text":"首个智能的计算理论"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"深度强化学习结合了强化学习与"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/01\/28\/deep-learning-explainer\/","title":null,"type":null},"content":[{"type":"text","text":"深度神经网络"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"，是包括DeepMind最著名的AlphaGo和"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2019\/11\/04\/deepmind-ai-starcraft-2-reinforcement-learning\/","title":null,"type":null},"content":[{"type":"text","text":"AlphaStar模型"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在内许多强化AI的核心。在这两种模型中，AI系统都可以在各自的游戏领域内打败人类世界的冠军。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"但强化学习系统的灵活度不足也是众所皆知的缺陷。举例来说，一个可以在专家模式打通星际争霸2的强化学习模型却打不过同类型游戏（比如魔兽争霸3）的任何难度。游戏中哪怕是一点点的变化都会造成AI模型在性能上的降级。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"“这些代理通常都被限制在它们训练时所用的游戏上，虽然游戏的布局、初始条件、对手可能会变化，但代理的目标在训练与测试时必须保持不变，一丁点的偏离都会造成代理灾难性的失败。”DeepMind的研究者在"},{"type":"link","attrs":{"href":"https:\/\/deepmind.com\/research\/publications\/open-ended-learning-leads-to-generally-capable-agents","title":null,"type":null},"content":[{"type":"text","text":"论文"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"中如此写道，同一篇论文也提供了他们开放式学习的研究中全部的细节。另一方面，人类则非常擅长跨领域的知识转移。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"XLand环境"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/f9\/fa\/f9ce40d3b3577d1364ae233104380afa.png","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"DeepMind新项目的目标是创建“一个人工代理，其行为可以超越它所训练的游戏集，提供更强的泛化能力”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"为此，该团队创建了XLand，一个能够生成由静态拓扑结构和可移动物体组成的3D环境的引擎。该游戏引擎模拟了刚体物理学，并允许玩家以各种方式使用这种物体（例如，创建坡道、阻断路径等等）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"XLand是一个丰富的环境，你可以在其中对代理进行几乎无限数量的任务训练。XLand的主要优势之一是能够使用编程规则自动生成大量环境和挑战情况来训练AI代理。这也解决了机器学习系统的一大难题——如何获得大量人造的训练数据。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"根据这篇博文，研究人员在XLand中创建了“数十亿的任务，跨越不同的游戏、世界和玩家”。这些游戏包括了寻找物体这类的简单目标，到AI代理需要权衡不同奖励的收益与代价这类复杂设定。有的游戏也包括了多个代理之间的对抗或合作元素。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"深度强化学习"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"DeepMind使用深度强化学习以及其他的几个小技巧来创建可以在XLand环境中茁壮成长的AI代理。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"每个代理的强化学习模型都会收到一个第一人称的世界视角、代理的物理状态（比如是否持有物品），以及其当前的目标。每一个代理都会对其策略神经网络的参数进行微调，以获得当前目标的最高奖励。神经网络的架构包含了一个注意力机制，以确保代理人能够平衡地完成主要目标所需要完成的子目标的优化工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"一旦代理能够熟练应对它的当前挑战，计算任务生成器就会为代理创建一个新的挑战。每个新任务都是根据代理人的训练历史生成的，有助于将代理的技能分配到更广阔的挑战之中。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"DeepMind同时还利用它庞大的计算资源（多亏其所有者Alphabet公司）同步训练大量代理，并在不同代理之间转移所学习的参数以提升强化学习系统的通用能力。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/60\/59\/60bc7cb24ed33c64088d9306d596ae59.png","alt":null,"title":"DeepMind 使用多步骤及基于群体的机制来训练许多强化学习代理","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"强化学习代理的性能是通过它们完成一系列未训练过的任务的一般能力来评估的，测试用的任务内容包括了常见的“夺旗”和“捉迷藏”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"DeepMind称，他们的所有代理在XLand中约四千的独特世界中训练了约70万个独特的游戏，并在340万个独特的任务中经历了2000亿个训练步骤（在论文中研究人员写道，1亿个步骤相当于大约30分钟的训练）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"人工智能研究人员写道：“目前，我们的代理已经能够参与每一个程序生成的评估任务，除了少数几个甚至对人类来说都不可能的任务”。“而且我们看到的结果清楚地展示了跨越整个任务空间的一般化、零次行为。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2020\/08\/12\/what-is-one-shot-learning\/","title":null,"type":null},"content":[{"type":"text","text":"零次机器学习"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"模型可以解决在其训练数据集中不存在的问题。在XLand这样的复杂空间中，零次学习可能意味着代理已经获得了关于其环境的基本知识，而不是在特定的任务和环境中记忆图像帧的序列。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"当研究人员试图为新的任务调整它们时，强化学习代理进一步表现出泛化学习的迹象。根据他们的发现，对"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2019\/06\/10\/what-is-transfer-learning\/","title":null,"type":null},"content":[{"type":"text","text":"新任务进行30分钟的微调"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"就足以使用新方法训练的强化学习代理产生令人印象深刻的改进。相比之下，在同样的时间内从头开始训练的代理在大多数任务上的表现几乎为零。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"高级别行为"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"据DeepMind称，强化学习代理表现出了“启发式行为”，如工具使用、团队合作和多步骤规划。如果得到证实，这可能是一个重要的里程碑。深度学习系统经常被批评为学习统计上的相关关系"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/03\/15\/machine-learning-causality\/","title":null,"type":null},"content":[{"type":"text","text":"而不是因果关系"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"。如果神经网络能够发展出高层次的概念，如利用物体创建坡道或造成闭塞，它可能会对机器人和自动驾驶汽车等领域产生巨大影响，而深度学习目前正在这些领域中挣扎前行。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"但这些都是假设，DeepMind的研究人员对在他们的发现上妄下结论持谨慎态度。\"他们在博文中写道：“鉴于环境的性质，很难确定意向性是否真的存在--我们看到的行为往往看起来是偶然的，但我们仍然看到它们在持续发生。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"但他们相信，他们的强化学习代理“意识到了它们身体的基本情况和时间的流逝，而且它们可以了解它们遇到的游戏的高级结构”。这种"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/07\/26\/ai-visual-reasoning-agent-dataset\/","title":null,"type":null},"content":[{"type":"text","text":"基本的自学技能"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"是人工智能界高度追求的另一个目标。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"智力理论"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/c7\/35\/c7bdc2c3a15e23b50647bb644f6e1b35.png","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"DeepMind的一些顶级科学家最近"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/06\/07\/deepmind-artificial-intelligence-reward-maximization\/","title":null,"type":null},"content":[{"type":"text","text":"发表了一篇论文"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"，他们在其中假设，仅靠单一的奖励鞭策强化学习便足以最终达到"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2020\/05\/13\/what-is-artificial-general-intelligence-agi\/","title":null,"type":null},"content":[{"type":"text","text":"人工通用智能"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"（AGI）的程度。科学家们认为，一个拥有正确奖励的智能代理可以发展各种能力，如感知和自然语言理解。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"尽管DeepMind的这个新方法仍然需要在多个人工设置的奖励上训练强化学习代理，但这与他们通过强化学习实现AGI的总体观点是一致的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"“DeepMind通过这篇论文所展示的是，一个单一的RL代理开发出的智能是可以达到多个目标的”，Pathmind的首席执行官克里斯·尼科尔森（Chris Nicholson）告诉TechTalks。“而且它在完成一件事时学到的技能可以推广到其他目标。这与人类智力的应用方式非常相似。例如，我们学习抓取和操纵物体，并扩展到敲打锤子甚至是铺床。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"尼科尔森还认为，该论文的其他方面的发现暗示了向一般智力的进展。“父母会认识到，开放式的探索正是他们的幼儿学习在世界中移动的方式。他们把东西从柜子里拿出来，再放回去。他们发明了自己的小目标并进一步熟练掌握，虽然这些目标在成年人看来可能毫无意义，”他说。“DeepMind正在以编程方式为其代理在这个世界上设定目标，而这些代理正在学习如何逐一掌握这些目标。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"尼科尔森说，强化学习代理也显示出在他们自己的虚拟世界中发展"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/04\/26\/reinforcement-learning-embodied-ai\/","title":null,"type":null},"content":[{"type":"text","text":"具身智能"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"的迹象，就像人类拥有的那种。他说：“这再一次表明，人们学习移动和操纵的丰富和可塑性的环境有利于一般智能的出现，而且智能的生物和物理类比可以指导人工智能的进一步工作。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"南加州大学计算机科学副教授萨蒂亚纳拉亚·拉加瓦查里（Sathyanaraya Raghavachary）对DeepMind论文中的说法持怀疑态度，尤其是关于本体感知、时间意识以及对目标和环境的高层次理解的结论。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"“即使是人类也无法做到对自己本体状况的完全掌控，更不要说那些VR的代理了，”拉加瓦查里在为TechTalks做的评论中提到过，一个综合的大脑对身体的感知由两部分组成，一是适量的对本体的感知，二是对空间中定位的认识。“对时间的意识也是如此。大脑需要对过去有记忆，同时对现在与过去时间之间的相对有认识。论文作者的意思可能是说，代理在追踪他们在移动紫色金字塔这类的行为所造成的环境渐变时，底层的物理模拟器也将产生状态的变化。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"拉加瓦查里还指出，如果代理能够理解其任务的高层结构，那么为达到最佳结果所需的这2000亿步的模拟训练也就用不着了。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"“就像是他们在结论中说的一样，（强化学习的）底层架构还缺乏实现这三件（本体感知、时间意识、理解高层次任务的结构）所需的东西”，他说，“总之，XLand也只是'差不多相同'而已”。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"模拟与现实世界之间的差距"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"简而言之，这篇论文论证了一个观点，如果我们可以创建一个足够复杂的环境，设计出正确的强化学习架构，在计算资源上不吝啬开销，让模型能够积累出足够的经验，那么我们就可以在同一环境中泛化不同类型的任务。这也是人类与动物在自然进化中"},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/06\/17\/evolution-rewards-artificial-intelligence\/","title":null,"type":null},"content":[{"type":"text","text":"开发出智能"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"的过程。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"事实上，DeepMind已经开发出了类似的项目："},{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2019\/01\/02\/humanizing-ai-deep-learning-alphazero\/","title":null,"type":null},"content":[{"type":"text","text":"AlphaZero"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"，一个精通双人回合制游戏的强化学习模型。通过添加零次学习元素，XLand的实验将这一概念扩展到了更高的层面。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"通过XLand训练过的代理最终都会将他们获得的经验应用于现实生活中，类似机器人或自动驾驶等应用，但作者并不认为这将会是一个领域的突破。我们仍然需要做出妥协，手动设置限制以减少现实环境的复杂性；或者增加人工强化，比如为机器学习模型灌输先验知识或添加额外的传感器。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"DeepMind的强化学习代理或许已经可以在XLand的虚拟世界中称王称霸，但这些模拟的情景也仅仅只是复杂的现实世界的冰山一角而已。这种模拟与现实之间的差距将在很长一段时间内给AI代理带来挑战。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"原文链接："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/bdtechtalks.com\/2021\/08\/02\/deepmind-xland-deep-reinforcement-learning\/","title":null,"type":null},"content":[{"type":"text","text":"https:\/\/bdtechtalks.com\/2021\/08\/02\/deepmind-xland-deep-reinforcement-learning\/"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

LoRA微调语言大模型的实用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

京东广告研发——效率为王：广告统一检索平台实践

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

大模型区域落地再加速！百度“文心中国行”西部首站落地成都锦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

文心中国行走进成都！4 月 24 日一起把握大模型时代的产业新机遇

4 月 24 日，文心中國行將走進成都。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，從人工智能政策解讀、大模型技術，到產業創新應用的實踐案例，讓參會者全方位瞭解大模型時期的發展與創新機遇。大會還特別

2024-04-23 11:41:07

文心大模型“你说我画”：PaddleHub与PaddleSpeech的协同实践

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

探索时间序列大模型：TimeGPT的魅力与实践

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

京东广告研发——AIGC在京东广告创意的技术应用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應用還存在缺乏

2024-04-22 11:16:30

Create 2024 分论坛：百度大模型安全解决方案护航开发者一起创造未来

4月16日，百度Create AI開發者大會在深圳國際會展中心（寶安）舉行，大會以“創造未來”爲主題，匯聚了當前科技和產業革命中的開發者先鋒力量。自去年3月16日發佈知識增強大語言模型文心一言以來，百度不斷推動文心大模型的升級迭代，每一次版

2024-04-19 21:33:25

AI大模型应用架构（ALLMA）白皮书解读

隨着人工智能技術的不斷髮展，AI大模型成爲推動生產、生活方式變革，助推產業智能化轉型升級，驅動數字經濟高質量發展等社會經濟發展方面的新引擎。爲了全面展示AI大模型的發展全貌，爲各界提供新思路，本文將對AI大模型應用架構（ALLMA）白皮書進

2024-04-19 11:29:39

2024年DataOps趋势预测：AI不会取代数据工程师

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

数字化转型新篇章：企业通往智能化的新范式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

AI从入门到入门之手写数字识别模型java方式Dense全连接神经网络实现

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型时代的智能索引与搜索解决方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

软件测试从自动化到智能化，大模型开始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

24小時熱門文章

DAPPER 事务 TRANSACTION

最新文章

最新評論文章