Abstract:
具身人工智能(Embodied AI)让机器人有规划、执行动作序列的能力,以在物理环境中完成长期任务。本文提出EmbodiedGPT,它是一个端到端的多模态基础模型,赋予具身代理多模态理解和执行能力。本文的贡献主要有三点:
- 制作了一个大规模的具身规划数据集EgoCOT。该数据集包含从Ego4D数据集中选的视频,以及相应的高质量语言instruction。他们用CoT生成了一系列子目标,用来进行有效的具身planning。
- 为EmbodiedGPT引入了一种高效的训练方法,用于高质量的plan生成,是在EgoCOT数据集上通过prefix tuning 7B的LLM完成的。
- 介绍了一种从LLM生成中提取任务相关特征的范式
Introduction:
PalmE,GPT-4等LLM有非常强的语言理解、推理、CoT能力,要想办法把这些能力结合第一人称的视频用在机器人的规划行动上。但是这些任务需要大规模的数据集,现有数据集没有大规模第一人称的真实数据。现在面临几个问题:- 如何将LLM应用于机器人领域
- 如何利用“思想链”进行结构化规划
- 如何以端到端的方式将输出的语言计划用于下游操作任务
然后,在EgoCOT和EgoVQA数据集之上提出了一个端到端的多模态具身基础模型EmbodiedGPT,它可以以更自然和直观的方式与物理世界交互,并执行许多具身任务,如规划、VQA和控制。下图展示了在video caption、多轮QA、具身规划和低级别控制方面的能力。EmbodiedGPT给出的计划有高度可执行性,并结合了特定任务的功能,显著提高了具身控制任务的成功率。
EmbodiedGPT由四个部分组成
- frozen vision model ,encode当前观测的视觉特征
- frozen language model,执行自然语言QA、caption和embodied planning任务
- embodied-former with a language mapping layer,将视觉和具身指令对齐,提取与任务相关的实例级特征与生成的低级控制规划(?
- policy network,负责基于任务相关的特征产生低级动作,使代理能够与环境有效地交互
为了增强EmbodiedGPT在生成包含子目标序列的可靠计划方面的性能,在frozen LLM上实现了prefix tuning,以鼓励生成更可执行的计划
Method