EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

 

Abstract:

具身人工智能(Embodied AI)让机器人有规划、执行动作序列的能力,以在物理环境中完成长期任务。本文提出EmbodiedGPT,它是一个端到端的多模态基础模型,赋予具身代理多模态理解和执行能力。本文的贡献主要有三点:

  1. 制作了一个大规模的具身规划数据集EgoCOT。该数据集包含从Ego4D数据集中选的视频,以及相应的高质量语言instruction。他们用CoT生成了一系列子目标,用来进行有效的具身planning。
  2. 为EmbodiedGPT引入了一种高效的训练方法,用于高质量的plan生成,是在EgoCOT数据集上通过prefix tuning 7B的LLM完成的。
  3. 介绍了一种从LLM生成中提取任务相关特征的范式

 

Introduction:

PalmE,GPT-4等LLM有非常强的语言理解、推理、CoT能力,要想办法把这些能力结合第一人称的视频用在机器人的规划行动上。但是这些任务需要大规模的数据集,现有数据集没有大规模第一人称的真实数据。现在面临几个问题:
  1. 如何将LLM应用于机器人领域
  2. 如何利用“思想链”进行结构化规划
  3. 如何以端到端的方式将输出的语言计划用于下游操作任务
在这项工作中,首先构建了一个大规模的具身规划数据集EgoCOT,其特征是CoT planning instructions。它包含从Ego4D数据集中选择的第一人称视频和相应的高质量分步语言指令,这些指令是机器生成的,然后基于语义进行过滤,最后经过人工验证。此外创建了EgoVQA数据集作为Ego4D数据集的扩展,专注于第一人称的人机交互视频问答任务,旨在提供更广泛的第一人称多模态数据。
然后,在EgoCOT和EgoVQA数据集之上提出了一个端到端的多模态具身基础模型EmbodiedGPT,它可以以更自然和直观的方式与物理世界交互,并执行许多具身任务,如规划、VQA和控制。下图展示了在video caption、多轮QA、具身规划和低级别控制方面的能力。EmbodiedGPT给出的计划有高度可执行性,并结合了特定任务的功能,显著提高了具身控制任务的成功率。

 EmbodiedGPT由四个部分组成
  1. frozen vision model ,encode当前观测的视觉特征
  2. frozen language model,执行自然语言QA、caption和embodied planning任务
  3. embodied-former with a language mapping layer,将视觉和具身指令对齐,提取与任务相关的实例级特征与生成的低级控制规划(?
  4. policy network,负责基于任务相关的特征产生低级动作,使代理能够与环境有效地交互

为了增强EmbodiedGPT在生成包含子目标序列的可靠计划方面的性能,在frozen LLM上实现了prefix tuning,以鼓励生成更可执行的计划

 

Method

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章