EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

原創

SiriusRen

2023-05-29 14:29

Abstract:

具身人工智能(Embodied AI)让机器人有规划、执行动作序列的能力，以在物理环境中完成长期任务。本文提出EmbodiedGPT，它是一个端到端的多模态基础模型，赋予具身代理多模态理解和执行能力。本文的贡献主要有三点：

制作了一个大规模的具身规划数据集EgoCOT。该数据集包含从Ego4D数据集中选的视频，以及相应的高质量语言instruction。他们用CoT生成了一系列子目标，用来进行有效的具身planning。
为EmbodiedGPT引入了一种高效的训练方法，用于高质量的plan生成，是在EgoCOT数据集上通过prefix tuning 7B的LLM完成的。
介绍了一种从LLM生成中提取任务相关特征的范式

Introduction:

PalmE,GPT-4等LLM有非常强的语言理解、推理、CoT能力，要想办法把这些能力结合第一人称的视频用在机器人的规划行动上。但是这些任务需要大规模的数据集，现有数据集没有大规模第一人称的真实数据。现在面临几个问题：

如何将LLM应用于机器人领域
如何利用“思想链”进行结构化规划
如何以端到端的方式将输出的语言计划用于下游操作任务

在这项工作中，首先构建了一个大规模的具身规划数据集EgoCOT，其特征是CoT planning instructions。它包含从Ego4D数据集中选择的第一人称视频和相应的高质量分步语言指令，这些指令是机器生成的，然后基于语义进行过滤，最后经过人工验证。此外创建了EgoVQA数据集作为Ego4D数据集的扩展，专注于第一人称的人机交互视频问答任务，旨在提供更广泛的第一人称多模态数据。
然后，在EgoCOT和EgoVQA数据集之上提出了一个端到端的多模态具身基础模型EmbodiedGPT，它可以以更自然和直观的方式与物理世界交互，并执行许多具身任务，如规划、VQA和控制。下图展示了在video caption、多轮QA、具身规划和低级别控制方面的能力。EmbodiedGPT给出的计划有高度可执行性，并结合了特定任务的功能，显著提高了具身控制任务的成功率。

EmbodiedGPT由四个部分组成

frozen vision model ，encode当前观测的视觉特征
frozen language model，执行自然语言QA、caption和embodied planning任务
embodied-former with a language mapping layer，将视觉和具身指令对齐，提取与任务相关的实例级特征与生成的低级控制规划（？
policy network，负责基于任务相关的特征产生低级动作，使代理能够与环境有效地交互

为了增强EmbodiedGPT在生成包含子目标序列的可靠计划方面的性能，在frozen LLM上实现了prefix tuning，以鼓励生成更可执行的计划

Method

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

蚂蚁面试：Springcloud核心组件的底层原理，你知道多少？

认知提升的方法

C#开源的两款功能强大的录屏神器

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

可視化和理解NLP中的神經模型

Towards Explainable NLP: A Generative Explanation Framework for Text Classification

基於遞歸和注意力機制的神經模型解釋

fisher線性分類器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結