EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

原創

SiriusRen

2023-05-29 14:29

Abstract:

具身人工智能(Embodied AI)讓機器人有規劃、執行動作序列的能力，以在物理環境中完成長期任務。本文提出EmbodiedGPT，它是一個端到端的多模態基礎模型，賦予具身代理多模態理解和執行能力。本文的貢獻主要有三點：

製作了一個大規模的具身規劃數據集EgoCOT。該數據集包含從Ego4D數據集中選的視頻，以及相應的高質量語言instruction。他們用CoT生成了一系列子目標，用來進行有效的具身planning。
爲EmbodiedGPT引入了一種高效的訓練方法，用於高質量的plan生成，是在EgoCOT數據集上通過prefix tuning 7B的LLM完成的。
介紹了一種從LLM生成中提取任務相關特徵的範式

Introduction:

PalmE,GPT-4等LLM有非常強的語言理解、推理、CoT能力，要想辦法把這些能力結合第一人稱的視頻用在機器人的規劃行動上。但是這些任務需要大規模的數據集，現有數據集沒有大規模第一人稱的真實數據。現在面臨幾個問題：

如何將LLM應用於機器人領域
如何利用“思想鏈”進行結構化規劃
如何以端到端的方式將輸出的語言計劃用於下游操作任務

在這項工作中，首先構建了一個大規模的具身規劃數據集EgoCOT，其特徵是CoT planning instructions。它包含從Ego4D數據集中選擇的第一人稱視頻和相應的高質量分步語言指令，這些指令是機器生成的，然後基於語義進行過濾，最後經過人工驗證。此外創建了EgoVQA數據集作爲Ego4D數據集的擴展，專注於第一人稱的人機交互視頻問答任務，旨在提供更廣泛的第一人稱多模態數據。
然後，在EgoCOT和EgoVQA數據集之上提出了一個端到端的多模態具身基礎模型EmbodiedGPT，它可以以更自然和直觀的方式與物理世界交互，並執行許多具身任務，如規劃、VQA和控制。下圖展示了在video caption、多輪QA、具身規劃和低級別控制方面的能力。EmbodiedGPT給出的計劃有高度可執行性，並結合了特定任務的功能，顯著提高了具身控制任務的成功率。

EmbodiedGPT由四個部分組成

frozen vision model ，encode當前觀測的視覺特徵
frozen language model，執行自然語言QA、caption和embodied planning任務
embodied-former with a language mapping layer，將視覺和具身指令對齊，提取與任務相關的實例級特徵與生成的低級控制規劃（？
policy network，負責基於任務相關的特徵產生低級動作，使代理能夠與環境有效地交互

爲了增強EmbodiedGPT在生成包含子目標序列的可靠計劃方面的性能，在frozen LLM上實現了prefix tuning，以鼓勵生成更可執行的計劃

Method

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

致遠OA及相關OA系統集成與二次開發

System.Object未被引用的程序集中定義

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

【面試準備】項目經驗——接口自動化項目

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

可視化和理解NLP中的神經模型

Towards Explainable NLP: A Generative Explanation Framework for Text Classification

基於遞歸和注意力機制的神經模型解釋

fisher線性分類器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結