EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

 

Abstract:

具身人工智能(Embodied AI)讓機器人有規劃、執行動作序列的能力,以在物理環境中完成長期任務。本文提出EmbodiedGPT,它是一個端到端的多模態基礎模型,賦予具身代理多模態理解和執行能力。本文的貢獻主要有三點:

  1. 製作了一個大規模的具身規劃數據集EgoCOT。該數據集包含從Ego4D數據集中選的視頻,以及相應的高質量語言instruction。他們用CoT生成了一系列子目標,用來進行有效的具身planning。
  2. 爲EmbodiedGPT引入了一種高效的訓練方法,用於高質量的plan生成,是在EgoCOT數據集上通過prefix tuning 7B的LLM完成的。
  3. 介紹了一種從LLM生成中提取任務相關特徵的範式

 

Introduction:

PalmE,GPT-4等LLM有非常強的語言理解、推理、CoT能力,要想辦法把這些能力結合第一人稱的視頻用在機器人的規劃行動上。但是這些任務需要大規模的數據集,現有數據集沒有大規模第一人稱的真實數據。現在面臨幾個問題:
  1. 如何將LLM應用於機器人領域
  2. 如何利用“思想鏈”進行結構化規劃
  3. 如何以端到端的方式將輸出的語言計劃用於下游操作任務
在這項工作中,首先構建了一個大規模的具身規劃數據集EgoCOT,其特徵是CoT planning instructions。它包含從Ego4D數據集中選擇的第一人稱視頻和相應的高質量分步語言指令,這些指令是機器生成的,然後基於語義進行過濾,最後經過人工驗證。此外創建了EgoVQA數據集作爲Ego4D數據集的擴展,專注於第一人稱的人機交互視頻問答任務,旨在提供更廣泛的第一人稱多模態數據。
然後,在EgoCOT和EgoVQA數據集之上提出了一個端到端的多模態具身基礎模型EmbodiedGPT,它可以以更自然和直觀的方式與物理世界交互,並執行許多具身任務,如規劃、VQA和控制。下圖展示了在video caption、多輪QA、具身規劃和低級別控制方面的能力。EmbodiedGPT給出的計劃有高度可執行性,並結合了特定任務的功能,顯著提高了具身控制任務的成功率。

 EmbodiedGPT由四個部分組成
  1. frozen vision model ,encode當前觀測的視覺特徵
  2. frozen language model,執行自然語言QA、caption和embodied planning任務
  3. embodied-former with a language mapping layer,將視覺和具身指令對齊,提取與任務相關的實例級特徵與生成的低級控制規劃(?
  4. policy network,負責基於任務相關的特徵產生低級動作,使代理能夠與環境有效地交互

爲了增強EmbodiedGPT在生成包含子目標序列的可靠計劃方面的性能,在frozen LLM上實現了prefix tuning,以鼓勵生成更可執行的計劃

 

Method

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章