Abstract:
具身人工智能(Embodied AI)讓機器人有規劃、執行動作序列的能力,以在物理環境中完成長期任務。本文提出EmbodiedGPT,它是一個端到端的多模態基礎模型,賦予具身代理多模態理解和執行能力。本文的貢獻主要有三點:
- 製作了一個大規模的具身規劃數據集EgoCOT。該數據集包含從Ego4D數據集中選的視頻,以及相應的高質量語言instruction。他們用CoT生成了一系列子目標,用來進行有效的具身planning。
- 爲EmbodiedGPT引入了一種高效的訓練方法,用於高質量的plan生成,是在EgoCOT數據集上通過prefix tuning 7B的LLM完成的。
- 介紹了一種從LLM生成中提取任務相關特徵的範式
Introduction:
PalmE,GPT-4等LLM有非常強的語言理解、推理、CoT能力,要想辦法把這些能力結合第一人稱的視頻用在機器人的規劃行動上。但是這些任務需要大規模的數據集,現有數據集沒有大規模第一人稱的真實數據。現在面臨幾個問題:- 如何將LLM應用於機器人領域
- 如何利用“思想鏈”進行結構化規劃
- 如何以端到端的方式將輸出的語言計劃用於下游操作任務
然後,在EgoCOT和EgoVQA數據集之上提出了一個端到端的多模態具身基礎模型EmbodiedGPT,它可以以更自然和直觀的方式與物理世界交互,並執行許多具身任務,如規劃、VQA和控制。下圖展示了在video caption、多輪QA、具身規劃和低級別控制方面的能力。EmbodiedGPT給出的計劃有高度可執行性,並結合了特定任務的功能,顯著提高了具身控制任務的成功率。
EmbodiedGPT由四個部分組成
- frozen vision model ,encode當前觀測的視覺特徵
- frozen language model,執行自然語言QA、caption和embodied planning任務
- embodied-former with a language mapping layer,將視覺和具身指令對齊,提取與任務相關的實例級特徵與生成的低級控制規劃(?
- policy network,負責基於任務相關的特徵產生低級動作,使代理能夠與環境有效地交互
爲了增強EmbodiedGPT在生成包含子目標序列的可靠計劃方面的性能,在frozen LLM上實現了prefix tuning,以鼓勵生成更可執行的計劃
Method