具身智能即將爲通用機器人補全最後一塊拼圖

1. 什麼是具身智能?

具身智能通過在物理世界和數字世界的學習和進化,達到理解世界、互動交互並完成任務的目標。

具身智能是由“本體”和“智能體”耦合而成且能夠在複雜環境中執行任務的智能系統。一般認爲,具身智能具有如下的幾個核心要素:

 

第一是本體,作爲實際的執行者,是在物理或者虛擬世界進行感知和任務執行的機構。

 

本體通常是具有物理實體的機器人,可以有多種形態。本體的能力邊界會限制智能體的能力發揮,所以,具有廣泛適應性的機器人本體是非常必要的。

 

隨着機器人技術的進步,本體越來越呈現多樣化和靈活性。比如,四足機器人可以具有良好的運動能力和通過性,複合機器人則把運動和操作機構整合,具有較好的任務能力;而人形機器人作爲適應性更加廣泛,通用能力更強的本體形態,得到了長足的進步,已經到了可以商業化的前夕。

 

本體具備環境感知能力、運動能力和操作執行能力,是連接數字世界和物理世界的載體。

 

具身智能的第二個要素是智能體(Embodied Agents),是具身於本體之上的智能核心,負責感知、理解、決策、控制等的核心工作。

 

智能體可以感知複雜環境,理解環境所包含的語義信息,能夠和環境進行交互;可以理解具體任務,並且根據環境的變化和目標狀態做出決策,進而控制本體完成任務。

 

隨着深度學習的發展,現代智能體通常由深度網絡模型驅動,尤其是隨着大語言模型(LLM)的發展,結合視覺等多種傳感器的複雜多模態模型,已經開始成爲新一代智能體的趨勢。

 

同時,智能體也分化爲多種任務形態,處理不同層次和模態的任務。智能體要能夠從複雜的數據中學習決策和控制的範式,並且能夠持續的自我演進,進而適應更復雜的任務和環境。

 

智能體設計是具身智能的核心。具有通用能力的LLM和VLM等模型,賦予了通用本體強大的泛化能力,使得機器人從程序執行導向轉向任務目標導向,向通用機器人邁出了堅實的步伐。

 

具身智能的第三個要素是數據。“數據是泛化的關鍵,但涉及機器人的數據稀缺且昂貴。”

 

爲了適應複雜環境和任務的泛化性,智能體規模變的越來越大,而大規模的模型對於海量數據更爲渴求。現在的LLM通常需要web-scale級別的數據來驅動基礎的預訓練過程,而針對具身智能的場景則更爲複雜多樣,這造成了多變的環境和任務,以及圍繞着複雜任務鏈的規劃決策控制數據。尤其是針對行業場景的高質量數據,將是未來具身智能成功應用落地的關鍵支撐。

 

具身智能的第四個要素是學習和進化架構。智能體通過和物理世界(虛擬的或真實的)的交互,來適應新環境、學習新知識並強化出新的解決問題方法。

 

採用虛擬仿真環境進行部分學習是合理的設計,比如英偉達的元宇宙開發平臺Omniverse,就是構建了物理仿真的虛擬世界,來加速智能體的演進。

但真實環境的複雜度通常超過仿真環境,如何耦合仿真和真實世界,進行高效率的遷移(Sim2Real),也是架構設計的關鍵。

 

2. 具身智能的科研和技術進展

a66ff5c780546d07b03d9a6b5e1df990.png

 

在基於Transformer的大語言模型浪潮帶領下,微軟、谷歌、英偉達等大廠,以及斯坦福、卡耐基梅隆等高等學府均開展了具身智能的相關研究。

 

微軟基於ChatGPT的強大自然語言理解和推理能力,生成控制機器人的相關代碼;

 

英偉達VIMA基於T5模型,將文本和多模態輸入交錯融合,結合歷史信息預測機器人的下一步行動動作;

 

斯坦福大學利用LLM的理解、推理和代碼能力,與VLM交互並生成3D value map,來規劃機械臂的運行軌跡;

 

谷歌具身智能路線較多,包括從PaLM衍生來的PaLM-E,從Gato迭代來的RoboCat,以及最新基於RT-1和PaLM-E升級得到的RT-2。

 

谷歌在具身智能的研究上更具有廣泛性和延續性。與其他大廠相比,谷歌依託旗下兩大AI科研機構,Google Brain和DeepMind(2023年4月兩大機構合併爲Google DeepMind),在具身智能上研究了更多的技術路線,且各路線之間有很好的技術延續性。

 

其中基於RT-1研究成果,谷歌融合了VLM(PaLM-E是其中一種)和RT-1中收集的大量機器人真實動作數據,提出了視覺語言動作(VLA)模型 RT-2,在直接預測機器人動作的同時,受益於互聯網級別的訓練數據,實現了更好的泛化性和湧現性。

 

從RT-2的實驗結果看,一方面,面對訓練數據中沒見過的物體、背景、環境,RT-2系列模型能夠仍能實現較高的成功率,遠超基線對比模型,證明了模型有較強的泛化能力。

 

另一方面,對於符號理解、推理和人類識別三類不存在於機器人訓練數據中的湧現任務,RT-2系列模型也能以較高正確率完成,表明語義知識從視覺語言數據中轉移到RT-2 中,證明了模型的湧現性能。同時,思維鏈(CoT)推理能夠讓RT-2完成更復雜的任務。

 

任何的訓練都需要數據的支撐。目前來看,機器人數據來源通常是真實數據和合成數據。

 

真實數據效果更好,但需要耗費大量的人力和物力,不是一般的企業或機構能夠負擔的。谷歌憑藉自己的資金和科研實力,耗費17個月時間收集了13臺機器人的13萬條機器人真實數據,爲RT-1和RT-2的良好性能打下根基。

 

谷歌的另一項研究RoboCat,在面對新的任務和場景時,會先收集100-1000個真實的人類專家示例,再合成更多數據,用於後續訓練,是經濟性和性能的權衡。

 

除了數據來源問題,還有一個就是具身智能體的預測如何映射到機器人的動作,這主要取決於預測結果的層級。

 

以谷歌PaLM-E和微軟ChatGPT for Robotics爲例,預測結果處於高級別設計層級:PaLM-E實現了對具身任務的決策方案預測,但不涉及機器人動作的實際控制,需要依賴低級別的現成策略或規劃器來將決策方案“翻譯”爲機器人動作。

 

微軟默認提供控制機器人的低層級 API,ChatGPT 輸出是更高層級的代碼,只需調用到機器人低層級的庫或API,從而實現對機器人動作的映射和控制。

 

還有一種情況就是預測結果已經到了低級別動作層級。例如,RT-2輸出的一系列字符串,是可以直接對應到機器人的座標、旋轉角等信息;VoxPoser規劃的結果直接就是機器人運行軌跡;VIMA也可以藉助現有方法將預測的動作token映射到離散的機器人手臂姿勢,即不需要再經過複雜的翻譯將高層級設計映射到低層級動作。

 

3. 具身智能的難點剖析

具身智能作爲邁向通用人工智能(AGI)的重要一步,是學術界和產業界的熱點,隨着大模型的泛化能力進一步提升,各種具身方法和智能體不斷湧現,但是要實現好的具身智能,會面臨算法、工程技術、數據、場景和複雜軟硬件等的諸多挑戰。

 

首先,要有強大的通用本體平臺。如何解決硬件的關鍵零部件技術突破,形成具有優秀運動能力和操作能力的平臺級通用機器人產品,將具身本體的可靠性、成本和通用能力做到平衡,是一個巨大的挑戰。

 

從基礎的電機、減速器、控制器到靈巧手等各部分,都需要持續進行技術突破,才能夠滿足大規模商用的落地需求。

 

同時,考慮到通用能力,人形機器人被認爲是具身智能的終極形態。這方面的研發,也將持續成爲熱點和核心挑戰。

 

其次,需要設計強大的智能體系統。

 

作爲具身智能的核心,具備複雜環境感知認知能力的智能體,將需要解決諸多挑戰,包括:物理3D環境精確感知、任務編排與執行、強大的通識能力、多級語義推理能力、人機口語多輪交互能力、long-term記憶能力、個性化情感關懷能力、強大的任務泛化與自學遷移能力等。

 

同時,具身智能要求實時感知和決策能力,以適應複雜和變化的環境。這要求高速的數據採集、傳輸和處理,以及實時的決策反應,尤其是LLM所消耗的算力規模巨大,對於資源有限的機器人處理系統將形成巨大的數據量、AI計算能力和低延遲的挑戰。

 

再者,高質量的行業數據將成爲巨大挑戰。

 

現實場景的複雜多變,使得現階段缺乏足夠的場景數據來訓練一個完全通用的大模型,進而讓智能體自我進化。

 

而且,耦合的本體,需要實際部署到真實環境中,才能夠採集數據,這也是和非具身智能的明顯不同。

 

比如,在工廠作業中,由於機器人本體並未參與到實際業務,則很多實際運行數據就無法採集,而大量的人類操作數據雖然可以彌補部分不足,但仍然需要實際業務的數據。

 

當然,通過大模型的湧現能力和思維鏈能力,部分任務可以零樣本學習到,但對於關鍵業務,要求成功率,則仍然需要高質量的垂域數據。同時,通過層次化的智能體設計,將不同任務限定到特定領域,則是一個解決泛化和成功率的有效嘗試。

 

最後,通過虛擬和真實的交互,持續學習和進化的能力,則是具身智能演進的重要技術途徑。

 

億萬年的生物演化過程,造就了形態豐富的生命形式。而學習新任務來適應環境的變化,則是持續改進的動力。形態適配環境合適的智能體,則可以快速的學習到解決問題能力,進而更好的適應變化。

 

但是,由於形態的變化空間無窮巨大,搜索所有可能的選擇在有限的計算資源情況下變的幾乎不可能。本體的自由度設計,也會物理上約束智能體的任務執行能力,進而限制了控制器的學習效果。

 

在複雜環境、形態演化和任務的可學習性之間,存在着未可知的隱式關係,如何快速學習到合理的規劃和決策能力,則成爲具身智能的重要一環。

 

 

具身智能即將爲通用機器人補全最後一塊拼圖
https://www.agibot.com/article/161/detail/2.html

李飛飛「具身智能」新成果:機器人接入大模型直接聽懂人話,0預訓練就能完成複雜指令
https://www.qbitai.com/2023/07/67403.html

【具身智能綜述1】A Survey of Embodied AI: From Simulators to Research Tasks
https://blog.csdn.net/weixin_39653948/article/details/133960099
https://blog.csdn.net/weixin_39653948/category_12451932.html

具身智能2023最新突破性進展分享!附17篇論文和代碼
https://zhuanlan.zhihu.com/p/669226987

具身智能綜述和應用(Embodied AI)
https://blog.csdn.net/qq_39388410/article/details/128264098

具身智能 (Embodied AI)概述
https://zhuanlan.zhihu.com/p/620342675

具身認知學習筆記
https://fangfrancis.github.io/trends/2022/02/27/Embodied/


2023具身智能論文合集

1.PaLM-E: An Embodied Multimodal Language Model

論文地址:https://arxiv.org/abs/2303.03378
論文主頁:https://palm-e.github.io/
 

2.VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

https://arxiv.org/abs/2307.05973
https://voxposer.github.io/
 

3.March in Chat: Interactive Prompting for Remote Embodied Referring Expression

https://arxiv.org/pdf/2308.10141v1.pdf
https://github.com/yanyuanqiao/mic
 

4.Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions

https://arxiv.org/abs/2309.11382
 

5.Skill Transformer: A Monolithic Policy for Mobile Manipulation

https://arxiv.org/pdf/2308.09873v1.pdf
 

6.See to Touch: Learning Tactile Dexterity through Visual Incentives

https://arxiv.org/abs/2309.12300
https://see-to-touch.github.io/
 

7.Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents

https://arxiv.org/abs/2308.07241
 

8.Synthesizing Event-Centric Knowledge Graphs of Daily Activities Using Virtual Space

https://arxiv.org/ftp/arxiv/papers/2307/2307.16206.pdf
https://github.com/aistairc/virtualhome2kg
 

9.Conditionally Combining Robot Skills using Large Language Models

https://arxiv.org/abs/2310.17019
https://github.com/krzentner/language-world/
 

10.HoloBots: Augmenting Holographic Telepresence with Mobile Robots for Tangible Remote Collaboration in Mixed Reality

https://arxiv.org/pdf/2307.16114.pdf
 

11.Building and Testing a General Intelligence Embodied in a Humanoid Robot

https://arxiv.org/ftp/arxiv/papers/2307/2307.16770.pdf
 

12.Systematic Adaptation of Communication-focused ML from Real to Virtual for HRC

https://arxiv.org/pdf/2307.11327.pdf
 

13.ChatGPT for Robotics: Design Principles and Model Abilities\

https://arxiv.org/pdf/2306.17582v2.pdf
https://github.com/microsoft/promptcraft-robotic
 

14.Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation

https://arxiv.org/pdf/2307.06125v3.pdf
 

15.Robotic Manipulation Network (ROMAN) – Hybrid Hierarchical Learning for Solving Complex Sequential Tasks

https://arxiv.org/pdf/2307.00125.pdf
 

16.Embodied Task Planning with Large Language Models

https://arxiv.org/pdf/2307.01848v1.pdf
https://github.com/Gary3410/TaPA
 

17.Statler: State-Maintaining Language Models for Embodied Reasoning

https://arxiv.org/pdf/2306.17840v2.pdf
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章