名文共賞:ICRA2019最佳論文

Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks

本文根據個人在seminar課上的論文分享彙報整理而成,僅供相關方向研究者或愛好者學習參考,不做任何商業用途。圖片來自於論文,如有侵權,請聯繫刪除。

很多研究機器人的同行應該讀過這篇文章,或聽聞過這篇獲ICRA2019最佳論文的文章。文章由李飛飛的高徒朱玉可領銜完成,該文章分兩版,其中第一版是被ICRA錄用的,第二版是第一版的完善,完成了第一版中提出的未來的工作,可見其團隊的用心。下面我們就來“欣賞”這篇美文吧,不得不說,獲獎的論文包括英語用詞都非常地講究,強烈建議英語論文不知如何寫的小夥伴去讀讀原文。

項目簡介

文章在開頭舉了一個非常貼近生活的例子——拿鑰匙啓動汽車,來啓發人們觸覺和視覺在人生活中的重要性。那對於模仿人類的機器人而言,這兩種感覺在控制機器人時同樣重要,但對人類輕而易舉的動作,對機器人而言卻困難重重。首先是非結構化的環境,其次是兩種(多種)模態的輸入信號的融合問題,最後是控制器如何設計,控制算法如何部署保證實時性的問題。這裏就使用了Kuka的機器人來完成一個釘釘子的任務,通過這個任務來檢驗所提方法的可行性即魯棒性。
在這裏插入圖片描述
通過以下這幅圖就能更直觀地看出機械臂控制實驗的三個步驟:抵達、對齊、插入。
z軸方向(豎直方向)上的力傳感器能實時輸出其對盒子輸出的壓力,我們可以清楚地看到當機械臂初次觸碰到盒子以及進行釘子插入時其施加的力達到了一個峯值。當釘子滑入空洞內,力度也隨之減小。

在這裏插入圖片描述

核心亮點

在這裏插入圖片描述
這是我對其文獻綜述部分的一個概括,我用一張圖來表示先前方法的不足之處——有些考慮到了使用多模態數據,卻只能針對特定任務,無法適應多變的外部環境;有些基於學習的方法,能夠習得應對環境的變化的方法,可是訓練這些神經網絡模型需要海量的數據,而如何獲得這些標註數據又是一個很令人頭疼的問題。由此,作者提出一種多模態表徵學習的方法(Multimodal Representation Learning),該方法不僅能融合異構的傳感器數據,同時還能進行學習,幫助機器人判斷外界環境的變化帶來的影響。

模型架構

該神經網絡模型採用了自監督學習方法,即採用特徵表徵的方法作爲輸入,從輸入中提取內部自然互相關聯的特徵作爲表示,這就避免了人工標註的繁重任務。我們通過圖片來依次分析。(圖片截選自論文的演示視頻)
在這裏插入圖片描述
這個端到端的自監督學習框架採用了三種截然不同的輸入信號(改進版中又引入了第四種輸入:深度信息):RGB圖、力矩和本體感知,這個本體感知有點玄乎,應該是和機械臂系統相關的對外界的感知,比如位置,移動速度之類的一些信號。對於視覺的反饋,編碼器採用了一個6層的類似FlowNet的卷積神經網絡來編碼1281283的彩色圖片信號;對於觸覺反饋,用了一個5層的卷積層將力矩信號轉換爲64維的向量。而對於本體感知,則採用2層的多層感知器,同樣也產生一個32維的向量。這三個被壓縮的向量在經過一個2層的多層感知器後,融合成了一個128x1的特徵表徵向量。
在這裏插入圖片描述
接下來就是自監督預測模型大顯神通的時候了。模型在加入了與動作相關聯的信息之後負責兩方面的預測:1)由動作引起的光流;2)下一時刻是否會接觸。同時,不同的信號還得考慮對齊的問題,因爲不同傳感器採樣頻率並不一致,你不能用這一時刻的力矩去匹配上一幀看到的圖像。因此,模型還順帶判斷表徵是否對準。除光流外,另外兩者判斷結果均爲0或1。
在這裏插入圖片描述

控制器設計

對於控制策略學習和控制器設計,這裏使用了無模型強化學習(TRPO),因爲對接觸交互和多接觸方案進行建模會導致複雜的優化問題。 此外,通過使用無模型的RL,也無需構建精確的動力學模型。
控制策略網絡是一個2層多層感知器(MLP),它以128維多模態表徵爲輸入,並在機器人末端執行器產生3D位移。 爲了有效地訓練策略,他們在策略學習期間凍結了表徵模型參數。 然後,控制器將獲取末端執行器的位移並將直接轉矩命令輸出到機器人。
在這裏插入圖片描述
控制器由三個部分組成:軌跡生成,阻抗控制和操作空間控制。 考慮到安全性和合規性,選擇了電動機控制策略作爲直接轉矩控制。 此外,由於缺乏精確的位置,這種方法使機器人更容易在盒子的表面上滑動。 通過利用已知的機器人運動學和動力學模型,我們可以利用動態一致的操作空間公式,根據笛卡爾空間加速度來計算關節扭矩。

實驗驗證

實驗首先是在仿真模擬環境中進行,隨後遷移部署至真實的機器人上。在實驗開始前,先回答三個問題,以此捋清實驗的目的:
1)爲何要用到所有模態的輸入而不是其中一部分?
2)在真正的機器人上進行控制策略學習是否具有所學的表徵能力?
3)習得的表徵網絡是否對於任務的變化有較強的泛化能力並能從干擾中恢復過來?
之後的實驗圍繞這幾個思路展開。對於第一個問題,實驗者設計了對照實驗,即將某一個影響因子剔除,看其對實驗產生的影響;第二和第三個問題則是通過不同的孔徑形狀來驗證的,具體如下。
在這裏插入圖片描述
從該圖顯而易見的獲得的第一個結論便是視覺和觸覺均對任務的成功完成起到了重要的作用,但是誰的權重更大一些呢?從綠色的線和粉色的線對比可以看出視覺所起的作用要更大一些,這也符合人的常識,是閉着眼睛找鑰匙孔容易成功,還是看着孔的大概位置發力把鑰匙插進孔裏容易成功呢。
爲了增加實驗的可靠性,他們採用3D打印製造出一批形狀各異的“鑰匙”,如下圖所示。在這裏插入圖片描述
之後,他們分別做了三組實驗:1)釘子形狀、表徵和控制策略均對應,2)表徵和學習策略相同(例如都是三角形),實際釘子卻是五邊形,3)釘子形狀和控制策略相同,表徵不同。實驗結果如下所示:在這裏插入圖片描述
從第4、5根柱子可以看出,在沒有學習相應控制策略的情況下,仍能獲得60%左右的成功率;而最後兩根柱子則揭示了雖然表徵不同,但策略相同的情況下成功率會得到大幅提升。
實驗還驗證了在外部干擾的情況下實驗是否能夠成功進行。這些可以在視頻中進一步看到,論文裏只是一筆帶過。

結論和展望

該技術研究了在時間一致的多傳感器數據上聯合推理對豐富接觸操作任務的價值。爲了實現高效的真實機器人訓練,提出了一種新模型,將不同的傳感器輸入編碼成一個緊湊的多模態表示。該研究對緊間隙銷釘插入任務的實驗表明,它們需要視覺和觸覺的多模態反饋。進一步證明了多模態表徵可以很好地轉移到釘子插入的新任務實例中。而在第一版展望中提到的future work之一加入深度信息則已經在第二版實現了。

參考鏈接:
論文第一版
論文第二版
演示視頻

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章