【2018ICRA】Robotic Pick-and-Place of Novel Objects in Clutter:雜亂場景下未知物體的抓取

在這裏插入圖片描述
這篇文章發表於2018年的ICRA會議,作者分別爲Princeton和MIT團隊的相關學者,論文有對應的項目網址

1. 總評

當前主流進行抓取,首先需要recognize目標物體,之後估計6Dpose,再進行抓取。而這篇文章提出了一個“grasp-first-then-recognize”的框架,不先進行識別,而是直接從一堆物體中先抓取某個物體,之後再判斷他的類別。這樣有兩點好處:主動地從一堆物體中將物體物理分隔,之後的物體識別可以看成一個圖像分類問題,降低了問題的難度;可以擴展到未知物體,需要的可能只是幾張物體的圖像。

2. 方法綜述

這篇論文提出了一個機器人pick-and-place的系統,如圖1所示,能夠抓取和識別雜亂場景中已知(Known)和未知(Novel)的物體。系統的關鍵在於能夠不需要任何針對未知物體的任務導向的訓練集,也能夠處理一大範圍類別的物體。在訓練階段提供已知物體,包含物理的物體以及代表性的商品圖像(來自網絡),未知的物體只在測試階段提供,包括代表性的商品圖像;
圖片描述
圖1:論文的抓取系統能夠對裝滿物體的桶中估計逐像素位置的可抓取可能性,如(a)所示;抓取一個毛巾後,通過將此時觀測到的圖像(b)和一些代表性的商品圖像進行比對,確定物體的類別。方法能夠識別未知的物體,而且不需要額外的數據收集或者再訓練過程。

系統主要包含兩大模塊:
第一個是一個多支撐(multi-affordance)的抓取系統,使用了全卷積網絡(FCNs),輸入對場景的視覺觀測,輸出一個稠密的網格圖(和輸入具有同樣的大小和分辨率),這個網格代表了從每個位置執行4個預置抓取動作後抓取成功的概率;機器人執行最大成功抓取概率的抓取動作。這種抓取網絡不需要任何先驗的物體分割和分類,因此是和物體類別無關的。

第二個是一個跨域的圖像匹配框架,可以通過將待抓取物體的觀測圖像,與許多商品圖像進行匹配,識別抓取的物體;這裏使用的是一個雙流(two-stream)卷積網絡結構;這個框架能夠處理未知物體,而不需要額外的再訓練。儘管物體識別算法只在已知物體上進行了訓練,但他能夠識別未知物體。
這兩個模塊緊密結合共同實現雜亂環境中未知物體魯棒的抓取。

3. 硬件設計

使用了一個6DoF的ABB機械臂,末端是一個多功能的抓取器,包含一個兩指的平行抓手和一個可伸縮的吸盤;使用了4個Sr300 深度相機,頂上兩個相機拍攝裝物體的bin,下面兩個拍攝抓起來的物體;
在這裏插入圖片描述
圖2:系統包括四個單元(上部),每一個單元包括一個桶和4個固定的相機,上面兩個拍攝桶中物體的全景來推斷抓取的可能性,下面兩個用來拍攝抓起來的物體。
在這裏插入圖片描述
圖3:多功能的抓手,具有可伸縮的機制,方便自動再吸取和抓取之間切換。

在這裏插入圖片描述
圖4:多個預置抓取動作,包括向下吸取,從側面吸取,向下抓取,滑動抓取。

4. 使用全卷積網絡學習進行某種動作的可能性

整體框架如圖5所示:
在這裏插入圖片描述

4.1 推斷吸取的可能性:

定義吸取候選:a.吸取點,也即末端吸盤與物體表面的接觸點,b.對應3D點的局部面法向量,c.可能性值;好的吸取點應該位於可吸取的表面上,並且和物體的質量重心接近。作者訓練了一個全卷積殘差網絡(ResNet-101),輸入一個640*480的RGB-D圖像,輸出一個稠密地帶標籤的逐像素的圖,每一個像素對應一個0到1之間的可能性;值越接近1越好;之後,將深度圖lift到3D,計算3D點周圍平面的的法向量,進行輔助篩選最終的suction point。

4.2 推斷抓取的可能性:

定義抓取候選:a.中心3D點,也即平行抓手兩指的中心點,b.水平面內的旋轉角,c.抓取時兩指的寬度,d.可能性值;作者首先將兩個RGB-D數據進行融合並處理,得到RGB-Height,作爲網絡輸入,使用類似吸取的網絡結構,得到每個像素對應的一個0到1之間的可能性;不同之處在於將輸入的RGB-H圖像旋轉了16個角度;最後根據3D點雲確定最終的抓取位置和動作。

5. 識別未知物體

將物體單獨抓取出來之後,需要進行識別,作者採用的方法是在一堆商品圖像中檢索,得到最相似圖像。由於商品圖像和觀測圖像存在差異,因此算法需要找到不同圖像之間的語義對應,這裏作者簡單稱作跨域的圖像匹配問題(a cross-domain image matching problem)。通過學習一個度量函數,能夠輸入觀測圖像和商品圖像,得到他們之間的距離,衡量屬於同一個物體的相似度。這個度量函數能夠將觀測圖像和商品圖像映射到一個有意義的特徵嵌入空間,在空間內比較L2距離,距離越小相似度越高;這裏作者爲了避免由於訓練物體類別過少出現過擬合的問題,作者使用了在ImageNet上與訓練的模型進行商品圖像的特徵提取,並且只訓練觀測圖像的特徵提取。
在這裏插入圖片描述
圖6:針對未知物體的識別過程。作者訓練了一個two-stream卷積神經網絡,one stream針對商品圖像計算2048維的特徵向量,one stream針對觀測圖像計算2048維特徵向量,並且進行優化,保證同一類物體的特徵更相似,不同類物體的特徵更加不相似。在使用時,將商品圖像和觀測圖像都映射到一個共同的特徵空間,在該空間尋找最近鄰的匹配。

6. 實驗:

6.1 評價標準:

判斷推斷的候選位置相對於人工標註位置的精度。對於吸取,如果一個候選的中心像素位於手動標記的一個吸取區域,則該候選是true positive。對於抓取,如果一個候選的中心像素距離一個positive grasp label在4像素以內並且角度在11.25度以內,則該候選是true positive。實驗結果在表1中給出,吸取和抓取top-1候選的精度都在90%以上。速度在表2中給出,使用TitanX和Intel Core i7-3770K CPU。
在這裏插入圖片描述
在這裏插入圖片描述
針對未知物體,使用10個已知物體和10個未知物體混合的情況,實驗結果在表3中給出,比較top-1最近鄰商品圖像類別的正確度。
在這裏插入圖片描述

7. 總結

7.1 優勢:
  • 由於產品圖像針對一大範圍類別物體時隨時可獲得的(通過網絡),因此係統能夠處理未知物體,且不需要任何額外的數據收集或者再訓練過程;
  • 詳盡的實驗展示了算法在一大類物體範圍上達到了很高的成功率,並且在已知和未知抓取物體上也得到了很高的識別精度;
  • 這項工作屬於MIT-Princeton組的一部分工作,取得了2017年Amazon Robotics Challenge在存放(stowing)任務上第一名的成績,並且是唯一一個成功存放所有已知和未知物體的系統。
7.2 缺陷:
  • 必須能夠被文中4種預置動作抓起來,才能夠進行後續的識別,而這四種動作在很多情況下是不夠的;
    不適用一些場景,這些場景需要抓取指定的商品。
7.3 拓展:
  • 可以不使用整體圖像信息,使用二維碼等(該論文的3作作爲XYZ Robotics的CTO,主要研發的工業物流中的抓取機器人,核心技術應該與該論文近似,先通過抓取物體,再識別商品的二維碼等)。

本文中所有圖片均引自改論文。本解讀只講述核心觀點,如需深入瞭解,可閱讀原始論文。如有問題,請隨時交流,如有錯誤,請隨時指正。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章