近年來機器人主流抓取估計方法總結

根據抓取的表示,應用場合等可以將機器人抓取分爲2D平面抓取和6-DoF空間抓取,各自又包含很多方法,下面一一介紹。

1 2D 平面抓取:

適合工業抓取,場景是機械臂豎直向下,從單個角度去抓,抓取通常由平面內的抓取四邊形,以及平面內的旋轉角度表示(Oriented 2D rectangle):
在這裏插入圖片描述
根據使用的數據RGB/Depth不同,又可以分爲以下三類:基於RGB,基於RGB+Depth,和基於Depth。

1.1 基於RGB的抓取估計

數據集包括:Cornell數據集(http://pr.cs.cornell.edu/grasping/rect_data/data.php)和Jacquard數據集https://jacquard.liris.cnrs.fr/,爲 人工構建;
在這裏插入圖片描述
基於以上的數據集,出現了很多方法,代表作是2014-Deep Learing for Detecting Robotic Grasps,2014-Real-Time Grasp Detection Using Convolutional Neural Networks,2018-Real-world Multi-object, Multi-grasp Detection等,首先生成大量抓取框候選,再進一步優化得到最終抓取;
在這裏插入圖片描述
亞馬遜論文2015-Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours使用機器自動採集訓練集,訓練了一個平面抓取估計算法,其數據集如下:
在這裏插入圖片描述

1.2基於RGB+Depth的抓取估計

這類方法本質上與與RGB方法一致,只是多了Depth通道的信息,代表方法有2017-Robotic Grasp Detection using Deep Convolutional Neural Networks等。

1.3 基於Depth的抓取估計

代表性方法是2017-Dex-Nex 2.0 Deep Learning to Plan Robust Grasps with Synthetic Point Clouds and Analytic Grasp Metrics,https://berkeleyautomation.github.io/dex-net/,該方法自己構建基於深度圖的抓取質量數據集,訓練得到抓取質量評估網絡。在線使用時,採集當前視角下的深度圖,分割目標物體對應的深度圖,在深度圖上生成上百個候選抓取位置,得到上百個抓取位置下的深度圖,每一個都得到一個抓取質量,選擇質量最高的進行抓取。其數據集和算法流程如下圖所示。
在這裏插入圖片描述
在這裏插入圖片描述

1.4 總結

這類方法適合固定場合下,從單個角度進行抓取。訓練數據生成時,每個物體在平面內的放置情況是有概率分佈的;而如果擴展到任意視角下,很多視角下的數據在訓練集中不存在;任意角度下,網絡本身也不一定能夠學習到適合抓取的位置。因此,該類方法不適合從任意角度進行抓取。

2 6DoF空間抓取:

平面抓取首先於只能從單個角度去抓,如果想更加靈活,需要獲取6DoF的抓取姿態,如下圖。
在這裏插入圖片描述

2.1 代表性方法

近年來的代表性方法包括2017-Grasp Pose Detection in Point Clouds,2018-PointNetGPD: Detecting Grasp Configurations from Point Sets,2019-6-Dof GraspNet:Variational Grasp Generation for Object Manipulation等,都包含兩大模塊:候選抓取位置的篩選,以及抓取質量的評估。這類方法思路與Dex-Net2.0相同,但是作用在3D空間。

2017-GPD使用傳統方法進行候選抓取位置的篩選,需要滿足抓取器不與物體碰撞,且抓取器內部至少存在一個點;之後基於三個角度下Depth圖像基於CNN網絡等進行抓取質量估計,如下圖所示。
在這裏插入圖片描述
2018-PointNetGPD (Hamberger University, Jianwei Zhang)也使用傳統方法篩選候選抓取位置,之後不使用深度圖評估抓取質量,而是使用抓取器內部的點雲,使用3D神經網絡PointNet進行抓取質量估計,如下圖所示。
在這裏插入圖片描述
2019-6-Dof GraspNet (Nvidia),對兩大模塊進行了改進,首先使用大規模虛擬數據進行候選抓取位置的Encoder,這樣給定單視角下的點雲,能夠Decoder出少量質量很高的候選抓取位置;其次,不同於PointNetGPD只對抓取器內部的點雲進行抓取質量評估,其對抓取器連同單視角點雲,一起使用PointNet++網絡評估抓取質量;最後還對最終抓取位置進行了優化。其框架如下圖。
在這裏插入圖片描述

2.2 總結

進行空間6-Dof抓取,需要進行實例分割,確保點雲準確,噪聲少,否則影響效果;訓練可在虛擬環境中進行,只要虛擬環境中的3D模型精確,則不使用domain adaption也能在真實環境下得到很好的結果。

該類方法適合任意角度的抓取,然而該類方法的弊端是,儘管使用了Encoder和Decoder的方式生成候選抓取位置,但是單個角度下獲得的數據畢竟有限,而如果能夠對物體進行補全,則使用傳統方法生成候選抓取位置也能夠得到很好的結果。這類方法在下一章介紹。

3 形狀補全:

3.1代表方法

這類方法也有很多的嘗試,代表方法主要有:2017-Shape Completion Enabled Robotic Grasping,2019-Multi-Modal Geometric Learning for Grasping and Manipulation,2019-Data-Efficient Learning for Sim-to-Real Robotic Grasping using Deep Point Cloud Prediction Networks,2019-kPAM-SC: Generalizable Manipulation Planning using KeyPoint Affordance and Shape Completion等。

2017-Shape Completion Enabled Robotic Grasping是代表性方法,使用3D CNN進行shape completion,其框圖如下。
在這裏插入圖片描述
2019-Multi-Modal Geometric Learning for Grasping and Manipulation, (Peter Allen, Columbia University),根據觸覺得到對側的點信息,輔助進行修補。
在這裏插入圖片描述
2019-Data-Efficient Learning for Sim-to-Real Robotic Grasping using Deep Point Cloud Prediction Networks(Google Brain and X)使用RGB+Depth作爲輸入的網絡結構,進行形狀補全;Video demos can be accessed via https://sites.google.com/site/shapeawaresimtoreal/
在這裏插入圖片描述
2019-kPAM-SC: Generalizable Manipulation Planning using KeyPoint Affordance and Shape Completion (MIT) 使用關鍵點以及同一類型的3D模型輔助進行形狀補全,Video demos can be accessed via https://sites.google.com/view/generalizable-manipulation/
在這裏插入圖片描述

3.2 總結

這類方法能夠對一類相似的形狀得到不錯的修補結果,無法做到任意通用;但如果能夠對一類物體進行了較好的修補,則進行候選抓取位置估計,以及抓取質量評價都可以使用傳統方法。

4 人形抓手

以上方法針對的都是平行兩指抓取器,而當前絕大多數方法,都沒有考慮人形抓手,因爲其自由度太高了。做不到任意抓取以及通用,然而針對少量物體,或者一類物體,可以得到較好的結果。

4.1代表方法

2019-Generating Grasp Poses for a High-DOF Gripper Using Neural Networks(Xu Kai, NUDT and University of Maryland at College Park):
針對25DoF的手形抓取器,依賴完整物體體素模型,訓練集使用GraspIt!生成,如下圖,之後使用神經網絡訓練模型得到抓取姿態,其框架如下圖。
在這裏插入圖片描述
在這裏插入圖片描述

4.2 總結

使用人形抓手進行通用抓取太難了,現階段實現不了。可以針對特定一類物體,實現類內的通用抓取。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章