基於深度學習的抓取檢測(grasp detection)相關論文解析

近幾年深度學習技術蓬勃發展,其相關的應用場景也越來越多樣化,比如本人做的機械手抓取物體就可以通過深度學習技術加以應用,優化出抓取目標物體的合適的中心座標,旋轉角以及爪盤開度。針對這個問題,目前絕大多數論文討論的基本上都是基於目標檢測領域(object detection)的檢測框架(R-CNN,YOLO等),唯一不同的地方是抓取檢測引入了機械爪抓取旋轉角(orientation)這個目標參數。
機器人抓取檢測這個研究方向對智能製造,工業4.0等還是有很重要的意義,因此本文就抓取檢測領域的一些重要論文進行彙總研究(以後看了新的論文俺也會在這進行更新),前幾篇論文都是很久之前的論文了,可能現在有更多前沿的技術,本人也不是專門研究機器人抓取這一塊的,因此主要考慮自身的學習,對現有的論文進行整理研究,由於個人能力有限以及工作量太大,無法對全文作出全面的解析,因此有些部分只做簡要的介紹,如有翻譯或理解錯誤,還望大家批評指正:

序號 論文名 關鍵詞
1 Deep Learning for Detecting Robotic Grasps(論文)(源碼 兩階段,PR2,三維空間
2 Real-Time Grasp Detection Using Convolutional Neural Networks(論文)(源碼 單階段,實時 ,多抓取預測

一.Deep Learning for Detecting Robotic Grasps

1.介紹

這篇論文是抓取檢測領域的一篇重要論文,還提供了開源數據集,源碼和數據集都在項目官網上面可以下載。
介紹部分作者主要提到深度學習技術在一些任務上效果很好,前人主要的一些工作都集中在種類識別,人臉識別,行人識別等等,殊不知抓取也是一項檢測任務,因此提出第一個創新:將深度學習應用在抓取的檢測問題中。
隨後指出一系列創新:利用RGBD多模態數據來提高抓取的效果,提出的兩階段檢測系統等等,個人理解作者的兩階段檢測相當於是添加預訓練網絡,提取第一個階段的特徵到主幹網絡進行再學習。
緊接着作者從機器人抓取這塊討論現有的主要是基於力閉合,形式來手工設計抓取評估參數,還有基於3D模型的抓取,這些基於物理場景重建的方法不適用於變化場景的抓取。
然後引入機器學習的應用,學習算法可以減少手工設計的過程,同時可以泛化模型可以檢測從未見過的物體。但是現有的算法還是有一些手工設計特徵的過程。
然後指出深度學習的一些應用,在檢測方面的應用基本上都是目標檢測,人臉檢測這些方面。
最後強調多模態數據的結合,以及多任務學習的結構化和正則化。

2.模型,系統

本文解決的問題用下圖表示:
在這裏插入圖片描述
作者提出的方法先通過淺層的學習網絡來評分一些潛在的抓取,然後輸入到更大的網絡輸出最優的抓取。由於本文討論的是三維空間的六自由度抓取,因此還涉及到通過深度圖得到接近向量的問題,最後通過自動編碼器AE進行特徵的提取。
爲了實現抓取檢測,兩階段檢測的方法被提出,一:用少量特徵確定一些候選抓取框,二:用更大的魯棒性更好的特徵來對候選框進行評分排序。所以爲了提取這些特徵,引入深度學習的方法。作者也展示了自動編碼器的結構,如下圖。
在這裏插入圖片描述關於作者使用的自動編碼器原理,分爲與訓練階段,無監督學習的自動提取特徵部分,以及有監督微調階段,通過標籤在進行網絡參數的調整,大家也可以自行網上搜索相關資料進行補充學習。對於兩階段學習,本人的理解是第一個網絡用於迴歸多組抓取參數,然後第二個網絡利用前一個網絡的每組參數取出抓取框區域進行評分。這兩個網絡的都是用同一類型的網絡–AE,但是分兩步學習。

3.細節部分

由於作者解決的是三維空間的六自由度抓取問題,因此輸入的爲7通道數據,前四通道爲彩色深度YUVD四個,後三個爲根據深度通道計算的xyz方向的表面法向量。
A.數據預處理
總結了白噪聲過濾的PCA算法,但是不適用與本文的情況,因爲本文的數據大部分會被掩蓋,只提取矩形區域的信息。隨後對數據白化進行闡述。
B.長寬比問題
這塊主要通過保留矩形框原始的長寬比,對短邊進行mask補充的方法,防止抓取矩形的圖像失真而被誤判的情況。同時給出一個mask-based方法,用於擴大矩形框比例範圍,生成更接近真實標籤的矩形。

4.特徵學習

文中提出三種多模態融合模型,如下圖:
在這裏插入圖片描述
最左邊的模型學習所有模態的數據,但是可能會過擬合,同時可能會在學習多模態數據之間的相關性時失敗。
中間的模型在低層網絡單獨學習每個模態的特徵,而在高層是多模態學習,這種方式在模態數據有差異性很大時能起到作用,但是RGBD數據每個通道的數據有關聯性,因此也不太適用。因此作者使用最右的模型。
關於多模態數據的學習這一塊作者講了很詳細的優化過程,有興趣大家可以去看看,本人就不再過度贅述。

5.實驗與結果

評估模型作者用五折交叉驗證法,訓練集和驗證集均爲互斥子集,同時子集採用單圖像,單種類目標原則來劃分。
對於矩形的搜索,作者採用基於50個結點的深度網絡的窮舉搜索法,然後通過200個結點的網絡對其進行打分。
同時檢測指標提到了點指標和矩形指標。作者採用後者進行評估,認爲預測的旋轉角度與標籤值偏差小於30度,且IOU重合值大於25%即認爲是True Positive。
作者從一方面展示了從正負樣本提取的特徵的差異性,來顯示網絡的有效性,一方面也從實際檢測精度來量化比較。
主要比較了,

  • 現有方法的網絡模型和作者提出的基於AE的模型的檢測精度
  • 對不同模態數據對檢測精度的影響
  • SAE模型衍生的不同算法用點指標或矩形指標在Image-wise split和Object-wise split交叉驗證法上面的比較,如下圖:

在這裏插入圖片描述
最後作者在兩臺機器人上進行了充分的實際抓取實驗。

6.結論

最後作者指出本文沒有優化抓取方位,目前採用的僅僅是平行於物體表面法向量,可以往3D特徵提取這個方向繼續進行研究。
同時在一些多指抓手方面本文也有一定的啓發性,且作者提出的算法也可以被應用在目標檢測,障礙物檢測方面。
作者還提出這種兩階段算法有一定的侷限性就是利用的是局部特徵,可能一些物品在全局看來有更好的抓取方式。這一點在接下來的一篇基於全局信息的文章中也有提到。


二.Real-Time Grasp Detection Using Convolutional Neural Networks

1.介紹

本節主要提出視覺感知在機器人系統的技術難題,目前常用的方法在康奈爾數據集上運行效率低下,且準確率只有75%,基本上使用基於滑動窗口框架的方法,對圖像取出的局部區域進行學習,而本文提出的單網絡進行迴歸輸出與上一篇文章相比,相當於YOLO之與RCNN,執行端到端的學習,得到效率提升,另外多說一句,這篇文章的作者也正是YOLO之父Joseph Redmon。
機器人抓取的方法分爲3D點雲空間分析和2D平面抓取,本文主要針對後者進行改進,基於RGBD數據進行單個物體的檢測,而不考慮整個三維物理空間模型。

2.問題描述

沿用Lenz等人的機器人抓取參數表徵方法,通過五個參數代表二維抓取,同時也有 Jiang等人用七個抓取參數代表三維空間的抓取。
在這裏插入圖片描述

3.神經網絡

在模型設計這塊,本文提出基於CNN進行特徵提取的方法,採用目標檢測中AlexNet的基本框架進行修改,網絡結構如下圖所示:
在這裏插入圖片描述
並設計如下幾個模型進行準確率和效率的比較:

A. 直接回歸單個抓取
這種模型假設每個圖像只有一個可抓取的目標物體,且只預測一個抓取框,六個參數,(x,y,w,h,sinθ,cosθ)。由於抓取角度的對稱性,因此選取其正餘弦值來代替。
B. 迴歸+分類
這種模型結合了種類識別的功能,通過在主幹網絡輸出層中添加對應的目標種類,保持網絡其他部分的結構不變,即識別和抓取檢測用到的都是同一組特徵。但是由於網絡結構相對於A模型基本沒有大的改動,所以運行的速度也差不多。
C. 多抓取檢測
第三個模型是第一個模型的廣義版本,即模型A是C的特例,該模型類似yolo的多柵格預測的思路,將整張圖片劃分爲NN個柵格,對每個柵格預測7個參數,第一個參數爲熱度圖,代表可抓取性,其餘6個參數還是代表抓取參數,每張圖片輸出層NN*7個節點。所以說模型A爲C的特例,其N=1。
並且該模型計算反向傳播損失時,不考慮無目標物體的cell(但是會考慮熱度圖通道),包含正樣本的cell則會全部計算在損失內。如下圖所示,這是一次多抓取預測的過程。
在這裏插入圖片描述

4.實驗評估

對於實驗部分,本文雖然進行了標記了多個ground truth框,但是也不可能把所有可能的抓取標記出來,所以作者的目的是列出良好的一些抓取作爲示例來進行學習。
A.抓取檢測
實驗對抓取框準確性的評估指標有兩種,一種是點指標,作者指出這種方式主要是對抓取位置中心點與標籤的偏差值,不適合帶有角度和開度的機械爪,而且相差距離的閾值也不好確定,同時本人個人感覺這種方式適合單點執行器,如吸收器,點膠槍等。而第二種是矩形指標,更符合機械爪的抓取,其指標內容綜合考慮了抓取角度,Jaccard值(類似IOU),同時由於上述提到的無法窮盡所有的ground truth,因此這個Jaccard閾值只要超過25%即被認爲預測成功。
模型評估這塊作者使用五折交叉驗證法,同時提出兩個方式進行數據集劃分:
1.圖像層面:隨機對每張圖像進行劃分子集
2.目標層面:將包含同一種目標的圖像作爲交叉驗證的子集
作者指出,這麼做的目的是利用第一種方式驗證模型對目標位置迴歸的準確性,泛化性;但是比如太陽鏡就有不同的顏色和形狀,所以有了第二種方式來驗證模型對不同形狀種類的新奇物體也有泛化性能。
B.目標分類
也是利用模型B對上述的交叉驗證法進行分類準確率評估。
C.預訓練
作者提出對分類網絡進行預訓練權重,這樣可以提高訓練速度和避免過擬合。同時指出AlexNet輸入的爲三通道圖像,而Kinect採集爲RGBD四通道,因此將藍色通道用深度通道代替,這樣做的目的是方便網絡預訓練,因此沒有去改變網絡輸入通道數。
D.訓練
E.數據預處理
這塊主要提到處理深度數據,同時對全局圖像進行中心均值化,全局通道值減去144。同時對數據集進行擴充。

5.結果

結果如下表所示:
在這裏插入圖片描述
作者對其他文獻的效率準確率進行了比較,分析了主要加速原因是單階段檢測和GPU性能這兩塊的優勢。
對於第一種模型A,直接回歸模型主要針對全局進行抓取預測,比如圓盤狀的目標就會失敗,作者稱這個問題爲average grasps。
對於第二種模型,加上分類任務後的準確率也達到了90%,但是對於目標層面的數據集準確率只有60%。
最後的多抓取預測模型,是作者認爲最優的模型,避免了模型A帶來的average grasps問題,在下圖中作者也列出了對比,同時這個模型也有很高的檢測速度和準確率。
在這裏插入圖片描述

6.結論

在最後的結論中,作者比較了提出的幾種模型,認爲最優的模型C多抓取預測,也有不足之處,就是沒有量化評估,究其原因也是因爲沒有合適的數據集能夠給出一張圖像裏所以可能的抓取。本人看來,還是因爲標籤的非唯一性問題,無法做到所有的ground truth都被標記出來,而且標籤也具有主觀性,不同的人可能做出不一樣的標籤,不像分類問題那樣只有唯一一個客觀的標籤。最後還強調了用RGD代替RGB圖像的優勢。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章