頂會論文之三維目標檢測總結

我會在後續繼續完善本文…


2019年9月21日13:34:46 增加了Part-A2 Net的介紹


  • 加入圖片
  • 增加論文

常見的三維視覺數據是三維點雲數據。三維視覺任務類型包括三維目標跟蹤任務,三維目標檢測任務,點雲數據特有的三維點雲分類與分割任務。三維點雲數據是由無序的數據點構成一個集合來表示。在使用圖像識別任務的深度學習模型處理點雲數據之前,需要對點雲數據進行一些處理。目前採用的方式主要有兩種:一種是將點雲數據投影到二維平面。此種方式不直接處理三維的點雲數據,而是先將點雲投影到某些特定視角再處理,如前視視角和鳥瞰視角。同時,也可以融合使用來自相機的圖像信息。通過將這些不同視角的數據相結合,來實現點雲數據的認知任務。比較典型的算法有MV3D和AVOD。一種是將點雲數據劃分到有空間依賴關係的voxel。此種方式通過分割三維空間,引入空間依賴關係到點雲數據中,再使用3D卷積等方式來進行處理。這種方法的精度依賴於三維空間的分割細膩度,而且3D卷積的運算複雜度也較高。不同於以上兩種方法對點雲數據先預處理再使用的方式,PointNet是直接在點雲數據上應用深度學習模型的方法。

PointNet系列論文首先提出了一種新型的處理點雲數據的深度學習模型,並驗證了它能夠用於點雲數據的多種認知任務,如分類、語義分割和目標識別。PointNet的關鍵流程爲:輸入爲一幀的全部點雲數據的集合,表示爲一個nx3的2d tensor,其中n代表點雲數量,3對應xyz座標;輸入數據先通過和一個T-Net學習到的轉換矩陣相乘來對齊,保證了模型的對特定空間轉換的不變性;通過多次mlp對各點雲數據進行特徵提取後,再用一個T-Net對特徵進行對齊;在特徵的各個維度上執行maxpooling操作來得到最終的全局特徵;對分類任務,將全局特徵通過mlp來預測最後的分類分數;對分割任務,將全局特徵和之前學習到的各點雲的局部特徵進行串聯,再通過mlp得到每個數據點的分類結果。

受到CNN的啓發,作者提出了PointNet++,它能夠在不同尺度提取局部特徵,通過多層網絡結構得到深層特徵。PointNet++關鍵部分包括:採樣層,組合層和特徵提取層。上述各層構成了PointNet++的基礎處理模塊。如果將多個這樣的處理模塊級聯組合起來,PointNet++就能像CNN一樣從淺層特徵得到深層語義特徵。對於分割任務的網絡,還需要將下采樣後的特徵進行上採樣,使得原始點雲中的每個點都有對應的特徵。這個上採樣的過程通過最近的k個臨近點進行插值計算得到。

三維目標檢測算法按照數據劃分爲三個類別,即點雲,多視圖圖像(視圖或立體數據)和單目圖像。基於點雲的方法,例如,[1,2,3,6],可以直接獲取三維空間中物體表面上的點的座標,因此它們可以比沒有點雲的方法更容易地獲得更高的精度。基於多視圖的方法,例如,[4],可以使用從不同視圖的圖像中得到的視差來獲得深度圖。基於單視圖的方法,例如,[5],使用單目攝像頭完成三維目標檢測。雖然點雲和立體方法具有更準確的3D推理信息,但單目RGB相機的設備更方便,更便宜。單目攝像頭進行三維物體檢測是經濟型自動駕駛系統合理選擇。

GS3D[5]由香港中文大學Buyu Li等完成,其思想爲:首先預測二位目標的邊界以及方向;然後基於預測的二維信息,指導生成相應對象的基本長方體,最後基於表面提取的特徵以及緊緻二維邊界框執行分列公式和質量感知損失進行精確優化。通過2D探測器有效地確定預測對象的基本長方體。雖然粗糙,但基本長方體是可以接受的。其精確度可以指導確定空間位置,尺寸(高度,寬度,長度)和物體的方向等。提取不同可見表面的特徵,然後加以合併,因此結構信息被用來區分不同的3Dbox。將傳統迴歸的形式重新表述爲分類的形式,併爲其設計了質量敏感的損失函數。主要貢獻在於,基於可靠的二維檢測結果,GS3D是一種純單目攝像頭的方法。可以有效爲物體獲得粗糙的基本長方體。基本長方體提供了對象的位置大小和方向的可靠近似,並作爲進一步優化的指導;利用投影在二維圖像上的三維框的可見表面的結構信息,然後利用提取的特徵解決模糊問題;設計比較之後發現基於質量敏感的損失的離散分類的效果要更好。

PointNet和PointNet++主要用於點雲數據的分類和分割問題,Frustum-PointNet(F-PointNet)將PointNet的應用拓展到了3D目標檢測上。目前單純基於Lidar數據的3D目標檢測算法通常對小目標檢測效果不佳,爲了處理這個問題,F-PointNet提出了結合基於圖像的2D檢測算法來定位目標,再用其對應的點雲數據視錐進行bbox迴歸的方法來實現3D目標檢測。從KITTI數據集的檢測結果來看,得益於精確的基於圖像的2D檢測模型,F-PointNet對小目標的檢測效果確實處於領先地位。F-PointNet由2D目標檢測模型和3D分割和迴歸網絡構成,並非爲端到端的模型。可以考慮將其組合成一個端到端的網絡。

基於點雲數據,PointRCNN[6]實現了純粹使用點雲數據完成三維目標檢測任務。PointRCNN是香港中文大學發佈的3D目標檢測框架,整個框架包括兩個階段:第一階段使用自下而上的3D提案產生,第二階段用於在規範座標中修改提案獲得最終的檢測結果。Stage-1階段子網絡不是從RGB圖像或者將點雲投影到鳥類視圖或者體素中,而是通過將整個場景的點雲分割爲前景點和背景點,以自下而上的方式直接從點雲生成少量高質量的3D提案。Stage-2階段子網絡將每個提案的池化的點轉換爲規範座標,更好地學習局部空間特徵,這個過程與Stage-1中學習每個點的全局語義特徵相結合,用於Box優化和置信度預測。對KITTI數據集的3D檢測基準的廣泛實驗表明,該架構優於只是用點雲作爲輸入具有顯著邊緣的最先進方法。


用於點雲的目標檢測方法,精度較高的還有港中文&商湯科技發表的Part-A2 Net[8],

點擊下載
在這裏插入圖片描述
作者在PointRCNN的Motivation的基礎上,觀察到3D框註釋不僅提供了分割蒙版,而且還包含了3D框內所有點的精確目標內零件(part)位置。這與2D圖像中的框註釋完全不同,因爲2D圖像中的某些目標可能會被遮擋。 使用真實的2D框將爲對象內的每個像素生成不準確且嘈雜的目標內位置。這樣的3D對象內零件位置準確,信息豐富,可以容易獲取,但從未在3D對象檢測中進行過探索。基於這一重要觀察,作者提出了零件感知和聚合神經網絡,即Part-A2網絡,這是一種新穎的兩階段框架,用於從點雲進行3D對象檢測,該框架包括零件感知階段和零件聚集階段。

  • 作者提出了一種新穎的零件感知和聚合神經網絡,用於從點雲進行3D對象檢測。在僅以3D框註釋爲監督的情況下,我們提出的方法可以準確地預測對象內3D零件的位置,然後由我們的零件集合網絡對其進行彙總,以瞭解這些零件之間的空間關係,以預測準確的3D物件位置和置信度。
  • 作者提出了可區分的RoI感知點雲池模塊,以通過對3D投標的特定於位置的特徵進行編碼來消除點雲區域池中的歧義。實驗表明,合併的特徵表示顯着有利於部分聚集階段。
  • 截至2019年7月9日,作者提出的部分感知和聚合方法在具有挑戰性的KITTI數據集的3D檢測基準上以明顯的優勢勝過所有已發佈的方法,這證明了該方法的有效性。到現在爲止(2019年9月21日)仍爲第一名。

Fast Point R-CNN,該篇文章中了ICCV2019
點擊下載
在這裏插入圖片描述


而海康威視的Voxel-FPN[7]單論mAP只能說勉強接近SOTA水平,但論文mAP與FPS的Trade-off,50 FPS的速度,還是強壓其他算法的。

參考文獻
[1] C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas. Frustum pointnets for 3d object detection from rgb-d data. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
[2] Y. Zhou and O. Tuzel. Voxelnet: End-to-end learning for point cloud based 3d object detection. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
[3] J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. Waslander. Joint 3d proposal generation and object detection from view aggregation. IROS, 2018.
[4] X. Chen, K. Kundu, Y. Zhu, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals using stereo imagery for accurate object class detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
[5] Li B , Ouyang W , Sheng L , et al. GS3D: An Efficient 3D Object Detection Framework for Autonomous Driving[J]. 2019.
[6] Shi S , Wang X , Li H . PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud[J]. In IEEE CVPR, 2019.
[7] Wang B , An J , Cao J . Voxel-FPN: multi-scale voxel feature aggregation in 3D object detection from point clouds[J]. 2019.
[8] Shi S , Wang Z , Wang X , et al. Part-A^2 Net: 3D Part-Aware and Aggregation Neural Network for Object Detection from Point Cloud[J]. 2019.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章