PointRCNN:三維目標檢測

PointRCNN:3D Object Proposal Generation and Detection from Point Cloud
PointRCNN是CVPR2019錄用的一篇三維目標檢測論文。

摘要

本文中提出了一種PointRCNN用於原始點雲的3D目標檢測,整個框架包括兩個階段:第一階段使用自下而上的3D提案產生,第二階段用於在規範座標中修改提案獲得最終的檢測結果。Stage-1階段子網絡不是從RGB圖像或者將點雲投影到鳥類視圖或者體素中,而是通過將整個場景的點雲分割爲前景點和背景點,以自下而上的方式直接從點雲生成少量高質量的3D提案。Stage-2階段子網絡將每個提案的池化的點轉換爲規範座標,更好地學習局部空間特徵,這個過程與Stage-1中學習每個點的全局語義特徵相結合,用於Box優化和置信度預測。對KITTI數據集的3D檢測基準的廣泛實驗表明,該架構優於只是用點雲作爲輸入具有顯著邊緣的最先進方法。

論文鏈接:https://arxiv.org/abs/1812.04244

代碼鏈接:https://github.com/sshaoshuai/PointRCNN

 

主要貢獻

作者提出了一種新的三維物體檢測器PointRcnn,用於從原始點雲中檢測三維物體。所提出的Stage-1網絡以自下而上的方式直接從點雲生成3D方案,比以前的方案生成方法具有更高的召回率。Stage-2網絡將語義特徵和局部空間特徵結合起來,在規範座標中對提案進行了優化。此外,新提出的基於bin的損失證明了它在三維邊界框迴歸中的有效性。實驗表明,在Kitti數據集的3D檢測基準上,PointRcnn比以前的先進方法有顯著的優勢。

 

本文的主要貢獻是:

  • 提出一種新穎的自下而上的基於雲的3D邊界框提案生成算法,該算法通過將點雲分割爲前景和 背景對象來生成少量高質量的3D提案。來自分割的學習的點的代表不僅善於生成提案,而且對後面的Box優化也有幫助。
  • 提出的規範3D邊界框使用了Stage-1階段生成的高召回框提案,並在帶有高魯棒性的基於區域的損失的規範座標中學習優化框座標。
  • 提出的3D檢測框架PointRCNN優於帶有顯著邊緣的最先進的模型,並且在2018你那11月16日所有已發表的只使用點雲作爲輸入的方法中,在KITTI的3D檢測測試中排名第一。

 

算法框架:

和二維圖像的目標檢測不同,自動駕駛場景中的三維物體被標註的3D邊界框很好地分隔開。也即,用於3D物體檢測的數據直接提供用於3D目標分割的語義掩模。這是3D檢測和2D檢測訓練數據之間的差異。在2D目標檢測中,邊界框只能爲語義分割提供弱監督。基於這一觀察,作者提出了兩階段的3D目標檢測框架—PointRCNN,該框架直接運行在3D點雲上,具有高魯棒性和準確的3D檢測性能。如圖2所示。

在這裏插入圖片描述

PointRCNN包括兩個階段,第一階段旨在以自下而上的方案生成3D邊界框提案,基於3D邊界框生成真實分割掩模,分割前景點並同時從分割點生成少量邊界框提案。這樣的策略避免了在整個3D空間中使用大量3D錨框。第二階段進行規範的3D box優化。在生成3D提案之後,採用點雲區域池化操作來“pool”來自Stage-1學到的點表示。與直接估計全局box座標的方法不同,“pooled”3D點被轉換爲規範座標並與“pooled”的點特徵以及Stage-1的分割掩模組合完成座標優化。該策略充分利用了Stage-1的分割和提案子網絡提供的信息。

作者還提出基於全區域的3D box迴歸損失以用於提案生成和優化,收斂更快,有更高的召回率。

一、通過點雲分割自下而上生成3D提案

提出一種的基於全場景點雲分割的精確、魯棒的三維提案生成算法作爲第一階段子網絡。 3D場景中的目標是自然分離的,彼此不重疊。所有三維目標的分割掩模都可以通過3D邊界框註釋直接獲得,即3D框內的3D點被視爲前景點。因此,我們建議以自下而上的方式生成3D提案。具體來說,我們逐點學習點的特徵、分割原始點雲,同時從分割的前景點生成3D填。基於這種自下而上的策略,避免在3D空間中使用大量預定義的3D框,並且顯著限制了生成的3D提案的搜索空間。並且,作者的3D box提案方法比基於3D錨點的提案生成方法有更高的召回率。

  • 點雲的表示使用帶有msg(multi-scale grouping)的pointnet++作爲backbone,也可以使用VoxelNet等。
  • 前景點分割:作者的三維提案生成方法直接從前景點生成3D box 提案,同時完成前景分割和三維預測框生成。經backbone處理後的每個點的特徵,分別經過前景掩模預測分支和三維提案框迴歸分支完成相應任務。點分割的真實掩模有3D邊界框提供。並且使用focal loss來解決室外場景中,由前景點過少帶來的類別不平衡問題。
  • 基於bin的三維邊界框生成:邊界迴歸分支使用前景點回歸生成三維提案(要注意,背景點也參與了提案的生成)。爲了約束三維提案,作者提出了基於bin的迴歸損失估計目標的三維邊界框。預測3D邊界框需要預測中心位置、目標方向與目標尺寸。詳見P4。

二、點雲區域池化

在獲得三維邊界框方案後,根據之前生成的框提案來優化框的位置和方向。根據每個3D提案的位置,對每個點及其特徵進行池化。稍稍放大後的邊界框內的點及其特徵將被保留。然後使用分割掩模區分稍微放大框內的前景、背景點。沒有內部點的提案將會被消除。

三、規範3D邊界框優化

如圖2(b)所示,“pooled”點及其相關特徵都被送入Stage-2子網絡,以優化3D box的位置和前景目標的可信度。經過圖4所示的規範座標轉換,更好地學習每個提案的局部空間特徵。

在這裏插入圖片描述

之後優化子網絡將轉換後的局部空間點和Stage-1階段的全局語義特徵結合優化框和置信度。在這裏,作者在強度和掩模的基礎上,增加了深度信息,經全連接層後,“catenate”全局特徵送入網絡。同樣採用類似基於bin迴歸的損失用於提案優化。Stage-2的loss整體爲:

在這裏插入圖片描述

主要結果:

作者給出了PointRCNN在KITTI數據集上的評估效果。在Sec. 4.1給出了PointRCNN的實施細節,在Sec. 4.2給出了與SOTA的比較,在Sec. 4.3給出了PointRCNN的消融實驗分析。詳見P6-P8。

作者在KITTI 3D檢測標準的測試服務器上提交了PointRCNN的結果,見表1.尤其在汽車和自行車手的檢測上有顯著的優勢。在行人檢測方面,比以往只使用激光烈大輸入的方法有更好的結果,但是比多傳感器的效果較差。

在這裏插入圖片描述

作者在表2中,給出了關於車類別在驗證集上與其他previous SOTA的比較。發現在“hard difficulty”,平均精度有8.28%的提升。

在這裏插入圖片描述

表3使用召回率評估了在不同提案數目和3D IoU閾值的情況下提案子網絡的性能。雖然提案的召回率與最終的3D物體檢測性能有着鬆散的聯繫,但出色的召回率仍然表明提案生成網絡的穩健性和準確性。

在這裏插入圖片描述

最後的消融實驗也分別證明了規範座標轉換的必要性,發現了將提案框擴大1m時精度最高,也證明了基於bin的三維邊界框迴歸損失的有效性。詳見Sec.4.3。

Abstract

In this paper, we propose PointRCNN for 3D object detection from raw point cloud. The whole framework is composed of two stages: stage-1 for the bottom-up 3D proposal generation and stage-2 for refining proposals in the canonical coordinates to obtain the final detection results. Instead of generating proposals from  RGB  image or projecting point cloud to bird’s view or voxels as previous methods do, our stage-1 sub-network directly generates a small number of high-quality 3D proposals from point cloud in a bottom-up manner via segmenting the point cloud of the whole scene into foreground points and back- ground. The stage-2 sub-network transforms the pooled points of each proposal to canonical coordinates to learn better local spatial features, which is combined with global semantic features of each point learned in stage-1 for ac- curate box refinement and confidence prediction. Extensive experiments on the 3D detection benchmark of KITTI dataset show that our proposed architecture outperforms state-of-the-art methods with remarkable margins by using only point cloud as input. The code is available at https://github.com/sshaoshuai/PointRCNN.

 

請各位關注公衆號。更多的文章可以關注公衆號查看。
  這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章