【論文速覽】PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

摘要

提出了一種新的高性能的三維目標檢測框架:PointVoxel-RCNN(PV-RCNN),用於從點雲中精確檢測三維目標。該方法將3D體素卷積神經網絡(CNN)和基於PointNet的集合抽象有機地結合起來,以學習更具鑑別能力的點雲特徵。它利用了3D體素CNN的高效學習和高質量提案以及基於PointNet的感受野可變的優勢。具體地說,該框架通過一個新的體素集抽象模塊將具有3D體素CNN的3D場景總結成一個小的關鍵點集,以節省後續計算,並對具有代表性的場景特徵進行編碼。考慮到體素CNN生成的高質量3D提案,使用RoIgrid池化,通過具有多個感受野的關鍵點集抽象將提案特定的特徵從關鍵點抽象到RoI-grid點。與傳統的池化操作相比,RoI-grid特徵點編碼更豐富的上下文信息,以準確估計對象的密度和位置。在KITTI數據集和Waymo開放數據集上進行的大量實驗表明,PV-RCNN僅使用點雲就可以在顯著的邊緣上超越最新的3D檢測方法。
論文鏈接:https://arxiv.org/pdf/1912.13192.pdf

主要貢獻

在本文中,我們建議通過設計新穎的點體素集成網絡以從不規則點雲中學習更好的3D特徵來實現高性能3D對象檢測。該文將point based方法與voxel based方法結合的新型網絡結構,結合voxel方法卷積的高效和提取特徵的有效性,又結合利用原始點雲的精確的位置信息和pointNet++感受野(也即半徑大小)設置的靈活性。PV-RCNN爲結合這兩種方法的算法,採用multi-scale的方法獲得由voxel_based方法得到的高質量的proposals,然後再利用Point_based的方法獲得精細的局部信息。在每一個3D proposals內平均的採樣一些Grid-point,然後再通過最遠點採樣的方法得到該Grid_point周圍的點,再通過結合去進一步refine最後的proposals。 但是,由於體素的數量和網格點的數量都可能很大,以實現令人滿意的性能,因此該策略需要佔用大量內存。因此,作者採用兩階段的方法去更好的結合上述的兩種算法的優點。第一階段爲:“voxel-to-keypoint scene encoding step ”,這一步是提出proposals,作者首先對整個場景採用voxel的方法進行特徵提取,同時採取一支分支對場景採用point的FPS採樣,然後檢索得到多尺度的voxel的特徵。這樣實際上僅僅是採用了voxel的特徵,但是表示在key-point身上。(2)第二階段爲‘keypoint-to-grid RoI feature abstraction’:這一步驟,作者提出了一個新的RoI-grid pooling module,該模塊將上一步驟的keypoints的特徵和RoI-grid points特徵融合。然後,所有RoI-grid points的聚合特徵共同用於後續的提案優化。
在這裏插入圖片描述
本文的主要貢獻是:
(1)提出了PV-RCNN框架,該框架有效地利用了基於體素和基於點的方法進行3D點雲特徵學習,從而通過可管理的內存消耗提高了3D目標檢測的性能。
(2)提出了體素到關鍵點場景編碼方案,該方案通過體素集抽象層將整個場景的多尺度體素特徵編碼爲一小組關鍵點。這些關鍵點功能不僅可以保留準確的位置,還可以對豐富的場景上下文進行編碼,從而顯著提高3D檢測性能。
(3)爲每個提案中的網格點提案一個多尺度RoI特徵抽象層,該層將來自場景的豐富上下文信息與多個感受野進行聚合,以進行精確的框優化和置信度預測。
(4)提出的方法PV-RCNN以顯著的優勢勝過所有先前的方法,在競爭激烈的KITTI 3D檢測基準測試中排名第一[10],並且在大規模Waymo Open數據集上也以較大的優勢超越了先前的方法。

算法框架:

在這裏插入圖片描述
如圖所示,整個框架有以下幾個步驟:
• 將原始點雲用3D sparse convolution生成網格化的特徵。
• 將下采樣八倍的特徵圖投影到BEV(將Z軸特徵堆疊到一起,生成俯視圖)。生成3D推薦框,每一個像素每一類生成兩個推薦框,分別是0度和90度。和前面兩種方法不一樣,這篇論文使用的是anchor-base的方法,但是具有更高的recall值。
• 用FPS(最遠點採樣),採樣到分佈均勻的KeyPoint。
• 用類似pointNet++,set abstraction的方式,將Keypoint半徑大小以內的voxel特徵進行聚合,得到具有精確位置信息,不規則的點雲特徵。
• Predicted Keypoint Weighting模塊,每一個關鍵點的權重是不一樣的,主要是在於作者認爲前景點的權重要大於背景點的權重影響。
• Keypoint-to-grid,一樣通過set abstraction方式進行聚合成規則的網格信息,紅色點爲網格點不是真實點雲中的點,黃色爲Keypoint,生成特徵之後進行refine推薦框。

算法分爲兩階段,第一階段爲:“voxel-to-keypoint scene encoding step ”,如下表示。
在這裏插入圖片描述
Keypoints Sampling
採用FPS,對KITTI數據集的關鍵點個數爲2048,對waymo數據集爲4096個點。用於代表整個場景的特徵信息。
Voxel Set Abstraction Module
作者自行設計了Voxel Set Abstraction (VSA) module這樣的一個模塊,這個模塊的作用是將keypoint周圍非空的voxel特徵採集出來結合在一起,原文用了很多數學表達,含義大致如此。
Extended VSA Module
進一步的在二維上,採用的是雙線性插值得到關鍵點投影到BEV上的特徵。最終的特徵將有三部分組成,分別是來自voxel語義信息, 來自原始點雲的特徵信息,來自BEV的高級信息
Predicted Keypoint Weighting.
(1)上述的特徵融合實際上都是爲了進一步的refine做準備,第一階段的proposals實際上是由voxel-based的方法提出來的,這一步 Keypoint Weighting的工作是爲了給來自背景和前景的關鍵點一個不一樣的權重,使得前景對refine的貢獻更大。也即前景點的predict和特徵相乘,這樣前景點的權重就會大於背景點。
(2)爲了做這樣的一個工作,作者設計瞭如下的網絡結構。這裏面的Label對應的是是否在gt內,採用fcoal_loss。

在這裏插入圖片描述
(2)第二階段爲‘keypoint-to-grid RoI feature abstraction’,前文提到通過3D稀疏卷積處理voxel已經得到了比較好的精度的proposals,但是多尺度的keypoint的特徵是爲了進一步refine結果。因此作者在這個階段提出了keypoint-to-grid RoI feature abstraction模塊。如下:

在這裏插入圖片描述
如圖所示,紅點代表網格點,淡黃表示KeyPoint,深黃表示原始點。用網格點爲中心,設置可變半徑去聚合附近的KeyPoint的特徵,將KeyPoint的特徵規則化,重新變爲Voxel類型的特徵。這樣做有兩個好處:1. 提取Voxel特徵時可以採集到框以外,物體邊界的信息,對推薦框refine有好處。2. 大大減少了0值特徵,減少了特徵空間的稀疏性。
作者在每個proposals中都採樣6×6×6個grid points.首先確定每一個grid-point的一個半徑下的近鄰,然後再用一個pointnet模塊將特徵整合爲grid_point的特徵,這裏會採用多個scale的特徵融合手段。得到了所有的grid-point的點特徵後,作者採用兩層的MLP得到256維度的proposals的特徵。

3D Proposal Refinement and Confidence Prediction
作者在confidence prediction branche 這一分支上採用了前人提出的 3D Intersection-over-Union (IoU),對於第k個ROI的置信度的目標是如下公式:
在這裏插入圖片描述
該公式中表示第k個ROI對應的GT,因此confidence prediction branche的LOSS函數採用的是交叉熵loss:
在這裏插入圖片描述

訓練loss
RPN loss
在這裏插入圖片描述
Keypoint seg loss 即爲前背景關鍵點的權重loss
refinement loss 定義如下:
在這裏插入圖片描述

主要結果

在兩個數據集上的性能如下:

在這裏插入圖片描述
在這裏插入圖片描述

Abstract
We present a novel and high-performance 3D object detection framework, named PointVoxel-RCNN (PV-RCNN), for accurate 3D object detection from point clouds. Our proposed method deeply integrates both 3D voxel Convolutional Neural Network (CNN) and PointNet-based set abstraction to learn more discriminative point cloud features. It takes advantages of efficient learning and high-quality proposals of the 3D voxel CNN and the flexible receptive fields of the PointNet-based networks. Specifically, the proposed framework summarizes the 3D scene with a 3D voxel CNN into a small set of keypoints via a novel voxel set abstraction module to save follow-up computations and also to encode representative scene features. Given the highquality 3D proposals generated by the voxel CNN, the RoIgrid pooling is proposed to abstract proposal-specific features from the keypoints to the RoI-grid points via keypoint set abstraction with multiple receptive fields. Compared with conventional pooling operations, the RoI-grid feature points encode much richer context information for accurately estimating object confidences and locations. Extensive experiments on both the KITTI dataset and the Waymo Open dataset show that our proposed PV-RCNN surpasses state-of-the-art 3D detection methods with remarkable margins by using only point clouds.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章