Fast Point R-CNN | 一個或許跟PointRCNN和Fast RCNN都沒啥關係的點雲目標檢測網絡

原創

2020-02-22 06:58

【導讀】這是一篇來自ICCV2019的論文，由港中文的賈佳亞教授實驗室完成。雖然名字很接近，但是Fast Point R-CNN不僅跟Fast R-CNN沒有任何關係，它跟Point R-CNN也沒太大關係，找前景點，做精細迴歸思想相近。三者唯一的共同點就是它們三個都是two-stage網絡，但是網絡結構完全不同。

如果要強行歸類的話，Fast Point R-CNN應該算是VoxelNet一派的。這一點從網絡結構圖中可以看出。網絡的第一階段叫做VoxelRPN，類似於VoxelNet/SECOND的網絡結構，用來對體素化的點雲進行處理，網絡由3D卷積層+2D的2D的RPN構成；網絡的第二階段是RefinerNet，將原始點雲加入進來，並融入注意力機制，提高檢測效果。從這個角度來看，這個網絡應該叫Refiner-VoxelNet或許更爲貼切（我胡說的）。

網絡結構

下面仔細看下網絡結構，首先是第一階段的VoxelRPN：網絡由四個BLOCK構成，第一個BLOCK由3D卷積核構成，用來對體素進行處理，逐漸把Z維度上降低到1，也就成了2D特徵圖了。後面三個BLOCK用來對這個2D特徵圖進行進一步的特徵提取和融合。這裏筆者根據網絡結構計算了每個層的輸出特徵圖的尺寸。

但是，考慮到體素化處理點雲會丟失一定的定位信息，影響目標檢測精度。因此，網絡增加了RefinerNet用來進一步優化結果。

RefinerNet中引入了特徵增強和注意力機制，主要由MLP構成。網絡以包圍框特徵和點雲座標作爲輸入。通過一個獨特的fusion module來進行特徵的融合增強。先將這兩種特徵進行拼接並經過兩層MLP處理，然後與包圍框特徵得到的權值進行逐元素相乘，就這樣利用注意力機制來增強了網絡的定位能力。最後經過MLP後直接計算出包圍框8個頂點的座標。