Fast Point R-CNN | 一個或許跟PointRCNN和Fast RCNN都沒啥關係的點雲目標檢測網絡

【導讀】這是一篇來自ICCV2019的論文,由港中文的賈佳亞教授實驗室完成。雖然名字很接近,但是Fast Point R-CNN不僅跟Fast R-CNN沒有任何關係,它跟Point R-CNN也沒太大關係,找前景點,做精細迴歸思想相近。三者唯一的共同點就是它們三個都是two-stage網絡,但是網絡結構完全不同。

如果要強行歸類的話,Fast Point R-CNN應該算是VoxelNet一派的。這一點從網絡結構圖中可以看出。網絡的第一階段叫做VoxelRPN,類似於VoxelNet/SECOND的網絡結構,用來對體素化的點雲進行處理,網絡由3D卷積層+2D的2D的RPN構成;網絡的第二階段是RefinerNet,將原始點雲加入進來,並融入注意力機制,提高檢測效果。從這個角度來看,這個網絡應該叫Refiner-VoxelNet或許更爲貼切(我胡說的)。

 

  • 網絡結構

下面仔細看下網絡結構,首先是第一階段的VoxelRPN:網絡由四個BLOCK構成,第一個BLOCK由3D卷積核構成,用來對體素進行處理,逐漸把Z維度上降低到1,也就成了2D特徵圖了。後面三個BLOCK用來對這個2D特徵圖進行進一步的特徵提取和融合。這裏筆者根據網絡結構計算了每個層的輸出特徵圖的尺寸。

但是,考慮到體素化處理點雲會丟失一定的定位信息,影響目標檢測精度。因此,網絡增加了RefinerNet用來進一步優化結果。

RefinerNet中引入了特徵增強和注意力機制,主要由MLP構成。網絡以包圍框特徵和點雲座標作爲輸入。通過一個獨特的fusion module來進行特徵的融合增強。先將這兩種特徵進行拼接並經過兩層MLP處理,然後與包圍框特徵得到的權值進行逐元素相乘,就這樣利用注意力機制來增強了網絡的定位能力。最後經過MLP後直接計算出包圍框8個頂點的座標。

計算之前先對標籤中的包圍框進行調整,並且約定了角點的順序。

  • 實驗結果

效果比“體素門派”的SECOND和PointPillars稍微好一點,逼近PointRCNN。速度的話,用的GPU不一樣,比較的意義不是很大。所以你現在已經躍躍欲試,準備入坑Fast Point R-CNN了嗎?

且慢……

“模型在8塊NVIDIA P40 GPU上進行訓練,batch size設置爲16”……

再想想那些在一塊1080Ti上就能訓練的SECOND、PointPillars、Point R-CNN……


往期相關

歡迎關注公衆號:3D點雲深度學習

發佈了26 篇原創文章 · 獲贊 31 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章