【論文閱讀】【三維目標檢測】Voxel-FPN

論文題目
Voxel-FPN: multi-scale voxel feature aggregation in 3D object detection from point clouds

該論文由海康威視出品,雖然結構簡單,但效果就是好。排到了第三的位置上。

Voxel-FPN

整體框架如下,分爲三個部分。
在這裏插入圖片描述

Voxel Feature Extraction

這部分的feature的extraction的方式是與VoxelNet一模一樣的,具體見下圖:
在這裏插入圖片描述
與VoxelNet不同是,在提取Voxel的feature的時候,就對多個尺度的Voxel進行了處理。分別爲S,2S和4S,與傳統的FPN不同,輸入的圖片只有最高分辨率的一張,本文相當於對輸入的圖片就行了下采樣,與不同層的feature map相融合。

Multi-scale Feature Aggregation

得到的Voxel的feature其實還是一個四維的數據,但文中也沒細說怎麼處理,反正用的卷積核是2D卷積核,所以我認爲是將同一位置不同高度的voxel的feature堆疊起來了。
具體的操作如下圖:
在這裏插入圖片描述

RPN-FPN

具體構成也沒有講,從要回歸和分類的變量看,也比較普通:
在這裏插入圖片描述

實驗

實驗結果就分爲如下兩塊,第一個是自己的ablation study:
在這裏插入圖片描述
另外一個就是對比:
在這裏插入圖片描述

思考

1、爲什麼加了4S的feature,效果反而降下來很多?文章中也沒分析,我對此也不理解。
2、文章中SSD與FPN-RPN的對比,其實我不是很理解這部分的對比。SSD的detection head是加在了下采樣的過程中,FPN-RPN的detection head是加在了上採樣的過程中。而文中說的類似於SSD的設置,具體也沒講清楚,所以不知道SSD要比FPN-RPN強在哪裏?
3、其實可以看到,本文作爲在俯視圖中使用One-stage檢測方法的典型代表,與PointPillars和VoxelNet(two-stage),但本文方法效果就是很好。與PointPillars相比,理論上的區別在於PointPillars是使用PointNet提取每一個Voxel的特徵的,而且一個Voxel是佔據空間中一個豎直長條的位置的。與VoxelNet相比,是吧雙階段的檢測模型換成了單階段。
4、本文的內容寫的還是比較粗糙,很多細節都沒有交代,例如detection head的具體構成,object在FPN中由哪個層預測的assignment等等,需要看了代碼才能理理清楚。但本文效果非常好,使用的訓練的具體方式,如果能放出來,也許有很大的借鑑作用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章