PointRCNN: 點雲的3D目標生成與檢測

PointRCNN: 點雲的3D目標生成與檢測

PointRCNN: 3D Object Proposal Generation and
Detection from Point Cloud

論文地址:https://arxiv.org/abs/1812.04244

代碼地址:https://github.com/sshaoshuai/PointRCNN

摘要

本文提出了一種基於點雲的三維目標檢測方法。整個框架由兩個階段組成:第一階段用於自下而上的3D方案生成,第二階段用於在標準座標系中細化方案以獲得最終的檢測結果。stage-1子網沒有像以前的方法那樣從RGB圖像或投影點雲到鳥瞰圖或體素中生成建議,而是通過將整個場景的點雲分割成前景和背景,以自下而上的方式直接從點雲生成少量高質量的3D建議。第二階段子網絡將每個方案的集合點轉換爲規範座標,以學習更好的局部空間特徵,並結合第一階段學習到的每個點的全局語義特徵,進行精確的box細化和置信度預測。在KITTI數據集的三維檢測基準上進行的大量實驗表明,僅使用點雲作爲輸入架構,其性能優於最新的方法,並且具有顯著的邊緣特徵。

本文貢獻可以概括爲三個方面。

(1) 提出了一種基於自下而上點雲的三維包圍box方案生成算法,通過將點雲分割成前景和背景,生成少量高質量的三維圖像方案。從分割中得到的學習點表示不僅有利於方案的生成,而且有助於以後的box求精。
(2) 所提出的規範化三維包圍box精化利用了從階段1產生的高召回box建議,並學習在具有穩健的基於bin的損失的規範化座標中預測box座標精化。
(3) 提出的3D檢測框架PointRCNN以顯著的優勢超過了最新的方法,並在截至2018年11月16日所有已發表的3D檢測作品中排名第一,只使用點雲作爲輸入測試KITTI板。
在自主駕駛中,最常用的三維傳感器是激光雷達傳感器,它生成三維點雲來捕捉場景的三維結構。基於點雲的三維目標檢測的難點主要在於點雲的不規則性。最先進的三維檢測方法要麼利用成熟的二維檢測, 通過將點雲投影到鳥瞰圖[14,42,17]中(見圖1(a))、正面圖[4,38]或規則的三維體素[34,43]中的框架,它們不是最優的,並且在量化過程中遭受信息丟失。
點雲三維檢測的PointRCNN
在這一部分中,提出了一個兩階段的偵測架構,即PointRCNN,檢查來自不規則點雲的三維物體。整體結構如圖2所示,包括自下而上的3D方案生成階段和規範化的包圍box細化階段。
Bin-based 3D bounding box generation
在激光雷達座標系中,三維邊界框表示爲(x,y,z,h,w,l,θ),其中(x,y,z)是對象中心位置,(h,w,l)是對象大小,θ是鳥瞰圖中的對象方向。爲了約束生成的3Dbox建議,提出了基於bin的迴歸損失估計對象的3D包圍box。
爲了估計物體的中心位置,如圖3所示,沿着X和Z軸將每個前景點的周圍區域分割成一系列離散的box。具體地說,爲當前前景點的每個X軸和Z軸設置一個搜索範圍S,並且每個1D搜索範圍被劃分爲均勻長度δ的box,以表示X-Z平面上不同的對象中心(X,Z)。對於X軸和Z軸,使用基於交叉熵損失的bin分類,而不是使用平滑L1損失的直接回歸,可以獲得更精確和穩健的中心定位。
最終召回(IoU閾值0.5和0.7)和第一階段的100個提案被用作評估指標,如圖5所示。圖中顯示了基於全箱的三維包圍盒迴歸損失的有效性。
第一階段的子網絡使用的基於全bin的損失函數比所有其他損失函數獲得更高的召回率和更快的收斂速度,這得益於使用先驗知識約束目標,特別是定位。基於部分bin的損失具有相似的召回率,但收斂速度慢得多。
完全和部分基於bin的損失都顯著高於其他損失函數,特別是在IoU閾值爲0.7時。通過改進角度迴歸指標,基於餘弦的改進loss比基於餘弦的loss具有更好的召回率。
定性結果
圖6顯示了在KITTI[7]數據集的測試分割上提出的PointRCNN的一些定性結果。該圖像只是爲了更好的可視化,PointRCNN只將點雲作爲輸入來生成3D檢測結果。
分析了每種類型的特徵對細化子網絡的影響,去掉其中一個並保持所有其他部分不變。所有實驗共用一個固定的一級子網進行公平比較。結果顯示在表4。如果不進行正則變換,細化子網絡的性能會顯著下降,表明將細化子網絡轉化爲正則座標系可以極大地消除旋轉和位置變化,提高第二階段特徵學習的效率。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章