頂會論文之三維目標檢測與三維目標跟蹤算法總結

常見的三維視覺數據是三維點雲數據。三維視覺任務類型包括三維目標跟蹤任務,三維目標檢測任務,點雲數據特有的三維點雲分類與分割任務。三維點雲數據是由無序的數據點構成一個集合來表示。在使用圖像識別任務的深度學習模型處理點雲數據之前,需要對點雲數據進行一些處理。目前採用的方式主要有兩種:一種是將點雲數據投影到二維平面。此種方式不直接處理三維的點雲數據,而是先將點雲投影到某些特定視角再處理,如前視視角和鳥瞰視角。同時,也可以融合使用來自相機的圖像信息。通過將這些不同視角的數據相結合,來實現點雲數據的認知任務。比較典型的算法有MV3D和AVOD。一種是將點雲數據劃分到有空間依賴關係的voxel。此種方式通過分割三維空間,引入空間依賴關係到點雲數據中,再使用3D卷積等方式來進行處理。這種方法的精度依賴於三維空間的分割細膩度,而且3D卷積的運算複雜度也較高。不同於以上兩種方法對點雲數據先預處理再使用的方式,PointNet是直接在點雲數據上應用深度學習模型的方法。

PointNet系列論文首先提出了一種新型的處理點雲數據的深度學習模型,並驗證了它能夠用於點雲數據的多種認知任務,如分類、語義分割和目標識別。PointNet的關鍵流程爲:輸入爲一幀的全部點雲數據的集合,表示爲一個nx3的2d tensor,其中n代表點雲數量,3對應xyz座標;輸入數據先通過和一個T-Net學習到的轉換矩陣相乘來對齊,保證了模型的對特定空間轉換的不變性;通過多次mlp對各點雲數據進行特徵提取後,再用一個T-Net對特徵進行對齊;在特徵的各個維度上執行maxpooling操作來得到最終的全局特徵;對分類任務,將全局特徵通過mlp來預測最後的分類分數;對分割任務,將全局特徵和之前學習到的各點雲的局部特徵進行串聯,再通過mlp得到每個數據點的分類結果。

受到CNN的啓發,作者提出了PointNet++,它能夠在不同尺度提取局部特徵,通過多層網絡結構得到深層特徵。PointNet++關鍵部分包括:採樣層,組合層和特徵提取層。上述各層構成了PointNet++的基礎處理模塊。如果將多個這樣的處理模塊級聯組合起來,PointNet++就能像CNN一樣從淺層特徵得到深層語義特徵。對於分割任務的網絡,還需要將下采樣後的特徵進行上採樣,使得原始點雲中的每個點都有對應的特徵。這個上採樣的過程通過最近的k個臨近點進行插值計算得到。

三維目標檢測算法按照數據劃分爲三個類別,即點雲,多視圖圖像(視圖或立體數據)和單目圖像。基於點雲的方法,例如,[1,2,3,6],可以直接獲取三維空間中物體表面上的點的座標,因此它們可以比沒有點雲的方法更容易地獲得更高的精度。基於多視圖的方法,例如,[4],可以使用從不同視圖的圖像中得到的視差來獲得深度圖。基於單視圖的方法,例如,[5],使用單目攝像頭完成三維目標檢測。雖然點雲和立體方法具有更準確的3D推理信息,但單目RGB相機的設備更方便,更便宜。單目攝像頭進行三維物體檢測是經濟型自動駕駛系統合理選擇。

GS3D[5]由香港中文大學Buyu Li等完成,其思想爲:首先預測二位目標的邊界以及方向;然後基於預測的二維信息,指導生成相應對象的基本長方體,最後基於表面提取的特徵以及緊緻二維邊界框執行分列公式和質量感知損失進行精確優化。通過2D探測器有效地確定預測對象的基本長方體。雖然粗糙,但基本長方體是可以接受的。其精確度可以指導確定空間位置,尺寸(高度,寬度,長度)和物體的方向等。提取不同可見表面的特徵,然後加以合併,因此結構信息被用來區分不同的3Dbox。將傳統迴歸的形式重新表述爲分類的形式,併爲其設計了質量敏感的損失函數。主要貢獻在於,基於可靠的二維檢測結果,GS3D是一種純單目攝像頭的方法。可以有效爲物體獲得粗糙的基本長方體。基本長方體提供了對象的位置大小和方向的可靠近似,並作爲進一步優化的指導;利用投影在二維圖像上的三維框的可見表面的結構信息,然後利用提取的特徵解決模糊問題;設計比較之後發現基於質量敏感的損失的離散分類的效果要更好。

PointNet和PointNet++主要用於點雲數據的分類和分割問題,Frustum-PointNet(F-PointNet)將PointNet的應用拓展到了3D目標檢測上。目前單純基於Lidar數據的3D目標檢測算法通常對小目標檢測效果不佳,爲了處理這個問題,F-PointNet提出了結合基於圖像的2D檢測算法來定位目標,再用其對應的點雲數據視錐進行bbox迴歸的方法來實現3D目標檢測。從KITTI數據集的檢測結果來看,得益於精確的基於圖像的2D檢測模型,F-PointNet對小目標的檢測效果確實處於領先地位。F-PointNet由2D目標檢測模型和3D分割和迴歸網絡構成,並非爲端到端的模型。可以考慮將其組合成一個端到端的網絡。

基於點雲數據,PointRCNN[6]實現了純粹使用點雲數據完成三維目標檢測任務。PointRCNN是香港中文大學發佈的3D目標檢測框架,整個框架包括兩個階段:第一階段使用自下而上的3D提案產生,第二階段用於在規範座標中修改提案獲得最終的檢測結果。Stage-1階段子網絡不是從RGB圖像或者將點雲投影到鳥類視圖或者體素中,而是通過將整個場景的點雲分割爲前景點和背景點,以自下而上的方式直接從點雲生成少量高質量的3D提案。Stage-2階段子網絡將每個提案的池化的點轉換爲規範座標,更好地學習局部空間特徵,這個過程與Stage-1中學習每個點的全局語義特徵相結合,用於Box優化和置信度預測。對KITTI數據集的3D檢測基準的廣泛實驗表明,該架構優於只是用點雲作爲輸入具有顯著邊緣的最先進方法。

用於點雲的目標檢測方法,精度較高的還有港中文&商湯科技發表的Part-A2 Net[8],而海康威視的Voxel-FPN[7]單論mAP只能說勉強接近SOTA水平,但論文mAP與FPS的Trade-off,50 FPS的速度,還是強壓其他算法的。

同樣,在今年的CVPR中,出現了3D點雲的3D目標跟蹤算法,在[9]中Silvio Giancola等研究了激光雷達點雲三維目標跟蹤中形狀補全的通用性。他們設計了一個孿生跟蹤器,將模型和候選形狀編碼成緊湊的潛在表達,並通過將潛在表達解碼成目標模型形狀實現規範編碼。並且作者發現,三維物體跟蹤和三維形狀補全是相輔相成的。學習更有意義的潛在表達可以顯示更好地區分能力,從而提高跟蹤性能。在KITTI跟蹤數據集使用上汽車3D bounding boxes測試,三維目標跟蹤的成功率爲76.94%,精度爲81.38%,形狀補全Shape Completion正則化使得兩種指標都提高了3%。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章