3D點雲目標檢測算法彙總

作者:Tom Hardy
Date:2020-2-12
來源:彙總|3D點雲目標檢測算法

前言

前面總結了幾種基於激光雷達點雲數據的3D目標檢測算法,還有一些算法不再單獨列出,這裏做個簡單總結來分享下!

基於激光雷達點雲的3D目標檢測算法

1、End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Clouds(Waymo和Google聯合提出)

主要提出了一種新的端到端多視圖融合(MVF)算法,該算法能有效地學習利用透視圖和點雲信息。具體地說,論文介紹了動態體素化,它與現有的體素化方法相比有四個優點:
1、 消除了預先分配具有固定大小的張量需要;
2、 克服了由於隨機點/體素丟失引起的信息損失;
3、 產生確定的體素嵌入和更穩定的檢測結果;
4、 建立點和體素之間的雙向關係,這爲跨視點特徵融合奠定了基礎;
通過採用動態體素化,提出的特徵融合體系結構可以使每個點學習融合來自不同視圖的信息。MVF對點進行操作,可以自然地從激光雷達點雲擴展到其他方法。在最新發布的Waymo開放數據集和KITTI數據集上廣泛評估了MVF模型,並證明它比可比較的單視圖點柱baseline顯著提高了檢測精度。
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述

2、LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving(Uber提出, CVPR2019)

本文提出了一種基於激光雷達數據的自動駕駛三維目標檢測算法LaserNet。這項工作提出了一種有效的方法來學習一個端到端的概率三維目標檢測器。當有足夠的訓練數據時,通過使用一個小而密集的範圍圖像,而不是一個大而稀疏的鳥瞰圖像,可以在顯著降低運行時間的情況下獲得最新的檢測性能。該方法不僅爲每個檢測產生一個類概率,而且在檢測邊界盒上產生一個概率分佈。本文提出的方法是第一個通過模擬包圍盒角點的分佈來捕捉檢測的不確定性。通過估計檢測的精度,該方法可以使全自動駕駛系統中的下游部件在具有不同不確定性的物體周圍表現出不同的行爲。

在這裏插入圖片描述
在這裏插入圖片描述

3、BirdNet: a 3D Object Detection Framework from LiDAR information

本文針對3D檢測任務,提出了一種面向激光雷達數據的新的網絡框架BirdNet。首先,將激光雷達數據投影到一種新的用於鳥瞰投影的cell編碼中。然後,通過一個最初設計用於圖像處理的卷積神經網絡來估計目標在平面上的位置和方向。最後,在後處理階段計算面向3D的檢測任務。
在這裏插入圖片描述
在這裏插入圖片描述

4、LMNet: Real-time Multiclass Object Detection on CPU using 3D LiDAR(英特爾提出)

本文描述了一種優化的單級深層卷積神經網絡LMNet,它只使用點雲數據來檢測城市環境中的目標。此功能使該方法能夠在一天中的任何時間和照明條件下工作。提出的網絡結構採用擴展卷積,隨着深度的增加,感知場逐漸增大,計算時間減少約30%。網絡輸入包括無組織點雲數據的五種透視表示,網絡爲每個點輸出對象貼圖和邊界框偏移值。實驗表明,使用反射、範圍和三個軸上的每個軸上的位置有助於改善輸出邊界框的位置和方向。在KITTI數據集評估服務器的幫助下進行了定量評估,獲得了最快的處理速度,使其適合實時應用。本文在一輛裝有Velodyne HDL-64的實車上實現並測試了網絡。基於桌面GPU實現了高達50 FPS的執行速度,在單個Intel Core i5 CPU上實現了高達10 FPS的執行速度。
在這裏插入圖片描述
在這裏插入圖片描述

5、PIXOR: Real-time 3D Object Detection from Point Clouds(Uber和多倫多大學提出)

本文在自主駕駛環境下,研究了基於點雲的實時三維目標檢測問題。計算速度至關重要,因爲檢測是安全的必要組成部分。然而,由於點雲的高維性,現有的方法在計算上是昂貴的。論文通過從鳥瞰圖(BEV)中表示場景來更有效地利用3D數據,並提出了PIXOR,一種proposal-free的單級檢測器,它輸出從像素級神經網絡預測解碼的定向3D對象估計。網絡特別設計了輸入表示、網絡結構和模型優化,以平衡高精度和實時性。論文在兩個數據集上驗證了PIXOR:KITTI-BEV目標檢測數據集和large-scale 3D車輛檢測基準。兩個數據集表明,所提出的檢測器在平均精度(AP)方面明顯優於其他最先進的方法,而且速度上仍高於28fps。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

6、PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud(香港大學提出,CVPR2019)

本文提出了一種基於點雲的三維目標檢測方法。整個框架由兩個階段組成:第一階段用於自下而上的3D region proposal,第二階段用於在標準座標系中細化proposal以獲得最終的檢測結果。第一階段子網絡沒有像以前的方法那樣從RGB圖像或投影點雲到鳥瞰圖或體素中生成建議,而是通過將整個場景的點雲分割成前景點和背景,以自下而上的方式直接從點雲生成少量高質量的3D建議。第二階段子網絡將每個方案的集合點轉換爲規範座標,以學習更好的局部空間特徵,並結合第一階段學習到的每個點的全局語義特徵,進行精確的box細化和置信度預測。在KITTI數據集的三維檢測基準上進行的大量實驗表明,本文提出的架構僅使用點雲作爲輸入,其性能優於最新的方法,並且具有顯著的邊緣。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

7、YOLO3D: End-to-end real-time 3D Oriented Object Bounding Box Detection from LiDAR Point Cloud

基於YOLOv2進行改進的文章,主要將3D點雲在二維透視圖像空間進行映射,並在在二維透視圖像空間的一次迴歸元結構成功的基礎上,對其進行擴展,從LiDAR點雲生成面向三維對象的bounding box。本文的主要貢獻是將YOLO v2的損失函數擴展爲包含偏航角、笛卡爾座標系中的3D box中心和box高度的直接回歸問題。文章創新度不大,但是效果和速度值得借鑑:Titan X GPU上實現了實時性能(40 fps)。
在這裏插入圖片描述
在這裏插入圖片描述

8、FVNet: 3D Front-View Proposal Generation for Real-Time Object Detection from Point Clouds(上海交大&騰訊優圖)

與二維點雲相比,原始點雲和稀疏點雲的三維目標檢測得到的處理要少得多。
本文提出了一種新的基於點雲的三維前視圖生成和目標檢測框架FVNet。它包括兩個階段:前視圖proposal的生成和三維bounding box參數的估計。本文沒有從相機圖像或鳥瞰圖中生成proposal,而是先將點雲投影到柱面上,生成保留豐富信息的前視特徵圖。然後引入一個region proposal網絡,從生成的地圖中預測三維區域proposal,並進一步從整個點雲中提取出感興趣的對象。最後,論文提出了另一個網絡,從提取出的目標點中提取點特徵,並在標準座標系下回歸最終的三維bounding box參數。FVNet以每個點雲樣本12毫秒的速度實現實時性能。在三維檢測基準KITTI上進行的大量實驗表明,所提出的結構在精度上和速度上優於以相機圖像或點云爲輸入的最新技術。
在這裏插入圖片描述
在這裏插入圖片描述

發佈了267 篇原創文章 · 獲贊 297 · 訪問量 42萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章