【論文速覽】PointPainting: Sequential Fusion for 3D Object Detection

摘要

攝像頭和激光雷達是通常是機器人技術,特別是自動駕駛汽車的重要傳感器形式。傳感器提供補充信息,爲緊密的傳感器融合提供了機會。令人驚訝的是,僅使用激光雷達的方法在主要基準數據集上的性能優於融合方法,這表明文獻中存在空白。在這項工作中,提出了PointPainting:一種填補這一空白的順序融合方法。PointPainting將激光雷達點投影到僅圖像的語義分割網絡的輸出中並將類分數附加到每個點。然後可以將附加的(painted)點雲饋送到任何僅激光雷達的方法。實驗顯示,在KITTI和nuScenes數據集上,對三種不同的最新方法Point-RCNN,VoxelNet和PointPillars進行了重大改進。 PointRCNN的“painted”版本代表了KITTI排行榜上用於鳥瞰檢測任務的最新技術水平。在消融實驗中,研究“Painting”的效果如何取決於語義分割輸出的質量和格式,並演示如何通過流水線將等待時間最小化。

主要貢獻:

在這項工作中,提出了PointPainting:一種簡單而有效的順序融合方法。 將每個激光雷達點投影到圖像語義分割網絡的輸出中,並將通道方向的激活與每個激光雷達點的強度測量連接起來。然後,級聯(painted)的激光雷達點可用於任何激光雷達檢測方法,無論是鳥瞰圖還是正視圖。PointPainting解決了以前融合概念的缺點:它不對3D檢測架構增加任何限制;它不會遭受特徵或深度模糊的困擾;它不需要計算僞點雲,也沒有限制最大召回率。需要注意的是,對於直接在原始點雲上運行的激光雷達檢測方法,PointPainting需要最少的網絡適應性,例如更改專用於讀取點雲的通道數。對於使用手動編碼特徵的方法,需要一些額外的工作來修改特徵編碼器。

PointPainting在設計上是順序的,這意味着並非總是可以端到端地針對3D檢測的最終任務進行優化。從理論上講,這暗示着性能上的次優。但是從經驗上講,PointPainting比所有其他融合方法更有效。此外,順序方法還具有其他優點:(1)圖像的語義分割通常是有用的獨立中間結果,並且(2)在實時3D檢測系統中,可以通過對圖像和激光雷達進行流水線處理來減少等待時間網絡,使激光雷達點用上一張圖片的語義修飾。消融實驗表明,這種流水線操作不會影響性能。

使用三種具有公共代碼的僅使用激光雷達的先進方法來實現PointPainting:PointPillars,VoxelNet(SECOND)和PointRCNN。Point-Painting可以改善結果,實際上,Point-Painting版的PointRCNN在KITTI排行榜上達到了最先進的水平。在NuScenes上Painted PointPillars有顯着改善,mAP提升了6.3。

本文的主要貢獻是:
主要貢獻是一種新穎的融合方法PointPainting,它通過圖像語義增強了點雲。 通過廣泛的實驗,證明PointPainting是:
通用–與KITTI和nuScenes基準測試中的3種僅使用激光雷達的頂級方法一起使用時,實現了重大改進;
準確– PointRCNN的painted版本在KITTI基準上達到了最先進的水平;
強大– PointRCNN和PointPillars的painted版本分別改善了KITTI和nuScenes測試集上所有類的性能。
快速-通過流水化圖像和激光雷達處理步驟可以實現低延遲融合。

算法框架

PointPainting體系結構接受點雲和圖像作爲輸入,並估計3D的邊界框。 它包括三個主要階段(圖2)。 (1)語義分割:基於圖像的sem. seg.網絡計算像素細分分數。 (2)融合:基於sem. seg.網絡得到的分數,激光雷達點被噴塗。 (3)3D目標檢測:基於激光雷達的3D檢測網絡。
在這裏插入圖片描述
1、基於圖像的語義網絡
圖像sem. seg.網絡接收輸入圖像並輸出每個像素類別的分數。這些分數可作爲圖像的緊湊特徵。在融合中使用sem. seg.網絡有幾個主要優點:首先,sem. seg.網絡與3D目標檢測相比,這是一項更輕鬆的任務,因爲分割僅需要按像素進行局部分類,而目標檢測則需要3D定位和分類。執行sem. seg.的網絡更容易訓練,也可以快速推斷。第二,sem. seg.的技術迅速發展,這使PointPainting可以受益於分割和3D目標檢測的進步。最後,在機器人技術或自動駕駛汽車系統中,sem. seg.輸出是用於諸如自由空間估計之類的任務的有用的獨立輸出。作者在KITTI實驗的分割得分是從DeepLabv3中得出的,而對於nuScenes實驗,則訓練了一個自定義,更輕巧的網絡。但是,注意到PointPainting與圖像分割網絡設計無關。
2、PointPainting
在這裏插入圖片描述
對於KITTI和nuScenes,激光雷達點雲中的每個點分別是(x,y,z,r)或(x,y,z,r,t),其中x,y,z是每個激光雷達點的空間位置, r是反射率,t是激光雷達點的相對時間戳(適用於使用多次激光雷達掃描的情況)。激光雷達點通過均勻變換進行變換,然後投影到圖像中。對於KITTI,此轉換由Tcamera<-lidar提供。nuScenes的轉換更復雜一些,因爲激光雷達和攝像頭的工作頻率不同。完整的轉換是:
在這裏插入圖片描述
將lidar幀轉換爲ego-vehicle幀;激光雷達捕獲時的ego幀t1到圖像捕獲時tc的ego幀;和ego幀到相機幀。最後,相機矩陣M將點投影到圖像中。

細分網絡的輸出爲C類評分,其中KITTI C = 4(汽車,行人,自行車,背景),nuScenes C = 11(10個檢測類別加上背景)。一旦將激光雷達點投影到圖像中,相關像素的分割分數(h,w)就會附加到激光雷達點上,以創建painted的激光雷達點。請注意,如果兩個攝像機的視場重疊,則會有一些點同時投射在兩個圖像上,因此從兩個圖像之一中隨機選擇分割分數矢量。另一種策略可以是通過比較它們的熵或前兩個得分之間的餘量來選擇更具區別性的得分向量。這些留待研究。
3、激光雷達檢測
PointPainting只是更改了激光雷達點的輸入尺寸,因此可用任何激光雷達網絡處理。帶有人工設計的編碼器的激光雷達網絡也可以使用PointPainting,但是每種方法都需要專門的特徵設計。在本文中,演示了PointPainting與三種不同的激光雷達檢測器一起使用:PointPillars,VoxelNet和PointRCNN。這些都是具有不同網絡架構的最先進的激光雷達檢測器:單級(PointPillars,VoxelNet)與兩級(PointRCNN),支柱(PointPillars)與體素(VoxelNet)與點(PointRCNN)。 儘管有這些不同的設計選擇,所有激光雷達網絡都可以從PointPainting中受益(表1)。請注意,在此選擇中儘可能地包容,這些代表了所有具有公共代碼的頂級KITTI檢測排行榜方法。
在這裏插入圖片描述

主要結果

1 KITTI
所有檢測結果均使用官方的KITTI鳥瞰(BEV)和3D評估檢測來測量。BEV結果在此處顯示,而3D結果包含在補充材料中。KITTI數據集分爲容易,中度和困難難度,並且官方KITTI排行榜按中等平均精度(AP)的性能進行排名。
在這裏插入圖片描述
驗證集 首先,研究PointPainting對三個領先的激光雷達檢測器的影響。圖1和表1證明PointPainting改善了PointPillars,VoxelNet和PointRCNN的檢測性能。PointPainting語義信息導致檢測方面的廣泛改進:PointPainting改進了27個比較中的24個(3個實驗3類3層)。儘管最大的變化是針對更具挑戰性的行人和騎車者檢測場景,但大多數網絡都對汽車進行了改進。這表明PointPainting的實用程序獨立於基礎激光雷達網絡。

測試集 將PointPainting與最新的KITTI測試結果進行比較。KITTI排行榜僅允許每篇論文提交一次,因此無法提交表1中的所有Painted方法。儘管在val集合上Painted PointPillars的表現優於Painted PointRCNN,但只有PointPillars具有nuScenes的公共代碼。因此,爲了建立PointPainting的通用性,選擇將Painted PointPillars結果提交給nuScenes測試,並將Painted PointRCNN在KITTI提交。

如表2所示,PointPainting大大改進了PointRCNN的測試集:平均精度在所有階層中的每個單一類都增加了。 Painted PointRCNN在mAP和自行車AP上建立了新的最好水平。
在這裏插入圖片描述
根據val和test之間的Painted PointRCNN改進的一致性(分別爲+2.73和+2.94)以及PointPainting的一般性(表1),有理由相信,表2中的其他方法將隨着PointPainting提升。PointPainting的強度,通用性,魯棒性和靈活性表明,它是圖像-激光雷達融合的領先方法。
2、 nuScenes
爲了驗證PointPainting的多功能性,在nuScenes上檢查了Painted PointPillars結果。 第一步,將激光雷達網絡基線增強到PointPillars+。即使有了這個更強的基線,PointPainting也可以將測試集的mAP提高6.3(表4)。在nuScenes上,僅由MEGVII的僅限激光雷達方法擊敗Painted PointPillars+。但是,MEGVII的網絡對於實時系統來說是不切實際的,因爲它是一個非常大的兩級網絡,需要高分辨率輸入,並使用多尺度輸入和集合進行測試評估。因此,Painted PointPillars+是nuScenes上領先的實時方法。
在這裏插入圖片描述
各個類別的檢測性能普遍良好,每個類別的Point-Painting都提高了AP(表3)。通常,在PointPillars+中性能最差的檢測類從painting中受益最大,但也有例外。首先,儘管已經具有強大的PointPillars+檢測功能,交通錐的AP增長最多(+16.8)。這很可能是因爲交通錐通常只有很少的激光雷達點,因此語義分段提供的附加信息非常有價值。其次,儘管從較小的基線開始,拖車和工程車輛的檢測增益較低。這是由於細分網絡在這些類別上的召回率最差(總體召回率爲72%,但掛車的召回率僅爲39%,工程車輛的召回率僅爲40%。最終,儘管基線爲76 AP,但汽車仍獲得+1.9 AP提升,即使對於僅由激光雷達很好地檢測到的類,也能傳達語義信息的價值。
在這裏插入圖片描述

Abstract

Camera and lidar are important sensor modalities for robotics in general and self-driving cars in particular. The sensors provide complementary information offering an opportunity for tight sensor fusion. Surprisingly, lidar-only methods outperform fusion methods on the main benchmark datasets, suggesting a gap in the literature. In this work, we propose PointPainting: a sequential fusion method to fill this gap. PointPainting works by projecting lidar points into the output of an image-only semantic segmentation network and appending the class scores to each point. The appended (painted) point cloud can then be fed to any lidaronly method. Experiments show large improvements on three different state-of-the-art methods, Point-RCNN, VoxelNet and PointPillars on the KITTI and nuScenes datasets. The painted version of PointRCNN represents a new state of the art on the KITTI leaderboard for the bird’s-eye view detection task. In ablation, we study how the effects of Painting depends on the quality and format of the semantic segmentation output, and demonstrate how latency can be minimized through pipelining.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章