Fast and Furious:單個卷積網絡進行實時端到端3D檢測,跟蹤和運動預測

摘要

在本文中,作者提出了一種新穎的深度神經網絡Fast and Furious(FaF),該網絡能夠針對3D傳感器捕獲的給定數據共同推理3D檢測,跟蹤和運動預測。通過共同推理這些任務,FaF的整體方法在遮擋和稀疏範圍內的數據方面更加強大。FaF在鳥瞰3D世界的情況下跨時空執行3D卷積,這在存儲和計算方面都非常有效。FaF對在幾個北美城市中捕獲的超大規模新數據集的實驗表明,大大超越最新技術。重要的是,通過共享計算,FaF可以在30毫秒之內執行所有任務。
論文鏈接:http://openaccess.thecvf.com/content_cvpr_2018/papers/Luo_Fast_and_Furious_CVPR_2018_paper.pdf

主要貢獻

在本文中,作者提出了一種端到端全卷積方法FaF,該方法通過利用3D傳感器捕獲的時空信息來執行同時3D檢測,跟蹤和運動預測。作者認爲這很重要,因爲跟蹤和預測可以幫助對象檢測。例如,利用跟蹤和預測信息可以減少檢測誤報。
FaF的方法的主要貢獻概述:
1、 FaF網絡將多個幀作爲輸入並執行檢測,跟蹤和運動預測。當處理被遮擋或遠離的物體時。通過隨着時間的推移積累證據,也可以減少誤報。
2、 FaF網絡非常高效,因爲它在所有這些任務之間共享計算。這對於延遲可能致命的自動駕駛極爲重要。
3、 作者利用3D傳感器的優勢,並設計了可在BEV上運行的網絡。這種表示尊重傳感器數據的3D性質,由於網絡可以利用有關對象典型大小的先驗知識,因此學習過程更加輕鬆。
4、 FaF是一種單階段檢測器,該檢測器將從多個連續的時間幀創建的4D張量作爲輸入,並在空間和時間上執行3D卷積以提取準確的3D邊界框。FaF不僅在當前幀產生邊界框,還在未來產生多個時間戳。作者通過簡單的合併來自過去和當前預測解碼tracklet。
5、 在從北美駕駛的多輛車輛捕獲的超大規模數據集上證明了FaF模型的有效性,並表明FaF明顯優於最新技術。此外,所有任務只需30毫秒。

算法框架:

在這項工作中,作者專注於通過利用產生3D點雲的傳感器來檢測物體。爲了實現這一目標,作者開發了一種單級檢測器,該檢測器將多個幀作爲輸入,並對物體的軌跡進行檢測,跟蹤和短期運動預測,直至未來。FaF輸入表示是一個4D張量,它在幾個時間幀上編碼3D空間佔用網格的情況。通過利用空間和時間上的3D卷積來產生快速而準確的預測。由於點雲數據在3D空間中固有地稀疏,因此與在3D空間和時間上進行4D卷積相比,該方法節省了很多計算量。作者將方法命名爲“速度與激情(FaF)”,因爲它能夠在30秒鐘內得出非常準確的估算。
1、 數據參數化
首先描述世界的單幀表示。然後擴展表示以利用多個框架。
體素表示:與輸入爲密集RGB圖像的圖像檢測相反,點雲數據固有地稀疏並且提供有關3D場景的幾何信息。爲了獲得可以輕鬆應用卷積的表示形式,作者對3D世界進行量化以形成3D體素網格。然後爲每個體素編碼分配一個二進制指示器,以指示體素是否被佔用。如果體素的3D空間中至少存在一個點,則該體素將被佔用。由於網格是規則網格,因此可以直接使用卷積。作者執行了2D卷積並將高度尺寸視爲通道尺寸。這允許網絡學習提取高度維度中的信息。如果網格的分辨率很高,FaF就相當於在不損失任何信息的情況下對每個點進行卷積。請參考圖2,以瞭解如何根據3D點雲數據構造3D張量。
在這裏插入圖片描述
圖2:體素表示法:直接使用高度作爲輸入特徵。

添加時間信息:爲了執行運動預測,考慮時間信息至關重要。爲了實現這一目標,FaF從過去的n幀中獲取所有3D點,並執行座標更改以表示當前的車輛座標系。目的是抵消安裝傳感器的車輛的自我運動。之後爲每個幀計算體素表示。最後,每個幀都表示爲3D張量,沿新的時間維度附加多個幀以創建4D張量。這樣不僅可以提供更多的3D點,還可以提供有關車輛航向和速度的線索,進而能夠進行運動預測。如圖3所示,疊加了多幀,靜態對象對齊良好,而動態對象具有表示其運動的“陰影”。
在這裏插入圖片描述
圖3:疊加的時間和運動預測數據。 綠色:帶有3D點的bbox。 灰色:不帶3D點的bbox
2、 創建模型
FaF採用4D輸入張量,並在不使用區域建議的情況下,在不同的時間戳直接回歸到對象邊界框。作者研究了兩種不同的方法來利用4D張量上的時間維度:早期融合和晚期融合。它們代表了準確性和效率之間的權衡,並且在彙總時間維度的級別上有所不同。
在這裏插入圖片描述
早期融合:第一種方法在第一層彙總時間信息。結果,它的運行速度與使用單幀檢測器一樣快。但是,它可能缺乏捕獲複雜的時間特徵的能力。如圖4所示,在給定4D輸入張量的情況下,首先在時間維度上使用內核大小爲n的一維卷積將時間維度從n減少到1。所有特徵圖之間共享權重,即也稱爲分組卷積。然後,作者在VGG16之後執行卷積和最大池化,將特徵圖的每一層數量減少一半。需要注意的是,作者刪除了VGG16中的最後一個卷積組,僅得到10個卷積層。

後期融合:此時逐漸合併時間信息。這使模型可以捕獲高級運動特徵。使用與早期融合模型中相同數量的卷積層和特徵圖,但執行兩次內核大小爲3×3×3的3D卷積,而無需填充時間維,這將時間維從n減少到1然後對其他層執行3D內核大小爲2的2D空間卷積。參考圖4。
在這裏插入圖片描述
圖5:運動預測
然後,添加兩個卷積層分支,如圖5所示。第一個分支執行二進制分類以預測成爲車輛的可能性。第二個預測當前幀以及將來的n-1個幀的邊界框。由於FaF利用多個幀作爲輸入,因此可以進行運動預測,從而可以學習估計有用的特徵,例如速度和加速度。
解碼Tracklet:在每個時間戳上,FaF模型輸出n個時間戳的檢測邊界框。因此,每個時間戳將具有當前檢測以及n-1個過去的預測。可以通過彙總過去的信息來生成準確的小軌跡,而無需解決任何基於軌跡的優化問題。請注意,如果檢測和運動預測是完美的,可以解碼完美的小軌跡。
3、 損失函數與訓練
訓練網絡以最小化分類和迴歸損失的組合。在迴歸的情況下,既包括當前幀,也包括我們未來的n個幀。那是:
在這裏插入圖片描述
將在所有位置和預定義框上計算的二進制交叉熵用作分類損失:
在這裏插入圖片描述
將回歸目標定義爲
在這裏插入圖片描述
在所有迴歸目標上使用加權smooth L1 loss,其函數爲:
在這裏插入圖片描述
主要結果:
作者收集了一個非常大規模的數據集以對FaF進行基準測試。它比KITTI等數據集大2個數量級。作者將模型與最先進的實時檢測器(包括SSD,MobileNet和SqueezeNet)進行了比較。爲了使它們更具競爭力,作者還將預定義的box內置到它們的系統中,從而進一步簡化了這些探測器的任務。
在推理期間,以ego-car爲中心的關注區域爲144×80M。我們對所有模型保持相同的體素化,並針對真實邊界框評估檢測結果。如果它對任何真實邊界框有大於0.7的IoU,則我們認爲檢測正確。請注意,對於典型尺寸爲3.5×6米的車輛,0.7 IoU意味着我們最多在寬度上錯過0.35米,在長度上錯過0.6米。表1顯示了使用不同IoU閾值的mAP。可以看到FaF能夠勝過所有其他方法。尤其是在IoU 0.7的情況下,在類似的運行時間下,FaF的mAP比MobileNet高出4.7%,但速度要快兩倍,比SSD高出5.2%。
在這裏插入圖片描述
表1:在144×80米區域上的檢測性能。
消融研究:在框架內進行實驗,以展示每個組件的重要性。我們修復了所有實驗的培訓設置。如表2所示,將時間信息與早期融合一起使用可使IoU 0.7的mAP提高3.7%。儘管後期融合使用的信息與早期融合相同,但由於它可以對更復雜的時間特徵建模,因此可以額外提高1.4%。此外,增加預測損失僅在當前幀上即可提供相似的檢測結果,但是,它能夠解碼軌跡,並提供證據來輸出更平滑的檢測結果,從而提供最佳性能,即在IoU 0.7的mAP上比單幀檢測器高6%。
在這裏插入圖片描述
表2:消融研究
跟蹤結果:模型能夠直接輸出帶有跟蹤ID的檢測結果。評估原始跟蹤輸出,而不在頂部添加任何複雜的跟蹤策略。表3在檢測結果的基礎上,顯示了模型輸出與匈牙利方法之間的比較。我們遵循KITTI協議,並在所有100個驗證序列中計算MOTA,MOTP,大多數跟蹤(MT)和大多數丟失(ML)。可以看到FaF在MOTA中達到了80.9%,比匈牙利提高了7.8%,在MT上提高了20%,在ML上降低了10%,而MOTP仍然相似。
在這裏插入圖片描述
表3:跟蹤性能

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章