摘要

在本文中，作者提出了一種新穎的深度神經網絡Fast and Furious（FaF），該網絡能夠針對3D傳感器捕獲的給定數據共同推理3D檢測，跟蹤和運動預測。通過共同推理這些任務，FaF的整體方法在遮擋和稀疏範圍內的數據方面更加強大。FaF在鳥瞰3D世界的情況下跨時空執行3D卷積，這在存儲和計算方面都非常有效。FaF對在幾個北美城市中捕獲的超大規模新數據集的實驗表明，大大超越最新技術。重要的是，通過共享計算，FaF可以在30毫秒之內執行所有任務。
論文鏈接：http://openaccess.thecvf.com/content_cvpr_2018/papers/Luo_Fast_and_Furious_CVPR_2018_paper.pdf

主要貢獻

在本文中，作者提出了一種端到端全卷積方法FaF，該方法通過利用3D傳感器捕獲的時空信息來執行同時3D檢測，跟蹤和運動預測。作者認爲這很重要，因爲跟蹤和預測可以幫助對象檢測。例如，利用跟蹤和預測信息可以減少檢測誤報。
FaF的方法的主要貢獻概述：
1、 FaF網絡將多個幀作爲輸入並執行檢測，跟蹤和運動預測。當處理被遮擋或遠離的物體時。通過隨着時間的推移積累證據，也可以減少誤報。
2、 FaF網絡非常高效，因爲它在所有這些任務之間共享計算。這對於延遲可能致命的自動駕駛極爲重要。
3、作者利用3D傳感器的優勢，並設計了可在BEV上運行的網絡。這種表示尊重傳感器數據的3D性質，由於網絡可以利用有關對象典型大小的先驗知識，因此學習過程更加輕鬆。
4、 FaF是一種單階段檢測器，該檢測器將從多個連續的時間幀創建的4D張量作爲輸入，並在空間和時間上執行3D卷積以提取準確的3D邊界框。FaF不僅在當前幀產生邊界框，還在未來產生多個時間戳。作者通過簡單的合併來自過去和當前預測解碼tracklet。
5、在從北美駕駛的多輛車輛捕獲的超大規模數據集上證明了FaF模型的有效性，並表明FaF明顯優於最新技術。此外，所有任務只需30毫秒。

算法框架：

在這項工作中，作者專注於通過利用產生3D點雲的傳感器來檢測物體。爲了實現這一目標，作者開發了一種單級檢測器，該檢測器將多個幀作爲輸入，並對物體的軌跡進行檢測，跟蹤和短期運動預測，直至未來。FaF輸入表示是一個4D張量，它在幾個時間幀上編碼3D空間佔用網格的情況。通過利用空間和時間上的3D卷積來產生快速而準確的預測。由於點雲數據在3D空間中固有地稀疏，因此與在3D空間和時間上進行4D卷積相比，該方法節省了很多計算量。作者將方法命名爲“速度與激情（FaF）”，因爲它能夠在30秒鐘內得出非常準確的估算。
1、數據參數化
首先描述世界的單幀表示。然後擴展表示以利用多個框架。
體素表示：與輸入爲密集RGB圖像的圖像檢測相反，點雲數據固有地稀疏並且提供有關3D場景的幾何信息。爲了獲得可以輕鬆應用卷積的表示形式，作者對3D世界進行量化以形成3D體素網格。然後爲每個體素編碼分配一個二進制指示器，以指示體素是否被佔用。如果體素的3D空間中至少存在一個點，則該體素將被佔用。由於網格是規則網格，因此可以直接使用卷積。作者執行了2D卷積並將高度尺寸視爲通道尺寸。這允許網絡學習提取高度維度中的信息。如果網格的分辨率很高，FaF就相當於在不損失任何信息的情況下對每個點進行卷積。請參考圖2，以瞭解如何根據3D點雲數據構造3D張量。

圖2：體素表示法：直接使用高度作爲輸入特徵。

添加時間信息：爲了執行運動預測，考慮時間信息至關重要。爲了實現這一目標，FaF從過去的n幀中獲取所有3D點，並執行座標更改以表示當前的車輛座標系。目的是抵消安裝傳感器的車輛的自我運動。之後爲每個幀計算體素表示。最後，每個幀都表示爲3D張量，沿新的時間維度附加多個幀以創建4D張量。這樣不僅可以提供更多的3D點，還可以提供有關車輛航向和速度的線索，進而能夠進行運動預測。如圖3所示，疊加了多幀，靜態對象對齊良好，而動態對象具有表示其運動的“陰影”。

圖3：疊加的時間和運動預測數據。綠色：帶有3D點的bbox。灰色：不帶3D點的bbox
2、創建模型
FaF採用4D輸入張量，並在不使用區域建議的情況下，在不同的時間戳直接回歸到對象邊界框。作者研究了兩種不同的方法來利用4D張量上的時間維度：早期融合和晚期融合。它們代表了準確性和效率之間的權衡，並且在彙總時間維度的級別上有所不同。

早期融合：第一種方法在第一層彙總時間信息。結果，它的運行速度與使用單幀檢測器一樣快。但是，它可能缺乏捕獲複雜的時間特徵的能力。如圖4所示，在給定4D輸入張量的情況下，首先在時間維度上使用內核大小爲n的一維卷積將時間維度從n減少到1。所有特徵圖之間共享權重，即也稱爲分組卷積。然後，作者在VGG16之後執行卷積和最大池化，將特徵圖的每一層數量減少一半。需要注意的是，作者刪除了VGG16中的最後一個卷積組，僅得到10個卷積層。

後期融合：此時逐漸合併時間信息。這使模型可以捕獲高級運動特徵。使用與早期融合模型中相同數量的卷積層和特徵圖，但執行兩次內核大小爲3×3×3的3D卷積，而無需填充時間維，這將時間維從n減少到1然後對其他層執行3D內核大小爲2的2D空間卷積。參考圖4。

圖5：運動預測
然後，添加兩個卷積層分支，如圖5所示。第一個分支執行二進制分類以預測成爲車輛的可能性。第二個預測當前幀以及將來的n-1個幀的邊界框。由於FaF利用多個幀作爲輸入，因此可以進行運動預測，從而可以學習估計有用的特徵，例如速度和加速度。
解碼Tracklet：在每個時間戳上，FaF模型輸出n個時間戳的檢測邊界框。因此，每個時間戳將具有當前檢測以及n-1個過去的預測。可以通過彙總過去的信息來生成準確的小軌跡，而無需解決任何基於軌跡的優化問題。請注意，如果檢測和運動預測是完美的，可以解碼完美的小軌跡。
3、損失函數與訓練
訓練網絡以最小化分類和迴歸損失的組合。在迴歸的情況下，既包括當前幀，也包括我們未來的n個幀。那是：

將在所有位置和預定義框上計算的二進制交叉熵用作分類損失：

將回歸目標定義爲

在所有迴歸目標上使用加權smooth L1 loss，其函數爲：

主要結果：
作者收集了一個非常大規模的數據集以對FaF進行基準測試。它比KITTI等數據集大2個數量級。作者將模型與最先進的實時檢測器（包括SSD，MobileNet和SqueezeNet）進行了比較。爲了使它們更具競爭力，作者還將預定義的box內置到它們的系統中，從而進一步簡化了這些探測器的任務。
在推理期間，以ego-car爲中心的關注區域爲144×80M。我們對所有模型保持相同的體素化，並針對真實邊界框評估檢測結果。如果它對任何真實邊界框有大於0.7的IoU，則我們認爲檢測正確。請注意，對於典型尺寸爲3.5×6米的車輛，0.7 IoU意味着我們最多在寬度上錯過0.35米，在長度上錯過0.6米。表1顯示了使用不同IoU閾值的mAP。可以看到FaF能夠勝過所有其他方法。尤其是在IoU 0.7的情況下，在類似的運行時間下，FaF的mAP比MobileNet高出4.7％，但速度要快兩倍，比SSD高出5.2％。

表1：在144×80米區域上的檢測性能。
消融研究：在框架內進行實驗，以展示每個組件的重要性。我們修復了所有實驗的培訓設置。如表2所示，將時間信息與早期融合一起使用可使IoU 0.7的mAP提高3.7％。儘管後期融合使用的信息與早期融合相同，但由於它可以對更復雜的時間特徵建模，因此可以額外提高1.4％。此外，增加預測損失僅在當前幀上即可提供相似的檢測結果，但是，它能夠解碼軌跡，並提供證據來輸出更平滑的檢測結果，從而提供最佳性能，即在IoU 0.7的mAP上比單幀檢測器高6％。

表2：消融研究
跟蹤結果：模型能夠直接輸出帶有跟蹤ID的檢測結果。評估原始跟蹤輸出，而不在頂部添加任何複雜的跟蹤策略。表3在檢測結果的基礎上，顯示了模型輸出與匈牙利方法之間的比較。我們遵循KITTI協議，並在所有100個驗證序列中計算MOTA，MOTP，大多數跟蹤（MT）和大多數丟失（ML）。可以看到FaF在MOTA中達到了80.9％，比匈牙利提高了7.8％，在MT上提高了20％，在ML上降低了10％，而MOTP仍然相似。

表3：跟蹤性能