CVPR2020:點雲三維目標跟蹤的點對盒網絡(P2B)

CVPR2020:點雲三維目標跟蹤的點對盒網絡(P2B)

P2B: Point-to-Box Network for 3D Object Tracking in Point Clouds

代碼:https://github.com/HaozheQi/P2B

論文地址:

https://openaccess.thecvf.com/content_CVPR_2020/papers/Qi_P2B_Point-to Box_Network_for_3D_Object_Tracking_in_Point_Clouds_CVPR_2020_paper.pdf

摘要

針對點雲中的三維目標跟蹤問題,提出了一種新的點對盒網絡P2B。主要思想是首先在嵌入目標信息的三維搜索區域中定位潛在的目標中心。然後進行點驅動三維驗證。這樣,可以避免耗時的3D窮盡搜索。具體地說,首先從模板和搜索區域的點雲中提取種子。然後,通過置換不變特徵增強,將模板中的目標線索嵌入到搜索區域種子中,並用目標特徵表示。因此,擴大搜索區域種子通過Hough投票來回歸潛在的目標中心。中心進一步加強種子的目標性得分。最後,每個中心將其鄰域聚爲一組,利用集合能力進行聯合3D目標的提出和驗證。以PointNet++爲主幹,在KITTI跟蹤數據集上的實驗證明了P2B的優越性(比最先進的技術提高了10%)。請注意,P2B可以在單個NVIDIA
1080Ti GPU上以40FPS的速度運行。

1.介紹

點雲中的三維目標跟蹤對於自主駕駛和機器人視覺應用至關重要[25,26,7]。然而,點雲的稀疏性和無序性給這項任務帶來了很大的挑戰,導致了現有的二維目標跟蹤方法(如Siamese網[3])無法直接應用。現有的大多數3D目標跟蹤方法[1,4,24,16,15]繼承了2D的經驗,嚴重依賴於RGB-D信息。但當RGB視覺信息因光照變化而退化甚至無法訪問時,可能會失效。因此,將重點放在僅使用點雲的三維目標跟蹤上。關於這一主題的首創性成果見[11]。主要使用Kalman濾波[12]來執行3D模板匹配,以生成一組3D目標建議。同時,利用形狀補全對點集上的特徵學習進行正則化。然而,該算法存在四個主要缺陷:1)跟蹤網絡不能進行端到端的訓練;2)採用卡爾曼濾波的三維搜索耗費大量時間;3)每個目標方案僅用一維全局特徵表示,可能會丟失有限的局部幾何信息;4) 形狀完備網絡具有較強的類先驗性,削弱了通用性。
在這裏插入圖片描述
針對以上問題,提出了一種新的點對盒網絡P2B,可以進行端到端的三維目標跟蹤。與[11]中使用box的直觀三維搜索不同,轉而通過首先定位潛在目標中心,然後聯合執行點驅動目標建議和驗證來解決三維目標跟蹤問題。直覺依賴於兩點。首先,點態跟蹤模式可以幫助更好地利用三維局部幾何信息來描述點雲中的目標。其次,採用端到端的方式制定三維目標跟蹤任務,具有較強的跟蹤目標三維外觀變化的能力。

在圖1中舉例說明P2B是如何工作的。首先將模板和搜索區域分別輸入到主幹中並獲得種子。搜索區域種子將因此預測潛在的目標中心,以便聯合目標建議和驗證。然後利用目標特徵對搜索區域種子進行增強,得到三個主要組成部分:1)三維位置座標存儲空間幾何信息;2)與模板種子逐點相似,挖掘相似模式並揭示局部跟蹤線索;3)模板編碼目標全局特徵。這種增強對種子的排列是不變的,併產生一致的特定目標特徵。之後,通過Hough投票將增強的種子投射到潛在的目標中心[28]。同時,對每一個種子進行目標性評價,以規範早期特徵學習,結果的目標得分進一步增強了其預測目標中心的表徵能力。最後,每個潛在的目標中心將鄰域聚集在一起,以利用集成能力進行聯合目標建議和驗證。在KITTI跟蹤數據集[10]上的實驗表明,P2B顯著優於最先進的方法[11],在很大程度上(成功率和精確度均爲10%)。請注意,P2B可以在單個NVIDIA 1080Ti GPU上以約40FPS的速度運行。總體而言,本文的主要貢獻包括

•P2B:一種新穎的點對盒網絡,用於點雲中的三維目標跟蹤,可以進行端到端的訓練;

•目標特定特徵增強,包括3D目標跟蹤的全局和局部3D視覺線索;

•整合3D目標提案和驗證。
在這裏插入圖片描述
2.相關工程

將簡要介紹與P2B最相關的工作:三維目標跟蹤、二維連體跟蹤、點集深度學習、目標提議和Hough投票。

三維目標跟蹤

據所知,在最近的先驅嘗試之前,很少有人研究僅使用點雲的三維目標跟蹤[11]。早期的相關跟蹤方法[24,16,15,27,1,4]通常依賴於RGB-D信息。儘管經過不同理論層面的努力,可能存在兩個主要缺陷:1)對RGB視覺線索的依賴和退化甚至不可接近性的失敗。這限制了一些實際應用;2)沒有設計用於三維跟蹤的網絡,這可能會限制代表性的能力。除此之外,中的一些[24,16,15]專注於生成二維盒。上述問題在[11]中進行了闡述。利用對點集的深度學習和三維目標的提出,實現了僅使用點雲的三維目標跟蹤的最新成果。然而,仍然像Sec一樣存在一些缺陷。1,這激發了研究。

二維Siamese跟蹤

許多最先進的二維跟蹤方法[33,3,34,13,42,35,20,8,40,36,21]建立在Siamese網絡上。通常,Siamese網絡有兩個分支,模板和搜索區域具有共享的權重,以衡量在隱式嵌入空間中的相似性。最近,[21]聯合區域建議網絡和Siamese網絡,以提高性能。因此,可以避免耗時的多尺度搜索和在線微調。後來,許多努力[42,20,40,36,8]都遵循這一範式。然而,上述方法都是由2dcnn驅動的,不適用於點雲。因此,目標是通過有效的三維目標方案,將Siamese跟蹤範式擴展到三維目標跟蹤。

關於點集的深度學習

近年來,關於點集的深度學習引起了越來越多的研究興趣[5,30]。爲了解決點雲的無序性、稀疏性和旋轉變化等問題,這些努力促進了三維物體識別[18,23]、三維目標檢測[28,29,32,39]、三維姿態估計[22,9,6]和三維目標跟蹤[11]的研究。然而,[11]中的3D跟蹤網絡不能聯合執行端到端的3D目標提議和驗證,這構成了P2B的重點。

目標提案

在二維跟蹤任務中,許多trackingby detection方法[41,37,14]利用模板中包含的目標線索來獲得高質量的目標特定建議。以目標感知的方式對具有邊緣特徵[41]、區域建議網絡[37]或注意力圖[14]的(2D)基於區域的像素進行操作。相比之下,P2B將每個點視爲對潛在目標中心的一個迴歸因子,這與三維目標的提出直接相關。

霍夫投票

Hough voting的開創性工作[19]提出了一種高度靈活的對象形狀學習表示,可以在廣義Hough變換[2]的概率擴展中結合不同訓練示例上觀察到的信息。最近,[28]將Hough投票嵌入到一個端到端可訓練的deep網絡中,用於點雲中的三維目標檢測,進一步聚合了局部上下文,產生了很好的結果。但如何將其有效地應用於三維目標跟蹤,仍然是一個有待探索的問題。
在這裏插入圖片描述
3. P2B: A Novel Network on Point Set for 3D Object Tracking

3.1.概述

在三維目標跟蹤中,着重於在搜索區域中逐幀定位目標(由模板定義)。目的是將模板的目標線索嵌入到搜索區域中,預測潛在的目標中心,並以端到端的方式執行聯合目標建議和驗證。P2B有兩個主要部分(圖2):1)目標特定特徵增強,2)3D目標建議和驗證。首先將模板和搜索區域分別輸入到主幹中並獲得種子。然後模板種子有助於增加搜索區域種子與目標特定的特徵。然後,通過Hough投票將這些擴大的搜索區域種子投影到潛在的目標中心。通過計算種子的目標得分來規範特徵學習,增強這些潛在目標中心的識別能力。然後每個潛在的目標中心將其鄰域聚集起來,進行三維目標定位。具有最大提案針對性得分的提案被確認爲最終結果。將詳細說明如下。表1定義了P2B中的主要符號。爲了便於理解,還繪製了算法1的詳細技術流程。

3.2. 目標特定特徵增強

在這裏,目的是將模板的目標信息合併到搜索區域種子中,以包含全局目標線索和局部跟蹤線索。首先將模板和搜索區域分別輸入到特徵主幹中,得到種子。利用模板中嵌入的目標信息,利用模式匹配的思想,在搜索區域種子中增加目標的特定特徵,同時滿足置換不變性,解決了點雲的無序性問題。
在這裏插入圖片描述
3.3.基於潛在目標中心的目標建議

嵌入目標線索,每個rj可以直接預測一個目標方案。但直覺是,單個種子只能捕捉到有限的局部線索,這可能不足以滿足最終的預測。遵循VoteNet[28]的思想:1)通過Hough投票將搜索區域種子迴歸到潛在的目標中心;2)對相鄰中心進行聚類,利用集合的能力獲得目標方案。

3.4.基於種子目標度得分的改進目標方案

認爲每一個具有特定目標特徵的種子都可以通過其目標性直接進行評估,以1)規範早期特徵學習,2)加強其預測潛在目標中心的表示。因此,可以獲得更高質量的目標提案。

  1. Experiments

使用KITTI跟蹤數據集[10](使用激光雷達掃描點雲)作爲基準。遵循了[11]中的設置(爲了簡單起見,將其簡稱爲SC3D)中的數據分割、軌跡生成1和評估指標,以便進行公平比較。由於KITTI中的汽車數量最多且種類繁多,主要集中在車輛跟蹤上,並像SC3D一樣對其進行燒蝕研究,還對其三種目標類型(行人、貨車、自行車)進行了大量的實驗,以便更好地進行比較。
在這裏插入圖片描述
點雲稀疏性

雖然每幀平均報告120k個點,但假設目標上的點可能非常稀疏,因爲一般遮擋和激光雷達在遠處目標上的缺陷。爲了驗證想法,在圖5中計算了KITTI汽車上的點數。可以觀察到大約34%的汽車持有低於50分的分數。對於體型較小的行人和騎自行車的人來說,情況可能更糟。這種稀疏性給基於點雲的三維目標跟蹤帶來了很大的挑戰。

評價指標

使用一次評估(OPE)[38]來衡量不同方法的成功率和精確度。“成功”被定義爲預測框和基本真相(GT)框之間的借據。“精度”定義爲0到2m誤差(兩個盒子中心之間的距離)的AUC。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
實施細節

模板和搜索區域

對於template2,收集並規範化其點爲N1=512個點,隨機放棄或複製。對於搜索區域,同樣地收集和規範化的點爲N2=1024個。生成模板和搜索區域的方法在訓練和測試中有所不同。

網絡體系結構

採用了PointNet++[30]作爲主幹。定製包含三個集合抽象(SA)層,接收半徑分別爲0.3、0.5、0.7米和3倍半尺寸縮小採樣。

4.2.綜合比較

只比較了P2B和SC3D[11],SC3D是第一個也是唯一一個基於點雲的三維目標跟蹤。在表2中報告了3D汽車跟蹤的結果。生成了以上一個結果、上一個GT或當前GT爲中心的搜索區域。使用先前的搜索結果作爲搜索中心可以滿足實際場景的要求,而使用先前的GT有助於近似評估短期跟蹤性能。對於這兩種情況,SC3D應用卡爾曼濾波生成建議。使用現有的GT是不合理的,但在SC3D中被認爲是近似窮舉搜索並評估SC3D的分辨力。具體而言,SC3D圍繞目標中心進行網格搜索,以便在生成的提案中包含GT box。然而,P2B聚類潛在的目標中心,以生成建議,而不顯式依賴於GT-box。

如表2所示,當移除GT盒時,P2B可以適應各種情況,而SC3D可能會退化。綜合來看,P2B的表現遠遠超過SC3D。所有後來的實驗都採用了更現實的設置,即使用先前的結果。

廣泛的比較

進一步比較了P2B和SC3D在行人、貨車和自行車上的差異(表3)。P2B的平均表現超過SC3D 10%。P2B的優勢在數據豐富的汽車和行人上變得顯著。但是P2B隨着訓練數據的減少而降低,就像貨車和自行車手一樣。推測P2B可能依賴更多的數據來學習更好的網絡,特別是當迴歸潛在的目標中心時。相比之下,SC3D需要相對較少的數據來完成兩個區域之間的相似性測量。爲了驗證這一點,使用在數據豐富的汽車上訓練的模型來測試Van,相信汽車類似於Van並且包含潛在的可轉移信息。正如預期的那樣,P2B的成功/精密度結果顯示提高了49.9/59.9(原始值:40.8/48.4),而SC3D報告的a下降了37.2/45.9(原始值:40.4/47.0)。

燒蝕研究

目標特定特徵增強的方法

除了在P2B中的默認設置之外,還有另外四種可能的特徵增強方法:刪除(重複的)模板特徵,刪除相似性映射,使用搜索區域特徵A和B(圖6)。比較了表4中的五個設置。在這裏刪除模板特徵或相似性映射大約降低1%或3%,這驗證了這兩個部分在默認設置中的貢獻。搜索區域功能A和B沒有改善甚至損害性能。請注意,已經在這兩種情況下組合了模板功能。這可能揭示出,搜索區域特徵只捕捉空間上下文而不是目標線索,因此對於目標特定特徵的增強毫無用處。相比之下,默認設置從模板種子帶來更豐富的目標線索,從而生成更“定向”的建議生成。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章