Argoverse: 3D跟蹤數據集

下載鏈接:https://arxiv.org/abs/1911.02620
該文爲CVPR2019文章,由Argo AI、卡內基梅隆大學、佐治亞理工學院發佈。文章介紹了用於支持研究自動駕駛汽車感知任務(3D 跟蹤與運動預測)的數據集Argoverse。對Argoverse做簡要介紹如下:Argoverse官網地址爲www.argoverse.org。數據包括Argoverse 3D Tracking與Argoverse Motion Forecasting兩個數據集。

在這裏插入圖片描述

Argo AI提供了Argoverse的數據接口:https://github.com/argoai/argoverse-api
基於以上兩類數據集,Argo AI在NeurIPS 2019舉辦兩場workshop競賽。
Argoverse 3D Tracking Competition:
https://evalai.cloudcv.org/web/challenges/challenge-page/453/overview
Argoverse Motion Forecasting Competition
https://evalai.cloudcv.org/web/challenges/challenge-page/454/overview
分別給出official baseline code:
倉庫鏈接:https://github.com/alliecc/argoverse_baselinetracker
倉庫鏈接:https://github.com/jagjeet-singh/argoverse-forecasting
以上連個倉庫代碼均基於Argoverse數據接口。

在這裏插入圖片描述

圖1:介紹了用於3D跟蹤和運動預測的數據集,其中包含用於自動駕駛的豐富地圖。 我們的3D跟蹤數據集包含LiDAR測量,360°RGB視頻,前置立體聲(一直沒搞清楚stereo怎麼翻譯)(右中)和6 dof定位的序列。 所有序列都與包含車道中心線(洋紅色),可行駛區域(橙色)和地面高度的地圖對齊。 序列用3D長方體軌道(綠色)註釋。 右下方顯示了更寬的地圖視圖。
摘要
我們展示Argoverse –兩個旨在支持自動車輛機器學習任務(例如3D跟蹤和運動預測)的數據集。 Argoverse由匹茲堡和邁阿密的一大批自動駕駛汽車收集。 Argoverse 3D跟蹤數據集包括來自7個具有重疊視場的攝像機的360°圖像,來自遠程LiDAR的3D點雲,6-DOF姿勢和3D軌道註釋。值得注意的是,它是唯一提供前向立體影像的現代AV數據集。 Argoverse運動預測數據集包括300,000多個5秒跟蹤場景,其中已識別出特定車輛用於軌跡預測。 Argoverse是第一個包含“高清地圖”的自動駕駛汽車數據集,該地圖具有290公里的映射車道以及幾何和語義元數據。所有數據均根據www.argoverse.org上的知識共享許可發佈。在我們的基準實驗中,我們說明了詳細的地圖信息(例如車道方向,可行駛區域和地面高度)如何提高3D對象跟蹤和運動預測的準確性。我們的跟蹤和預測實驗只是對在機器人感知中使用豐富地圖的初步探索。我們希望Argoverse將使研究界能夠更深入地探索這些問題。
1.簡介
過去幾年中,自動駕駛中各種感知任務的數據集和基準對計算機視覺界產生了巨大影響。 KITTI [14]的影響給我們特別的啓發,它打開並連接了許多新的研究方向。但是,即使詳細的地圖對於現實世界中的自動駕駛系統的發展至關重要,但用於自動駕駛的公開可用數據集很少包含地圖數據。公開提供的地圖,例如OpenStreetMap可能有用,但細節和準確性有限。
直觀地講,如果地圖直接告訴我們哪些3D點屬於道路,哪些屬於靜態建築物,所跟蹤的對象位於哪個車道,到下一個交叉路口的距離等,則3D場景理解會更容易。但是,由於公開可用數據集不包含豐富的映射屬性,如何表示和利用這些特徵是一個開放的研究問題。 Argoverse是第一個具有此類詳細地圖的大規模自動駕駛數據集。我們在3D跟蹤和運動預測這兩個任務上研究了這些新地圖功能的潛在用途,並且我們提供了大量的現實世界,帶註釋的數據,以爲這些問題提供新的基準。我們在本文中的貢獻包括:
我們發佈了大規模3D跟蹤數據集,其中包含來自LiDAR,360o和在不同條件下在兩個城市採樣的立體聲相機的同步數據。與其他最近的數據集不同,我們的360°以30fps捕獲。
我們提供15種對象類別的地面真實3D跟蹤註釋,其跟蹤對象的數量是KITTI [14]跟蹤基準的五倍。
我們創建了一個由軌跡數據組成的大規模預測數據集,用於有趣的場景,例如十字路口的轉彎,交通擁擠和車道變化。
我們發佈了地圖數據和一個API,可用於開發基於地圖的感知和預測算法。我們是第一個具有道路基礎設施和交通規則語義向量圖的自動駕駛車輛數據集。包含“高清”地圖信息也意味着我們的數據集是自動創建地圖(通常稱爲地圖自動化)的第一個大型基準。
我們是第一個研究高清地圖上下文對3D跟蹤和運動預測的影響的人。在3D跟蹤的情況下,我們測量基於地圖的地面點移除和方向捕捉到車道的影響。在運動預測的情況下,我們嘗試從車道圖創建各種預測,並通過可駕駛區域圖修剪預測。在這兩種情況下,使用地圖都可以看到更高的準確性。
2.相關工作
具有地圖信息的自動駕駛數據集。直到最近,很少能找到提供與註釋數據相關的詳細地圖信息的數據集。註釋和構建此類地圖的成本過高,引起了人們對地圖自動化不斷髮展的興趣[35、25、4]。在Argoverse發佈之前,沒有公共數據集包含3D矢量地圖信息,因此阻止了開發地圖自動化通用基準的情況。 TorontoCity [58]還專注於地圖構建任務,但沒有針對動態對象的3D註釋。 nuScenes數據集[6]最初包含以感興趣區域的二進制,柵格化,自上而下的指示器形式顯示的地圖(其中,感興趣區域是可行駛區域和人行道的結合)。該地圖信息提供給新加坡和波士頓的1000條帶註釋的車輛日誌段(或“場景”)。在Argoverse發佈之後,nuScenes釋放了2D語義圖區域的標籤,沒有通道或圖形結構。與nuScenes一樣,我們不僅包含可行駛區域的地圖,而且還包含地面高度和車道中心線及其連接的“矢量地圖”。
具有3D軌道註釋的自動駕駛數據集。現有的許多用於對象跟蹤的數據集都集中在來自圖像/視頻序列的行人跟蹤上[16、48、43、2]。一些數據集提供了來自自動駕駛車輛傳感器的原始數據,但沒有任何物體註釋[42、45、49]。 ApolloCar3D數據集[55]面向3D語義對象關鍵點檢測而不是跟蹤。 KITTI [14]和H3D [47]提供3D邊界框和軌跡註釋,但不提供地圖。相機的視野是正面的,而不是360o。 VIPER [52]通過3D軌道註釋提供來自模擬世界的數據。 nuScenes [6]當前提供360°數據和3D對象檢測基準,同時還提供跟蹤註釋。 Argoverse 3D跟蹤數據集包含與詳細地圖信息對齊的360°3D空間中的軌道註釋。有關3D自主車輛數據集之間的比較,請參見表1。
具有軌跡數據的自動駕駛數據集。 ApolloScape [26]還使用配備傳感器的車輛來觀察野外的駕駛軌跡,並從ApolloScape 3D跟蹤註釋的子集中提出了預測基準[41]。該數據集包含155分鐘的觀測值,而Argoverse預測數據集中的觀測值爲320小時。 IntentNet [7]挖掘了屋頂上的LiDAR數據以獲取5400萬個對象軌跡,但該數據尚未公開。
使用地圖執行自動駕駛任務。儘管運動計劃系統廣泛使用了高清(HD)地圖,但很少有作品探索這種先驗的感知系統的使用[60],儘管事實是2007 DARPA城市挑戰賽的三項獲獎作品均由DARPA提供map –路由網絡定義文件(RNDF)[44、57、3]。 Hecker等。 [20]顯示通過處理來自OpenStreetMap和TomTom的柵格地圖可以改善端到端的路線規劃。樑等。 [36]證明了使用OpenStreetMap中的道路中心線和交叉點多邊形可以幫助推斷人行橫道的位置和方向。楊等。 [60]顯示,以LiDAR點信息作爲模型輸入,結合地面高度和鳥瞰(BEV)道路分割可以改善3D對象檢測。樑等。 [37]顯示瞭如何通過使用映射(地面高度估計)作爲多任務學習中的附加任務來提高3D對象檢測精度。 Suraj等。 [40]在車隊中使用安裝在儀表板上的單目攝像機,通過城市規模的運動結構來構建3D地圖,以定位自我車輛和軌跡提取。
3D對象跟蹤。在傳統的點雲跟蹤方法中,可以使用諸如DBSCAN [13,33]或佔用網格[34,24]的連接組件之類的聚類算法來累積點的分段,然後使用匈牙利算法基於某個距離函數進行關聯。舉行等。利用概率方法進行點雲分割和跟蹤[21,23,22]。最近的工作表明,如何在具有深度網絡的點雲輸入上直接估計3D實例分割和3D運動(以3D場景流或每點速度矢量的形式)[59,38]。我們的數據集可在360°幀中通過傳感器融合實現3D跟蹤。
軌跡預測。空間環境和社會互動會影響行人和汽車的未來發展。 Social-LSTM [1]提出了一個新穎的匯聚層來捕獲行人的社會互動。 Social-GAN [17]嘗試對預測的多峯性質建模。但是,兩者都僅在行人軌跡上進行了測試,沒有使用靜態上下文(例如地圖)。 Deo等。 [11]提出了一種卷積社交集合方法,其中他們首先預測機動,然後預測該機動的軌跡。在自動駕駛領域,空間上下文的使用至關重要,可以從地圖中有效利用空間上下文。 Chen等。 [9]通過將輸入圖像映射到少量的道路/交通狀態,將特徵驅動的方法用於社會和空間環境。但是,他們將實驗限於模擬環境。 IntentNet [7]擴展了Luo等人的聯合檢測和預測方法。 [39]通過離散化預測空間並嘗試預測八種常見駕駛操作之一。 DESIRE [32]展示了一個預測模型,該模型同時捕捉了社會互動和空間背景。作者注意到,這兩個附加組件的好處在KITTI數據集上很小,這歸因於數據中最小的車輛間交互作用。軌跡預測領域中的另一個挑戰性問題是預測可以解決問題的多峯性質的各種軌跡。 R2P2 [50]解決了生成預測模型的多樣性-精確度之間的折衷,並制定了對稱的交叉熵訓練目標來解決這個問題。然後是PRECOG [51],其中他們提出了第一種生成式多智能體預測方法,以根據智能體意圖進行調節。他們在真實(nuScenes [6])和模擬(CARLA [12])數據集中獲得了最新的預測方法結果。
在這裏插入圖片描述
圖2:Argoverse場景的3D可視化。 左:我們累積LiDAR點並將其投影到虛擬圖像平面。 右圖:使用我們的地圖,超出可駕駛區域的LiDAR點將變暗,而靠近地面的點將用青色突出顯示。 長方體對象註釋和道路中心線以粉紅色和黃色顯示。
3. Argoverse數據集
3. Argoverse數據集
我們的傳感器數據,地圖和註釋是這項工作的主要貢獻。我們還提供了將地圖數據與傳感器信息(例如,去除地面點,最近的中心線查詢和車道圖連通性;有關更多詳細信息,請參見附錄。該數據可從www.argoverse.org獲得知識共享許可。在MIT許可下,可以在github.com/argoai/argoverse-api上獲得用於基線算法的API,教程和代碼。本文檔中的統計數據和實驗基於2019年10月發佈的Argoverse v1.1。
我們從美國賓夕法尼亞州匹茲堡和佛羅里達州邁阿密的一大批自動駕駛汽車(AV)收集了原始數據。這些城市有獨特的氣候,建築,基礎設施和行爲方式。捕獲的數據跨越不同的季節,天氣條件和一天中的時間。我們的數據集中使用的數據遍歷了近300公里的地圖車道,並且來自我們車隊運營區域的子集。
傳感器。 我們的車輛配備了兩個安裝在車頂的旋轉32光束LiDAR傳感器。每個LiDAR都有40º垂直視野,兩個LiDAR都有30º重疊視野和50º總視野。 LiDAR的射程可達200米,大約是nuScenes和KITTI中使用的傳感器射程的兩倍。平均而言,我們的LiDAR傳感器在每次掃描時都會產生點雲,其密度是nuScenes [6]數據集中的LiDAR掃描密度的三倍(我們的107,000點與nuScenes 35,000點)。兩個LiDAR傳感器以10 Hz的頻率旋轉並且異相,即以相同的方向和速度旋轉,但有偏移以避免干擾。每個3D點都經過運動補償,以在整個掃掠捕獲期間考慮到自我車輛的運動。這些車輛有7臺高分辨率環形攝像頭(1920 × 1200),以30 Hz的頻率記錄,且視野重疊,可提供360º覆蓋範圍。此外,還有2個前置立體聲攝像機(2056 × 2464,基線爲0.2986 m)以5 Hz採樣。爲了保護隱私,臉部和車牌在程序上會被模糊處理。最後,每個時間戳的6自由度定位來自於基於GPS的定位和基於傳感器的定位的組合。車輛定位和地圖使用特定於城市的座標系,在附錄中有更詳細的描述。特定駕駛會話的傳感器測量結果存儲在“日誌”中,並且我們爲LiDAR傳感器和每個日誌提供所有9臺攝像機的內部和外部校準數據。圖2以3D形式顯示了我們的傳感器數據。與[49]類似,我們將自我車輛座標系的原點放置在後軸的中心。所有LiDAR數據都在自我車輛座標系中提供,而不是在各個LiDAR傳感器座標系中提供。所有傳感器都安裝在車頂,其中一個LiDAR傳感器被7個“環形”攝像機(順時針:面向前中,右前,右側,後右,左後,左側和左前)和2個立體攝像機包圍。圖3可視化了我們傳感器的幾何佈置。
在這裏插入圖片描述
圖3:汽車傳感器原理圖。 顯示三個參考座標系:(1)車架,Xv向前,Yv左,Zv向上,(2)相機架,Xc跨像平面,Yc朝下像平面,Zc沿光軸,( 3)LiDAR框架,向前XL,向左YL,向上ZL。 爲每個座標系定義正旋轉RX,RY,RZ爲遵循右手定則的繞相應軸的旋轉。
3.1。地圖
Argoverse包含三個不同的地圖成分–(1)車道中心線及其屬性的矢量地圖;(2)地面高度的柵格化地圖,和(3)可行駛區域和感興趣區域(ROI)的柵格化地圖。
車道幾何向量圖。我們的矢量地圖由表示爲局部圖形的語義道路數據組成,而不是柵格化爲離散的樣本。我們發佈的矢量地圖是車隊運營中使用的地圖的簡化版。在矢量地圖中,我們提供車道中心線,並分爲車道線段。我們觀察到車輛軌跡通常沿着車道的中心,因此這對於跟蹤和預測是有用的。
車道路段是指汽車在一個方向上以單一文件格式行駛的路段。多個車道路段可以佔用相同的物理空間(例如,在十字路口)。允許流量沿任一方向流動的轉彎車道由佔據相同物理空間的兩條不同車道表示。
對於每個車道中心線,我們提供了許多語義屬性。這些車道屬性描述了一條車道是位於十字路口內還是具有相關的交通控制措施(布爾值不相互包含)。其他語義屬性包括車道的轉彎方向(左,右或無)以及車道的前任者(之前的車道段)和後繼者(之後的車道段)的唯一標識符,其中可以有多個(用於合併和分別)。
中心線作爲“折線”提供,即直線段的有序序列。每個直線段由2個頂點定義:(xi,yi,zi)起點和(xi + 1,yi + 1,zi + 1)終點。因此,彎曲車道用一組直線近似。
我們觀察到,在邁阿密,可用於路線規劃的車道段平均寬度爲3.84 ± 0.89 m。在匹茲堡,平均寬度爲3.97 ± 1.04 m。其他類型的不適合自動駕駛的車道段,例如邁阿密的自行車道可窄至0.97 m,匹茲堡的自行車道可窄至1.06 m。
柵格化的可行駛區域地圖。我們的地圖包含1米網格分辨率的二進制可驅動區域標籤。可駕駛區域是車輛可能駕駛的區域(儘管不一定合法)。除了由車道線段代表的正常可行駛區域外,可行駛區域還可以包含路肩。如果3D對象在可行駛區域的5米以內,則我們將使用軌跡標籤對其進行註釋(第3.2節)。我們稱這個更大的區域爲我們感興趣的區域(ROI)。
柵格化的地面高度圖。最後,我們的地圖包括1米網格分辨率下的實值地面高度。地面高度的知識可用於消除靜態地面上的LiDAR返回,從而使動態物體的3D檢測更加容易。圖4顯示了地面高度不均勻的場景的橫截面。
在這裏插入圖片描述
圖4:Argoverse數據集中的地面不平坦。 某些Argoverse場景包含不平坦的地面,這很難通過簡單的啓發式方法消除(例如,假設地面是平面的)。 上方,我們顯示了一個LiDAR切片,該切片在右側有一個斜率,並具有相應的右前攝像頭圖像。
3.2。 3D軌道註解
Argoverse跟蹤數據集包含113條帶有人類註釋3D軌跡的車輛日誌段。這113個片段的長度從15到30秒不等,總共包含11,052個跟蹤對象。我們將它們與表1中的其他數據集進行了比較。對於每個日誌段,我們使用邊界長方體對所有感興趣的對象(動態和靜態)進行註釋,這些長方體隨時間隨每個對象相關聯的3D LiDAR返回。我們僅註釋了地圖定義的可行駛區域5 m內的對象。對於整個段持續時間不可見的對象,在LiDAR點雲中該對象變爲可見後立即實例化軌跡,並在該對象不再可見時終止軌跡。即使暫時被遮擋,相同的對象ID仍用於同一對象。每個對象都標記有15個類別之一,其中包括ON_ROAD_OBSTACLE和OTHER_MOVER,用於不屬於其他預定義類別的靜態和動態對象。超過70%的被跟蹤對象是車輛,但我們還觀察到行人,自行車,輕便摩托車等。圖5顯示了帶註釋對象的類的分佈。所有曲目標籤均通過手動質量保證審覈過程。圖1和2顯示了我們的人類註釋標籤的定性示例。我們將帶註釋的跟蹤數據分爲65個訓練,24個驗證和24個測試序列。
在這裏插入圖片描述
表1:公共自動駕駛數據集。 我們將最近公開可用的自動駕駛數據集與用於跟蹤的3D對象註釋(頂部)和用於預測的軌跡(底部)進行了比較。 nuScenes的覆蓋範圍基於其道路和人行道柵格地圖。 Argoverse覆蓋區域基於我們的可駕駛區域柵格地圖。 統計數據於2019年9月更新。
在這裏插入圖片描述
圖5:對象類的分佈。 該圖以對數刻度顯示了Argoverse 3D跟蹤數據集中113個日誌段中爲每個類註釋的3D對象跟蹤的數量。
3.3。挖掘運動預測的軌跡
我們還對研究運動預測的任務感興趣,在運動預測中,我們可以預測將來某個時間跟蹤對象的位置。運動預測對於安全的自主車輛運動計劃至關重要。儘管我們帶有人工註釋的3D軌道適合進行運動預測的訓練和測試數據,但許多車輛的運動相對無意義-在給定的幀中,大多數汽車都以幾乎恆定的速度停泊或行駛。這樣的軌跡很難代表真實的預測挑戰。我們想要一個具有多種場景的基準測試,例如管理交叉路口,合併車輛減速,轉彎後加速,道路上的行人停車等。爲了對這些有趣的場景進行足夠的採樣,我們跟蹤了邁阿密和匹茲堡1006個行駛小時內的物體,並找到了有趣的車輛在那320小時內的行爲。特別是,我們挖掘的車輛要麼是(1)在十字路口,要麼(2)左轉或右轉,(3)轉向相鄰車道,或者(4)在交通繁忙時 。我們總共收集了324,557個5秒序列,並將其用於預測基準。圖6顯示了這些序列的地理分佈。每個序列都包含以10 Hz採樣的每個被跟蹤物體的2D鳥瞰中心。每個序列中的“焦點”對象始終是車輛,但是其他跟蹤的對象可以是車輛,行人或自行車。它們的軌跡可用作“社會”預測模型的上下文。 324,557個序列分爲205,942個序列,39,472個驗證和78,143個測試序列。每個序列都有一個具有挑戰性的軌跡,這是我們預測基準的重點。訓練,驗證和測試序列取自我們城市的不相連部分,即每個城市的大約八分之一和四分之一被分別留作驗證和測試數據。該數據集遠大於可以從公共可用的自動駕駛數據集中挖掘的數據集。儘管如此規模的數據很吸引人,因爲它使我們能夠看到罕見的行爲並訓練複雜的模型,但它太大了,無法詳盡地驗證開採軌跡的準確性,因此,數據中固有一些噪聲和誤差。
在這裏插入圖片描述
圖6:開採軌跡的分佈。 顏色表示在邁阿密(左)和匹茲堡(右)地圖上的軌跡軌跡數。 尋找有趣的車輛行爲的啓發式方法導致交叉路口和繁忙的道路(例如,Liberty和Penn Ave(右下插圖中的東南道路))上的注意力更加集中。
4. 3D對象跟蹤
在本節中,我們研究了各種基線跟蹤方法如何在Argoverse 3D跟蹤基準上執行。我們的基準線方法採用了LiDAR和環形攝像頭圖像的混合方法,可直接在3D模式下運行。除了衡量基準的基線難度外,我們還衡量簡單的基於地圖的啓發式方法如何影響跟蹤精度。對於這些基準,我們僅跟蹤和評估車輛。
給定一系列F幀,其中每個幀包含一組環形攝像頭圖像和來自LiDAR Pi的3D點,其中Pi的x,y,z座標,我們想要確定一組軌跡假設{Tj | j = 1,…,n},其中n是整個序列中唯一對象的數量,Tj包含對象中心位置和方向的集合。我們通常有一個動態的觀察者,因爲我們的汽車經常行駛。我們周圍場景中的履帶車輛可以是靜止的或移動的。
基線跟蹤器。我們的基線跟蹤管道將LiDAR返回的行車區域(在地圖上標出),以檢測潛在的物體,使用Mask R-CNN [18]修剪非車輛的LiDAR返回,使用最近的鄰居和匈牙利算法將聚類隨時間進行關聯,使用迭代最接近點(ICP)估計羣集之間的轉換,並使用等速運動模型通過經典的卡爾曼濾波器估算車輛姿態。所有車輛均使用相同的預定義邊框尺寸。
如果無法通過匈牙利方法找到對象的匹配項,則在刪除對象或將其關聯到新的羣集之前,僅使用最多5幀的運動模型來維持對象的姿勢。即使對象在短時間內被遮擋並重新出現,這也使我們的跟蹤器可以保持相同的對象ID。如果集羣不與當前跟蹤的對象相關聯,我們將爲其初始化一個新的對象ID。
跟蹤器使用以下地圖屬性:
可行駛區域。由於我們的基線側重於車輛跟蹤,因此我們將跟蹤器限制在地圖指定的可駕駛區域。該可行駛區域覆蓋車輛可能行駛的任何區域(請參閱第3.1節)。這種限制減少了誤報的機會。
地面高度。我們使用地圖信息去除地面上的LiDAR返回。與局部地平面估計方法相比,基於地圖的方法在傾斜和不平坦的環境中有效。
車道方向。由於LiDAR的稀疏性和局部視野,僅憑LiDAR來確定車輛方向是一項艱鉅的任務。我們觀察到車輛方向很少違反車道方向,尤其是在十字路口外。幸運的是,此類信息可在我們的數據集中獲得,因此,只要車輛不在十字路口且包含的LiDAR點太少,我們就會根據車道方向調整車輛方向。
4.1。評價
我們利用通常用於多對象跟蹤(MOT)的標準評估指標[43,5]。 MOT度量依賴於地面真實情況與預測對象之間的距離/相似性度量來確定最佳分配。進行分配後,我們將對MOTP使用三個距離度量:MOTP-D(質心距離),MOTP-O(方向誤差)和MOTP-I(交叉路口誤差) 。 MOTP-D是由相關跟蹤器輸出和地面真實情況之間的3D邊界框質心距離計算的,在MOTA中也用作檢測關聯範圍。我們的“遺失”軌道閾值是2米,是美國平均家庭用車長度的一半。 MOTP-O是繞z軸(垂直)的最小角度差,從而忽略了前後對象的方向,而MOTP-I是無模態形狀估計誤差,由3D邊界框的1-IoU計算得出與nuScenes中一樣對齊方向和質心[6]。對於所有三個MOTP分數,較低的分數表示較高的準確性。
在我們的實驗中,我們在Argoverse 3D跟蹤測試集中的24個日誌上運行跟蹤器。我們也對跟蹤性能和距離之間的關係感興趣。我們將閾值(30、50、100 m)應用於車輛與我們的自我車輛之間的距離,並且僅評估該範圍內的註釋和跟蹤器輸出。表2中的結果表明,我們的基線跟蹤器在LiDAR採樣密度較高的短距離範圍內表現良好,但是對於超過50 m的物體卻很難。
在我們的實驗中,我們在Argoverse 3D跟蹤測試集中的24個日誌上運行跟蹤器。我們也對跟蹤性能和距離之間的關係感興趣。我們將閾值(30、50、100 m)應用於車輛與我們的自我車輛之間的距離,並且僅評估該範圍內的註釋和跟蹤器輸出。表2中的結果表明,我們的基線跟蹤器在LiDAR採樣密度較高的短距離範圍內表現良好,但是對於超過50 m的物體卻很難。
我們將基線跟蹤器與三種消融方法進行比較,包括:1)使用基於地圖的地面去除和地圖上的車道方向; 2)從地圖上使用樸素的地面擬合地面移除和車道方向; 3)使用基於地圖的地面去除,並且沒有從地圖上獲得車道方向。表3中的結果表明,與基於地圖的地面擬合方法相比,基於地圖的地面去除方法在較長距離下具有更好的3D IoU評分和更好的檢測性能(更高的MOTA),但方向稍差。另一方面,如圖7所示,地圖的車道方向可以顯着改善方向性能。
我們採用了相對簡單的基準來跟蹤3D對象。我們認爲,我們的數據爲基於地圖的多模式跟蹤研究提供了新方法。

圖7:通過方向捕捉進行跟蹤。 使用車道方向信息有助於確定車輛方向以進行檢測和跟蹤。
在這裏插入圖片描述
表2:使用地圖進行地面移除和方向初始化的不同範圍的跟蹤精度。 從上至下,適用於30 m,50 m和100 m內的車輛的精度。
在這裏插入圖片描述
表3:使用不同的地圖屬性時,不同範圍的跟蹤精度比較。 從上至下,適用於30 m,50 m和100 m內的車輛的精度。

5.運動預測
在本節中,我們描述了用於運動預測基線的管道。
1.預處理:如第3.3節所述,我們首先挖掘“有趣”的序列,在其中觀察“焦點”載具 5秒鐘。作爲上下文,我們具有所有其他跟蹤對象(包括AV本身)的質心,這些質心被摺疊爲一個“其他”類。
預測座標系和歸一化。我們用於軌跡預測的座標系是自頂向下的鳥瞰圖(BEV)。預測涉及三個參考座標系:(1)在城市座標系中存儲和評估原始軌跡數據。 (2)對於使用車道中心線作爲參考路徑的模型,我們定義了一個二維曲線座標系,其軸線與車道中心線相切且垂直。 (3)對於沒有參考路徑(沒有地圖)的模型,我們對軌跡進行歸一化,以使軌跡的觀察部分始於原點,並在正x軸上結束。如果 (x,y)表示在時間步t處軌跡V的座標,則此歸一化可確保ytobs=0,其中Tobs是軌跡的最後觀察到的時間步(第5.1節)。我們發現這種歸一化比將軌跡留在絕對地圖座標或絕對方向上更好。
2.特徵工程:我們定義了其他特徵來捕獲社會或空間環境。對於社交環境,我們使用到前面,後面和附近對象的最小距離。這種啓發式方法旨在捕獲車輛之間的社交互動。對於空間上下文,我們通過計算車道線段座標系中的特徵將地圖用作先驗。我們計算與每個軌跡相對應的車道中心線,然後將座標 (x,y)映射到沿中心線 a的距離並偏離中心線o。在隨後的部分中,我們分別通過時間st和mt分別表示時間步t的軌跡Vi的社會特徵和地圖特徵。
3.預測算法:我們使用不同的功能組合來實現恆定速度,最近鄰和基於LSTM編碼器-解碼器的[46、15、56]模型。結果在5.3節中進行了分析。
5.1。問題描述
預測任務的框架爲:給定車輛軌跡的過去輸入座標Vi ,其中對於時間步長t的 X,預測時間步長T的未來座標 Y。對於汽車,5 s足以捕獲軌跡的顯着部分,例如。過十字路口。在本文中,我們將運動預測任務定義爲觀察20個過去的幀(2 s),然後預測未來的30個幀(3 s)。每個預測任務可以按相同順序利用其他對象的軌跡來捕獲社交環境併爲空間環境映射信息。
5.2。多重預測評估
預測未來是困難的。對於給定的觀察結果,通常會採取幾種可能的未來措施。對於自動駕駛汽車,重要的是預測許多可能的結果,而不僅僅是最可能的結果。儘管一些先前的工作以確定性的單峯方式評估了預測,但我們認爲更好的方法是遵循類似於DESIRE [32],Social GAN [17],R2P2 [50]和[51]的評估方法。鼓勵算法輸出多個預測。在[50]中評估的各種指標中,有minMSD超過K個樣本數量的指標,其中K =12。在[32]中使用了類似的方法,它們允許K最高爲50。我們遵循相同的原則方法並使用針對K個預測的最小平均位移誤差(minADE)和最小最終位移誤差(minFDE)作爲我們的指標,其中K = 1、3、6、9。請注意,minADE指的是軌跡的ADE,具有最小FDE,而不是最小ADE,因爲我們要評估單個最佳預測。就是說,minADE錯誤可能不是一個足夠的指標。如[50]和[51]中所述,諸如minMSD或minFDE之類的指標只能評估最佳軌跡的好壞,而不能評估所有軌跡的好壞。具有5條良好軌跡的模型將具有與具有1條良好軌跡和4條不良軌跡的模型相同的誤差。此外,考慮到問題的多模式性質,根據一個單一的基本事實進行評估可能並不公平。爲了嘗試基於預測的質量進行評估,我們提出了另一個度量標準:可駕駛區域合規性(DAC)。如果模型產生n個可能的未來軌跡,並且其中m個軌跡在某個點離開可驅動區域,則該模型的DAC爲(n m)/ n。因此,較高的DAC意味着更好的預測軌跡質量。最後,我們還使用閾值爲1.0米的未命中率(MR)[61]。它還是從最終位移誤差分佈中得出的度量。如果存在n個樣本,並且其中m個具有其最佳軌跡的最後一個座標距離地面真相超過2.0 m,則未命中率爲m / n。我們報告的基於地圖的基線可以訪問語義矢量地圖。因此,他們可以基於沿特定觀察軌跡的路網分支生成K個不同的假設。我們將中心線用作未來假想參考路徑的一種形式。我們的啓發式方法生成K = 10箇中心線。我們的地圖爲我們提供了一種生成緊湊而多樣的預測集的簡便方法。最近的鄰居基準可以通過考慮不同數量的鄰居來進一步預測可變數量的輸出。
5.3。 結果
在本節中,我們評估了多模式預測,社會情境和空間情境(來自矢量地圖)的效果,以改善未來3秒內的運動預測。 我們評估了以下模型 :
在這裏插入圖片描述
這些基線的結果報告在表4中。如果僅允許1個預測,則基於NN的基線會產生不正確的鄰居,並且其minADE和minFDE較差。另一方面,基於LSTM的基線至少能夠學習軌跡行爲並獲得更好的結果。對於K = 1的情況,沒有映射的LST M基線能夠獲得最佳的minADE和mindFDE。此外,像以前一樣使用映射的基線具有更高的DAC。現在,隨着K的增加,N N先從地圖中受益,並不斷產生更好的預測。將地圖用於修剪時,它會進一步改善所選軌跡,並提供最佳的minADE和minFDE。 LSTM + map(先前)1-G,n-C優於NN + map(先前)1-G,n-C,突出了LSTM在將曲線座標泛化方面做得更好的事實。此外,將地圖用作先驗總是可以提供更好的DAC,證明我們的地圖有助於預測遵循基本地圖規則(例如停留在可駕駛區域)的軌跡。另一個有趣的比較是NN + map(先前)1-G,n-C和NN + map(先前)m-G,n-C。前者提出了許多參考路徑(中心線),並沿着這些路徑中的每一個做出了一個預測。後者具有較少的參考路徑,但沿這些路徑中的每條路徑都會產生多個預測。後者在所有三個指標上均優於前者,這表明預測沿相同參考路徑遵循不同速度曲線的軌跡的重要性。圖9報告了針對不同的m和n值進行的消融研究結果。最終,當可以訪問高清矢量地圖並能夠做出多種預測(K = 6)時,即使是像NN + map(prior)mG,nC這樣的淺模型也可以勝過確定性的深模型LSTM + social( K = 1)可以訪問社交環境。
在這裏插入圖片描述
圖8:來自NN + map(先前)的M-G,n-C運動預測基線的定性結果。 橙色軌跡表示觀察到的2 s。 紅色表示接下來的3秒鐘的地面真實情況,綠色表示這3秒鐘的多個預測軌跡。 左上方:汽車從停車線開始加速,該模型能夠預測2種不同的模式(右轉和直行)以及沿這些模式的不同速度曲線。 右上方:該模型能夠預測2種不同的情況-車道變更和停留在同一車道上。 左下:該模型能夠穿越複雜的交叉路口並向左轉彎而不會違反任何車道規則,因爲它能夠使用矢量地圖生成參考路徑。 右下:根據速度分佈圖和轉彎半徑,這些預測說明了可以採取左轉彎的不同方式。
在這裏插入圖片描述
表4:不同數量的預測的運動預測誤差。 minADE:最小平均排量誤差,minFDE:最小最終排量誤差,DAC:符合駕駛區要求,MR:失誤率(閾值爲2 m)。 有關這些指標的定義,請參閱第5.2節(↓表示越低越好)。
在這裏插入圖片描述
圖9:NN + map(先前)m-G,n-C的minFDE,其中n(#Centerlines)和m(#Predictions沿每個中心線)的值不同。 在參考路徑數(n)和沿每個參考路徑的預測數(m)之間需要權衡。 增加n可以確保捕獲不同的高階場景,而增加m可以確保捕獲沿給定參考路徑的不同速度分佈。 如果中心線的數量足夠,則對於相同的預測總數,通常最好沿着較少的中心線進行多個預測,而不是沿着更多的中心線進行1個預測。
6.討論
Argoverse代表了兩個用於自動駕駛研究的大規模數據集。 Argoverse數據集是第一個具有豐富地圖信息(例如車道中心線,地面高度和可行駛區域)的數據集。 我們研究了基於地圖的上下文進行3D跟蹤的基線方法。 我們還挖掘了1000個小時的車隊日誌,以發現構成我們運動預測基準的各種現實對象軌跡。 我們研究了基線預測方法,並驗證了地圖數據可以提高準確性。 我們維護3D對象跟蹤和運動預測的公共排行榜。 構成Argoverse的傳感器數據,地圖數據,註釋和代碼可在我們的網站Argoverse.org上找到。

發佈了32 篇原創文章 · 獲贊 29 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章