CVPR 2019軌跡預測競賽冠軍方法總結

背景

CVPR 2019 是機器視覺方向最重要的學術會議,本屆大會共吸引了來自全世界各地共計 5160 篇論文,共接收 1294 篇論文,投稿數量和接受數量都創下了歷史新高,其中與自動駕駛相關的論文、項目和展商也是扎堆亮相,成爲本次會議的“新寵”。

障礙物軌跡預測挑戰賽(Trajectory Prediction Challenge)隸屬於CVPR 2019 Workshop on Autonomous Driving — Beyond Single Frame Perception(自動駕駛研討會),由百度研究院機器人與自動駕駛實驗室舉辦,側重於自動駕駛中的多幀感知,預測和自動駕駛規劃,旨在聚集來自學術界和工業界的研究人員和工程師,討論自動駕駛中的計算機視覺應用。美團無人配送與視覺團隊此項比賽獲得了第一名。

在該比賽中,參賽隊伍需要根據每個障礙物過去3秒的運動軌跡,預測出它在未來3秒的軌跡。障礙物共有四種類型,包括行人、自行車、大型機動車、小型機動車。每種障礙物的軌跡用軌跡上的採樣點來表示,採樣的頻率是2赫茲。美團的方法最終以1.3425的成績取得該比賽的第一名,同時我們也在研討會現場分享了算法和模型的思路。

賽題簡介

軌跡預測競賽數據來源於在北京蒐集的包含複雜交通燈和路況的真實道路數據,用於競賽的標註數據是基於攝像頭數據和雷達數據人工標註而來,其中包含各種車輛、行人、自行車等機動車和非機動車。

訓練數據:每個道路數據文件包含一分鐘的障礙物數據,採樣頻率爲每秒2赫茲,每行標註數據包含障礙物的ID、類別、位置、大小、朝向信息。

測試數據:每個道路數據文件包含3秒的障礙物數據,採樣頻率爲每秒2赫茲,目標是預測未來3秒的障礙物位置。

評價指標

平均位移誤差:Average displacement error(ADE),每個預測位置和每個真值位置之間的平均歐式距離差值。

終點位移誤差:Final displacement error(FDE),終點預測位置和終點真值位置之間的平均歐式距離差值。

由於該數據集包含不同類型的障礙物軌跡數據,所以採用根據類別加權求和的指標來進行評價。

現有方法

這次競賽要解決的預測問題不依賴地圖和其他交通信號等信息,屬於基於非結構化數據預測問題,這類問題現在主流的方法主要根據交互性將其區分爲兩類:1. 獨立預測,2. 依賴預測

獨立預測是隻基於障礙物歷史運動軌跡給出未來的行駛軌跡,依賴預測是會考慮當前幀和歷史幀的所有障礙物的交互信息來預測所有障礙物未來的行爲。

考慮交互信息的依賴預測,是當前學術界研究比較多的一類問題。但是經調研總結,我們發現其更多的是在研究單一類別的交互,比如在高速公路上都是車輛,那預測這些車輛之間的交互;再比如在人行道上預測行人的交互軌跡。預測所有類別障礙物的之間的交互的方法很少。

以下是做行人交互預測的兩個方法模型:

方法1. Social GAN,分別對每個障礙車輸入進行Encoder,然後通過一個統一的Pooling模塊提取交互信息,再單獨進行預測。

方法2. StarNet,使用一個星型的LSTM網絡,使用Hub網絡提取所有障礙物的交互信息,然後再輸出給每個Host網絡獨立預測每個障礙物的軌跡。

我們的方法

數據分析

拿到賽題之後,我們首先對訓練數據做了分析,由於最終的目標是預測障礙物位置,所以標註數據中的障礙物大小信息不太重要,只要根據類別來進行預測即可。

其次,分析朝向信息是否要使用,經統計發現真值標註的朝向信息非常不準確,從下圖可以看到,大部分的標註方向信息都和軌跡方向有較大差距,因此決定不使用朝向信息進行預測。

然後,分析數據的完整性,在訓練過程中每個障礙物需要12幀數據,纔可以模擬測試過程中使用6幀數據來預測未來6幀的軌跡。但是在真實蒐集數據的時候,沒有辦法保證數據的完整性,可能前後或中間都可能缺少數據,因此,我們根據前後幀的位置關係插值生成一些訓練數據,以填補數據的缺失。

最後,對數據做了增強,由於我們的方法不考慮障礙物之間的交互,僅依賴每個障礙物自身的信息進行訓練,因此障礙物軌跡進行了旋轉、反向、噪聲的處理。

模型結構

由於這次軌跡預測的問題是預測所有類別的軌跡,所以使用解決單一類別的軌跡預測模型不適用於該問題,而且如果把所有的物體放在單一的交互模型中來,不能正確提取出不同障礙物之間的交互特徵。我們嘗試了一些方法也證實了這一點。

因此在競賽中,我們使用了多類別的獨立預測方法,網絡結構如下圖,該方法針對每個類別構造一個LSTM的Encoder-Decoder模型,並且在Encoder和Decoder之間加入了Noise模塊,Noise模塊生成固定維度的高斯噪聲,將該噪聲和Encoder模塊輸出的LSTM狀態量進行連結作爲Decoder模塊的LSTM初始狀態量,Noise模塊主要作用是負責在多輪訓練過程中增加數據的擾動,在推理過程中通過給不同的Noise輸入,可以生成多個不同的軌跡。

最終,需要在不同的軌跡輸出中選擇一個最優的軌跡,這裏採用了一個簡單的規則,選擇預測的軌跡方向和歷史軌跡方向最接近的軌跡作爲最終的軌跡輸出。

實驗結果

我們僅使用了官方提供的數據進行訓練,按照前述數據增強方法先對數據進行增強,然後搭建網絡結構進行訓練,Loss採用Weighted Sum of ADE(WSADE),採用Adam優化方法,最終提交測試的WSADE結果爲1.3425。

方法 WSADE
我們的方法 1.3425
StarNet(基於交互的方法) 1.8626
TrafficPredict(ApolloScape Baseline方法) 8.5881

總結

在這次競賽中,我們嘗試了使用多類別的獨立預測方法,通過對數據增強和加入高斯噪聲,以及最終人工設計規則選擇最優軌跡的方法,在這次障礙物軌跡預測挑戰賽(Trajectory Prediction Challenge)中獲得了較好的成績。但是,我們認爲,基於交互的方法用的好的話應該會比這種獨立預測方法還是要好,比如可以設計多類別內部交互和類別間的交互。另外,也關注到現在有一些基於圖神經網絡的方法也應用在軌跡預測上,今後會在實際的項目中嘗試更多類似的方法,解決實際的預測問題。

參考文獻

  • Yanliang Zhu, Deheng Qian, Dongchun Ren and Huaxia Xia. StarNet: Pedetrian Trajectory Prediction using Deep Neural Network in Star Topology[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). 2019.
  • Gupta A, Johnson J, Fei-Fei L, et al. Social gan: Socially acceptable trajectories with generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018: 2255-2264.
  • Apolloscape. Trajectory dataset for urban traffic. 2018. http://apolloscape.auto/traje...

作者簡介

  • 李鑫,美團無人配送與視覺部PNC組軌跡預測組算法專家。
  • 炎亮,美團無人配送與視覺部PNC組軌跡預測組算法工程師。
  • 德恆,美團無人配送與視覺部PNC組軌跡預測組負責人。
  • 冬淳,美團無人配送與視覺部PNC組負責人。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章