行人軌跡預測問題是無人駕駛技術的重要一環,已成爲近年來的一項研究熱點。在機器人領域國際頂級會議ICRA 2020上,美團無人配送團隊從一百多支隊伍中脫穎而出,在行人軌跡預測競賽中奪得第一名。本文系對該預測方法的一些經驗總結,希望能對大家有所幫助或啓發。
一、背景
6月2日,國際頂會ICRA 2020舉辦了“第二屆長時人類運動預測研討會”,該研討會由博世有限公司、厄勒布魯大學、斯圖加特大學、瑞士洛桑聯邦理工聯合組織。同時在該研討會上,還舉辦了一項行人軌跡預測競賽,吸引了來自世界各地的104支隊伍參賽。美團無人配送團隊通過採用“世界模型”的交互預測方法,奪得了該比賽的第一名。
二、賽題簡介
本次競賽提供了街道、出入口、校園等十個複雜場景下的行人軌跡數據集,要求參賽選手根據這些數據集,利用行人在過去3.6秒的軌跡來預測其在未來4.8秒的運行軌跡。競賽使用FDE(預測軌跡和真實軌跡的終點距離)來對各種算法進行排名。
本次的賽題數據集,主要來源於各類動態場景下的真實標註數據和模擬合成數據,採集頻率爲2.5赫茲,即兩個時刻之間的時間差爲0.4秒。數據集中的行人軌跡都以固定座標系下的時序座標序列表示,並且根據行人的周圍環境,這些軌跡被分類成不同的類別,例如靜態障礙物、線性運動、追隨運動、避障行爲、團體運動等。在該比賽中,參賽隊伍需要根據每個障礙物歷史9個時刻的軌跡數據(對應3.6秒的時間)來預測未來12個時刻的軌跡(對應4.8秒的時間)。
該競賽採用多種評價指標,這些評價指標分別對單模態預測模型和多模態預測模型進行評價。單模態模型是指給定確定的歷史軌跡,預測算法只輸出一條確定的軌跡;而多模態模型則會輸出多條可行的軌跡(或者分佈)。本次競賽的排名以單模態指標中的FDE指標爲基準。
三、方法介紹
其實,美團在很多實際業務中經常要處理行人軌跡預測問題,而行人軌跡預測的難點在於如何在動態複雜環境中,對行人之間的社交行爲進行建模。因爲在複雜場景中,行人之間的交互非常頻繁並且交互的結果將會直接影響他們後續的運動(例如減速讓行、繞行避障、加速避障等)。
基於各類帶交互數據集,一系列的算法被相繼提出,然後對障礙物進行交互預測,這些主流模型的工作重心都是針對複雜場景下行人之間的交互進行建模。常用的方法包括基於LSTM的交互算法(SR LSTM[1]、Social GAN[2]、SoPhie[3]、Peeking into[4]、StarNet[5]等),基於Graph/Attention的交互算法(GRIP[6]、Social STGCNN[7]、STGAT[8]、VectorNet[9]等),以及基於語義地圖/原始數據的預測算法等。
我們本次的參賽方法就是由自研算法[10](如圖2所示)改進而來,該方法的設計思路是根據場景中所有障礙物的歷史軌跡、跟蹤信息以及場景信息,建立並維護一個全局的世界模型來挖掘障礙物之間、障礙物與環境之間的交互特性。然後,再通過查詢世界模型來獲得每個位置鄰域內的交互特徵,進而來指導對障礙物的預測。
在實際操作過程中,由於數據集中缺乏場景信息,我們對模型做了適當的調整。在世界模型中(對應上圖的Interaction Net),我們僅使用了現有數據集,以及模型能夠提供的位置信息和跟蹤信息LSTM隱狀態信息。最終得到的模型結構設計如下圖3所示:
整個模型基於Seq2Seq結構,主要包含歷史軌跡編碼模塊(Encoder)、世界模型(Interaction Module)和解碼預測模塊(Decoder)三個部分。其中,編碼器的功能在於對行人歷史軌跡進行編碼,主要提取行人在動態環境中的運動模式;解碼器則是利用編碼器得到的行人運動模式特徵,來預測他們未來的運動軌跡分佈。
需要強調一下,在整個編碼與解碼的過程中,都需要對世界模型進行實時更新(Update)與查詢(Query)兩種操作。更新操作主要根據時序的推進,將行人的運動信息實時編入世界模型中;查詢操作則是根據全局的世界地圖以及行人的自身位置,來獲取行人當前鄰域內的環境特徵。
圖4 編碼階段
在圖4中,展示了我們模型在歷史軌跡編碼階段的計算流程。編碼階段共有9個時刻,對應9個歷史觀測時間點,每個時刻都執行相同的操作。以t時刻爲例。
首先,將t時刻的所有行人座標數據,包含:
位置集合
速度集合
所有行人跟蹤信息(上時刻編碼得到的LSTM隱狀態)
將以上信息輸入到世界模型中更新地圖信息,即Update操作。整個Update操作經過MLP、MaxPooling以及GRU等模塊獲得一個全局的時空地圖特徵R;然後,每個LSTM(對應一個行人),使用其當前觀測時刻的座標信息:
然後與R進行Attention操作,得到個人領域內的時空特徵,最後與他的座標信息、上時刻隱狀態信息一併輸入到LSTM並更新LSTM內置狀態。
解碼預測階段的流程與歷史軌跡編碼階段基本一致,但存在兩個細微的不同點:
-
區別1:編碼階段每個行人對應的LSTM隱狀態的初始化爲0;而解碼階段,LSTM由編碼階段的LSTM隱狀態和噪聲共同初始化。
-
區別2:編碼階段行人對應的LSTM和世界模型使用的是行人歷史觀測座標;而解碼階段使用的是上時刻預測的行人座標。
四、數據預處理與後處理
爲了對數據有更好的理解,便於使用更適合的模型,我們對訓練數據做了一些預處理操作。首先,數據集給出了各個行人的行爲標籤,這些標籤是根據規則得到的,由於我們採用了交互預測的方法,希望模型能自動學習行人與周圍主體之間的位置關係、速度關係等,所以我們就不直接使用標註中的“類型”信息;然後這次比賽的數據採集自馬路、校園等不同場景中行人的運動軌跡,場景之間的差異性非常大,訓練集和測試集數據分佈不太一致。
於是,我們做了數據的可視化工作,將所有軌跡數據的起點放置於座標軸的原點處,根據歷史觀測軌跡(前9個時刻)終點的位置朝向,將所有軌跡分爲4類:沿左上方運動(top-left moving)、沿右上方運動(top-right moving)、沿左下方運動(bottom-left moving)和沿右下方運動(bottom-right moving)。分佈的結果如圖6所示,可以發現,訓練集和測試集的數據分佈存在一定的差距。
針對上述問題,我們對訓練集做了2項預處理來提高訓練集與測試集分佈的一致性:
-
平衡性採樣;
-
場景數據正則化(缺失軌跡點插值,軌跡中心化以及隨機旋轉)。
此外,對於預測結果,我們也做了相應的後處理操作進行軌跡修正,主要是軌跡點的裁剪以及基於非極大值抑制的軌跡選擇。圖7展示了兩個場景中行人的運動區域,可以看到有明顯的邊界,對於超出邊界的軌跡,我們做了相應的修正,從而保證軌跡的合理性。
最後在訓練技巧上,我們也使用K-Fold Cross Validation和Grid Search方法來做自適應的參數調優。最終在測試集上取得FDE 1.24米的性能,而獲得比賽第二名的方法的FDE爲1.30米。
五、總結
行人軌跡預測是當前一個非常熱門的研究領域,隨着越來越多的學者以及研究機構的參與,預測方法也在日益地進步與完善。美團無人配送團隊也期待能與業界一起在該領域做出更多、更好的解決方案。幸運的是,這次競賽的場景與我們美團無人配送的場景具備一定的相似性,所以我們相信未來它能夠直接爲業務賦能。目前,我們已經將該研究工作在競賽中進行了測試,也驗證了算法的性能,同時爲該算法在業務中落地提供了一個很好的支撐。
六、參考文獻
[1] Zhang P, Ouyang W, Zhang P, et al. Sr-lstm: State refinement for lstm towards pedestrian trajectory prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 12085-12094.
[2] Gupta A, Johnson J, Fei-Fei L, et al. Social gan: Socially acceptable trajectories with generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2255-2264.
[3] Sadeghian A, Kosaraju V, Sadeghian A, et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1349-1358.
[4] Liang J, Jiang L, Niebles J C, et al. Peeking into the future: Predicting future person activities and locations in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5725-5734.
[5] Zhu Y, Qian D, Ren D, et al. StarNet: Pedestrian trajectory prediction using deep neural network in star topology[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. 2019: 8075-8080.
[6] Li X, Ying X, Chuah M C. GRIP: Graph-based interaction-aware trajectory prediction[C]//Proceedings of the IEEE Intelligent Transportation Systems Conference. IEEE, 2019: 3960-3966.
[7] Mohamed A, Qian K, Elhoseiny M, et al. Social-STGCNN: A Social spatio-temporal graph convolutional neural network for human trajectory prediction[J]. arXiv preprint arXiv:2002.11927, 2020.
[8] Huang Y, Bi H K, Li Z, et al. STGAT: Modeling spatial-temporal interactions for human trajectory prediction[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 6272-6281.
[9] Gao J, Sun C, Zhao H, et al. VectorNet: Encoding HD maps and agent dynamics from vectorized representation[J]. arXiv preprint arXiv:2005.04259, 2020.
[10] Zhu Y, Ren D, Fan M, et al. Robust trajectory forecasting for multiple intelligent agents in dynamic scene[J]. arXiv preprint arXiv:2005.13133, 2020.
七、作者簡介
炎亮,美團無人車配送中心算法工程師。
佳禾,浙江大學在讀研究生,美團無人車配送中心實習生。
德恆,美團無人車配送中心算法工程師。
冬淳,美團無人車配送中心算法工程師。
---------- END ----------
招聘信息
美團技術運營團隊納新啦!本次我們招聘的崗位是技術分析師,主要工作是跟蹤全球學術界和工業界相關的科研成果、前沿技術熱點、動態與趨勢等等,形成系統報告和認知,貼合美團業務做技術前瞻性的預見分析。非常有挑戰,期待你的加入!
崗位職責:
1)研究互聯網相關技術與行業的熱點、動態與趨勢,分析新技術與新成果,梳理前沿技術版圖。
2)跟蹤業界全球主要企業,包括企業和初創企業的動態與成果。
3)掌握學術界前沿進展,制定領域內全球學術資源地圖,推動公司與高校的技術合作落地。
4)梳理公司技術與人才架構,制定並運營技術路線治理與發展策略,提升集團技術能力。
5)與外部專家學者對接訪談,挖掘有技術啓發、有價值的觀點。
任職要求:
1)計算機、電子、自動化等IT相關專業碩士以上學歷,相關領域工作經歷2年以上,熟悉人工智能、物聯網、區塊鏈、大數據分析、量子計算等技術領域的一種或多種。
2)具有不斷學習新技術的強烈意願與能力,並具備良好的邏輯思維能力。
3)瞭解互聯網行業發展規律和產品研發流程。能夠洞見問題並提出可實施的解決方案,熟悉行業分析模型和方法。
4)優秀的技術分析能力,善於通過論文、專利、研究報告、科技新聞等挖掘行業及技術趨勢。
5)優秀的報告撰寫能力,英語流利,能翻譯和撰寫英文報告。
6)優秀的個人影響力與溝通能力。能夠樂觀、積極、主動的完成各項工作任務。
加分項:
1)海內外重點院校畢業,博士學歷。
2)有諮詢公司或全球500強企業技術戰略部門工作經歷。
感興趣的同學可投遞簡歷至:[email protected](郵件標題註明:技術分析師)
也許你還想看