Waymo 2020 | 2D/3D目標檢測、跟蹤和域自適應性冠軍解決方案解析

©PaperWeekly 原創 · 作者｜黃飄

學校｜華中科技大學碩士

研究方向｜多目標跟蹤

隨着最近 Waymo Open Dataset Challenges 2020 的落幕，其中關於 2D/3D 目標檢測和跟蹤賽道的部分冠亞軍解決方案也都公佈了，由於我只看到了地平線發佈的論文，所以就只分析他們公司在這次比賽中的解決方案。

PS：地平線在 Waymo 2020 中獲得了 3D 檢測、2D/3D 跟蹤和域自適應性賽道冠軍，2D 檢測賽道亞軍。

HorizonDet

論文標題：2nd Place Solution for Waymo Open Dataset Challenge - 2D Object Detection

論文鏈接：https://arxiv.org/abs/2006.15507

一般檢測競賽的算法技術報告中，榜前的方法都是各種算法 ensemble 的，比如多種檢測算法結合，又比如多種 nms 方式的結合等。

1.1 模型選擇

地平線這次在 Waymo 2020 的 2D 檢測賽道獲得了第二名，也同樣用到了模型 ensemble 的方式。對於檢測算法，他們團隊考慮到兩階段算法和單階段 anchor-free 算法在檢測結果多樣性方面的互補，以及 anchor-free 算法在擁擠、小目標場景下更好的效果，選用了 Cascade R-CNN 和 CenterNet 的結合。

其中 CenterNet 部分，採用了兩組 Hourglass104 網絡作爲 backbone，其中第一組的輸出只在訓練的時候爲提供 auxilliary loss，具體見下圖。

1.2 訓練策略

另外，還引入了 AAAI 2020 中針對 CenterNet 這類算法框架提出的訓練策略改進 TTF [2]，爲了提供更多高質量的正樣本。由於 CenterNet 所採用的高斯核只考慮了中心點和與之距離的因素，在 x,y 方向共用一組標準差，生成了圓形的高斯 mask：

而 TTF 中則是考慮到了目標的 aspect ratio，提出了多樣的標準差：

上述的這種只是對中心點回歸訓練的改進，接下來是對目標框寬高的迴歸的改進。原始的 CenterNet 假設預測得到的中心點絕對準確，所以可以通過寬高得到最終的目標框。但是 TTF 默認預測得到中心點不一定準確，所以預測的是中心點距離兩個角點的 offset：

對於 anchor 的設定則是在原始的 0.5,1,2 基礎上，考慮到車輛，加入了 0.25 和 0.75 兩種 aspect ratio。與此同時，考慮到部分標註錯誤，還加入了 label smoothing。

1.3 模型ensemble

接下來就是模型 ensemble了，除了 Cascade RCNN 和 CenterTrack 的結合，還考慮到了不同尺度輸入策略（對於前者選取了 0.8,1.0,1.2 三種尺度，對於後者選取了 0.5,0.75,1,1.25,1.5 五種尺度），當然還有不同訓練代數、策略下不同的模型，還有不同後處理的結果。

作者團隊將不同檢測框架和不同推理策略進行組合，通過二叉樹來構建貪婪式的自動 ensemble 框架：

每組模型的評價由驗證集上的 mAP 指標爲準，模型結果的融合則是基於不同的 nms 處理方式，這裏作者用了五種後處理方式：

其中第二種 adj-nms 指的是商湯在 OpenImage 2019 上的提出的方案：

即先用傳統的 NMS，再用 Soft-NMS。第三種 NMS 指的是 ICCV 2017 workshop 上的一篇論文提出的方法：

即對於當前選擇的置信度較高的候選框，基於其周圍候選框與其的 iou 和各自的類別置信度信息對候選框進行加權融合，有點像 softer-nms。對於後兩種後處理即直接取第一種模型或者第二種模型。

結果如下：

這裏面的 GAE 就是模型 ensemble，Expert Models 指的是隻用白天、夜晚等場景下的數據進行訓練。

AFDet

論文標題：AFDet: Anchor Free One Stage 3D Object Detection

論文鏈接：https://arxiv.org/abs/2006.12671

AFDet 是地平線這次 3D 檢測競賽的 baseline 算法，在 CVPR2020 Workshop 上報告過，從算法流程圖可以知道的 AFDet 由點雲編碼器、骨幹網絡和檢測器三部分構成。其中點雲編碼器部分採用的是 CVPR2019 的一篇論文中提出的 PointPillars 算法：

其首先基於鳥瞰圖將原始空間劃分爲 HxW 的網格區域，那麼每個點都存在有：

9 個維度的特徵。其中前三個爲每個點的真實位置座標，r 爲反射率，帶 c 下標的是該網格內所有點的均值，帶 p 下標的是對點相對於網格中心的偏差。

然後取 P 個非空網格區域，每個區域取 N 個點，多的話就採樣，少的話就補 0，D 代表特徵維度 9，因此就得到 DxPxN 的 tensor。然後利用線性層進行特徵轉換得到 CxPxN 的 tensor，緊接着利用取最值的操作得到 CxP 的 tensor，即每個非空網格區域對應一組特徵。

最後根據網格位置映射到 HxW 空間，得到 CxHxW 的 tensor，從而可以使用二維卷積的策略進行進一步特徵學習。

其 backbone 部分網絡結構如下：

在檢測器部分，作者團隊採用的是 anchor-free 的檢測框架，其迴歸預測部分包含有 5 個分支：

目標定位（heatmap、offset 和 z 方向定位）：

這部分類似於 centernet，中心點的標籤是依據點到預設網格點的歸一化後的 offset 確定的，而 heatmap 則是採用的：

而 offset 的損失計算則引入了一個圍繞中心點的正方形區域，用來緩和微小的定位誤差：

其中 b 是網格區域的 size，r 是正方形的 size，通過一個方形區域的設定，當中心點位置剛好正確，那麼誤差最小，如果中心點位置稍微發生偏移則會增大誤差。z 方向的迴歸採用的是 L1 Loss。

框的尺寸迴歸：

這部分就是長寬高的迴歸，同樣採用 L1 Loss。

方向迴歸：

這裏的方向是繞 z 軸的角度，設定了兩個 bin，分別是 [-7π/6,π/6] 和 [-π/6,7π/6]，每個 bin 有四個變量，兩個用作 softmax 分類，兩個用作角度迴歸。其中分類是判定屬於哪種 bin，角度迴歸是相對於 bin 中心的 sin 和 cos 偏差。

在推理階段，通過 max pooling 等操作取峯值，從而避免使用 NMS。

結果如下：

HorizonLiDAR3D

論文標題：1st Place Solution for Waymo Open Dataset Challenge - 3D Detection and Domain Adaptation

論文鏈接：https://arxiv.org/abs/2006.15505

可以看到，HorizonLiDAR3D 檢測框架跟 AFDet 基本一樣，區別就在於，這個是用來參賽的，所以會增加很多 tricks 和 ensemble。其中的點雲編碼部分跟之前一樣，還是編碼成了 pseudo image 形式：

而中間的 backbone 和 necks 部分則是換成了更加複雜的形式，包含有兩種 3D 特徵提取器和三種 RPN 網絡，組合成了三種網絡框架：

其中 3D 特徵提取部分的 SPConv3D 卷積是由幾個 submanifold 卷積和一個稀疏卷積層構成 [6]，其目的是防止網絡稀疏性下降：

可以看到原本稀疏的點在經過卷積之後，逐漸變得模糊，從而使得稀疏性下降，所以採用了稀疏卷積。這裏我沒有具體到相應的論文去研究這種卷積的模式，不過我猜測應該類似於在卷積之後，通過判斷每個點的感受野中心是否爲上一層的 active 區域，如果是就保留，否則置 0。

在推理階段，作者團隊將前 4 幀的點雲信息也一併利用起來，用來增加稠密性，所以輸入維度多了一個時間維度。另外團隊也充分利用了 Waymo 數據集提供的 5 種 LiDAR sweeps。

在數據增強環節，除了一些基本的平移旋轉操作，作者在每幀中加入了 6 個車輛、8 個行人和 10 個自行車，並沿着 z 軸做隨機反轉。特別地，作者團隊借鑑 CVPR 2020 中 Pointpainting 的方式，引入了顏色信息，用來增加類別區分度和更豐富的僞點雲信息：

引入 painting 之後的效果好了很多：

當然，還有一些模型 ensemble，這裏我就不再細說了，放最後的結果：

HorizonMOT (2D/3D)

論文標題：1st Place Solutions for Waymo Open Dataset Challenges - 2D and 3D Tracking

論文鏈接：https://arxiv.org/abs/2006.15506

近期聯合檢測和跟蹤的算法框架很熱門，性能也比較好，比如 CenterTrack、FairMOT 等。作者團隊也借鑑了這一點，檢測框架部分自然就是採用了上面所介紹的 HorizonDet 和 HorizonLiDAR3D，而跟蹤分支則是借鑑了 FairMOT 的模式，增加了 reid 分支：

其中虛線部分是尚未來得及在競賽中使用的部分。跟蹤部分假設不使用未來信息，不考慮相機運動，具體如下：

運動模型

這一部分借鑑了 DeepSort 算法，使用了 Kalman Filter 算法，在 2D 跟蹤中設定的狀態變量是中心座標、長寬比和高度以及各自的速度變化量。在 3D 跟蹤中設定的狀態變量爲 3D 座標、長寬高和位置的速度變化量。

表觀模型

表觀模型的引入主要是爲了防止擁擠和軌跡暫時丟失的問題，行人輸入爲 128x64，車輛輸入爲 128x128，經過 11 個 3x3 卷積和 3 個 1x1 卷積以及一些 pooling 層得到 512 維向量。

數據關聯

數據關聯的基礎算法是匈牙利算法，這裏作者將關聯過程分成了三個階段，與此同時將檢測結果按照置信度分成了兩份，一份置信度大於 t(s)，一份介於 t(s)/2 和 t(s) 之間。

第一階段的數據關聯跟 DeepSort 一樣，採用級聯匹配的方式，對跟蹤框和第一份檢測結果進行匹配，也就是先匹配持續跟蹤的目標，對於暫時丟失的目標降低優先級；

第二階段的數據關聯會對第一階段中尚未匹配的跟蹤軌跡（丟失時間小於 3）和剩餘的第一份檢測結果進行匹配，當然也會降低一些匹配閾值

第三階段的數據關聯會對第二階段尚未匹配的跟蹤軌跡和第二份檢測結果進行匹配，同樣降低閾值標準。

對於不同目標的閾值也是有區別的：

而對於 2D 和 3D 目標的 IOU 距離計算則是：

其中 ReID 特徵的餘弦距離用於第一階段，而 IOU 距離用於後兩個階段。

最終的結果如下：

參考文獻

[1] 2nd Place Solution for Waymo Open Dataset Challenge - 2D Object Detection

[2] Training-Time-Friendly Network for Real-Time Object Detection

[3] AFDet: Anchor Free One Stage 3D Object Detection

[4] PointPillars: Fast Encoders for Object Detection from Point Clouds

[5] 1st Place Solution for Waymo Open Dataset Challenge - 3D Detection and Domain Adaptation

[6] Second: Sparsely embedded convolutional detection

[7] 1st Place Solutions for Waymo Open Dataset Challenges - 2D and 3D Tracking

更多閱讀

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者羣體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術乾貨。我們的目的只有一個，讓知識真正流動起來。

???? 來稿標準：

• 稿件確係個人原創作品，來稿需註明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已發佈鏈接

• PaperWeekly 默認每篇文章都是首發，均會添加“原創”標誌

???? 投稿郵箱：

• 投稿郵箱：[email protected]

• 所有文章配圖，請單獨在附件中發送

• 請留下即時聯繫方式（微信或手機），以便我們在編輯發佈時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公衆號後臺點擊「交流羣」，小助手將把你帶入 PaperWeekly 的交流羣裏。

Waymo 2020 | 2D/3D目標檢測、跟蹤和域自適應性冠軍解決方案解析

1.2 訓練策略

更深的編碼器+更淺的解碼器=更快的自迴歸模型

泛化性亂彈：從隨機噪聲、梯度懲罰到虛擬對抗訓練

論文盤點：GAN生成對抗樣本的方法解析

WWW 2020 | 信息檢索中基於上下文的文本詞項權重生成

論文盤點：基於圖卷積GNN的多目標跟蹤算法解析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結