PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection （AAAI 2020）

PBRNet：Progressive Boundary Refinement Network for Temporal Action Detection
AAAI 2020 中國科學技術大學

歡迎感興趣的朋友關注公。衆號StrongerTang更多交流討論，相互學習！
1 摘要
由於動作邊界的模糊性，時序動作檢測是一項具有挑戰性的任務。爲了解決這一問題，本文提出了一種端到端漸進邊界細化網絡（PBRNet）。PBRNet屬於 one-stage系列，具有三個級聯的探測模塊，可以更精確地定位動作邊界。

具體來說，PBRNet主要包括粗金字塔檢測、精金字塔檢測和細粒度檢測。前兩個模塊構建兩個特徵金字塔以執行基於anchor的檢測，第三個模塊探索幀級特徵以細化每個動作實例的邊界。在細粒度檢測模塊中，提出了三個幀級分類分支來增強幀級特徵，更新動作實例的置信度。顯然，PBRNet集成了基於anchor和frame-level的方法。

我們對提出的PBRNet進行了實驗評估，並綜合研究了主要組件的影響。結果表明，PBRNet在THUMOS14和ActivityNet兩個常用基準上均達到了最新的檢測性能，同時具有較高的推理速度。

2 相關背景
2.1 時序動作檢測
時序動作檢測任務當前的方法主要借鑑於目標檢測的成果，即主要的兩種思路，思路1：類似於Faster RCNN的two-stage，思路2：類似於SSD的one-stage；two-stage精度高但計算量大、速度慢，one-stage則恰好相反；兩者的結合成爲當前不少工作的思路。

與目標檢測具有明顯的間隔一致性相比，視頻的邊界是模糊的，因爲連續幀之間的變化通常是微弱的。這也使得邊界定位的準確度較低。爲了解決這個問題，現有的方案主要有兩個主流思想。一個是apply boundary regression to refine the boundaries，其中cascaded boundary regression是一個經典又高效的方案，代表成果如 CBR （Cascaded boundary regression for temporal action detection. BMVC 2017），CBR以迭代的方式進行邊界迴歸，輸出的邊界被送回到作爲下次refinement的輸入。但CBR在邊界迴歸的不同步驟使用同樣的結構和特徵，這與progressive learning是不一致的。

另一個思路是densely evaluate frame-level scores, 然後通過設置得分的閾值來決定候選動作的邊界。因此，proposal的邊界變得細粒度。但是，這種frame-level的方法嚴重依賴於selection metric or preset threshold, 而這些又決定了動作邊界的精度。

基於這樣的背景，本文提出了一種漸進邊界細化網絡(PBRNet)來提高時序動作檢測的精度和速度。不同於現有的大多數方法，PBRNet的整個網絡，包括特徵提取，都是聯合訓練的。在檢測階段，一個three-step的級聯迴歸被構造來讓動作邊界變得精細化。

3 方案原理

PBRNet整體結構圖

PBRNet是one-stage的檢測器，整體採用類似於U-Net的結構，主要由三個關鍵部分組成：coarse pyramidal detection(CPD), refined pyramidal detection(RPD) and fine-grained detection(FGD)。CPD和RPD是基於anchor的檢測系統，兩個對稱的特徵金字塔被設計來檢測不同尺度的動作。FGD旨在通過frame-level的特徵精細化候選動作的邊界。

3.1 Feature Extraction

首先將視頻切分爲視頻段（L × H × W，L爲視頻段的幀數，實驗中 H = W = 96），3D卷積採用的 I3D （ Quovadis,action recognition? a new model and the kinetics dataset. CVPR 2017，之前組會講過），但是I3D最後的平均池化層沒有使用，得到L/8×H/32×W/32的特徵圖。

3.2 Coarse Pyramidal Detection

在基於anchor的檢測模塊中構建時序特徵金字塔結構，爲了處理動作實例時序尺度上的不同。

特徵圖空間大小固定爲3×3，時序上金字塔每一層變爲前一層的一半。特徵金字塔一共有5層，即B0 ,B1 ,B2 ,B3 ,B4 , 相應的時序長度爲L/8, L/16, L/32, L/64, L/128。低層的時序高分辨率特徵圖用來檢測時間短的動作實例，高分辨率的則用來檢測時間長的動作實例。類似於SSD，特徵圖的每一層都設置一定數量的不同尺度的anchor。假設一個特徵圖的時序長度爲N，每個時序位置有 K 個不同尺度的anchor，則這一anchor 層一共有 NK 個anchors。

特徵金字塔中的每一層都做classification and location regression，通過3×3×3的卷積層實現。

通過CPD模塊，我們將獲得first-level的候選動作，但是CPD的金字塔中，低層缺乏足夠的語義信息並且高層缺乏足夠的 fine details，所以first-level的候選動作只擁有粗糙的邊界。

3.3 Refined Pyramidal Detection

爲了完善CPD的缺陷，我們在RPD中提出了更強大的金字塔。特徵金字塔逐層將特徵圖在時序上進行上採樣，同時融合CPD的特徵圖來豐富特徵。特徵層變爲U0 ,U1 ,U2 ,U3 ,U4，時序尺度爲L/128, L/64, L/32, L/16, L/8。
其中，特徵圖Un是通過融合前面一層的特徵圖Un−1和CPD模塊中相應的特徵圖B 。具體實現如下圖中的FBv1模塊：

由於CPD 和RPD有着對稱結構，我們直接將first-level候選動作作爲RPD的anchor。隨後，進行classification和regression 來產生second-level 候選動作。

類似的兩個inter-connected 時序金字塔在論文（Multi-granularity generator for temporal action proposal. CVPR 2019）中已經提出，但是本篇論文作者認爲他們的創新性在於classification 和 regression在金字塔上都被進行了，形成了級聯的檢測方案。

3.4 Fine-grained Detection

FGD模塊被設計用來以細粒度精細化候選動作。在FGD中，使用如下圖所示的FBv2來生成frame-level特徵。frame-level特徵來源於兩部分，第一部分是 RPD中最後的特徵圖作爲輸入，經過三次反捲積後將時序長度變爲和網絡起始輸入的視頻段一樣。第二部分將raw frames作爲輸入，使用三個卷積層和一個平均池化層來使得特徵圖與第一部分的維度一致。然後將這兩部分的特徵圖級聯進行融合，再使用一個卷積層來生成最後的frame-level特徵。

第二部分的特徵圖可以補充第一部分的空間信息。此外，我們在frame-level特徵上增加了三個frame-level的分類分支，輸出對應的三個frame-level 分類概率：actionness, starting 和 ending probability。每一個卷積層都由卷積核爲3×3×3的卷積層和softmax層組成。

frame-level 的分類分支有兩個主要的功能：首先，額外的frame-level 的監督可以幫助豐富frame-level 特徵的語義信息，這對細粒度的邊界迴歸大有裨益。其次，在推論階段， frame-level 的分類得分被用來融合anchor-based的分類得分。