PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection (AAAI 2020)

PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection
AAAI 2020 中國科學技術大學

歡迎感興趣的朋友關注公。衆號StrongerTang更多交流討論,相互學習!
1 摘要
由於動作邊界的模糊性,時序動作檢測是一項具有挑戰性的任務。爲了解決這一問題,本文提出了一種端到端漸進邊界細化網絡(PBRNet)。PBRNet屬於 one-stage系列,具有三個級聯的探測模塊,可以更精確地定位動作邊界。

具體來說,PBRNet主要包括粗金字塔檢測精金字塔檢測細粒度檢測前兩個模塊構建兩個特徵金字塔以執行基於anchor的檢測,第三個模塊探索幀級特徵以細化每個動作實例的邊界。在細粒度檢測模塊中,提出了三個幀級分類分支來增強幀級特徵,更新動作實例的置信度。顯然,PBRNet集成了基於anchor和frame-level的方法。

我們對提出的PBRNet進行了實驗評估,並綜合研究了主要組件的影響。結果表明,PBRNet在THUMOS14和ActivityNet兩個常用基準上均達到了最新的檢測性能,同時具有較高的推理速度。

2 相關背景
2.1 時序動作檢測
時序動作檢測任務當前的方法主要借鑑於目標檢測的成果,即主要的兩種思路,思路1:類似於Faster RCNN的two-stage,思路2:類似於SSD的one-stage;two-stage精度高但計算量大、速度慢,one-stage則恰好相反;兩者的結合成爲當前不少工作的思路。

與目標檢測具有明顯的間隔一致性相比,視頻的邊界是模糊的,因爲連續幀之間的變化通常是微弱的。這也使得邊界定位的準確度較低。爲了解決這個問題,現有的方案主要有兩個主流思想。一個是apply boundary regression to refine the boundaries,其中cascaded boundary regression是一個經典又高效的方案,代表成果如 CBR (Cascaded boundary regression for temporal action detection. BMVC 2017),CBR以迭代的方式進行邊界迴歸,輸出的邊界被送回到作爲下次refinement的輸入。但CBR在邊界迴歸的不同步驟使用同樣的結構和特徵,這與progressive learning是不一致的

另一個思路是densely evaluate frame-level scores, 然後通過設置得分的閾值來決定候選動作的邊界。因此,proposal的邊界變得細粒度。但是,這種frame-level的方法嚴重依賴於selection metric or preset threshold, 而這些又決定了動作邊界的精度。

基於這樣的背景,本文提出了一種漸進邊界細化網絡(PBRNet)來提高時序動作檢測的精度和速度。不同於現有的大多數方法,PBRNet的整個網絡,包括特徵提取,都是聯合訓練的。 在檢測階段,一個three-step的級聯迴歸被構造來讓動作邊界變得精細化。

3 方案原理
在這裏插入圖片描述

PBRNet整體結構圖

PBRNet是one-stage的檢測器,整體採用類似於U-Net的結構,主要由三個關鍵部分組成:coarse pyramidal detection(CPD), refined pyramidal detection(RPD) and fine-grained detection(FGD)。CPD和RPD是基於anchor的檢測系統,兩個對稱的特徵金字塔被設計來檢測不同尺度的動作。FGD旨在通過frame-level的特徵精細化候選動作的邊界。

3.1 Feature Extraction
在這裏插入圖片描述

首先將視頻切分爲視頻段(L × H × W,L爲視頻段的幀數,實驗中 H = W = 96),3D卷積採用的 I3D ( Quovadis,action recognition? a new model and the kinetics dataset. CVPR 2017,之前組會講過),但是I3D最後的平均池化層沒有使用,得到L/8×H/32×W/32的特徵圖。

3.2 Coarse Pyramidal Detection
在這裏插入圖片描述

在基於anchor的檢測模塊中構建時序特徵金字塔結構,爲了處理動作實例時序尺度上的不同。

特徵圖空間大小固定爲3×3,時序上金字塔每一層變爲前一層的一半。特徵金字塔一共有5層,即B0 ,B1 ,B2 ,B3 ,B4 , 相應的時序長度爲L/8, L/16, L/32, L/64, L/128。低層的時序高分辨率特徵圖用來檢測時間短的動作實例,高分辨率的則用來檢測時間長的動作實例。類似於SSD,特徵圖的每一層都設置一定數量的不同尺度的anchor。假設一個特徵圖的時序長度爲N,每個時序位置有 K 個不同尺度的anchor,則這一anchor 層一共有 NK 個anchors。

特徵金字塔中的每一層都做classification and location regression,通過3×3×3的卷積層實現。

通過CPD模塊,我們將獲得first-level的候選動作,但是CPD的金字塔中, 低層缺乏足夠的語義信息並且高層缺乏足夠的 fine details,所以first-level的候選動作只擁有粗糙的邊界。

3.3 Refined Pyramidal Detection
在這裏插入圖片描述

爲了完善CPD的缺陷,我們在RPD中提出了更強大的金字塔。特徵金字塔逐層將特徵圖在時序上進行上採樣,同時融合CPD的特徵圖來豐富特徵。特徵層變爲U0 ,U1 ,U2 ,U3 ,U4,時序尺度爲L/128, L/64, L/32, L/16, L/8。
其中,特徵圖Un是通過融合前面一層的特徵圖Un−1和CPD模塊中相應的特徵圖B 。具體實現如下圖中的FBv1模塊:
在這裏插入圖片描述

由於CPD 和RPD有着對稱結構,我們直接將first-level候選動作作爲RPD的anchor。隨後,進行classification和regression 來產生second-level 候選動作。

類似的兩個inter-connected 時序金字塔在論文(Multi-granularity generator for temporal action proposal. CVPR 2019)中已經提出,但是本篇論文作者認爲他們的創新性在於classification 和 regression在金字塔上都被進行了,形成了級聯的檢測方案。

3.4 Fine-grained Detection
在這裏插入圖片描述

FGD模塊被設計用來以細粒度精細化候選動作。在FGD中,使用如下圖所示的FBv2來生成frame-level特徵。frame-level特徵來源於兩部分,第一部分是 RPD中最後的特徵圖作爲輸入,經過三次反捲積後將時序長度變爲和網絡起始輸入的視頻段一樣。第二部分將raw frames作爲輸入,使用三個卷積層和一個平均池化層來使得特徵圖與第一部分的維度一致。然後將這兩部分的特徵圖級聯進行融合,再使用一個卷積層來生成最後的frame-level特徵。

第二部分的特徵圖可以補充第一部分的空間信息。此外,我們在frame-level特徵上增加了三個frame-level的分類分支,輸出對應的三個frame-level 分類概率:actionness, starting 和 ending probability。每一個卷積層都由卷積核爲3×3×3的卷積層和softmax層組成。

frame-level 的分類分支有兩個主要的功能:首先,額外的frame-level 的監督可以幫助豐富frame-level 特徵的語義信息,這對細粒度的邊界迴歸大有裨益。其次, 在推論階段, frame-level 的分類得分被用來融合anchor-based的分類得分。
在這裏插入圖片描述

對於精細化的boundary regression,我們單獨調節每一個候選動作的開始和結束時間,正如下圖所示。

對於一個動作實例s,首先,在frame-level特徵圖中定位, 前後前後各延伸 t/β ( t = e−s,是候選動作的時長,實驗中β = 8,和我之前組會講的一樣)作爲輸入來refine s。

採用一個時序空洞3D卷積層來預測最後的邊界,輸出的是時序的偏置。空洞卷積的卷積核大小爲3×3×3,時序空洞率爲 t/(2 · β)。

最後,得到third-level的候選動作。然後將每一個候選動作映射到 frame-level 的分類分支,得到相應的動作開始和結束的概率 在這裏插入圖片描述
,將被用於測試階段anchor的得分。
在這裏插入圖片描述

4 Training of PBRNet
4.1 Progressive Matching Strategy
通過設置 IoU閾值來判斷anchor的取捨,三個模塊的閾值分別爲
在這裏插入圖片描述
,實驗中分別設置爲0.5,0.6,0.7,剛好滿足由粗糙到精細的漸進性訓練。

4.2 Preliminary Anchor Discarding
對於anchor的正負樣本不平衡問題,論文采用了兩種措施。一是直接刪除掉哪些背景分類得分超過閾值的anchor;二是hard example mining;

4.3 Loss Function
在這裏插入圖片描述
即爲CPD, RPD 和 FGD三個模塊的損失之和,λ1和 λ2實驗中均等於1。

因爲CPD和RPD有相似的檢測結構,Lcp和Lrp採用同樣的損失函數Lx:
在這裏插入圖片描述
Lfg包含兩部分:
在這裏插入圖片描述
在這裏插入圖片描述是邊界迴歸損失:
在這裏插入圖片描述

在這裏插入圖片描述
是frame-level分類的損失:
在這裏插入圖片描述
整個實驗中,分類損失爲 cross-entropy loss,迴歸損失爲smooth L1 loss for regression。

5 實驗效果
5.1 THUMOS14數據集
在這裏插入圖片描述
5.2 ActivityNet 1.3 數據集
在這裏插入圖片描述

5.3 Qualitative examples
在這裏插入圖片描述

5.4 Comparison on action detection speed for test
在這裏插入圖片描述

5.5 消融實驗
在這裏插入圖片描述

6 結論
文章提出了一個新的漸進邊界迴歸的網絡,其中粗細粒度結合的方法值得借鑑。

推薦閱讀:
Knowledge Integration Networks for Action Recognition AAAI 2020
TEINet: Towards an Efficient Architecture for Video Recognition(AAAI2020)
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
G-TAD: Sub-Graph Localization for Temporal Action Detection
ActivityNet數據集簡介及下載分享(百度網盤)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章