G-TAD: Sub-Graph Localization for Temporal Action Detection

原創

2020-07-06 20:49

論文下載鏈接：https://arxiv.org/pdf/1911.11462.pdf

1 摘要
對於動作檢測而言，視頻的文本信息是十分重要的線索之一，但是當前的工作主要集中於時序文本信息（temporal context），而忽視了另一個同樣重要的語義文本信息（semantic context）。本文提出通過GCN模型自適應地融合多級語義文本信息，將時序動作檢測問題轉化爲子圖定位問題。具體就是將視頻snippets作爲圖節點，將snippet-snippet correlations 作爲邊, 將於文本相關的動作實例作爲目標子圖。設計了GCNeXt模塊，學習聚合了文本信息的特徵，並動態更新圖的邊。設計了SGAlign layer將子圖嵌入歐式空間來定位每一個子圖。實驗取得了state-of-the-art 的效果。On ActityNet-1.3, average mAP of 34.09%; on THUMOS14, 40.16% in [email protected], 成爲最好的one-stage方法。

2 背景
文章的本質和核心就是融入了更多的文本信息。之前也有不少同樣的嘗試，如a.以特定比例延伸時序邊界（如之前組會講過的前後各延伸proposal長度的1/2、1/5）;b.使用空洞卷積（之前組會也講過）；c.使用高斯曲線（之前鄭師姐組會講過一次高斯核，19年cvpr）。但這些方法都只利用了時序信息，僅僅是時序上前後的相鄰節點信息。而顯示世界中視頻在時序內容、動作內容、甚至是剪輯風格千差萬別，單一的時序信息並不能很好地表示視頻內容，甚至可能降低檢測的準確度。

3 整體方案

Node：視頻小段，
Edges：視頻小片段之間的相互關係
Sub-graph：具體的動作實例
Node有4種類型：action, start, end, and background，正如上圖中顏色所示。

Edges有2種類型：
1)temporal edges, 是跟據視頻片段的時序順序預先定義的；
2)semantic edges, 是從節點特徵中學習到的。

Overview of G-TAD architecture

G-TAD的輸入是每個snippet抽幀之後得到的snippet features序列：

每個視頻片段的註釋：

首先，使用3個GCNeXt模塊進行特徵提取，這個過程逐步聚合時序信息（temporal context）和多級語義信息（multi-level semantic context）。 Semantic context, 編碼成semantic edges，是從每一層GCNeXt特徵動態學習得到的。

然後，將3個GCNeXt模塊提取的特徵送入SGAlign layer，在SGAlign layer中，一系列anchors定義的sub-graphs 被轉變成固定尺寸的歐式空間表示。

最後，定位模塊獲得sub-graphs的得分並排序，然後給出最後的結果。

3.1 GCNeXt block

GCNeXt block是模仿目標檢測裏的ResNeXt（Aggregated residual transformations for deep neural networks.2017CVPR）設計的，目的是爲了獲得context-aware features。每個GCNeXt包含2個圖卷積流，一個是通過1D卷積在固定的時序相鄰節點上操作獲取temporal context。另一個是自適應地將semantic context聚合到snippet features。

圖中方框數字表示的是(輸入通道數，輸出通道數)，一共設計了32條路徑來增加轉變的多樣性。
網絡最後的輸出是將上下兩流的32條路徑相加再加上一開始的輸入，這個思想和ResNeXt很相似。

3.2 Sub-Graph Alignment and Localization
Sub-Graph of Interest Alignment (SGAlign)

SGAlign layer

大部分之前的動作檢測器都是對每一個 action anchor進行縮放提取固定尺寸的proposal特徵向量，通常對anchor進行線性插值。而本論文中是通過從聚合了文本特徵的配準層自適應地提取子圖特徵，並不依賴於人爲的偏好。

L個特徵向量，anchor a，我們需要分別從時序和語義圖中採樣t1、t2個向量，進行配準。配準按以下四步進行：
1）每個snippet通過temporal graph映射回之前的時序順序；
2）採用如下算法分別從 temporal graph和semantic graph獲取t1、t2個向量；

3）將每一個節點的特徵用它的動態相鄰節點的平均特徵來代替，然後重複1）、2）步操作來進一步提取semantic context；
4）將t1和t2向量級聯作爲配準層的輸出；