Knowledge Integration Networks for Action Recognition AAAI 2020

AAAI 2020 碼隆科技實驗室+南京大學

1 摘要

在這項工作中，我們提出了用於視頻動作識別的知識集成網絡（KINet）。KINet能夠聚合有意義的上下文特徵，這些特徵對於識別動作非常重要，例如人類信息和場景上下文。我們設計了一個由一個動作識別主分支和兩個輔助分支組成的三分支體系結構，該結構允許模型對動作識別中的人和場景知識進行編碼。我們探索了兩種預先訓練的教師網絡模型來提取人類和場景的知識，用於訓練KINet的輔助任務。此外，我們還提出了一種兩層的知識編碼機制，其中包含一個跨分支集成（CBI）模塊，用於將輔助知識編碼爲中級卷積特徵，以及用於有效融合高級上下文信息的動作知識邊緣圖（AKG）。這就產生了一個端到端可訓練的框架，其中三個任務可以協同訓練，從而使模型能夠有效地計算強上下文知識。所提出的KINet在大規模動作識別基準Kinetics-400上達到了最先進的性能，最高精度爲77.8%。我們進一步證明KINet具有強大的能力，將Kinetics訓練模型轉移到UCF-101，在那裏它獲得97.8%的top-1精度。

2 相關背景
2.1 動作識別
人類動作是一個高級別的概念，可以通過人物、場景等各類信息識別某一動作的內容，從而實現動作分類的任務。

下圖中，第一列可以直接通過雪地背景和任務的着裝就判斷是滑雪的動作；第二列，雖然由於分辨率較低，加之存在運動模糊，我們無法看成圖中的球是什麼種類，但是通過球場和運動員信息，我們可以判斷是打籃球的動作；第三列，從人物展示的姿勢中，我們可以很容易地辨別出這是俯臥撐的動作。因而，文本信息對於理解視頻中的人類動作有着至關重要的作用。相應地，學習到這樣的文本信息對於動作識別任務精度的提升大有裨益。

以往工作通常將動作識別當做一個分類任務，試圖直接從視頻的訓練中獲取動作相關的語義信息。他們認爲視頻相關的語義特徵信息可以直接通過強大的CNN模型，加上視頻級的標籤就可以直接訓練得到。但近期研究表明，同時研究動作和動作實施者分割對於這兩個任務都有很大的促進。

深度學習的方法已經在human parsing (Gong et al. 2017), pose estimation (Wang et al. 2019), semantic segmentation (Zhao et al. 2017), and scene recognition(Zhou et al. 2017; Wang et al. 2017)等領域取得了優異的表現。通過利用這些現有的技術學習視頻中的文本信息來增強動作檢測模型的能力成爲了思路之一。論文作者設計了知識蒸餾機制來學習人和場景的文本知識，通過聯合訓練動作識別、人物解析、場景識別，是這三個任務聯合工作，提供了無需額外手工註釋的研究動作識別的新方法。

2.2 人體解析（human parsing）
人體解析是指將在圖像中捕獲的人分割成多個語義上一致的區域，例如，身體部位和衣物。作爲一種細粒度的語義分割任務，它比僅是尋找人體輪廓的人物分割更具挑戰性。
人體解析對於以人爲中心的分析非常重要，並且具有許多工業上的應用，例如，虛擬現實，視頻監控和人類行爲分析等。

人體解析常用的數據集：

3 方案原理

Knowledge Integration Networks (KINet)使用兩個教師網絡來指導主網絡。兩個教師網絡目的在於提供假的ground truth給scene recognition和human parsing兩個任務。

主網絡包含三個分支，中間的基礎分支是用來action recognition，另外兩個分別設計用來scene recognition和human representation，引入了Cross Branch Integration (CBI)模塊將輔助的知識融進中間的卷積特徵和Action Knowledge Graph (AKG)來有效聚合高級的文本信息。

3.1 The Teacher Networks
3.1.1 Human parsing network
使用的數據集是LIP (Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing. 2017 CVPR) 。

論文作者直接採用現有的PSPNet ( Pyramid scene parsing network. 2017 CVPR) 作爲人體解析的teacher network，網絡主體是DenseNet-121。

3.1.2 Scene recognition network
使用的數據集是Places365（Places: A10 million image database for scene recognition. 2017 PAMI），包含365個場景種類。

論文作者直接採用現有的ResNet152 作爲teacher network的網絡主體。

3.2 The Main Networks
論文使用Temporal Segment Network (TSN) 結構作爲動作識別的網絡框架。

三個分支共享low-level layers，原因在於：

1）low-level features are generalized over three tasks；
2）sharing features allow the three tasks to be trained more collaboratively with fewer parameters used；
higher level layers是三個獨立的分支，並不共享參數，但是通過各種聚合機制交換信息。

3.3 Knowledge Integration Mechanism

論文的目標是設計一個高效的特徵聚合方法來融合不同級別的文本知識，爲此提出了一個兩級的聚合機制，包括Cross Branch Integration (CBI) module 和 Action Knowledge Graph (AKG) method。

3.3.1 Cross Branch Integration (CBI)
CBI的目的在於將從兩個輔助分支學習到的中間特徵聚合到action recognition分支，進而實現模型融入了人和場景的信息。

如圖，與action的特徵圖分別相乘後，BN層，之後類似resnet操作，再relu，之後三個特徵圖按通道級聯，然後再通過一個1X1的卷積降低通道數，使得通道數和開始的一致，最後再一個類似resnet操作。