OPPO研究院行爲識別技術新進展:結合前景分支模型,提高真實複雜場景人體行爲識別能力

OPPO研究院智能感知與交互研究部近期在國際頂級計算機視覺會議CVPR的多項比賽中獲得領先成績,本文將對其中一項研究成果進行概要性介紹。在論文《Visual Localization Using Semantic Segmentation and Depth Prediction》中,研究團隊爲視頻行爲識別提出了全新的工作流程,極大地提高了處理效率與識別精度。

1 背景

行爲檢測識別是計算機視覺近些年的一個重要發展方向,從基於Kinetics的trimmed activity recognition 任務,到基於AVA的spatial-temporal action localization任務,逐步往更細緻化、實用化的方向發展,核心聚焦於識別何時何地發生了什麼行爲。本次ActivityNet Task D ActEV SDL, 屬於真實場景的行爲識別,主要基於MEVA數據進行研究。

目前在spatial-temporal action localization問題上,比較主流的方法是先單獨提取人體檢測結果,將視頻輸入3D Conv模型,在最後的feature map上結合檢測結果進行特徵提取。在AVA(Atomic Visual Actions)數據庫中定義的行爲都是原子級的,持續時間短,因此用一幀的檢測結果就能抽取對齊的行爲特徵。

然而在真實場景MEVA數據庫上,主要會面臨如下新問題:

  1. 原始視頻分辨率高,人體尺寸小,爲了保證召回,不能對圖像進行縮放預處理,全圖抽取3D Conv特徵計算複雜度極高。
  2. MEVA定義的行爲非原子級別,行爲持續時間不固定,人體框移動範圍大,無法用單幀檢測結果準確描述特徵。
  3. 行爲定義複雜,涉及人體行爲,車輛運動行爲,人車交互行爲。
  4. 場景多樣性,包含室內、室外、人流高密度等複雜場景。

2 方法

ActEV SDL是ActivityNet20 guest task,由美國標準局NIST主辦,需要參賽者提交整套軟件系統,從而保證結果公平性、可復現,這裏從系統框架開始介紹整體解決方案。

系統框架:

上圖是我們的系統框架,檢測跟蹤用於提取人體和車輛tracklet;候選生成模塊用來處理原始tracklet結果,生成後續行爲分類所需的固定長度切片及人車交互片段;行爲分類模塊基於tracklet切片,裁剪局部範圍上下文區域,結合檢測結果及3D Conv進行分類;結果融合模塊將結果切分的proposal結果再進行融合,形成最終結果。本工作主要聚焦於行爲分類,後面介紹行爲分類主體網絡。

主體網絡:

首先我們將行爲識別任務分成人相關19類、車相關6類以及人車交互相關8類,總共三個分類模型。

其次,我們基於tracklet切片結果,設計了上下文區域選取邏輯,保證兩個條件:第一,選取區域在整個視頻片段中固定,而非隨着人體位置變動而偏移;第二,包含一定背景區域,這對於一些交互性行爲類別很有幫助。最終的選取原則是,基於tracklet切片中間幀的中心位置爲區域中心,裁剪的長寬爲中間幀檢測長寬最大值的兩倍。後續實驗結果證明,該上下文區域選取有較好的效果。

我們的3D Conv模型類似於SlowFast的結構,但對兩個分支都進行了修改以適應MEVA數據行爲的特點:低幀率的SlowPath,在最後一層特徵上不進行檢測框的特徵提取,以保留所有上下文信息;高幀率的FastPath在最後feature map上結合時域對齊後的多幀檢測結果,經過multi-frame RoiAlign,提取到了multi-frame feature再concatenate進行分類,充當了一個前景分支的作用。這樣的好處是例如騎自行車、進出門等行爲類別,檢測框在短時間內移動得非常明顯,基於單幀抽取的feature存在明顯的不對齊問題,因此multiframe特徵能更好地對行爲進行描述。分類實驗結果也表明這個操作在MEVA上優勢明顯。

3 效果

上圖是分類模塊的實驗結果,可以從人體19分類的任務結果看出,多幀對齊特徵的優勢明顯,尤其在開關門、進出場景、騎自行車等類別。

上圖是NIST測試集上最終的指標結果,PARTIAL AUDC*是評價指標,我們一共提交了兩個版本的軟件解決方案,一個採用Ensemble策略以及5FPS的檢測頻率,另一個未採用Ensemble以及稍低的檢測FPS,兩者在運行時間上有較大變化,在指標上僅有一個點的差異。

該比賽吸引了全球範圍很多行爲識別方面的頂級研究機構,例如UCF、CMU、UMD、Purdue、IBM等,最終OPPO取得了第三的成績。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章