視頻動作檢測最新發展調研(Action Detection)

1 視頻動作檢測概述
動作檢測也是目前視頻理解方向的研究熱點,因爲該任務更加貼近生活,在監控安防中有潛在的巨大價值。但是相比於動作分類,動作檢測難度更高,不僅需要定位視頻中可能存在行爲動作的視頻段,還需要將其分類,即:localization+recognition。而定位存在行爲動作的視頻段是一個更加艱鉅的任務。
一般我們把動作檢測叫做Temporal Action Detection,也通常直接叫做Action Detection,還有叫Action Localization等。

2 研究難點
目前動作檢測研究難點主要有以下三點:
1)時序信息。與動作識別一樣,視頻理解的通用難點就是時序信息的處理。所以針對這一點目前的主要方法基本上都是使用RNN讀入CNN提取的特徵,或者直接使用C3D結構的時序卷積;
2)邊界不明確。不同於動作識別,動作檢測要求做精確的動作區間檢測,而生活中一個動作的產生往往邊界不是十分確定的,所以這也是導致目前動作檢測mAP偏低的原因;
3)時間跨度大。在生活中,一個行爲動作往往跨度非常大,揮手等短動作幾秒左右,而攀巖、騎行等長動作可能持續數十分鐘,這使得我們在提取Proposal時變得異常艱難。

3 數據集介紹
3.1 THUMOS2014

THUMOS 2014來自於THUMOS Challenge 2014該數據集包括行爲識別和時序行爲檢測兩個任務,大多數論文都在此數據集評估。
訓練集:UCF101數據集,101類動作,共13320段分割好的視頻片段;
驗證集:1010個未分割過的視頻;其中200個視頻有時序行爲標註(3007個行爲片段,只有20類,可用於時序動作檢測任務)
測試集:1574個未分割過的視頻;其中213個視頻有時序行爲標註(3358個行爲片段,只有20類,可用於時序動作檢測任務)
3.2 MEXaction2
MEXaction2數據集中包含兩類動作:騎馬和鬥牛。由三個部分組成:YouTube視頻,UCF101中的騎馬視頻以及INA視頻。
其中YouTube視頻片段和UCF101中的騎馬視頻是分割好的短視頻片段,被用於訓練集。而INA視頻爲多段長的未分割的視頻,時長共計77小時,且被分爲訓練,驗證和測試集三部分。訓練集中共有1336個行爲片段,驗證集中有310個行爲片段,測試集中有329個行爲片段。且MEXaction2數據集的特點是其中的未分割視頻長度都非常長,被標註的行爲片段僅佔視頻總長的很低比例。
3.3 ActivityNet
目前最大的數據庫,包含分類和檢測兩個任務。這個數據集僅提供視頻的youtube鏈接,而不能直接下載視頻,所以還需要用python中的youtube下載工具來自動下載。
該數據集包含200個動作類別,每類100段未分割視頻,20000(訓練+驗證+測試集)左右的視頻,視頻時長共計約700小時。
3.4 MUTITHUMOS
一個稠密、多類別、逐幀標註的視頻數據集,包括30小時的400段視頻,65個行爲類別38,690個標註,平均每幀1.5個label,每個視頻10.5個行爲分類,算是加強版THUMOS。

4 技術原理
因爲動作檢測任務有點類似於目標檢測任務,都是需要先定位目標,然後識別目標。所以目前很多行爲檢測方法都是借鑑於目標檢測,主要思想基本上是Temporal Proposal提取,然後進行分類與迴歸操作。這類方法包含,利用Faster R-CNN框架[9][10]思路,利用SSD框架思路[11],還有基於TAG網絡[12]等等。還有一類方法是基於C3D做幀分類(Frame Label),然後預測存在行爲的視頻段並分類,例如2017年ICCV的CDC網絡[13]。
基本流程:
1.先找proposal,再對proposal分類和迴歸邊界;
2.找proposal方法:主要就是以下幾種;
1)單純的滑動窗口(SCNN提出):
固定一些尺寸在視頻長度上滑窗,重疊度越高,效果越好,但是計算量大。理論上這種方法只要重疊度夠高,是找的最全的,但是冗餘多。
2)時序動作分組(TAG提出):
逐個視頻幀分類(CNN網絡),把相鄰的類別一樣的分成一組,設置一些閾值防止噪聲干擾,一般設置多組閾值防止漏掉proposal。這種方法對於邊界比較靈活,但是可能會因爲分類錯誤漏掉proposal。
3)單元迴歸(TURN提出):
把視頻分成固定大小單元,比如16視頻幀一組,每組學一個特徵(放C3D裏),然後每組或者多組作爲中心anchor單元(參照faster-rcnn)向兩端擴展找不同長度proposal。

5 目前的主流方法
5.1 SCNN
SCNN,即多階段網絡,是CVPR2016上的文章《Temporal action localization in untrimmed videos via multi-stage cnns》,時間較早,方法簡單。主要提出了一個三階段的3D卷積網絡來做動作檢測:(1)proposal network;(2)classification network;(3)localization network。
在這裏插入圖片描述該網絡首先採用不同尺度滑窗的方法找一些proposal,然後將這些proposal均勻採樣到固定長度16幀,將proposal輸入到proposal network來做二分類,判斷是不是動作;然後將包含動作的proposal和部分背景proposal(採樣到和一類動作數目相同)輸入到classification network爲這些動作分類,輸出爲K+1個類別(包括背景類)的分數;最後輸入到一個localization network,輸出仍然是K+1個類別的分數,不過此時的損失函數不只是softmax loss,還加入基於IoU分數的overlap Loss來調整邊界。以上三個網絡均採用標準C3D網絡結構,定位網絡由分類網絡的權值來初始化,分類網絡只在訓練時使用。
這篇文章在THUMOS2014數據集上IOU=0.5時達到了19.0的MAP。
5.2 TURN
TURN,即單元迴歸網絡,是CVPR2017上的文章《TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals》。SCNN採用滑窗找proposal,如果想要得到準確的結果,就需要增大窗口之間的重疊度,這樣導致了計算量極大。爲了減小計算量,增加時序定位精度,TURN借鑑faster-rcnn引入邊界迴歸的方法:將視頻分爲等長短單元,做單元水平的迴歸。
在這裏插入圖片描述
每個單元輸入到C3D網絡內提取單元水平特徵,相鄰單元組成一個clip,以每一個unit爲anchor unit,構造一個clip pyramid。然後在單元水平上作座標迴歸,網絡包含兩個輸出:第一個輸出置信度分數判斷clip中是否包含動作,第二個輸出時序座標偏移來調整邊界。
本篇文章方法在THUMOS2014數據集IOU=0.5時的MAP爲25.6%,主要貢獻是
1)提出了一個新的用座標迴歸來生成時序提議段的方法;
2)速度很快(800fps);
3)在不同數據集上不需要做fine-tuning效果就很好;
4)提出了新的評估提議段好壞的指標AR-F。

5.3 TAG
TAG,即時序動作分組,是CVPR2017上的文章《A Pursuit of Temporal Accuracy in General Activity Detection》 ,也是爲了解決密集的滑動窗口計算量太大的問題而提出的方法。TAG的方法主要由三部分組成(1)用TSN的稀疏採樣方法採樣一段視頻裏的snippt;(2)給snippt打分,二分類判斷它是不是動作;(3)把是動作的snippt組成一個proposal,就得到了不同粒度的提議段(設置動作閾值來表示多少分可以算作動作,還有一個容忍度閾值來防止噪聲干擾,即連續幀中出現了幾個視頻幀不滿足的情況下仍把它加入proposal)。這篇文章還把是否是動作與動作是否完整作爲兩個不同的特徵。核心思想是找有更多動作的proposal。
在這裏插入圖片描述
TAG的方法有以下幾個優點:(1)更關注動作做內容,減少了proposal數目,減少計算量;(2)合併片段是自底向上的,更加精確;(3)設置多個閾值組合,可以不需改變參數的訓練。
TAG在THUMOS2014上IOU=0.5時MAP=28.25。
5.4 CDC
CDC,是CVPR 2017上的文章《CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos》。該網絡主要是在SCNN中提到的用滑窗產生proposal的方法基礎上繼續做精調。C3D可以很好的學習高級語義特徵,但是它在時間上會丟失細粒度(標準C3D網絡會把時間減少到原來的1/8長度),這時如果想在視頻幀的水平上做精確定位是不可能的,但是可以用反捲積的方式進行上採樣。所以本文提出了一種在空間上做下采樣(11的類別信息),時間上做上採樣(恢復到原視頻長L)的方法。
在這裏插入圖片描述
在這裏插入圖片描述
該文還提出了一個把卷積和反捲積操作結合到一起的過濾器,實驗證明這個結合的方法比分開計算效果要好一些,但是參數多了很多。網絡首先把SCNN得到的proposal向兩端擴展,然後每幀打分,哪類平均分最高就作爲類別,然後從兩端往中心一直找到一個分數高於均分的視頻幀作爲邊界,裏面的內容就是我們找到的動作。
該文在THUMOS2014上IOU=0.5時MAP=23.3%。CDC主要貢獻:(1)提出了一個卷積-反捲積過濾器;(2)用上述過濾器創建了一個端到端的網絡; (3)提到了定位精度。
5.5 SSN
SSN,即結構化分段網絡,是CVPR2017上的文章《Temporal Action Detection with Structured Segment Networks》。提出了一個通過結構化時序金字塔對每一個動作實例的時序結構建模的新框架。作者認爲需要對時序結構進行分析,判斷動作是不是完整,所以他把視頻內的動作劃分爲三個階段:開始、行動、結束。這個劃分方式在以後的工作中也被大量使用。本文采用了TAG的方法生成proposal,然後把proposal分成開始、活動和結束三個階段,對每個階段做時間上的金子塔池化操作,然後把結果合併在一起送入兩個分類器,一個判斷該段是什麼動作,一個判斷動作完整不完整。
在這裏插入圖片描述
該文在THUMOS上IOU=0.5時MAP=29.8。主要貢獻:(1)提出一個有效的三階段機制來建模活動的時間結構,從而區分完整和不完整的proposal;(2)以端到端的方式學習網絡,並且一旦訓練完畢,就可以對時間結構進行快速推測;(3)該方法在主流數據集THUMOS14和ActivityNet上實現了超過以前的檢測性能。
5.6 CBR
CBR,即級聯的邊界迴歸網絡,是CVPR2017上的文章《Cascaded Boundary Regression for Temporal Action Detection》,這篇論文獲得了2017年在THUMOS2014數據集上的最佳效果。方法比較簡單,作者做了大量實驗,對很多參數的選擇都做了比較好的實驗,爲後人科研選擇合適的方法給了一些啓發。CBR是在TURN的基礎上做的,網絡分爲兩部分,第一部分用粗略proposal作爲輸入,輸出類別無關的proposal,第二部分來繼續調整邊界。
在這裏插入圖片描述
與之前方法比較這裏每一部分都是級聯的,意思就是調整一次效果不好,就繼續調整,一直到效果好位置。這裏和TURN不同的是找的proposal不再是根據是不是動作,而且爲每個動作都通過單元迴歸找一個proposal,把分數最高的作爲我們要找的proposal。網絡對C3D、TWO STREAM、FLOW特徵進行了對比,得出雙流特徵效果比光流和C3D好;對單元水平和幀級迴歸做了對比,證明單元水平的效果好一些;網絡還對每一階段級聯級數做了實驗,證明2-3級的proposal網絡和2級的分類網絡效果更好。
該文章在THUMOS2014上IOU=0.5時MAP=31.0%,是2017年該數據集最好的效果。
5.7 R-C3D
R-C3D,是ICCV 2017上的文章《R-C3D: Region Convolutional 3D Network for Temporal Activity Detection》。之前的方法有些用滑窗的方法計算量大,預測邊界不靈活,很多都不是端到端的學習深層特徵,只在分類網絡上學習現成的特徵對定位效果可能不佳。所以本文借鑑目標檢測領域faster-rcnn的思想提出了一個端到端的網絡,生成候選段和分類結合在一起學習特徵,用全卷積來學習3D特徵再加上ROI pooling使網絡可以接收任意長度輸入,生成候選段的步驟過濾掉了很多背景可以節約計算,而且候選段由預定義的anchor來預測,可以檢測靈活的活動邊界。
在這裏插入圖片描述
網絡由三部分組成:特徵抽取網絡、時序候選段子網、分類子網。候選段偏移和類別分數由最後兩個1
1*1的卷積層計算。特徵和損失函數都由兩個子網絡共享。
該方法在THUMOS2014數據集上IOU=0.5時MAP爲28.9%。主要貢獻是提出了一種端到端的網絡把定位和分類結合起來一起訓練,可以接受任意長度視頻輸入並且節約了計算。
5.8 ETP
ETP,是ICMR 2018上的文章《Precise Temporal Action Localization by Evolving Temporal Proposals》,提出了三階段的evolving temporal proposal網絡,引入了非局部金字塔特徵。
網絡分爲三個階段:Actionness Network、Refinement Network、Localization Network。第一個網絡運用TAG的方法生成proposal,是一個分類網絡。第二個網絡在單元水平做進一步調整,同時運用了雙門的RNN更加關注視頻的上下文信息。最後一個定位網絡繼續調整邊界,採用SSN的結構,並在頂層加入了非局部塊,但是爲了防止對網絡的影響太大,以殘差連接方式加入,定位網絡是一個多任務網絡,不只要判斷proposal是動作還是背景,還要判斷它是什麼動作,還要調整邊界。
在這裏插入圖片描述
這篇文章在THUMOS2014數據集IOU=0.5時MAP達到34.2%。主要貢獻是利用RNN更加關注動作的上下文信息,引入了非局部特徵,融合了之前一些比較好的方法,達到了目前比較好的效果。
5.9 Learning Latent Super-Events to Detect Multiple Activities in Videos
潛在的超級事件,這篇是CVPR2018上的文章,在視頻中學習潛在的超級事件來做多活動檢測。這篇文章關注於更細粒度的檢測,用的數據集是MUTITHUMOS,在THUMOS的基礎上加了一些數據,平均每段視頻內的活動更多。目前的方法基本都更關注候選段的決策,而忽略了整段視頻的時序結構和上下文信息,連續的視頻中有很多上下文信息都可以幫助我們做更好的動作檢測。所以本文提出了一個超級事件的概念,與子事件相對應,一個超級事件包含一系列的子事件,是相互關聯的子事件的集合。題目名爲潛在的超級事件是因爲這些超級事件和子事件的定義是無需標註的。文章還提出了一個時間結構過濾器來學習每類的軟注意力權重從而得到超級事件表現,用它來逐幀分類。
首先將整段視頻輸入網絡,對每幀或每個局部段落學習一個特徵,這裏用到了RNN還用到全卷積的網絡來對每幀學習一個類別分數,然後把這些特徵輸入到M個時間結構過濾器裏,時間結構過濾器由若干個柯西分佈組成,它可以讓模型知道哪些時間間隔和幀級檢測相關。
用I3D特徵+超級事件在MUTITHUMOS上MAP爲36.4%
在這裏插入圖片描述
5.10 Rethinking the Faster R-CNN Architecture for Temporal Action Localization
這篇是CVPR2018上的文章。之前的R-C3D是直接生硬的遷移faster-rcnn到動作檢測上,有一些問題,主要是因爲視頻長度相差很大1s到幾分鐘都有可能。rethinking faster rcnn這篇文章做了一些改進,使之更適應動作檢測:1)感受野對齊,用了空洞卷積;2)利用上下文,即動作前後的信息,類似SSN提到的;3)加入光流信息,並做了個晚融合。
在這裏插入圖片描述
效果非常好,thumos14直接從2017年IOU=0.5的MAP31%提高到了42%
5.11 TACNet
TACNet,是CVPR 2019上的文章《Transition-Aware Context Network forSpatio-Temporal Action Detection》。動作檢測對時間範圍的檢測仍不好,其主要原因是存在着一些與實際行動相似的模糊狀態,即使是經過良好訓練的網絡,也可能被視爲目標行動。本文將這些模糊樣本定義爲“過渡狀態”,並提出了一種區分過渡狀態的過渡感知上下文網絡。提出的TACNET包括兩個主要組成部分,即時間上下文檢測器和過渡感知分類器。時間上下文檢測器可以通過構造一個循環網絡來提取具有恆定時間複雜度的長期上下文信息。過渡感知分類器通過對動作和過渡狀態同時進行分類,進一步區分過渡狀態。因此,所提出的TACNET可以顯著提高時空動作檢測的性能。我們對UCF101-24和J-HMDB數據集上的TACNET進行了廣泛的評估。實驗結果表明,TACNET在J-HMDB上獲得了競爭性的性能,在幀映射和視頻映射方面均明顯優於未經優化的UCF101-24。
在這裏插入圖片描述
5.12 WSGN
這是CVPR 2019上的文章《Weakly Supervised Gaussian Networks forAction Detection》。檢測視頻中人類行爲的時間範圍需要詳細的人工監控,包括幀級標籤。這種昂貴的註釋過程限制了在有限數量的類別上部署動作檢測器。該文提出了一種新的動作識別方法WSGN,可以從“弱監督”的視頻級標籤中學習檢測動作。WSGN學習利用視頻特定和數據集範圍的統計信息來預測每個幀與動作類別的相關性。該方法在弱監督基線上改進了超過12%的MAP,優於其他弱監督最先進的方法,在Thumos14動作檢測數據集中僅落後於最先進的監督方法4%。同樣地,我們的方法也只是落後於最先進的關於挑戰性的字謎數據集的監控方法的0.3%。
在這裏插入圖片描述
5.13 TSA-Net
TSA-Net,是2019年8月最新文章《Scale Matters: Temporal Scale Aggregation Network for Precise Action Localization in Untrimmed Videos》提出的一種新的集成時間尺度聚合網絡。主要觀點是將不同膨脹率的卷積濾波器組合在一起,有效地以較低的計算成本放大接收場,從而設計多膨脹時間卷積(MDC)塊。此外,爲了處理不同持續時間的視頻動作實例,TSA-Net由多個子網組成。它們中的每一個都採用了具有不同擴張參數的疊層MDC塊,實現了針對特定持續時間動作而特別優化的時間感受野。該文遵循邊界點檢測的公式,檢測三種臨界點(即起點/中點/終點)並將它們配對生成方案。
在這裏插入圖片描述
TSA-Net網絡顯示出清晰和一致的更好性能,並在兩個基準上重新校準最新的技術狀態。在THUMOS14上的記錄是46.9%,而在[email protected]下,之前的最好記錄是42.8%,是當前最好的效果。

6 小結
視頻動作識別和檢測都是視頻理解的重要內容,也是計算機視覺領域的重要組成部分,在視頻信息檢索、日常生活安全、公共視頻監控、人機交互、科學認知等領域都有廣泛的應用前景和社會價值,是值得長期投入的課題。

動作識別和檢測的關係就類似於圖像識別和圖像檢測,可以說識別是檢測的一部分或者說是前期準備,因而目前的研究熱點主要集中於難度更大的動作檢測部分。隨着深度學習技術的快速發展,R-C3D、 ETP、TACNet、WSGN、TSA-Net等各類新方法不斷湧現,檢測也從單獨的時序檢測延伸到時空檢測,弱監督的思路也開始得到應用,準確率也大幅提升,達到了最新的46.9%(IOU=0.5),但和圖像檢測領域的高準確率相比,仍有很大的差距,這也是當前難以大規模商業化的原因。不過我們有理由相信,在不久的將來,準確率將取得突破,動作檢測的商業化遍地開花,造福人類。

本文參考了衆多網絡資料及論文原文,在此表示感謝!!
在這裏插入圖片描述

(關注微信公衆號“StrongerTang”,看更多文章,和小湯一起學習,一同進步!)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章