The Action Detection_研究背景及存在問題

本文爲原創,轉載請註明出處:https://blog.csdn.net/yg970514/article/details/102479700

 

1. 研究背景及意義

隨着計算機技術與網絡技術的快速發展,多媒體信息呈爆炸式增長,其中視頻作爲重要的信息載體,越來越受人們青睞,更多信息通過視頻進行傳播。然而,對大量視頻信息的處理成爲一道難題,傳統人工檢測的方式非常低效和枯燥。隨着深度學習技術的崛起,通過計算機自動提取視頻中有效信息的方法對視頻進行處理,可以大大提高工作效率節省人力資源。而在日常生活中,有一大類視頻是關於人類的活動和行爲,比如:監控、監護、視頻檢索。因此,對人體動作的識別逐漸成爲目前研究的熱門方向。

人體動作識別目的是自動檢測出視頻中人體姿態類型,以使用視頻代替人眼的作用。對象主要針對只包含一個動作且已進行剪輯的視頻。而在實際應用中,真實數據往往是一整段未經過處理長視頻,同時包含若干連續動作信息。這一任務既包含了視頻中動作的識別,也包含了動作在時序上的時間點定位。動作檢測是定位視頻中所有動作的起始幀和結束幀,並依次識別動作類型。諸如安防場景中,無論道路監控的違章監控,或是商場、學校等公共場景,對於異常行爲的檢測,顯得格外重要。良好的動作檢測算法可以大大節省人力物力,同時提高處理效率。

然而,視頻動作檢測也面臨着着巨大考驗,比如運動背景問題、圖像噪聲、物體遮擋問題、光照變化等因素使得視頻動作檢測難度加大。因此,視頻動作檢測值得進行進一步研究。

 

2. 已有方法(歸納與總結)

1).TACNet

         當前用於時空動作檢測的方法經過驗證,已經取得了一定成果,但是對於時間維度檢測結果的仍不盡人意。主要原因是因爲存在一些類似真實動作的模糊狀態,模型有可能將經過良好訓練的網絡也視爲其目標動作,因爲如何區分真實動作和過渡狀態十分必要。文獻[1]提出上下文感知網絡(Transition-Aware Context Network for Spatio-Temporal Action Detection, TACNet)方法用來區分過渡狀態,從而提高失控行爲檢測性能。TACNet主要包括:時間上下文檢測器和過渡感知分類器兩部分。時間上下文檢測器,主要以恆定的時間複雜度有效地提取長期時態上下文信息,而過渡感知分類器可以區分過渡狀態,並減輕時空行爲檢測的時間誤差。該模型在UCF101-24和J-HMDB數據集評估上表現良好,並且在具有挑戰性的未修減數據集上也取得一定結果。

2).TSN

Two-stream卷積網絡並不能對長時間結構的視頻序列進行建模,主要是因爲它僅操作一幀(空間網絡)或者操作短片段中的單堆幀(時間網絡),對時間上下文訪問有限。文獻[2]針對這一問題,提出時間段網絡(Temporal Segment Networks, TSN),針對連續幀高度冗餘,採用基於長時間時序結構模型,稀疏時序採樣的策略。目的在於從整段未經剪輯的長視頻中對動作建模。TSN是由空間流卷積網絡和時間流卷積網絡構成,但是不同於two-stream採用單幀或者單堆幀的方式。TSN從整個視頻中稀疏地採樣一系列短片段,並且對每個短片段都給出其本身對於行爲類別的初步預測,最後通過這些片段的“共通點”得到視頻級的預測結果。在模型學習過程中,TSN通過迭代更新模型參數來優化視頻級預測的損失值(loss value)。在模型實驗過程中,TSN在數據集HMDB51(69.4%)、UCF101(94.2%)取得了不錯成績。

3).動作持續時間段

目前,精確時間定位的挑戰是在提取時間片段中,存在大量未完成行爲片段。文獻[3]提出結構化的段網絡(structured segment network, SSN),通過結構化的時間金字塔對每個行爲實例的時間結構進行建模。金字塔頂層由分解辨別模型(decomposed discriminative model),包含兩個分類器:用於分類行爲(recognition)和確定完整性(localization),利用端對端的方式進行高效訓練。SSN將假定時間分爲開始、中間、結束三部分,當假定時間對齊實際動作時間時,SSN反饋信息,從而區分完整與不完整的proposal。JiyangGao[4]等人使用級聯邊界迴歸模型(Cascaded Boundary Regression, CBR)進行時序動作檢測,主要貢獻是分出時許片段以及片段的動作識別,並且使用級聯結構,細化output輸出結果。CBR在每個階段內,通過將優化後的窗口反饋給系統進行進一步的邊界優化,以串聯的方式調整假定的時間邊界。文獻[5]爲了實現快速和準確地抽取視頻中的語義片段,提出時間單位迴歸網絡(Temporal Unit Regression Network, TURN TAP)模型,預測proposal並用temporal coordinate regression來校正proposal的邊界,其區別主要是CBR爲二分類,TURN TAP爲利用多級聯機構實現多分類。主要步驟是將長視頻分割爲短視頻單元,然後使用C3D和雙流CNN模型進行評估,來自一組連續單元(稱爲剪輯)的特徵被合併以創建剪輯特徵,並在多個時間尺度用於創建剪輯金字塔。

3.存在的問題

1.滑動窗口

         滑動窗口是指首先固定一個卷積區域,然後將卷積核在圖像上按照指定步長進行滑動,對於每一次滑動到區域進行預測,然後判斷該區域中存在目標的概率。但是該方法存在明顯的缺點:首先滑動窗口可能完全沒有包含動作也可能包含了部分動作,但兩種情況都可能導致動作檢測性能的降低。其次,依賴於滑動窗口的方法將難以適應不同長度的動作可能會耗費更多時間成本。同時,爲了獲得較高的定位精度,將需要大量的窗口比例尺和較小的滑動步驟,這可能導致計算成本急劇增加。

2.空間複雜性

         空間複雜性主要是指人類靜態姿態、動作場景以及在空間中人體姿態和場景相互作用的複雜性。由於人體具有衆多關節,本身具有巨大的自由度,並且有無數種表現形式,因此人體姿態本身在空間上是一個及其複雜的信號。在實際場景中,經常會遇到例如視角、光照、背景混亂等不可預測的變量,以及實際攝像頭的角度以及距離也會對檢測效果產生一定的影響。即:動作的真是邊界難以確定,一些類似真實動作的模糊狀態難以察覺,

3.時間多變性

時間複雜性是指人體動作在動作頻率、動作狀態下的若干種組合方式。動作執行的速度會影響動作的持續時間長度,這會對利用運動特徵的人體動作檢測算法產生影響,更重要的是,場景中的動作隨着時間的變化會在位置和尺度上產生不同,導致動作在時域上描述產生巨大困難。

         雖然動作識別的研究隨着深度學習的發展已經有了越來越多的成果,但是仍有諸多難點使得動作檢測具有廣泛研究價值。

 

參考文獻

[1]   Lin Song, Shiwei Zhang, Gang Yu, Hongbin Sun; TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection [J]; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 11987-11995

[2]   Wang L. et al. (2016) Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. In: Leibe B., Matas J., Sebe N., Welling M. (eds) Computer Vision – ECCV 2016. ECCV 2016. Lecture Notes in Computer Science, vol 9912. Springer, Cham

[3]  Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin; Temporal Action Detection with Structured Segment Networks [J];The IEEE International Conference on Computer Vision (ICCV), 2017, pp. 2914-2923

[4]  Jiyang GaoZhenheng YangRam Nevatia; Cascaded Boundary Regression for Temporal Action Detection[J] Computer Vision and Pattern Recognition (cs.CV),2017,1705.01180

[5]  Jiyang Gao, Zhenheng Yang, Kan Chen, Chen Sun, Ram Nevatia;  TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals[J];The IEEE International Conference on Computer Vision (ICCV), 2017, pp. 3628-3636

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章