視頻行爲識別相關資料

行爲識別相關資料

行爲識別調研

一、介紹、背景

 

二、難點

1.類內和類間數據的差異。對於很多動作,本身就具有很大的差異性,例如不同人不同時刻的行走動作在速度或步長上就具有差異性。不同動作之間又可能具有很大的相似性

2.場景和視頻的採集條件。背景是動態變化的或者光照、攝像頭晃動等會影響結果。

 

三、數據集

1.Weizman-包含10種動作(走路、快跑、向前跳、測試跳、彎腰、揮單手、原地跳、全身跳、單腿跳),每個動作由10個人來掩飾,背景固定並且前景輪廓已經包含在數據庫中,視角固定。

 

2.KTH-包含6種動作(走、跳、跑、擊拳、揮手、拍手),由25個人執行,分別在四個場景下,共599段視頻,除了鏡頭的拉近拉遠、攝像機的輕微運動外,背景相對靜止。

 

3.UCF Sports-包含10類動作(跳水、打高爾夫、踢腿、舉重、騎馬、跑步、滑板、搖擺、側擺、走路),150個視頻,從廣播體育頻道上收集到的,涵蓋很廣的場景類型和視角區域。

 

4.UCF50/UCF101-包含50/101類動作,6680段視頻,都是網絡上的視頻,是真實場景下的。

 

5.Hollywood(2)-包含12類動作,2859個視頻,從電影中截取的

 

6. HMDB-包含51類動作,6849個視頻,由布朗大學SERRE實驗室發佈。

 

7.IXMAS Action-包含17類動作,是多角度行爲數據,由8個視頻角度的攝像機同時對一個行爲進行拍攝。由英國Kingston大學發佈.中科院自動化所發佈了類似的數據集,CASIA.

 

8.UT-Interaction-監控場景下的數據庫,識別從簡單的單人行爲上升到多人的交互行爲。

 

9.MSR Action 3D/MSR Daily Activity 3D-利用Kinect傳感器捕獲除彩色圖像以外的人體深度圖像序列,利用Kinect採集的深度數據可獲取較爲精準的人體關節點骨架序列,這些序列爲深入研究人體運動模式提供了很好的研究數據。

 

10.Northwestern-UCLA Multiview Action 3D-將深度、骨架和多視角數據融合在一起。

 

11.CUM Motion Capture-利用8個紅外攝像頭對41個標記點的人體進行重構,更爲準確的估計出人體的骨架結構。

 

12.Activities of Daily Living(ADL)和First Person Social Interaction—用可穿戴設備採集的第一人稱視角的行爲數據庫.

 

 

四、方法

1 基於手工設計特徵的方法

 

  • 一般的行爲識別方法

 

1)簡單行爲識別方法

  1. 時空體模型
  2.   時序方法

2)複雜的行爲識別方法

  1. 統計模型
  2. 句法模型

 

 

 

 

 

 

 

 

 

  • 多視角行爲識別-可以利用多視角下數據的互補性對行爲進行識別,也可以通過多視角下行爲之間的聯繫來學習行爲特徵在多個視角下的轉移過程,從而學得更魯棒的行爲表達。

1)通過分析人體行爲在不同視角下的互補特徵來對行爲進行更完整的表達。

2)利用多視角下的行爲數據進行跨視角的行爲識別,學習視角不變的特徵,這樣就可以讓不同攝像機的角度下可以識別同一個動作。

 

  • 真實場景下的行爲識別-真實場景中行爲存在大量遮擋、光照變化以及攝像機運動等影響,使得提取真實場景下的前景信息非常困難,於是有人試圖從時空立方體的局部出發,獲取更多的時空局部特徵,局部特徵可以通過構建三維時空濾波器的方式快速的提取時空立方體中的興趣點。基於局部特徵的行爲識別方法首先構建興趣點檢測子,如Harris3D檢測子、Cuboid檢測子、Hessian檢測子檢測感興趣點,然後構建局部特徵描述子,在興趣點周圍提取表觀荷運動信息形成局部特徵向量,如:Cuboid,HOG3D,HOG\HOF,ESURF描述子。

 

  • 基於時空軌跡(space-time trajectory)的行爲識別方法:時空軌跡是時空局部特徵點方法的擴展,通過跟蹤運動物體的關鍵點來構建更具表達能力的時刻局部規矩特徵。例如,有人爲了獲取稠密軌跡,用光流場對特徵點跟蹤,得到軌跡後在加入一定約束來對軌跡進行選優。基於稠密軌跡的行爲識別方法在很多公開的真實場景行爲數據庫中都達到了最好的結果。

 

  • 基於深度圖像序列的行爲識別-

1)時空體模型:

2)時序方法:

 

  • 基於骨架序列的行爲識別

 

  • 第一人稱視角下的行爲識別

 

2 基於深度學習的方法

在行爲識別中,深度學習還沒完全取得顯著的性能提升,這是因爲:相比圖像樣本,由於時間維度的引入,行爲樣本的類內差異更加豐富,行爲模型的特徵維度更高,需要的樣本數量更多;同時在行爲標註中,很難在視頻中精確標記行爲發生的時空區域,從而無法實現樣本對齊(alignment),導致模型訓練難度更大,因此如何從時間維度入手建立深度神經網絡模型對於行爲數據進行訓練,如RNN是當前的一個研究熱點!

  • CNN

1).對二維圖像中的CNN作擴展,通過對多幀的局部時空體做卷積來構建一個三維CNN

Ji Shuiwang,Xu Wei, Yang Ming,et a1. 3D conVolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2013, 35(1)1 221—231

 

2).利用慢融合模型(slow fusion model)對視頻中不同的圖像幀進行融和,構建圖像序列CNN,這種方式,可以有效的將視頻的時序性信息加入到網絡中,用於提高行爲表達能力

Karpathy A,Toderici G,Shetty S,et aI.I,arge—scale video classification with convolutional neural networks[C]/,Proc of the 27th IEEE Conf on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE.201 4:l 725—1 732

 

 

3).分別對單幀圖像和多幀的運動信息(光流)分別構建2個CNN網絡,然後在分數層上對2種網絡的輸出作融和。

Sim。nyan K, Zisserman A. Two—stream convolutional ne卜 works for action recognition in videos[C]/,Proc of the 28 th Annual Conf onNeuralInformation.Cambridge,MA:MIT, 2014 568—576

 

4).結合時空軌跡和CNN,提出利用CNN對軌跡進行特徵表達的方法,極大的提高了行爲特徵的表達能力,該方法在UCF101和HMDB51兩個數據庫中均達到了深度模型所能達到的最好結果。

Action recognition with trajectory-pooled deep-convolutional descriptors   2015CVPR

5)使用單幀數據和光流數據,從而捕獲運動信息

Ch ́eron G, Laptev I, Schmid C. P-CNN: pose-based CNN features for action recognition. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santi- ago: IEEE, 2015. 3218°3226 

 

6)在定長時間的視頻塊哪使用3DCNN

Carol G, Laptev I, Schmid C. Long-term temporal convolu- tions for action recognition. arXiV: 1604.04494, 2015. 

7)使用多分辨率的卷積神經網絡對視頻特徵進行提取,輸入視頻被分作兩組獨立的數據流:底分辨率的數據流和原始數據流,這兩個數據流都交替的包含卷基層、正則層和抽象層,同時這兩個數據流最後合併成兩個全聯接層用語後續的識別

Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Li F F. Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Confer- ence on Computer Vision and Pattern Recognition (CVPR). Columbus, OH: IEEE, 2014. 1725°1732

8)使用兩個數據流的卷積神經網絡,將視頻分爲靜態幀數據流和幀間動態的數據流。分別對兩個數據流勇CNN進行特徵提取,最後將得到的特徵使用SVM進行動作的識別,他們提出只使用身體姿勢的關機點部分的相關數據進行特徵提取,最後使用統計的方法將整個視頻轉化成一個特徵向量,使用SVM進行最終分類

Simonyan K, Zisserman A. Two-stream convolutional net- works for action recognition in videos. In: Proceedings of Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates, Inc., 2014. 568°576 

 

 

 

  • RNN

RNN將上幾個時刻的隱含層數據作爲當前時刻的輸入,從而允許時間維度上的信息得以保留。LSTM型RNN模型是普通RNN的擴展,主要用於解決RNN模型中梯度消亡現象。

 

1)LSTM將底層CNN的輸出鏈接起來作爲下一時刻的輸入,在UCF101數據庫上獲得82.6%識別率

  Ng J Y H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G. Beyond short snippets: deep networks for video classification. arXiv: 1503.08909, 2015.

2)提出(Long-term RNN),這個網絡將CNN和LSTM結合在一起對視頻數據進行特徵提取,單幀的圖像信息通過CNN獲取特徵,然後將CNN的輸出按時間順序通過LSTM,這樣最終將視頻數據在空間和時間維度上進行特徵表達,在UCF101數據庫上獲得了82.92的評價識別率

Donahue J, Hendricks L A, Guadarrama S, Rohrbach M, Venugopalan S, Saenko K, Darrell T. Long-term recurrent convolutional networks for visual recognition and descrip- tion. arXiv: 1411.4389,

PS(有該論文源碼,鏈接https://people.eecs.berkeley.edu/~trevor/

 

  • 受限波爾滋曼機-PBM

將RBN用於人體行爲識別建模

Taylor G W, Hinton G E. Factored conditional restricted Boltzmann machines for modeling motion style. In: Pro- ceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009. 1025°1032 

提出空間-時間深度信念網絡(space-time deep belief network)使用卷積RBM神經網絡將空間抽取層和時間抽取層組合在一起在視頻上提取不變特徵,並在KTH上獲取91.13%識別率

Chen B, Ting J A, Marlin B, de Freitas N. Deep learning of invariant spatio-temporal features from video. In: Pro- ceedings of Conferrence on Neural Information Processing Systems (NIPS) Workshop on Deep Learning and Unsuper- vised Feature Learning. Whistler BC Canada, 2010

  • AutoEncoder-

將獨立子空間分析擴展到三位的視頻數據上,使用無監督的學習算法對視頻塊進行建模,這個方法首先在小的輸入塊上使用ISA算法,然後將學習到的網絡和較大塊的輸入圖像進行卷機,將卷積過程得到的響應組合在一起做爲下一層的輸入。

效果:KTH  93,3; UCF sport 86.5;  Hollyword 2   53.3

LeQV,ZouWY,YeungSY,NgAY.Learninghierar- chical invariant spatio-temporal features for action recog- nition with independent subspace analysis. In: Proceed- ings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI: IEEE, 2011. 3361°3368 

 

 

五、經典論文介紹

 

 

[1] Wang L, Qiao Y, Tang X, et al. Action recognition with trajectory-pooled deep-convolutional descriptors[C]. Computer Vision and Pattern Recognition, 2015.

 

 

[2] Wang L, Qiao Y, Tang X, et al. Actionness Estimation Using Hybrid Fully Convolutional Networks[C]. Computer Vision and Pattern Recognition, 2016.

 

 

[3] Limin Wang · Yuanjun Xiong · Zhe Wang · Yu Qiao · Dahua Lin · Xiaoou Tang Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

,2016.

[4] Wang L, Qiao Y, Tang X, et al. Action recognition with trajectory-pooled deep-convolutional descriptors[C]. Computer Vision and Pattern Recognition, 2015.

 

 

 

wanglimin:http://wanglimin.github.io

 

Code:https://github.com/wanglimin/TDD

Code:https://github.com/yjxiong/temporal-segment-networks

 

[5] Wang H, Schmid C. Action Recognition with Improved Trajectories[C]. International Conference on Computer Vision, 2013.

 

[6] Ng J Y, Hausknecht M, Vijayanarasimhan S, et al. Beyond short snippets: Deep networks for video classification[C]. Computer Vision and Pattern Recognition, 2015.

 

 

[7] Karpathy A, Toderici G, Shetty S, et al. Large-Scale Video Classification with Convolutional Neural Networks[C]. Computer Vision and Pattern Recognition, 2014.

 

 

[8] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]. International Conference on Neural Information Processing, 2014.

 

 

[9] Ji S, Xu W, Yang M, et al. 3D Convolutional Neural Networks for Human Action Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

 

LSTM:

[10] Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]. Computer Vision and Pattern Recognition, 2015.

 

Code:http://jeffdonahue.com/lrcn/

 

 

[11] Byeon W, Breuel T M, Raue F, et al. Scene labeling with LSTM recurrent neural networks[C]. Computer Vision and Pattern Recognition, 2015.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

六、網上資源

 

 

 

wanglimin主業(ETH):http://wanglimin.github.io

Trevor Darrell主業:https://people.eecs.berkeley.edu/~trevor/

 

 

Code:https://github.com/wanglimin/TDD

Code:https://github.com/yjxiong/temporal-segment-networks

Code:http://jeffdonahue.com/lrcn/

Code:https://github.com/yjxiong/caffe

 

 

 

 

 

 

 

 

 

 

  裏面有氣論文Long-term RNN的源碼

  http://jeffdonahue.com/lrcn/

 

  • dollar的主頁,裏面有最近關於圖片解釋的幾篇新論文

https://pdollar.wordpress.com/2015/01/21/image-captioning/

  • caffe官網上提供的框架https://github.com/BVLC/caffe/wiki/Model-Zoo

 

  • GitHub上一個設計,用 cnn+rnn實現的行爲識別,有源碼,用Torch平臺完成
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章