行爲識別特徵提取綜述

行爲識別特徵提取綜述

轉自:http://www.cnblogs.com/tornadomeet/archive/2012/06/22/2558548.html 主要參考“Human Activity Analysis: A Review”

摘要

  人體行爲識別目前處在動作識別階段,而動作識別可以看成是特徵提取和分類器設計相結合的過程。特徵提取過程受到遮擋,動態背景,移動攝像頭,視角和光照變化等因素的影響而具有很大的挑戰性。本文將較全面的總結了目前行爲識別中特徵提取的方法,並將其特徵劃分爲全局特徵和局部特徵,且分開介紹了其優缺點。

關鍵字: 行爲識別 特徵提取 全局特徵 局部特徵

1. 前言

  如今人體行爲識別是計算機視覺研究的一個熱點,人體行爲識別的目標是從一個未知的視頻或者是圖像序列中自動分析其中正在進行的行爲。簡單的行爲識別即動作分類,給定一段視頻,只需將其正確分類到已知的幾個動作類別,複雜點的識別是視頻中不僅僅只包含一個動作類別,而是有多個,系統需自動的識別出動作的類別以及動作的起始時刻。行爲識別的最終目標是分析視頻中哪些人在什麼時刻什麼地方,在幹什麼事情,即所謂的“W4系統”。

  下面將4個方面對行爲識別做初步介紹。

1.1 行爲識別應用背景

  人體行爲識別應用背景很廣泛,主要集中在智能視頻監控,病人監護系統,人機交互,虛擬現實,智能家居,智能安防,運動員輔助訓練,另外基於內容的視頻檢索和智能圖像壓縮等有着廣闊的應用前景和潛在的經濟價值和社會價值,其中也用到了不少行爲識別的方法。

1.2 行爲識別研究歷史

  行爲識別分析的相關研究可以追溯到1975年Johansson[1]的一個實驗,作者提出了12點人體模型,這種描述行爲的點模型方法對後來基於人體結構的行爲描述算法起到了重要的指導作用。從那以後,行爲識別的研歷史究進展大致可以分爲以下3個階段,第1個是20世紀70年代行爲分析的初步研究階段,第2個是20世紀90年代行爲分析的逐步發展階段,第3個是最近幾年來行爲分析的快速發展階段。從文獻[2]~[7]這6篇較有名的行爲識別綜述論文可以看出, 研究行爲識別的人數在不斷增加,論文數量也是猛增,並且產生了許多種重要的算法和思想。

1.3 行爲識別方法分類體系

  關於視覺上人體運動分析和識別的方法論體系有很多種。Forsyth[8]等人側重與將動作從視頻序列中人的姿態和運動信息恢復過來,這屬於一個迴歸問題,而人體行爲識別是一個分類問題,這2個問題有很多類似點,比如說其特徵的提取和描述很多是通用的。Turaga[5]等人將人體行爲識別分爲3部分,即移動識別(movement),動作識別(action)和行爲識別(activity),這3種分類分別於低層視覺,中層視覺,高層視覺相對應。Gavrila[9]採用2D和3D的方法來分別研究人體的行爲。

對於行爲識別方法論的劃分中,最近出現了一種新的劃分[7], Aggarwal將人體行爲研究分爲2大類,其一是基於單個層次來實現,其二是基於等級體系來實現。單層實現由分爲時空特徵和序列特徵2種,等級體系實現分爲統計方法,句法分析法和基於描述的方法3種。圖1 Aggarwal對行爲識別方法論體系的層次結構圖。

圖1 行爲識別方法層次結構

該分類體系比較完善,也能很好的體現目前的研究進展。按照Turaga的3個層次劃分理論,目前關於行爲識別基本上還停留在第二個階段,即action識別。而action識別比現實生活中的行爲較簡單,所以我們識別這些行爲只需對這些行爲進行正確的分類即可。這樣一個行爲識別系統就分成了行爲特徵提取和分類器的設計兩個方面,通過對訓練數據提取某種特徵,採用有監督或無監督來訓練一個分類模型,對新來的數據同樣提取特徵並送入該模型,得出分類結果。基於這個思想,本文主要是從行爲識別的特徵提取方面做了一個較爲全面的介紹。

1.4 行爲識別研究難點

  行爲識別發展至今,取得了很大的進展,在低層,中層和高層都取得了一定的突破,但是行爲識別算法並不成熟,目前不存在一個算法適合所有的行爲分類,3個視覺層次中都還有很多嚴峻的問題有待解決。其研究的難點主要體現在以下幾個方面:

1.4.1 動作類內類間的變化太大

  對於大多數的動作,即使是同一動作都有不同的表現形式。比如說走路,可以在不同的背景環境中完成,走路的速度也可以從慢到快,走路的步長亦有長有短。其它的動作也有類似的結果,特別是一些非週期的運動,比如過馬路時候的走路,這與平時週期性的走路步伐明顯不同。由此可見,動作的種類本身就很多,再加上每一種類又有很多個變種,所以給行爲識別的研究帶來了不少麻煩。

1.4.2 環境背景等影響

  環境問背景等因素的影響可謂是計算機視覺各個領域的最大難點。主要有視角的多樣性,同樣的動作從不同的視角來觀察會得到不同的二維圖像;人與人之間,人與背景之間的相互遮擋也使計算機對動作的分類前期特徵提取帶來了困難,目前解決多視覺和遮擋問題,有學者提出了多攝像機融合通過3維重建來處理;另外其影響因素還包括動態變化和雜亂的背景,環境光照的變化,圖像視頻的低分辨率等。

1.4.3 時間變化的影響

  總所周知,人體的行爲離不開時間這個因素。而我們拍攝的視頻其存放格式有可能不同,其播放速度有慢有快,這就導致了我們提出的系統需對視頻的播放速率不敏感。

1.4.4 數據的獲取和標註

  既然把行爲識別問題當成一個分類問題,就需要大量的數據來訓練分類模型。而這些數據是視頻數據,每一個動作在視頻中出現的位置和時間都不確定,同時要考慮同一種動作的不同表現形式以及不同動作之間的區分度,即數據的多樣性和全面性。這一收集過程的工作量不小,網上已經有一些公開的數據庫供大家用來實驗,這將在本文的第3部分進行介紹。

  另外,手動對視頻數據標註非常困難。當然,有學者也提出了一些自動標註的方法,比如說利用網頁圖片搜索引擎[10],利用視頻的字幕[11],以及利用電影描述的文本進行匹配[12][13][14]。

1.4.5 高層視覺的理解

  上面一提到,目前對行爲識別的研究尚處在動作識別這一層(action recognition)。其處理的行爲可以分爲2類,一類是有限制類別的簡單規則行爲,比如說走、跑、揮手、彎腰、跳等。另一類是在具體的場景中特定的行爲[15]~[19],如檢測恐怖分子異常行爲,丟包後突然離開等。在這種場景下對行爲的描述有嚴格的限制,此時其描述一般採用了運動或者軌跡。這2種行爲識別的研究都還不算完善,遇到了不少問題,且離高層的行爲識別要求還相差很遠。因此高層視覺的理解表示和識別是一個巨大的難題。

2. 行爲識別特徵提取

  這一節中,將主要討論怎樣從圖片序列中提取特徵。本文將行爲識別的特徵分爲2大類:全局特徵和局部特徵。

  全局特徵是把一對象當做成一個整體,這是一種從上到下的研究思維。這種情況下,視頻中的人必須先被定位出來,這個可以採用背景減圖或者目標跟蹤算法。然後對定位出來的目標進行某種編碼,這樣就形成了其全局特徵。這種全局特徵是有效的,因爲它包含了人體非常多的信息。然而它又太依賴而底層視覺的處理,比如說精確的背景減圖,人體定位和跟蹤。而這些處理過程本身也是計算機視覺中的難點之處。另外這些全局特徵對噪聲,視角變化,遮擋等非常敏感。

  局部特徵提取是收集人體的相對獨立的圖像塊,是一種從下到上的研究思維。一般的做法是先提取視頻中的一些時空興趣點,然後在這些點的周圍提取相應的圖像塊,最後將這些圖像塊組合成一起來描述一個特定的動作。局部特徵的優點是其不依賴而底層的人體分割定位和跟蹤,且對噪聲和遮擋問題不是很敏感。但是它需要提取足夠數量的穩定的且與動作類別相關的興趣點,因此需要不少預處理過程。

2.1 全局特徵提取

  全局特徵是對檢測出來的整個感興趣的人體進行描述,一般是通過背景減圖或者跟蹤的方法來得到,通常採用的是人體的邊緣、剪影輪廓(攝像機固定),光流(攝像機移動)等信息。而這些特徵對噪聲,部分遮擋,視角的變化比較敏感。下面分別從其二維特徵和三維特徵做介紹。

2.1.1 二維全局特徵提取

Davis[20]等人最早採用輪廓來描述人體的運動信息,其用MEI和MHI 2個模板來保存對應的一個動作信息,然後用馬氏距離分類器來進行識別。MEI爲運動能量圖,用來指示運動在哪些部位發生過,MHI爲運動歷史圖,除了體現運動發生的空間位置外還體現了運動的時間先後順序。這2種特徵都是從背景減圖中獲取的。圖2是坐下,揮手,蹲伏這3個動作的運動歷史圖MHI。

                     

圖2 三種動作對應的MHI

  爲了提前剪影信息,Wang[21]等人利用r變換獲取了人體的剪影。Hsuan-Shen[22]則提取了人體的輪廓,這些輪廓信息是用星型骨架描述基線之間夾角的,這些基線是從人體的手,腳,頭等中心延長到人體的輪廓。而Wang[23]同時利用了剪影信息和輪廓信息來描述動作,即用基於輪廓的平均運動形狀(MMS)和基於運動前景的平均能量(AME)兩個模板來進行描述。當把輪廓和剪影模板保存下來後,新提取出的特徵要與其進行比較,Daniel[24]採用歐式距離來測量其相似度,隨後他又改爲用倒角距離來度量[25],這樣就消除了背景減圖這一預處理步驟。

  除了利用輪廓剪影信息外,人體的運動信息也經常被採用。比如說基於像素級的背景差法,光流信息等。當背景差法不能很好的工作時,我們往往可以採用光流法,但是這樣經常會引入運動噪聲,Effos[26]只計算以人體中心點處的光流,這在一定程度上減少了噪聲的影響。

2.1.2 三維全局特徵提取

  在三維空間中,通過給定視頻中的數據可以得到3D時空體(STV),STV的計算需要精確的定位,目標對齊,有時還需背景減圖。Blank[27][28]等人首次從視頻序列中的剪影信息得到STV。如圖3所示。然後用泊松方程導出局部時空顯著點及其方向特徵,其全局特徵是通過對這些局部特徵加權得到的,爲了處理不同動作的持續時間不同的問題,Achard[29]對每一個視頻採用了一系列的STV ,並且每個STV只是覆蓋時間維上的一部分信息。

  還有一種途徑是從STV中提取相應的局部描述子,這一部分將在局部特徵提取一節中介紹,在這裏,我們還是先把STV特徵當做是全局特徵。Batra[30]存儲了STV的剪影,並且用很小的3D二進制空間塊來採樣STV。Yilmaz[31]提取了STV表面的不同幾何特徵,比如說其極大值點和極小值點。當然,也有學者Keel[32]將剪影的STV和光流信息結合起來,作爲行爲識別的全局特徵。

                

圖3 跳躍,走,跑3個動作的STV圖

2.2 局部特徵提取

  人體行爲識別局部特徵提取是指提取人體中感興趣的點或者塊。因此不需要精確的人體定位和跟蹤,並且局部特徵對人體的表觀變化,視覺變化和部分遮擋問題也不是很敏感。因此在行爲識別中採用這種特徵的分類器比較多。下面從局部特徵點檢測和局部特徵點描述2部分來做介紹。

2.2.1 局部特徵點的檢測

  行爲識別中的局部特徵點是視頻中時間和空間中的點,這些點的檢測發生在視頻運動的突變中。因爲在運動突變時產生的點包含了對人體行爲分析的大部分信息。因此當人體進行平移直線運動或者勻速運動時,這些特徵點就很難被檢測出來。

  Laptev[33]將Harris角點擴展到3D Harris,這是時空興趣點(STIP)族中的一個。這些時空特徵點鄰域的像素值在時間和空間都有顯著的變化。在該算法中,鄰域塊的尺度大小能夠自適應時間維和空間維。該時空特徵點如圖4所示。

               

圖4 時空特徵點檢測圖

  Dollar[34]指出上述那種方法存在一個缺點,即檢測出來穩定的興趣點的數量太少,因此Dollar單獨的在時間維和空間維先採用gabor濾波器進行濾波,這樣的話檢測出來興趣點的數目就會隨着時間和空間的局部鄰域尺寸的改變而改變。類似的,Rapantzikos[35]在3個維度上分別應用離散小波變換,通過每一維的低通和高通的濾波響應來選擇時空顯著點。同時,爲了整合顏色和運動信息,Rapantzikos[36]加入了彩色和運動信息來計算其顯著點。

  與檢測整個人體中興趣點的出發思路不同,Wong[37]首先檢測與運動相關的子空間中的興趣點,這些子空間對應着一部分的運動,比如說手臂擺動,在這些子空間中,一些稀疏的興趣點就被檢測出來了。類似的方法,Bregonzio[38]首先通過計算後面幀的不同來估計視覺注意的焦點,然後利用gabor濾波在這些區域來檢測顯著點。

2.2.2 局部特徵點的描述

  局部特徵描述是對圖像或者視頻中的一個塊進行描述,其描述子應該對背景的雜亂程度,尺度和方向變化等均不敏感。一個圖像塊的空間和時間尺寸大小通常取決於檢測到的興趣點的尺寸。圖5顯示的是cuboids描述子[34]。

                      

                                        圖5 cuboids描述子

  特徵塊也可以用基於局部特徵的網格來描述,因爲一個網格包括了局部觀察到的領域像素,將其看成一個塊,這樣就減少了時間和空間的局部變化的影響。二維的SURF特徵[39]被Willems[40]擴展到了3維,這些eSURF特徵的每個cell都包含了全部Harr-wavelet特徵。Laotev[14]使用了局部HOG(梯度直方圖)和HOF(光流直方圖)。Klaser[41]將HOG特徵擴展到3維,即形成了3D-HOG。3D-HOG的每個bin都是由規則的多面體構成,3D-HOG允許 在多尺度下對cuboids進行快速密度採樣。這種將二維特徵點檢測的算法擴展到3維特徵點類似的工作還有是將SIFT算法[42]擴展到3維SIFT Scovanner[43]。在Wang[44]的文章中,他比較了各種局部描述算子,並發現在大多數情況下整合了梯度和光流信息的描述算子其效果最好。

  另外還有一種描述子比較流行,即單詞袋[45][46],這是利用的單詞頻率直方圖特徵。

2.3 全局、局部特徵融合

  全局和局部特徵的融合,結合了全局特徵的足夠信息量和局部特徵的對視角變化,部分遮擋問題不敏感,抗干擾性強的優點。這樣的文章比較多,其主要思想結合從2.1和2.2的方法。Thi[47]就將這2種特徵結合得很好,其全局特徵是採用前面介紹的MHI算子,並且採用AIFT算法[48]進一步選擇更好的MHI。局部特徵也是採用前面提到的STIP特徵,並且採用SBFC(稀疏貝葉斯特徵選擇)[49]算法過濾掉一些噪聲比較大的特徵點。最後將2種特徵送入到擴展的3維ISM模型中,其ISM[50]是一種目標識別常用算法,即訓練出目標的隱式形狀模型。Thi[47]的方法結構如圖6所示。

                       

圖6 局部特徵和全局特徵結合

3. 行爲識別常見數據庫

3.1 Weizmann

  Weizmann[27]數據庫包含了10個動作分別是走,跑,跳,飛跳,向一側移動,單隻手揮動,2隻手揮動,單跳,2隻手臂揮動起跳,每個動作有10個人執行。在這個視頻集中,其背景是靜止的,且前景提供了剪影信息。該數據集較爲簡單。

3.2 KTH

  KTH[45]行人數據庫包含了6種動作,分別爲走,慢跑,跑揮手和鼓掌。每種動作由25個不同的人完成。每個人在完成這些動作時又是在4個不同的場景中完成的,4個場景分別爲室外,室內,室外放大,室外且穿不同顏色的衣服。

3.3 PETS

  PETS[51],其全稱爲跟蹤與監控性能評估會議,它的數據庫是從現實生活中獲取的,主要來源於直接從視頻監控系統拍攝的視頻,比如說超市的監控系統。從2000年以後,基本上每年都會組織召開這個會議。

3.4 UCF

UCF包含個數據集,這裏是指UCF的運動數據庫[52],該視頻數據包括了150個視頻序列,共有13個動作。因爲是現實生活中的視頻數據,所以其背景比較複雜,這些種類的動作識別起來有些困難。

3.5 INRIA XMAS

  INRIA XMAS數據庫[53]是從5個視角拍攝的,室內的4個方向和頭頂的1個方向。總共有11個人完成14種不同的動作,動作可以沿着任意方向執行。攝像機是靜止的,環境的光照條件也基本不變。另外該數據集還提供有人體輪廓和體積元等信息。

3.6 Hollywood

  Hollywood電影的數據庫包含有幾個,其一[14]的視頻集有8種動作,分別是接電話,下轎車,握手,擁抱,接吻,坐下,起立,站立。這些動作都是從電影中直接抽取的,由不同的演員在不同的環境下演的。其二[54]在上面的基礎上又增加了4個動作,騎車,吃飯,打架,跑。並且其訓練集給出了電影的自動描述文本標註,另外一些是由人工標註的。因爲有遮擋,移動攝像機,動態背景等因素,所以這個數據集非常有挑戰。

4. 總結

  本文較全面的介紹了行爲識別中特徵提取的方法,並將其分爲全局特徵提取和局部特徵提取2個部分介紹,雖然自行爲識別研究以來已經取得了不少成果,但是由於視覺中的動態環境,遮擋等問題存在,其挑戰非常大,需要提取出魯棒性更好,適應性更強,效果更好的特徵,而這仍是後面幾年甚至幾十年不斷追求努力才能達到的目標。

參考文獻:

  1. Johansson, G. (1975). "Visual motion perception." Scientific American.
  2. Aggarwal, J. K. and Q. Cai (1997). Human motion analysis: A review, IEEE.
  3. Moeslund, T. B. and E. Granum (2001). "A survey of computer vision-based human motion capture." Computer vision and image understanding81(3): 231-268.
  4. Moeslund, T. B., A. Hilton, et al. (2006). "A survey of advances in vision-based human motion capture and analysis." Computer vision and image understanding104(2): 90-126.
  5. Turaga, P., R. Chellappa, et al. (2008). "Machine recognition of human activities: A survey." Circuits and Systems for Video Technology, IEEE Transactions on 18(11): 1473-1488.
  6. Poppe, R. (2010). "A survey on vision-based human action recognition." Image and Vision Computing28(6): 976-990.
  7. Aggarwal, J. and M. S. Ryoo (2011). "Human activity analysis: A review." ACM Computing Surveys (CSUR)43(3): 16.
  8. Forsyth, D. A., O. Arikan, et al. (2006). Computational studies of human motion: Tracking and motion synthesis, Now Pub.
  9. Gavrila, D. M. (1999). "The visual analysis of human movement: A survey." Computer vision and image understanding73(1): 82-98.

  10. Ikizler-Cinbis, N., R. G. Cinbis, et al. (2009). Learning actions from the web, IEEE.

  11. Gupta, S. and R. J. Mooney (2009). Using closed captions to train activity recognizers that improve video retrieval, IEEE.

  12. Cour, T., C. Jordan, et al. (2008). Movie/script: Alignment and parsing of video and text transcription.

  13. Duchenne, O., I. Laptev, et al. (2009). Automatic annotation of human actions in video, IEEE.

  14. Laptev, I., M. Marszalek, et al. (2008). Learning realistic human actions from movies, IEEE.

  15. Haritaoglu, I., D. Harwood, et al. (1998). "W 4 S: A real-time system for detecting and tracking people in 2 1/2D." Computer Vision—ECCV'98:      877-892.

  16. Tao, D., X. Li, et al. (2006). Human carrying status in visual surveillance, IEEE.

  17. Davis, J. W. and S. R. Taylor (2002). Analysis and recognition of walking movements, IEEE.

  18. Lv, F., X. Song, et al. (2006). Left luggage detection using bayesian inference.

  19. Auvinet, E., E. Grossmann, et al. (2006). Left-luggage detection using homographies and simple heuristics.

  20. Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence,      IEEE Transactions on23(3): 257-267.

  21. Wang, Y., K. Huang, et al. (2007). Human activity recognition based on r transform, IEEE.

  22. Chen, H. S., H. T. Chen, et al. (2006). Human action recognition using star skeleton, ACM.

  23. Wang, L. and D. Suter (2006). Informative shape representations for human action recognition, Ieee.

  24. Weinland, D., E. Boyer, et al. (2007). Action recognition from arbitrary views using 3d exemplars, IEEE.

  25. Weinland, D. and E. Boyer (2008). Action recognition using exemplar-based embedding, Ieee.

  26. Efros, A. A., A. C. Berg, et al. (2003). Recognizing action at a distance, IEEE.

  27. Blank, M., L. Gorelick, et al. (2005). Actions as space-time shapes, IEEE.

  28. Gorelick, L., M. Blank, et al. (2007). "Actions as space-time shapes." Pattern Analysis and Machine Intelligence, IEEE Transactions on29(12):        2247-2253.

  29. Achard, C., X. Qu, et al. (2008). "A novel approach for recognition of human actions with semi-global features." Machine Vision and Applications      19(1): 27-34.

  30. Batra, D., T. Chen, et al. (2008). Space-time shapelets for action recognition, IEEE.

  31. Yilmaz, A. and M. Shah (2008). "A differential geometric approach to representing the human actions." Computer vision and image understanding    109(3): 335-351.

  32. Ke, Y., R. Sukthankar, et al. (2007). Spatio-temporal shape and flow correlation for action recognition, IEEE.

  33. Laptev, I. (2005). "On space-time interest points." International journal of computer vision64(2): 107-123.

  34. Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.

  35. Rapantzikos, K., Y. Avrithis, et al. (2007). Spatiotemporal saliency for event detection and representation in the 3D wavelet domain: potential in      human action recognition, ACM.

  36. Rapantzikos, K., Y. Avrithis, et al. (2009). Dense saliency-based spatiotemporal feature points for action recognition, Ieee.

  37. Wong, S. F. and R. Cipolla (2007). Extracting spatiotemporal interest points using global information, IEEE.

  38. Bregonzio, M., S. Gong, et al. (2009). Recognising action as clouds of space-time interest points, IEEE.

  39. Bay, H., T. Tuytelaars, et al. (2006). "Surf: Speeded up robust features." Computer Vision–ECCV 2006: 404-417.

  40. Willems, G., T. Tuytelaars, et al. (2008). "An efficient dense and scale-invariant spatio-temporal interest point detector." Computer Vision–ECCV      2008: 650-663.

  41. Klaser, A. and M. Marszalek (2008). "A spatio-temporal descriptor based on 3D-gradients."

  42. Mikolajczyk, K. and C. Schmid (2004). "Scale & affine invariant interest point detectors." International journal of computer vision60(1): 63-86.

  43. Scovanner, P., S. Ali, et al. (2007). A 3-dimensional sift descriptor and its application to action recognition, ACM.

  44. Wang, H., M. M. Ullah, et al. (2009). "Evaluation of local spatio-temporal features for action recognition."

  45. Niebles, J. C., H. Wang, et al. (2008). "Unsupervised learning of human action categories using spatial-temporal words." International journal of      computer vision79(3): 299-318.

  46. Schuldt, C., I. Laptev, et al. (2004). Recognizing human actions: A local SVM approach, IEEE.

  47. Thi, T. H., L. Cheng, et al. (2011). "Integrating local action elements for action analysis." Computer vision and image understanding.

  48. Liu, G., Z. Lin, et al. (2009). "Radon representation-based feature descriptor for texture classification." Image Processing, IEEE Transactions on     18(5): 921-928.

  49. Carbonetto, P., G. Dorkó, et al. (2008). "Learning to recognize objects with little supervision." International journal of computer vision77(1): 219-     237.

  50. Leibe, B., A. Leonardis, et al. (2008). "Robust object detection with interleaved categorization and segmentation." International journal of

    computer vision 77(1): 259-289.

  51. http://www.cvg.rdg.ac.uk/slides/pets.html.

  52. Rodriguez, M. D. (2008). "Action mach a spatio-temporal maximum average correlation height filter for action recognition." CVPR.

  53. Weinland, D., R. Ronfard, et al. (2006). "Free viewpoint action recognition using motion history volumes." Computer vision and image

    understanding 104(2): 249-257.

  54. Marszalek, M., I. Laptev, et al. (2009). Actions in context, IEEE. 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章