human activity recognition特徵提取相關

1.讀Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.

 

   本文作者提出了檢測視頻數據特徵點,即spatio-temporal特徵,即時空特徵點,並將該特徵應用於行爲識別,且在前提假設比較少的情況下提出了一個人體特徵檢測和行爲識別的通用框架。

  行爲識別的研究途徑有以下幾種:通過恢復視頻中人體的位置和姿態,但是模型匹配很難做到準確;通過跟蹤空間特徵點軌跡來進行識別;通過不斷的重複跟蹤來對人體進行行爲識別;通過檢測時空特徵點來進行行爲識別。

 

  作者的算法分爲4個步驟。

特徵檢測:

  作者是思想是需要將圖片的空間檢測算子擴展到視頻的時空檢測算子。常見的圖片空間檢測算子途徑是:角點檢測,比如harris角點;LOG算子,比如sift;顯著點檢測;但是在此之前這樣的擴展工作只有3D Harris特徵。這個特徵點有很好的性質,得到了作者大篇的表揚。但是作者後面進行試驗用到的3個數據庫除了正常的行爲數據庫外,還有齧齒類動物行爲數據庫,在這2類行爲識別中,3D Harris特徵點數目太少了。並且這時這樣的時空角點並不是很好的特徵,所以不得不尋找更好的時空特徵。

  在攝像頭靜止或者攝像頭運動但是其運動能夠通過算法進行補償的前提下,作者提出了一個時空特徵點檢測算法,論文第4頁中其計算有公式。該特徵點檢測算法能夠週期性運動的物體,或者其他有着顯著運動特徵的物體,且檢測出來的特徵點數目非常多。但是如果物體做純粹的平移運動或者運動特徵不明顯則檢測的特徵點數目很少。

Cuboid:

  當檢測到特徵興趣點後,就需要將每個特徵興趣點擴展成cuboid,cuboid的長和寬的確定在文章中有簡要的介紹。接着就需要用什麼指標比較2個cuboid的相似度了。首先需要將cuboid轉換成向量,作者採用了3種方法,即歸一化像素值;引入亮度梯度;引入窗口光流。然後作者比較了直接用特徵向量,用全局直方圖,用局部直方圖3中思想作爲計算cuboid相似度的依據,發現直接採用向量效果更好,這樣的特徵向量其本質就是PCA-SIFT。

Cuboid prototypes:

  很直觀,當不同人做同一種動作時,儘管其表觀和運動有所不同,但是其特徵表示應該一樣,因爲是同一種行爲。所以在行爲是被領域,單獨檢測一個cuboid不是很重要,而是要檢測出cuboid的類型,即cuboid prototypes。

所以在作者在進行檢測cuboid後,將大量的cuboid進行了k-means聚類。所以在訓練階段,每個cuboid都被分到了某一個cuboid protypes。

行爲描述子:

  當找到了cuboid protypes後,就可以進行行爲描述了。行爲描述作者採用的是cuboid protypes直方圖。直方圖直接的距離採用歐式距離或者卡方距離。

 

  對於實驗部分,作者採用了3個數據集。面部表情數據集(作者自己的);老鼠行爲數據集(作者自己的);KTH人體行爲數據集(公認測試集)。在這個3個數據集上,作者和另外3中比較流行的行爲識別算法ZMI,EFROS,CUBOIDS+HARRIS做了比較,並證明自己的算法(取名爲CUBOIDS,其實就是提取的特徵過程)比其他3種效果都要好。分類器採用SVM比1NN效果稍好。

    

論文寫作技巧學習:這篇paper中,其實只是提出了一個時空特徵點的檢測公式,但是確寫了一篇非常棒的paper,難得。究其原因,作者將每個參數的選取過程都寫進去了,比如說將特徵點轉換成cuboid時的向量選擇過程,作者通過實驗對比發現直接用向量比較好。總之,就是論文的寫作過程儘量體現平時做對應項目的過程。另外作者自己做的2個數據庫也花了大篇的文章來記載。

 

 

2.讀Laptev, I. (2005). "On space-time interest points." International journal of computer vision 64(2): 107-123.

 

   本文是一篇經典關於時空特徵點的文章,後人稱其算法爲STIP,即時間空間感興趣點。作者主要分爲以下4部分來講。

時空興趣點的檢測:

  爲了檢測時間空間發生的行爲,其基本思想是基於harris角點和forstner角點(個人感覺基本是harris角點),即在圖像局部區域空間和時間軸上像素值都有顯著變化的點作爲時空興趣點,因此在時間軸上勻速直線運動的點是不會被檢測的出來的。爲了使該算子自適應尺度變化,先對圖像在時間和空間做了尺度變換,即採用了不同尺度的高斯濾波函數,後面實驗結果證明,這2個濾波尺度的大小對實驗結果影響很大,與視頻中人體行爲的特點有關。

  類比經典的harris算法,這裏擴展了一個時間維,採用高斯窗口,同理後面轉換爲計算一個3*3的矩陣的3個特徵值,最後用這3個特徵值的和以及積構成一個響應函數H,對H設定閾值來計算對應點是否爲所需點。

  這裏有網友將其過程較詳細的貼出來了:http://www.cnblogs.com/ztfei/archive/2012/05/08/2489900.html

時空尺度因子的自適應選擇:

  上面提到,時空域2個尺度因子的選擇不同對實驗結果有明顯的不同,大致影響關係爲:時間域內尺度因子越大,則表明動作發生的時間越短,所以優先檢測出動作持續時間短的特徵點,時間域內尺度因子越小,則優先檢測動作持續時間長的特徵點,論文中有示意圖介紹;同理在空間域內的尺度因子影響效果一樣。

  作者是通過取歸一化後的在時間尺度和空間尺度拉普拉斯算子最大值,來檢測時空域範圍內事件的發生,基於這種機制就能夠得出尺度變換無關的時空興趣點檢測算子。文中有大把的公式推論,沒真正看懂。其目的無非是提出一種怎樣自適應選擇時空尺度因子,並給出了一個算法流程表。

運動的分類:

  通過上面幾步,可以檢測出一些時空興趣點,但是爲了區分不同動作之間以及動作與噪聲之間的興趣點,作者又對這些興趣點進行了分類,每一類興趣點用一個向量表示,2類興趣點直接的距離採用馬氏距離計算,當然在這之前,作者先採用了k-means對這些興趣點進行了聚類。

video interpretation(不懂怎麼翻譯比較好,視頻解說?):

  這一節的主要內容是,在video interpretation領域怎麼應用視頻序列的稀疏表達,這些稀疏表達是用已經分類好的時空興趣點計算得來的。作者通過行人檢測和姿態估計做了詳細的說明。

  在行人檢測方面,作者對“行走”這一動做建立了模型,這個模型由一系列的重複特徵點組成,這些特徵點是一個6維的特徵向量,包括位置,時間,尺度,類別等信息。在檢測方面,有一系列的公式來進行模板匹配,也還沒怎麼真正看懂。

  後面的實驗證明本文提出的自適應的時空特徵興趣點在行人檢測和姿態估計取得了不錯的結果,這些實驗環境允許在一個背景動態環境且高度雜亂,行人有部分遮擋且尺度大小有變化。

  

  3.讀Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence, IEEE Transactions on 23(3): 257-267.

 

   本文的主要思想是將人體動作採用MEI(運動能量圖)和MHI(運動歷史圖)靜態存儲起來,當新來的測試視頻時,先計算其MEI和MHI,然後與存儲的各運動模板進行匹配,使其馬氏距離之和最短,從而達到動作分類的目的。

  作者首先從一個例子中引出MEI和MHI的出現原因。即如果圖片的分辨率非常低,非常模糊,我們單獨從一張靜態圖片是無法識別出其目標的動作的。但是當把這些靜態圖片變成運動視頻,則我們一般都能識別出來。這是跟人體的視覺系統相關的,因爲人體的視覺系統就是善於捕捉運動信息。而MEI和MHI就是保存了目標的運動歷史情況,所以可以用來做人體行爲識別。

  作者將人體行爲識別方法分爲3大類——基於人體模型重建的,基於表觀模板的,基於運動目標的。

  基於人體模型重建是將人體的3維模型重建出來,從而進行識別。一旦人體的3維結構重建出來,其運動位置,方向,表觀,尺寸的各種豐富的信息都可以用來進行行爲識別。但是這個重構過程本身就是個非常複雜的過程。

  基於表觀模型是利用2維特徵來進行識別的。其主要是利用目標的剪影,輪廓,邊緣等信息來進行識別。

  基於運動模板是利用目標的運動特徵來進行識別,比如說光流等。這在人臉表情識別中有應用。可以將表情建模爲面部個點運動產生的結果。

  本文中MEI(即運動能量圖)的獲得是要先給定一個歷史間隔T。然後在T時間內如果如果對應像素點有運動(一般通過幀差法檢查即可),則二值化爲1,否則二值化爲0.然後將各個像素點二值化的結果並起來即可。

  MHI(運動歷史圖)的獲得比較類似,只不過不是二值化,而是採用灰度等級。最近出現過的像素運動其灰度值最大,否則都要相應的減1.

比較容易知道,MEI可以通過MHI一個閾值搞定。且MHI是一個迭代過程,其時間和空間複雜度都比較低。

  目標的匹配過程,需要定義一個相似度距離,文章用的馬氏距離,具體的定義還沒怎麼看懂。作者用健美操運動員做的訓練和測試視頻。先用2個攝像頭採集18種動作,每種動作分爲7個角度,利用這些信息計算好這128個MHI和MEI。在測試過程中,輸入數據分爲1個攝像頭的和2個攝像頭的,當然是2個攝像頭的分類效果好些。

  後面作者還將這些算法進行了擴展,即能夠實時自適應時間分割,並且對速度的線性改變不敏感,具體的公式還沒怎麼看懂。

  MEI和MHI的應用方面,作者舉了個KidsRoom的例子,大概講的是怪物和小孩子的互動過程,沒去仔細研究過。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章