action recognition論文閱讀

1.Potion

步驟:

(1)    抓取每一幀每個joint的heatmaps(每一個像素點被劃分爲某一個joint概率的heatmap)

             --》每一幀圖像都得到N個heatmap(H*W), 共 T*N*H*W

(2)    對每一幀每個joint的heatmaps按照時間順序進行colorizing,可以多個通道

             --》每個heatmaps*Oi(t),然後所有時刻相加, 共N*C*H*W

            C=2:通道一O1(t), 通道二O2(t).                 C=3:通道一O1(t), 通道二O2(t),通道三O3(t).

                                                     
           C>2: 將T幀的視頻分爲C-1個片段,第一個片段對前兩個channel使用前述的colorization方法,其餘channel=0;接着在第二個片段,對第二個和第三個channel使用同樣的方式,其餘channel=0;以此類推。
(3)    CNN訓練,輸入數據爲N個joint在通道上堆疊

             --》共(N*C)* H * W

舉例:

                               

2.Two-stream文章

步驟:

(1)    RGB圖像+spatial CNN  (resnet)

(2)    Option flow + motion CNN

(3)    融合

問題:

(1)    option flow獲取數據耗時長,數據量大

光流數據獲取:

    1)    利用OpenCV直接獲取

    2)    利用flownet網絡獲取,其中flownet2效果最好

             輸入圖片大小(h=384,w=512),輸出(384,512,2)

3. STNet  

                                     

步驟:

(1)    super-image:n個連續的視頻幀疊加成一個具有3N個通道的image

             輸入的視頻中採樣T個時序段,每個時序段包括N張連續的RGB幀,N張圖片在通道上進行堆疊形成super-image爲:T*3N*H*W。Super-Image中不僅僅包含單幀局部空間信息,而且也包含局部連續視頻幀之間時序依賴信息。
(2)    對super-image進行二維卷積以獲取局部的時空關係

(3)    Temporal Modeling Block:通過三維卷積以獲取全局的時空特徵

             經過2D卷積的作用,得到T個局部時空特徵圖,通過這T個時空特徵圖建立全局的時空特徵圖對於理解視頻是至關重要的,因此通過3D卷積實現(Conv3d-BN3d-ReLU)。爲了節省計算量,3D卷積空間核size爲1,時序kernel size爲3。
(4)    Temporal Xception Block:實現特徵序列之間高效的時間建模  

                                                            

             輸入的size爲T*Cin,是對T個super-imags的feature map 進行全局均值池化所得到。爲了建立時間關係,在時間維上進行卷積,作者將時間卷積分解爲基於逐通道和逐時序的一維卷積。基於逐通道channel-wise的一維卷積,時序核大小設置爲3,卷積核的數目和group設置爲與輸入通道數目相同。基於逐時序temporal-wise的一維卷積,時序核大小爲1,group爲1。
   

實例: 1D卷積配置(#kernel,kernel size,padding,#groups)  

                                                 

4. I3D: Inflated 3D ConvNets

1)拓展2D卷積網到3D: 將2D轉化爲3D

2)將2D濾波器變爲3D: 除了結構,還想提取預訓練參數。視頻可以通過複製圖片序列得到,且視頻上的pooling激活值應該與單張圖片相同。由於是線性的,可以將2D濾波器沿着時間維度重複N次。這保證了相應的相同。由於圖片組成的視頻卷積層在時間上輸出是恆定的,因此點狀非線性層和average層和max pooling層和2D的一致。
3)空間、時間和網絡深度接收增長: 圖片中空間域自然的將x,y同等對待,在時間域上卻沒必要這樣,(時間域上的pooling核選取有不同),這取決於幀率和圖片維度之間的關係,如果相比空間域,時間域增長太快,可能破壞早期的特徵檢測,如果時間上增長的過慢,可能難以捕捉場景動態信息。

       

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章