action recognition論文閱讀

原創

taozi_home

2020-03-18 16:15

1.Potion

步驟：

（1）抓取每一幀每個joint的heatmaps（每一個像素點被劃分爲某一個joint概率的heatmap）

--》每一幀圖像都得到N個heatmap(H*W), 共 T*N*H*W

（2）對每一幀每個joint的heatmaps按照時間順序進行colorizing，可以多個通道

--》每個heatmaps*Oi(t)，然後所有時刻相加，共N*C*H*W

C=2：通道一O1(t), 通道二O2(t). C=3：通道一O1(t), 通道二O2(t)，通道三O3(t).

   C>2: 將T幀的視頻分爲C-1個片段，第一個片段對前兩個channel使用前述的colorization方法，其餘channel=0；接着在第二個片段，對第二個和第三個channel使用同樣的方式，其餘channel=0；以此類推。
（3）   CNN訓練，輸入數據爲N個joint在通道上堆疊

--》共（N*C）* H * W

舉例：

2.Two-stream文章

步驟：

（1） RGB圖像+spatial CNN （resnet）

（2） Option flow + motion CNN

（3）融合

問題：

（1） option flow獲取數據耗時長，數據量大

光流數據獲取：

1）利用OpenCV直接獲取

2）利用flownet網絡獲取，其中flownet2效果最好

輸入圖片大小（h=384,w=512），輸出（384,512,2）

3. STNet

步驟：

（1） super-image：n個連續的視頻幀疊加成一個具有3N個通道的image

輸入的視頻中採樣T個時序段，每個時序段包括N張連續的RGB幀，N張圖片在通道上進行堆疊形成super-image爲：T*3N*H*W。Super-Image中不僅僅包含單幀局部空間信息，而且也包含局部連續視頻幀之間時序依賴信息。
（2）對super-image進行二維卷積以獲取局部的時空關係

（3） Temporal Modeling Block：通過三維卷積以獲取全局的時空特徵

經過2D卷積的作用，得到T個局部時空特徵圖，通過這T個時空特徵圖建立全局的時空特徵圖對於理解視頻是至關重要的，因此通過3D卷積實現(Conv3d-BN3d-ReLU)。爲了節省計算量，3D卷積空間核size爲1，時序kernel size爲3。
（4） Temporal Xception Block：實現特徵序列之間高效的時間建模

輸入的size爲T*Cin，是對T個super-imags的feature map 進行全局均值池化所得到。爲了建立時間關係，在時間維上進行卷積，作者將時間卷積分解爲基於逐通道和逐時序的一維卷積。基於逐通道channel-wise的一維卷積，時序核大小設置爲3，卷積核的數目和group設置爲與輸入通道數目相同。基於逐時序temporal-wise的一維卷積，時序核大小爲1，group爲1。

實例： 1D卷積配置（＃kernel，kernel size，padding，＃groups）

4. I3D: Inflated 3D ConvNets

1）拓展2D卷積網到3D: 將2D轉化爲3D

2）將2D濾波器變爲3D: 除了結構，還想提取預訓練參數。視頻可以通過複製圖片序列得到，且視頻上的pooling激活值應該與單張圖片相同。由於是線性的，可以將2D濾波器沿着時間維度重複N次。這保證了相應的相同。由於圖片組成的視頻卷積層在時間上輸出是恆定的，因此點狀非線性層和average層和max pooling層和2D的一致。
3）空間、時間和網絡深度接收增長: 圖片中空間域自然的將x，y同等對待，在時間域上卻沒必要這樣，（時間域上的pooling核選取有不同），這取決於幀率和圖片維度之間的關係，如果相比空間域，時間域增長太快，可能破壞早期的特徵檢測，如果時間上增長的過慢，可能難以捕捉場景動態信息。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

action recognition論文閱讀

圖片處理 python

深度學習常用損失函數介紹和使用

數組、列表、字典的使用 python

視頻的讀取與保存 python

Visio,Python,Matlab 畫圖

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結