Representation Flow for Action Recognition論文解讀

Representation Flow for Action Recognition論文解讀
1 簡介

這是2019 CVPR視頻動作識別領域的最新論文,出自印第安納大學的AJ Piergiovanni 和 Michael S. Ryoo之手。

文章受光流算法啓發提出可以學習運動表徵的表示流卷積層,該表示流層對於光流迭代的優化的所有參數都可以通過和其他卷積網絡一起進行end-to-end的學習得到,並且實現了動作識別性能的提升。

文章也通過疊加多重表示流層,提出了FOF(flow of flow)、FCF(flow-conv-flow)的概念。

實驗表明,本文提出的表示流實現了計算速度和性能的最優。

2 詳情

2.1 背景

之前雙流法(Two Stream)中光流的計算量太大,每幀通常需要成百上千次優化迭代;同時學習兩個分開的CNN流,使得計算量巨大且要學的參數量也巨大,限制了實時性;

2.2 光流介紹

光流是Gibson在1950年首先提出來的。

它是空間運動物體在觀察成像平面上的像素運動的瞬時速度,是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性來找到上一幀跟當前幀之間存在的對應關係,從而計算出相鄰幀之間物體的運動信息的一種方法。

簡單來說,光流是空間運動物體在觀測成像平面上的像素運動的“瞬時速度”。光流的研究是利用圖像序列中的像素強度數據的時域變化和相關性來確定各自像素位置的“運動”。研究光流場的目的就是爲了從圖片序列中近似得到不能直接得到的運動場
在這裏插入圖片描述
在運動微小的前提下,利用泰勒公式展開:
在這裏插入圖片描述
當Δt足夠小,趨近於0時有:
在這裏插入圖片描述
這便是光流約束方程。

2.3 TV-L1求光流

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述
其中theta、tao、lamda等參數都是人工手動設置的。初始化u=0,通過成百上千次迭代,最終求出u,進而獲得運動信息。

2.4 Representation flow方法

算法和TV-L1算法基本一致,但是參數可由網絡學習得到。
在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

其中梯度通過Sobel 算子求出,直接用特徵圖和Sobel濾波器相乘即可:

在這裏插入圖片描述

在這裏插入圖片描述
2.5 Representation flow方法和TV-L1對比

1)Representation flow只使用單一的尺度,而TV-L1使用多重尺度;

2)Representation flow不使用任何的warp;

3)Representation flow在更小空間尺寸的CNN tensor上計算光流;

3 實驗過程

在這裏插入圖片描述
實驗表明,在ResNet的Block3之後計算Representation flow效果最好。

在這裏插入圖片描述
實驗表明,只學習Divergence、tao、lanmda、theta時效果最好。

在這裏插入圖片描述
實驗表明,傳統的TV-L1方法效果隨着迭代次數的增加,效果越來越好。但是Representation flow迭代次數100次效果反而不如50次,同時20次和50次差別不大,所以出於計算成本的考慮選用20次迭代。

4 實驗結果
在這裏插入圖片描述 在這裏插入圖片描述 在這裏插入圖片描述

在這裏插入圖片描述

與其它state-of-the-art方法相比,Representation flow實現了性能和計算速度的最優。

參考原論文:https://arxiv.org/abs/1810.01455

推薦閱讀:

視頻動作識別調研:https://blog.csdn.net/qq_41590635/article/details/101478277

視頻動作檢測最新發展調研:https://blog.csdn.net/qq_41590635/article/details/101553059

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章