時序動作定位:Rethinking the Faster R-CNN Architecture for Temporal Action Localization(TAL-Net)

這篇是2018CVPR的文章,論文下載鏈接: http://cn.arxiv.org/pdf/1804.07667.pdf

1 背景

1.1 Faster R-CNN vs TAL-Net
得益於Faster R-CNN 在目標檢測領域的巨大成功,自然想講Faster R-CNN 應用於視頻時序動作檢測。思路是直接把anchor、proposals、pooling全變成了對1-D時間維度的處理
在這裏插入圖片描述
1.2 R-C3D
《R-C3D: Region Convolutional 3D Network for Temporal Activity Detection》是 2017年ICCV的文章,論文下載鏈接:https://arxiv.org/pdf/1703.07814.pdf
在這裏插入圖片描述
Rethinking的作者認爲R-C3D是對Faster R-CNN 的直接的、簡單的應用,精度不高,主要存在以下三方面的問題並提出了優化方案:

1)如何解決動作時序片段變化大的問題?
時間段的變化比目標檢測的區域變化範圍更大,一個動作幾秒到幾分鐘不等,Faster R-CNN評估不同尺度的proposals用的是共享特徵,而時間段的範圍和anchor的跨度不對齊,可能無法獲得相關信息。

Rethinking提出多尺度的網絡結構(mutilti-tower)和擴張(空洞)卷積(dilated temporal conv)來擴大感受野並對齊。

2)如何解決利用上下文信息問題?
時間上的動作開始之前和之後的這些上下文信息對時序定位任務的作用比空間上的上下文對目標檢測的作用要大的多。Faster R-CNN沒有利用到上下文。

Rethinking提出擴展在proposal生成和動作分類時的感受野。

3)如何最好的融合多流信息?
目前在動作分類任務效果好的都是混合了RGB和Flow特徵,Faster R-CNN沒有融合。

Rethinking提出分類結果上融合的晚融合(late fusion)方法,並且證明了晚方法比早融合方法效果好。

2 TAL-Net

主要是Receptive Field Alignment、Context Feature Extraction、 Late Feature Fusion三方面工作:

2.1 Receptive Field Alignment
thumos14數據集動作片段幾秒到幾分鐘都有,爲了保證high recall,需要 anchor segment 有範圍更寬的尺度。但如果感受野太小,可能無法提取到足夠的特徵給長時間段的anchor;而如果感受野太大,提取的特徵可能包含很多無關信息,對短時間anchor又不利。
解決這個問題關鍵的兩步驟:
1)multi-tower ;
2)dilated temporal convolutions;
在這裏插入圖片描述
Segment proposal network是K個temporal convnets的集合,每個負責分類特定尺度的anchor segments,每個temporal convnet感受野尺寸和anchor尺寸一致。每個卷積網絡最後用兩個kernel size爲1的卷積層對anchor分類和對邊界迴歸。

下面就是 設計與感受野s對應的temporal convnet:
以往方法:
1)多疊加幾層卷積,s=(kernel-1)layer+1,層數L將隨着s線性增長,增加很多參數,也容易過擬合;
2)增加池化層,s=2
*(layer+1) - 1 (kernel=2),這個方法會指數級降低輸出特徵圖的分辨率;

爲了避免增加模型參數並保持分辨率,提出用dilated temporal convolutions:
在這裏插入圖片描述
其中,每個temporal convnet只有兩層dilated conv layers。目標感受野尺寸s,定義兩層的dialation rate :d1=s/6 ,d2=s/6*2,爲了平滑輸入,在第一個conv層前加了一個kernel size = s/6的max pooling。

2.2 Context Feature Extraction
上面的proposal生成方法只計算了anchor內的,沒有考慮上下文。爲了對anchor分類和迴歸的時候加入上下文信息,在anchor前後各取s/2長度加入一起計算,這個操作可以通過dilated rate2來完成,d1=s/62, d2=s/622,最大池化的kernel size也要加倍爲 s/6*2。
在這裏插入圖片描述
作者舉了兩個例子,如看到一個標槍在空中飛,則表明一個人剛完成“扔標槍”的動作(javelin throw),而不是“撐杆跳”(pole vault),因而上下文對於動作分類(Action recognition)很有用處。
而當看到一個人站在“diving board”遠端上時,這便是“diving”動作開始的強烈信號,這對於動作檢測很有用處。

2.3 Late Feature Fusion

Two-Stream Convolutional Networks for Action Recognition in Videos. K. Simonyan , A. Zisserman. 2014 NIPS
在這裏插入圖片描述
得益於雙流在動作識別領域的巨大成功,作者認爲action proposal 的生成也可以採用雙流的思想。並且不同於直接在一開始就將RGB和flow融合的早融合(early fusion),而是採用先用兩個網絡分別提取1-D的RGB和FLOW特徵,輸入proposal生成網絡(rpn)最後兩個分數做均值產生proposals,再把proposals結合各自網絡特徵最分類(fast-rcnn部分)在把兩個網絡結果做均值。
在這裏插入圖片描述
作者證明了這種方法比特徵早融合,然後用這個特徵一直計算到結果的方法效果好一些。

3 實驗

爲了驗證作者做的三部分工作的效果,做了大量的消融實驗:
在這裏插入圖片描述

證明了multi-tower和dilated組合效果最好
在這裏插入圖片描述

證明了multi-tower+dilated+context效果最好

在這裏插入圖片描述

證明了計算之前加上上下文池化效果好

在這裏插入圖片描述

證明了特徵晚融合 > 早融合 > FLOW > RGB

在這裏插入圖片描述

證明TAL-Net在proposals數目少的時候找的比較全,即proposal質量高

thumos14數據集效果:
在這裏插入圖片描述
TAL-Net效果超過之前方法很多,IOU=0.5達到了42.8%,爲當時最好效果,現在也是比較好的結果。(其中[51]爲R-C3D)

在這裏插入圖片描述
作者列出了thumos14數據集的三個動作效果,其中扣籃開始和結束的預測都比較好;中間“CleanAndJerk”的例子雖然動作成功分類,但是動作的開始時間預測較差,是因爲前面的準備工作和動作的開始很像,差別不大導致的。最後的扔鉛球的例子被誤分類爲扔鐵餅,是因爲兩者的上下文背景很相似。

ActivityNet數據集效果:
在這裏插入圖片描述

ActivityNet數據集的效果並不是很好,作者給出的解釋是:
THUMOS14 is a better dataset for evaluating action localization than ActivityNet, as the former has more action instances per video and each video contains a larger portion of background activity: on average, the THUMOS14 training set has 15 instances per video and each video has 71% background, while the ActivityNet training set has only 1.5 instances per video and each video has only 36% background.

更多文章請搜索公衆號“StrongerTang”,衆多資料分享,一起學習!

相關閱讀:
Representation Flow for Action Recognition論文解讀
視頻動作檢測最新發展調研(Action Detection)
視頻動作識別調研(Action Recognition)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章