譯:Two-Stream Convolutional Networks for Action Recognition in Videos

摘要:我們研究了用於訓練視頻中行爲識別的深度卷積網絡架構。這個挑戰是捕捉靜態幀中的外觀和連續幀間的運動的互補信息。我們也旨在推廣這個在數據驅動的學習框架中表現得最好的手工特徵。

本文一共做出了3個貢獻:

  • 首先,本文提出了一個two-stream卷積網絡架構,這個架構由時間和空間網絡構成。
  • 然後,我們驗證了,儘管是有限的訓練數據集,在多幀密集光流上訓練的卷積網絡仍然能夠表現出很好的性能。
  • 最後,我們展示出,應用於兩個不同的動作分類數據集的多任務學習,可以同時用來增加訓練數據集的數量和提高性能。
    我們的架構是在標準視頻動作數據集UCF-101和HMDB-51上訓練的,與最先進水平(state of the art)相比還是有競爭力的。它也超出了先前大部分使用深度網絡對視頻進行分類的方法。

1、介紹

基於視頻的人體動作識別是一項具有挑戰性的任務,在學術界受到越來越多的關注[11,14,17,26]。與靜態的圖像分類相比,視頻中的時間成分爲識別提供了一個額外的(且是重要的)線索,因爲一些行爲是基於運動信息才能夠被可靠地識別出來的。此外,對於單個圖像(視頻幀)分類,視頻提供了自然的數據增強(抖動)。

在這項工作中,我們旨在擴展深度卷積神經網絡[19](這對於靜態圖像的表徵是最先進的方法[15])到視頻數據中的行爲分類上。這個任務最近得到了解決[14],我們通過將堆疊的視頻幀作爲輸入傳入網絡中,但是結果明顯地比最好的手工製作的特徵要差得多[20,26]。 我們研究了一個不同的架構,基於兩個分開的識別流(時間和空間),最後通過融合將它們結合在一起。空間流從靜態的視頻幀中執行行爲識別,同時時間流從密集光流形式的運動中訓練以識別行爲。 兩個流都是用卷積網絡來實現的。去耦合時空網絡允許我們開發大量的已註釋圖像數據的可用性,這些數據是通過空間網絡在ImageNet數據集上預訓練出來的。我們提出的架構與two-streams假設有關,根據該假設,人類視覺皮質包含兩條路徑:腹側流(識別目標)和背側流(識別運動),儘管我們在這裏沒有進一步研究這種聯繫。

本文的其他部分組織如下:在1.1部分,我們回顧了有關使用淺層的、深層的架構的行爲識別的相關工作。在第2部分,我們介紹了two-stream架構,並且詳細介紹了空間卷積網絡。在第3部分,介紹了時間卷積網絡,特別是它如何概括了1.1節中所述的先前架構。在第4部分,提出多任務學習框架,使得多個數據集上的訓練數據可以容易的組合。實現細節在第5部分給出。在第6部分進行評估,並與最先進水平進行了比較。我們在兩個挑戰性的數據集(UCF-101和HMDB-51數據集)上的實驗表明兩個識別流是互補的,並且我們的深度架構比Large-scale video classification with convolutional neural networks[14]這篇論文做的要好,並且儘管是在相對較小的數據集上訓練,我們的深度架構與淺層表示[20,21,26]的最先進水平相比也是有競爭力的。

1.1 相關工作

視頻識別研究很大程度上由圖像識別方法的提高驅動着,這些方法經常應用或擴展於處理視頻數據上。很多視頻行爲識別的方法是基於局部時空特徵的淺層、高維編碼的。例如,Learning realistic human actions from movies[17]這篇論文提出的算法在檢測稀疏時空興趣點,可以描述爲使用了局部時空特徵:方向梯度直方圖(HOG)和光流直方圖(FOG)。然後這些特徵被編碼爲Bag Of Features (BoF)表示,它彙集在了幾個時空特徵網格上(類似於空間金字塔池化),並且結合了SVM分類器。在一項最近的研究工作中表明[28],局部特徵的密集採樣要比稀疏興趣點表現的要好。

(這一段介紹淺層表示) 最先進水平的淺層視頻表徵[20,21,26]利用了密集點軌跡,而不是在時空立方體上計算局部視頻特徵,。這個方法第一次提出是在Instead of computing local video features over spatio-temporal cuboids[29]這篇論文中,這個方法調整了局部描述符支持域,他們使用了通過光流來計算的密集軌跡。基於軌跡方法的最好性能是由Motion Boundary Histogram (MBH)[8]實現的,這是一個基於梯度的特徵,在光流的水平和豎直方向上分開計算。幾個特徵的結合表現出可以進一步提高性能。基於軌跡的手工特徵最近的改進包括,全局攝像機動作補償[10,16,26],和使用Fisher vector[22](in [26])編碼或者是更深的變體[23](in [21])。

(這一段介紹深度架構) 也有很多方法嘗試從深度架構上進行視頻識別。這些工作的大多數,網絡的輸入都是一堆連續的視頻幀,因此,這些模型被期望能夠在第一層學到隱含的時空獨立動作特徵,這是一個困難的任務。在A biologically inspired system for action recognition[11]這篇論文中,提出了一種用於視頻識別的HMAX架構,在第一層使用了預定義的時空濾波器(filter)。然後,在HMDB: A large video database for human motion recognition[16]這篇論文中,將其與空間HMAX結合,形成空間(類似於腹側)和時間(類似於背側)識別流。然而,這與我們的工作不同,它的流是手工製作實現的,而且是淺層(3層)HMAX模型。在另外3篇論文中[4,18,25],一個卷積的RBM和ISA被用來無監督地學習時空特徵,然後把它推入一個判別模型來進行行爲分類。用於視頻的卷積網絡的端到端學習模型已經在論文3D convolutional neural networks for human action recognition[12]中實現,並且最近在論文Large-scale video classification with convolutional neural networks[14]中,比較了幾個用於行爲識別的卷積網絡架構。訓練是在一個非常大的Sports-1M數據集上實現的,它包含了100多萬的YouTube的行爲類別的視頻。有趣的是,在這篇論文[14]中發現,一個在單個視頻幀上運行的網絡,與輸入是一堆視頻幀的網絡的性能類似。這可能表明,學習到的時空特徵沒有很好的捕捉到行爲信息。其學到的表示,在UCF-101數據集上微調後,與原先手工製作的最先進水平的基於軌跡的表示比較,其正確率降低了20%[20,27]。我們的時間流卷積網絡在多幀密集光流上運行,其通過解決位移場(特別是多個圖像尺度)在一個能量最小化的框架中進行計算。我們使用了High accuracy optical flow estimation based on a theory for warping[2]中流行的方法,它根據強度及其梯度的恆定性假設以及位移場的平滑度來表達能量。最近,DeepFlow: Large displacement optical flow with deep matching[30]論文提出了一個圖像塊匹配方案,這使人聯想到深度卷積網絡,但不包括學習。

2、用於視頻識別的Two-stream架構

視頻很自然的被拆解爲空間和時間部分。在空間部分,以單個幀的外觀形式,傳遞了視頻描繪的場景和目標信息。在時間部分,以多幀的運動形式,傳遞了觀察者(攝像機)和目標者的運動。我們因此來設計視頻識別架構,如圖1所示,將其分爲兩個流。每一個流都由一個深度卷積網絡來實現,最後它們通過softmax進行融合。我們考慮了兩種融合方法:一個是求平均; 另一個則是在多分類線性SVM上訓練,使用L2正則化的softmax計算得分。

空間流卷積網絡在單個視頻幀上執行,能有效地在靜止圖像中進行動作識別。其自身靜態外表是一個很有用的線索,因爲一些動作很明顯地與特定的目標有聯繫。事實上,如第6部分所述,靜態幀(空間識別流)的動作識別相對其自身是有競爭力的。由於空間流卷積網絡本質上是一個圖像分類架構,我們可以依賴於最近的ImageNet classification with deep convolutional neural networks[15]論文中提出的大型圖像識別方法,在大型圖像分類數據集上預訓練網絡。細節在第5部分給出,接下來我們描述一個時間流卷積網絡,其開發了運動信息,明顯地提高了準確率。

3、光流卷積網絡

在這一部分,我們描述一個卷積網絡模型,它行成了我們提出的two-stream架構(見第二部分)中的時間識別流。不同於1.1中回顧的卷積網絡模型,我們模型的輸入是幾個相鄰幀之間疊加的光流位移場。這樣的輸入準確地描述了視頻幀之間的運動信息,這使得識別更加容易,並且網絡不需要估計隱式的運動。我們考慮了幾個基於光流輸入的變體,如下描述所示。


圖2:光流

  • (a)(b):一對連續視頻幀,用青色矩陣畫出移動手的區域。
  • ©:在大部分區域的密集光流的特寫。
  • (d):位移矢量場(強度高相當於正值,強度低相當於負值)的水平分量dx。
  • (e):垂直分量dy。
    注意d和e是如何突出移動的手和彎腰的。卷積網絡的輸入包含了多個流(見3.1部分)。

3.1 卷積網絡的輸入配置

光流疊加。 一個密集光流可以看作是在連續的幀t和幀t+1之間的一組位移矢量場dt。我們用dt(u,v)表示在幀t的位置(u,v)的位移矢量,它表示移動到下一個幀t+1相對應的點。矢量場的水平和垂直部分分別是dtx和dty,可以視爲圖像的通道(如圖2所示),十分適合使用卷積網絡來識別。爲了表示一系列幀之間的運動,我們疊加了L個連續幀的光流通道dtx和dty,形成了2L長度的輸入通道。更正式的說,設定w和h是視頻的寬和高,對於任意幀τ,卷積網絡輸入容量:

對於任意點(u.v),通道通過一系列L幀(如圖3左圖所示),編碼了這個點的動作信息。

軌跡疊加。 受軌跡描述子的啓發,另一個可供選擇的運動表示代替了光流疊加,沿着運動軌跡,在幾個幀的相同位置採樣。在這個情形下,與幀τ對應的輸入容量Iτ,採取下列形式:

其中pk是沿着軌跡的第k個點,開始於幀τ的(u,v)位置,並且用以下遞歸方式定義:

比較於輸入容量表示(1),其通道Ιτ(u,v,c)存儲了(u,v)位置的位移矢量,而在輸入容量(2)中,則存儲了沿着軌跡(如圖3右圖所示)在位置pk抽樣的矢量。

圖3: 卷積網絡從多幀光流中的輸入。左:光流疊加在連續多幀的同一個位置的採樣位置矢量。右:軌跡疊加沿着軌跡採樣矢量。幀和與之相對應的位移矢量都用相同的顏色表示。

雙向光流。 光流表示1和2處理了前向光流,也就是幀t的位移場dt指定了在下一幀t+1處像素的位置。自然地擴展到雙向光流,通過在相反的位置計算一個額外的位移場集合來獲得。我們接着構建了輸入容量Ιτ,通過疊加幀τ到幀τ+L/2之間共L/2個前向流和幀τ-L/2到幀τ至今的L/2個後向流。輸入Ιτ因此與之前的通道(2L)有相同的數量。光流可以使用方法1和方法2中其中任一個來表示。

減去平均光流。 這有利於處理中心爲0的網絡輸入,允許模型更好的處理糾正非線性。在我們的案例中,位移矢量場分量可以同時具有正值和負值,自然地集中在各種各樣的運動中,一個方向上的運動很有可能是相反位置上的運動。然而,對於給定的幀對,它們之間的光流可以由特定的位移來控制,例如,通過攝像機的移動。攝像機運動補償的重要性已經在先前的論文中明顯地提出過,從密集光流中估計並減去全局運動分量。在我們的案例中,我們考慮一個更簡單的方法:在每一個位移場d中都減去它的均值矢量。

架構。 上我們描述了不同的方法來結合多種光流位移場到單個容量 。考慮到卷積網絡要求固定尺寸的輸入,我們從Ιτ中採樣了224x224x2L個副容量,並將其傳遞給網絡作爲輸入。隱藏層的配置大部分保留了空間卷積中使用的配置,如圖1所示。測試也類似於空間卷積網絡,細節在第5部分給出。

3.2 時間卷積網絡架構與先前表示的關係

在這一部分,我們將我們的時間卷積網絡架構放在1.1部分回顧的先前技術的環境下,描述出視頻表示的聯繫。基於特徵編碼的方法結合了幾個時空局部特徵。這種特徵是通過光流計算的,並由我們的時間卷積網絡來推廣。事實上,HOF和MBH局部描述子是基於光流方向或者梯度的直方圖,可以通過位移場的輸出由單個卷積層(包含對方向敏感的濾波器)來獲得,接下來是正則化和池化層。運動學上的特徵(散度、旋度和裁剪)也可以通過光流梯度來計算,同樣,也可以通過卷積模型來捕獲。最後,軌跡特徵通過疊加沿着軌跡的位移矢量計算獲得,相當於軌跡疊加。在3.3部分,我們可視化了從時間網絡第一層學到的卷積濾波器。這提供了進一步的證據,我們的表示可以泛化到手動製作的特徵。

就深度網絡而言,HMDB: A large video database for human motion recognition[16]論文中一個two-stream視頻識別架構包含了兩個HMAX模型,這是手工製作的,並且比我們的判別式訓練模型的深度要淺一點。這可以看多是HMAX一個可學習的泛化。另外兩篇論文中[12,14],並沒有分離時間和空間識別流,依賴於從數據中學到的對動作敏感的濾波器。在我們的案例中,動作明確的使用光流位移場來表示,基於亮度不變性的假設和光的平滑性來計算的。這種假設合併到卷積網絡框架中,能夠促進端到端基於方法的卷積網絡的性能,這是未來研究一個有趣的方向。

4、多任務學習

不同於空間流卷積網絡,它可以在大量靜止圖像數據集(例如ImageNet數據集)上進行預訓練,時間卷積網絡需要在視頻數據集上訓練,對於視頻動作識別可用的數據集非常少。在我們的實驗(第6部分)中,在UCF-101和HMDB-51數據集上訓練,分別有9500和3700個視頻。爲了減少過擬合,考慮將兩個數據集結合成一個,然而並不是直接地在類別之間取交集。一個選項(在我們稍後驗證時)是從類別中添加沒有出現在原始數據集的圖像。然而,這要求對每個類別進行人工檢索,並且限制了可訓練數據的數量。

一個更強的結合數據集的方法是基於多任務學習。它旨在學習一個(視頻)表示,不僅可以應用於這個問題(例如HMDB-51分類),也適用於其他任務(如UCF-101分類)。額外的任務,例如正則化,也考慮到了開發額外的訓練數據。在我們的案例中,卷積網絡架構進行了修改,在最後一層全連接層的前面有兩個softmax分類層,一個softmax計算HMDB-51分類的分數,另一個計算UCF-101的分數。每一層都配有自己的損失函數,只在各自數據集的視頻數據上操作。總體的訓練損失由單個任務的損失和計算得出,通過後向傳播計算網絡權重。

5、實現細節

卷積網絡配置。 我們的空間和時間卷積網絡的每一層配置如圖1所示。它相當於Return of the devil in the details: Delving deep into convolutional nets[3]論文中的CNN-M-2048架構,類似於Visualizing and understanding convolutional networks[31]論文中的網絡。隱藏層使用了RELU激勵函數;池化層使用最大池化,窗口爲3X3,步長爲2;局部反應歸一化使用如ImageNet classification with deep convolutional neural networks[15]論文中的設置。在空間和時間卷積網絡中唯一不同的配置是我們去除了時間網絡中第二次歸一化,以便減少內存消耗。

訓練。 訓練流程可以視爲是對ImageNet classification with deep convolutional neural networks[15]相對於視頻幀的一個改動,並且對時間和空間網絡都是相同的。使用mini-batch隨機梯度下降(其動量爲0.9)學習網絡權重。在每個迭代中,一個mini-batch含有256個樣本,通過採樣256個訓練視頻(對每個類別都一致)獲得,其中的單個幀都是隨機選擇的。在空間網絡訓練時,從選擇的幀中隨機截取224x224的子圖;然後對其進行隨機水平翻轉和RGB抖動。視頻事先經過調整,因此幀最小的邊等於256。我們與ImageNet classification with deep convolutional neural networks不同,子圖是從整個幀中採樣的,而不是選取了256x256的中心。在時間網絡訓練時,我們對在第3部分描述的每一個選擇的訓練幀,計算了光流容量Ι。從這個容量中,隨機裁剪和翻轉一個固定尺寸224x224x2L的輸入。學習速率初始化爲0.01,然後根據固定的順序減少,在所有的訓練集上都保持相同。也就是說,當從頭訓練一個卷積網絡時,在5萬次迭代後速率給變爲0.001,在7萬次迭代後速率變爲0.0001,最終在8萬次迭代後訓練停止。在微調階段,在14000次迭代後速率變爲0.001,在2萬次迭代後訓練停止。

測試。 在測試時,對於給定視頻,我們採樣了固定數量(在我們的實驗中是25)的幀,這些幀之間有相同的實際間距。對於其中的每個幀,通過裁剪和翻轉幀的四個角和中心,我們獲得了卷積網絡的10個輸入。對於整個視頻的類別分數,通過計算每個幀和翻轉後的幀的分數平均來得到。
在ImageNet ILSVRC-2012上預訓練。當預訓練空間卷積網絡時,我們使用與向前描述同樣的數據增加方式(裁剪、翻轉、RGB抖動)。在ILSVRC-2012驗證數據集上獲得了13.5%的top5誤差,在Visualizing and understanding convolutional networks[31]論文中類似的網絡得到了16%的誤差。我們相信改進的主要原因是卷積網絡的採樣輸入是來自於整個圖像,而不只是圖像的中心。

多GPU訓練。 我們是在公共工具CAFFE上實現的,但是包含了一些重大的修改,包括在多個GPU上平行訓練,而不是在一個系統下訓練。我們利用數據平行性,將每個SGD批處理爲多個GPU。訓練單個時間卷積網絡,在一個有4個NVIDIA顯卡的系統上要花費1天,這比單GPU的訓練快了3.2倍。
光流。 使用opencv工具中現成的GPU來實現計算[2]。儘管計算時間很快(每對幀0.06秒),但在實際運行時仍然是一個瓶頸,因此我們 在訓練前提前計算了光流。 爲了避免以浮點數存儲位移場,光流的水平和垂直分量線性擴展到[0,255]的範圍,並使用了JPEG進行了壓縮(在解壓後,光流恢復爲原先的範圍)。這將UCF-101數據集光流的大小從1.5TB減少到了27GB。

6、驗證

數據集和驗證協議。 驗證是在UCF-101[24]和HMDB-51[16]的動作識別benchmarks進行的,它們是最大的可用帶註釋的視頻數據集。UCF-101包含了13000個視頻(每個視頻平均有180幀),被分爲101個類別。HMDB-51數據集包含了6800個視頻,共51個類別。兩個數據集的驗證協議是相同的:組織者將數據集分成了3個分片,訓練數據、測試數據和計算平均分類正確度的性能的分片。每一個UCF-101分片都包含了9500個訓練視頻;一個HMDB-51分片包含3700個訓練視頻。我們開始在UCF-101數據集的第一個分片上比較了不同的架構。對於與先進水平的比較,我們遵循標準的驗證協議,各自在UCF-101和HMDB-51的3個分片上計算了平均準確度。

空間卷積網絡。 首先,我們測量了空間流卷積網絡的準確性。考慮以下3個情境:(1)在UCF-101數據集上從頭訓練。(2)在ILSVRC-2012預訓練後,在UCF-101上進行微調。(3)保持預訓練網絡固定,只訓練最後一層(分類)。對於每一個設置,我們都通過dropout正則化率0.5到0.9進行了實驗。結果展現在表1(a)中,很明顯,單獨的在UCF-101數據集上訓練導致了過擬合(即使是很高的dropout),並且要差於在ILSVRC-2012數據集上的預訓練。有趣的是,對整個網絡的微調要比只訓練最後一層稍微好那麼一點。在下面的實驗中,我們選擇只訓練預訓練卷積網絡前的最後一層。

**時間卷積網絡。 ** 已經驗證了空間卷積網絡的變體,我們現在轉向時間網絡架構,評定了如3.1部分描述的輸入配置的影響。特別地,我們計算了這些效果:使用多個(L={5,10})疊加光流;軌跡疊加;平均位移差;使用雙向光流。架構在UCF-101數據集上從頭訓練,因此我們使用了dropout正則化率0.9來提高泛化能力,結果在表1(b)中顯示。首先,我們可以推斷,在輸入中疊加多個(L>1)位移場是非常有效的,它提供給網絡長遠的動作信息,比一個幀對(L=1)的光流更有區別性。輸入流的數量從5提高到10導致了一個較小的提高,因此我們在接下來的實驗中將L固定爲10。第二,我們發現平均消去是有用的,它減少了幀間的全局動作的影響, 我們在接下來的實驗中默認使用。不同疊加技術上的區別是較小的;結果是光流疊加比軌跡疊加的效果要好,使用雙向光流要比使用單向前向光流好一點點。最後,我們注意到,時間卷積網絡要比空間卷積網絡(表1a)表現的要好,這確認了在動作識別中運動信息的重要性。

我們也實現了慢融合架構,這相當於運用了一組RGB幀到卷積網絡中(在我們的實驗中是11幀)。當從頭訓練UCF-101數據集時,實現了56.4%的準確率,這比從頭訓練單幀架構要好(52.3%),這與在光流上從頭訓練要差的遠。這展示了多幀信息的重要性,同樣重要的是以一種合理的方式呈現給卷積網絡。
時間卷積網絡的多任務學習。 由於訓練集較小,在UCF-101數據集上訓練時間卷積網絡是比較有挑戰性的。一個更大的挑戰是在HMDB-51數據集上訓練卷積網絡,每個訓練片比UCF-101小了2.6倍。這裏,我們驗證了不同的選項,來有效地提高HMDB-51訓練集的大小:(1)在UCF-101預訓練後微調一個時間網絡;(2)從UCF-101中添加78個類別,通過手工篩選,因此與原先的HMDB-51類別沒有交集;(3)使用多任務規劃(第4部分所述)來學習視頻表示,在UCF-101和HMDB-51分類任務上共享。結果展示在表2中。正如期待的,使用全部的(所有分片結合)UCF-101數據來訓練(不管是借用圖像還是隱式地預訓練)是有用的。多任務學習表現的最好,因爲它允許訓練過程中採用了所有可用的訓練數據。

我們也在UCF-101數據集上進行了多任務訓練,通過在所有的HMDB-51數據(所有的分片結合)和UCF-101數據上(單個分片)訓練分類。在UCF-101的第一個分片上,準確率爲81.5%,之前同樣的設置實現了81.0%,但是沒有額外的HMDB分類任務(表1b)。
Two-stream卷積網絡。 這裏我們驗證了完整的two-stream模型,其結合了兩個識別流。結合網絡的一個方法是,在兩種網絡的6層或7層後,訓練一個全連接層共同的疊加。然而在我們的情境下這樣是不可行的,會導致過擬合。因此,我們融合了softmax分數,使用或平均了一個線性SVM。從表3中我們可以得出結論: (1)時間和空間識別流是互補的,他們的融合明顯的提高了彼此(時間網絡上提高了6%,空間網絡上提高了14%)。(2)基於SVM的softmax計分融合要比平均融合做的要好。(3)使用雙向流對於卷積網絡的情況沒有益處。(4)使用多任務訓練的時間卷積網絡要比單獨或者是融合一個空間網絡的性能都要好。

與最先進水平的對比。 通過在UCF-101和HMDB-51的3個分片上進行了與最先進水平的比較,總結了實驗的驗證。我們使用了一個在ILSVRC預訓練的空間網絡,其最後一層是在UCF或HMDB上訓練的。時間網絡是在UCF或HMDB上使用多任務訓練的,輸入是使用平均消去的單向光流疊加計算的。兩個網絡的softmax分數會使用平均或者SVM來計算。在表4中可以看到,我們單獨的的空間和時間網絡都比另外兩篇論文中的深度網絡要大幅度提高很多。兩個網絡的結合進一步提高了結果(與上面在單個分片上的結果一致),堪比最近最先進水平的手工製作模型。

7、結論和改進方向

我們提出一個深度視頻識別模型,其性能具有競爭性,它分別由基於卷積網絡的時間和空間識別流組成。目前,在光流上訓練時間卷積網絡要比在原始連續幀上訓練要好的多。後者或許更具有挑戰性,或許要求架構改變(比如,與DeepFlow: Large displacement optical flow with deep matching[14]論文的深度匹配方法結合)。儘管使用光流作爲輸入,我們的時間模型並不需要大量的手工製作,因爲光流可以使用基於通用的不變性假設和平滑性來計算得到。

正如我們所展示的,額外的訓練數據對我們的時間卷積網絡是有益的,因此我們計劃在大型數據集上訓練它,例如Large-scale video classification with convolutional neural networks[14]論文最近收集的數據集。然而,由於這是一個龐大的數據集(TB以上)所以是一個巨大的挑戰。

我們的網絡仍然錯過了一些最先進水平的淺層表示的有用材料[26]。最突出的一個就是,以軌跡爲中心,在時空管道上的局部特徵池化。即使是輸入(2)沿着軌跡捕捉了光流,在我們的網絡中空間池化並沒有將軌跡考慮在內。另一個潛在的改進可能是攝像機運動的明確處理,在我們的實驗中使用了平均位移消去法進行了補償。

轉自:https://blog.csdn.net/MemoryHeroLi/article/details/82852367

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章