【論文翻譯】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

pdf鏈接:https://openreview.net/pdf?id=B1lKS2AqtX

EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

3DLSTM:一種用於視頻預測和超越的模型

摘要:

時空預測學習雖然長期以來被認爲是一種很有前途的自監督特徵學習方法,但在未來的視頻預測之外卻很少顯示出它的有效性。原因是短期框架依賴關係和長期高層關係很難很好地表達出來。我們提出了一個新的模型Eidetic 3d lstm(E3d-lstm),它集成了三維卷積。進入RNNs。封裝的3D-Conv使RNN的局部感知器具有運動感知能力,並使存儲單元能夠存儲更好的短期特徵。對於長期的關係,我們通過一個柵極控制的自關注模塊使當前的存儲器狀態與它的歷史記錄進行交互。我們描述了這種記憶轉換機制,因爲它能夠有效地跨多個時間戳回憶存儲的內存,即使在長時間的擾動之後也是如此。我們首先評估了基於廣泛使用的未來視頻預測數據集的E3D-LSTM網絡,並實現了最新的性能。然後,我們發現e3d-lstm網絡在早期的活動識別方面也表現良好,可以推斷出在只觀察有限幀視頻後發生了什麼或將要發生什麼。此任務對齊在建模動作意圖和趨勢方面進行視頻預測。 

1.介紹

時空預測學習的一個基本問題是如何有效地學習用於視頻推理或推理的良好表示。目前,遞歸神經網絡(Rnn)仍然是這一領域最有前途的模型,並在一些未來的視頻預測基準上取得了最新的成果。(Wang et al., 2018b; Oliu et al., 2018).然而,除了幀預測之外,基於RNN的模型在學習高級視頻表示或捕獲長期關係方面不太有效。另一方面,最近的研究證明了這一點。t-三維卷積神經網絡(3D-CNNs)在學習更好的動作分類表示法方面優於RNNs。(Carreira & Zisserman, 2017; Tran et al., 2015).例如,3D-CNN的變體,如膨脹的3D-CNN,大大提高了UCF 101和動力學數據集的行動分類精度。這些3D-CNN架構沒有重複的結構,而是採用3D卷積(3D-CONV)和3D合併操作來保存將是O的輸入序列的時間信息。在經典的2D卷積運算中被丟棄。

基於3D-CNNs的最近成功,本文提出了一種基於遞歸建模(時間依賴)和前饋3D-C的時空預測學習模型。ONV建模(用於局部動力學)。當然,一種看似合理的方法是簡單地將3D-Conv和每個RNN單元以前饋的方式堆疊起來,使用3D-Conv來感知原始視頻中的細粒度特徵,或者結合高級別的特徵表示。然而,正如我們的實驗所示,這些簡單的擴展可能不能超過基線RNN模型。 我們將這些發現歸因於rnn和3d-cnn代表了兩種非常不同的機制,用於相同的時空建模目的,而將它們直接連接起來並不能利用它們的優點。精神優勢。因此,它仍然具有挑戰性,需要有原則的方法來設計有效的時空網絡。

爲此,我們提出了一種新的時空預測學習模型&Eidetic3D LSTM(E3D-LSTM)。我們引入了一個Eidetic 3D 存儲器:a)在一個短暫的時空體積中記憶局部的外觀和運動,和b)通過學習關注之前的存儲狀態來回憶長期的歷史背景。就短期相關性而言,在許多情況下,時空預測建模主要依賴於時間上的臨近現象和正在進行的短期運動。所有的信息都用一個短的時間卷積窗口被封裝到一個完整的3D存儲單元中,並用於遞歸轉換。實驗結果表明,將3d-conv深度集成到rnn中可以有效地對局部表示進行連續建模。另一方面,對於預測非平穩或週期性視頻以及學習高級視頻表示非常重要的長期交互,我們利用了自關注。經修訂的遞歸門控制以回憶時間上遙遠的存儲器的機制。學習E3D-LSTM的當前記憶狀態來關注所有以前的相關時刻。實驗結果表明,這種注意機制有利於長期記憶.我們描述這種存儲器轉換機制,因爲即使在長時間的干擾之後,它能夠有效地在多個時間戳上調用所存儲的存儲器。

據我們所知,提出的E3D-LSTM模型是第一批在RNN中利用3D-Conv的方法之一。我們根據標準時空預測任務和在四個基準上的早期活動識別任務對其進行經驗驗證:a)在未來的視頻預測中,它在三個經典基準上實現了最佳公佈的精度;b)關於早期活動識別,它優於現有技術的動作識別方法。此外,我們還表明,自我監督學習能夠進一步改善早期活動識別的性能。我們進行了消融研究,以驗證PR中所有模塊的有效性選擇E3D-LSTM模型。

2.相關工作和問題背景

時空預測學習模型。近年來,RNNs在序列預測和未來幀預測中得到了廣泛的應用。斯里瓦斯塔瓦等人(2015年)將基於LSTM的序列擴展爲序列模型(Sutskever等人,2014年))用於學習視頻表示的語言建模。史等人(2015)在高維序列預測中,將卷積積分到循環狀態轉換中,提出了卷積LSTM。Finn等(2016)擴展了卷積LSTM模型,以預測機器人環境的未來狀態。.Vilgas等人(2017年)利用光學流程幫助捕獲視頻預測的短期視頻動態。...徐等人(2018)提出了一種兩流rnn,用於處理不同流中的結構化視頻內容。Kalchbrenner等人(2017)引入了一個複雜的模型,該模型擴展了遞歸結構,以估計相鄰像素之間的局部依賴關係。雖然該視頻像素網絡(VPN)模型能夠描述圖像序列,但是計算負載過高。

上述的遞歸模型主要基於序列更新的記憶狀態來預測未來的幀.當內存單元被刷新時,舊的內存將被立即丟棄。相對應AST,提出的E3D-LSTM模型維護了一個歷史內存記錄列表,並在必要時撤銷它們,從而爲遠程視頻推理提供了便利。雖然這種想法在精神上類似於前饋網絡中的自我關注模塊(vaswani等人,2017;wang等人,2018a),但我們利用它將此工作中的長期和短期視頻表示關聯起來。

上述現有工作和所提出的模型之間的另一個顯著差異是,我們使用3D-Convs作爲E3D-LSTM中的基本操作,而不是完全連接或2D卷積操作。我們使用3D-CONVS來模型遞歸狀態-狀態轉換可以顯著提高預測性能。這一想法的動機是視頻分類(高級)的最新進展(Ji et al., 2013; Tran et al., 2015; Carreira & Zisserman, 2017).我們注意到Vondrick等人。(2016年)和Tulyakov等人。(2018)還引入了用於時空預測學習的3D-CNN。然而,這些網絡都是前饋的,不會捕獲時間上的數據。有效的耐性。

不完善模型的未來預測誤差可分爲兩個因素:(A)由於缺乏對確定性變化的建模能力而造成的“系統誤差”;(B)未來的隨機性、固有不確定性。我們的目標是儘量減少這項工作中的第一個因素。對於第二個因素,許多方法已經將對抗性訓練或變分自動編碼器應用於視頻預測,例如(Mathieu et al., 2016; Vondrick et al., 2016; Denton & Fergus, 2018; Bhattacharjee & Das, 2017; Tulyakov et al., 2018; Lu et al., 2017; Wichers et al., 2018).

圖1:將3D-Conv集成到遞歸網絡中的三種方法。藍色箭頭表示具有3D-Conv(用於前饋功能或遞歸隱藏狀態)的數據轉換路徑。圖解簡化用於說明,層和RNN狀態少於我們實驗中實際使用的層和RNN狀態。當被訓練用於將來的視頻預測時,所述分類器被移除。 

卷積遞歸網絡。我們的模型與卷積遞歸網絡密切相關。在ConvLSTM網絡(Shii等人,2015)中,所有的狀態轉換都是用2D卷積實現的。因此,轉換函數不再是置換不變的,並且能夠更好地感知時空鄰域中的關係。時空LSTM(ST-LSTM)的特徵在於分別傳送兩個存儲器狀態(Wang等,2017):內存M在一個曲折的方向,而內存C是水平傳遞的(詳見附錄A)。在該模型中,M提供了更大的短期運動建模能力,並從完全連通的lstms(hochreiter&schmidhuber,1997)中採用C來緩解消失梯度問題。儘管ST-LSTM在視頻預測基準上執行得很好,但它不能有效地捕獲長期的視頻關係。內存C的遺忘門傾向於對短期特性作出強烈響應,從而很容易陷入飽和區域(值介於0到0.1之間),並中斷遠程信息流。.我們在ST-LSTM上採用了內存M的Z字形更新路由,同時提高了更新時間內存C的遺忘機制,同時也增加了內存狀態的大小,3D-Conv作爲狀態轉換的基本運算符。

3.三維LSTM

本節首先介紹Eidetic3D LSTM,用於感知和記憶視頻中的短期和長期表示。然後,我們討論了一種調度的多任務學習策略,該策略使用預測學習作爲活動識別的輔助自我監督任務。

3.1遞歸網絡中的3D卷積

一個理想的預測模型依賴於對視頻表示的有效學習。RNNS和3D-CNN是不同時空數據建模機制的網絡體系結構.在這項工作中,我們目的在一個統一的體系結構中充分利用每個單元的強度,並從堆疊3D-Conv和RNN單元的兩個看似合理的擴展開始討論。圖1(A)和圖1(B)說明了兩個混合基線網絡,它們在疊加的時空LSTM之前或之後添加了3D-CNN。然而,我們發現,在LSTM單元外集成3D-Conv比基準RNN模型的性能要差得多。爲此,我們建議在LSTM單元內實現3D-CONVS的“更深”集成,以便將卷積特性隨時間引入到循環狀態轉換中。圖1(c)顯示了整體編解碼結構。在該模型中,一個連續的T輸入幀首先由幾層3D-Conv編碼,以獲得高維特徵映射。將3d-conv特徵映射直接輸入到一種新的E3d-lstm中。建立長期時空相互作用模型。最後,通過多個疊加的3D-Conv層對E3D-LSTM隱藏狀態進行解碼,得到預測的視頻幀。對於分類任務,h。IDDEN狀態可以直接用作學習的視頻表示。

3.2特徵記憶轉換

在圖2中示出了所提出的eIFACT3DLSTM的體系結構,其中紅色箭頭指示短期信息流,而藍色箭頭表示長期信息流。有4個輸入:XT,3D-CONV特徵映射來自編碼器或隱藏狀態,來自前一個E3D-LSTM層;HKT1,先前時間戳的隱藏狀態;CKT1,先前時間戳的存儲器狀態;和MK1T,先前描述的先前時空存儲器狀態。

圖2:(a)時空LSTM中的標準存儲器轉變方法和(b)在EISTIC3DLSTM中的關注存儲器轉變方法的比較。紅色箭頭表示短期信息流。藍色箭頭是注意的內存流,這可能使我們的模型能夠捕獲長期的關係。立方體表示高維隱藏狀態和記憶狀態。圓柱體表示高維門。\bigodot是Hadamard的產品。⊗是將矩陣重構成適當的二維形式後的矩陣乘積.

我們使用遞歸3D-CONVS作爲運動感知的感知器,在連續的時空域中提取短期的外觀和局部運動,並將它們存儲在較小的時空體積中。因此,提供了O形和短時運動可以用RT×H×W×C張量編碼,其中每個維分別表示時間深度、空間大小和特徵映射通道數。通過沿時間維膨脹記憶狀態,我們發現所提出的E3D-LSTM更能描述和記憶局部或短期的運動。

爲了捕捉長期幀間的相互作用,我們提出了一種新的記憶回憶機制,從而改善了記憶狀態的循環轉換功能:

其中,σ是乙狀結腸函數,∗是3D-Conv運算,是Hadamard乘積,·是將召回門RT和記憶狀態cktτ:T1重組爲RTHW×C和RτTHW×的矩陣乘積。分別爲C矩陣和τ是沿時間維串聯的內存狀態數。計算中涉及三個術語。首先,它編碼本地視頻外觀和運動,其中它是輸入門,GT是輸入調製門類似於標準的LSTMS。SECORD一個CKT1可被視爲來自先前存儲器狀態的捷徑連接,其捕捉相鄰時間戳之間的短期變化。在此過程中,可訪問的存儲器字段是固定且有限。因此,我們引入了記憶轉換函數的第三個項,根據局部運動和外觀(用xt和HKT 1編碼)來建模長期視頻關係。召回功能是作爲一個注意模塊來實現,用於計算編碼的本地模式與整個內存空間之間的關係。一組參數化的門RT,作爲存儲器訪問指令,控制在歷史存儲器記錄中的何處和什麼。這兩個術語分別設計用於短期和長期-術語視頻建模。我們在統一網絡中通過應用層標準化(BA等,2016)將其集成到其元素-wise和中,以緩解CoVariant遷移並穩定培訓過程,因爲它已在RNN中普遍使用。tt中的超參數τ決定了召回門rt有多少歷史記憶狀態,以涉及更長期的關係,在大多數實驗中,我們採用ck 1:t1作爲inpu。t的召回函數,不修復τ。特別是,我們通過將τ設置爲5來啓用在線識別。

與傳統的內存轉換函數不同,RECALL函數學習時間交互的大小。對於較長的序列,這允許處理包含顯著In-的遙遠狀態。我們的工作部分受到自我關注機制的推動(Lin等人,2017年;Vaswani等人,2017年)。然而,在我們的模型中,注意力機制並不適用於輸出狀態,而是在記憶轉換。它被用來從遙遠的時間戳中喚起過去的記憶,用來記憶和從感知到的東西中提取有用的信息。我們展示了學習注意力比以前的記憶狀態i這對回顧長期的歷史背景是有益的。該存儲器張量被命名爲E3D-LSTM,整個單元稱爲E3D-LSTM。我們還利用同樣的召回方法來關聯。EM1:KT沿垂直內存轉換流程,但結果卻不那麼有幫助。隨着更新的存儲器狀態CKT,輸出隱藏狀態爲:

其中W1、1和1是1個或1個卷積,用於通道數的變換。I0T、G0T和F0T是時空存儲器的柵極結構。OT是輸出門。

3.3自我監督輔助學習

對於諸如視頻動作識別之類的許多監督任務,在訓練令人滿意的RNN的時間上常常沒有足夠的監督或註釋。作爲對這個問題的輔助措施,未來的視頻預測被認爲是一種很有前途的表示學習方法,隨着時間的推移,它會被更密集的監督,並且可能會提取有用的特徵來幫助。

我們考慮兩個任務:像素級的未來幀預測和另一個視頻級別的分類任務(在我們的例子中,早期活動識別)。對於框架預測,目標函數是:

其中Xb和X分別是預測和地面真相未來幀。k·kf是Frobenius範數。對於早期的活動識別,我們使這兩個任務的模型共享相同的網絡b。使用多任務學習目標進行端到端培訓:

其中Yb和Y是高層預測和對應的地面真值表。LCE是分類的交叉熵損失,它是權重因子。

雖然改善這兩個任務需要適當的長期短期上下文表示,但不能保證像素級監督學到的特性將完全與任何高級別相一致。目標。因此,我們引入了一種預定學習策略,其中目標函數在課程學習方式中逐漸從一項任務向另一項任務傾斜(Bengio等人,2009年)。特製在迭代次數I上,我們將線性衰減應用於λ:

當λ(0)和η分別是λ(I)的最大值和最小值時,控制輔助任務角色的下降速度。我們稱這種方法爲自我監督輔助學習.

4.實驗

我們對所提出的E3D-LSTM模型進行了兩方面的評價:未來視頻預測和早期活動識別。這兩個任務對於許多需要有效應用的應用程序來說都是非常重要的。時空預測模型我們證明,E3D-LSTM模型在四個具有挑戰性的數據集上與最先進的模型相比表現良好。源代碼和經過訓練的模型將be向公衆提供。

表1:移動MNIST數據集的結果。除了DFN和VPN之外,所有型號都使用相當數量的參數進行培訓。較高的SSIM或較低的MSE得分表明更好的結果。

4.1未來視頻預測:移動MNIST

我們首先評估E3D-LSTM模型與最先進的視頻預測模型,在一個常用的移動數字合成基準數據集上。所有的實驗都是用張量進行的。Flow(Abadietal.,2016),並接受了ADAM優化器(Kingma&BA,2015)的培訓,以將幀中每個像素的L1+L2損失降至最低。爲了進行公平的比較,我們確保所有模型具有可比性使用相同的計劃抽樣策略(Bengio等人,2015年),以減少重複模型培訓的難度。

數據集和設置。移動MNIST數據集是通過從原始的MNIST數據集中隨機抽取兩位數,使它們在邊界處以恆定的速度和角度在Blac內浮動和反彈而形成的。k張64×64像素的畫布。整個數據集有固定數量的條目,10,000條用於培訓的序列,3,000條用於驗證的序列,5,000條用於測試的序列。

我們在圖1(C)所示的體系結構中堆疊了4個E3D-LSTM,忽略了用於此任務的3D-CNN編碼器。爲了保持隱藏狀態的形狀隨時間的推移,集成的3d-conv算子是協同的。M2由5(時間、高度或寬度)卷積構成,並且具有相同的濾波器尺寸的相應轉置卷積。每個E3D-LSTM的隱藏狀態信道的數目是64。臨時aL步幅設置爲1,並且在連續時間戳上有一個重疊幀。單個3D-Conv層被用作解碼器以將運動感知的隱藏狀態映射到輸出幀。

根據包括ConvlTM網絡(Shi等,2015)、DFN(deBrabandere等,2016)、cDNA(Finn等,2016)、VPN基線模型在內的現有技術方法評估E3D-LSTM模型。與CNN解碼器(Kalchbrenner等人,2017年)、Pred RNN(Wang等人,2017年)、Pred RNN(Wang等人,2018年b)和FRNN(Oliu等人,2018年)合作。

主要結果。表1顯示了使用文獻中常見設置的評估模型的性能:根據前面的10個觀察(表示爲10→10)生成10個未來框架。我們用的是Me結構相似指數測度(Ssim)(Wang等人,2004年)和每幀均方誤差(MSE)用於評價.ssim範圍介於n1和1之間,表示gener之間的相似性。圖像和地面的真相。如表1的第二列(10/10)所示,我們的模型在兩種度量中都很好地克服了現有技術的方法。結果表明,E3D-LSTM網絡在視頻時空數據建模中是有效的預測。圖3(A)顯示了我們的模型比其他方法更好地從糾纏數字預測未來幀的定性比較。

複製測試。當存在反覆干擾時,我們使用複製測試設置來評估該模型,其中任務是在較長的輸入序列中記憶有用的信息。輸入剪輯由三個子序列組成,如圖3(B)所示。而Seq1和Seq2是完全無關的,在它們之前,給出了另一個稱爲先驗上下文的子序列。輸入,與Seq 2完全相同。用黑色箭頭標記的幀是輸入,用紅色箭頭標記的幀是預期的輸出。有兩個訓練目標:(A)預測seq 1的10個未來幀;(B)預測seq 2的10個未來幀。在測試時,我們只對seq 2的預測結果進行評估。ST對遠程視頻幀關係建模能力進行評價。設計良好的模型應該對SEQ2作出精確的預測,因爲它在之前已經看到了該序列的所有幀。霍伊Ver,此任務對於以前的LSTM網絡是困難的。由於SEQ1完全無關,因此進行SEQ1的預測的嘗試可擦除其SEQ2的記憶。

結果列於表1的第三列(副本)中。所有基線模型都受到來自SEQ2的無關幀帶來的影響,並且傾向於逐漸忘記顯著的INFORMATI。在先前的背景下。然而,多虧了獨特的3D內存,我們的E3D-LSTM模型捕捉到了長期的視頻幀交互,並且在這兩個指標上都表現得很好。對ATT的仔細檢查權值顯示,E3D-LSTM模型能夠更好地處理跨多個時間戳的有用的歷史表示。複製測試表明,e3d-lstm網絡具有建模能力。遠距離週期性運動有效。

燒蝕研究 。我們進行一系列消融研究並總結表2中的結果。首先,在前兩行上,我們展示了兩個可供選擇的3D-LSTM模型,其中包括3D-CONVS,位於循環單元之外,包括:底部3D-CNN(圖1(a))和頂部的3D-CNN(圖1(b))。性能下降通過EIFACT3D存儲器驗證3D-CONVS和RNN單元的集成。第二,第三基線方法是將模型中的所有3D卷積濾波器降低到2D的特殊情況。結果證明了在個體R內通過3D存儲器捕捉局部時空模式的效果。eurnat狀態。此外,可以在第四基線方法中分離存儲器關注機制的貢獻。請注意,所有評估的模型都接受了類似數量的參數的培訓爲了進行公平的比較,性能的提高來自於設計選項,而不是增加的模型參數。

4.2未來視頻預測:KTH行動我們評估了所提出的E3D-LSTM模型在真實世界數據集視頻預測中的應用。

數據集和設置。KTH動作數據集(Schuldt等人,2004年)包含執行6種動作的25人,包括步行、慢跑、跑步、拳擊、揮手和拍手。平均每個視頻剪輯持續4秒。我們按照(vilgasetal.,2017)的實驗設置,使用人1-16進行訓練,17-25進行測試。每個幀的大小調整爲128個像素。我們僱用了薩姆EE3D-LSTM網絡體系結構詳見4.1節。對模型進行訓練,以根據前10個觀察結果預測下10個幀。將測試時間的預測水平擴展到20或40,時間戳。

結果。表3顯示了所提出的模型和最先進方法的定量結果.和以前的工作一樣,我們使用ssim和PSNR作爲度量標準。與關於移動MNIST數據酶的觀測結果一致在預測未來10幀、20幀和複製測試的三個設置中,e3D-LSTM模型對現有技術的方法有利地執行。這些經驗結果證明了EF用於建模時空數據的E3D-LSTM模型的可靠性。

圖4比較了有代表性的生成框架。我們選擇具有相對複雜的時空變化的視頻序列(無論是運動軌跡還是人像大小)。

圖4:第k次生成幀的比較。(頂部)基於10個先前觀察結果的下一個40幀的預測。(底部)複製測試,需要複製以前的輸入。

表3:對KTH人類行動試驗裝置不同方法的定量評價。度量是在預測幀上平均的。分數越高,預測結果越好。

上半部分(基於前10幀預測接下來的40幀),E3D-LSTM預測未來更準確的運動軌跡,而Pred RNN和ConvLSTM則錯誤地預測人的運動軌跡。離開現場。下半部分顯示覆制測試,提供預期的輸出作爲先前的輸入。我們直接應用模型,這些模型是在第一個設置下訓練的,用於這個測試。如果沒有先前的上下文,在某些情況下,LD很難預測人體的運動。有了先前的輸入,E3D-LSTM從它的記憶中獲益最大,並且對快速的外觀變化有很好的響應。相反,PredRNN和ConvLS由於缺乏對長期數據關係的建模,TM無法從遠距離觀測中獲取有用的時空模式。 

4.3一個真正的視頻預測應用程序:交通流量預測

我們進一步評估了我們在滑行道BJ數據集中的方法,該數據集包含連續熱映射中的實時流量數據。預測城市交通條件是一個複雜的設置,作爲熱圖。

表4:滑行道BJ數據集的實驗結果。我們在每次郵票上都報告MSE。

數據集和設置。 使用TaxiABS北京的GPS監測器從混亂的真實世界環境中收集滑行器Bj數據集。每個框架均爲32或32或2個熱圖。最後一個維度表示同一區域的進出交通流強度較大。我們將整個數據集分成一個訓練集和一個測試集,如本文(Zhang等人,2017)所述。我們把網絡訓練成從4次觀測中得到T4幀(接下來的2小時)。我們使用與移動MNIST和KTH數據集相同的網絡體系結構和培訓設置。

 圖5:TaxBJ交通流數據集的預測結果。爲了便於比較,我們可視化了生成的熱量圖與它們對應的地面真實熱圖之間的差異。

結果。我們在表4中的每個時間戳報告MSE,其中較低的分數指示更好的預測結果。我們還顯示了圖5中的預測示例。此外,我們還觀察了TH之間的差異e生成的熱圖和地面真熱圖。總體上,E3D-LSTM模型優於其他方法,大多數區域的差異強度最低。

4.4早期活動識別:某物-某物

爲了驗證E3DLSTM模型能夠有效地學習高級視頻表示,我們對早期活動識別進行了實驗。任務是預測vi中的活動類別。只觀察到一小部分幀後,再進行刪除。我們選擇不對活動識別任務的全長視頻進行評估,因爲當模型看到全長視頻時,它可能會做出決策。

數據集和設置。某物-某物數據集(Gyal等,2017)是最近的活動/行動識別基準(https://20bn.com/datasets/something-something)。我們使用標準和官方的子集whiCh包含培訓集的56,769段短片和41個動作類別的驗證集的7,503段視頻。視頻長度範圍爲2到6秒,24fps。我們採用早期活動識別設置(MA等人,2016;Zeng等人,2017;Zhou等人,2018),其中模型預測動作在觀察到每個視頻的前25%或50%幀後鍵入。由於這些動作出現在不同的場景中,並且涉及到與不同對象的交互,所以即使是對人類來說,預測行爲也是很有挑戰性的(參見圖6)。只有細微的差別在這個數據集中的一些操作,例如“在沒有堆棧崩潰的情況下預訂一堆[某物]以便堆棧崩潰”,而“在沒有堆棧崩潰的情況下預訂一堆[某物]”,或者“將[某物]注入[S]。相對於“試圖將[某物]倒進[某物],但卻錯過了,因此它會在它旁邊溢出”。爲了進行正確的預測,模型需要利用時空線索來理解動作之間的細微差異。即,可以評估高級視頻的模型有效性任務。準確地認識早期行動需要對未來框架進行預測,這隻能通過基於歷史觀察的有效模型來實現。

超參數和基線。我們使用圖1(c)所示的體系結構作爲我們的模型,它由2層3D-CNN編碼器、4層E3D-LSTMS和2層3D-CNN解碼器組成。3D-CNN編碼器採用4個缺點在224個原始幀中,將它們編碼爲2,56,56,64個特徵映射在每個時間戳,然後將它們饋送到E3D-LSTM中。每個編碼器層具有64個濾波器(濾波器尺寸爲2個或5個)。5).對於E3D-LSTMS,我們使用與視頻預測相同的超參數.譯碼器層將e3d-lstms的輸出映射回rgb空間,這是一個1×3的矩陣,預測下一個幀如下。輸入。我們訓練網絡以使用視頻的前25%或50%幀來預測下一個10幀。請注意,我們不會在測試時間將任何預測狀態擴展到將來。對於培訓和測試,我們針對最後一個16個輸入時間戳(考慮第一個25%視頻片段通常具有AB)連接頂部重複單元的隱藏表示。(輸出20-30幀),並將它們輸入分類器進行活動識別。該分類器包含2層3D-Conv,共128個濾波器(濾波器尺寸:2×3×3,濾波步長:2×2×2)。其次是2×2×2池層。它們將級聯的遞歸特徵從16×56×56×64轉換爲1×7×7×128。

圖6:早期活動識別結果給出了某物-某某驗證集上的前25%和50%的視頻幀。藍色條形表示正確的分類和紅色。

表5:對某物的41個類別子集的早期活動識別準確性。

然後將它們傳遞到512通道完全連接的層,然後進行41路分類.我們還開發了自監督輔助學習方法,並對該模型進行了目標函數的訓練。在方程4中,我們在方程5到10(i=0)中設置了λ(I),每次迭代速度爲2×10-5,下界爲η=0.1。

我們根據最先進的前饋3d-conv體系結構(diba等人,2016年;carreira&zisserman,2017)、可分離的3d-cnn(謝等人,2018年;q等人,2018年)評估e3d-lstm模型。IU等人,2017年)和(21)D-CNN(Tran等人,2018年)。這些網絡在UCF-101和用於行動識別的動力學基準數據集上取得了最先進的結果。爲了公平的比較,我們使用與E3D-LSTM網絡相似的骨幹訓練這些基線模型。

結果。表5顯示了E3D-LSTM網絡相對於先進的前饋3D-CNN的分類精度.在以下兩個設置中,E3d-lstm模型對其他方法具有良好的性能。使用前25%和50%的幀,顯示了它在學習高級時空表示方面的有效性.圖6示出了容易混淆的兩對視頻活動,特別是具有這樣有限的觀察結果。例如,我們的模型正確地預測了圖書的崩潰,而只有一個時態。這種推理能力來自於我們的模型的集成設計,以捕捉短期運動和長期依賴關係。另一方面,作爲前饋的3d-cnn模型的長期關係。離子通過採樣和組裝,在尋找因果之間的時間依賴性方面表現不佳。我們注意到,Zhou等(2018)推出了一種前饋CNN模型,並在同一數據集中報告了早期識別結果。在ACCU方面比較這兩種方法是不有意義的。作爲我們的模型是訓練僅使用25%-50%的視頻幀,而不是整個視頻(周等人,2018年)。此外,這兩種方法使用不同的骨幹網絡進行訓練,而且不同。數據集的分割。

表6:某物數據集早期活動識別的消融研究。

表7:不同培訓策略對某事物數據集的準確性比較。

一些最近的研究顯示,在3D-CNN模型中分離時間和空間卷積操作導致更好的結果(Xie等,2018;Chu等,2017;Tran等,2018)。該OBS在表5中我們的結果驗證了刪除的有效性。然而,由於這種分離導致了僞三維卷積,在這種卷積中,空間和時間濾波器是獨立的,這似乎違反了直覺。...有趣的是,在我們的模型中,這種分離會導致性能損失,這意味着E3D-LSTM中的三維卷積共同捕獲了時間和空間信息。

燒蝕研究。我們按照第4.1節進行類似的消融研究,並總結表6中的結果。來自前兩行的結果顯示,我們在RNN內部更深地集成了3D-CONV僅用於像素級視頻預測,也適用於高級活動識別。第3行和第4行的結果顯示了在所提出的EIFISTIC3DLSTM:A)3D卷積特徵和B)存儲器注意機制中的兩個重要分量的貢獻。兩個組件均爲U對於時空數據的有效建模具有重要意義。表7顯示了在不同環境下應用自我監督培訓的情況。所提出的自監督輔助學習方法比其他方法有更好的效果,包括使用視頻預測模型作爲網絡初始化,或者在此基礎上對模型進行訓練。具有固定目標函數比的兩個任務。

我們通過使分類器只依賴於最後5個遞歸輸出狀態的級聯來實現在線早期活動識別。使用方程1,我們確定了所注意的內存的長度。通過將其設置爲5來進行調節。此類設置適用於培訓和測試。表8顯示了實驗結果。儘管精度略有下降,但它能夠實現在線預測。

表8:在線早期識別的準確性:分類器建立在最後5個循環輸出狀態上。

5.結論

時空預測學習在各種應用中表現出顯著的改進,例如天氣預報、交通流預測和物理交互仿真。雖然它被認爲是一種很有前途的自監督特徵學習範式,在視頻預測之外很少顯示出它的有效性。本文提出了基於三維卷積的E3D-LSTM模型。執行這項任務的經常性單位。在該模型中,我們將3d-conv集成到狀態轉換中來感知短期運動,並設計了一個由遞歸門控制的記憶注意模塊。捕捉長期視頻幀交互。實驗結果表明,E3D-LSTM模型與現有的視頻預測和早期活動預測方法相比,表現出了良好的效果。認知任務。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章