PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning

       摘要

       我們提出了PredRNN ++,這是一種用於時空預測學習的遞歸網絡爲了獲得強大的短期視頻動態建模能力,我們利用名爲Causal LSTM的新型遞歸結構和級聯雙存儲器,使我們的網絡更加及時。爲了減輕深度預測模型中的梯度傳播困難,我們提出了“Gradient Highway Unit”,該單位爲從輸出返回到遠程先前輸入的梯度流提供了替代的快速路線。The gradient highway可與Causal LSTM無縫協作,從而使我們的模型能夠自適應地捕獲短期和長期視頻依存關係。我們的模型在合成和真實視頻數據集上均實現了最新的預測結果,顯示了其在糾纏運動建模中的強大功能。

1.簡介

       時空預測學習是以自監督的方式(有時稱爲無監督的)從無標籤的視頻數據中學習功能,並使用它們來執行特定的任務這種學習範例已經有益於或可能有益於實際應用,例如降水預測(Shi等,2015; Wang等,2017),交通流量預測(Zhang等,2017; Xu等,2018)和物理相互作用模擬(Lerer等,2016; Finn等)等人,2016年)。

       準確的預測學習方法需要在不同時間範圍內有效地對視頻動態建模。考慮兩種典型情況:i)當突然發生變化時,應在附近的幀而不是遠的幀上生成將來的圖像,這要求預測模型學習短期視頻動態;(ii)場景中運動物體經常發生糾纏,在生成的幀中很難將其分離。這就要求預測模型在發生遮擋之前回想先前的上下文。因此,應該適應性地考慮短期和長期的視頻關係。

1.1 Deep-in-Time Structures消失梯度困境

       爲了捕獲長期的幀依存關係,遞歸神經網絡(RNN)(Rumelhart等,1988; Werbos,1990; Williams&Zipser,1995)最近已應用於視頻預測學習(Ranzato等,2014)。 )。但是,大多數方法(Srivastava等人,2015a; Shi等人,2015; Patraucean等人,2016)遵循傳統的RNN鏈結構,並沒有充分利用網絡深度。儘管理論證據表明,更深的網絡在空間特徵提取(Bianchini和Scarselli,2014)和序列建模(Pascanu等人)中都可以以指數方式更有效,但可以通過簡單的函數對相鄰RNN狀態從一個時間步到下一個時間步之間的轉換進行建模。 。,2013)。我們認爲,Deep-in-Time,即增加從輸入到輸出的重複狀態數,將大大提高其學習短期視頻動態的能力。

       因此,以前的最新模型PredRNN(Wang等人,2017)從一幀到下一幀應用了複雜的非線性過渡函數,在長短期記憶(LSTM)上構建了雙重記憶結構(Hochreiter&Schmidhuber,1997)。不幸的是,這種複雜的結構容易遭受梯度消失的困擾(Bengio等,1994; Pascanu等,2013),即梯度的幅度在反向傳播(BPTT)過程中呈指數衰減。時空預測學習存在一個難題:越來越多的深度網絡已經被設計用於複雜的視頻動態,同時也給梯度傳播帶來了更多的困難因此,如何在深層預測模型中保持穩定的梯度流是值得探索的道路。我們的主要看法在於在RNN狀態或層之間建立自適應連接,從而爲我們的模型同時提供從輸入框架到預期的未來預測的更長的路線和更短的路線。

2.相關工作

       遞歸神經網絡(RNN)廣泛用於視頻預測。 Ranzato等(2014年)構建了RNN模型來預測下一幀。 Srivastava等(2015a)將序列調整爲序列LSTM框架,以進行多幀預測。 Shi等(2015年)擴展了該模型,並通過在循環連接中插入卷積運算來提出了卷積LSTM(ConvLSTM)。 Finn等(2016年)開發了一種行動條件預測模型,該模型可明確預測前一幀中像素運動的分佈。 Lotter等(2017)在ConvLSTM的基礎上建立了預測模型,主要側重於提高下一幀的預測質量。 Villegas等(2017a)提出了一個將信息成分(運動和內容)分成不同編碼器路徑的網絡。 Patraucean等(2016年)預測中間像素流,並將該流應用於預測圖像像素。 Kalchbrenner等(2017)提出了一個結合了門CNN和ConvLSTM結構的複雜模型。它使用成熟但複雜的PixelCNN來一對一估計視頻中的像素值(van den Oord等人,2016),因此嚴重遭受了低預測效率的困擾。 Wang等(2017)提出了一種具有兩個存儲單元的深度過渡RNN,其中時空存儲流經不同RNN層的所有RNN狀態。

       卷積神經網絡(CNN)也參與視頻預測,儘管它們僅創建固定大小輸入的表示形式。Oh等(2015年)爲Atari遊戲預測定義了基於CNN的自動編碼器模型。 De Brabandere等(2016年)使卷積網絡的濾波器操作適應特定的輸入樣本。 Villegas等(2017b)提出了一個由三個階段組成的框架,其中包含附加的帶註釋的人類關節數據,以進行更長的預測。爲了應對未來預測的內在多樣性,Babaeizadeh等人(2018)和Denton&Fergus(2018)探索了視頻預測模型中的隨機變分方法。但是很難評估這些隨機模型的性能。生成對抗網絡(Goodfellow等,2014; Denton等,2015)被用於視頻預測(Mathieu等,2016; Vondrick等,2016; Bhattacharjee&Das,2017; Denton等, 2017; Lu等人,2017; Tulyakov等人,2018)。這些方法試圖通過將所生成圖像的清晰度作爲區分真實/僞造視頻幀的主要特徵來保持其清晰度。但是這些模型的性能很大程度上取決於對不穩定的對抗網絡的仔細訓練。

       總之,現有的視頻預測模型產生不同的缺點。基於CNN的方法可在一遍中預測有限數量的幀他們關注的是空間外觀,而不是長期運動中的時間連貫性。相比之下,基於RNN的方法可通過循環連接捕獲時間動態。然而,他們的預測受到衆所周知的RNN消失梯度問題的困擾,因此特別依賴於最接近的幀。在我們的初步實驗中,很難在生成的未來幀中保存運動對象的形狀,尤其是在它們重疊之後。在本文中,我們通過提出一種新的梯度公路遞歸單元來解決此問題,該單元可吸收以前視頻幀中的知識並有效利用長期信息。

3.重新審視深度架構

       增加RNN深度的一般方法是堆疊多個隱藏層。用於視頻預測的典型堆疊遞歸網絡(Shi等,2015)可以表示爲圖1(a)。循環單元ConvLSTM旨在通過門控結構正確保留和忘記過去的信息,然後將其與當前的空間表示形式融合儘管如此,堆疊式ConvLSTM並沒有爲逐步循環狀態轉換添加額外的建模能力。

(b)深度轉換ConvLSTM網絡

       在我們的初步觀察中,增加ConvLSTM的逐步過渡深度可以顯着提高其針對短期動態的建模能力。如圖所示在圖1(b)中,隱藏狀態H和內存狀態C在鋸齒形方向上進行了更新。水平相鄰狀態之間擴展的遞歸深度使網絡能夠在短時間內學習附近幀的複雜非線性過渡函數。但是,它引入了逐漸消失的梯度問題,因此很難捕獲視頻中的長期相關性。儘管簡化的單元格結構(經常性高速公路)(Zilly等人,2017年)可能在某種程度上緩解了這個問題,但它卻犧牲了時空建模能力,正像前面描述的困境一樣。

       (c)具有時空LSTM(ST-LSTM)的PredRNN中的數據流。 PredRNN的兩個內存並行工作:子圖(c)中的紅線表示空間內存的深層過渡路徑,而水平的黑色箭頭表示時間內存的更新方向。

       基於深度過渡架構,性能良好的預測學習方法PredRNN(Wang等人,2017)在堆疊時空LSTM(ST-LSTM)中的相鄰時間步之間添加了額外的連接,以追求長期連貫性和短期復發深度。圖1(c)說明了其信息流。 PredRNN利用雙重存儲機制,並通過與門的簡單串聯,將水平更新的時間存儲器C與垂直變換的空間存儲器M組合在一起。儘管時空存儲器提供了有利的信息流,但這種並行存儲器結構之後是串聯運算符,並且對於恆定數量的通道使用1×1卷積層,並不是提高重複深度的有效機制。此外,作爲堆疊式遞歸網絡深度過渡網絡的直接組合,PredRNN仍然面臨着與先前模型相同的消失梯度問題。

4. PredRNN ++

       在本節中,我們將對改進的預測遞歸神經網絡(PredRNN ++)進行詳細說明。與上述深度實時循環體系結構相比,我們的方法具有兩個關鍵見解:首先,它提出了一種新的時空存儲機制,即Casul LSTM目的是從一個時間步長到另一個步長增加遞歸深度,並由此意味着,將獲得更強大的建模能力,以實現更強的空間相關性和短期動力學。其次,爲了長期的視頻建模,它試圖解決梯度反向傳播問題。它構建了一條替代的Gradient Highway,這是一條從未來輸出到遙遠輸入的更短路徑。

4.1 Causal LSTM

       圖2。Causal LSTM,即時間空間記憶通過門控結構以級聯方式連接。彩色部分是新設計的操作,同心圓表示連接,σ是元素方面的Sigmoid函數。

       Casual LSTM的靈感來自於這樣一個想法:在週期性的過渡中增加更多的非線性層,增加網絡從一種狀態到另一種狀態的深度。此新循環單元的示意圖如圖2所示。一個Causal LSTM單元包含雙重記憶,時間記憶 和空間記憶 ,其中下標t表示時間步長,而上標表示第k隱藏層在堆疊的Causal LSTM網絡中當前時間記憶直接取決於其先前狀態 ,由遺忘門ft、輸入門it和輸入調製門gt控制。當前的空間內存 依賴於深遷移路徑中的 。對於底層(k = 1),我們將(t−1)處的最上層空間內存分配給 。Causal LSTM與原來的時空LSTM有明顯的不同(Wang et al., 2017),Casual LSTM採用了級聯機制,其中空間記憶是另一組門結構的時間記憶的函數。k層的Causal LSTM更新方程爲:

       *是卷積,⊙是元素方式的乘法,σ是元素方式的Sigmoid函數,方括號表示張量的連接,而圓括號表示方程組。 W1〜5是卷積濾波器,其中W3和W5是1×1卷積濾波器,用於改變濾波器數量。最終輸出 是由雙存儲狀態 共同確定

       由於沿時空過渡路徑的遞歸深度顯着增加,因此這種新設計的級聯記憶優於時空LSTM的簡單串聯結構(Wang等人,2017)。最終生成的幀中的每個像素在每個時間步都將具有較大的輸入量接受域,這爲預測模型提供了針對短期視頻動態變化和突然變化的更大建模能力

       我們還考慮了另一種時空Causal LSTM變體。我們交換兩個存儲器的位置,首先更新 ,然後根據 計算 。在第5節中將對這兩種替代結構進行實驗比較,其中我們將證明與原始的時空LSTM相比,這兩種結構都能帶來更好的視頻預測結果。

 

4.2Gradient Highway

       除了短期的視頻動態特性外,Causal LSTM長期還會遭受梯度反向傳播的困擾。特別地,由於較長的過渡,時間存儲器 可能會忘記過時的幀外觀。這樣的循環架構仍未解決,特別是對於具有周期性運動或頻繁遮擋的視頻。我們需要一條信息高速公路來學習跳幀關係

       理論證據表明,highway layersSrivastava等,2015b)能夠在非常深的前饋網絡中有效地傳遞梯度。我們將此思想運用到遞歸網絡中,以防止長期梯度迅速消失,並提出了一種新的時空遞歸結構,稱爲Gradient Highway UnitGHU,其示意圖如圖3所示。GHU的方程式可以表示如下:

       其中W••表示卷積濾波器。 命名爲Switch Gate因爲它能夠在 轉換後的輸入 和隱藏狀態 之間進行自適應學習。方程2可簡單表示爲

       圖3。最終的架構與梯度公路單位(上)(下),同心圓表示連接的地方, σ是元素方式的Sigmoid函數。藍色部分表示將當前時間步長與之前輸入直接連接的梯度公路,而紅色部分表示深度轉換路徑。

       爲了追求出色的時空建模能力,我們使用Causal LSTM構建了一個更深層次的網絡,然後嘗試使用GHU處理消失的梯度問題。最終的架構如圖3所示。具體來說,我們堆疊LCausal LSTM,並在第1層和第2causal LSTM之間注入GHU。整個模型的關鍵方程式如下(對於3kL

       在這種架構中,the gradient highway與Causal LSTM無縫協作,以分別捕獲長期和短期視頻依存關係使用快速更新的隱藏狀態the gradient highway顯示了從最開始到最後一個時間步的替代快速路線(圖3中的藍線)。但是與時間跳躍連接不同,它通過 控制 的比例和深轉換特徵 ,從而可以自適應地學習長期和短期幀關係

       我們還通過將GHU注入不同的隱藏層插槽(例如,第(L-1)個和Lthcausal LSTM之間)來探索其他體系結構變體。實驗比較將在第5節中給出。上面討論的網絡優於其他網絡,這表明對原始輸入的特徵進行建模而不是在較高層進行抽象表示的重要性。

       在網絡細節方面,我們觀察到隱藏狀態信道的數量,特別是底層的隱藏狀態信道的數量,對最終的預測性能有很大的影響。因此,我們提出了一個5層架構,以追求高預測質量,合理的訓練時間和內存使用量,該架構由4個Causal LSTM組成,分別具有128、64、64、64個通道,以及一個128通道的梯度公路單元。底部Causal LSTM層的頂部。我們還設置了卷積濾波器的大小爲5在所有的遞歸單位。

5.實驗

       爲了衡量我們方法的性能,我們在本文中使用了兩個視頻預測數據集:一個具有移動數字的合成數據集和一個具有人爲動作的真實視頻數據集。有關更多數據集的代碼和結果,請參閱https://github.com/Yunbo426/predrnn-pp

       我們使用TensorFlow(Abadi等人,2016)訓練所有比較的模型,並使用ADAM(Kingma&Ba,2015)優化它們以收斂,起始學習率爲10-3。此外,我們將計劃抽樣策略(Bengio等,2015)應用於所有模型,以彌補訓練和推理之間的差異。至於目標函數,我們使用L1 + L2損失來同時增強所生成幀的清晰度和平滑度。

5.1移動MNIST數據集

       實現 我們首先通過在給定10個先前幀的情況下,預測10個未來幀來遵循移動MNIST數據集上的典型設置。然後,我們將預測時間範圍從10個時間步長擴展到30個時間步長,以探索比較模型在進行遠程預測中的能力。每幀包含2個手寫數字,在64×64的圖像網格內彈跳。爲了確保訓練後的模型在推斷期間從未看到過數字,我們對原始MNIST數據集不同部分的數字進行採樣,以構建訓練集和測試集。數據集的數量是固定的,訓練集爲10,000個序列,驗證集爲3,000個序列,測試集爲5,000個序列。爲了測量泛化和傳遞能力,我們評估了在另外3個數字測試集上用2個移動數字訓練的所有模型。

表1。PredRNN++的結果與其他模型進行了比較。我們報告每幀生成序列的SSIM和MSE。較高的SSIM或較低的MSE表示較高的預測質量。(*)表示由我們或其他人複製的非開源模型。

       結果     爲了評估模型的性能,我們測量了每幀的結構相似性指標測度(SSIM)(Wang等,2004)和均方差(MSE)。 SSIM介於-11之間,得分越高,表示生成的圖像與地面真實圖像之間的相似度越高表1比較了使用這些指標的最新模型。特別是,我們包括VPN模型的基線版本(Kalchbrenner等人,2017),該模型可以一次生成每個幀。在預測接下來的10幀時,我們的模型優於其他模型。爲了接近高質量預測的時間限制,我們將預測的時間範圍從10幀擴展到30幀。即使我們的模型在這種情況下仍然表現最佳,但由於未來的內在不確定性,它開始生成越來越模糊的圖像。此後,我們僅討論10幀實驗設置

圖5。測試集上的幀上MSE。較低的曲線表示較高的預測質量。所有模型都在MNIST-2上訓練

       圖5說明了逐幀MSE結果,較低的曲線表示較高的預測精度。對於所有模型,生成的圖像的質量都會隨着時間而降低。我們的模型產生的退化率較小,表明它具有克服長期信息丟失和學習與漸變高速公路之間的跳幀視頻關係的能力

圖4。在移動MNIST-2測試集的輸入或輸出幀中分別使用糾纏數字的兩個預測示例。

       在圖4中,我們顯示了預測幀的示例。通過Causal 記憶單元,我們的模型可以對數字軌跡做出最準確的預測。我們還觀察到,在未來的預測中最具挑戰性的任務是在發生咬合後保持數字的形狀。這種情況要求我們的模型從先前遙遠的環境中學習。例如,在圖4中的第一種情況下,兩個數字在目標將來序列的開頭相互糾纏。大多數先前的模型不能保持數字“8”的正確形狀,因爲它們的結果主要依賴於附近時間步長的高水平表示而不是之前的輸入(請參閱我們的事後梯度分析)。在第二個示例中發生類似的情況,所有比較的模型在預測的幀中都呈現出各種但不正確的數字“ 2”形狀,而PredRNN ++保持了其外觀。正是梯度公路體系結構使我們的方法能夠學習更多的糾纏表示並預測運動對象的正確形狀和軌跡。

       消融研究    如表1所示,使用Causal LSTM代替ST-LSTM是有益的,這將PredRNN的SSIM評分從0.867提高到0.882。它證明了級聯結構在連接時空記憶方面優於簡單串聯。作爲對照實驗,我們在Causal LSTM中交換了空間和時間記憶的位置。這種結構(時空變化)優於原始ST-LSTM,SSIM從0.867增至0.875,但其準確性低於使用標準Causal LSTM的精度。

       表1還表明,梯度公路單位GHU)與ST-LSTMCausal LSTM都可以很好地協作。它可以持續地提高深度過渡循環模型的性能。在表2中,我們討論了將GHU注入Causal LSTM之間的不同時隙的多個網絡變量。事實證明,將此單位設置在Causal 最低LSTM的正上方最好。這樣,GHU可以選擇三個信息流的重要性:高速公路中的長期特徵,深層過渡路徑中的短期特徵以及從當前輸入幀中提取的空間特徵。

表2.消融研究:將GHU注入4層Causal LSTM網絡中。 GHU的插槽由與其連接的Causal LSTM的索引(k1,k2)定位。

       梯度分析  我們觀察到,移動數字經常以類似於真實遮擋的方式糾纏在一起。如果數字糾纏不清,則在將來的預測中很難將它們分開,同時又要保持其原始形狀。這可能是由於消失的梯度問題引起的,該問題阻止了深度網絡捕獲長期幀關係。我們在圖7(a)中評估這些模型的梯度。 是每個輸入幀最後一個時間步損失函數w.r.t的梯度範數。與其他具有隨時間急劇下降的梯度曲線(表明嚴重的消失梯度問題)的其他模型不同,我們的模型具有獨特的碗形曲線,這表明它可以緩解消失的梯度。我們還觀察到,該碗形曲線與時間上的遮擋頻率一致,如圖7(b)所示,這表明所提出的模型設法捕獲了長期依賴性

圖7。梯度分析:(a)對每個輸入幀的最後一個時間步長的損失函數的梯度範數,取其在整個測試集上的平均值。(b)在整個測試集上的5000個序列中,每個輸入幀中數字糾纏的頻率。

圖6。損失函數的梯度準則在最後時間步, ,對編碼器中間活動,包括隱狀態、時間內存狀態和空間記憶:

       圖6通過何種方式分析了我們的方法緩解了消失梯度問題,說明了關於中間隱藏狀態和內存狀態在最後一個時間步的損失函數導數的絕對值: 。消失的梯度問題導致梯度從頂層下降到底層。爲簡單起見,我們分析由2層組成的遞歸模型。在圖6(a)中, 的梯度在時間上迅速消失,表明先前的真實幀對最後一幀預測的影響可忽略不計。利用時間記憶連接,圖6(b)中的PredRNN模型爲梯度提供了從先前的底部狀態到頂部的較短路徑。 曲線隨着時間推移而逐漸變慢,它強調了更相關的隱藏狀態的表示形式。在圖6(c)中,梯度公路表示 是最大的導數,而 則在時間上急劇下降,這表明梯度公路存儲了長期依賴性,並允許Causal LSTM專注於短期框架關係。通過這種方式,PredRNN ++可以將不同時間尺度的視頻表示與不同的網絡組件分離開,從而獲得更準確的預測。

5.2. KTH Action Dataset

       KTH動作數據集(Schuldt等,2004)包含6種類型的人類動作(步行,慢跑,奔跑,拳擊,揮手和拍手):在不同的場景下,室內和室外都有不同的規模或衣服。每個視頻片段的平均長度爲4秒,是使用靜態相機以25 fps幀速率拍攝的。

       實現     實驗設置來自(Villegas等,2017a):視頻片段分爲108,717個訓練集和4,086個序列的測試集。然後,我們將每個幀的大小調整爲128×128像素的分辨率。我們訓練所有比較的模型,方法是爲它們提供10幀,並使其生成後續的10幀。最小批量大小設置爲8,並且在進行200,000次迭代後終止訓練過程。在測試時間,我們將預測範圍擴展到20個未來時間步長。

       結果     儘管由於單調動作和純背景而幾乎沒有遮擋,但對於以前的方法而言,準確預測更長的視頻序列仍然很困難,這很可能是由於梯度消失問題了。這個問題的關鍵是捕獲長期的框架關係。在此數據集中,這意味着要學習長期反覆執行的人體運動,例如演員走路時手臂和腿的擺動(圖9

       我們使用定量指標PSNR(峯值信噪比)SSIM來評估預測的視頻幀PSNR強調前景外觀,得分越高表示兩個圖像之間的相似度越高。從經驗上看,我們發現這兩個指標在某些方面是互補的:PSNR更加關注像素級正確性,而SSIM對圖像清晰度的差異也很敏感。通常,在評估預測模型時都需要將它們都考慮在內。表3評估了整體預測質量。對於每個序列,將度量值在20個生成的幀中平均。圖8提供了更具體的逐幀比較。我們的方法在未來的每一步PSNR和SSIM上都表現得比目前的技術更好。這些結果與圖9中的定量示例一致,這表明我們的模型對人體移動軌跡做出了相對準確的預測,並生成了較少的模糊視頻幀。

表3. KTH人體動作測試集上不同方法的定量評估。這些指標是對20個預測幀的平均值。分數越高表示預測質量越好。

圖8 不同模型在第k個測試集上的幀間PSNR和SSIM比較。曲線越高,結果越好。

       我們還注意到,在圖8中,在輸出序列的前10個時間步中,所有度量標準曲線都迅速退化。但是,我們模型的指標曲線從第10步到第20步的下降幅度最慢,表明其捕獲長期視頻依存關係的強大能力。這是我們方法的重要特徵,因爲它大大降低了未來預測的不確定性。對於深層但沒有坡度高速公路的模型,它將無法記住重複的人類動作,從而導致對未來移動軌跡的錯誤推斷。通常,這種“失憶”效應將導致未來多種可能性,最終使生成的圖像模糊。我們的模型可以使未來的預測更具確定性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章