卷積LSTM網絡應用於時空序列預測

時空序列預測問題是輸入的是按照某一時刻之前若干個時刻表示空間信息的二維矩陣,預測某一時刻後面若干個時刻的空間狀態。可以形式化爲:

在這裏插入圖片描述

卷積LSTM(Convolutional LSTM)是把卷積神經網絡的思想和循環神經網絡的思想融合到一個端到端的深度神經網絡之中,使得網絡既有提取時間信息的能力,又有提取空間信息的能力。ConvLSTM這種網絡結構在視頻幀預測,未來天氣預測等時空序列預測問題中有很好的表現。下面介紹四篇關於卷積LSTM網絡的論文。

Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting

這篇論文首次提出了ConvLSTM的網絡結構,在普通的FC-LSTM上加入了卷積層,使得網絡在能夠很好的提取時間信息的基礎上,具有了提取空間信息的能力。可以成功的應用於視頻幀預測和降水預測。

我們可以把FC-LSTM和ConvLSTM進行對比:
在這裏插入圖片描述

可以看到,ConvLSTM將FC-LSTM的矩陣乘操作變爲了卷積操作,這樣就不用將X展開成一維輸入網絡了,可以更好的保存空間信息。

網絡的整體結構如下圖所示:
在這裏插入圖片描述

可以看到,網絡運行方式爲左邊的網絡利用輸入數據進行編碼,然後複製到右邊的網絡進行解碼輸出。

Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms

這篇文章作者認爲,ConvLSTM在時間和空間上信息提取存在不均衡的問題,時間信息的提取程度遠遠大於空間信息。針對ConvLSTM時間和空間提取不均勻的問題,以此爲動機,作者提出了PredRNN網絡。做法是在每個LSTM模塊中增加一個存儲傳播空間信息的單元M,使它縱向傳播(蜿蜒傳播)。可以由下圖清晰的看出單元M如何作用在整個網絡:

在這裏插入圖片描述

但是本文作者將新提出的傳播空間信息的單元的M和之前ConvLSTM中傳播時間信息的單元C結合起來組成了PredRNN網絡,網絡結構如下圖:

在這裏插入圖片描述

因爲需要輸出新的隱狀態M,所以每個LSTM單元內的結構也發生了改變,LSTM單元內的結構如下圖所示:
在這裏插入圖片描述
在這裏插入圖片描述

Predrnn++: Towards a resolution of the deep-in-time dilemma in spatiotemporal predictive learning

由於深層RNN網絡在訓練時容易產生梯度消失的現象,導致模型無法完全發揮多層網絡的優勢。針對此問題,PredRNN++在PredRNN的基礎上,增加了GHU(Gradient Highway Unit)單元來處理梯度消失問題。

GHU單位是在深層LSTM單元中加入一個快速隨着時間傳遞信息的單元,可以一定程度上解決梯度消失的現象。經過作者多次實驗,GHU單元的結構以及在整個網絡中的位置如下圖所示:
在這裏插入圖片描述
在這裏插入圖片描述

此外,PredRNN++提出了Causal LSTM作爲網絡的LSTM單元。與PredRNN的LSTM單元相比,將隱狀態的連接方式做了改變,作者在論文中說隨着RNN深度的增加,表現要好於PredRNN中的LSTM單元,但是根據實驗數據來看,效果不如加入GHU單元明顯。Causal LSTM結構如下圖所示:

在這裏插入圖片描述
在這裏插入圖片描述

Eidetic 3D LSTM: A model for video prediction and beyond

E3D-LSTM網絡是一個3DCNN-LSTM模型。將時間片段T看成一個新的維度,輸入是若個視頻幀組成的片段。E3D-LSTM模型大體結構如下:
在這裏插入圖片描述
雖然PredRNN模型在一些未來的視頻預測基準上取得了很好的結果,但是基於PredRNN模型在學習高層特徵的表示還有捕捉長期關係方面效率較低。另一方面,三維卷積神經網絡在動作分類表示方面優於以RNN爲基礎的模型。

針對這些問題,作者提出了E3D-LSTM網絡,總體來講,是在PredRNN網絡的基礎上做了兩點改進:

  • 將PredRNN模型裏的2D卷積運算改爲3D卷積運算,將一個多幀的片段作爲一個LSTM單元的輸入,利用3D卷積可以感知短期運動。
  • 針對PredRNN模型捕獲長期關係的效率較低的問題,作者將當前時刻之前多幀的隱狀態C先通過Recall層進行一個類似attention機制的篩選來代替原來PredRNN模型裏的遺忘門。

PredRNN模型(a)和E3D-LSTM模型(b)的LSTM單元比較如下圖:在這裏插入圖片描述
其中,E3D-LSTM模型的Recall層計算公式如下:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章