PDB-ConvLSTM: 用於視頻顯著性目標檢測的金字塔擴張較深的ConvLSTM網絡

本文出自論文Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection, 主要提出了一個視頻顯著性目標檢測模型,由PDC模塊和PDB-ConvLSTM模塊組成。

本文提出了一個快速的視頻顯著性目標檢測模型,它基於一個新的遞歸網絡架構,被命名爲PDB-ConvLSTM。一個金字塔擴張卷積(PDC)模塊被首次設計用於在多尺度同時提取空間特徵,這些空間特徵被連接起來,並被輸入到一個擴展的DB-ConvLSTM結構來學習時空信息。進一步討論伴有一個類PDC結構的DB-ConvLSTMs,通過採用幾種擴張的DB-ConvLSTMs來提取多尺度的時空信息。



一、簡介

  1. 視頻顯著性檢測旨在發現最吸引人注意力的每個視頻幀中最感興趣的部分。在視頻顯著性檢測的研究被分爲兩類:眼動預測來定位人眼的關注點、顯著性目標檢測來高亮最顯著的目標。爲了在視頻顯著性檢測中應用深度學習技術,有兩個問題需要被考慮:第一個問題是描述時間和空間信息,然後如何將它們結合起來;第二個問題是數據,一個足夠大、密集標籤的視頻顯著性訓練集是必要的,但很難獲得。
  2. 爲了解決上述問題,我們的模型基於一個卷積LSTM結構(ConvLSTM),它可以獲取視頻序列的長短期記憶,從而獲得時空信息來有效融合時空特徵。爲了鼓勵在LSTM單元間雙向交換信息,我們提出了一個較深的雙向ConvLSTM結構(DB-ConvLSTM)來以一種級聯和較深的方式學習時間特徵。後向層的ConvLSTM單元被建立在前向層上,而不是直接連接到輸入層上。前向ConvLSTM單元每個關聯到一個特別的輸入幀,可以與後向層交換它們的序列知識。我們還引入了一個多尺度接收域模塊–金字塔擴張卷積(PDC),從而來獲得更多的空間細節。
  3. 在模型的訓練方面,除了視頻顯著性數據,我們還利用大量靜態顯著性數據來訓練我們的模型。通過這種方式,我們的網絡能夠捕捉到不同的目標外觀,它們對視頻顯著性預測很重要。我們進一步展示到所提出的視頻顯著性模型,配有一個CRF分割模塊,在兩個流行的視頻分割基準數據集(DAVIS和FBMS)上獲得最好的性能,展示了我們模型的高可用性。

二、相關工作

  1. 圖像/視頻顯著性目標檢測:卷積視頻顯著性檢測方法提取時間和空間特徵,然後將它們融合在一起來產生一個時空顯著性映射。
  2. 無監督視頻分割:無監督視頻主對象分割是與我們的方法最相關的視頻分割主題,其目的是利用對象級信息(如對象建議)和各種啓發式方法提取視頻序列中的主對象。這些模型有類似的目標與視頻突出的對象檢測,除了它們尋求得到每個視頻幀的二進制前/背景掩碼。

三、方法

  1. 所提出的視頻顯著性目標檢測模型由兩個關鍵成分組成,第一個是金字塔擴張卷積(PDC)模塊,被用來明確地在多尺度上提取空間顯著性特徵,這個主要通過並行的不同採樣比例的擴張卷積層來實現。第二個是金字塔擴張雙向ConvLSTM(PDB-ConvLSTM),以一種級聯的雙向特徵學習過程來提高。PDB-ConvLSTM將來自PDC模塊學習到的空間特徵作爲輸入,然後輸出所提高的時空顯著性表示,來作爲最終的視頻顯著性目標預測。
    模型架構

  2. 使用PDC模塊的空間顯著性學習:我們利用了一個PDC模塊,它由一組不同擴張比例的擴張卷積層組成,用來強調多尺度空間顯著性表示學習。令FR(WHM)F\in R^{(W*H*M)},擴張卷積層的核爲CkRccCC_k\in R^{c*c*C},其輸出特徵映射$T_k =C_k \circledast F $ 。如果我們從適當的距離和適當的空間環境來看,一個地區將是相當突出的。之後多尺度的空間特徵{Tk}k=1K\{T_k\}^K_{k=1}被連接到一起,接着被輸入到PDB-ConvLSTM,於是這個網絡能夠自動學習到尺度的重要性(例如從一個適當的距離學習顯著性特徵)。受激勵於殘差連接,我們將原始輸入FF和擴張輸出TT連接在一起,最後的輸出特徵XRW×H×(KC+M)X\in R^{W\times H\times (KC+M)}X=[F,T1,T2,...,TK]X=[F,T_1,T_2,...,T_K]
    PDC模塊

  3. 使用PDB-ConvLSTM模塊的時空顯著性學習:給定一個輸入視頻序列{It}t=1T\{I_t\}^T_{t=1},先使用PDC模塊來產生一個對應的多尺度空間顯著性特徵序列{Xt}t=1T\{X_t\}^T_{t=1},接着這些空間特徵被輸入到一個修改過的ConvLSTM結構(PDB-ConvLSTM)中,來解釋視頻幀的空間性質,將時間和空間特徵自動混合在一起。PDB-ConvLSTM以兩種方法來被提高:首先使用一個更深的和級聯的學習過程來代替,在前向過程學習到的時空特徵上建立後向LSTM;合併金字塔擴張卷積到LSTM上來從多尺度上學習顯著性特徵。
    PDB-ConvLSTM結構

  4. ConvLSTM:它將卷積運算引入到input-to-state和state-to-state的轉變中,保留空間信息和建模時間依賴度。於是它可以被應用於許多時空像素級任務上,例如動態視覺注意力預測,視頻超分辨率。ConvLSTM單元由一個記憶單元ctc_t,一個輸入門iti_t,一個輸出門oto_t,一個遺忘門ftf_t。記憶單元ctc_t作爲狀態信息的累加器,被自參數控制門進行存取、更新和清除。當一個輸入到達時,若輸入門激活新的數據將會被累加到記憶單元;同樣地,如果遺忘門ftf_t被打開先前的單元狀態ct1c_{t-1}k可以被遺忘。最新的記憶單元值ctc_t是否被轉變爲最終狀態hth_t被輸出門oto_t來控制。在視頻序列中,來自前向和後向幀的信息對於預測視頻顯著性是重要且互補的,於是雙向ConvLSTM(B-ConvLSTM)用於在雙向流中捕捉時間性質。Yt=tanh(WyHfHtf+WyHbHt1b)Y_t=tanh(W^{H^f}_y*H^f_t+W^{H^b}_y*H^b_{t-1})

  5. DB-ConvLSTM:它有兩個層,一個是淺的前向層,另一個是較深的後向層。在前向層的ConvLSTM單元接收空間特徵映射{Xt}t=1T\{X_t\}^T_{t=1}作爲輸入,然後輸出前向序列特徵映射{Htf}t=1T\{H^f_t\}^T_{t=1}。較深的層由後向單元組成,接收來自前向層的輸出特徵作爲輸入。最終前向特徵和後向特徵被結合在一起來作爲最終輸出:{Yt}t=1T\{Y_t\}^T_{t=1}。通過這樣做,較深的時空特徵可以被後向單元提取得到。

  6. PDB-ConvLSTM:來自PDC模塊的輸出結果被輸入到幾個並行的DB-ConvLSTMs上,其卷積操作被擴張卷積操作所替代,不同的擴張因子被採用。它可以利用來自不同接收域的不同特徵來獲取更多互補性的時空特徵。

  7. 網絡架構細節:有一個PDC模塊和PDB-ConvLSTM模塊組成,其中PDC模塊由四個並行的擴張卷積層組成,其輸入來自ResNet50處理過的特徵映射,最終輸出和原始輸入進行結合,得到最終的輸出特徵映射。PDB-ConvLSTM模塊由兩個DB-ConvLSTMs組成,對於每個幀,兩個DB-ConvLSTM分支的輸出結果被進一步連接來作爲多尺度的時空顯著性特徵。

  8. 損失函數:令G{0,1}473×473G\in \{0,1\}^{473\times 473}表示實際顯著性映射,S[0,1]473×473S\in [0,1]^{473\times 473}表示預測的顯著性映射,總體損失函數爲L(S,G)=Lcrossentropy(S,G)+LMAE(S,G)L(S,G)=L_{cross_entropy}(S,G)+L_{MAE}(S,G),其混合損失函數分別表示交叉熵損失函數和MAE損失函數,Lcrossentropy(S,G)=1Ni=1N[gilog(si)+(1gi)log(1si)]L_{cross_entropy}(S,G)=-\frac{1} {N}\sum_{i=1}^N[g_ilog(s_i)+(1-g_i)log(1-s_i)]

    LMAE(S,G)=1Ni=1NgisiL_{MAE}(S,G)=\frac{1}{N}\sum_{i=1}^{N}|g_i-s_i|

  9. 訓練設置:訓練過程有三個步驟:第一我們預訓練空間學習部分(包括PDC模塊和基礎網絡),其圖像顯著性訓練集爲MSRA10K和DUTOMRON,視頻數據集爲DAVIS數據集,SGD算法的初始學習率爲10810^{-8}。第二我們設置時空學習部分的學習率爲10610^{-6},然後使用以上靜態和視頻數據來訓練整個模型。最後我們固定空間學習部分的權重,並對只含DAVIS數據集的時空學習部分來微調。

四、實驗

  1. 有兩組實驗被執行,第一個用來檢測所提出模型的性能,即視頻顯著性目標檢測,第二個用來評估在未監督視頻目標分割上所提出模型的有效性。實驗評估
    量化結果比較
  2. 爲了量化評估,我們應用三種廣泛使用的準則,分別爲:PR-curve,F-measure,MAE score。總體來看,我們的模型一致地在各種具有挑戰性的場景下,始終能夠準確地生成精確的顯著性目標估計。

五、結論

​ 本文提出了一個深度視頻顯著性目標檢測模型,其有兩個關鍵成分組成:PDC模塊和PDB-ConvLSTM模塊。在PDC模塊中,一組並行的擴張卷積被用來提取多尺度的空間特徵(不同接收域)。在PDB-ConvLSTM模塊中,卷積ConvLSTM被更深的信息提取和並行的兩個擴張ConvLSTMs來擴展,從而提取不同尺度的序列特徵。所提出的模型生成高質量的顯著性映射,其實時處理速度爲20fps。這個實驗也證明了所提出模型對於未監督分割任務的適用性,可以獲得最大精度的分割結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章