顯著性目標檢測之Shifting More Attention to Video Salient Object Detection

Shifting More Attention to Video Salient Object Detection

原始文章:https://www.yuque.com/lart/papers/vrkwzi
好久沒有更新了,今天看了下這篇文章。這篇文章主要提出了一個大規模的視頻顯著性目標檢測數據集Densely Annotated VSOD (DAVSOD)。另外也針對視頻顯著性目標檢測的現有研究中的幾個關鍵問題進行了分析。

主要改進

數據集層面

在這裏插入圖片描述

  • 現有的視頻顯著性目標檢測數據集沒有考慮選擇性注意注意力轉移這兩個重要的動態注意特性,它們的標註過程大多沒有考慮動態的人眼注視點數據,而是將視頻拆成單獨的靜態幀來分別標註,並不能揭露人在觀察期間真實的注意行爲。
  • 現有數據集數據量太少,且沒有充足且精細的逐幀標記,這對於對數據嚴重依賴的深度學習模型而言,還是不夠的。
  • 另外現有數據集提供的標註類型單一,而新提出的數據集包含豐富的註釋,包括顯著性偏移、目標/實例級別的mask標註、顯著性目標數量、場景/目標類別和相機/目標移動狀態,對於後續的更加貼近於真實動態場景的研究提供了巨大的幫助。

模型層面

完整模型架構
完整模型架構
在這裏插入圖片描述
顯著性轉移感知模塊流程
在這裏插入圖片描述
顯著性轉移感知注意網絡F__A
image.png
總體損失函數
image.png
顯式訓練與隱式訓練對比

  • 針對注意力轉移這一重要特定使用顯著性轉移感知模塊來進行充分的學習。通過對附加ASPP的ResNet50提取得到的靜態顯著性特徵,使用顯著性轉移感知模塊(卷積LSTM+顯著性轉移感知注意機制)來進行結合,從而考慮時序變化和顯著性轉移來得到相應的結果。
  • 顯著性轉移感知注意機制主要過程如前式(2)所示,這裏的Xt表示t時刻的靜態特徵(來自ASPP),可以看到,這裏的“顯著性轉移感知注意”考慮了t時刻和之前的所有時刻的特徵,這裏的關鍵組件是其中的顯著性轉移感知注意網絡F,這裏再F之後又引入了一個小的卷積LSTM來進一步模擬注意力轉移,這裏如式(3)所示。
  • 針對是否有人眼註釋標註數據將訓練模式分爲顯示和隱式訓練模式。通過使用一個指示函數l()l(\cdot)(存在人眼註釋數據,值爲1,反之爲0)來構建損失。損失函數如式(4)所示。所以,如果不存在人眼註釋數據,則這裏的F以隱式模式訓練,存在的時候,則爲顯式訓練(顯式訓練與隱式訓練對比可見表(5)),藉助於LSTM結構,F可以將VSOD模型的注意力轉移到重要的對象上。另外,這裏的Latt和Lvsod都是交叉熵損失函數。

實驗設置

  • ResNet-50,最後兩個階段的不進行下采樣,所以總體下采樣8倍。
  • 輸入473473,下采樣最後輸出爲6060*2048。
  • ASPP結構:一個殘差連接+四個擴張卷積分支(d=2,4,8,16)。
  • 訓練數據:和[Pyramid dilated deeper convLSTM for video salient object detection]保持一致,但沒有使用MSRA-10k,另外,進一步利用DAVSOD的驗證集來顯式訓練顯著性轉移感知注意模塊。

實驗比較

image.png
image.png

相關鏈接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章