基於圖像和視頻上的顯著性目標檢測總結

本文主要對SOD領域內的主要模型方法、數據集、評估方法和數據集做了一定的總結報告,部分內容源自於相關論文和網站博客內容。



一、介紹

顯著性檢測通常分爲眼動點檢測和顯著目標檢測。顯著目標檢測(SOD)的目的是突出圖像中的顯著目標區域。而顯著性檢測的另一個任務凝視點檢測(fixation prediction)則起源於認知和心理學研究,與眼動點檢測不同的是,顯著目標檢測更多的受不同領域的應用驅動:比如,在CV研究中,SOD可以應用於圖像理解,圖像描述,目標檢測,無監督的視頻目標分割,語義分割,行人重識別;在計算機圖形學中,SOD可以應用於非真實性渲染,圖像自動裁剪,圖像重定位,視頻摘要;在機器人領域中,可用於人機交互和目標發現等。在我們的工程項目中,360VR領域內可以針對用戶所關注的興趣區域,對該區域進行着重渲染,不僅可以降低帶寬消耗,還可以在有限的帶寬限制下提升用戶體驗。

二、深度顯著目標檢測模型

(1)基於多層感知機(MLP)的模型

  • MACL:傳統SOD方法對於背景對比度低並且容易造成視覺混淆的圖像不能產生好的顯著性劃分。針對此問題,該網絡模型使用兩個路徑從兩個超像素不同的窗口中提取局部和全局上下文,隨後在同一的混合文本深度學習框架中聯合建模。img

  • ELD:使用VGG-net提取高級特徵,低級特徵與圖像的其他部分進行比較生成低級距離圖,然後使用具有多個1x1卷積和ReLU層的卷積神經網絡(CNN)對低級距離圖進行編碼。我們將編碼過的低級距離圖和高級特徵連接,並將它們送入全卷積網絡分類器去評估顯著區域。img

  • MAP:我們的目的是在無約束圖像中的檢測顯著性目標。在無約束的圖像中,顯著目標的數量因圖像而異。我們提出了一個顯著性目標檢測系統,直接爲輸入圖像輸出一組緊湊的檢測窗口。我們的系統利用CNN來生成顯著對象的位置建議。位置建議往往是高度重疊和嘈雜的。基於最大後驗準則,我們提出了一種新的子集優化框架來從雜亂建議中生成一組緊湊的檢測窗口。在這裏插入圖片描述

(2)基於全卷積網絡(FCN)的模型

  • RFCN:現在PASCAL VOC2010分段數據集上進行了預訓練,以學習語義信息,然後調整到SOD數據集以預測前景和背景。顯著性圖是前景和背景分數的softmax組合。我們通過使用循環完全卷積網絡(RFCN)開發新的顯著性模型更進一步。此外循環結構使我們的方法能夠通過糾正先的錯誤自動學習優化顯著性映射。爲了訓練具有多個參數的網絡,我們提出了使用語義分割數據的預訓練策略,其同時利用對分割任務的強有力的監督來進行更好的訓練,並使網絡能夠捕獲對象的通用表示以用於顯著性檢測。img

  • FSN:受到人類觀察事物的啓發,顯著物體通常會獲得人們的視覺關注,將眼睛注視流和語義流的輸出融合到初始分割模塊中以預測顯著性。img

(3)基於混合網絡的模型,利用多尺度上下文產生邊緣保留檢測

  • DCL:該網絡包括兩個部分,一個是像素級的全卷積流和片段級的稀疏池化流。第一步產生一個顯著圖,第二步產生片段級特徵和顯著性間斷點。最後一個全連接CRF模型可以進行合併改善。img

  • CRPSD:結合了超像素級和超級像素級別顯著性。前者是通過融合FCN的最後和倒數第二側輸出特徵生成的,而後者是通過將MCDL應用於自適應生成區域而獲得的。只有FCN和融合層是可以進行訓練的。img

(4)利用金字塔擴張卷積結構和ConvLSTM的結合模型

  • PDB-ConvLSTM:由PDC模塊和PDB-ConvLSTM模塊組成。在PDC模塊中,一組並行的擴張卷積被用來提取多尺度的空間特徵。在PDB-ConvLSTM模塊中,卷積ConvLSTM被更深的信息提取和並行的兩個ConvLSTM來擴展,從而提取不同尺度的序列特徵。img
  • SSAV:由兩部分組成,金字塔擴張卷積(PDC)模塊和顯著性轉移感知ConvLSTM(SSLSTM)模塊。前者用於有效的靜態顯著性學習,後者用於同時捕獲時間動態和顯著性轉換。img

三、顯著目標檢測數據集

(1)早期包含簡單場景的SOD數據集

  • MSRA-A (Learning to detect a salient object) 包含從各種圖像論壇和圖像搜索引擎收集的20,840張圖像。 每個圖像都有一個清晰,明確的對象,相應的註釋是三個用戶提供的邊界框由“少數服從多數”選擇制定。

  • MSRA-B (Learning to detect a salient object) 作爲MSRA-A的一個子集,有由9個用戶使用邊界框重新標記的5000個圖像。與MSRA-A相比,MSRA-B的模糊度較低。 突出的對象。 MSRA-A和MSRA-B的性能變得飽和,因爲大多數圖像僅包括圍繞中心位置的單個且清晰的顯着物體。

  • SED(Image Segmentation by Probabilistic Bottom-Up Aggregation and Cue Integration) 包括單個對象子集SED1和雙個對象子集SED2,每個子集包含100個圖像並具有逐像素註釋。 圖像中的物體通過各種低級線索(例如強度,紋理等)與周圍環境不同。每個圖像由三個主體分割。,如果至少兩個主體同意,則將像素視爲前景。

  • ASD(Frequency-tuned Salient Region Detection) 包含1,000個逐像素真值。 從MSRA-A數據集中選擇圖像,其中僅提供顯着區域周圍的邊界框。 ASD中的精確突出掩模是基於對象輪廓創建的。

(2)最近流行的SOD數據集

  • SOD (Design and perceptual validation of performance measures for salient object segmentation) 包含來自伯克利分割數據集的120張圖像。每個圖像由七個主題標記。許多圖像具有多個與背景或與圖像邊界形成低色彩對比度的顯著對象。提供像素註釋。

  • MSRA10K(Frequency-tuned Salient Region Detection) 也稱爲THUS10K,包含從MSRA中選擇的10,000張圖像,涵蓋了ASD中的所有1,000張圖像。 圖像具有一致的邊界框標記,並且進一步使用像素級註釋進行擴充。 由於其大規模和精確的註釋,它被廣泛用於訓練深SOD模型(見表2)。

  • ECSSD(Hierarchical saliency detection) 由1000個圖像組成,具有語義上有意義但結構複雜的自然上下文。 真值由5名參與者註釋。

  • DUT-OMRON(Saliency detection via graph-based manifold ranking) 包含5,168張背景相對複雜和內容多樣性的圖像。 每個圖像都伴有像素級真值註釋。

  • PASCAL-S(The secrets of salient object segmentation) 由從PASCALVO 2010的VAL集合中選擇的850個具有挑戰性的圖像。除了眼動點記錄外,還提供了粗略的像素和非二值顯著目標註釋。

  • HKU-IS(Visual saliency based on multiscale deep features) 包含4,447個複雜場景,其通常包含具有相對不同空間分佈的多個斷開連接的對象,即,至少一個顯著對象接觸圖像邊界。 此外,類似的前/後地面外觀使這個數據集更加困難。

  • DUTS(Learning to detect salient objects with image-levels supervision) 最大的SOD數據集,包含10,553個訓練和5,019個測試圖像。 訓練圖像選自ImageNet DET 訓練集/值集,以及來自ImageNet測試集和SUN數據集的測試圖像。 自2017年以來,許多深度SOD模型都使用了DUTS訓練集訓練。

(3)當前實驗所用數據集

  • DAVSOD:我們根據真實的人類注視點來標註顯著的對象,並且首次標註了注意力轉移所發生的時刻,強調了該領域中顯著性轉移這一更具挑戰的任務。它具有以下幾個重要特徵:豐富多樣的顯著對象,顯著對象實例的數量更多,顯著對象的尺寸變化範圍更廣,具有多樣化的相機運動模式,不同的對象運動模式,中心偏向。

四、評估指標

  1. Precision-Recall(PR):根據二值化顯著mask和真值來計算,Precision=TPTP+FP,Recall=TPTP+FN.Precision=\frac{TP}{TP+FP}, Recall=\frac{TP}{TP+FN}. 爲了獲得二進制掩碼,應用一組範圍從0到255的閾值,每個閾值產生一對精確/召回率來形成用於描述模型性能的PR曲線。
  2. F-measure:通過計算加權調和平均值來全面考慮精度和召回,Fβ=(1+β2)P×Rβ2P+RF_{\beta}=\frac{(1+{\beta}^2)P\times R}{{\beta}^2P+R}. β2{\beta}^2根據經驗一般所設定爲0.3,來更加強調精度的影響。另一些方法使用自適應閾值,即預測顯著圖的平均值的兩倍,以生成二元顯著性映射並報告相應的平均F-measure值。
  3. Mean Absolute Error(MAE):用於通過測量歸一化映射和真值掩碼之間平均像素方向的絕對誤差來解決這個問題。MAE=1W×Hi=1Wj=1HG(i,j)S(i,j)MAE=\frac{1}{W\times H}\sum_{i=1}^W\sum_{j=1}^H|G(i,j)-S(i,j)|.
  4. Structural measure(S-measure):用以評估實值顯著性映射與真實值之間的結構相似性,其中So和Sr分別指對象感知和區域感知結構的相似性。S=α×So+(1α)×SrS=\alpha \times S_o+(1-\alpha)\times S_r.

五、當前最先進的VSOD模型在數據集上的評測結果

  1. 37種最有代表性的VSOD模型總結:在這裏插入圖片描述
  2. 17種最先進的VSOD模型在7個數據集上的表現結果在這裏插入圖片描述
  3. 在所提出的DAVSOD數據集上的視覺表現結果
    在這裏插入圖片描述

六、結論

在基於視頻的顯著性目標檢測方面,最終的模型訓練和測試效果主要由兩個因素所決定:(1)數據集內容豐富度和標註細化度;(2)使用網絡模型的主要結構,一般我們將其劃分成兩部分,第一個部分用來對靜態圖像的特徵進行提取,可以通過擴張卷積來進行多尺度提取,第二個部分用來對連續視頻幀序列的相關特徵進行劃分提取。隨着SOD在計算機視覺領域的應用範圍增長,其數據集和算法也會呈現較大程度的提高,更加接近於人工標註的顯著性映射。

參考文獻

1: https://www.cnblogs.com/imzgmc/p/11072100.html
2: Zhao R, Ouyang W, Li H, et al. Saliency detection by multi-context deep learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1265-1274.
3: Lee G, Tai Y W, Kim J. Deep saliency with encoded low level distance map and high level features[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 660-668.
4: Zhang J, Sclaroff S, Lin Z, et al. Unconstrained salient object detection via proposal subset optimization[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5733-5742.
5: Wang L, Wang L, Lu H, et al. Saliency detection with recurrent fully convolutional networks[C]//European conference on computer vision. Springer, Cham, 2016: 825-841.
6: Chen X, Zheng A, Li J, et al. Look, perceive and segment: Finding the salient objects in images via two-stream fixation-semantic cnns[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 1050-1058.
7: Li G, Yu Y. Deep contrast learning for salient object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 478-487.
8: Tang Y, Wu X. Saliency detection via combining region-level and pixel-level predictions with CNNs[C]//European Conference on Computer Vision. Springer, Cham, 2016: 809-825.
9: Song H, Wang W, Zhao S, et al. Pyramid dilated deeper convlstm for video salient object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 715-731.
10: Fan D P, Wang W, Cheng M M, et al. Shifting more attention to video salient object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2019: 8554-8564.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章