基本信息
-
論文名稱
基於深度學習的顯著性目標檢測綜述
-
作者
史彩娟等
-
發表時間
2020年
-
來源
知網
說明
本文基本研究對象爲:基於深度學習的SOD算法。
下文中將顯著性目標檢測簡寫爲SOD(Salient Object Detection),將基於深度學習的顯著性目標檢測算法簡寫爲DSOD(Deep Learning Based SOD)。
主要收穫
-
知識
-
低層特徵中包含更多的邊界信息
- 通過編碼低層特徵距離來檢測邊界信息可能導致部分邊界細節丟失。
- 通過引入相關操作來增強低層特徵具有的邊界信息,可以獲得更清晰的邊界,但容易造成顯著性目標檢測主體不準確的問題。
-
高層特徵中包含更多的語義信息。
- 只對高層特徵所包含的語義進行增強,有時會造成顯著性目標邊界模糊或者多個顯著性目標重合。
-
只進行邊界增強容易造成顯著性目標不準確,而只進行語義增強則會引起顯著性目標的邊界不準確,所以可以同時增強兩者。
因爲通過語義增強可以減小無效目標的干擾,更好地定位顯著性目標的位置;通過邊界增強可以獲得清晰的顯著性目標邊界。
- 金字塔結構可以處理高低層的特徵
-
全局信息(顏色,紋理,背景/前景等)包含顯著性目標的位置信息,而局部信息可以增強顯著性目標邊界。
-
-
一些未知的東西
- BASNet是怎麼實現的?其中的混合Loss是什麼
- Boundary-Enhanced Loss是什麼?
- 注意力機制(Attention)是什麼?
- 金字塔結構是什麼?
- 層次遞歸卷積神經網絡(Hierarchical Recurrent Convolutional Neural Network,HRCNN)是什麼?
- 字幕網絡(Image Captioning Network,ICN)是什麼?
- SqueezeNet是什麼?3種設計原則?
- MobileNet是什麼?深度可分離卷積?
- 可變形卷積是什麼?
- 評估指標
- F-度量(\(F-measure,F_\beta\))
- 加權F-度量(\(Weighted\ F-measure,F_\beta^\omega\))
- P-R曲線
- 平均絕對誤差(Mean Absolute Error, MAE)
-
思考
- 研究至少有2個思路:橫向(分類)和縱向(深入)。
摘要
-
根據原理不同,分3類介紹並定性分析比較DSOD。
3個類別爲:邊界/語義增強、全局/局部結合、輔助網絡
-
簡單介紹DSOD的常用數據集和評估準則
-
現有DSOD方法在多個數據集上進行多方面的性能比較
包括定量比較、P-R曲線和視覺比較
-
現有DSOD算法在複雜背景、小目標、實時性檢測等方面的不足
-
DSOD的未來發展方向,如複雜背景、實時、小目標、弱監督
1 引言
- 傳統SOD方法主要利用人類直觀感覺或啓發式先驗,如利用色度比較,背景比較和邊界點先驗等,通過人工提取特徵來檢測目標,但人工提取特徵非常耗時。
- DSOD可自動學習到多尺度特徵,精度速度大幅提升,但也存在不足:複雜背景下的性能有待提升、實時性需提高、模型複雜度需降低。
2 基於深度學習的顯著性目標檢測方法
- 傳統方法中人工提取特徵耗時或者遷移性較差
- DSOD可分爲3個類別:邊界/語義增強、全局/局部結合、輔助網絡
- 圖1給出了今年DSOD的發展歷程和主要算法
2.1 基於邊界/語義增強的SOD
2.1.1 基於邊界增強的SOD方法
-
邊界增強是指通過增強深度特徵中的低層特徵來獲得更多的邊界信息,從而更好的定位顯著目標邊界。
-
ELD算法和KSR算法通過編碼低層特徵距離來檢測邊界信息,定位顯著性目標輪廓,但是輪廓邊界有時會模糊,導致部分邊界細節丟失。
-
DCL算法和DSS算法通過引入相關操作來增強低層特徵具有的邊界信息。
相較於直接編碼低層特徵距離的算法,這類方法獲得的顯著性目標邊界更加清晰。但是,這些操作的引入容易引起顯著性目標檢測主體不準確,比如只有1個目標卻檢測出了2個。
原文中圖2展示並對比了上述4個算法的檢測效果。
-
-
還可以直接對顯著性目標的邊界進行檢測,比如GearNet、AFNet(採用BEL,Boundary-Enhanced Loss)、BASNet。
這類方法能夠提取清晰的顯著性目標邊界,邊界細節相對較好,顯著性目標的檢測準確度較高(無關的顯著性目標較少),效果見原文圖3。
2.1.2 基於語義增強的SOD方法
-
語義增強是指從高層特徵中獲得豐富的語義信息,從而更好的定位顯著性目標,使顯著性目標更加突出。
比如R_FCN算法、CPD算法和PoolNet算法等,算法效果見原文圖4。
這類方法可以準確定位顯著性目標,但是由於僅針對高層特徵所包含的語義進行增強,有時會造成顯著性目標邊界模糊或者多個顯著性目標重合。
-
還可以通過引入注意力機制進一步增強語義信息,如PiCANet和RAS算法。主體準確性和邊界準確性都不錯,算法效果見原文圖5。
2.1.3 基於邊界/語義增強的SOD方法
-
只進行邊界增強容易造成顯著性目標模糊,而只進行語義增強則會引起顯著性目標的邊界模糊,所以可以同時對兩者進行增強。
因爲通過語義增強可以減小無效目標的干擾,更好地定位顯著性目標的位置;通過邊界增強可以獲得清晰的顯著性目標邊界
這類算法有Amulet、BDMPM等,算法效果見原文圖6。
-
還可以採用金字塔結構同時對高低層特徵進行處理,以同時增強顯著性目標邊界和語義。
這類算法有SRM算法、PAGE算法、FPA算法,算法效果見原文圖7。
2.2 基於全局/局部結合的SOD
-
全局信息(顏色,紋理,背景/前景等)包含顯著性目標的位置信息,而局部信息可以增強顯著性目標邊界。
-
一些檢測方法採用遞歸操作、多分辨率操作和注意力機制等將全局/局部相結合以 獲得更好的顯著性目標檢測性能
-
這類算法有DHSNet、GRL、NLDF、PAGR算法等,算法效果見原文圖8。
2.3 基於輔助網絡的SOD
- 基於輔助網絡的顯著性目標檢測是指採用其它領域已有模型作爲輔助網絡來提升顯著性目標檢測性能
- 這類算法有MDF、C2S-Net、CapSal、MLMSNet算法等,算法效果見原文圖9。
2.4 不同類型SOD方法分析比較
- 現有DSOD方法邊界模糊的原因和解決辦法
- 深度模型包含許多下采樣操作,上採樣後的特徵難以恢復原有的空間信息,融合後引起邊界模糊。因此,爲了減小下采樣操作引起的多尺度融合損失,引入一些特定操作,如 PoolNet 算法中採用功能聚合模塊等。
- 針對不同因素對邊界檢測的影響,通過編碼低層特徵距離來檢測邊界信息,定位顯著性目標輪廓,如ELD算法和KSR算法;或者是設計新的損失函數, 通過反向傳播調整模型參數,如AFNet算法和BASNet算法。
- 基礎模型簡易導致檢測的邊界模糊,可以通過多尺度操作增強原有的特徵效果,如DSS算法、SRM算法和PAGE算法等,或添加注意力機制來提取更有效的低層特徵,如PFA算法等。
- 基於深度學習的顯著性目標檢測方法中常常引入注意力機制,大致可分爲3類
- 時空域注意力,比較適合同時具有時序及空域特徵的場景,通過遞歸神經網絡 (Recurrent Neural Network,RNN)設計注意力機制,如PAGR算法。
- 軟注意力,是一種確定性的注意力,可以直接通過網絡生成,它也是可微的, 可以通過神經網絡算出梯度並且前向傳播和後向 反饋來學習得到注意力的權重,如PFA算法和RAS算法;
- 硬注意力,從輸入信息中選擇重要的特徵,如PiCANet算法每個像素生成注意力圖,這種方式更高效和直接。
3 常用數據集及評估標準
3.1 常用數據集
-
SOD數據集
MSRA、SOD、MSRA10K、HKU-IS、DUTS、SED、ECSSD、DUTO-OMRON、PASCAL-S
-
常用DSOD數據集
- MSRA10K:邊界框級別的顯著性真值標定
- HKU-IS:4447個圖像,多個斷開連接的顯著性目標,多目標的邊界重合和色彩對比度較低
- DUTS:10553個訓練圖像和5019個測試圖像,訓練和測試集都包含非常重要的場景
- SOD:300張圖像,像素級註釋,大部分圖像包含多個顯著性目標,並且目標與背景的顏色對比度較低。
- ECSSD:1000張圖像,圖像具有複雜的結構和背景
- DUTO-OMRON:5168個高質量圖像,圖像具有多個顯著性目標,背景相對複雜
- PASCAL-S:8 個類別,850張圖像,用於評估具有複雜背景、多個目標場景的模型性能
3.2 常用評估準則
DSOD常用評估準則
-
F-度量(\(F-measure,F_\beta\))
對精度和召回率進行總體評估,最終值越大表明性能越好,其中\(\beta\)是一個參數,一般取\(\beta^2=0.3\)。公式暫略。
-
加權F-度量(\(Weighted\ F-measure,F_\beta^\omega\))
加權F-度量是F-度量的推廣,通過交替計算精度和召回率得到。
加權F-度量爲了解決鄰域信息的不同, 爲不同位置的不同誤差分配了不同的權重。公式暫略。
-
P-R曲線
以Precision和Recall作爲縱-橫軸座標的二維曲線,即查準率-查全率曲線,選取不同閾值時對應的精度和召回率繪製。P-R曲線圍起來 的面積是AP(Average Precision)值,AP值越高,模型性能越好。公式暫略。
-
平均絕對誤差(Mean Absolute Error, MAE)
MAE值越小表示模型越好。公式暫略。
4 基於深度學習的顯著性目標檢測方法性能比較
- 在數據集ECSSD、DUT-OMRON、HKU-IS和DUTS-TE上進行實驗,採用F-度量和平均絕對誤差MAE作爲評估準則
5 基於深度學習的顯著性目標檢測算法的不足與未來展望
-
不足與未來展望
-
複雜背景
- 設計適應複雜背景(對背景敏感或者前景背景對比度低等)的顯著性目標檢測模型
- 建立包含複雜背景的圖像數據集
-
實時性
- 設計輕量化網絡,比如遵守SqueezeNet特有的三種設計原則
- 採用深度可分離卷積,比如MobileNet
- 對網絡直接進行壓縮與編碼
-
小目標
- 使用分辨率更高的卷積特徵圖以及殘差模塊來增強對小目標的檢測能力
-
矩形框定位
- 可變形卷積
-
完全監督學習
無監督或弱監督
-
Github(github.com):@chouxianyu
Github Pages(github.io):@臭鹹魚
知乎(zhihu.com):@臭鹹魚
博客園(cnblogs.com):@臭鹹魚
B站(bilibili.com):@絕版臭鹹魚
微信公衆號:@臭鹹魚
轉載請註明出處,歡迎討論和交流!