Distraction-Aware Shadow Detection

4. Experiments

5. Conclusion

基本信息

CVPR 2019
http://openaccess.thecvf.com/content_CVPR_2019/html/Zheng_Distraction-Aware_Shadow_Detection_CVPR_2019_paper.html
https://quanlzheng.github.io/projects/Distraction-aware-Shadow-Detection.html

值得學習的地方

針對以前方法檢測錯誤的陰影，單獨設置模塊來監督，增強對容易檢測錯誤的陰影的檢測能力。
實驗部分思路清晰完整，有對比其他先進方法的實驗，證明本文方法有效性的實驗，也有消融實驗。
目標檢測的最新成果在陰影檢測任務上也有不錯的效果，說不定可以借鑑到陰影檢測中。
損失函數。

Abstract

陰影檢測對於場景理解是一項重要且具有挑戰性的任務。儘管最近基於深度學習的方法取得了可喜的成果。現有作品仍然難以解決陰影和非陰影區域的視覺外觀相似（在我們的上下文中稱爲分散注意力）的模棱兩可的情況。在本文中，我們通過在端到端框架中顯式學習和集成視覺干擾區域的語義，提出了一種可感知干擾的陰影檢測網絡（DSDNet）。我們框架的核心是一個新穎的，獨立的，可區分注意力分散的陰影（DS）模塊，該模塊使我們能夠通過明確預測假陽性和假陰性來學習分散注意力的鑑別特徵，以進行可靠的陰影檢測。我們對三個公共陰影檢測數據集SBU，UCF和ISTD進行了廣泛的實驗，以評估我們的方法。實驗結果表明，我們的模型可以通過有效地抑制假陽性和假陰性的檢測，從而提高陰影檢測性能，從而獲得最先進的結果

1. Introduction

陰影是一種常見的照明現象，是由於某些遮擋物將光遮擋而引起的，從而導致局部表面的顏色和強度發生變化。因此，檢測陰影可以使我們推斷出例如光源位置[19、26]，場景幾何形狀[16、25、15]和相機參數[37]。另一方面，陰影會阻礙許多視覺任務，例如視覺跟蹤[2]，對象檢測[23]和語義分割[6]。因此，陰影檢測已經被長期研究並且是重要的計算機視覺問題。

早期的陰影檢測方法主要是基於顏色色度或照明不變假設的物理模型，並使用手工特徵，例如照明提示[3，27，7]，顏色[4，30]和其他[14，41]。隨着將深度學習應用於視覺任務的成功，最近的數據驅動模型[17、32、28、24、42]學會了使用CNN來檢測陰影。與傳統方法相比，它們在性能上有顯着提高。主流方法主要採取兩種策略，即擴大訓練數據[21]或結合全局上下文信息[24、34、42]。

在自然圖像中，圖像中通常存在一些非陰影區域，它們看起來像陰影（例如，圖1（a）的第一行），因此被錯誤地檢測爲陰影（例如，圖1（bd）的上一行），並且同樣是陰影區域，它們看起來像非陰影圖案（例如，圖1（a）底行），因此被錯誤地視爲非陰影（例如，圖1（bd）底行）。在本文中，我們將這些歧義區域稱爲干擾，並考慮兩種類型的干擾：假陽性干擾（FPD）— 陰影狀非陰影區域，以及假陰性干擾（FND）— 具有非陰影模式的陰影區域。最先進的方法[42，21]往往會錯誤地檢測這些不明確的區域，部分原因是因爲它們的模型平等地對待所有情況，因此需要大量數據來學習以解決此類具有挑戰性的歧義。因此，標記陰影檢測數據的有限可用性[32]阻礙了這些模型的性能。

圖1.注意力分散的陰影檢測。現有方法[42、21、12]錯誤地將輸入圖像中的非陰影區域檢測爲陰影（（a）第一行中的紅色箭頭指向）爲陰影（（bd）第一行），並且錯誤地將看起來像非陰影圖案（由（a）底行中的綠色箭頭指向）的陰影區域視爲非陰影（（bd）底行）。在這兩種情況下，我們的分散注意力模型都可以很好地檢測陰影區域。最好才彩色模式下查看。

我們注意到，人類通常可以非常準確地檢測陰影，而不會受到干擾的影響。我們的觀察是，人類將首先認識到分散注意力的語義（例如形狀，圖案，物體），這是解決歧義的重要線索，然後將它們與自信的陰影區域進行比較以做出最終決定。例如，人類將暗區域（圖1（a）上一行中的紅色箭頭指向）視爲非陰影，因爲我們認識到該區域是紋理圖案的一部分，並且與右上角的陰影異質。另一方面，由於徽標的這一部分在強度，色度和方向上與陰影的其他部分相同，因此我們將較亮的區域（在圖1（a）底行中由綠色箭頭指向）標識爲陰影。因此，我們假設對潛在的歧義區域的語義特徵進行顯式建模可以幫助提高陰影檢測性能。

在本文中，我們提出以分散注意力的方式檢測陰影。我們設計了一種分散注意力的陰影（DS）模塊，以學習並將分散注意力明確地集成到陰影檢測任務中。 DS模塊將輸入圖像的視覺特徵作爲輸入，並將它們與FND和FPD特徵融合在一起，以輸出可識別干擾的，具有區別性的特徵以進行陰影檢測。它首先學習提取圖像中視覺歧義引起的FND和FPD特徵，然後根據兩種干擾類型的特徵，使用兩種不同的策略來整合干擾特徵。具體而言，FND經常具有與一般陰影非常不同的可變視覺外觀，因此很難被檢測到。因此，我們使用一種關注機制來選擇潛在FN區域周圍的特徵，並將其添加到輸入圖像特徵中以獲得FN增強特徵，從而使模型能夠更好地區分FN。另一方面，FPD通常在局部上類似於一般的陰影，並且需要更廣泛的上下文才能捕獲其特徵。因此，我們應用一個Conv塊來獲得具有較大接收場的FP感知特徵，然後從FN增強特徵中減去這些特徵，以使模型對FP的脆弱性降低。將DS模塊插入多尺度框架，以提取不同尺度的可感知干擾的陰影特徵，以預測陰影檢測圖。在三個公共陰影檢測數據集（SBU，UCF和ISTD）上的實驗結果表明，我們的方法優於現有方法並獲得了最新技術成果。

本文的主要貢獻如下。首先，我們將注意力分散的概念引入陰影檢測問題，從而可以更準確地檢測陰影。其次，我們提出了一種可分散注意力的陰影模塊，以將分散注意力的語義集成到我們的端到端多尺度陰影檢測框架中。我們通過實驗證明了我們的模型實現了最新的陰影檢測性能。

2. Related Work

在本節中，我們將重點放在單一圖像陰影檢測方法上。

傳統方法。早期的工作基於光照不變的假設[4，3]建立了物理模型。這樣的假設僅適用於高質量且約束良好的圖像，而對複雜的用戶照片則表現不佳。後來，基於各種手工製作的特徵，爲用戶的照片提出了更多作品[14、20、41]。首先研究了邊緣和像素信息。例如，Zhu等[41]基於紋理，梯度和強度提示訓練了一個分類器。黃等 [14]通過饋送SVM [9]中的邊緣特徵訓練了陰影檢測器。隨後，代替單獨使用像素級提示，而是探索區域級提示。例如，郭等 [7]計算了分割區域的照明特徵，然後使用各個區域信息和成對關係建立了基於圖的分類器。維森特等 [33]訓練了陰影和非陰影區域的分類器，並應用MRF通過利用成對區域上下文來增強性能。以上所有方法都是基於手工製作的功能，這些功能在複雜場景中並不能充分區分。

基於深度學習的方法。最近，由於深度學習在計算機視覺任務中的成功[8，29，22]，基於深度學習的陰影檢測方法變得非常流行。最初，研究人員主要將CNN視爲強大的特徵提取器，並通過強大的深層功能顯着提高了性能。 Khan等 [26]首先將CNN應用於陰影檢測。他們利用7層CNN從超像素中提取特徵，然後將特徵輸入CRF模型以平滑檢測結果。沉等[31]首先通過結構化的CNN提取陰影邊緣，然後解決陰影恢復作爲優化問題。後來，由於全卷積網絡（FCN）的出現，提出了端到端CNN模型[22]。例如，Vicente等 [32]提出了一種語義感知的堆疊CNN模型，用於先提取語義陰影，然後通過基於補丁的CNN細化輸出。

最近，正在探索上下文信息。在[24，34]中，由於對抗訓練策略使生成器能夠模擬整個數據集的分佈，因此採用了生成對抗網絡（GAN）[5]來捕獲上下文信息。特別是，Nguyen等[24]提出了一個scGAN模型，其中將靈敏度參數引入發生器以控制陰影檢測器的靈敏度。 Wang等 [34]提出了一個堆疊的cGAN模型來共同學習陰影檢測和去除。 Le等 [21]通過對抗訓練策略通過減少陰影區域來生成具有挑戰性的樣本，並將生成的樣本與原始圖像一起用於訓練檢測器。與上述上下文獲取方法不同，Hu等人 [12]提出以定向感知的方式探索空間環境，並採用了基於RNN的模塊來學習四個方向的空間環境。朱等 [42]提出了一個雙向遞歸模型，將全局上下文和局部上下文結合起來用於陰影檢測。 Wang等 [36]提出用密集連接聚合多尺度上下文。但是，這些基於上下文的方法仍然會在背景複雜的圖像上失敗，因爲它們使用上下文來幫助最小化地面真實情況和預測之間的差異，這些差異往往會滿足最常見的情況，而忽略了具有挑戰性的情況。在本文中，我們考慮了干擾因素的語義，並提出了一種干擾因素感知模型，該模型對於具有複雜背景的圖像的陰影檢測具有魯棒性。

分心計算機視覺任務。在一些視覺任務中，例如語義分割[13]，顯着性檢測[1，38]和視覺跟蹤[43]中已經探索了干擾的線索。現有工作採用干擾線索來濾除干擾輸入區域[38]或抑制負面的高級表示[13、1、43]。與上述方法不同，我們將陰影干擾分爲FND和FPD兩種類型，並設計特定的體系結構以有效地整合兩種干擾語義。據我們所知，這是在陰影檢測中引入干擾語義的第一項工作。

3. Our Approach

圖2顯示了提出的DSDNet的體系結構。網絡建立在DSS上[11]。與[42]中一樣，我們選擇ResNeXt-101 [39]作爲我們的骨幹網絡。 DSDNet將圖像作爲輸入，並以端到端的方式預測陰影貼圖。首先，將輸入圖像饋入骨幹網絡以提取不同比例的骨幹特徵。類似於[11，40]，我們使用骨幹網每個階段的最後卷積層的輸出，即conv1，res2c，res3b3，res4b2和res5c作爲骨幹網特徵。在每個尺度上，編碼器都將主幹特徵轉換爲圖像特徵。然後，每個DS模塊都將圖像特徵作爲輸入並生成DS特徵，這些特徵捕獲了干擾語義。之後，通過雙線性插值對DS特徵進行上採樣，然後通過密集連接從上到下進行合併，最後發送到卷積層進行融合，如[11]。具體來說，讓 $F_k$ 爲比例 $k$ 的上採樣特徵。可以通過以下方式獲得當前比例下的合併要素： $F_k^m = Conv(Concat(F_k，...，F_1))$ 。最後，將所有陰影預測圖與1x1卷積層融合，然後再通過Sigmoid激活函數輸出軟二進制陰影圖作爲最終輸出。

圖2.網絡架構。 DSDNet將圖像作爲輸入，並以端到端的方式輸出陰影圖。首先，將主幹應用於圖像以獲得不同比例的特徵。在每個尺度上，將骨幹特徵發送到編碼器中以獲取圖像特徵。之後，將應用DS模塊來生成DS功能。在每個尺度中，我們將其DS特徵與較小尺度流中的上採樣DS特徵連接並融合在一起，以預測一組陰影得分圖。最後，我們融合所有陰影得分圖以生成最終的預測圖。

3.1. Distraction-aware Shadow (DS) Module

如圖3所示，DS模塊的輸入是通過任何CNN提取的圖像特徵 $f_{im}∈R^{H×W×32}$ ，輸出是DS特徵 $f_{ds}∈R^{H×W×32}$ 。 DS模塊旨在顯式地學習潛在干擾區域的語義特徵，並將干擾特徵與輸入圖像特徵融合，以產生可用於陰影檢測的干擾感知特徵。它主要由FN子模塊和FP子模塊以及一些組合不同功能的操作（紅線）組成。 FN子模塊和FP子模塊將在下面詳細討論。

圖3. DS模塊的體系結構。圖像特徵（ $f_{im}$ ）通過FN子模塊以生成FN掩模的圖像特徵（ $f_{fnd}^`$ ），將其與 $f_{im}$ 相加以生成FN增強特徵 $f_{im}^`$ 。 FP子模塊將 $f_{im}$ 和 $f_{im}^`$ 作爲輸入，並輸出FP感知圖像特徵 $f_{fpd}^`$ ，將其從 $f_{im}^`$ 中減去以獲得干擾感知特徵 $f_{ds}$

FN子模塊。它旨在學習FN特徵 $f_{fnd} \in R^{H×W×32}$ 和FN-masked特徵 $f_{fnd}^` \in R^{H×W×32}$ ，這些特徵用於增強輸入圖像特徵 $f_{im}$ 。它首先在圖像特徵上使用特徵提取器來提取FN特徵。爲了強制FN特徵捕獲識別潛在FN區域所必需的語義，我們通過估計指示輸入圖像上可能FN位置的軟二進制映射，將FN特徵用於FN預測。然後將FN特徵與圖像特徵連接起來，並輸入到Attention塊中，以生成軟蒙版 $f_{msk}∈[0,1]^{H×W}$ 。然後，通過將 $f_{im}$ 與的 $f_{msk}$ （沿特徵通道）逐元素相乘獲得蒙版圖像表示。爲了增強FN區域上的特徵激活，將 $f_{fnd}^`$ 添加到 $f_{im}$ 中以生成FN增強的圖像特徵。注意機制旨在使網絡能夠快速關注並增強可能的FN區域周圍的功能。這將有助於網絡更好地區分FN區域，這些區域的視覺外觀變化很大，並且與一般陰影大不相同。

FP子模塊。與FN子模塊類似，FP子模塊用於學習FP特徵 $f_{fpd} \in R^{H×W×32}$ 特徵和FP感知特徵 $f_{fpd}^{'} \in R^{H×W×32}$ ，以進一步增強FN特徵。它還採用了與FN子模塊具有相同架構的特徵提取器來提取 $f_{fpd}$ 。爲了強制FP功能捕獲潛在FP區域的有用語義，我們以與FN子模塊相同的方式預測了假陽性的軟二進制映射。然後，我們將 $f_{fpd}$ 和 $f_{im}^`$ 堆疊，並將其饋入Conv塊以生成FP感知圖像特徵，該特徵捕獲假陽性的特徵。由於FP區域與真實陰影的局部相似性，我們使用由幾個卷積層組成的Conv塊捕獲較大的上下文信息，這對於區分FP區域和真實陰影非常有用。最後，我們減去以消除FP特徵對檢測的負面影響。這將使網絡不太可能受到FP干擾。

3.2. Deriving Distraction Supervision

要訓練我們的網絡，我們需要監督來自DS模塊的FP和FN預測。不幸的是，註釋錯誤肯定和錯誤否定既昂貴又主觀。因此，我們建議根據現有陰影檢測模型的預測與其地面實況之間的差異來獲取近似FN和FP地面實況。由於單個模型很難產生所有代表性干擾，因此我們將多種現有方法的預測結合起來以達到目的。特別是，我們選擇一個基線模型和幾個最新模型（[12、42、21]）來生成預測。對於每個圖像，我們首先計算每個模型的預測與對應的地面真實陰影圖之間的差異圖。然後，我們將所有差異圖組合在一起以形成最終差異圖，在該圖中最終將錯誤肯定和錯誤否定視爲基本事實。我們發現，這種近似假陽性和假陰性的方法在我們的模型中效果很好，這將在第4.5節中進行演示。

3.3. Training

我們訓練我們的網絡以共同優化所有比例下的陰影，FN和FP圖的預測，以及最終的陰影圖以及最終的FN和FP圖（其中通過融合不同大小的FN/FP獲得最終的FN/FP圖）通過最小化目標來對DS模塊進行不同比例的掩模預測）：

$L = \alpha \sum_i L_{shadow}^i + \beta \sum_i L_{fn}^i + \lambda \sum_i L_{fp}^i + \alpha L_{shadow}^F + \beta L_{fn}^F + \lambda L_{fp}^F$

$L_{shadow}^i$ 、 $L_{fn}^i$ 、 $L_{fp}^i$ 分別爲第 $i$ 個大小的陰影、FN和FP的預測。 $L_{shadow}^F$ 、 $L_{fn}^F$ 、 $L_{fp}^F$ 是最終的陰影、FN和FP的預測圖。

我們將第 $j$ 個像素的陰影概率表示爲 $p_j$ ，將其地面真實性表示爲 $y_j$ （對於陰影像素， $y_j$ = 1，對於非陰影像素， $y_j$ = 0）。我們針對尺度 $i$ 的陰影損失公式爲，即 $L_{shadow}^i = l_1 + l_2$ 。 $l_1$ 是加權的交叉熵損失，具有類別重新平衡權重，以解決以下事實：圖像中的通常非陰影像素比陰影像素要多得多：

$l_1 = \sum_j (- \frac{N_n}{N_n+N_p} y_j \log(p_j) - \frac{N_p}{N_n+N_p}(1- y_j) \log(1 - p_j)) \tag 2$

其中 $j$ 索引圖像中的所有像素。 $N_n$ 和 $N_p$ 分別表示FN和FP像素的數量。 $l_2$ 是可識別干擾的交叉熵損失（DS損失），它會給干擾像素帶來更多損失，從而迫使網絡將注意力更多地集中在易於誤檢測的區域上。

$l_2 = \sum_j (- \frac{N_n}{N_n+N_p} y_j^{fnd} y_j \log(p_j) - \frac{N_p}{N_n+N_p} y_j^{fpd} (1- y_j) \log(1 - p_j)) \tag 3$

其中 $y_j^{fnd}$ 是FN像素的基本事實，而 $y_j^{fpd}$ 是FP像素的基本事實。對於 $L_{fn}^i$ ， $L_{fp}^i$ ， $L_{fn}^F$ 和 $L_{fp}^F$ ，我們使用與等式2中相同的加權交叉熵損失。 $L_{shadow}^F$ 與 $L_{shadow}^i$ 相同。

4. Experiments

在本節中，我們首先介紹實現細節（第4.1節），評估數據集和評估指標（第4.2節）。然後，我們將結果與現有的陰影檢測方法（第4.3節）和顯着物體檢測方法（第4.4節）進行定量和定性比較。我們進一步分析了引入干擾語義的影響（第4.5節），並進行了徹底的消融研究以分析所提出的模型（第4.6節）。最後，我們分析了產生干擾監管的各種策略的效果（第4.7節）。

4.1.　Implementations Details

網絡詳細信息。我們的模型是在PyTorch中實現的。如上所述，ResNext-101被選作骨幹網絡，以便與最新工作進行公平比較[42]。除非另有說明，否則在我們的網絡中使用的卷積層都緊跟着批處理歸一化層和ReLu激活函數。對於圖2中的編碼器，它由2個卷積層組成，每個卷積層具有32個大小爲3×3的內核。對於FN子模塊和FP子模塊，特徵提取器都有2個卷積層，有32個大小爲3×3的核。FN子模塊中的Attention塊有一個卷積層，其中有64個大小爲3×3的內核，接着是Sigmoid激活函數。對於FP子模塊中的Conv塊，它由1個殘差塊組成（其中3個卷積層各有64個卷積核，內核大小分別爲1×1,3×3和1×1），然後是另一個3個卷積層（第一層有64個卷積核，其他兩層有32個卷積核），內核大小分別爲1×1,3×3和1×1。

訓練和推理細節。 ResNext-101在ImageNet上進行了預訓練，其他參數被隨機初始化。我們使用SGD優化器優化參數，瞬時矩 $momententum = 0.9$ ，權重衰減 $weight\_decay= 5×10^{−4}$ ，批處理大小爲10。我們將初始學習率設置爲 $5×10^{−3}$ ，並通過參數爲0.9多項式策略將其降低學習率。通過隨機水平翻轉來增強訓練數據，並將圖像大小調整爲320×320。我們對模型進行了5,000次迭代訓練。對於損耗權重，我們將α設置爲1，將β和λ設置爲4。爲進行推斷，我們將輸入圖像的大小調整爲320×320，並將其輸入模型以預測輸出。最後，我們將CRF [18]作爲後期處理來平滑輸出。

4.2. Dataset and Evaluation Metrics

數據集。我們使用三個公共數據集UCF [41]，SBU [32]和ISTD [32]來評估我們的方法。 UCF數據集包含245張圖像，其中110張用於評估。 SBU數據集是涵蓋一般場景的最大陰影數據集，包含4,089個訓練圖像和638個測試圖像。 ISTD是最近提出的用於陰影檢測和去除的數據集。它包含1,870個陰影圖像，陰影貼圖和無陰影圖像的三元組，其中有540個用於測試。我們僅將其圖像和陰影貼圖用於陰影檢測評估。所有測試圖像均提供逐像素註釋。請注意，對於SBU和UCF，我們在SBU訓練數據集上訓練模型，並在SBU和UCF上進行測試，分別爲[42，12，21]。 ISTD僅包含投射陰影圖像（投射陰影的對象不可見），與SBU中的圖像不同。因此，我們在ISTD訓練數據集上重新訓練所有模型，並在測試數據集上評估它們的性能。

評估指標。我們採用平衡誤差率（BER）[33]定量評估結果，如下所示：

$BER = 1 - 0.5*(\frac{N_{tp}}{N_p} + \frac{N_{tn}} {N_n}) \tag 4$

其中 $N_{tp}$ ， $N_{tn}$ ， $N_n$ 和 $N_p$ 分別表示真陽性，真陰性，陰影像素和非陰影像素的數量。 BER可有效評估類不平衡結果，因此被廣泛用於陰影評估。分數越低表示性能越好。

表1.陰影定量檢測結果。我們將我們的方法與最新的陰影檢測方法，BDRAR [42]，ADNet [21]，DSC [12]，ST-CGAN [34]，scGAN [24]和Stacked-CNN [32]以及顯着性進行比較物體檢測方法RAS [1]和SRM [35]。較低的值表示較好的性能。最佳結果以粗體突出顯示

4.3. Comparison with Shadow Detection Methods

我們將我們的方法與最新的陰影檢測方法進行比較：ADNet [21]，BDRAR [42]，DSC [12]，ST-CGAN [34]，scGAN [24]和stackedCNN [32]。爲了公平地比較，我們使用作者在SBU和UCF上的結果（DSC和BDRAR除外，因爲它們在與我們不同的測試劃分上提供了他們的結果；因此我們在UCF上運行他們提供的模型來獲得結果）。對於ISTD，我們使用提供的代碼在ISTD訓練數據集上對DSC和BDRAR進行重新訓練。不幸的是，由於我們無法獲得其他方法的結果或代碼，因此我們採用了ST-CGAN [34]中報告的評估值。（對於ADNet，由於我們無法獲得培訓代碼或評估值。我們無法報告任何結果。）表1顯示了定量比較結果。它表明我們的方法在所有三個測試數據集上均具有最佳的BER分數。與性能最佳的現有方法BDRAR相比，我們的方法在SBU和UCF上的BER得分分別降低了5.22％和2.82％。這表明我們的模型具有良好的泛化能力。此外，我們的模型在陰影和非陰影像素上的BER得分更接近。一個可能的原因是，當我們明確考慮兩種類型的干擾時，它迫使網絡在陰影區域和非陰影區域之間均勻地平衡其性能。

我們進一步顯示了一些視覺結果，以定性比較我們的方法和現有方法，如圖4所示。從前三行可以看到，與其他方法相比，我們的方法具有更好的區分真實陰影和陰影的能力。具有陰影外觀的非陰影（潛在的誤報）。例如，在第一行中，DSDNet可以準確地檢測陰影區域，而某些現有方法（例如ADNet）往往會將網球運動員的黑色短褲誤檢測爲陰影。在第三行中，現有方法（例如ADNet和BDRAR）將黑色鐵製品誤檢測爲陰影。最後三行顯示在某些具有挑戰性的情況下的陰影檢測結果，其中真實陰影在視覺上與其上下文相似（潛在的假陰性）。我們可以看到我們的方法仍然可以成功消除這些情況的歧義，而其他方法則缺少一些真實的陰影區域。例如，在第四行中，除BDRAR之外，所有現有方法都將陰影區域下白色條帶的某些部分檢測爲非陰影（假陰性），而BDRAR無法檢測到陰影區域之間的非陰影區域。兩條腿。相反，我們的方法可以正確預測它們。

最後，我們想研究由我們的DS模塊產生的FP和FN預測，如圖5所示。這些結果可以闡明如何明確整合干擾語義可以幫助陰影檢測，尤其是在某些具有挑戰性的情況下。例如，在第一行中，我們的FP預測器將道路上支柱的黑色部分估計爲假陽性，這有助於我們的模型從陰影中正確地區分該區域。在第二行中，我們的FN預測值在與周圍建築物高度相似的陰影區域上激活。這可以幫助我們的模型解決陰影區域內可能存在的歧義。

圖4.與其他陰影檢測方法相比，我們的方法的定性結果。

4.4. Comparison with Salient Object Detection Methods

顯着物體檢測方法將圖像作爲輸入，並輸出密集的標籤預測圖。這樣的模型可以在陰影檢測數據集上重新訓練，並用於陰影檢測。爲了進行比較，我們在與我們相同的數據集上重新訓練和測試了兩個最新的顯着物體檢測模型[1，35]。我們使用作者提供的代碼重新訓練這些模型，並調整參數以獲得最佳性能。表1的最後兩行報告結果。我們看到，顯着的物體檢測模型可以在陰影檢測方面給出令人鼓舞的結果，並且在某些情況下，它們的性能甚至比某些陰影檢測方法還要好[34、32、24]。但是，我們的方法仍然優於它們。

4.5. Effects of Distraction Semantics

爲了探索在模型中明確考慮分散注意力語義的有效性，我們將完整模型與其幾個變體進行了比較：（1）沒有DS模塊或DS損失：我們刪除了公式3中的DS模塊和DS損失。這可以被視爲簡單的基準。（2）僅帶DS模塊。（3）只有DS損失。結果記錄在表2中。沒有DS模塊或沒有分散注意力的損失，我們的模型性能最差。添加DS模塊或增加DS損耗將大大提高性能。當同時使用DS模塊和DS損耗時，我們的模型（完整模型）可實現最佳性能。這表明明確考慮干擾因素對我們的性能至關重要，並且DS模塊和DS損耗在我們的模型中都是必要的。

表2。消融研究結果。 BER分數在三個數據集上報告。最佳結果以粗體突出顯示。

4.6. Ablation Study

爲了評估擬議的分散注意力陰影模塊的設計選擇，我們將DS模塊與其消融版本進行了比較：

簡單融合：我們用簡單融合方法替換DS模塊，在該方法中，我們將FN特徵添加到圖像特徵中，並從生成的特徵中減去FP特徵，以獲得DS特徵。
兩個Attention：我們將FP子模塊的架構設置爲與FN子模塊的架構相同。
兩個convs：我們將FN子模塊的結構設置爲與FP子模塊的結構相同。
不帶FN子模塊：我們卸下FN子模塊，僅保留FP子模塊。
不帶FP子模塊：我們卸下FP子模塊，僅保留FN子模塊。

在表2（第4至第8行）中，我們可以看到簡單融合方法的性能最差，這表明帶有簡單加法的直接融合在合併干擾語義方面並不有效。當僅考慮一種干擾類型（第4-5行）時，其性能比我們的完整模型差，這表明必須同時考慮兩種干擾類型。當FN和FP子模塊（第7-8行）使用相同的體系結構時，性能也比我們的完整模型差。這意味着開發不同的融合策略以適應兩種干擾類型的獨特特徵非常重要。

4.7. Distraction Supervision Generation Strategies

我們將進一步探討產生分散注意力監督的不同策略的效果，在3.2節中討論：

無監督：我們取消了分散注意力的監督，僅使用陰影圖作爲監督（公式2和3）來學習我們的模型。
單一模型：我們僅選擇基線模型[10]來計算分散注意力。
我們的模型：模型訓練後，我們將訓練後的模型產生的干擾作爲監督來重新訓練模型。
多個模型：我們將完整模型中使用的多個現有模型的輸出合併在一起。

表3顯示了三個數據集SBU，UCF和ISTD的結果。與不使用任何干擾監控或僅使用單個模型的情況相比，使用多個模型的性能更好。如果不使用任何干擾監控信號，模型將很難學習有用的干擾感知功能。我們組合多個模型的策略可以減輕單個模型的偏差，從而使我們能夠爲模型生成更可靠的注意力分散監督。請注意，使用我們訓練有素的模型來產生干擾力的監督效果最差。由於訓練有素的模型在處理FP和FN方面表現出色，因此由於訓練有素的模型產生的干擾會變得非常少見，因此迫使我們的模型專注於少數幾個罕見的案例會損害其在其他常見案例上的表現，從而導致整體性能的下降。

表3. 干擾監督的不同策略的結果。 BER分數在三個數據集上報告。最佳結果以粗體突出顯示。

5. Conclusion

在本文中，我們提出了一種可感知干擾的陰影檢測網絡（DSDNet）進行陰影檢測。我們的網絡通過提議的“可感知分心的陰影”（DS）模塊明確考慮了分心語義。 DS模塊通過精心設計的融合策略，通過明確學習的干擾特徵來增強輸入圖像特徵，以產生可感知干擾的特徵，以進行可靠的陰影檢測。實驗結果表明，我們的模型可以很好地解決陰影檢測中的難題和歧義情況，並在SBU，UCF和ISTD數據集上產生了最新的性能。
儘管我們的方法可以處理大多數具有挑戰性的情況，但對於某些弱陰影圖像（陰影的亮度與背景非常相似）或某些背景非常暗的圖像（陰影幾乎混入背景），它可能會失敗。在圖6中可以找到解決此問題的方法。可以用更多的弱陰影樣本或深色背景樣本來擴充數據集。作爲未來的工作，我們計劃研究各種類型的極端陰影問題。

圖6.失敗案例。對於某些弱陰影圖像（頂部）或某些背景非常暗的圖像（底部），我們的方法可能會失敗。

Distraction-Aware Shadow Detection