顯著性檢測2018（ECCV, CVPR）【part-1】

1.《Salient Object Detection Driven by Fixation Prediction》

ASNet 網絡結構圖如下：

其中，具體的模塊連接實現如下圖：

（1）創造性地將Fixation Prediction任務和Salient Object Detection任務結合起來，通過左邊特徵提取器top-layer（全局語義信息豐富）得到Fixation Map，並用於指引Salient Map的預測。具體的，採用top-down形式，從上到下不斷融合low-level信息優化Salient Map. (ConvLSTM應用於靜態圖上可有助於迭代優化保留顯著特徵）
（2）FP部分損失函數爲Kl散度（類似於交叉熵損失）

SOD部分根據其評價指標Precision, Recall, F-Measure-scores, MAE，創造性地提出相對應的損失函數，加強模型訓練。具體的，SOD損失函數如下：

其中，第一部分爲SOD常見損失，Weighted Cross-Entropy，後四部分爲相應新提出的損失函數

（3）FP和SOD任務合二爲一，相互促進，二者的數據集都可用來訓練ASNet. 但是，不是所有的數據集都有兩者任務的label。如圖：

所以，具體訓練時，加入y^A和y^S，二者均取值0或1.用來標記當前訓練圖片是否有FP或SOD的label.

評估指標得分：

DataSet	F-Score	MAE
ECCSD	0.928	0.043
HKU-IS	0.920	0.035
PASCAL-S	0.857	0.072

2.《A Bi-directional Message Passing Model for Salient Object Detection》

BMPM網絡結構圖如下：

主要創新點在於提出兩個模塊實現 Multi-Scale 和 Multi-Level。
（1）Multi-scale Context-aware Feature Extraction Module (MCFEM模塊),對特徵提取backbone的每一個level做4次空洞卷積（空洞率爲1，3，5，7），以此改變感受野的大小進而獲取Multi-scale特徵。卷積核尺寸爲3*3，32個。將4次卷積結果（即4個尺寸特徵）concatenate，得到128維特徵。

（2）Gated Bi-directional Message Passing Module (GBMPM模塊)
本文最大創新點即在於提出該雙向特徵流通模塊，高層語義特徵可以傳給低層，低層空間特徵也可豐富高層信息，使得每個level的特徵都豐富起來。門控網絡還可在流通過程中實現特徵的選擇。
（3）採用top-down形式預測顯著圖，每個level都給出預測，並且高層的預測疊加到低層上，最低層的預測S₁即爲顯著圖最終預測結果。採用交叉熵損失函數計算最終預測圖和ground truth損失。

評估指標得分：

DataSet	F-Score（max）	MAE
ECSSD	0.928	0.044
HKU-IS	0.920	0.038
PASCAL-S	0.862	0.074
SOD	0.851	0.106
DUTS-test	0.850	0.049

3.《Progressive Attention Guided Recurrent Network for Salient Object Detection》

PAGR網絡結構圖如下：

（1）top-down形式，使用注意力機制指導融合Multi-level特徵，逐步優化顯著預測圖
（2）採取多路循環反饋機制，將top layer 特徵傳給shallower layers,不斷優化網絡

具體的：
【1】注意力模塊（聯合channel-wise 和 spatial attention ）如下：

【2】逐步注意力指導模塊（Progressive Attention Guidance Module）

頂層（L層）的注意力操作後的特徵上採樣與低一層（L-1層）特徵相加融合，融合後的L-1層特徵再經過注意力模塊和上採樣後與L-2層特徵融合……以此類推。每層都根據注意力後的特徵預測顯著圖（受到Ground Truth 監管）。
自上而下通過注意力機制不斷融合高層和低層特徵，越往下得到越優的顯著圖預測效果。將最後一級（S₃）輸出的預測圖作爲最終預測結果。
【3】多路循環反饋指導模塊（MultiPath Recurrent Guidance Module）

該模塊不是獨立的模塊，上圖只是爲了更好的解釋。實際上，就是在完成一次模型預測（t=1）後，通過圖1的虛線進行反饋，（t=2）反饋操作具體爲產生灰色模塊，與原本網絡模型相應模塊相加然後繼續前饋傳播，得到新的顯著圖預測。依次可不斷循環迭代執行t=3,4,5……不斷優化網絡和預測結果。

作者通過實驗證明，圖1的連接方法(連接Conv5-1,4-1,3-1)，循環1次，即T=2,有最優預測結果輸出。

評估指標得分：

DataSet	F-Score	MAE
ECSSD	0.891	0.064
HKU-IS	0.886	0.048
THUR15K	0.729	0.070
PASCAL-S	0.803	0.092
DUT-OMRON	0.711	0.072
DUTS	0.788	0.055

4.《Reverse Attention for Salient Object Detection》

RAS網絡結構圖如下：

（1）同樣是top-down形式不斷融入低層特徵，優化顯著圖預測輸出。每個level給出的預測都受Ground Truth的監管。不同的是融合方法，參用基於反向注意模塊的殘差學習方法融合補充低層特徵。
採用殘差學習方式：即L-1層顯著圖=L層顯著圖+補充特徵。該方法方便實現特徵補充，同時保證L-1層顯著圖不會比L層差。補充特徵由反向注意力模塊+卷積操作實現。
反向注意力模塊如下：參用Erase的思想，將高層的顯著部分擦掉，即將顯著圖黑白反轉，得到反向注意力權重（注意非顯著部分）並與特徵相乘，獲得Weighted convolutional feature.
這樣做的原因是：殘差學習方式確保了高層的顯著部分可以通過skip-connection直接保存，所以該模塊應該在高層非顯著部分進行補充特徵的找尋。因爲有Ground Truth的監管學習，最終會補充那些本屬於顯著部分卻沒有被高層找到的邊緣部分特徵信息，從而進一步優化該層的顯著預測圖。

評估指標得分：

DataSet	F-Score（max）	MAE
ECSSD	0.918	0.059
HKU-IS	0.913	0.045
MSRA-B	0.931	0.036
PASCAL-S	0.834	0.104
DUT-OMRON	0.786	0.062
SOD	0.844	0.124

5.《PiCANet: Learning Pixel-wise Contextual Attention for Saliency Detection》

提出了Global 和 Local 兩個PiCANet模塊，用於整合全局和局部上下文信息，融入到原有UNet網絡中，提升整體效果。

（1）Global PiCANet
使用ReNet, 具體的，在水平和豎直方向均使用雙向LSTM（biLSTM）,以此捕獲4個方向的信息，進而使每個像素擁有全局上下文環境。
對ReNet網絡的輸出的feature map，reshape爲D個channel,D=W×H（即像素點總數）,這樣每個像素位置的特徵向量，都是該像素對全局像素的響應關係。於是：通過softmax就可得到針對當前像素，全局像素的對應響應權重（關聯程度）。

進而通過attention value 與對應全局特徵相乘，更新當前像素的特徵：

（2）Local PiCANet
通過卷積操作使得感受野大小爲局部大小（W^~×H^~）,來實現局部信息相關性的捕獲。同上，reshpae 相關性特徵channel 爲 D^~ =W^~×H^~, 然後softmax得到attention map，與對應特徵相乘更新當前像素點特徵。

（3）完整的顯著性檢測網絡基於UNet，並加入上述PiCANet模塊。

採用深度監管策略，每個Decoder都給出預測，並於Ground Truth計算交叉熵loss.

總結：

除了各自的創新之外，上述5篇論文還有一些可以對比分析的共同點和不同點。這5篇論文都是基於FCN模型的，採取bottom-up給出high-level預測，top-down形式不斷融合低層特徵優化顯著圖預測輸出。其中1，3，4，5篇論文皆採用Ground Truth中間監督策略，優化指導每層顯著圖的預測結果，第2篇論文僅用Ground Truth對最終的顯著預測圖計算損失進行優化。
不同的是高低層特徵的融合方法。第1篇：參用ConvLSTM; 第2篇：採用雙向信息傳播；第3篇：採用注意力機制；第4篇：採用基於反向注意（Erase）的殘差學習第5篇加入關注全局和局部信息的PiCANet模塊。

6.《Detect Globally, Refine Locally: A Novel Approach to Saliency Detection》

DGRL網絡

創新點：提出global Recurrent Localization Network(RLN) 給出initial saliency map, 然後通過local Boundary Refinement Network (BRN)修正局部邊界信息。
（1）Recurrent Localization Network [包括an inception-like Contextual Weighting Module (CWM) and a Recurrent Module (RM)].

a. CWM

爲了獲得Multi-Scale-Context信息, 使用3個不同卷積核大小的context filters. 經過處理後將結果concate起來，送入卷積層，得到 channel=1的上下文權重響應參數M^k.

經過softmax, 得到最終響應圖。

然後對其上採樣作用於對於特徵上（element-wise production），完成特徵更新。©代表第c個channel. 即以channel爲單位進行相乘更新特徵。

b. RM

每個block的輸入特徵由前一個block的當前步的輸出特徵+該block上一步的輸出特徵組成。 W^f 和 W^r 代feed-forward 和 recurrent 權重參數。其中， W^f 每步採用共享參數策略， W^r則爲每步獨立學習，以更優的藉助CWM的響應圖修正特徵。

（2）local Boundary Refinement Network (BRN)

將original input image 和RLN給出的saliency map concate 起來送入BRN模塊。對每個位置，BRN產生一個propagation coefficient vector, flat爲 n×n 方形。對每個像素位置i, 通過其鄰居像素（n×n）與propagation coeffcient V_i相乘求和，更新當前像素i.

相比於initial saliency map, 修正後的saliency map就其外觀表面來看不應修改太多，所以作者對BRN模塊做了一定的初始化限制，詳情參加論文。