顯著性檢測之A Bi-directional Message Passing Model for Salient Object Detection

原創

2019-08-31 07:09

A Bi-directional Message Passing Model for Salient Object Detection

原始文檔：https://www.yuque.com/lart/papers/bmpm

這是CVPR2018的一篇文章, 這裏做一個簡短的記錄. 文章主要的目的就是通過設計網絡來更好地集成不同層級得到的特徵信息.

主要工作

通過一些工作的分析, 文章提出了存在的一些不足:

現有的工作受限於有限的感受野, 學習到的特徵可能不能包含豐富的上下文信息來準確的檢測尺度、形狀和位置多變的目標.
現有工作主要使用來自深層卷積層的高級特徵, 低級的空間信息的缺少可能導致顯著性圖難以保持細緻的邊緣. 一些新工作的開始嘗試利用多層級卷積特徵來進行顯著性檢測.
現有的使用短連接溝通深層與淺層特徵的方式, 大多是僅僅將深層的側輸出連接到淺層, 並且忽略了反向的信息傳輸. 因此深層側輸出仍然缺乏低級信息, 這些存在於淺層側輸出中.
現有的工作也有直接拼接所有的來自深層和淺層的特徵來集成多級特徵, 然而, 直接的拼接所有層級, 沒有考慮互相的重要性權重, 這並不是一個有效的融合的方式. 因爲多層級特徵並不總是對於每一個輸入圖像有效.

針對這些問題, 本文提出了幾個針對性的解決方案:

設計了一個利用不同擴張率的卷積層並行處理編碼器特徵的模塊(多尺度上下文特徵提取模塊: MCFEM), 之後進行拼接, 以獲得融合了多尺度的上下文信息的特徵.
引入門控雙向信息傳遞模塊(GBMPM), 提供一個自適應並且有效的策略來集成多層級特徵. 集成的特徵互相補充, 並且對於處理不同的場景下的情況具有一定的魯棒性.
使用雙向結構來在不同層級之間的特徵傳遞信息, 高層語義信息傳遞到淺層, 低級空間細節包含在淺層特徵並傳遞到相反的方向. 這樣語義信息和細節信息被插入到每一個層級.
使用門控結構, 來控制信息的傳遞, 從而傳遞有用的特徵, 丟棄多餘的特徵.

總結起來就是:

圖中主要包含了這樣一些過程:

使用VGG16進行特徵提取, 移除原始VGG的全連接層和最後一個池化層.
Multi-scale Context-aware Feature Extraction
1. 使用MCFEM通過拼接並行的擴張卷積處理結果獲得融合了不同尺度信息的特徵.
Gated Bi-directional Message Passing
1. 使用2獲得的特徵進一步送入GBMPM的三部分結構:h, h, G.
  1. , ,
2. 使用獲得的h, h來獲得h.
Saliency Inference
1. 使用1x1卷積處理生成階段性的預測, 並上採樣進行融合獲得最後的輸出
最終使用交叉熵計算損失

We utilize the training set of DUTS dataset to train our proposed model. It contains 10553 images with high-quality pixel-wise annotations.
We augment the training set by horizontal flipping and cropping the images to relieve the over-fitting problem, as suggested in [18]. We don’t use the validation set and train the model until its training loss converges.
A NVIDIA Titan X GPU is used for training and testing.
The parameters of the first 13 convolutional layers are initialized by VGG-16 net. For other convolutional layers, we initialize the weights using truncated normal method.
The convolutional parameters of our message passing module in Sec. 3.3 are not shared, and the upsampling and downsampling are conducted simply by bilinear interpolation.
Our model is trained using Adam with an initial learning rate at 1e-6. The training process of our model takes about 30 hours and converges after 12 epochs.
During testing, our proposed model runs about 22 fps with 256 × 256 resolution.