【CVPR2017】Richer Convolutional Features for Edge Detection論文閱讀筆記

原創

2019-08-09 21:01

一、作者

二、方法概括

本文提出一種準確的邊緣檢測方法，使用豐富的卷積特徵richer convolutional features(RCF)。使用VGG16網絡，取得state-of-the-art性能，在BSDS500數據集，獲得ODS 0.811，125ms每幅，超過人類性能（ODS 0.803）。此外，我們有個加速版本，33ms每幅，ODS 0.806。

三、創新點和貢獻

跟HED很類似，不同之處是將CNN卷積網絡的每一層都利用起來，而HED只利用CNN每個階段的最後一個卷積層。

四、方法細節

網絡結構

網絡對VGG16進行了修改。VGG16網絡由13個卷積層和3個全連接層構成。不同層的網絡結構如下圖所示，隨着層數加深，感受野加大，提取的特徵更粗糙，各層感受野大小如下表所示：

本文的網絡結構如下圖所示，輸入圖像爲任意尺寸，輸出爲同尺寸的邊緣圖。

相比於VGG16，主要更改爲：

移除了pool5和全連接層；
每個卷積層後跟了一個1*1的卷積層，channel depth爲21。每個階段使用eltwise層將這些結果層相加(對應元素相加)，獲取混合特徵；
每個eltwise層後跟一個1*1卷積層，channel depth爲1。然後deconv層去up-sample特徵圖；
反捲積後接cross-entropy loss層(訓練)/sigmoid層(測試)；
所有up-sampling層串連，然後使用1*1卷積層去融合每個階段特徵圖，然後接cross-entropy loss層(訓練)/sigmoid層(測試)獲得fusion loss/輸出。

以上所有參數都是自動學習的，因爲VGG16的卷積層的感受野尺寸不同，所以網絡可以學到多尺度的特徵。

Annotator-robust Loss方程

我們將所有gt進行平均生成邊緣概率圖，像素值在[0，1]之間，0表示沒有annotator進行標註，1表示所有annotator都標註爲邊緣點。像素值高於表示正樣本，0表示負樣本，低於高於0作爲ignore（不計算loss）。

根據像素的label計算每個像素的loss：

分別表示正負樣本，超參數用來平衡正負樣本。Xi爲像素i的activation值（CNN特徵向量），爲像素i的gt邊緣概率值。P(X)是標準sigmoid方程，W表示所有學習到的參數。因此，我們的改進的loss方程爲：

每個像素在五個階段和融合層的loss的相加值

是階段k的激活值，是融合層的激活值。是image I的像素個數，K是階段數，這裏爲5。

多尺度層級邊緣檢測

單尺度邊緣檢測：輸入圖像，輸出邊緣圖，尺寸相同。

爲了改善邊緣質量，我們使用圖像金字塔進行測試。resize圖像構造圖像金字塔，然後分別輸入單尺度邊緣檢測網絡。所有邊緣圖結果經過雙線性插值縮放到原始輸入尺寸。最後所有邊緣圖經過平均化得到最終結果。

我們嘗試過權重相加，發現平均化效果最好。爲了權衡性能和速度，我們使用0.5、1.0、1.5的尺度。多尺度性能從0.806提升至0.811，速度從30FPS降到8FPS。

與HED的比較

區別在以下三方面：

網絡結構：HED只用了VGG16的每個階段的最後一層卷積層，丟失了很多邊緣信息。
gt選擇：提出新的loss方程，只使用標註人標的最多正樣本像素。
多尺度：我們使用多尺度多層級去加強邊緣。

實驗結果在ODS的F值比HED增加2.3%，證明以上改善有用。

五、實驗結果

使用公用平臺的Caffe，在ImageNet上預訓練的VGG16初始化本網絡。Pool4層的stride從2變爲1，使用atrous算法填補空洞。RCF訓練時，前5階段的1*1卷積層從0均值、標註方差0.01、偏差0的高斯分佈初始化權重。Fusion階段1*1卷積層的權重從0.2，偏差從0開始初始化。採用minibatch SGD，每個iteration隨機採樣10張圖像，全局學習率爲1e-6，每隔1萬輪減小10倍。Momentum爲0.9，權重衰減爲0.0002。我們總共訓練4萬輪。Loss方程的參數和取決於訓練數據。使用GPU Titan X。

BSDS500數據集

訓練集200，驗證集100，測試集200，每幅圖4-9人標註。使用訓練集+驗證集+Pascal VOC Context數據集作爲訓練集。和爲0.5和1.1。

評價時，細的邊緣使用標準NMS過濾。圖5顯示RCF跟傳統和深度學習邊緣檢測算法的比較。RCF性能最佳，甚至多尺度RCF性能比人眼性能更佳。證明所有卷積層都包含有幫助性的層次信息，並不只有每階段的最後一層卷積纔有用。

速度方面，RCF爲30FPS，RCF-MS爲8FPS，HED爲30FPS，Canny爲28FPS。

NYUD數據集（略）

NYUD包括1449標註的RGB圖像和對應的深度圖像，381張訓練，414張驗證，654張測試。

Multicue數據集（略）

Multicue數據集是爲了學習心理物理學來邊界檢測的。由簡短的雙目視頻組成，視頻由100幀具有挑戰性的立體攝像頭拍攝的自然場景圖像構成。

網絡討論

嘗試VGG部分卷積階段接rcf的side輸出，其餘部分接hed，在BSDS上訓練測試，說明rcf的網絡結構比hed的好。

嘗試在每個階段的1*1*21或者1*1*1卷積層後接ReLU層，性能變差。特別是加在1*1*1之後，網絡不能很好的收斂。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【CVPR2017】Richer Convolutional Features for Edge Detection論文閱讀筆記

【CVPR2018】MobileFaceNets Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices

【CVPR2018】ERFNet: Efficient Residual Factorized ConvNet for Real-time Semantic Segmentation

Histogram of Oriented Gridients(HOG) 方向梯度直方圖

對線性迴歸、邏輯迴歸、各種迴歸的概念學習

GitHub的使用總結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結