【CVPR2017】Richer Convolutional Features for Edge Detection論文閱讀筆記

一、作者

二、方法概括

    本文提出一種準確的邊緣檢測方法,使用豐富的卷積特徵richer convolutional features(RCF)。使用VGG16網絡,取得state-of-the-art性能,在BSDS500數據集,獲得ODS 0.811,125ms每幅,超過人類性能(ODS 0.803)。此外,我們有個加速版本,33ms每幅,ODS 0.806。

三、創新點和貢獻

    跟HED很類似,不同之處是將CNN卷積網絡的每一層都利用起來,而HED只利用CNN每個階段的最後一個卷積層。

 

四、方法細節

  1. 網絡結構

    網絡對VGG16進行了修改。VGG16網絡由13個卷積層和3個全連接層構成。不同層的網絡結構如下圖所示,隨着層數加深,感受野加大,提取的特徵更粗糙,各層感受野大小如下表所示:

 

    本文的網絡結構如下圖所示,輸入圖像爲任意尺寸,輸出爲同尺寸的邊緣圖。

    相比於VGG16,主要更改爲:

  1. 移除了pool5和全連接層;
  2. 每個卷積層後跟了一個1*1的卷積層,channel depth爲21。每個階段使用eltwise層將這些結果層相加(對應元素相加),獲取混合特徵;
  3. 每個eltwise層後跟一個1*1卷積層 ,channel depth爲1。然後deconv層去up-sample特徵圖;
  4. 反捲積後接cross-entropy loss層(訓練)/sigmoid層(測試);
  5. 所有up-sampling層串連,然後使用1*1卷積層去融合每個階段特徵圖,然後接cross-entropy loss層(訓練)/sigmoid層(測試)獲得fusion loss/輸出。

    以上所有參數都是自動學習的,因爲VGG16的卷積層的感受野尺寸不同,所以網絡可以學到多尺度的特徵。

  1. Annotator-robust Loss方程

    我們將所有gt進行平均生成邊緣概率圖,像素值在[0,1]之間,0表示沒有annotator進行標註,1表示所有annotator都標註爲邊緣點。像素值高於 表示正樣本,0表示負樣本,低於 高於0作爲ignore(不計算loss)。

    根據像素的label計算每個像素的loss:

    分別表示正負樣本,超參數 用來平衡正負樣本。Xi爲像素i的activation值(CNN特徵向量), 爲像素i的gt邊緣概率值。P(X)是標準sigmoid方程,W表示所有學習到的參數。因此,我們的改進的loss方程爲:

每個像素在五個階段和融合層的loss的相加值

    是階段k的激活值, 是融合層的激活值。 是image I的像素個數,K是階段數,這裏爲5。

  1. 多尺度層級邊緣檢測

    單尺度邊緣檢測:輸入圖像,輸出邊緣圖,尺寸相同。

    爲了改善邊緣質量,我們使用圖像金字塔進行測試。resize圖像構造圖像金字塔,然後分別輸入單尺度邊緣檢測網絡。所有邊緣圖結果經過雙線性插值縮放到原始輸入尺寸。最後所有邊緣圖經過平均化得到最終結果。

    我們嘗試過權重相加,發現平均化效果最好。爲了權衡性能和速度,我們使用0.5、1.0、1.5的尺度。多尺度性能從0.806提升至0.811,速度從30FPS降到8FPS。

  1. 與HED的比較

區別在以下三方面:

  1. 網絡結構:HED只用了VGG16的每個階段的最後一層卷積層,丟失了很多邊緣信息。
  2. gt選擇:提出新的loss方程,只使用標註人標的最多正樣本像素。
  3. 多尺度:我們使用多尺度多層級去加強邊緣。

實驗結果在ODS的F值比HED增加2.3%,證明以上改善有用。

 

五、實驗結果

使用公用平臺的Caffe,在ImageNet上預訓練的VGG16初始化本網絡。Pool4層的stride從2變爲1,使用atrous算法填補空洞。RCF訓練時,前5階段的1*1卷積層從0均值、標註方差0.01、偏差0的高斯分佈初始化權重。Fusion階段1*1卷積層的權重從0.2,偏差從0開始初始化。採用minibatch SGD,每個iteration隨機採樣10張圖像,全局學習率爲1e-6,每隔1萬輪減小10倍。Momentum爲0.9,權重衰減爲0.0002。我們總共訓練4萬輪。Loss方程的參數 取決於訓練數據。使用GPU Titan X。

  1. BSDS500數據集

訓練集200,驗證集100,測試集200,每幅圖4-9人標註。使用訓練集+驗證集+Pascal VOC Context數據集作爲訓練集。 爲0.5和1.1。

評價時,細的邊緣使用標準NMS過濾。圖5顯示RCF跟傳統和深度學習邊緣檢測算法的比較。RCF性能最佳,甚至多尺度RCF性能比人眼性能更佳。證明所有卷積層都包含有幫助性的層次信息,並不只有每階段的最後一層卷積纔有用。

速度方面,RCF30FPS,RCF-MS爲8FPS,HED爲30FPS,Canny爲28FPS。

  1. NYUD數據集(略)

    NYUD包括1449標註的RGB圖像和對應的深度圖像,381張訓練,414張驗證,654張測試。

  1. Multicue數據集(略)

    Multicue數據集是爲了學習心理物理學來邊界檢測的。由簡短的雙目視頻組成,視頻由100幀具有挑戰性的立體攝像頭拍攝的自然場景圖像構成。

  1. 網絡討論

嘗試VGG部分卷積階段接rcf的side輸出,其餘部分接hed,在BSDS上訓練測試,說明rcf的網絡結構比hed的好。

嘗試在每個階段的1*1*21或者1*1*1卷積層後接ReLU層,性能變差。特別是加在1*1*1之後,網絡不能很好的收斂。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章