一、作者
二、方法概括
本文提出一種準確的邊緣檢測方法,使用豐富的卷積特徵richer convolutional features(RCF)。使用VGG16網絡,取得state-of-the-art性能,在BSDS500數據集,獲得ODS 0.811,125ms每幅,超過人類性能(ODS 0.803)。此外,我們有個加速版本,33ms每幅,ODS 0.806。
三、創新點和貢獻
跟HED很類似,不同之處是將CNN卷積網絡的每一層都利用起來,而HED只利用CNN每個階段的最後一個卷積層。
四、方法細節
- 網絡結構
網絡對VGG16進行了修改。VGG16網絡由13個卷積層和3個全連接層構成。不同層的網絡結構如下圖所示,隨着層數加深,感受野加大,提取的特徵更粗糙,各層感受野大小如下表所示:
本文的網絡結構如下圖所示,輸入圖像爲任意尺寸,輸出爲同尺寸的邊緣圖。
相比於VGG16,主要更改爲:
- 移除了pool5和全連接層;
- 每個卷積層後跟了一個1*1的卷積層,channel depth爲21。每個階段使用eltwise層將這些結果層相加(對應元素相加),獲取混合特徵;
- 每個eltwise層後跟一個1*1卷積層 ,channel depth爲1。然後deconv層去up-sample特徵圖;
- 反捲積後接cross-entropy loss層(訓練)/sigmoid層(測試);
- 所有up-sampling層串連,然後使用1*1卷積層去融合每個階段特徵圖,然後接cross-entropy loss層(訓練)/sigmoid層(測試)獲得fusion loss/輸出。
以上所有參數都是自動學習的,因爲VGG16的卷積層的感受野尺寸不同,所以網絡可以學到多尺度的特徵。
- Annotator-robust Loss方程
我們將所有gt進行平均生成邊緣概率圖,像素值在[0,1]之間,0表示沒有annotator進行標註,1表示所有annotator都標註爲邊緣點。像素值高於 表示正樣本,0表示負樣本,低於 高於0作爲ignore(不計算loss)。
根據像素的label計算每個像素的loss:
分別表示正負樣本,超參數 用來平衡正負樣本。Xi爲像素i的activation值(CNN特徵向量), 爲像素i的gt邊緣概率值。P(X)是標準sigmoid方程,W表示所有學習到的參數。因此,我們的改進的loss方程爲:
每個像素在五個階段和融合層的loss的相加值
是階段k的激活值, 是融合層的激活值。 是image I的像素個數,K是階段數,這裏爲5。
- 多尺度層級邊緣檢測
單尺度邊緣檢測:輸入圖像,輸出邊緣圖,尺寸相同。
爲了改善邊緣質量,我們使用圖像金字塔進行測試。resize圖像構造圖像金字塔,然後分別輸入單尺度邊緣檢測網絡。所有邊緣圖結果經過雙線性插值縮放到原始輸入尺寸。最後所有邊緣圖經過平均化得到最終結果。
我們嘗試過權重相加,發現平均化效果最好。爲了權衡性能和速度,我們使用0.5、1.0、1.5的尺度。多尺度性能從0.806提升至0.811,速度從30FPS降到8FPS。
- 與HED的比較
區別在以下三方面:
- 網絡結構:HED只用了VGG16的每個階段的最後一層卷積層,丟失了很多邊緣信息。
- gt選擇:提出新的loss方程,只使用標註人標的最多正樣本像素。
- 多尺度:我們使用多尺度多層級去加強邊緣。
實驗結果在ODS的F值比HED增加2.3%,證明以上改善有用。
五、實驗結果
使用公用平臺的Caffe,在ImageNet上預訓練的VGG16初始化本網絡。Pool4層的stride從2變爲1,使用atrous算法填補空洞。RCF訓練時,前5階段的1*1卷積層從0均值、標註方差0.01、偏差0的高斯分佈初始化權重。Fusion階段1*1卷積層的權重從0.2,偏差從0開始初始化。採用minibatch SGD,每個iteration隨機採樣10張圖像,全局學習率爲1e-6,每隔1萬輪減小10倍。Momentum爲0.9,權重衰減爲0.0002。我們總共訓練4萬輪。Loss方程的參數 和 取決於訓練數據。使用GPU Titan X。
- BSDS500數據集
訓練集200,驗證集100,測試集200,每幅圖4-9人標註。使用訓練集+驗證集+Pascal VOC Context數據集作爲訓練集。 和 爲0.5和1.1。
評價時,細的邊緣使用標準NMS過濾。圖5顯示RCF跟傳統和深度學習邊緣檢測算法的比較。RCF性能最佳,甚至多尺度RCF性能比人眼性能更佳。證明所有卷積層都包含有幫助性的層次信息,並不只有每階段的最後一層卷積纔有用。
速度方面,RCF爲30FPS,RCF-MS爲8FPS,HED爲30FPS,Canny爲28FPS。
- NYUD數據集(略)
NYUD包括1449標註的RGB圖像和對應的深度圖像,381張訓練,414張驗證,654張測試。
- Multicue數據集(略)
Multicue數據集是爲了學習心理物理學來邊界檢測的。由簡短的雙目視頻組成,視頻由100幀具有挑戰性的立體攝像頭拍攝的自然場景圖像構成。
- 網絡討論
嘗試VGG部分卷積階段接rcf的side輸出,其餘部分接hed,在BSDS上訓練測試,說明rcf的網絡結構比hed的好。
嘗試在每個階段的1*1*21或者1*1*1卷積層後接ReLU層,性能變差。特別是加在1*1*1之後,網絡不能很好的收斂。