論文筆記:Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional

一、基本信息

標題:Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture
時間:2015
出版源:IEEE
論文領域:單目深度估計、深度學習、語義分割、CNN
引用格式:Eigen D, Fergus R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2650-2658.

二、研究背景

我們處理其中的三個任務:

  • 深度預測
  • 表面法線估計
  • 語義分割

其中大多數使用局部特徵對超分割區域進行分類,然後進行全局一致性優化,如CRF。
而本文,首先進行一致的全局預測,然後進行迭代的局部改進。通過這樣做,局部網絡可以意識到它們在全局中的位置,並且可以利用這些信息進行精確的預測。

與RNN(上一次局部預測結合更粗糙圖像)相反,本文先全局粗糙預測,然後迭代局部改進。

三、創新點

我們的多尺度方法直接從輸入圖像生成像素圖,不需要低層次的超像素或等高線,並且能夠使用一系列用於增加分辨率的卷積網絡堆棧來對齊許多圖像細節。

這些系統大多使用ConvNets來尋找局部特徵,或生成離散建議區域的描述符;相比之下,我們的網絡同時使用局部和全局視圖來預測各種輸出類型。此外,雖然每種方法最多隻能處理一到兩個任務,但我們能夠將我們的網絡應用到三個不同的任務上。

相比之前,我們開發了一個更通用的網絡,使用三個尺度的序列來生成特徵和細化預測到更高的分辨率,我們應用於多個任務,包括表面法線估計和每像素語義標記。此外,我們還提高了深度預測的性能,說明了我們的增強是如何幫助改進所有任務的。

我們使用更通用的多尺度體系結構,可以自然地用於執行許多不同的任務,從而獲得同樣好的或更好的結果。

語義分割:我們的模型在最粗糙的尺度上有一個大的、全圖像的視場
此外,我們不使用超像素或後期平滑——相反,我們的網絡自己產生相當平滑的輸出,允許我們採取一個簡單的像素最大化。

網絡結構

在這裏插入圖片描述

對於22的改進:

  • 更深的網絡
  • 添加了第3層,使輸出分辨率更高(輸入的一半)
  • 沒有把第1層傳遞到第2層,而是通過多通道特徵圖

Scale 1: Full-Image View

在這裏插入圖片描述
基於一個大的、全圖像視野 預測 整個圖像區域的粗糙但空間變化的特徵集,我們通過使用兩個完全連接的層來實現這一點。
最後全連接層輸出爲64,縮小1/16。通過上採樣 4,達到1/4。
由於頂層是完全連接的,輸出中的每個空間位置都連接到所有圖像特徵,包含了一個非常大的視場。這種全視圖連接對於深度和法線任務尤其重要。Scale1 基於AlexNet或VGG。

Scale 2: Predictions

在這裏插入圖片描述
通過結合更詳細但更狹窄的圖像和粗糙網絡(Scale1)提供的全圖像信息,在中等分辨率下產生預測。
我們通過將粗網絡的特徵圖與來自單層卷積和池的特徵圖連接在一起來實現這一點。

Scale 3: Higher Resolution

在這裏插入圖片描述
將Scale2輸出與從原始輸入生成的特徵圖以更細的步長連接起來,從而整合了圖像更詳細的視圖。進一步的改進使輸出結果具有更高分辨率的細節,產生空間全局位置準確且局部比較詳細的輸出結果。最終的輸出分辨率是網絡輸入的一半

在這裏插入圖片描述

任務

識別深度

d=DDd=D-D^{*}
Ldeth(D,D)=1nidi212n2(idi)2+1ni[(xdi)2+(ydi)2]\begin{aligned} L_{\text {deth}}\left(D, D^{*}\right)=\frac{1}{n} \sum_{i} d_{i}^{2}-\frac{1}{2 n^{2}}\left(\sum_{i} d_{i}\right)^{2} + \frac{1}{n} \sum_{i}\left[\left(\nabla_{x} d_{i}\right)^{2}+\left(\nabla_{y} d_{i}\right)^{2}\right] \end{aligned}
將預測的圖像梯度與地面真實值進行比較。
我們發現它確實能產生更好地跟隨深度梯度的輸出,並且在測量的l2性能中沒有退化。

識別表面法線

Lnormals(N,N)=1njNiNi=1nNNL_{\text {normals}}\left(N, N^{*}\right)=-\frac{1}{n} \sum_{j} N_{i} \cdot N_{i}^{*}=-\frac{1}{n} N \cdot N^{*}
NN是預測,NN^*是真實法向量。
對於地面真值目標,通過將最小二乘平面擬合到點雲中相鄰的點集來從深度估計法線。

語義標籤

像素交叉熵
Ci=ezi/cezi,cC_{i}=e^{z_{i}} / \sum_{c} e^{z_{i, c}}
Lsemantic(C,C)=1niCilog(Ci)L_{\text {semantic}}\left(C, C^{*}\right)=-\frac{1}{n} \sum_{i} C_{i}^{*} \log \left(C_{i}\right)

四、實驗結果

深度預測

在這裏插入圖片描述

  • VGG顯著優於AlexNet

表面法向量預測

在這裏插入圖片描述
我們發現不需要爲該數據SIFT集調整卷積內核大小或學習速率,只需直接傳輸NYUDepth使用的值;
這證明了我們的模型不僅可以適應不同的任務,還可以適應不同的數據。

語義分割

在這裏插入圖片描述

五、結論與思考

作者結論

深度、表面法線和語義標籤一起提供了豐富的場景描述。我們提出了一種使用卷積網絡的簡單而快速的多尺度架構,它在所有三種模式上都具有出色的性能。
在我們探索的絕大多數基準上,這些模型都優於現有的方法。這是令人印象深刻的,因爲這些方法中有許多是特定於單一模態的,而且通常比我們的算法更慢更復雜。因此,我們的模型爲這三個任務提供了一個方便的新基線。爲此,代碼和訓練模型可以在http://cs.nyu.edu/~deigen/dnl/找到

總結

經典論文

思考

參考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章