論文筆記:Deeper Depth Prediction with Fully Convolutional Residual Networks

一、基本信息

標題:Deeper Depth Prediction with Fully Convolutional Residual Networks
時間:2016
引用格式:Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 Fourth international conference on 3D vision (3DV). IEEE, 2016: 239-248.

二、研究背景

In this work, we propose to learn the mapping between a single RGB image and its corresponding depth map using a CNN.

三、創新點

我們的方法使用一個CNN的深度估計,與以前的工作的不同之處在於,它提高了典型的全層,這是昂貴的對參數的數量,與一個完全卷積模型結合高效的殘餘up-sampling塊,我們稱之爲up-projections時被證明是更適合處理高維迴歸問題。

輸入圖片的大小是網絡設計的重要部分:
AlexNet: 輸入爲 151 * 151 分辨率太低
VGG:輸入爲276 * 276 單仍要限制輸入分辨率
ResNet-50:輸入爲483 * 483(更深的網絡帶來更大的接收域)
在這裏插入圖片描述
輸入:304 * 228 * 3
第一部分基於ResNet-50(初始化了和預訓練權重)
第二部分是unpooling(上採樣池化?)和(反?)卷積
最後dropout - 預測

Up-Projection Blocks

1 使用小卷積代替大卷積,實現上採樣
首先我們先要明白,爲什麼作者這麼做,傳統的反捲積以及雙線性插值到底存在什麼問題。反捲積,得到的結果存在很強的棋盤效應。雙線性插值,得到的結果邊緣模糊,噪聲很大。那麼FCRN中採用小卷積代替大卷積,一方面,可以使棋盤效應降低,一方面,儘量的保留邊緣信息。當然啦,依照FCRN中所說,可以提升其速度,畢竟這樣可以減小參數嘛。
————————————————
版權聲明:本文爲CSDN博主「yjl9122」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/yjl9122/article/details/78670009

在這裏插入圖片描述
上採樣的意思,使用2 *2 擴大,映射到左上角,然後5 * 5卷積
c是使用了殘差,作者稱爲上投影(projection connection),向上投影塊的鏈接使高級信息在網絡中更有效地向前傳遞,同時逐步增加feature map的大小。

Fast Up-Convolutions

更快的結構,提升了15%速度。
在這裏插入圖片描述
輸入-池化-卷積(55)-輸出
|-卷積(3 * 3) + 卷積(3
2)+ 卷積(2 * 3) + 卷積(2 * 2)- 輸出

損失函數

L1和L2損失函數對比
在這裏插入圖片描述
作者發現 reverse Huber (berHu)作爲損失函數優於L2範數損失函數

B(x)={xxcx2+c22cx>c\mathcal{B}(x)=\left\{\begin{array}{ll} |x| & |x| \leq c \\ \frac{x^{2}+c^{2}}{2 c} & |x|>c \end{array}\right.
其中c=15maxi(y~iyi)c=\frac{1}{5} \max _{i}\left(\left|\tilde{y}_{i}-y_{i}\right|\right),i爲當前batch的每個突破的每個像素,|x|<= c時就是L1範數,|x| > c時是L2範數。
爲什麼更好呢?因爲berHu能夠平衡L1和L2

  • 高殘差的樣本/像素使用L2可以提高權重
  • L1對較小殘差梯度的影響要大於L2

四、實驗結果

在這裏插入圖片描述

還展示了SLAM中應用
在這裏插入圖片描述

雖然不能相信精度比得上Sfm或者單目SLAM,但是因爲本文方法沒有基於特徵匹配,可能在紋理較少情況下可以幫助SLAM追蹤。

五、結論與思考

作者結論

在這項工作中,我們提出了一種新的方法,以解決從單一圖像的深度估計問題。與典型的CNN方法不同,典型的CNN方法需要一個多步驟的過程來改進他們最初的粗糙深度預測,我們的方法包含一個強大的、單尺度的CNN架構,它遵循剩餘學習。提出的網絡是完全卷積的,包括向上投影層,允許訓練更深層次的配置,同時大大減少了需要學習的參數數量和所需的訓練樣本數量。此外,我們還演示了一種更快、更有效的上行卷積層方法。通過優化典型的l2損失和berHu損失函數,我們對不同的建築構件進行了全面的評估,結果表明,berHu損失函數更適合於ground truth depth地圖的潛在值分佈。總而言之,我們貢獻的模型不僅比現有的方法更簡單,可以用更少的數據在更短的時間內進行訓練,而且可以獲得更高質量的結果,這使得我們的方法在兩個基準數據集上達到了最先進的深度估計。

總結

一篇較爲複雜CNN預測深度論文,作者結合那時先進方法,想全卷積,殘差網絡,參數新的損失函數,取得了不錯效果。

思考

看了下大家對這個網絡看法,只在論文數據集上表現好。
如今很多網絡基於無監督學習,這樣可以在自己數據集上也有較好效果吧。

參考

(論文閱讀)Deeper Depth Prediction with Fully Convolutional Residual Networks
[讀論文]用全卷積Res網絡做深度估計
Deeper Depth Prediction with Fully Convolutional Residual Networks

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章