cv論文筆記:Semi-Supervised Deep Learning for Monocular Depth Map Prediction(無監督深度預測系列3:半監督方法)

一、基本信息

標題:Semi-Supervised Deep Learning for Monocular Depth Map Prediction
時間:2017
引用格式:Kuznietsov Y, Stuckler J, Leibe B. Semi-supervised deep learning for monocular depth map prediction[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 6647-6655.

二、研究背景

監督學習:需要大量標記數據,激光雷達RGBD等獲取的數據存在噪聲且稀疏,激光與照相機的投影中心不重合
無監督學習:對應沒有紋理的地方,預測不了

總結一下深度預測發展:

  • Saxena et al. 第一個基於監督學習方法,使用MRF,手動提取特徵
  • Eigen et al.使用CNN,由粗到細的多層網絡。筆記
  • Li et al.使用CNN結合CRFs超像素分割
  • Liu et al.端到端訓練一元勢和成對勢的CNN特徵,連續深度和高斯假設??
  • Laina et al.使用ResNet構建深度卷積,得到預測密度更大
  • 此後,圖像的深度轉移的思想[或者將深度圖預測與語義分割相結合
  • Garg et al. FCN FlowNet 使用光測誤差。(利用一階泰勒近似將損失線性化,因此需要從粗到細的訓練??)
  • Xie et al. 視差方法,最小化像素級重建誤差。
  • Godard et al.也是視差方法,最小重建誤差,但是使用左右約束。筆記

三、創新點

本文提出使用監督和非監督結合的方法。一個訓練配對圖需要2張深度圖(LiDAR獲得),2張RGB圖。
在這裏插入圖片描述
令CNN預測的深度倒數ρ(x)\rho(\mathbf{x})和激光雷達得到的深度Z(x)Z(\mathbf{x})對應關係:
ρ(x)1=!Z(x)\rho(\mathbf{x})^{-1} \stackrel{!}{=} Z(\mathbf{x})

圖像減去視差fbρ(x)f b \rho(\mathbf{x})
ω(x,ρ(x)):=xfbρ(x)\omega(\mathbf{x}, \rho(\mathbf{x})):=\mathbf{x}-f b \rho(\mathbf{x})

令左圖I1I_1等於右圖I2I_2-視差:
I1(x)=!I2(ω(x,ρ(x)))I_{1}(\mathbf{x}) \stackrel{!}{=} I_{2}(\omega(\mathbf{x}, \rho(\mathbf{x})))

結合左右圖像:
Ileft(x)=!Iright(ω(x,ρ(x)))Iright(x)=!Ileft(ω(x,ρ(x)))\begin{array}{c} I_{\text {left}}(\mathbf{x}) \stackrel{!}{=} I_{\text {right}}(\omega(\mathbf{x}, \rho(\mathbf{x}))) \\ I_{\text {right}}(\mathbf{x}) \stackrel{!}{=} I_{\text {left}}(\omega(\mathbf{x},-\rho(\mathbf{x}))) \end{array}

損失函數

Supervised loss.

LθS=xΩZ,lρl,θ(x)1Zl(x)δ+xΩZ,rρr,θ(x)1Zr(x)δ\begin{aligned} \mathcal{L}_{\boldsymbol{\theta}}^{S}=\sum_{\mathbf{x} \in \Omega_{Z, l}}\left\|\rho_{l, \boldsymbol{\theta}}(\mathbf{x})^{-1}-Z_{l}(\mathbf{x})\right\|_{\delta} &+\sum_{\mathbf{x} \in \Omega_{Z, r}}\left\|\rho_{r, \boldsymbol{\theta}}(\mathbf{x})^{-1}-Z_{r}(\mathbf{x})\right\|_{\delta} \end{aligned}

θ\theta是CNN參數那麼預測的深度倒數:ρr/l,θ\rho_{r/l, \theta}δ\|\cdot\|_{\delta}是berHu範數,結合了L1和L2範數:
dδ={d,dδd2+δ22δ,d>δ\|d\|_{\delta}=\left\{\begin{array}{l}|d|, d \leq \delta \\ \frac{d^{2}+\delta^{2}}{2 \delta}, d>\delta\end{array}\right.

δ=0.2maxxΩZ(ρ(x)1Z(x))\delta=0.2 \max _{\mathbf{x} \in \Omega_{Z}}\left(\left|\rho(\mathbf{x})^{-1}-Z(\mathbf{x})\right|\right)

Unsupervised loss.

LθU=xΩU,l(GσIl)(x)(GσIr)(ω(x,ρl,θ(x)))+xΩU,r(GσIr)(x)(GσIl)(ω(x,ρr,θ(x)))\begin{array}{c} \mathcal{L}_{\boldsymbol{\theta}}^{U}=\sum_{\mathbf{x} \in \Omega_{U, l}}\left|\left(\mathbf{G}_{\sigma} * I_{l}\right)(\mathbf{x})-\left(\mathbf{G}_{\sigma} * I_{r}\right)\left(\omega\left(\mathbf{x}, \rho_{l, \boldsymbol{\theta}}(\mathbf{x})\right)\right)\right| \\ +\sum_{\mathbf{x} \in \Omega_{U, r}}\left|\left(\mathbf{G}_{\sigma} * I_{r}\right)(\mathbf{x})-\left(\mathbf{G}_{\sigma} * I_{l}\right)\left(\omega\left(\mathbf{x},-\rho_{r, \boldsymbol{\theta}}(\mathbf{x})\right)\right)\right| \end{array}

Gσ\mathrm{G}_{\sigma}是高斯核,模糊是爲了去噪,使用σ=1px\sigma=1 \mathrm{px}

Regularization loss.

LθR=i{l,r}xΩϕ(Ii(x))ρi(x)L_{\boldsymbol{\theta}}^{R}=\sum_{i \in\{l, r\}} \sum_{\mathbf{x} \in \Omega}\left|\phi\left(\nabla I_{i}(\mathbf{x})\right)^{\top} \nabla \rho_{i}(\mathbf{x})\right|

ϕ(g)=(exp(ηgx),exp(ηgy))\phi(\mathbf{g})=\left(\exp \left(-\eta\left|g_{x}\right|\right), \exp \left(-\eta\left|g_{y}\right|\right)\right)^{\top}

η=1255\eta=\frac{1}{255}
防止預測梯度太大作用,個人理解:當預測梯度ρi(x)\nabla \rho_{i}(\mathbf{x})很大時,而真實梯度很小,導致ϕ(Ii(x))\phi\left(\nabla I_{i}(\mathbf{x})\right)^{\top}很大,所以LθRL_{\boldsymbol{\theta}}^{R}就很大。保持梯度一致性的意思。。。

總損失

在這裏插入圖片描述
Lθ(Il,Ir,Zl,Zr)=λtLθS(Il,Ir,Zl,Zr)+γLθU(Il,Ir)+LθR(Il,Ir)\begin{array}{l} \mathcal{L}_{\boldsymbol{\theta}}\left(I_{l}, I_{r}, Z_{l}, Z_{r}\right)= \quad \lambda_{t} \mathcal{L}_{\boldsymbol{\theta}}^{S}\left(I_{l}, I_{r}, Z_{l}, Z_{r}\right)+\gamma \mathcal{L}_{\boldsymbol{\theta}}^{U}\left(I_{l}, I_{r}\right)+\mathcal{L}_{\boldsymbol{\theta}}^{R}\left(I_{l}, I_{r}\right) \end{array}
λt\lambda_{t}γ\gamma是權衡參數

網絡結構

用的殘差網絡Flownet
在這裏插入圖片描述
2種殘差塊:
在這裏插入圖片描述

上投影殘差塊:
在這裏插入圖片描述

具體網絡結構:
在這裏插入圖片描述

四、實驗結果

在這裏插入圖片描述

在這裏插入圖片描述
9就是系列2左右約束方法,然後看到本文方法可以結合真實深度預測得到比較精準結果,同時對於真實深度沒有掃描的地方,通過CNN進行學習。

五、結論與思考

作者結論

總結

本文在有深度標籤數據下是個結合CNN的方法,但是大多數情況是沒有深度。要是以後有深度相機集成到手機上,這個方法不失爲增強方法。

思考

參考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章