論文閱讀筆記《Learning monocular depth estimation infusing traditional stereo knowledge》

網絡名稱:monoResMatch
論文來源:CVPR2019

核心思想

  本文提出一種自監督實現單目深度估計的網絡,其思路也非常簡單,將單目深度估計轉化成立體匹配問題,再用立體匹配網絡進行視差估計。整個網絡結構包含以下幾個部分:初級特徵提取網絡,初級視差估計網絡,視差優化網絡。初級特徵提取網絡是由一個簡單的沙漏型結構構成的,對左圖提取高緯度的特徵圖FL0F^0_L。初級視差估計網絡則是一個帶有跳躍連接的多尺度的沙漏型結構,輸入左特徵圖FL0F^0_L輸出多尺度的左視差圖dL0..2d^{0..2}_L和一個虛擬的合成的右視角下的視差圖dR0d^{0}_R。視差優化網絡則是延續了CRL和iResNet的思路,採用殘差學習的方式對初級視差圖進行優化。利用右視角的視差圖dR0d^{0}_R和左特徵圖FL0F^0_L,經Warp操作之後可獲得合成的右特徵圖F~R0\widetilde{F}^0_R,在此基礎上計算出誤差圖eLe_L,再與初級視差圖級聯起來,輸入到視差優化網絡中輸出不同尺度的視差圖。文章還利用左右特徵圖構建了匹配代價卷,但並沒有說明如何利用這一信息的。
在這裏插入圖片描述
  本文是採用自監督訓練的,也就是說不使用Groundtruth,爲了訓練網絡,作者利用SGM算法獲得視差圖替代Groundtruth。損失函數分爲初始部分和優化部分,分別計算初始視差圖的誤差和優化視差圖的誤差,初始部分對左右視差圖都計算損失,優化部分只計算左視差圖。具體損失函數由三個部分組成:圖像重構損失,視差平滑損失和替代監督損失。圖像重構損失就是比較左圖,與由右圖和視差圖合成的左圖之間的差別。視差平滑損失是利用邊緣信息加權。代替監督損失就是利用SGM生成的視差圖對網絡輸出的視差圖進行訓練。

創新點

  • 提出一種新型的自監督單目深度估計網絡,將單目圖片重構成雙目特徵信息,再按照立體匹配的方式獲得精準的視差圖
  • 利用SGM獲取替代的groundtruth,用於實現自監督訓練,並設計了相應的損失函數

總結

  這篇文章的思路和之前商湯的一篇文章很類似,都是將單目深度估計問題轉化爲雙目立體匹配問題。但之前的文章是專門訓練了一個網絡用於合成右圖,而在這篇文章中並沒有專門對合成圖像進行訓練,不過僅通過左特徵圖能否獲得準確的視差圖甚至是右視角下的視差圖,我還是不確定。而且文中提到的匹配代價卷並沒有說明如何利用的。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章