深度估計中的特徵金子塔

Q:SfMLearner、GeoNet等在深度估計的時候均有用到特徵金子塔,不是很理解,寫論文的時候看到一篇期刊,記錄一下。

特徵金子塔在論文中沒有詳細的介紹,翻看許多論文,初始的時候以爲是圖像金子塔,查閱很多高斯金子塔等資料,看的雲裏霧裏,和論文代碼始終對不上


以下是早些時候的筆記:

後來發現這是對圖像金子塔的解釋,非特徵金子塔

  • DepthNet
    DepthNet的輸入是左圖五幀,經過金字塔處理,左圖五幀按照通道1堆疊,接着用了金字塔堆疊,增加4個尺度,所以輸入是5x4=20張圖片,送入網絡訓練
    DepthNet網絡是由編碼器-解碼器組成,UNet結構,編碼器resnet50,解碼器是下采樣,輸出5*4個尺度的視差圖

Q: 金字塔的好處

A1: 或者在低尺度下可以看清楚很多細節,在高尺度下可以看到輪廓。
A2: 兩幀之間的物體的運動位移較大時,只用單張圖片算法會出現比較大的誤差,縮小圖像尺寸減少圖像中物體的運動.比如400x400的圖像,物體位移爲[16,16],圖像縮小爲200x200,位移變爲[8,8],縮小爲100x100,位移減少到[4,4]


  • 摘自期刊:
    • 題目: 利用卷積神經網絡實現單目深度估計
    • 作者: 王欣盛,張桂玲

“特徵金字塔不同於圖像金字塔,圖像金字塔分別對縮小到不同尺寸的圖像進行特徵提取,特徵金字塔在特徵收縮階段先對已提取到的特徵圖繼續進行跨步提取,如圖 2 所示,

在底層的特徵擁有高的分辨率,但是提取的信息少,高層的特徵分辨率較低,但是提取到了更多的信息。

高層特徵在預測的同時結合低層的特徵圖,生成高清晰度的高階特徵圖。編解碼器將輸入的原始圖像信息轉變成深度圖像信息。編碼器階段利用殘差網絡對輸入的圖像提取大量特徵,並且在不同的階段對特徵進行大量提取,解碼器階段對提取到的特徵進行計算並進行像素級預測,得到深度圖像。”
特徵金子塔

@檯布落 該網站的繁體原創均爲盜版,非原創且無任何授權

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章