點擊上方“3D視覺工坊”,選擇“星標”
乾貨第一時間送達
作者:紅薯好喫
https://zhuanlan.zhihu.com/p/86481492
本文僅做學術分享,如有侵權,請聯繫刪除。
2019機器人頂會ICRA一篇關於可以滿足移動設備的雙目立體模型
代碼地址:
https://github.com/mileyan/AnyNet
論文題目《Anytime Stereo Image Depth Estimation on Mobile Devices》
論文摘要:許多用於機器人領域的深度估計方法都對實時性有很大的需求。目前sota模型面臨在精度和實時性做出平衡的問題,加快推理速度往往會導致精度大幅度下降。針對這個問題,作者提出了一種高速推理模型。該模型能夠處理1242x375分辨率的雙目圖片,在NVIDIA Jetson TX2上達到10-35FPS。在減少兩個數量級參數情況下,僅僅比SOTA精度略微下降。
方法概述
圖1
圖1所示,是作者提出的AnyNet預測的時間線示意圖,視差是隨着時間逐步優化的。這個算法可以隨時返回當前最優的視差。initial estimates即使精度不高,但是足以觸發避障操作,之後的更優的深度圖可以爲更高級的路徑規劃提供線索。
AnyNet整體網絡示意圖如圖2所示:
圖2
AnyNet利用U-Net架構提取多分辨率級別下的特徵,通過多階段的視差優化獲得多階段不同級別精度的視差圖滿足不同任務的需求。
a)U-Net Fature Extractor:特徵提取結構如圖3所示,該結構提取了在1/16,1/8,1/4分辨率下的圖片特徵,分別被應用於1-3階段。原始圖片通過max-pooling或者卷積進行下采樣操作,低分辨率的特徵圖可以包含全局上下文信息,高分辨率的特徵圖包含更多的細節信息。在1/8,1/4尺度下的final卷積層都集合了前面已經計算過的lower-scales features。
圖3
b) Disparity Network:結構圖如圖4所示。如果feature maps 維度爲HxW,那麼cost volume的維度就爲HxWxM,其中M表示最大候選視差。(i,j,k)表示左圖(i,j)位置匹配右圖的(i,j-k)位置的degree。因爲存在模糊objects,遮擋或者模糊匹配都會給cost volume帶來較大誤差,因此第二階段加入3D CNN進一步提升已經獲得的cost volume。最後的視差採用加權方式獲得,如公式(1)所示。
圖4
c) Residual Prediction(劃重點!!): AnyNet只在stage1計算 full disparity map,在Stages 2&3只預測residuals。在高分辨率場景下,兩圖之間的視差可能會非常大,比如KITTI數據集中M=192. 在2&3階段通過限制M=5(即offsets = -2,-1,0,1,2),這個操作帶來了可觀的速度提升。
爲了計算stage2&3的殘差,作者利用stage1的disp去warp input features at the higher scale。例如,左視差圖pixel(i,j)預測值爲k,則我們將左圖每個像素(i, j)的值覆蓋到對應的右圖像素(i, j k)的值(若超出邊界則使用0)。如果目前視差預測是正確的,那麼更新的右圖特徵圖會與左圖匹配。作者採用多stage,逐級優化上一步的視差,stage2&3產生的殘差是附加信息用作up-scaled上一個stage產生的視差圖。
d)Spatial Propagation Network:爲了進一步提升結果,stage4作者加入SPNet來refine stage3的視差。SPNet通過利用一個局部濾波器來銳化視差圖,濾波器權重由一層CNN從左圖獲得。
實驗結果
圖5是在KITTI2015,stage1-4 視差預測可視化圖
圖5
表1
表1爲AnyNet在KITTI2012,KITTI2015,各個階段的3-pixel-error。
從如下a,b兩圖可以看出,AnyNet在實時性和精度上做了很好的權衡。
總結
AnyNet是第一個在anytime下的立體匹配深度估計模型。隨着(低功耗)gpu變得越來越便宜,並越來越多地融入到移動計算設備中,隨時深度估計將爲各種機器人應用場景提供準確可靠的實時深度估計。