ICRA2019 | 用於移動設備的雙目立體匹配

點擊上方“3D視覺工坊”，選擇“星標”

乾貨第一時間送達

作者：紅薯好喫
https://zhuanlan.zhihu.com/p/86481492
本文僅做學術分享，如有侵權，請聯繫刪除。

2019機器人頂會ICRA一篇關於可以滿足移動設備的雙目立體模型

代碼地址：

https://github.com/mileyan/AnyNet

論文題目《Anytime Stereo Image Depth Estimation on Mobile Devices》

論文摘要：許多用於機器人領域的深度估計方法都對實時性有很大的需求。目前sota模型面臨在精度和實時性做出平衡的問題，加快推理速度往往會導致精度大幅度下降。針對這個問題，作者提出了一種高速推理模型。該模型能夠處理1242x375分辨率的雙目圖片，在NVIDIA Jetson TX2上達到10-35FPS。在減少兩個數量級參數情況下，僅僅比SOTA精度略微下降。

方法概述

圖1

圖1所示，是作者提出的AnyNet預測的時間線示意圖，視差是隨着時間逐步優化的。這個算法可以隨時返回當前最優的視差。initial estimates即使精度不高，但是足以觸發避障操作，之後的更優的深度圖可以爲更高級的路徑規劃提供線索。

AnyNet整體網絡示意圖如圖2所示：

圖2

AnyNet利用U-Net架構提取多分辨率級別下的特徵，通過多階段的視差優化獲得多階段不同級別精度的視差圖滿足不同任務的需求。

a)U-Net Fature Extractor：特徵提取結構如圖3所示，該結構提取了在1/16，1/8，1/4分辨率下的圖片特徵，分別被應用於1-3階段。原始圖片通過max-pooling或者卷積進行下采樣操作，低分辨率的特徵圖可以包含全局上下文信息，高分辨率的特徵圖包含更多的細節信息。在1/8，1/4尺度下的final卷積層都集合了前面已經計算過的lower-scales features。

圖3

b) Disparity Network：結構圖如圖4所示。如果feature maps 維度爲HxW，那麼cost volume的維度就爲HxWxM，其中M表示最大候選視差。(i,j,k)表示左圖(i,j)位置匹配右圖的(i,j-k)位置的degree。因爲存在模糊objects，遮擋或者模糊匹配都會給cost volume帶來較大誤差，因此第二階段加入3D CNN進一步提升已經獲得的cost volume。最後的視差採用加權方式獲得，如公式(1)所示。

圖4

c) Residual Prediction(劃重點！！): AnyNet只在stage1計算 full disparity map，在Stages 2&3只預測residuals。在高分辨率場景下，兩圖之間的視差可能會非常大，比如KITTI數據集中M=192. 在2&3階段通過限制M=5(即offsets = -2，-1，0，1，2)，這個操作帶來了可觀的速度提升。

爲了計算stage2&3的殘差，作者利用stage1的disp去warp input features at the higher scale。例如，左視差圖pixel(i,j)預測值爲k，則我們將左圖每個像素(i, j)的值覆蓋到對應的右圖像素(i, j k)的值(若超出邊界則使用0)。如果目前視差預測是正確的，那麼更新的右圖特徵圖會與左圖匹配。作者採用多stage，逐級優化上一步的視差，stage2&3產生的殘差是附加信息用作up-scaled上一個stage產生的視差圖。

d)Spatial Propagation Network:爲了進一步提升結果，stage4作者加入SPNet來refine stage3的視差。SPNet通過利用一個局部濾波器來銳化視差圖，濾波器權重由一層CNN從左圖獲得。

實驗結果

圖5是在KITTI2015，stage1-4 視差預測可視化圖

圖5

表1

表1爲AnyNet在KITTI2012,KITTI2015，各個階段的3-pixel-error。

從如下a，b兩圖可以看出，AnyNet在實時性和精度上做了很好的權衡。

總結

AnyNet是第一個在anytime下的立體匹配深度估計模型。隨着(低功耗)gpu變得越來越便宜，並越來越多地融入到移動計算設備中，隨時深度估計將爲各種機器人應用場景提供準確可靠的實時深度估計。

推薦閱讀：
專輯|相機標定
專輯|3D點雲
專輯|SLAM
專輯|深度學習與自動駕駛
專輯|結構光
專輯|事件相機
專輯|OpenCV學習
專輯|學習資源彙總
專輯|招聘與項目對接
專輯|讀書筆記

重磅！3DCVer-學術論文寫作投稿交流羣已成立
掃碼添加小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿微信交流羣，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流羣，目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點雲後處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信羣，請掃描下面微信號加羣，備註：”研究方向+學校/公司+暱稱“，例如：”3D視覺 + 上海交大 + 靜靜“。請按照格式備註，否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。
▲長按加微信羣或投稿
▲長按關注公衆號

3D視覺從入門到精通知識星球：針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕，更有各類大廠的算法工程人員進行技術指導。與此同時，星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息，打造成集技術與就業爲一體的鐵桿粉絲聚集區，近1000+星球成員爲創造更好的AI世界共同進步，知識星球入口：

ICRA2019 | 用於移動設備的雙目立體匹配

實驗結果

總結

推薦閱讀：
專輯|相機標定
專輯|3D點雲
專輯|SLAM
專輯|深度學習與自動駕駛
專輯|結構光
專輯|事件相機
專輯|OpenCV學習
專輯|學習資源彙總
專輯|招聘與項目對接
專輯|讀書筆記

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款
圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

【SQL進階】CASE語句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

學術期刊因投稿者並非雙一流高校作者而拒稿引熱議！這算學歷歧視嗎？

人臉識別技術如何應用到遊戲和美顏領域？

月薪25-80K丨一汽（南京）招聘雷達感知開發工程師、主管、主任、高級主任

投稿數翻倍，接收率不到三成！史上最難的ECCV你中了嗎？

研究SLAM，對編程的要求有多高？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

ICRA2019 | 用於移動設備的雙目立體匹配

實驗結果

總結

推薦閱讀：專輯|相機標定專輯|3D點雲專輯|SLAM專輯|深度學習與自動駕駛專輯|結構光專輯|事件相機專輯|OpenCV學習專輯|學習資源彙總專輯|招聘與項目對接專輯|讀書筆記

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款 圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

推薦閱讀：
專輯|相機標定
專輯|3D點雲
專輯|SLAM
專輯|深度學習與自動駕駛
專輯|結構光
專輯|事件相機
專輯|OpenCV學習
專輯|學習資源彙總
專輯|招聘與項目對接
專輯|讀書筆記

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款
圈裏有高質量教程資料、可答疑解惑、助你高效解決問題