《AANet: Adaptive Aggregation Network for Efficient Stereo Matching》CVPR2020

AANet

《AANet: Adaptive Aggregation Network for Efficient Stereo Matching》CVPR2020,針對雙目匹配任務的論文。

論文:https://arxiv.org/abs/2004.09548v1
代碼:https://github.com/haofeixu/aanet

一、目的和貢獻:

目前最好的立體匹配模型基本都用3D卷積,計算複雜度高且佔用大量存儲空間,本論文的目的就是完全替代3D卷積;
提出:
尺度內代價聚合模塊:基於稀疏點,緩解邊緣視差不連續問題;
尺度間代價聚合:跨通道,解決大的無紋理區域問題;

二、相關工作

Local Cost Aggregation:
基於窗口的方法,假設窗口內都有相同視差,這樣做不能處理好視差不連續的地方,目標邊界或者精細結構邊界變粗
Cross-Scale Cost Aggregation:
Stereo Matching Networks:
Deformable Convolution:

三、 方法:

在這裏插入圖片描述
輸入:rectify後的左圖和右圖;
共享權值抽取特徵;
多尺度的3D cost volumes:3個尺度(實現方式和dispnet一樣);
AA模塊:堆疊6個;
refine模塊:多個預測值上採樣到原始分辨率。

3.1 Adaptive Intra-Scale Aggregation

  • 目的
    爲了解決視差不連續處的邊緣變粗的問題,提出基於稀疏點的高效、靈活的代價聚合方式,形式和可形變卷積類似;

  • 計算代價公式
    在這裏插入圖片描述
    CRDHWC \in R^{D * H * W}, D代表最大視差,H和W代表高和寬;
    C^(d,p)\hat C(d,p)是像素 p 位置在候選視差 d 處的代價值;
    K2K^2 是採樣的點數(本文K=3), wkw_k$ 是k個點的權重,pkp_k是p的固定偏移(和window based代價聚合方法一致);
    ΔpkΔp_k 是可學習的額外偏移,有了這一項對***目標邊界和薄結構效果更好***。
    mkm_k 是每個位置的權重,用來控制採樣點的相對影響從而實現內容自適應的代價聚合,參照可形變卷積v2。
    ΔpkmkΔp_k和m_k 由單獨的卷積層計算,輸入爲cost volume C;
    原始可形變卷積偏移ΔpkΔp_k 和權重mkm_k 所有通管道共享,這裏把通道劃分成組,組內共享。用了空洞卷積,設置組數G=2,dilation rate=2。

  • ISA結構:
    Intra-Scale Aggregation(ISA)由三層卷積和殘差連接堆疊而成,三個卷積1x1、3x3(deformable conv)、1x1,類似bottlenect結構,這裏保持channel等於候選視差數不變。

  • 其他:

這裏把固定窗口代價聚合改進成了任意形狀,輸入是cost volume,參考了可形變卷積v2,仿照v2實現了不同偏移位置全中國不同(這裏不同的是mk而不是wk,wk是窗口聚合權重,mk是對聚合權重的修正);
分組聚合有點group normalization或者gwc-net裏group correlation的樣子,算是一個對逐通道和全部通道的折中;
用了dilation conv;

3.2 Adaptive Cross-Scale Aggregation

  • 目的
    無紋理和低紋理區域,在粗糙的尺度先搜索視差效果會好一點,下采樣的圖有更具判別型的信息。所以用一個加入一個跨尺度的代價聚合模塊CSA。
  • 每個尺度經過cost volume如下:
    在這裏插入圖片描述
    C^s\hat C^s就是尺度s經過跨尺度代價聚合後的cost volime結果,s表示第幾個尺度(s=1是最大分辨率),S是尺度總個數;
    fkf_k 採用HRNET的方法,可以讓多個尺度自適應的合併cost volume。
  • 不同尺度的fkf_k 怎麼計算?
    在這裏插入圖片描述
    第一項II 是恆等式,聚合尺度s的時候,當前尺度的cost volume直接用;
    第二項是s-k個步長爲2的3x3卷積,就是大尺度經過下采樣爲了和下尺度分辨率一致,當前cost volume尺度小於s時候;
    第三項是bilinear upsampling後接1x1,當前cost volume尺度大於s時候;

這裏其實就是不同尺度聚合的時候分辨率不同,用這種方法對齊分辨率,大的變小,小的變大,自身尺度恆等不變。

  • 和HRNet的不同?
    1)本文受傳統跨尺度成本聚合算法的啓發,目的是通過神經網絡層來近似幾何結論,HRNet旨在學習特徵表示;
    2)低尺度cost volume通道數(對應視差維度)減少一半,因爲粗尺度的視差搜索範圍小了;而HRNet增加了一倍,可以說明本文的更高效。

3.3 Adaptive Aggregation Network

堆疊6個AA Module做代價聚合,前三個的ISA只用普通2D卷積,後三個在用deformable conv(網絡裏一共用了9個做代價聚合);
特徵提取器類似resnet,40層,其中6個conv被改爲deformable conv;
FPN構建1/3,1/6,1/12分辨率特徵;
用兩個StereoDRNet裏的refine模塊分層上採樣1/3的視察預測結果到原始分辨率(先到1/2再到原始);

3.4 Disparity Regression

在這裏插入圖片描述

soft argmin方法,DmaxD_{max} 是最大視差範圍, σ\sigma 是softmax,這種基於迴歸的方式可以實現亞像素精度,現在基本都是用這種方法。

soft argmin就是不直接選代價最小視差,cost volume用softmax轉化爲概率,對視差做個加權求和。

3.5 Loss Function

在這裏插入圖片描述
V(p)V(p) 是mask,因爲有些位置缺失標籤所以用GANET預測pseudo的label。

四、實驗

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章