【視頻目標跟蹤】Motion-Attentive Transition for Zero-Shot Video Object Segmentation 一覽

本文創新點\貢獻

本文IDEA來源

人類視覺,對動態物體比對靜態物體更敏感,從生物學遷移

方法

在這裏插入圖片描述

方法概述

結構分三大塊,編碼器,橋型網絡,解碼器,方法是雙流

核心是雙流深度交錯編碼器,不僅繼承了多模態特徵的優勢,還能轉移中間motion注意力特徵來促進外觀學習

Interleaved Encoder Network

在這裏插入圖片描述

編碼:
變換由多個MAT(Motion Attentive Transition )塊組成,每個塊都把輸入圖片和光流映射在卷積階段的特徵作爲輸入,在block的裏邊建立的不對稱注意力機制,先推理基於光流的RoI,然後變換推理來爲外觀特性提供更好的選擇性

雙流結構,聯合編碼物體外觀和移動

包含MAT,提供一個運動到外觀的傳遞,使用ResNet-101的前五個卷積塊作爲每個流的backbone
給定RGB幀IaI_a和他的光流映射ImI_m,編碼器提取中間特徵Va,iRW×H×CV_{a,i} \in R^{W\times H \times C}還有Vm,iRW×H×CV_{m,i}\in R^{W\times H \times C}i2,3,4,5i\in{2,3,4,5}是殘差塊的序號(就是),然後MAT塊的操作:
Ua,i,Um,i=FMAT(Va,i,Vm,i)U_{a,i},U_{m,i} = F_{MAT}(V_{a,i},V_{m,i})
其中U.,iRW×H×CU_{.,i}\in R^{W\times H \times C}表示加強的特徵,然後連接起來獲得時空表達Ui=Concat(Ua,i,Um,i)RW×H×2CU_i = \text{Concat}(U_{a,i},U_{m,i}) \in R^{W \times H \times 2C},該表達通過橋網絡送進解碼器中

這個雙流是不是可以用在RGB和點雲特徵上?

Bridge Network

使用SSA(Scale-Sensitive Attention)來連接編碼器和解碼器
,由兩中注意力機制組成,局部注意力來選擇關注區域,全局注意力重新校準對象在不同尺度的特徵
由SSA模塊組成,利用編碼的特診UiU_i並且預測attention-aware特徵ZiZ_i

使用兩個注意力模組,一個是局部級別的,使用通道和空間注意力機制來讓輸入的特徵在正確的物體區域,並且削弱多餘特徵的影響。

全局注意力是重新校準不同size的特徵

Decoder Network

在這裏插入圖片描述
解碼:
接收編碼器的輸出作爲輸入,然後按比例進一步refine粗糙的特徵來獲得精準的分割。
包含多個BAR(Boundary-Aware Refinement),每個BAR利用多尺度特徵,在目標邊界預測的輔助下進行分割推理,得到結構更精細的結果

BARi,i2,3,4,5\text{BAR}_i,i\in {2,3,4,5}組成,通過用更低級的細節來步長更高級的粗糙特徵,特徵圖的分辨率逐步增加,

最大的分辨率是BAR2\text{BAR}_21/41/4輸入圖大小。然後用一個conv(3×3,1)\text{conv}(3\times 3,1)的卷積和sigmoid來獲得最後的Mask輸出MsRW×HM^s\in R^{W\times H}

Motion-Attentive Transition Module

在這裏插入圖片描述
MAPMAP
Soft Attention:
空間位置的加權:
Softmax attention:Am=softmax(wmVm)\text{Softmax attention}:A_m=\text{softmax}(w_m * V_m)
Attention-enhanced feature:U~mc=AmVmc\text{Attention-enhanced feature}:\tilde{U}^c_m=A_m \bigodot V^c_m
*是卷積操作,U~mc\tilde{U}^c_m是在第cc個通道的特徵,\bigodot是逐元素的乘法。

Attention Transition
使用non-local的方式,用多模態雙線性模型來找U~m\tilde{U}_mU~a\tilde{U}_a的關係:
S=U~mTWU~aR(WH)×(WH)S = \tilde{U}^T_m W \tilde{U}_a \in R^{(WH)\times (WH)}
WW是可訓練權重,這樣參數太多了,容易過擬合,W可分解成兩個低秩矩陣,計算相似性之前變換

這一塊還是non-local唄,然後是理論說明

在這裏插入圖片描述
然後,我們對每一行進行歸一化,得到一個基於運動特徵的注意圖SrS_r,並實現增強的外觀特徵

在這裏插入圖片描述

Deep MAT:
在這裏插入圖片描述

換了種表達?

然後是堆疊模組
在這裏插入圖片描述
在這裏插入圖片描述
MATMAT塊效果圖

Scale-Sensitive Attention Module

局部注意力
在這裏插入圖片描述
還是通道和空間attention
在這裏插入圖片描述
FsF_s是壓縮操作,對每個動多做avgpooling,將UU的全局空間信息壓縮到向量sR2Cs\in R^{2C}中,FeF_e是提取操作,捕捉通道的依賴,輸出注意力向量eR2Ce\in R^{2C}
在這裏插入圖片描述
FeFe操作
主通道的注意力特徵,星星是逐通道懲罰。

Fp是逐空間注意力
在這裏插入圖片描述
全局注意力

和這個差不多
在這裏插入圖片描述

在這裏插入圖片描述

Boundary-Aware Refinement Module

在這裏插入圖片描述
接受兩個輸入,z和f,
先用額外的邊界估計模組FbdryF_{bdry}來估計邊界,這樣能迫使網絡注意更好的物體細節

這個邊界是背景還是輪廓?這個注意細節是不是說學一定的東西,然後記憶流留到了backbone中?

然後結合兩個輸入來生成好的特徵:
Mib=Fbdry(Fi)M^b_i = F_{bdry}(F_i)
Fi1=FBARi(Zi,Fi,Mib)F_{i-1} = F_{BAR_i}(Z_i,F_i,M^b_i)
在這裏插入圖片描述
BAR得益於兩個關鍵因素

  1. Atrous Spatial Pyramid Pooling(ASPP),能轉換成多尺度表達,能擴大感受野,爲解碼獲得更多特徵

  2. 支持Fbdry訓練,提出了一種自動挖掘硬負像元的啓發式方法。
    對每個訓練幀,使用 off-the-shelf HED model來預測邊界mapE[0,1]W×HE \in [0,1]^{W \times H},計算每個像素屬於便於的概率EkE_k,如果有較高的邊緣分數(>0.2)且落在ground truth區域的外邊,就設置爲難負像素,難像素的權重wk=1+Ekw_k = 1+E_k,其他的爲wk=1w_k=1

    自動挖掘有點意思

在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

總結

結構太複雜了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章