Motion-Attentive Transition for Zero-Shot Video Object Segmentation

總結

本文創新點\貢獻

本文IDEA來源

人類視覺，對動態物體比對靜態物體更敏感，從生物學遷移

方法

方法概述

結構分三大塊，編碼器，橋型網絡，解碼器，方法是雙流

核心是雙流深度交錯編碼器，不僅繼承了多模態特徵的優勢，還能轉移中間motion注意力特徵來促進外觀學習

Interleaved Encoder Network

編碼：
變換由多個MAT(Motion Attentive Transition )塊組成，每個塊都把輸入圖片和光流映射在卷積階段的特徵作爲輸入，在block的裏邊建立的不對稱注意力機制，先推理基於光流的RoI，然後變換推理來爲外觀特性提供更好的選擇性

雙流結構，聯合編碼物體外觀和移動

包含MAT，提供一個運動到外觀的傳遞，使用ResNet-101的前五個卷積塊作爲每個流的backbone
給定RGB幀 $I_a$ 和他的光流映射 $I_m$ ，編碼器提取中間特徵 $V_{a,i} \in R^{W\times H \times C}$ 還有 $V_{m,i}\in R^{W\times H \times C}$ ， $i\in{2,3,4,5}$ 是殘差塊的序號(就是)，然後MAT塊的操作：
$U_{a,i},U_{m,i} = F_{MAT}(V_{a,i},V_{m,i})$
其中 $U_{.,i}\in R^{W\times H \times C}$ 表示加強的特徵，然後連接起來獲得時空表達 $U_i = \text{Concat}(U_{a,i},U_{m,i}) \in R^{W \times H \times 2C}$ ，該表達通過橋網絡送進解碼器中

這個雙流是不是可以用在RGB和點雲特徵上？

Bridge Network

使用SSA(Scale-Sensitive Attention)來連接編碼器和解碼器
，由兩中注意力機制組成，局部注意力來選擇關注區域，全局注意力重新校準對象在不同尺度的特徵
由SSA模塊組成，利用編碼的特診 $U_i$ 並且預測attention-aware特徵 $Z_i$

使用兩個注意力模組，一個是局部級別的，使用通道和空間注意力機制來讓輸入的特徵在正確的物體區域，並且削弱多餘特徵的影響。

全局注意力是重新校準不同size的特徵

Decoder Network

解碼：
接收編碼器的輸出作爲輸入，然後按比例進一步refine粗糙的特徵來獲得精準的分割。
包含多個BAR(Boundary-Aware Refinement)，每個BAR利用多尺度特徵，在目標邊界預測的輔助下進行分割推理，得到結構更精細的結果

由 $\text{BAR}_i,i\in {2,3,4,5}$ 組成，通過用更低級的細節來步長更高級的粗糙特徵，特徵圖的分辨率逐步增加，

最大的分辨率是 $\text{BAR}_2$ 的 $1/4$ 輸入圖大小。然後用一個 $\text{conv}(3\times 3,1)$ 的卷積和sigmoid來獲得最後的Mask輸出 $M^s\in R^{W\times H}$

Motion-Attentive Transition Module

$MAP$
Soft Attention:
空間位置的加權:
$\text{Softmax attention}:A_m=\text{softmax}(w_m * V_m)$
$\text{Attention-enhanced feature}:\tilde{U}^c_m=A_m \bigodot V^c_m$
$*$ 是卷積操作， $\tilde{U}^c_m$ 是在第 $c$ 個通道的特徵， $\bigodot$ 是逐元素的乘法。

Attention Transition：
使用non-local的方式，用多模態雙線性模型來找 $\tilde{U}_m$ 和 $\tilde{U}_a$ 的關係：
$S = \tilde{U}^T_m W \tilde{U}_a \in R^{(WH)\times (WH)}$
$W$ 是可訓練權重，這樣參數太多了，容易過擬合，W可分解成兩個低秩矩陣，計算相似性之前變換

這一塊還是non-local唄，然後是理論說明

然後，我們對每一行進行歸一化，得到一個基於運動特徵的注意圖 $S_r$ ，並實現增強的外觀特徵

Deep MAT:

換了種表達？

然後是堆疊模組

$MAT塊效果圖$

Scale-Sensitive Attention Module

局部注意力：

還是通道和空間attention

$F_s$ 是壓縮操作，對每個動多做avgpooling，將 $U$ 的全局空間信息壓縮到向量 $s\in R^{2C}$ 中， $F_e$ 是提取操作，捕捉通道的依賴，輸出注意力向量 $e\in R^{2C}$

$Fe操作$
主通道的注意力特徵，星星是逐通道懲罰。

Fp是逐空間注意力

全局注意力：

和這個差不多

Boundary-Aware Refinement Module

接受兩個輸入，z和f，
先用額外的邊界估計模組 $F_{bdry}$ 來估計邊界，這樣能迫使網絡注意更好的物體細節

這個邊界是背景還是輪廓？這個注意細節是不是說學一定的東西，然後記憶流留到了backbone中？

然後結合兩個輸入來生成好的特徵：
$M^b_i = F_{bdry}(F_i)$
$F_{i-1} = F_{BAR_i}(Z_i,F_i,M^b_i)$

BAR得益於兩個關鍵因素：

Atrous Spatial Pyramid Pooling(ASPP)，能轉換成多尺度表達，能擴大感受野，爲解碼獲得更多特徵
支持Fbdry訓練，提出了一種自動挖掘硬負像元的啓發式方法。
對每個訓練幀，使用 off-the-shelf HED model來預測邊界map $E \in [0,1]^{W \times H}$ ，計算每個像素屬於便於的概率 $E_k$ ，如果有較高的邊緣分數(>0.2)且落在ground truth區域的外邊，就設置爲難負像素，難像素的權重 $w_k = 1+E_k$ ，其他的爲 $w_k=1$

自動挖掘有點意思

總結

結構太複雜了

【視頻目標跟蹤】Motion-Attentive Transition for Zero-Shot Video Object Segmentation 一覽

Motion-Attentive Transition for Zero-Shot Video Object Segmentation

本文創新點\貢獻

本文IDEA來源

方法

方法概述

Interleaved Encoder Network

Bridge Network

Decoder Network

Motion-Attentive Transition Module

Scale-Sensitive Attention Module

Boundary-Aware Refinement Module

總結

推薦IntelliJ產品可用的LeetCode刷題插件

《大話數據結構》第二章算法

《大話數據結構》第一章數據結構緒論

《大話數據結構》用JAVA實現筆記整理

《大話數據結構》第七章圖

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結