Motion-Attentive Transition for Zero-Shot Video Object Segmentation
本文創新點\貢獻
本文IDEA來源
人類視覺,對動態物體比對靜態物體更敏感,從生物學遷移
方法
方法概述
結構分三大塊,編碼器,橋型網絡,解碼器,方法是雙流
核心是雙流深度交錯編碼器,不僅繼承了多模態特徵的優勢,還能轉移中間motion注意力特徵來促進外觀學習
Interleaved Encoder Network
編碼:
變換由多個MAT(Motion Attentive Transition )塊組成,每個塊都把輸入圖片和光流映射在卷積階段的特徵作爲輸入,在block的裏邊建立的不對稱注意力機制,先推理基於光流的RoI,然後變換推理來爲外觀特性提供更好的選擇性
雙流結構,聯合編碼物體外觀和移動
包含MAT,提供一個運動到外觀的傳遞,使用ResNet-101的前五個卷積塊作爲每個流的backbone
給定RGB幀和他的光流映射,編碼器提取中間特徵還有,是殘差塊的序號(就是),然後MAT塊的操作:
其中表示加強的特徵,然後連接起來獲得時空表達,該表達通過橋網絡送進解碼器中
這個雙流是不是可以用在RGB和點雲特徵上?
Bridge Network
使用SSA(Scale-Sensitive Attention)來連接編碼器和解碼器
,由兩中注意力機制組成,局部注意力來選擇關注區域,全局注意力重新校準對象在不同尺度的特徵
由SSA模塊組成,利用編碼的特診並且預測attention-aware特徵
使用兩個注意力模組,一個是局部級別的,使用通道和空間注意力機制來讓輸入的特徵在正確的物體區域,並且削弱多餘特徵的影響。
全局注意力是重新校準不同size的特徵
Decoder Network
解碼:
接收編碼器的輸出作爲輸入,然後按比例進一步refine粗糙的特徵來獲得精準的分割。
包含多個BAR(Boundary-Aware Refinement),每個BAR利用多尺度特徵,在目標邊界預測的輔助下進行分割推理,得到結構更精細的結果
由組成,通過用更低級的細節來步長更高級的粗糙特徵,特徵圖的分辨率逐步增加,
最大的分辨率是的輸入圖大小。然後用一個的卷積和sigmoid來獲得最後的Mask輸出
Motion-Attentive Transition Module
Soft Attention:
空間位置的加權:
是卷積操作,是在第個通道的特徵,是逐元素的乘法。
Attention Transition:
使用non-local的方式,用多模態雙線性模型來找和的關係:
是可訓練權重,這樣參數太多了,容易過擬合,W可分解成兩個低秩矩陣,計算相似性之前變換
這一塊還是non-local唄,然後是理論說明
然後,我們對每一行進行歸一化,得到一個基於運動特徵的注意圖,並實現增強的外觀特徵
Deep MAT:
換了種表達?
然後是堆疊模組
Scale-Sensitive Attention Module
局部注意力:
還是通道和空間attention
是壓縮操作,對每個動多做avgpooling,將的全局空間信息壓縮到向量中,是提取操作,捕捉通道的依賴,輸出注意力向量
主通道的注意力特徵,星星是逐通道懲罰。
Fp是逐空間注意力
全局注意力:
和這個差不多
Boundary-Aware Refinement Module
接受兩個輸入,z和f,
先用額外的邊界估計模組來估計邊界,這樣能迫使網絡注意更好的物體細節
這個邊界是背景還是輪廓?這個注意細節是不是說學一定的東西,然後記憶流留到了backbone中?
然後結合兩個輸入來生成好的特徵:
BAR得益於兩個關鍵因素:
-
Atrous Spatial Pyramid Pooling(ASPP),能轉換成多尺度表達,能擴大感受野,爲解碼獲得更多特徵
-
支持Fbdry訓練,提出了一種自動挖掘硬負像元的啓發式方法。
對每個訓練幀,使用 off-the-shelf HED model來預測邊界map,計算每個像素屬於便於的概率,如果有較高的邊緣分數(>0.2)且落在ground truth區域的外邊,就設置爲難負像素,難像素的權重,其他的爲自動挖掘有點意思
總結
結構太複雜了