視頻分割 / 跟蹤

1. SiamFC(目標跟蹤)

出自論文《Fully-Convolutional Siamese Networks for Object Tracking》
Siamese Network 對兩個不同輸入,使用同一個網絡結構提取特徵,然後根據提取的特徵計算兩個輸入的相似度關係。這爲目標跟蹤(VOT)任務提供了新的研究方向。即通過比較後續幀和第一幀標註的模板圖像的相似度關係,完成同一個目標的持續跟蹤任務(相似度得分最高的位置,即認爲是跟蹤的目標位置)。
在這裏插入圖片描述

2. SiamMask(目標跟蹤&分割)

出自論文《Fast Online Object Tracking and Segmentation: A Unifying Approach》
相比較於SiamFC:
(1)用 depth-wise cross correlation 替換了SiamFC中簡單的cross-correlation,從而得到一個高維的相似度響應圖
(2)增加了mask分支,利用高維相似度響應圖,在完成目標跟蹤的同時,實現像素級別的目標分割(半監督視頻分割,僅利用第一幀的標定框)
下圖three-branch variant 和 two-branch variant 分別是在SiamRPN 和 SiamFC基礎上改造而來。
在這裏插入圖片描述
在這裏插入圖片描述

3.RANet(視頻分割)

出自論文:《RANet: Ranking Attention Network for Fast Video Object Segmentation》
通過對第一幀和後續幀進行像素級別的匹配,得到模板每個像素點的Similarity maps, 藉助第一幀的標定mask, 將這些maps分爲前景maps和背景maps, 因爲不同video的前景背景像素數不一致,所以爲了得到一個固定尺寸的前景和背景圖尺寸,提出了RAM模塊,即排序選擇模塊,通過評分機制,從高到低選擇出固定大小的maps作爲後續模塊輸入(多了就丟棄,少了就補0), 得分越高的map, 代表該像素點在當前幀的匹配程度越高。最後,融合前景背景排序選擇後Similarity maps特徵和上一幀的mask,共同給出當前幀的預測結果。
半監督視頻分割(利用第一幀標定的mask), 同時結合了matching 和 Propagation 兩大半監督視頻分割主流方法,給出了更好的性能表現。
在這裏插入圖片描述
在這裏插入圖片描述

4.《Improving Semantic Segmentation via Video Propagation and Label Relaxation》

核心思想爲通過video prediction方法合成image–label對,擴充訓練數據集,同時使用邊界標籤relaxation提升標籤邊界質量。
在這裏插入圖片描述

5. UVA-Net(視頻注意力預測)

出自論文:《Ultrafast Video Attention Prediction with Coupled Knowledge Distillation》
在這裏插入圖片描述
核心思想:借用知識蒸餾技巧實現模型壓縮
具體的,兩個teacher model, 分別負責進行spatial和temporal預測,一個student model,附有兩個分支,在對應teacher model的預測結果的指導下進行spatial和temporal預測,完成知識蒸餾過程。
爲了進一步融合spatial和temporal特徵,提升預測結果,設計了spatiotemporal model, 其結構與student model基本一致,只是後面對兩個分支特徵進行concatenate融合後給出最終預測。
在這裏插入圖片描述
其中的CA-Res 模塊如下所示:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章