視頻分割 / 跟蹤

原創

2020-06-26 10:36

1. SiamFC（目標跟蹤）

出自論文《Fully-Convolutional Siamese Networks for Object Tracking》
Siamese Network 對兩個不同輸入，使用同一個網絡結構提取特徵，然後根據提取的特徵計算兩個輸入的相似度關係。這爲目標跟蹤（VOT）任務提供了新的研究方向。即通過比較後續幀和第一幀標註的模板圖像的相似度關係，完成同一個目標的持續跟蹤任務（相似度得分最高的位置，即認爲是跟蹤的目標位置)。

2. SiamMask（目標跟蹤&分割）

出自論文《Fast Online Object Tracking and Segmentation: A Unifying Approach》
相比較於SiamFC:
（1）用 depth-wise cross correlation 替換了SiamFC中簡單的cross-correlation，從而得到一個高維的相似度響應圖
（2）增加了mask分支，利用高維相似度響應圖，在完成目標跟蹤的同時，實現像素級別的目標分割（半監督視頻分割，僅利用第一幀的標定框）
下圖three-branch variant 和 two-branch variant 分別是在SiamRPN 和 SiamFC基礎上改造而來。

3.RANet（視頻分割）

出自論文：《RANet: Ranking Attention Network for Fast Video Object Segmentation》
通過對第一幀和後續幀進行像素級別的匹配，得到模板每個像素點的Similarity maps, 藉助第一幀的標定mask, 將這些maps分爲前景maps和背景maps, 因爲不同video的前景背景像素數不一致，所以爲了得到一個固定尺寸的前景和背景圖尺寸，提出了RAM模塊，即排序選擇模塊，通過評分機制，從高到低選擇出固定大小的maps作爲後續模塊輸入(多了就丟棄，少了就補0), 得分越高的map, 代表該像素點在當前幀的匹配程度越高。最後，融合前景背景排序選擇後Similarity maps特徵和上一幀的mask，共同給出當前幀的預測結果。
半監督視頻分割（利用第一幀標定的mask), 同時結合了matching 和 Propagation 兩大半監督視頻分割主流方法，給出了更好的性能表現。

4.《Improving Semantic Segmentation via Video Propagation and Label Relaxation》

核心思想爲通過video prediction方法合成image–label對，擴充訓練數據集，同時使用邊界標籤relaxation提升標籤邊界質量。

5. UVA-Net（視頻注意力預測）

出自論文：《Ultrafast Video Attention Prediction with Coupled Knowledge Distillation》

核心思想：借用知識蒸餾技巧實現模型壓縮
具體的，兩個teacher model, 分別負責進行spatial和temporal預測，一個student model，附有兩個分支，在對應teacher model的預測結果的指導下進行spatial和temporal預測，完成知識蒸餾過程。
爲了進一步融合spatial和temporal特徵，提升預測結果，設計了spatiotemporal model, 其結構與student model基本一致，只是後面對兩個分支特徵進行concatenate融合後給出最終預測。

其中的CA-Res 模塊如下所示：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

視頻分割 / 跟蹤

1. SiamFC（目標跟蹤）

2. SiamMask（目標跟蹤&分割）

3.RANet（視頻分割）

4.《Improving Semantic Segmentation via Video Propagation and Label Relaxation》

5. UVA-Net（視頻注意力預測）

CV--對抗思想及其應用

UNet系列網絡

圖像去遮擋

視頻分割 / 跟蹤

深度學習-backbone網絡模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結