【MVOS】Efficient Video Object Segmentation via Network Modulation

論文地址 :http://openaccess.thecvf.com/content_cvpr_2018/papers/Yang_Efficient_Video_Object_CVPR_2018_paper.pdf

有代碼!

Motivation

本文是semi-supervised的方法。最近有很多方法是在已有標註的視頻幀上finetune出結果,所以作者想提出單一forward的網絡segment instance object in video。

Pipline

網絡的主體是“Segmentation Net”,Backbone是VGG16,作者在倒數四層每一層都加了一個“Modulator”,每個Modulator包括一個“Visual M”和“Spatial M”。

Visual Modulator

把visual guide frame(annotated first frame)輸入網絡(VGG16),並通過全鏈接,輸出scalar個數爲對應Segmentation Net最後4層通道數數。相當於學習Segmentation Net最後4層每個通道數的weight,每個通道學到的參數記作:

Spatial Modulator

把pre-mask變成一個2維高斯分佈的heatmap,記作,用於添加一個location信息,會做下采樣來和Segmentation Net最後四層的feature map 的尺寸對齊。同時還會對每次下采樣的heatmap做一個防縮和平移(用一個1x1的卷積實現):

                                                               

Modulator

因此結合兩者,可以得到每一層的輸出:

Implementation details

作者也是先在image dataset上pretrain(stage1),再在video dataset(DAVIS2017)上finetune20 epoch。

Result

作者做了對比實驗,-B實驗是隻在image 上pretrain,-M實驗是作者在這兩個網絡最後一層加上作者設計的Modulator

就搞不懂作者說的FT是怎麼樣的

2020年01月08日

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章