【MOTS】Learning a Spatio-Temporal embedding for video instance segmentation

Purpose

把特徵映射到高維做聚類,加上自監督的訓練得到的圖片的Depth信息結合來做VIS

Pipline

 

用ResNet18作爲Encoder,得到每一幀的feature x_t;然後用3D卷積,把前後兩者特徵再濾波得到z_t;z_t通過Decoder(2個分支,每個分支7層卷積,3個upsample,Embedding分支的output通道數爲p,Depth通道數爲1)

訓練時計算作者設計的loss

inference等會再說

Loss

首先看前面三項,是針對Embedding的分支。具體如下:

La是讓每個pixel i 的embendding y_i更接近其類別中心μ_k;

Lr是讓不同類的中心離得更遠,也即不同instance更分離;

Lreg是一個正則項。

在看Depth分支,具體計算參考https://blog.csdn.net/weixin_41024483/article/details/87992248

主旨就是通過把當前幀重建到源幀(比如前一幀),再用重建的源和源做對比進行優化,進而間接的優化Depth。

這個loss如下:

最後把兩個分支loss相加得到最終loss

Inference

對於每一個新的幀,我們首先使用mask network生成背景mask,然後使用mean shift對前景embedding進行聚類,發現每個簇對應一個實例的密集區域。跟蹤實例只需要比較新分割實例與以前分割實例的mean embedding。小於ρr的距離表示匹配。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章