Purpose
把特徵映射到高維做聚類,加上自監督的訓練得到的圖片的Depth信息結合來做VIS
Pipline
用ResNet18作爲Encoder,得到每一幀的feature x_t;然後用3D卷積,把前後兩者特徵再濾波得到z_t;z_t通過Decoder(2個分支,每個分支7層卷積,3個upsample,Embedding分支的output通道數爲p,Depth通道數爲1)
訓練時計算作者設計的loss
inference等會再說
Loss
首先看前面三項,是針對Embedding的分支。具體如下:
La是讓每個pixel i 的embendding y_i更接近其類別中心μ_k;
Lr是讓不同類的中心離得更遠,也即不同instance更分離;
Lreg是一個正則項。
在看Depth分支,具體計算參考https://blog.csdn.net/weixin_41024483/article/details/87992248
主旨就是通過把當前幀重建到源幀(比如前一幀),再用重建的源和源做對比進行優化,進而間接的優化Depth。
這個loss如下:
最後把兩個分支loss相加得到最終loss
Inference
對於每一個新的幀,我們首先使用mask network生成背景mask,然後使用mean shift對前景embedding進行聚類,發現每個簇對應一個實例的密集區域。跟蹤實例只需要比較新分割實例與以前分割實例的mean embedding。小於ρr的距離表示匹配。