Cross-Dataset Person Re-Identification via Unsupervised Pose Disentanglement and Adaptation

行人重識別之cross domain

Cross-Dataset Person Re-Identification via Unsupervised Pose Disentanglement and Adaptation (ICCV2019)
原文鏈接

這篇文章從圖像風格遷移的角度進行了cross domain,用到了生成對抗網絡(GAN),對GAN不熟悉的朋友可以參考這篇文章,讓你兩分鐘對GAN有初步的認知。

言歸正傳,這篇文章的風格遷移主要是針對行人的姿勢。在這個過程中,模型學習到了行人與姿態無關的特徵,從而更具有魯棒性,最終提升了cross domain的效果。與以往直接介紹算法不同,這次換一個敘述方法,一步一步按照作者的思路構建出文章算法的框架。

爲了對行人進行風格遷移,需要提取出行人的視覺特徵向量和姿態特徵向量。而且,根據行人的關鍵點map提取姿態特徵向量效果更好。於是有了框架的第一個部分:
在這裏插入圖片描述
S和T分別代表source和target,p和c分別代表姿態維度和視覺維度。我們需要對Ec進行約束,否則其生成的特徵向量沒有足夠的區分度。即圖中的re-ID loss。利用了三元組損失函數和MMD。
在這裏插入圖片描述

有了特徵向量,我們就可以使用GAN生成對應的圖像。因爲是風格遷移,所以我們希望生成s到t的圖像和t到s的圖像。所以需要兩個生成器Gs和Gt,分別對應s和t。爲了對兩個生成器增加約束,我們有一個容易忽略的條件可以使用:用Gs和Gt分別進行s到s和t到t的圖像重建任務,最後用L1損失計算重構誤差,這樣就會增強對模型的約束力。另外,GAN中當然也會有判別器,用它來判斷遷移的圖像的真假,這是另外一個約束。所以,綜上所述,我們用Gt的結構舉例:
在這裏插入圖片描述
生成t->t時,輸入的是第一步target的特徵向量,生成s->t時,輸入的是第一步source的特徵向量。

開頭提到,文章希望可以學習到與姿態無關的特徵向量,對應第一步中的Vc。那麼我們需要再增加一層約束。這時候想到,source是有標籤的,如果我們讓同一個人不同圖像的Vc和同一個姿態的特徵向量Vp的結合輸入到Gs中,讓它們生成的圖像一樣,那麼在訓練的過程中,同一個人不同姿態的Vc將慢慢靠近。綜上所述,Gs如下所示:
在這裏插入圖片描述
其中上面的部分就是生成了兩張圖像,與上述對應。

說到這,細心的讀者會發現,我們還沒有對第一步中的Ep增加約束。所以我們可以引入一個判別器Dp。輸入是關鍵點map和對應的圖像,圖像分爲真實的和生成的,使用Dp對其真實性進行判斷。這樣,在反向傳播的過程中,就會對Ep進行約束。如下圖所示(藍色部分):
在這裏插入圖片描述
最後,文章的總體框架如下所示,其中domain loss代表了和GAN有關的損失函數:

在這裏插入圖片描述
之前有過這種想法,但是當我把框架圖畫出來的時候,感覺自己單打獨鬥的話,這種複雜網絡我可能永遠也調不好。所以對文章的代碼十分期待!

總結:這次的博客改變了寫法,就是爲了和大家分享搭網絡的思路。所以,從問題的本源出發,一步一步構建並細化網絡纔是正確的設計算法的方式。最後,祝願各位超參調節工程師們調參順利,哈哈。


歡迎討論 歡迎吐槽

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章