EANet: Enhancing Alignment for Cross-Domain Person Re-identification

行人重識別之cross domain

EANet: Enhancing Alignment for Cross-Domain Person Re-identification (2018arXiv)
原文鏈接

這篇文章從alignment(對準)的角度解決cross domain問題,最後的模型在source到source和source到target的效果均有了明顯的提升。本文的算法思路比較簡單清晰,實驗部分較爲精彩。推薦大家看看原文的實驗部分,爲自己寫論文時的實驗部分提供參考。

先說一下alignment問題,如下圖所示。盲目將圖像進行分塊並計算塊與塊之間的相似度,在很多情況下是不合適的。
在這裏插入圖片描述
所以,很多學者研究了相關算法,使行人的各個部分對齊,如下圖。
在這裏插入圖片描述
這篇文章的思路是利用行人的關鍵點,將行人進行分塊和對準,如下圖。在此基礎上,進行遷移學習。
在這裏插入圖片描述
基於以上內容,分析一下文章的算法。
在這裏插入圖片描述
如圖左下角所示,將圖像分爲9個部分。前6個部分是依靠關鍵點進行分割。後3個部分分別是上半部分、下半部分、全身,均是固定的比例。如果沒有檢測到某一個部分,那麼這部分的特徵就是一個0向量。如果,0向量屬於query,那麼該向量保留。如果0向量屬於gallery,那麼該向量直接被捨棄。這裏有一個思想:當使用的其它算法的效果並不是完美時(如圖中的關鍵點檢測分塊算法),那麼我們可以結合一些其它方法(如圖中的後三個部分)作爲互補,這樣的魯棒性就會高一些。

圖中的上半部分是將9部分的特徵分別做最大池化,並根據行人id進行交叉熵損失計算。圖中的下半部分根據特徵對行人圖像進行分割,進行像素級別的分類任務,標籤是訓練好的圖像分割模型在行人數據庫中測試時獲得的僞標籤。這裏的思想是:如果可以根據特徵分割準確(下半部分),那麼各個部分的特徵也將更具區分力(上半部分),降低了各個部分特徵的冗餘性。

最後,在source上訓練的時候,綜合上下兩個部分。在target上遷移的時候,只使用下半部分(因爲target沒有id標籤)。

總結:這篇文章給了我一個啓發,一些可能和cross domain無關的問題,比如文中的alignment問題,如果得到了妥善的解決,那麼也會對cross domain起到幫助作用。所以思維應該打開,不要總想着數據庫風格遷移之類的。改善一些常見問題,也許就會有不錯的效果。


歡迎討論 歡迎吐槽

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章