Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

行人重識別之紅外圖像識別(CVPR2019)

Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification
原文鏈接:http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Learning_to_Reduce_Dual-Level_Discrepancy_for_Infrared-Visible_Person_Re-Identification_CVPR_2019_paper.pdf

這篇文章主要有兩個亮點:

  • 將紅外行人重識別帶進了我們的視野
  • 將行人重識別明確分割成了圖像域和特徵域兩部分

紅外行人重識別
正常圖像:
在這裏插入圖片描述
紅外圖像:
在這裏插入圖片描述
query是正常圖像(紅外圖像),gallery是紅外圖像(正常圖像)。從這兩張圖像可以看出紅外圖像的行人重識別(IV-REID)有着很大的難度,所以也有着很大的研究空間。

IV-REID常用的兩個數據庫:
RegDB 和 SYSU-MM01

兩個域的分割
圖像域:不同的數據庫風格、紅外圖像與正常圖像、不同的攝像頭角度等。可以簡單理解爲使用cyclegan的那些方法針對的都是圖像域。
特徵域:圖像的特徵向量。

作者將一個很多人可能一直在使用的思想進行總結提升了高度,即:先將圖像域統一,再在特徵域進行提特徵識別等任務。如下圖:
在這裏插入圖片描述
針對這篇文章的紅外圖像的問題,先將所有圖像統一成同一風格,再提取特徵。這樣比將兩者融爲一體更爲有效。圖中藍色虛線是將兩個步驟融爲一體,可以看出黃線比藍色虛線的夾角更小。雖然這只是一個示意圖,但是可以直觀解釋這一思想。

進一步,分析幾個文章細節:

  • 總體框架:
    在這裏插入圖片描述
    x是正常圖像(三通道),y是紅外圖像(單通道)。先使用E編碼到z,注意,作者希望由x和y編碼的z是一致的,這也是消除了圖像域差別的體現。然後使用cyclegan由正常(紅外)圖像生成紅外(正常)圖像。最後提特徵加識別。

  • 圖像維度
    生成的圖像和原圖像組合成了4維輸入,作者給出兩個原因:①兩者潛在存在關聯。②不這樣容易丟失信息。實驗也證明了4維輸入勝過只使用紅外圖像或者正常圖像。

  • 訓練
    圖像域部分和特徵域部分先分別使用market1501(光照不好的被當做紅外圖像,感覺這裏很含糊啊…)進行預訓練,然後聯合訓練。聯合訓練可以使兩個部分的網絡相互促進和監督。

  • 消融實驗
    三元組損失比交叉熵損失還要有效(至少這篇文章的baseline是這樣),這還挺意外的,畢竟交叉熵在分類問題方面的統治地位…

  • 特徵向量可視化
    經常看到特徵向量可視化,卻很少有作者說明是如何可視化的,就是下圖這種:
    在這裏插入圖片描述
    這篇文章提到t-SNE(Visualizing data using t-SNE),github直接搜索就有代碼,可以嘗試。

總結:思路清晰、實驗充分,創新雖然不是特別高,但是理論分析和理論提升的功夫很到位。


歡迎討論 歡迎吐槽

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章