行人重識別之攝像頭視角
Camera viewpoint learning for person re-identification
這次分享一篇自己的文章,這篇文章針對了攝像頭視角的問題。
先來說一個行人重識別中本質而又容易被忽略的問題:
行人重識別是跨攝像頭檢索任務,也就是說,找到同一個攝像頭中的同一個人是沒有意義的。最終計算準確率的時候,會把rank序列中和query攝像頭視角相同且是同一個人的圖像全部去除。
也就是說,和query攝像頭視角相同的gallery在檢索中都是沒有意義的。我們可以視其爲干擾圖像。
這個問題其實挺嚴重的:同一攝像頭下行人的類間距離往往小於不同攝像頭下行人的類內距離。如下圖,ci表示第i個攝像頭視角。
所以,這篇文章提出了兩個方法,兩者相輔相成:
Mean and Variance Loss function (MVL)
f代表特徵向量,B是batchsize,c代表攝像頭視角編號。所以mvl就是對不同攝像頭視角下圖像特徵向量的均值之間和方差之間的差異性進行懲罰。也就是約束了特徵向量的統計特徵,使得網絡對於不同攝像頭視角下的圖像一視同仁。
實驗結果如下:
每一個點代表一個攝像頭視角下所有特徵向量均值和方差的平均值。可以發現,使用MVL後,攝像頭視角間的差異性縮小了。
The Camera Id Classifier (CIC)
基於最開始的結論,和query攝像頭視角相同的gallery都是干擾圖像。那麼,我們可以直接識別圖像和query的攝像頭視角是否相同,如果相同,直接過濾掉。
所以我們用圖像的攝像頭視角id作爲標籤,訓練一個網絡。在測試的過程中,該網絡提取query和gallery的特徵向量,進行比較,根據閾值,判斷是否屬於同一個攝像頭視角。
我最開始覺得這個方案不可行,因爲覺得很多不同視角的圖像看上去非常像同一個視角。然而,我低估了深度學習…訓練後,直接識別的準確率至少都能達到70%以上的水平。(對於market1501是6分類,對於duke是8分類,兩者的平均識別準確率分別是79.71%和85.33%)如果比較特徵向量的差異性判斷是否屬於同一視角,那麼準確率又會大幅提高。
最後,附上兩張實驗結果圖:
總結:一篇創新性很弱,但是比較實用的文章。可以作爲re-id的tricks。
完
歡迎討論 歡迎吐槽