ID-aware Quality for Set-based Person Re-identification論文筆記

1. 摘要

        針對set-based ReID問題,目前主流的一種做法是對set中的單張圖像使用CNN提取特徵,再對這些特徵使用融合算法整合爲set的特徵表示。但是,質量(作者定義了感知質量和語義質量,perceptually/semantically low quality images)較差的圖片和簡單圖片的過擬合會影響最終的特徵表示。因此,Wang等人提出了ID-aware quality,可以同時測量圖片的感知和語義質量。在此基礎上,提出了ID-aware Embedding (IDE),網絡結構如圖1所示,該網絡結構中比較重要的兩個部件分別爲Feature Learning Attention和Feature Fusion Attention。Feature Learning Attention (FLA)利用了ID-aware quality挑選出中等難度(medium hard images)的樣本進行學習,部件學習到的加權係數用於加權交叉熵損失。Feature Fusion Attention (FFA)根據ID-aware quality給予質量越高的圖更大的加權權重。

圖 1

2. 實現細節

      文章的兩個主要貢獻爲:(1) 提出了ID-aware quality衡量方法,可以同時衡量感知質量和語義質量;(2) 提出了ID-aware Embedding,根據ID-aware quality計算set-level的特徵表示。

      作者首先定義了感知質量和語義質量問題(原文中Figure 1),前者包括圖像模糊,後者包括遮擋、人體顯示不完全及一幅圖中多個人。實現方法如式,即對每張圖關於ID做了分類:

s_i=\frac{exp(\mathbf{z}_{i}^{T}\mathbf{c}_{y})}{\sum_{k=1}^{C}exp(\mathbf{z}_{i}^{T}\mathbf{c}_{y})}

     FLA和FFA目的是學習兩組加權參數,前者用於Image-level的ID學習,後者用於Set-level的特徵融合。數學上的實現方法就是使用了高斯分佈公式。FLA中的si滿足N(0.5,\sigma_{FLA}^{2}),這樣可以更好的挖掘中等難度(ID的分類正確率在0.5左右)的樣本,如圖2a所示。FFA中的si滿足N(1, \sigma_{FFA}^{2}),這樣可以讓分類性能更好的圖像在特徵融合時的權重更大,如圖2b所示。

(a)
(b)
圖2

3. 討論

     在set image retrival領域,quality-based的經典方法有商湯提出的QAN。本篇論文的作者也與QAN進行了比較。在quality-aware方面,作者說明QAN只能檢測感知質量,而本文可以同時衡量感知和語義質量。在IDE方面,文中提出的FFA和FLA的參數均只是前向過程不參與反向傳播,在測試時也沒有ID-aware的概念,只是採用image-level平均得到set-level embedding,文中提出的網絡結構只是學習出一個魯棒的embedding函數,該函數可以忽略低質量的圖片。

     本文的工作在MARS, iLIDS-VID, PRID2011和LPW上測試了CMC-1指標,實驗結果如下:

  MARS iLIDS-VID PRID2011 LPW
  mAP CMC-1 CMC-1 CMC-1 CMC-1
QAN -- -- 68.0 90.3 --
ID-aware 71.7 83.3 81.9 93.7 70.9

4. 問題

(1) 爲什麼這個網絡結構可以work?

     從理論上來說,本文學習的度量空間是使同類的set-level特徵儘量接近,並且使異類的set-level特徵遠離。文章提出的一大堆組件,最後只是用來校正訓練embedding所用的CNN,在測試的時候並沒有起到加權的作用。其實細細去想這篇文章,我覺得作者應該最早做的是image-level reid,然後發現坑挖的差不多了,現在轉過來做video reid。因爲文中提出的結構很像做image-level問題的解法,類比一下我們在做Metric Learning (MVP)的時候,也只是設計了一個loss,各種難樣本加權實際上就是文中提到的”attention”,相關的加權係數也沒有經過BP過程。而且文中所謂的ID-aware quality,就是ID分類的softmax結果。Loss也就是ID Loss + Contrastive Loss。

(2) 爲什麼FLA和FFA所用的分佈不同呢?

    因爲FLA主要用做的是分類Loss,那麼按照作者的說法,不想網絡太關注在outliers或者是太簡單的樣本(trival image)上,而去挖掘medium hard samples。而FFA是用作生成set-level表示,這個時候就希望分類效果較好的圖片擁有更高的權重。

(3) 這篇文章效果真的比QAN好嗎?

    這篇文章只是在最後列出了在兩個數據集上的指標比較,但是從理論上沒有跟QAN做很細緻的比較。首先,假設文中定義的兩個quality是make sense的,那麼按照文中說法,QAN只能衡量模糊,其它都不行。但是這個觀點是不嚴謹的(甚至是跟QAN原文的結論矛盾的),因爲在QAN文中,Figure 5下面的說明中已經說了,QAN對於光照、變形、重疊/遮擋以及圖中出現多個行人時,quality分數較低。(QAN原文中的話: It is easy to find that images with deformity, superposition, blur or extreme light condition tend to obtain lower quality scores than normal images. Especially many of hard images include two or more bodies in the center and we can hardly discriminate which one is the right target).

    而且文中也只是對比了他們方法和QAN的不同,也並沒有說明這些不同會帶來什麼好處。我個人不覺得權重不學習會比學習來的更好,那如果這樣的話,各種attention還有啥意義呢。

(4) 這個quality衡量到底有什麼具體含義呢?

    感覺文章的出發點是挺有意思的,用ID去約束圖片質量。但是其實除了在第一部分裏給出了quality的定義外,通篇我沒覺得網絡結構跟quality有什麼特別大的關係。感覺就是開了個很好的頭,但是做法一看竟然就是image level ID classification,我覺得文章至少需要在結論部分證明,ID的分類結果就是quality,不然我覺得這個quality的定義更像是在掰故事。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章