Contribution-Based Multi-Stream Feature Distance Fusion Method With K-Distribution Re-Ranking re-id

論文題目: 基於貢獻的多流特徵距離融合,k分佈再排序的人員重新識別方法

一 、 摘要

主要包含了有以下內容:

  1. BPEN 局部抽取和對齊(用到了CPM)
  2. 多流貢獻框架(MSCF)來融合具有不同貢獻的特徵距離並生成最終的圖像相似度描述符
  3. FCNs(全卷積網絡) 語義分割,得到前景圖像,生成mask feature
  4. contribution feedback module 動態生成貢獻係數 (用到了分段學習策略優化反饋模塊)
  5. K-distribution re-ranking improve performance
    --------------------------------------------------------------------------------------------------------------------------------------------------------------

二 、 介紹

目前行人衝識別方法對比研究:
全局特徵:缺失細節 【1-2】
局部特徵:不對齊問題【3-4】

在這裏插入圖片描述
作者提出:


  • body partition extraction network(BPEN) 對齊身體區域,利用了key-points並且生成了三個身體區域。
  • multi-stream contribution framework(MSCF),一個全局特徵,三個局部特徵,加入語義分割生成的mask 特徵,總共五個特徵。另外,語義分割,減小了背景混雜信息的干擾。
  • 特徵融合這一塊,因爲包含了全局和局部,先前的工作都是直接融合生成新的特徵。但是容易因爲不合適的融合策略導致忽略細節,爲了平衡全局和局部,提出了三點:
  • (1)多特徵距離融合方法,每個圖片通過MSCF得到五個特徵。兩個圖片就是五對特徵。可以根據每個特徵的貢獻來融合這些距離
  • (2) 貢獻反饋模塊自動的生成貢獻係數。
  • (3)貢獻係數聯合特徵距離生成最終距離。
  • 最後距離作爲圖片相似性描述符。
  • 完成初次檢索之後,可以通過re-ranking來提高排序質量。很多研究通過重新計算probe和gallery之間的距離進行重排序。【7-10】,通過這種方式,可以將正確匹配的圖像放在重新排列的列表的頂部。這篇論文提出了一種新的重新排名策略,即k-distribution re-ranking,並引入了分佈得分的概念。 這將爲每個圖庫圖像提供分佈得分,並根據其得分修改重新排名列表。

--------------------------------------------------------------------------------------------------------------------------------------------------------------

三 、相關工作

度量學習

CNN-based metric learning method aims to obtain the similarities between two images。

表徵學習

Representation learning aims to obtain a feature descriptor from the original person image for re-ID。

圖片語義分割

語義分割是在像素級別上的分類,屬於同一類的像素都要被歸爲一類,因此語義分割是從像素級別來理解圖像的。
在這裏插入圖片描述

語義分割參考鏈接: https://zhuanlan.zhihu.com/p/37801090.

(語義分割綜述,寫的非常好。)

Re-ranking

擴展閱讀鏈接: https://blog.csdn.net/lwplwf/article/details/84862054.

  • Shenet al.[26] propose k-nearest neighbors to optimize the ranking list.
  • Lenget al.[9] calculate a new similarity by fusing context similarity and con-tent similarity.
  • Qinet al.[27] obtain a new ranking listthroughk-reciprocal neighbors.
  • Zhong et al.[28] combine the Jaccard distance and the original distance, complete re-ranking with k-reciprocal encoding.
  • Guoet al.[29] exploita density-adaptive kernel technique to perform efficient re-ranking for person re-ID
    --------------------------------------------------------------------------------------------------------------------------------------------------------------

三 、 多流貢獻框架(MSCF)

在這裏插入圖片描述
如圖所示,MSCF 的整體流程如圖所示,分爲了兩個子部分:多流特徵提取網絡多流特徵融合網絡,而且,BPCF嵌入在提取網絡中,貢獻反饋模塊在融合網絡中至關重要(提供係數)。
-------------------------------------------------------------------------------------------------------------------------------------------------------------------

A 、BODY PARTITION EXTRACTION NETWORK (BPEN)

作用:身體部位提取,解決不對齊問題。
在這裏插入圖片描述
convolutional pose machines (CPM):確定關鍵點。【30】

如上圖所示,關鍵點確定之後,在CPM上一個階段會生成16個信念圖(belief map),在獲得信念圖之後,通過在信念圖中搜索最大得分值的位置來定位關鍵點。 關鍵點的位置座標:在這裏插入圖片描述
確定了16個關鍵點位置之後,根據區域去劃分身體三個部分,在這裏插入圖片描述
最後,利用一種有效的算法來計算身體部位的特定位置。在這裏插入圖片描述
(右下變大)
--------------------------------------------------------------------------------------------------------------------------------------------------------------

B 、MULTI-STREAM FEATURE EXTRACTION NETWORK

多流特徵提取網絡具有三個分支,分別爲,全局特徵,部分特徵,mask 特徵。
首先,利用整個圖片得到全局特徵,利用CNN(四個卷積層,一個inception 模塊)生成全局特徵,然後經過另一個CNN(兩個inception 模塊)生成256維度特徵。
其次,對於部分特徵的學習,整個圖片經過BPEN得到三個局部,然後, The ROI pooling module can pool local feature maps from the global feature maps。減小了計算度和複雜度。同樣得到256維度經過接下來的CNN。
最後,mask 特徵,整個圖片經過FCNs(語義分割的一種方法),背景像素用0代替。得到去背景圖片,送入CNN,得到了2256維度的mask 特徵。
FCN 解讀

FCN參考鏈接(有程序): https://zhuanlan.zhihu.com/p/22976342.

FCN參考鏈接: https://blog.csdn.net/taigw/article/details/51401448.

最後,輸入圖像可以通過該流程生成五個256維特徵。 可以總結如下:
在這裏插入圖片描述
--------------------------------------------------------------------------------------------------------------------------------------------------------------

C. MULTI-STREAM FEATURE DISTANCE FUSION NETWORK

多流特徵距離融合網絡。包含了contribution feedback module 和distance fusion module 兩個模塊,第一個是核心。
對於兩個圖片,他們的五對特徵進行融合,得到的特徵距離計算公式如下
在這裏插入圖片描述
每對特徵距離乘以對應的貢獻係數,相加求和得到兩張圖片的特徵距離。特徵距離越小,說明兩個圖片越相似。在這裏插入圖片描述
--------------------------------------------------------------------------------------------------------------------------------------------------------------

D. CONTRIBUTION FEEDBACK MODULE(core

貢獻反饋模塊是MSCF的核心,它可以根據全局和局部特徵圖自適應地生成貢獻係數。

貢獻係數區間

通常,貢獻係數的範圍是0-1。 但是,許多值都不適合Re-ID。 當The re-ID系統顯示出良好的性能時,貢獻係數可能會集中在較小的間隔中。 在這種情況下,採用全間隔0-1會降低精度。 因此,採用區間優化算法來優化貢獻係數的範圍。
(意思是大間隔範圍會降低精度,儘量去優化係數在一個更小的範圍區間內)
下面就是區間優化算法
在這裏插入圖片描述
將整個區間[0,1]分爲十個子區間,並在每個子區間內計算每種類型的貢獻係數的分配概率。 刪除了一些與閾值相比具有較低概率的子間隔。 然後將剩餘的子間隔合併以構成最終間隔。
每一個類型,總共四個類型(因爲全局係數爲1),分別計算每個子區間的分配概率,合併
現在已經得到了係數分配區間,但是還需要得到區間內對應最優的值。)
--------------------------------------------------------------------------------------------------------------------------------------------------------------
接下來如何求最優的係數值
前邊說過的 map_G 經過ROI pooling 得到三個局部特徵映射,根據特徵映射來生成貢獻係數。然後提出來新的名詞—激活率

ROI pooling 參考資料鏈接: https://blog.csdn.net/lanran2/article/details/60143861

參考鏈接: https://zhuanlan.zhihu.com/p/73654026.

全局特徵映射圖有很多特徵點,大於或者等於0,我們將局部特徵圖上非零值的數量與全局特徵圖上非零值點的數量之比定義爲激活率。 可以總結如下:
在這裏插入圖片描述在這裏插入圖片描述
同樣道理,mask feature的激活率可以利用相同原理求解,各部分激活率如圖所示。
在這裏插入圖片描述
找到了激活率,還需要找到激活率與貢獻係數的關係,不然還是得不到貢獻係數。觀察發現,激活率和貢獻係數有點相似,有些點也是沒有用到,所以就可以優化來提高表現。

激活率區間

與貢獻係數間隔優化算法不同,優化激活比率間隔的策略更簡單。 我們仍然根據算法1將訓練數據分爲兩部分,並進行隨機重複實驗。 對於每種類型的激活比率,可以獲得具有M×S的集合。S是probe子集的大小。 同樣,計算激活率在不同子間隔內的分佈概率,並將其與設置的閾值進行比較。 最後,合併剩餘的子間隔會生成最佳間隔。(得到最優激活率區間)

重點來了
在限制激活比率和貢獻係數的間隔之後,必須構建反射橋。 我們提出瞭如下所示的有效反射函數在這裏插入圖片描述在這裏插入圖片描述
疑問?? x並不固定,怎麼求固定的貢獻參數的呢??

四、k-DISTRIBUTION RE-RANKING

最近好多文獻,Re-ranking的使用可以大大提高排序的精度。算是一個專門課題。重新排序的性能取決於初始列表的檢索質量
In recent years, re-ranking technique has drawn more and more attention in re-ID.

  • Chumet al.[32] develop the averagequery expansion (AQE) method. A new query vector can be generated by averaging the vectors to re-query the gallery set.可以通過對向量進行平均以重新查詢圖庫集來生成新的查詢向量
  • Arandjelovic and Zisserman [33] propose a discriminative query expansion (DQE) method to obtain a weight vector and modify the ranking list based on the decision boundary.提出了一種判別查詢擴展(DQE)方法來獲取權重向量並基於決策邊界修改排名列表
  • Bai and Bai [34] propose sparse contextual activation (SCA)to encode the set of neighborhood into sparse vector. They use Jaccard distance to measure similarity. 使用稀疏上下文激活(SCA)將鄰域集編碼爲稀疏向量。 他們使用Jaccard距離來衡量相似度
  • Garciaet al.[8]propose a new re-ranking model. It considers the contextual information and content from the initial ranking list, improves the performance with efficacious elimination of ambiguous samples.它從初始排名列表中考慮上下文信息和內容,通過有效消除歧義樣本來提高性能

作者提出來的是K-分佈從新排序,可以提高re-id的表現能力,並且依賴於最初的排序列表。通過計算得到額外的距離從而得到K-分佈得分。分佈得分包含了三個分數:distribution-location,distribution-dispersion, and distribution-overlap score(位置、分散、重疊分數),所提出的方法是無監督和自動的。

ranking

初始排序
在這裏插入圖片描述
然後根據初始的排序,對probe 集進行擴展。在這裏插入圖片描述
在這裏插入圖片描述
流程如下圖所示,排序按照距離升序排列
在這裏插入圖片描述
distribution-location score
在這裏插入圖片描述
distribution-dispersion score
在這裏插入圖片描述
distribution-overlap score
在這裏插入圖片描述
final score
在這裏插入圖片描述

五 、 總結

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章