Learning Discriminative Features with Multiple Granularities for Person Re-Identification 論文翻譯&筆記

論文地址:https://arxiv.org/pdf/1804.01438.pdf

github實現:https://github.com/seathiefwang/MGN-pytorch

參考通天塔翻譯:http://tongtianta.site/paper/2487

摘要:全局和局部特徵的組合已經成爲改善行人重識別(Re-ID)任務中的判別性能的基本解決方案。 以前基於部分的方法主要側重於定位具有特定預定義語義的區域以學習局部表示,這增加了學習難度,且對於具有大差異的場景不具有效率或魯棒性。 在本文中,我們提出了一種將判別信息與各種粒度相結合的端到端特徵學習策略。我們精心設計了多粒度網絡(MGN),這是一種多分支深度網絡架構,包括一個用於全局特徵表示的分支和兩個用於局部特徵表示的分支。 我們不是學習語義區域,而是將圖像統一劃分爲多個條帶,並改變不同本地分支中的部分數量,以獲得具有多個粒度的局部特徵表示。在包括Market-1501,DukeMTMC-reid和CUHK03在內的主流評估數據集上實施的綜合實驗表明,我們的方法可以有力地實現最先進的性能,並且大大優於任何現有方法。 例如,在單一查詢模式下的Market-1501數據集中,我們在重新排名後使用此方法獲得Rank-1 / mAP = 96.6%/ 94.2%的最高結果。

                                                             

fig.1 身體部分從粗粒度到細粒度分區。 我們將原始行人圖像與整個身體視爲左列中最粗糙的粒度級別。 中間和右側列分別是從原始圖像分成2和3個條紋的行人分區。 分割的圖像越多,分區的粒度越精細。

1、INTRODUCTION

行人重識別(Re-ID)是在不同安全攝像機捕獲的所有畫廊行人圖像中檢索給定人物的挑戰性任務。 由於來自監控視頻的圖像的場景複雜性,Re-ID的主要挑戰來自人的大變化,如姿勢,遮擋,衣服,背景雜亂,檢測失敗等。深度卷積網絡的繁榮引入了更多強大的表現形式,對行人圖像具有更好的辨別力和穩健性,將Re-ID的性能提升到一個新的水平。 最近的一些深度Re-ID方法[4,5,22,27,29,30,36]在高水平識別率和平均精度方面取得了突破。

行人表示的直觀方法是從圖像中提取全身的辨別特徵。 全球特徵學習的目的是捕捉最顯着的外觀線索,以代表不同行人的身份。 然而,在監視場景中捕獲的圖像的高複雜性通常限制了大規模Re-ID場景中的特徵學習的準確性。由於人Re-ID訓練數據集的有限規模和弱多樣性,一些非顯着或不常見的詳細信息可以是 在全局特徵學習過程中,容易被忽略並且沒有爲更好的區分做出貢獻,這使得全局特徵難以適應類似的類間共同屬性或大的類內差異。

爲了緩解這種困境,已經確認從圖像中定位重要的身體部位以表示身份的本地信息是在許多以前的工作中更好的Re-ID準確性的有效方法。每個定位的身體部位區域僅包含來自全身的一小部分本地信息,同時通過定位操作實際上過濾了區域外的其他相關或不相關信息,通過定位操作可以學習局部特徵以集中更多關於身份並用作全球特徵的重要補充。人員Re-ID的基於部分的方法可以根據其部分定位方法分爲三個主要途徑:1)定位具有強結構信息的部分區域,例如關於人體的經驗知識[8,21,36,43]或強基於學習的姿勢信息[33,44]; 2)按地區建議方法定位部分地區[19,41]; 3)通過中層關注增強功能
在突出的分區[22,24,25,45]。但是,明顯的侷限性阻礙了這些方法的有效性。首先,姿勢或遮擋變化會影響局部表示的可靠性。其次,這些方法幾乎只關注具有固定語義的特定部分,但不能涵蓋所有的判別信息。最後但同樣重要的是,大多數這些方法都不是端到端的學習過程,這增加了特徵學習的複雜性和難度。

在本文中,我們提出了一種結合不同粒度的全局和本地信息的特徵學習策略。 如圖1所示,各種數量的分區條帶引入了多種內容粒度。 我們定義僅包含一個整體分區的原始圖像,其中全局信息作爲最粗糙的情況,並且隨着分區數量的增加,本地部分的特徵可以更集中於每個部分條帶中的更精細的判別信息,過濾其他條帶上的信息。 由於深度學習機制可以從整個圖像捕獲主體上的近似響應偏好,因此還可以捕獲從較小部分區域提取的局部特徵的更細粒度的特性。請注意,這些部分區域不必定位於具有特定語義的分區,而只需要在原始圖像上定位一條等分割條帶。 從觀察中我們發現,隨着水平條紋數量的增加,判別響應的粒度確實變得更精細。 基於這一動機,我們設計了多粒度網絡(MGN),這是一個多分支網絡架構,分爲一個全局和兩個本地分支,其中包含來自ResNet-50 [13]骨幹的第四個剩餘階段的精細參數。 在MGN的每個局部分支中,我們將全局合併的特徵映射劃分爲不同數量的條帶作爲部分區域,以獨立地學習局部特徵表示,參考[36]中的方法。

與以前基於部分的方法相比,我們的方法僅使用等分的部分進行局部表示,但是可以實現超過以前所有方法的出色性能。 此外,我們的方法完全是一個端到端的學習過程,易於學習和實施。 廣泛的實驗結果表明,我們的方法可以在幾個主流Re-ID數據集上實現最先進的性能,即使設置沒有任何額外的外部數據或重新排序[50]操作。

2、 RELATED WORKS

隨着深度學習的興起,深度網絡的特徵學習已經成爲人們Re-ID任務的常見做法。[20,42]首先將深層暹羅網絡架構引入到ReID中並結合身體部分特徵學習,與現代手工製作的方法相比,實現了更高的性能。[47]提出ID識別嵌入(IDE)與簡單的ResNet-50骨幹作爲現代深度Re-ID系統性能水平的基線。 提出了許多方法來改善深人Re-ID的性能。 在[1,37]中,計算圖像對的中間特徵以用精心設計的機制描繪局部部分的相互關係。 [39]引入了Domain Guided Dropout來增強不同行人場景領域的泛化能力。 [50]將重新排名策略帶入Re-ID任務,以修改排名結果以提高準確性。

最近,一些深度的Re-ID方法將性能提升到了與以前的系統相比的新水平。 [43]在訓練階段引入了基於部分的對齊匹配,具有最短路徑編程和相互學習,以提高度量學習性能。 [3,36]兩者均將輸入圖像的特徵圖等分爲垂直方向的幾個條紋。 [3]將局部特徵切片與LSTM網絡合並,並與從分類度量學習中學到的全局特徵相結合。 而[36]直接將來自本地部分的特徵連接爲最終表示,並應用精化部分池來修改部分特徵的映射驗證。 然而,根據[43]的報告,這些系統只能達到與人類相似的性能,我們仍然需要超越。

在所有性能改進策略中,我們認爲將圖像部分的局部表示組合起來是最有效的。如第1部分所述,我們總結了基於部分學習的三種主要途徑:根據人體結構信息確定區域,按區域建議方法定位身體部位,通過空間注意增強特徵。在[8,21,36]中,根據內在的人體結構知識將圖像全部分成水平方向的幾個條紋,在其上學習局部特徵表示。 [33,44]利用由姿勢估計方法預測的身體地標的結構信息來用語義來裁剪更準確的區域區域。爲了在沒有基於學習的強預測器的情況下定位語義分區,在諸如[11,18]的區域提議方法中採用了一些基於部分的方法[19,22,25,41,45]。注意信息可以成爲歧視的有力補充,在[22,24,25]中得到了加強。在我們提出的方法中,我們僅使用簡單的水平條紋作爲局部特徵學習的部分區域,但是實現了出色的性能。

損失函數用作特徵學習中的監督信號。 在深度Re-ID系統的培訓階段,最常見的損失函數是分類損失和度量損失。 Softmax損失幾乎是分類丟失函數的唯一選擇,因爲它對各種多類分類任務具有很強的魯棒性,它可以單獨使用[1,19,22,25,36,39,41,47]或與其他損失[3,8,20,43]結合用於嵌入Re-ID的學習程序。對於用於嵌入Re-ID學習的度量損失,存在具有不同排名度量的更多變體。 對比性損失[12]通常用於喜歡暹羅的網絡[37],其重點是最大化類間對之間的距離並最小化類內對之間的距離。 三聯體損失[15,28]在具有三聯體的相同錨樣本的內部距離和內部距離之間實施邊界。 基於三元組丟失,提出了許多變體[6,8,14,32]來解決度量學習中的學習或性能問題。 我們在所提出的方法中採用了softmax和triplet損失的聯合學習設置。

3、 MULTIPLE GRANULARITY NETWORK

                                     

fig.2 從不同模型的最後輸出中提取的不同粒度的特徵響應圖。 響應強度通過來自所有空間位置的特徵向量的L2範數來計算。 中柱:行人形象。 左列:IDE嵌入的全局響應映射。 右欄:三個局部響應圖,對應於原始圖像的三個分割條紋,由基於部分的模型提取。 最好看的顏色。

圖2顯示了從IDE基線模型[47]中提取的特定圖像的特徵響應圖和基於IDE的基於部件的模型。 我們可以觀察到,即使沒有明確的注意機制來增強對某些突出組件的偏好,深層網絡仍然可以根據其固有的語義含義來學習不同身體部位的響應偏好的初步區分。 然而,爲了消除高度複雜的行人圖像中不相關模式的分散,更高的響應僅集中在行人的主體上,而不是具有語義模式的任何具體的身體部位。 當我們縮小代表區域的面積並訓練作爲分類任務來學習局部特徵時,我們可以觀察到局部特徵圖上的響應開始聚集在一些顯着的語義模式上,這些語義模式也隨着表示區域的大小而變化。

該觀察結果反映了圖像內容的體積,即區域的粒度,以及深度網絡關注於表示的特定模式的能力之間的關係。 我們認爲這種現象來自限制區域的信息限制。 通常,與全局圖像相比,直觀地難以從局部區分行人的身份。 監督分類任務的信號強制要素被正確地分類爲目標身份,這也促使學習過程試圖在有限信息中探索有用的細粒度細節。

實際上,在先前基於部分的方法中的局部特徵學習僅在具有或不具有經驗先驗知識的情況下將分區的基本粒度多樣性引入到總特徵學習過程中。 假設存在適當的粒度級別,具有大多數判別信息的細節可能幾乎集中在深度網絡上。 在上述觀察和分析的推動下,我們提出了多粒度網絡(MGN)架構,將全局和多粒度局部特徵學習結合起來,以實現更強大的行人表示。

3.1 Network Architecture

多粒度網絡的體系結構如圖3所示。我們網絡的主幹是ResNet-50,它有助於在一些Re-ID系統中實現競爭性能[3,36,43]。 與原始版本不同的最明顯的修改是我們將res_conv4_1塊之後的後續部分劃分爲三個獨立的分支,與原始ResNet-50共享相似的體系結構。

fig.3 多粒度網絡架構。 在res_conv4_1剩餘塊之後,ResNet-50主幹分爲三個分支:全局分支,第2部分分支和第3部分分支。 在測試期間,所有縮小的特徵被連接在一起作爲行人圖像的最終特徵表示。 請注意,每個分支中用於標識預測的1×1卷降維和完全連接層不會彼此共享權重。 從特徵到特定損耗函數的每條路徑表示獨立的監控信號。 

                                      

表1列出了這些分支的設置。 在上部分支中,我們在res_conv5_1塊中使用stride-2卷積層進行下采樣,在相應的輸出特徵映射上執行全局最大池(GMP)[2]操作,並使用批量歸一化的1×1卷積層 [17],ReLU將2048-dim特徵z減少到256-dim f。該分支學習全局特徵表示而沒有任何分區信息,因此我們將該分支命名爲全局分支。

中間和下級分支都與Global Branch共享類似的網絡架構。 不同之處在於我們在res_conv5_1塊中不使用下采樣操作來保留局部特徵的接收字段的適當區域,並且每個分支中的輸出特徵映射在水平方向上均勻地分成幾個條帶,我們獨立執行與Global Branch相同的以下操作以學習本地特徵表示。 我們將這些分支稱爲Part-N Branch,其中N指的是未減少的特徵映射上的分區數,例如, 圖3中的中間和下部分支可以命名爲Part-2和Part-3 Branch。

在測試階段,爲了獲得最強大的區分,所有減少到256-dim的功能被連接爲最終特徵,結合全局和本地信息,以完善學習功能的全面性。

3.2 Loss Functions

爲了發揮該網絡架構的學習表示的辨別能力,我們將用於分類的softmax損失和用於度量學習的三元組損失用作訓練階段中的損失函數,其在各種深度Re-ID方法中廣泛使用。

對於基本的辨別學習,我們把識別任務作爲多類分類問題。 對於第i個學習特徵fi,softmax損失表示爲:

                          

。。。。省略部分

在MGN架構中,爲了避免損失權重調整問題和收斂困難,我們新穎地提出了分類 - 先度量架構,它將softmax損失應用於Part-2和Part-3分支中減少的256-dim局部特徵,以及所有未減少的全局彙總2048-dim全局特徵,但對所有減少的特徵應用三重態損失,這與使用三重態損失的現有方法不同。 此設置的靈感來自粗tofine機制,將非簡化特徵視爲粗略信息以學習分類,將特徵簡化爲具有學習度量的精細信息。 與在相同的簡化特徵水平上施加關節效應相比,所提出的設置實現了穩健的收斂。 此外,我們不會在局部特徵上使用三重損失。 由於不對齊或其他問題,本地區域的內容可能會發生巨大變化,這使得三元組丟失往往會在訓練期間破壞模型。

3.3 Discussions

在我們提出的多粒度網絡架構中,有一些問題值得我們單獨討論。 在本段中,我們具體討論了以下問題:

多分支架構  根據我們對MGN架構的最初動機,全局和局部表示都是在一個分支中學習似乎是合理的。 我們可以直接將res_conv5_3提取的相同最終特徵圖分割成不同數量的條帶,並應用相應的監控信號作爲我們提出的方法。 但是,我們發現此設置無法進一步提高性能。 借用[34]中的想法,原因可能是共享相似網絡架構的分支(主要是ResNet-50的第四個剩餘階段)僅響應圖像的不同級別的詳細信息。 使用一個混合的單個分支以多個粒度學習特徵可能會削弱詳細信息的重要性。 此外,我們嘗試在較淺或較深的層之後分割骨幹網絡,這也沒有達到更好的性能 

粒度的多樣性  我們的網絡架構中的三個分支實際上學習了具有不同參數的信息。 具有較大接收區域和全局最大池的全局分支捕獲來自行人圖像的整體但粗略的特徵,並且部分2和部分3分支學習的特徵沒有跨步卷積和條紋的分割部分傾向於局部但是很好。 具有更多分區的分支將學習更精細的行人圖像表示。 學習不同偏好的分支機構可以合作地將低級別區分信息補充到公共主幹部分,這是任何單個分支中性能提升的原因。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章