A Novel Method for Person Re-Identification Conditional Translated Network Based on GANs 論文學習總結記錄

一篇新的論文,題目是《一個新穎的行人重識別方法:基於GANs的條件轉換網絡》

論文鏈接: https://ieeexplore.ieee.org/abstract/document/8943114
以前看過相關論文,提到過利用GAN網絡來生成擴充數據集,因爲現存的數據集大小太少,一直沒碰到相關的論文,正好這次可以總結一下。

摘要

目前person re-id 最大的挑戰就是不同攝像機下的顯著性差異,包括光照,背景和行人姿勢。已經存在的person re-id 方法大都是依靠隱藏式的方法,比如尋找魯棒性的特徵或者設計有缺別度的距離度量。相比於這些方法,人類的解決方法更加直接,那就是,在匹配前想象目標人物在不同攝像頭下的外表,關鍵思想是人類可以直觀地實現視點轉換,注意到目標人在不同攝像機視角下的關聯,但是機器卻不行。這篇論文,我們嘗試模擬人類行爲,在匹配前轉換行人圖片到具體的相機視角,實際上,我們提出了條件轉換網絡(cTransNet),有條件的實施視角觀點轉換,通過Generative Adversarial Networks(GANs)的變體來將圖像轉換到具有最大域間隙的視點。然後,我們通過融合最初圖片和轉換圖片得到混合人物表徵。再然後,根據餘弦距離來進行相似度排序。與以前的方法相比,我們提出了一種類似人類的方法,並且使Market-1501,DukeMTMC-ReID和MSMT17數據集中的rank-1精度比基線分別提高了3%,4%,4%。

介紹

作者利用了一個盲人摸象的寓言故事,個人認爲非常形象,正如多個攝像頭一樣,每個角度看到的都不一樣。person re-id 就是利用計算機視覺技術來判斷不同攝像機角度下是不是一個人,作爲一個細粒度的視覺識別問題,行人重識別已經被類似視點問題困擾了好長時間。

在這裏插入圖片描述FIGURE 1.Examples of pedestrian image pairs from two camera viewpoints in CUHK01 dataset. Each column indicates a pedestrian, the first row are images from camera A and the second row are those from camera B

然而,在不相交的攝像頭下尋找特徵的行人非常困難,因爲變換的視角。不容位置和角度的攝像頭下,背景,光照,行人姿態也是非常的不同。如圖1所示,從攝像頭A到攝像頭B的轉換下,行人的光照顯著的不同,另外,背景和行人姿勢也不同。在Market-1501,DukeMTMC-re-id,和MSMT17這些數據集中,這些問題更加困擾,因爲數據多。

爲了解決這些挑戰,很多方法被提出來【8】-【12】,大致分爲兩類:特徵學習和度量學習一般的特徵學習方法就是在不同的攝像機視角下,學習穩健的特徵表徵。不同於特徵學習,度量學習主要是關注於如何讓相同類別的向量更近,不同類別的向量分離。毫無疑問,這些方法的確促進了行人重識別領域的發展,然而,這些方法的表現性能有限和對個多數據集不穩定。主要原因在於這些方法過分依賴提取的特徵的泛化能力。 換句話說,由不同攝像機捕獲的人的外觀是不固定的,僅通過深度模型之類的方法很難區分。
在這裏插入圖片描述
FIGURE 2.Visualization of 600 samples from two camera viewpoints in the CUHK01 dataset through T-SNE algorithm. The red dot indicates the image from camera A, and the gray dot indicates the image from camera B.

爲了驗證這個猜想,做了一個小實驗,如圖2所示, 隨機挑選三百個樣本在CUHK01數據集上,不同的攝像頭視角,通過T-SNE算法【13】把這些樣本映射到二維空間中,可以發現有兩點比較重要:第一點:從整個圖來看,兩個攝像頭視角有很明顯的分佈趨勢。 d第二點:在某些情況下,一個攝像機視圖的表示可能類似於另一攝像機視圖的表示。 結果,當照度,背景或人的姿勢由於相機視圖的變化而大大不同時,我們可能會出現圖1中所示的硬樣本。(明顯不同就是硬樣本。)

通過實驗可以發現,我們不能像一般的圖片分類任務簡單地從原始圖片裏提取特徵。因爲信息不充足或者偏置等,真相就會被隱藏在圖2中間地帶。不同於機器,人類可以通過觀察特定行人的攝像頭視角信息,嘗試想象這個人在其他攝像頭下的視角是什麼樣子,而不是從原始圖片裏強行重提取特徵。而是更加關注相機視角對當前圖片的影響。然後獲得穩健的特徵,獲得更好地識別效果

這篇論文,採取了模擬人類行爲方式來提高行人重識別的表現力。實施過程分爲兩步:第一步,提出了修改後的StarGAN【14】來學習每一個攝像頭下的觀察方式。然後我們測量每一個攝像頭的領域間隙,最後,把圖片轉換到最大的領域間隙的視角。 第二步,融合原始圖像和生成圖像的特徵,然後根據餘弦相似度進行匹配排序

總而言之,論文主要貢獻是提出了 基於StraGAN的圖片條件轉換網絡,根據源域和目標域之間的域距離執行圖像轉換(也就是轉換條件) ,這個方法和前邊的方法不一樣,主要在於兩點,第一點是:我們的方式是直接從生成的圖片裏提取特徵,而不是僅僅擴大數據集【7,15,16】 第二點是,cTransNet只需要訓練一次就可以將某個圖像轉換爲多個相機視點,這由StarGAN的結構保證[14]。

(cTransNET 根據原始圖片生成各個攝像角度下的圖片--------根據兩個領域距離來判斷哪個最大--------------生成最大的。----------融合特徵進行基於餘弦距離的匹配排序。)

相關方法

A 基於深度學習的行人重識別

因爲所提出的方法是基於圖片級別的,所以主要關注於基於圖像的person re-id。(基於視頻的方法上一篇博客有 鏈接: https://blog.csdn.net/qq_37405118/article/details/105168166.

受到遷移學習思想的啓發,Zheng等人。 [10]提出了從ImageNet [17]預訓練模型進行微調的ID區分嵌入(IDE)嵌入,該模型將人的re-id視爲常見的分類問題。

另一種有效的策略是將手工製作的特徵與CNN特徵相結合。 在[18]中,Wu等。 通過將手工製作的特徵整合到CNN特徵中,提出了一種特徵融合網絡,從而大大提高了匹配精度。

在[19]中,李偉等。 提出了一種新穎的和諧注意CNN(HA-CNN)模型,用於聯合學習軟像素注意和硬區域注意,同時優化特徵表示,有效地學習共享相似特徵表示的不同類型的注意。

同樣,吳等。 [20]提出了一些簡單的深度學習方法,以學習具有區別性和視圖不變性的可比表示。 另外,在[21]中,他們提出了一種用於魯棒性地標檢索的新型協作深度網絡,該網絡可在地標潛在因素上工作,以進一步爲多查詢集和其他地標照片生成高級語義特徵。

這些深度學習方法採用全局歐氏距離來評估硬樣本。 然而,由於行人圖像的特徵由於姿態,照明和遮擋的巨大變化而呈現出未知的分佈,因此歐氏距離可能無法準確地描述複雜視覺特徵空間中的理想相似度。 爲此,吳等。 文獻[22]提出了一種新穎的採樣方法,可以在局部範圍內挖掘合適的樣本,以改善大的類內差異情況下的深度嵌入。 然後,Wu等人提出了一種用於細粒度目標識別的端到端深度模型。 文獻[23]產生了在空間上可以整體表達的粗粒和局部細粒的表達形式。

B person re-id 的數據擴充(防止過擬合)

鄭等。 [15]證明,即使深度卷積生成對抗網絡(DCGAN)[24]生成的不完善樣本也可以提高訓練過程中基線模型的正則化能力
後來,鍾等人。 [16]提出了一種相機風格的適應方法,以增加數據多樣性,防止過擬合,還採用了標籤平滑正則化方法來減輕噪聲的影響
Wei等。 [7]更進一步,提出了PTGAN來彌合不同人re-ID數據集之間的領域鴻溝,還貢獻了一個新的數據集,稱爲MSMT17。

在本文中,我們採用預訓練的ResNet-50 [25]作爲基線模型,並表明經過修改的樣本有效地提高了其性能。 當CNN模型與訓練樣本數量相比過於複雜時,可能會發生過度擬合。 爲了解決這個可能過度擬合問題,在深度學習社區中已經提出了許多正則化方法和數據增強方法

例如Dropout [26]和Batch Norm [27]用於正則化,以及各種轉換,包括用於數據增強的裁剪,翻轉和轉換 。 丟棄被廣泛用於各種識別任務中。 它在訓練階段以概率隨機削減(分配爲零)每個隱藏神經元的輸出,並且僅在向前通過和向後傳播中使用剩餘權重的貢獻。

近來,幾種方法旨在解決人重新ID中的過度擬合問題。
McLaughlin等。 [28]通過利用背景和線性變換來生成各種樣本,提高了網絡的泛化能力。
鍾等人。 [29]使用隨機值隨機擦除輸入圖像中的矩形區域,這可以防止模型過度擬合併使模型對遮擋具有魯棒性。
相似,黃等。 [30]建議用對抗性樣本進行擴充來增加訓練數據

C 圖像轉換中的GAN

GANs 是非常強大的生成模型,【32】,相比於傳統的生成式模型,比如 Deep Boltzmann machines [33] VAE ,[34] GANs 時間效率高,更少的限制,並且可以生成更好地樣本。隨着人們的關注,得到了重大的突破,很多變體
【24】 DCGAN 事實證明,該模型比原始模型更穩定。 由於GAN和DCGAN都將隨機噪聲作爲輸入,因此它們的輸出趨於不可控。
【35】 對GAN施加條件約束,以便可以預測生成的輸出。 條件GAN(cGAN)的提議爲圖像轉換領域提供了基礎。 不幸的是,cGAN屬於監督算法,該算法需要標籤並且不適用於某些數據集
【36】 然後在2017年,CycleGAN [36]的發佈,爲GAN引入了與週期一致的標誌,標誌着圖像轉換領域的又一個里程碑。 CycleGAN的優勢體現在兩點。 首先,CycleGAN屬於無監督算法,對標籤沒有限制。 其次,CycleGAN可以生成具有轉移樣式的高質量圖像。
儘管CycleGAN的提議爲一對一的域圖像轉換提供瞭解決方案,但是CycleGAN仍然不適用於需要執行多域翻譯的情況。 爲此,提出了StarGAN [14],它可以同時實現多域圖像翻譯。

D GANs in Person Re-Identification

儘管許多研究人員致力於正常人的重新識別設置,但很少有文獻[37],[38]研究無監督域對re-ID的適應,
【37】Peng等。 [37]提議基於非對稱多任務字典學習來學習目標域的判別式表示。

【38】 [38]學習一種基於CycleGAN的相似度保持生成對抗網絡,將圖像從源域轉換到目標域。
轉換後的圖像用於以監督方式訓練re-ID模型。 這些方法試圖減小圖像空間[7],[16]或特徵空間[8]上源域和目標域之間的差異。在這項工作中,我們明確考慮了由目標相機引起的域內圖像變化,以學習目標域的判別式表示。
我們提出的cTransNet受到[14],[16],[36]的啓發,但有兩點不同。 第一點是現有工作只是將GAN用作通過生成相機樣式樣本來提高基線模型的正則化能力的工具,而我們直接從修改後的圖像中提取特徵第二點是, 先前的工作是通過諸如CycleGAN之類的一對一域轉換網絡執行圖像轉換的,而我們採用的StarGAN一次實現了多域圖像轉換

The Proposed Method

A StarGAN

StarGAN的目的就是訓練一個單獨的生成器G,學習多領域的映射。StarGAN 把帶有目標領域標籤c的圖像x輸入,輸出y, StarGAN 包含了兩個映射函數, 在這裏插入圖片描述
總之,這個網絡應用了三種損失.

Ladv 用來區分圖像是真是假,
Lcls 幫助鑑別器將真實圖像x分類爲其對應的原始域類別c。
Lrec 幫助生成器來生成逼真的圖片,並且分類爲正確的目標領域。

StarGAN的損失函數表達式如下所示:
在這裏插入圖片描述
其中λcls和λrec是預先定義的參數,與對抗性損失相比,它們分別控制域分類和重構損失的相對重要性。 StarGAN的概述結構如圖3所示。
在這裏插入圖片描述
FIGURE 3.The original StarGAN model includes a generator G and a discriminator D. D take image as input then predict the corresponding domain class and Real or Fake for image. G take image then generate image conditional on the target domain.

有關StarGAN的細節信息 可以參考這篇博客 (本人轉載)

鏈接: https://blog.csdn.net/stdcoutzyx/article/details/78829232.

B 基準深度重新ID模型

鑑於真實圖像和轉換圖像都具有ID標籤,我們使用ID區分嵌入(IDE)來訓練re-ID CNN模型。 採用交叉熵損失函數,IDE 認爲行人重識別是常見的圖片分類問題,我們使用resnet-50作爲主幹網絡,並按照[18]中的訓練策略對ImageNet預訓練模型進行微調。不同於【10】中提出的IDE,我們取代了最後的分類層,利用bottleneck層,批處理規範化,ReLU,Dropout,然後是完全連接層。【18】提出來的,可以增加精度。如圖4所示
在這裏插入圖片描述
FIGURE 4. The structure for baseline network. We use pre-trained ResNet-50 as backbone and replace the original Fully-connected layer with our custom classifier layer which composed of bottleneck layer, batch normalization layer, ReLU layer with slope 0.1, Dropout layer with rate 0.5 and a fully-connected layer with C-dimensional, where C is the number of classes in the training set. The loss we adopt is cross-entropy loss.

C Domain-Gap Evaluate Network(根據這個距離選擇最大的作爲最終生成目標)

爲了測量每一個領域的間隙,我們需要定義一個距離Ds來評估不同領域的不同風格差距,DE-N基於VGG-19(在ImageNet上進行了預訓練)進行了修改,但用平均池替換了最大池,該平均池與[39]中的設置一致。 DE-N中的每個激活層都定義了一個非線性特徵提取器,較深層學習的特徵比淺層學習的特徵更復雜。 給定輸入圖像x⃗,由DE-N提取的特徵包括每個激活層的輸出。 通常,每個激活層都有N個大小爲M的特徵圖,其中M表示特徵圖的高度和寬度。 給定k層具有大小爲M的N個特徵圖,以此方式,可以將k層的濾波器和特徵圖分別寫爲Nk和Mk。 因此,由第k層提取的特徵可以表示爲矩陣Fk∈R^Nk ×Mk
其中Fkij是第k層中第j個位置的第i個濾波器的激活。

假設x⃗是原始圖像,y⃗是DE-N提取的特徵,則第k層中的特徵表示可以分別寫爲Fk和Yk(??????)
兩種特徵表示之間的平方誤差損失可以寫成:在這裏插入圖片描述
樣式相關性由Gram矩陣Gk∈RNk×Mk給出,其中Gkij是第k層中矢量化特徵圖i和j之間的內積:
在這裏插入圖片描述
層k中的圖像x⃗和圖像y⃗之間的樣式距離Ek可以形成爲:在這裏插入圖片描述
在這裏插入圖片描述

WK是每一層對最終損失的貢獻大小權重,圖5展示了域差距評估網絡的工作流程。在這裏插入圖片描述
FIGURE 5. The structure for Domain Gap Evaluate network. Consistent with baseline network, we replace the original Fully-connected layer with style loss module which composed of bottleneck layer and the style loss function we defined.

樣式損失在計算特定層樣式損失的網絡中充當透明層。 要計算樣式損失,我們需要計算語法矩陣GXL。 gram矩陣是給定矩陣與其轉置矩陣相乘的結果。 最後,必須通過將每個元素除以矩陣中元素的總數來對gram矩陣進行歸一化。 根據[40],樣式特徵往往位於網絡的更深層。 因此,需要額外的歸一化以抵消以下事實:具有較大N維的F ^ XL矩陣在Gram矩陣中產生較大的值。 在實施過程中,我們遵循[39]的作者,此處使用L-BFGS算法。

D cTransNET 的結構(作者所提出來的)

整個cTransNET的結構由基於圖像轉換的StarGAN基準網絡組成圖像轉換網絡遵循StarGAN的基本結構,並插入域評估網絡,以指導生成器根據域距離度量的輸出生成樣本。然後,我們將轉換後的圖像輸入基線網絡,以預測每個人圖像的身份。 在圖6中,我們說明了網絡的整個結構。(很重要
在這裏插入圖片描述

E 使用cTransNet訓練基準

給定一個新的訓練集,該訓練集由實際圖像和轉換後的圖像(帶有ID標籤)組成,本節討論使用cTransNet的訓練策略。
cTransNet在人員重新識別任務中的優勢主要體現在它提供其他攝像機視點信息。 但是,cTransNet生成的圖像可能會在圖像轉換過程中引入噪聲。在具有多個攝像機和足夠圖像數據的大規模人員身份數據集的情況下,相比於過度擬合問題,圖像轉換過程中出現的噪聲問題更爲重要。(因爲生成了圖片,變相的擴大了數據集,所以噪聲更嚴重)爲了減輕轉換圖像引入的噪聲,我們在轉換圖像上應用了[16]中提出的改進的標籤平滑正則化(LSR)主要思想是在真實標籤上分配較少的置信度,並在其他類別上分配較小的權重。
每個樣式轉換圖像的標籤分佈的重新分配寫爲:
在這裏插入圖片描述
ϵ∈ [0,1]。 當ϵ = 0時,交叉熵損失定義爲:(個人懷疑寫錯了,應該是不等於0吧???)
在這裏插入圖片描述

在強制執行期間,我們在實際圖像上使用單標籤(one-hot)分配,因爲它們的標籤正確匹配圖像內容。 對於轉換後的圖像,我們遵循[16]中的設置,該設置將ϵ = 0.1

然而,LSR可能在某種程度上減輕了Generative模型引入的噪聲,但是由於模型結構的限制,我們不能完全依靠TransNet生成的圖像。 在實踐中,我們將原始圖像和轉換後的圖像都作爲基線模型的輸入,然後通過係數α融合兩個圖像的特徵。 最終特徵寫爲:
在這裏插入圖片描述
其中α∈[0,1],Fori代表從原始圖像中提取的特徵,ftrans代表從平移圖像中提取的特徵。 通過改變α,我們可以調整原始圖像和cTransNet翻譯的圖像之間的平衡。 α與我們使用的數據集之間存在一定的相關性。 根據我們的經驗,當數據集具有更復雜的場景和更多的攝像機時,較小的α是可取的。(數據集大,轉換的圖像可以分配的權重小點,因爲原始的數據集更多) 更具體地說,我們將Market-1501,DukeMTMC-reID和MSMT17的α設置爲0.7、0.6和0.6。

實驗

A 數據集

(1) Market-1501
(2) DukeMTMC-reID
(3) MSMT17
與上述數據集相比,MSMT17具有幾個新功能。
a)MSMT17具有更多的身份,邊界框和照相機。
b)MSMT17具有複雜的場景和背景,其中包含12個室外場景和3個室內場景。
c)在訓練階段,MSMT17僅使用所有圖像的35%,少於其他數據集。

利用rank-1和MAP來評估數據集的精度

實驗設置

1)條件翻譯模型

根據第III-D節,給定從N個攝像機視圖中捕獲的訓練集,我們只爲每個數據集訓練一個cTransNet。 在訓練過程中,我們將所有輸入圖像的大小調整爲128×128,並使用Adam優化器[41]從頭開始訓練所有實驗的模型,其中λ= 10。 我們將批處理大小設置爲16。在前30個時間段中,生成器和鑑別器的學習率均爲0.0001,在其餘20個時間段中線性降低爲零。 與文獻[16]中的設置相比,在樣式轉換中,我們僅根據域間隙評估網絡評估的域距離生成了一張僞訓練圖像。
在基線方法的訓練中,我們使用預先訓練的ResNet-50作爲骨幹,並遵循[20]中的訓練策略。 具體來說,我們保留所有圖像的長寬比,並將它們的大小調整爲288×144,然後隨機裁剪爲256×128。爲了提高基線模型的通用性,我們在訓練期間應用了隨機擦除和隨機水平翻轉。 我們將執行隨機翻轉和隨機擦除的概率都設置爲0.5。 由於大多數人re-id數據集的訓練數據不足,因此隨機擦除可以在某種程度上減輕模型過度擬合的風險

在模型結構中,我們根據每個數據集的訓練樣本數來修改ResNet-50的第二個完全連接層的輸出單元。 對於ResNet-50基礎層,學習率從0.005開始,對於兩個新添加的全連接層,學習率從0.05開始。 我們使用SGD求解器來訓練re-ID模型,並將批處理大小設置爲32。在40個時期之後,學習率除以10,我們總共訓練了60個時期。 在測試中,我們提取Pool-5層的輸出作爲圖像描述符(2,048-dim),並使用餘弦距離來計算圖像之間的相似度。 在評估過程中,我們採用重新排序[42],這是通用實例檢索中常用的另一種有效方法。== 重新排序方法的主要思想是,如果圖庫圖像與k個最近鄰居中的查詢圖像相似,則它更有可能是真實匹配(k是預定義參數)。==

C 實驗分析

StarGAN涉及的一個重要參數是Generator內ResNet塊的數量。經試驗表明,四個resnet塊效果最好,
在這裏插入圖片描述
我們執行的方法是將圖像轉換爲通過域間隙評估網絡告知的域,並通過基準網絡直接評估而無需應用任何技巧。
爲了驗證LSR的必要性,實驗結果得出太高也不行,因爲larger的值較大可能會導致性能下降。 根據[16],主要原因可能在於,即使僞圖像可能包含一些噪聲信息,它們仍然保留了主要的原始圖像內容
根據我們討論的內容,我們傾向於對原始圖像的分類設置較高的置信度。 考慮到以上考慮,我們選擇ϵ = 0.1。

D Ablation Experiment

從表2中可以看出,所有三個損失對最終性能都有積極影響。 顯然,對抗損失比其他損失更爲重要。 從我們的角度來看,原因是在訓練過程中對抗損失可以提供更多的梯度。 此外,這三個損失不僅提高了1級精度,而且還有助於訓練過程的穩定性。
在這裏插入圖片描述
其次,爲了解釋DE-N(域間隙評估網絡)如何指導生成器生成翻譯圖像,我們考慮以下實驗。 在此實驗中,我們僅刪除DE-N並保留其他設置。 當刪除域間隙評估網絡時,我們只需遵循[16]中採用的策略,即使用五個CycleGAN將輸入圖像轉換爲所有其他五個相機視點
刪除域評估網絡可能會在一定程度上改善最終性能,但也會在很大程度上增加模型的複雜性。 總之,域差距評估網絡可以在不犧牲精度的情況下提高訓練效率,這對於cTransNet非常重要

在訓練期間,我們實際上將整個過程分爲兩個單獨的步驟。== 首先,我們將每個域的圖像作爲一個整體,然後預先計算每個域的距離。 通過這樣做,我們獲得了每個域的目標域,並將其保存爲超參數==。 最後,我們在訓練StarGAN時將此超參數傳遞給生成器根據輸入,計算每個域的距離,根據最大的也就是目標域,作爲超參數送給生成器生成目標域的圖像

結果評估

(1) 作者提出的方法提高了精度,並且可以與其他常見的數據增強策略(例如隨機擦除和重新排序)一起使用。

總結

(1)在本文中,我們提出了cTransNet,它通過使用基於StarGAN的模型基於原始相機視點生成轉換圖像來顯式地解決人的re-id。
(2)而且,爲了減輕由基於GAN的結構引起的噪聲水平的提高,將標籤平滑正則化(LSR)應用於轉換後的圖像。
(3)我們的方法是對其他數據增強技術的補充

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章