論文地址
第一篇論文筆記,希望大家能多提些意見來幫助我提高論文筆記模型的性能。相關方向的童鞋可以加qq:396543018一起交流~
Motivation
- 現在的Siamese CNN對每個照片僅在final level提取固定的表示進行比較,而不管與其配對的其他圖像情況。
- 缺點:難以提取對於區分hard negative pairs與positive pairs局部的細緻模式
- 對於以上的問題,本文提出了一個a gating function通過比較圖像對中間層的特徵來選擇性的突出公共的細緻局部模式
個人理解:
- 本文是從一種去嘗試從增強局部細節特徵來提高re-ID模型的判別能力,根據CNN分層的特點在中間層插入Matching Gate增強局部細節來提升模型的性能,這也是目前Re-ID的一個趨勢,全局特徵判別力不強,通過attention、對齊、姿勢等等來提高判別能力
Contribution
提出了一個baseline siamese convolutional neural network architecture性能能夠超過大多數深度學習方法
爲了將運行時選擇與增強特徵融入S-CNN結構,提出了a novel matching gate來提升不同視角的局部特徵
- 促使網絡中的卷積核學習細緻的模式來區分hard-negatives
- 提出的matching gate是可微的,能夠端到端學習
在CUHK03、Market1501、VIPeR數據集上進行了實驗,證明了本文方法的有效性
1 Introduction
- siamese fashion將特徵提取與度量學習融入一個框架
- S-CNN的缺點:同motivation中,沒有很好的捕捉局部信息,如下圖中人很容易通過細節特徵來區分的pairs,S-CNN並不能很好區分
使用gating function的原因:
- 因爲在CNN的中間層的特徵具有更多的細節模式相比後面層高級特徵更容易增加positive pairs的相似性,本文從mid-level開始使用gating function來對圖像對提取局部模式並促進向高層傳播與局部相似性有關的特徵
- 在反向傳播的過程中,gate function也能促進放大局部相似性的梯度的傳播,這樣可以使lower與middle layers的卷積核提取更多的局部相似模式來區分正例對與負例對
- 挑戰:不同的camera視角具有不同的姿勢變化,如何來有效地比較局部特徵以及選擇共同的模式?本文采取的是horizontal row-wise,通過each horizontal stripe來比較,(這樣直接對齊是否真的合理呢?)
- 將圖像對同一水平條的特徵加和並通過歐式距離比較
- 得到每一個維度的距離後利用Gausssian activation function來輸出0-1的相似度得分,這個得分用來控制每個水平 條特徵的傳遞
- 將gated feature與input feature相加來突出局部的相似性
2 Related Works
2.1 Human Re—Indentification
Person re-ID的兩個研究重點:
- 找到新的特徵表示:應對各種factor of variations
- 學習距離度量:來更好的描述圖片之間的相似性
Deep Learning for Human Re-Identification:
- 2014年第一個Siamese CNN
- Deep Filter Pairing Neural Network (FPNN)
- 等等
- 本文與上述工作的不同:提出的matching gate目標是比較不同層次的特徵來提升局部相似性並增強傳播局部特徵的判別能力
2.2 Gating Functions
- 之前使用門函數的工作:LSTM、Highway、‘Trust Gates’
- 本文的門函數用在了不同於上述工作的結構中,以及有着不同的目的,作用:見Introduction
3 Proposed Model
3.1 Model Architecture
Baseline Siamese CNN architecture:
- 見下圖
- details:
- 輸入圖片大小爲128 * 64並減去在訓練集上計算得到的均值
- 只使用了三個池化層,防止過多的信息損失
- 在4-6層使用了非對稱卷積核,保持第三層輸出的行數,且使列數逐步變成1(受一篇論文的啓發),同時相比對稱卷積覈減少了參數
- Vgg-like卷積核、BN、PRelu
Matching Gate:
- 結構如下圖:
1.Feature summarization
- feature summartization unit:用來彙總圖片中水平條的局部特徵
- 原因在於不同視角下的圖片,姿勢會發生變化,不一定在兩個圖片的同一個位置,本文假設在同一個水平區域
- 本文通過卷積完成彙總
- 公式:
2.Feature Similarity computation
- 對1的輸出的每一個維度計算每歐式距離,並通過Gaussian activation functiond得到gate values
- 公式:
- 代表高斯函數的方差,最優的值通過訓練得到,值得注意的是 的初始值要較大來確保在前向與反向傳播過程中激活值與梯度的平滑流動
3.Filtering and Boosting the features:
- 利用gate後特徵與gate前得特徵加和得到的boosted output,即comman pattern,之後再對得到的輸出進行L2 normalization
- 公式:
- 對MG公式的解釋:
- 當P值較大時候,得到的g接近1,那麼可以允許最大的信息流過
- 當p值較小時,只有兩個局部特徵較爲接近時候,g才接近1,即僅僅允許非常相似的區域通過。
3.2 Traning and Optimization
Input preparation:
- 用0、1分別表示負樣本與正樣本對
- 因爲數據集中負樣本對遠遠大於正樣本對:
- 數據增強
- sample 5 times the number of positive image pairs
Training:
- he normal
- contrastive loss, margin:1
- RMSProp
- early stopping
- initial learning rate 0.002,每個epoch乘以0.9
- p:初始爲4
Testing:
- 得到query與gallery圖片特徵,計算歐式距離
- 對結果進行升序排列來得到top matches
4 Experiments
- 分別在Market-1501、CUHK03、VIPeR上做了實驗,對於Market-1501及CUHK03兩個較大的數據集上都取得了較好的性能,對於較小的VIPrR,相比其他DL方法也取得了不錯的效果,但是由於數據太少,效果不如一些傳統方法,結果如圖:
- Market-1501:
- CUHK03:
- VIPeR
5 Conclusion and Future Works
- 總結了提出的SCNN with Matching Gate的作用
- 一個可視化Gate的效果,來說明gate會減弱局部不相似的特徵,提升局部相似特徵