Resource Aware Person Re-identification across Multiple Resolutions (CVPR 2018)論文閱讀

作者認爲直接從深度卷積神經網絡最後一層得到的feature損失了大量細節信息,例如顏色,衣服紋理,面部信息。因此通過融合上下層輸出將會提升識別性能。但是被融合的信息需要對識別任務提供足夠強的特徵,否則會引入噪聲甚至降低性能。
引入一個4steps神經網絡,每一步生成的特徵都會加一個權重控制最終fusion佔比,權重通過損失函數進行學習得到。
 分佈融合網絡

融合後特徵

損失函數
損失函數使用triplet loss:三元損失函數可以拉近相似的樣本,排斥不同樣本;由於不是交叉熵損失函數不需要爲每個類都訓練一定的參數。因此在類別數增加後不需要大量的參數。

triplet loss
輸入query通過對比每一步的輸出與gallery的距離,設定threshold,當距離小於threshold就會退出網絡,不進行後續的網絡前向傳播。簡而言之,就是當輸入爲易識別的query時會提前退出網絡,爲不易識別的query時就會輸出最後的fusion特徵進行匹配。同時還會引入margin機制,當匹配的第一近的gallery圖片與第二近圖片間距達到一定值纔會觸動退出機制。這個值在合適的範圍內,隨着數值的不斷增加效果就會越好,數值越大,第一近與第二近的模糊性就越小。

該網絡的一個重要思想是使用多層特徵進行融合,對與每一層特徵使用不同的權重,權重是一個可學習參數。具體代碼實現是先將所有層進行拼接,然後將拼接後的特徵進行一維卷積(一維卷積的卷積核是一維的,一維卷積僅對待卷積特徵的最後一維進行處理)卷積核更新後的參數即爲上述可學習參數。

使用Batch hard triplet loss進行網絡訓練,每批次選擇P個人每個中選擇K個hard image進行訓練。

batch hard triplet loss
與所選定樣本的歐氏距離最大的正樣本爲hard postive
與所選定樣本的歐式距離最小的負樣本爲hard negtive

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章