Bag of Tricks and A Strong Baseline for Deep Person Re-identification閱讀筆記

本文發表於CVPR2019,作者是浙江大學羅浩博士

摘要

本文提出一個ReID中簡單且有效的baseline。本文使用一些trick,在只使用全局特徵的情況下達到rank1 94.5%和mAP 85.9%的水平。

背景

Baseline對於一個領域的研究起着非常重要的作用,但是我們觀察最近一年頂會發表的ReID工作,發現論文之間Baseline的差距特別大。以Market1501爲例,極少數工作在90以上的Baseline上開展,而大部分集中在80~90之間,甚至部分工作在80以下的Baseline上開展。而DukeMTMC-ReID更是沒有一個Baseline超過了80的Rank1。我們都清楚,在低的Baseline上面方法漲點更加容易。另外不同的Baseline也很難統一比較不同方法的優劣性。基於這個因素考慮,我們覺得需要統一一個強力的Baseline。

作者目的

經過統計發現,最近一年頂會上發表工作的Baseline性能差異性很大,並且大部分處在很低的水平。因此我們希望統一一個強力的Baseline。我們希望學術界的研究能夠在這個Baseline進行擴展,這樣能夠早日把Market1501、DukeMTMC-reID數據集給刷爆。只有這些數據集刷爆了,學界才能意識到ReID應該進入下一階段。我們希望給社區的審稿人一些參考,哪些trick對模型的性能會產生重大的影響,審稿時應該考慮這些trick。我們希望給業界提供一些訓練trick,在很低的代價下提高模型的性能,加快產品研發的過程。
作者:羅浩.ZJU
鏈接:https://zhuanlan.zhihu.com/p/61831669
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

簡介

當前大部分的工作都在性能不太好的baseline上進行,本文下網提供一個強力的baseline給研究者和社區來推動ReID的發展。

本文集合了一些高效的訓練方法並設計了一個BNNeck。

標準baseline

骨幹網絡是ResNet50,訓練中有以下五個步驟:

  1. 使用在ImageNet上預訓練好的ResNet50參數,並將最後的全連接層的輸出改爲N(訓練集中id數)
  2. 每個批次隨機採樣P個人的K張圖片進行訓練,batch size 爲P*K,本文設計P=16,K=4
  3. 將每張圖片resize到256128並向外用0補充10個像素,在隨機裁剪到256128
  4. 每張圖片以50%的概率水平翻轉
  5. 每張圖片被編碼爲介於[0,1]的32位浮點數的像素值,然後歸一化RGB通道
  6. 模型輸出ReID特徵 f 和ID預測標籤 p
  7. ReID特徵 f 被用來計算triplet loss,ID預測 p 用來計算cross entropy loss。triplet loss的margin設爲0.3
  8. 使用Adam方法來對模型進行最優化,初始學習率設爲0.00035,在40epoch和70epoce時衰減0.1,一共訓練120輪

訓練trick

Fig2(b)顯示了這一部分所描述的訓練策略
在這裏插入圖片描述

預熱學習率(Warmup)

在這裏插入圖片描述

隨機擦除增強(RandomErasing, REA)

標籤平滑(LabelSoomth, LS)

最後一層的步長(Last Stride)

參考資料:

  • 一個更加強力的ReID Baseline - 羅浩.ZJU的文章 - 知乎
    https://zhuanlan.zhihu.com/p/61831669
  • ReID Strong Baseline論文閱讀 - 心吾人言的文章 - 知乎
    https://zhuanlan.zhihu.com/p/97495006

更詳細的論文解讀 https://blog.csdn.net/weixin_40671425/article/details/93885584?depth_1-utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-1&utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-1

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章