1709.HydraPlus-Net-Attentive Deep Features for Pedestrian Analysis 論文筆記

原創

2020-06-13 20:24

HydraPlus-Net-Attentive Deep Features for Pedestrian Analysis
面向行人分析的注意力深度特徵表達—HydraPlus（“九頭蛇”）網絡
代碼資源：https://github.com/xh-liu/HydraPlus-Net

論文信息：

論文介紹：
行人分析屬於細粒度的行人識別任務，如行人屬性識別和行人ID再識別，作者提出了一個新穎的基於注意力機制的深度學習網絡，架構在inception-V2之上，該網絡的優勢是能有效整合多級（low-level/semantic-level等）和對尺度下的多種注意力機制特徵來豐富最終的特徵表達，實驗結果顯示網絡提取的多注意力特徵具有互補性，整合後的特徵具有更好的細粒度特徵表達能力。

作者分別在行人屬性識別的數據集和Re-ID數據上做了實驗。

所解決問題的動機：如下圖所示，引入來自多層級的多尺度注意力特徵並整合全局和局部到一個特徵向量上
1.Semantic-level全局的特徵能定位局部注意力感興趣區域獲得更好的不同行人的判別性（如長髮還是短髮，長袖還是短袖，有無帶帽）
2.Low-level（較低層提取的特徵）捕獲的多爲條紋或紋理特徵，如衣服的pattern
3.Scales則是有助於描述行人的特點，如小尺度注意力特徵圖有無打電話等行爲或者大特徵注意力特徵圖的行人整體理解，如判別男女。

模型框架：

採用多向網絡即在Main Net（M-Net）的基礎上加入Attentive Feature Net（AF-Net）,而MFN有三個分支，每個分支有三個inception-V2的Block單元和一個MDA（multi-directional attention）模塊（多向是指不同MFN分支上，MDA應用於在不同級別Blocks特徵提取上，即MDA處理後的特徵圖與三個臨近的blocks元素乘的連接，即可認爲每個MDA有三個輸出分支），注意力特徵圖從不同的語義layers中提取，可抽象出同一行人的不同的視覺模式；
用全局均值池化（GAP）和一個全連接層（FC）聯結從M-Net和AF-Net得到的全局和局部多級別多尺度特徵，進行最後特徵的整合；
作者的創新性設計體現在AF-Net的設計上，即引入來自多層級的多尺度注意力特徵並整合全局和局部到一個特徵向量上；
In principle, any kind of CNN structure can be applied to construct the HP-net.作者則採用了inception v2 architecture

一個MDA的處理過程：如下圖
MDA module includes two components:
(1) attention map generation with black solid lines；
(2) attentive features by masking the attention map to different levels of features in hot dash lines.

HP-Net訓練：
HP-Net訓練步驟比較繁瑣：in a stage-wise fashion，先訓練M-Net，完後再被複制三次得到AF-Net的三個分支，每個MDA模塊有三個子分支組成，即臨近的三個不同的inception blocks，依次微調每個blocks，即共有9個blocks需要微調，對於行人重識別任務，用softmax loss最小化輸出層loss。

實驗：

Multi-level Attention Maps
下圖，以每個輸入圖像提取某level的L = 8 attention channels 的特徵圖，來說明不同MDA作用下，多級注意力特徵的定性演示：

Fig. 4(a). We observe that the attention map from earlier layer i = 1 prefers grasping low-level patterns like edges or textures, while those from higher layers i = 2 or 3 are more likely to capture semantic visual patterns corresponding to a specific object (e.g. handbag) or human identity.