Grouping Attribute Recognition for Pedestrian with Joint Recurrent Learning

論文:http://ise.thss.tsinghua.edu.cn/MIG/2018-7.pdf
代碼:https://github.com/slf12/GRLModel

1 核心思想

本篇論文的核心思想是行人的屬性存在組內互斥和組間關聯。組內互斥是指同一類的多個屬性不可能一起出現,比如判定一個行人年齡爲16-30時,不能再判定其年齡爲31-45。組間關聯是指不同的屬性組之間具有關聯關係,比如判定某個人性別爲女,那麼其髮型爲長髮的概率會更高。因此作者提出使用LSTM來學習屬性間的相互互斥及依賴關係。

作者第二個貢獻是引入了空間上的視覺注意力,也就是針對行人圖像,檢測其不同的區域(頭部、上身、下身),針對區域圖像進行對應屬性的預測。其思路如圖1所示:
在這裏插入圖片描述對輸入圖像,先使用FCN進行人體連接點的檢測,然後使用人體區域建議網絡(body region proposal network)進行各人體區域的檢測。

2 整體網絡

在這裏插入圖片描述整體網絡如上圖所示,先對輸入圖像使用微調後的Inception V3提取特徵,然後結合人體區域的位置信息,利用ROI Average Pooling層獲取各人體區域的特徵,同時也獲取了人體的全局特徵。獲取的這些特徵送入一個LSTM網絡中去學習屬性間的互斥及關聯關係,然後將各輸出經過全連接層後和BN層後獲取各二分類屬性的出現的概率。

3 損失函數

作者把所有的屬性當成二分類屬性來處理,因此使用的是sigmoid交叉熵損失。但由於在監控場景下采集的屬性之間存在嚴重的數據不均衡(夏天採集的圖像,短袖出現的概率遠大於羽絨服出現的概率),因此作者使用的是加權的sigmoid交叉熵損失以解決數據不均衡問題。
在這裏插入圖片描述pjp_j表示訓練集中第j個屬性爲正的概率。p^ij\hat{p}_{ij}表示第i幅圖像中第j個屬性被預測爲正的概率。

原始的sigmoid交叉熵損失中是不包含wjw_j的,由於wjw_j都大於1且pjp_j越大wjw_j越大,因此出現頻率越高的樣本誤分類造成的損失越大,且對模型訓練過程中梯度的改變也就越大。

4 實驗

在這裏插入圖片描述總體分類結果

在這裏插入圖片描述上圖可以看出使用屬性分組挖掘的準確率提升要高於ROI Pooling的準確率提升。

在這裏插入圖片描述在這裏插入圖片描述上面兩圖可以看出,進行屬性識別時的預測順序對識別準確率影響很大。

5 個人理解

本文思路很合理,但是使用FCN+人體區域建議網絡進行人體區域的檢測,在工程上複雜度略高。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章