行人屬性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”

不考慮人體姿態,part及上下文信息,僅使用圖像作爲輸入,訓練CNN進行所有屬性的預測。另外,提出了N/A標記,即對目標的屬性不確定。如下圖的人向左走,就無法確定其右手是否帶包。
這裏寫圖片描述

人體屬性一般是二值的語義,如( is male? wears a tshirt? carries a bag in the left hand?),或者多項輸出(orientation - left, right, front, or back),可以用於圖像檢索,語義檢索數據庫。

ACN網絡
網絡的結構如下圖所示:
這裏寫圖片描述

對於N/A的樣本,梯度設置爲0。每個屬性有一個損失函數,通過BP累積。最小化兩個離散分佈的KL 散度,Q是預測的結果,P是實際屬性二值狀態:
KL(P||Q)=NiP(xi)logP(xi)Q(xi)
P(xi=yes)=l;p(xi=no)=1l

目標空間是每個屬性的交叉積,是一個結構化預測問題。

網絡是一個兩步訓練過程,使用額外的fc層替換原來的損失層。額外的fc層是對每個屬性學習帶有隱含層的MLP,每個屬性最有的隱含節點是64個。對目標任務的每個屬性,增加分類及損失層。訓練過程使用了一些數據增強技術:將原始輸入框resize到不同的尺寸,水平鏡像,PCA jittering。測試時使用所有crop的平均。

Reject Option
1. Reject Region 使用伯努利變量控制,閾值決定拒絕區域。
2. Softmax,訓練具有N+1個輸出的softmax損失。
3. Hierarchical Softmax,兩步法,考慮兩個變量A和B,p(A)標識屬性是否可以檢測到,p(B)標識屬性爲真的概率,A使用logistic損失,B使用softmax損失,最終屬性預測爲p(A)和p(B|A)的乘積。

數據庫
HATDB
Berkeley-行人屬性數據集
PaRSE-27k數據集

實驗結果
自己在PARSE-27k數據集上的對比
這裏寫圖片描述
在Berkeley行人屬性數據集上與其他方法的對比
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章