不考慮人體姿態,part及上下文信息,僅使用圖像作爲輸入,訓練CNN進行所有屬性的預測。另外,提出了N/A標記,即對目標的屬性不確定。如下圖的人向左走,就無法確定其右手是否帶包。
人體屬性一般是二值的語義,如( is male? wears a tshirt? carries a bag in the left hand?),或者多項輸出(orientation - left, right, front, or back),可以用於圖像檢索,語義檢索數據庫。
ACN網絡
網絡的結構如下圖所示:
對於N/A的樣本,梯度設置爲0。每個屬性有一個損失函數,通過BP累積。最小化兩個離散分佈的KL 散度,Q是預測的結果,P是實際屬性二值狀態:
目標空間是每個屬性的交叉積,是一個結構化預測問題。
網絡是一個兩步訓練過程,使用額外的fc層替換原來的損失層。額外的fc層是對每個屬性學習帶有隱含層的MLP,每個屬性最有的隱含節點是64個。對目標任務的每個屬性,增加分類及損失層。訓練過程使用了一些數據增強技術:將原始輸入框resize到不同的尺寸,水平鏡像,PCA jittering。測試時使用所有crop的平均。
Reject Option
1. Reject Region 使用伯努利變量控制,閾值決定拒絕區域。
2. Softmax,訓練具有N+1個輸出的softmax損失。
3. Hierarchical Softmax,兩步法,考慮兩個變量A和B,p(A)標識屬性是否可以檢測到,p(B)標識屬性爲真的概率,A使用logistic損失,B使用softmax損失,最終屬性預測爲p(A)和p(B|A)的乘積。
數據庫
HATDB
Berkeley-行人屬性數據集
PaRSE-27k數據集
實驗結果
自己在PARSE-27k數據集上的對比
在Berkeley行人屬性數據集上與其他方法的對比