行人屬性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”

原創

2018-08-21 22:37

不考慮人體姿態，part及上下文信息，僅使用圖像作爲輸入，訓練CNN進行所有屬性的預測。另外，提出了N/A標記，即對目標的屬性不確定。如下圖的人向左走，就無法確定其右手是否帶包。

人體屬性一般是二值的語義，如（ is male? wears a tshirt? carries a bag in the left hand?），或者多項輸出（orientation - left, right, front, or back），可以用於圖像檢索，語義檢索數據庫。

ACN網絡
網絡的結構如下圖所示：

對於N/A的樣本，梯度設置爲0。每個屬性有一個損失函數，通過BP累積。最小化兩個離散分佈的KL 散度，Q是預測的結果，P是實際屬性二值狀態：
KL(P||Q)=∑NiP(xi)logP(xi)Q(xi)
P(xi=yes)=l;p(xi=no)=1−l

目標空間是每個屬性的交叉積，是一個結構化預測問題。

網絡是一個兩步訓練過程，使用額外的fc層替換原來的損失層。額外的fc層是對每個屬性學習帶有隱含層的MLP，每個屬性最有的隱含節點是64個。對目標任務的每個屬性，增加分類及損失層。訓練過程使用了一些數據增強技術：將原始輸入框resize到不同的尺寸，水平鏡像，PCA jittering。測試時使用所有crop的平均。

Reject Option
1. Reject Region 使用伯努利變量控制，閾值決定拒絕區域。
2. Softmax，訓練具有N+1個輸出的softmax損失。
3. Hierarchical Softmax，兩步法，考慮兩個變量A和B，p(A)標識屬性是否可以檢測到，p(B)標識屬性爲真的概率，A使用logistic損失，B使用softmax損失，最終屬性預測爲p(A)和p(B|A)的乘積。

數據庫
HATDB
Berkeley-行人屬性數據集
PaRSE-27k數據集

實驗結果
自己在PARSE-27k數據集上的對比

在Berkeley行人屬性數據集上與其他方法的對比

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

行人屬性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

圖像變換

內存圖片二進制數據直接轉爲 OpenCV 數據格式的方法

3D卷積“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”

點雲卷積“PointConv: Deep Convolutional Networks on 3D Point Clouds”

遷移學習“Importance Weighted Adversarial Nets for Partial Domain Adaptation”

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結