人體解析任務
人體解析(human parsing),屬於語義分割任務的子任務,旨在對人類圖像進行像素級的是細粒度分割(例如,劃分出身體部位和服裝)。根據不同的場景,又可以分爲單人人體解析(single-person human parsing)和多人人體解析(multi-person human parsing,或者 instance-level human parsing)。除此之外,按照處理媒介分類,還可以分爲基於圖像的人體解析和基於視頻的人體解析。
對於人體解析任務,常用的度量指標包括 Pixel accuracy(%) , Mean accuracy(%), Mean IoU(%) 和 Frequency weighted IoU(%).
Look into Person數據集
Look into Person (LIP) 是一個大規模的人體語義解析數據集,它包括了帶有像素級人體部位標註(19種人體部位類別)和2D姿勢標註(16個關鍵點)的50000張圖像。這50000張圖像裁剪自COCO數據集中的人物實例,圖像尺寸均大於50 * 50. 它們覆蓋了真實世界的各種場景,包括姿勢和視角的改變、嚴重的遮擋、變化的外觀以及低分辨率。
實際上,該數據集可以分爲四個部分,分別爲:單人人體解析,多人人體解析,基於視頻的多人人體解析,基於圖像的虛擬試衣。可以從該數據集官網中得到下載鏈接(包括百度雲盤和谷歌雲盤鏈接)。
在這裏我們主要討論第一個部分,即單人人體解析數據集。它包括了19種類別標籤加上背景標籤,所以一共是20種類別:
- Background
- Hat
- Hair
- Glove
- Sunglasses
- Upper-clothes
- Dress
- Coat
- Socks
- Pants
- Jumpsuits
- Scarf
- Skirt
- Face
- Left-arm
- Right-arm
- Left-leg
- Right-leg
- Left-shoe
- Right-shoe
baseline代碼分享
該baseline模型基於PSPNet,其中的特徵提取主幹可以選擇resNet50、denseNet121、squeezeNet或者其它模型。
源碼鏈接如下:
https://github.com/hyk1996/Single-Human-Parsing-LIP
如果覺得有幫助,歡迎star和fork,如果有需要的話我可以把訓練好的模型也放出來。
實驗結果和可視化如下:(可視化代碼也包含在源碼裏了)