人體解析任務 和 Look into Person數據集 (附源碼分享)

人體解析任務

人體解析(human parsing),屬於語義分割任務的子任務,旨在對人類圖像進行像素級的是細粒度分割(例如,劃分出身體部位和服裝)。根據不同的場景,又可以分爲單人人體解析(single-person human parsing)和多人人體解析(multi-person human parsing,或者 instance-level human parsing)。除此之外,按照處理媒介分類,還可以分爲基於圖像的人體解析和基於視頻的人體解析。

對於人體解析任務,常用的度量指標包括 Pixel accuracy(%) , Mean accuracy(%)Mean IoU(%) 和 Frequency weighted IoU(%).

多人人體解析

 

Look into Person數據集

Look into Person (LIP) 是一個大規模的人體語義解析數據集,它包括了帶有像素級人體部位標註(19種人體部位類別)和2D姿勢標註(16個關鍵點)的50000張圖像。這50000張圖像裁剪自COCO數據集中的人物實例,圖像尺寸均大於50 * 50. 它們覆蓋了真實世界的各種場景,包括姿勢和視角的改變、嚴重的遮擋、變化的外觀以及低分辨率。

實際上,該數據集可以分爲四個部分,分別爲:單人人體解析多人人體解析基於視頻的多人人體解析基於圖像的虛擬試衣。可以從該數據集官網中得到下載鏈接(包括百度雲盤和谷歌雲盤鏈接)。

在這裏我們主要討論第一個部分,即單人人體解析數據集。它包括了19種類別標籤加上背景標籤,所以一共是20種類別:

  1. Background
  2. Hat
  3. Hair
  4. Glove
  5. Sunglasses
  6. Upper-clothes
  7. Dress
  8. Coat
  9. Socks
  10. Pants
  11. Jumpsuits
  12. Scarf
  13. Skirt
  14. Face
  15. Left-arm
  16. Right-arm
  17. Left-leg
  18. Right-leg
  19. Left-shoe
  20. Right-shoe
LIP數據集樣本實例

 

baseline代碼分享

該baseline模型基於PSPNet,其中的特徵提取主幹可以選擇resNet50、denseNet121、squeezeNet或者其它模型。

源碼鏈接如下:

https://github.com/hyk1996/Single-Human-Parsing-LIP

如果覺得有幫助,歡迎star和fork,如果有需要的話我可以把訓練好的模型也放出來。

實驗結果和可視化如下:(可視化代碼也包含在源碼裏了)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章