論文閱讀：《LIP: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》

原創

青青韶华

2020-07-06 05:52

CVPR 2017 Workshop
數據集：http://hcp.sysu.edu.cn/lip

主要貢獻

提出了一個新的large-scale benchmark，以及一個測評服務器用支持進一步的人物解析研究，新的數據集共有50462 張圖片，20 個分類標籤（19個類別+背景）
通過在新的數據集上的實驗，詳細分析之前state-of-the-art 的人物解析方法的優勢和不足
提出了一個自監督的，基於人體架構化的學習框架，主要是結合瞭解析結果和人體結構信息，並取得了state-of-the-art 的效果。

亮點

LIP dataset

目前存在的用於人物解析的數據集普遍存在數量過少，類別過於單一，不夠複雜全面的問題，因此重新構造一個更復雜，更全面的數據集將能夠有效提升解析識別結果。

LIP 數據集有以下幾個特點：

數據集的數量是目前最大的，一共有30642 張訓練圖片，10000 張驗證圖片，以及10000 張測試圖片。
種類是最複雜的，它相比於之前的多數是full-body 的圖片，還有足夠數量的上半身，下半身，頭部缺失，背影圖片以及有遮擋的圖片，這些都是姿勢識別和人物解析的困難之處。
數據集中的圖片來源於真實世界中，嚴重遮擋，多樣性的變化以及各種範圍的分辨率都使得該數據集具有更加複雜的特點，在訓練時增大泛化能力。

人物解析方法分析

論文中主要對比的幾個網絡框架是FCN-8s，SegNet，DeepLabV2，以及an attention mechanism（Attention）。其中Attention 的效果最好，因此論文也是基於此進行改進的。FCN-8s 和SegNet 主要是在object-level 進行分割，但是對於人物關節點解析這樣的細節問題表現的效果不太好，這說明humanparsing 在目前還是一個有待提升的研究課題。

由於LIP 數據集有對人物有比較細緻的分類，因此對於頭部缺失的圖片，之前的檢測方法對於頭部缺失的圖片準確率都比較低，同時對於遮擋的圖片效果也比較差。另一方面，對於人物較小部位的解析結果也不太好，例如腳，手這樣相對於整個人體來說更加細微的部分。同時，左右區分也是一個很大的問題，左手右手，左腳右腳常常會解析錯誤。

基於人體結構的框架的提出

總結之前存在的方法會發現問題主要是訓練時缺乏人體佈局，因此提出了一種novel structure-sensitive supervision framework。

這種基於人體結構的框架主要在修改訓練時的loss 函數，之前的loss 函數是和ground truth 做pixel-wise 的類別對比，這裏再加上structure loss。結構上主要設置9 種連接結構，即頭，上半身，下半身，左胳膊，右胳膊，左腿，右腿，左鞋，右鞋。將深度卷積網絡訓練出來的heatmap 的人體結構與ground truth 的人體結構求L2 loss，作爲Ljoint。