Human Parsing人體解析多篇論文簡讀

Macro-Micro Adversarial Network for Human Parsing(ECCV2018)

摘要:在人體解析中,pixel-wise分類loss在低級局部不一致和高級語義不一致上有不足。引入帶有一個判別器的生成式網絡來解決這兩個不一致。但是,這兩種不一致是由不同機制產生的,所以一個判別器不能解決兩個不一致。所以提出Macro-Micro對抗網絡,倆判別器。同時,避免了對抗網絡處理高分辨率圖像時的poor convergence問題。

Introduction:pixel-wise loss有兩個缺點:1.產生局部不一致,比如空洞或模糊,因爲它僅處罰每個像素上的錯誤預測,而不考慮鄰接像素間的關係。2.產生語義不一致,比如不合理的pose或不正確的部件間空間關係,產生於深層,只注意局部區域,學習的模型對於部件的拓撲關係沒有整體認識,以致於大範圍的依賴關係不能捕捉。

爲了解決不一致,--->CRFs,作爲後處理的方式,(缺:因爲pairwise potentials,CRFs通常處理小範圍的局部的不一致,甚至有可能生成錯誤的label maps)

----->adversarial network,(優:adversarial loss通過多個lable變量的joint configuration評估一個label map爲真或假,可以產生高級的一致,不用成對項或逐像素分類Loss)(缺:1.兩個不一致1個判別器;2.單個判別器監督全局一致性,注意overall high-resolution Image。生成器很難騙過判別器。導致單個判別器反向傳播大的Loss,訓練不平衡,也就是poor convergence)

Related works:

human parsing.人體解析取得進步的原因1.大規模數據集,2.端到端的訓練模型。

Conditional random fields.CRFs在輸出的lable maps上執行spatial contiguity,作爲後處理,進一步細化輸出。因pair-wise potentials,只能處理小範圍的低級一致性。高級難設計。總之,CNN上上下文信息的利用依然是很Open的問題

 

Understanding Humans in Crowded Scenes: Deep Nested Adversarial Learning and A New Benchmark for Multi-Human Parsing(2018)

Introduction:之前的工作人體解析工作要麼只考慮粗糙信息,要麼對不同實例agnostic。在真實世界中,更可能的是存在多人,有不同的交互,姿態,遮擋。這就需要實例級人體解析。但是,現有的數據集不適合這個新任務。所以提出MHPv2數據集,多人解析數據集。

還提出了Nested Adversarial network,現有的方法一般依賴分離的階段(實例定位,人體解析,細化)NAN同時解析類別部件和分類不同的人。

Multiple-Human Parsing in the Wild(2017)

相比於單人解析,現實場景更需要多人解析。雖然多人解析可以通過person detect再解析,但是一般的人體檢測器適用於直立的人(simple pose),現實中往往存在親密接觸或者人間遮擋等。而且,雖然實例分割考慮了多人,但是隻能給出人體的輪廓,米有細節子類,不滿足人體解析的需求。考慮了這些提出MHP數據集和MH-Parser方法。

top-down,detector實例and parsing,這種方法嚴重依賴detector,當實例緊密就Poor performance了

down-up,embeddings of all pixels.。所以提出embedding super Pixels。進一步用Graph-GAN學習高層信息,細化embedding

通常的GAN是基於2D圖像的學習,首次提出圖結構學習。

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章