CVPR2019Parsing R-CNN for Instance-Level Human Analysis論文閱讀

Abstact

實例級人體解析在生活場景中是很常見的,也有許多表現形式,比如人體部件分割、稠密姿態估計、人-物交互等。模型需要判別不同人實例,學習豐富的特徵來表示每個實例的細節。在這篇文章中,我們提出一個端到端的pipeline來解決實例級人體解析,叫做parsing r-cnn。它通過綜合考慮基於區域的方法特性和人體表觀,表示實例細節,同時處理一組人體實例。

Introduction

因爲深度學習的發展,許多現有的方法都採用一個兩階段的Pipeline,1.MaskRCNN(檢測人)2.並行地預測一個class-aware mask。這些方法已經很成功,但是在實例人體解析還存在問題:1.mask分支用來預測class-agnostic實例mask,但是實例級人體解析需要更多細節的特徵。2、人體解析需要人體部件或稠密點間的幾何和語義信息,現有方法也都沒有體現這一點。所以提出簡潔有效的Parsing R_CNN

研究從以下四個方面探索實例人體解析的問題:

1.爲了增強特徵語義信息,保持特徵分辨率,使用可分離採樣。

人體通常在圖像中佔據比較大的比例。因此ROIPool通常在粗糙分辨率特徵圖上執行。但是這會丟失許多實例細節信息。在這個工作中在特徵金字塔中採用可分離採樣,最後細化階段使用roipool

2.爲了得到更仔細的信息,我們增大了roi分辨率。

因爲人體解析任務通常在12人或者12類中判別。它需要增大特徵圖分辨率。

3。提出幾何和上下文編碼方法,來增大感受野,捕捉不同部件間的關係。

它是一個由兩個部分組成的輕量組。第一個部件用來得到多個Level感受野和上下文信息;第二個部件是用來學習幾何關聯。

3.Parsing R_CNN

3.1Proposal Separation Sampling

 在FPN和mask R-cnn裏,分配策略是把ROI根據不同尺度分配到對應的特徵金字塔。通常,大的roi被分配到粗糙分辨率的特徵圖。但是,我們發現這種策略在實例人體解析中不是最優的。因爲小實例不能被準確標註,人體實例通常佔據比較大的部分。如圖3所示,在COCO數據集中少於20%的實例佔據大於圖像10%,而CIHP,MHP分別是74%、86%、。在這種比例下,根據FPN提出的分配策略,大部分實例別分到粗糙分辨率的特徵圖。實例級人體解析通常需要人體一些細節信息,但是粗糙分辨率的特徵圖不能提供。

所以提出pps,建議分離採樣,提取細節特徵,也保留了多尺度特徵表達。

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章