Distribution-Aware Coordinate Representation for Human Pose Estimation
paper : https://arxiv.org/pdf/1910.06278.pdf
Comments: Results on the COCO keypoint detection challenge: 78.9% AP on the test-dev set (Top-1 in the leaderbord by 12 Oct 2019) and 76.4% AP on the test-challenge set. Project page: https://ilovepose.github.io/coco
我們通常使用的heatmap預測關鍵點的位置。如果我們將heatmap中的最大激活位置最爲最後的預測位置,同時由於下采樣輸入的高分辨率圖像,這樣會導致量化誤差(quantisation error)。爲了緩解這一問題,在現有的座標解碼過程中,通常會按照從最高激活到次高激活的方向手工進行移位操作。
論文的研究問題就是,很少被人關注的座標解碼問題。雖然現有的標準移動操作(上述)已經被證明是有效的,在這項研究中,論文提出了一個原則性的分佈感知表示方法(principled distribution-aware representation method),以更準確的聯合定位在亞像素精度。具體來說,它的設計是通過基於泰勒展開的分佈近似來綜合考慮熱圖激活的分佈信息。
The standard coordinate decoding method
給定一個預測結果 :heatmap (h)。其激活的最大位置和第二大位置分別爲(m),(s)。那麼關節位置是:
The proposed coordinate decoding method
假設:預測的heatmap服從二維高斯分佈。所以預測的熱圖表示爲:
x是預測heatmap的像素位置,μ是將要被估計的關節座標位置,協方差矩陣
對數轉換G,----->
我們要估計的是μ,他是極值點,我們也知道他的一階導數在 x = μ 處等於0。
採用泰勒定理,在最大激活處m,展開。選擇m來近似μ的直覺是,因爲他是一個好的大概的關鍵點預測位置。
怎麼計算得到的? 表示P在m處的二階導數。
綜上:
Heatmap distribution modulation
通常我們預測的heatmap(上圖) ,在最大激活附近出現很多峯值。使用一個與訓練數據變化相同的高斯核K來平滑heatmap h中多個峯值的影響,形式上爲(卷積操作)。爲了保持原有的熱圖的大小,我們最終縮放h',使其最大激活值等於h的最大值,通過以下轉換
類似於歸一化。