(26) Distribution-Aware Coordinate Representation for Human Pose Estimation

原創

滴水藏海NQZ

2020-06-12 21:48

Distribution-Aware Coordinate Representation for Human Pose Estimation

paper : https://arxiv.org/pdf/1910.06278.pdf

Comments: Results on the COCO keypoint detection challenge: 78.9% AP on the test-dev set (Top-1 in the leaderbord by 12 Oct 2019) and 76.4% AP on the test-challenge set. Project page: https://ilovepose.github.io/coco

我們通常使用的heatmap預測關鍵點的位置。如果我們將heatmap中的最大激活位置最爲最後的預測位置，同時由於下采樣輸入的高分辨率圖像，這樣會導致量化誤差（quantisation error）。爲了緩解這一問題，在現有的座標解碼過程中，通常會按照從最高激活到次高激活的方向手工進行移位操作。

論文的研究問題就是，很少被人關注的座標解碼問題。雖然現有的標準移動操作（上述）已經被證明是有效的，在這項研究中，論文提出了一個原則性的分佈感知表示方法（principled distribution-aware representation method），以更準確的聯合定位在亞像素精度。具體來說，它的設計是通過基於泰勒展開的分佈近似來綜合考慮熱圖激活的分佈信息。

The standard coordinate decoding method

給定一個預測結果：heatmap (h)。其激活的最大位置和第二大位置分別爲（m）,（s）。那麼關節位置是：

$p=m+0.25\frac{s-m}{\left \| s-m \right \|_2}$

The proposed coordinate decoding method

假設：預測的heatmap服從二維高斯分佈。所以預測的熱圖表示爲：

$G(x;\mu ,\Sigma)=\frac{1}{(2\pi \left | \Sigma \right |^{\frac{1}{2}})}exp(-\frac{1}{2}(x-\mu )^T\Sigma ^{-1}(x-\mu )\textup{)}$

x是預測heatmap的像素位置，μ是將要被估計的關節座標位置，協方差矩陣 $\Sigma=\begin{bmatrix} \sigma^2 & 0\\ 0& \sigma^2 \end{bmatrix}$

對數轉換G，-----> $P(x;\mu,\Sigma )=In(G)=-In(2\pi )-\frac{1}{2}(\left | \Sigma \right |)-\frac{1}{2}(x-\mu)^T\Sigma ^{-1}(x-\mu)$

我們要估計的是μ，他是極值點，我們也知道他的一階導數在 x = μ 處等於0。

採用泰勒定理，在最大激活處m，展開。選擇m來近似μ的直覺是，因爲他是一個好的大概的關鍵點預測位置。

$P(\mu)=P(m)+{D}'(m)(\mu-m)+\frac{1}{2}(\mu-m)^T{D}''(m)(\mu-m)$

怎麼計算得到的？ ${D}''(m)={D}''(x)|_{x=m}=-\Sigma ^{-1}$ 表示P在m處的二階導數。

綜上： $\mu=m-({D}''(m))^{-1}{D}'(m)$

Heatmap distribution modulation

通常我們預測的heatmap（上圖），在最大激活附近出現很多峯值。使用一個與訓練數據變化相同的高斯核K來平滑heatmap h中多個峯值的影響，形式上爲 ${h}'=K\circledast h$ （卷積操作）。爲了保持原有的熱圖的大小，我們最終縮放h'，使其最大激活值等於h的最大值，通過以下轉換

${h}'=\frac{{h}'-min({h}')}{max({h}')-min({h}')}*max(h)$ 類似於歸一化。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Julia Deep Learning CV】第一篇 MNIST

2020-07-08 00:23:43

CV-梯度下降

GD θnext=θlast−ωf′(θi) \Large \theta_{next} = \theta_{last} - \omega f'(\theta_i) θnext=θlast−ωf′(θi) 直到 f′(θne

2020-07-07 20:06:56

CV-色彩空間

色彩三要素色相：基色明度：明暗純度：飽和其中明度和純度感官差異上有些區分不開，可以藉助如下定義純度：顏色中灰色含量的多少亮度：顏色中黑白佔比的多少因爲明亮和飽和的顏色都會對眼睛有明顯的刺激，反正我是分不太

2020-07-07 20:06:56

CNN卷積神經網絡結構遐思

殘缺的神經網絡卷積神經網絡，是神經網絡的子集，是殘缺的神經網絡。 [a00a01a02a10a11a12a20a21a22]⊙[b00b01b10b11]=[c00c01c10c11] \left[\begin{matrix}a

2020-07-07 20:06:56

CV-color

https://nbviewer.jupyter.org/github/forevaer/cv_note/blob/master/1/homework/homework_color.ipynb

2020-07-07 20:06:56

Infrared and visible image perceptive fusion through multi-level Gaussian curvature filtering image

圖像融合---簡單認識圖像融合 Image fusion - Simply recognize image fusion 概念圖像融合（Image Fusion）是指將多源信道所採集到的關於同一目標的圖像數據經過圖像處理和計算機

李伯爵的指间沙

2020-07-07 19:04:25

DeepStream結合OpenCV4實現視頻的分析和截圖（一）

目錄安裝環境 Deepstream-test4配置文件改寫調用OpenCV截圖存疑其他收穫前言本文實現基於test4，基於deepstream-app的更改和代碼更新見DeepStream結合OpenCV4實現視頻的分析和

2020-07-07 16:54:09

ResNet/ResNet-I3D/ResNet-I3D-SlowFast 源碼閱讀

文章目錄0. 前言1. ResNet50-2D2. ResNet-I3D3. ResNet-I3D-SlowFast 0. 前言目標：更好的理解2D/I3D/SlowFast模型。爲了實現MobileNet/Shuff

清欢守护者

2020-07-07 14:47:10

論文瀏覽(11) A Multigrid Method for Efficiently Training Video Models

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：視頻理解訓練加速作者單位：FAIR&得克薩

清欢守护者

2020-07-07 14:47:10

論文瀏覽(10) Towards Real-Time Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀，翻譯論文基本信息領域：多目標跟蹤作者單位：清華&澳大利亞國立

清欢守护者

2020-07-07 14:47:10

論文瀏覽(9) A Simple Baseline for Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：多目標跟蹤作者單位：華科&微軟亞洲研究院發

清欢守护者

2020-07-07 14:47:08

論文瀏覽(15) Online Action Detection

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github，這個是作者github repo，但沒寫自己是…… 論文解讀，推薦參考資料論

清欢守护者

2020-07-07 14:47:08

論文瀏覽(13) Resource Efficient 3D Convolutional Neural Networks

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：行爲識別作者單位：慕尼黑工業大學&英特爾歐洲

清欢守护者

2020-07-07 14:47:08

論文瀏覽(12) SmallBigNet: Integrating Core and Contextual Views for Video Classification

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：視頻分類作者單位：商湯&中國科學院深圳先進技

清欢守护者

2020-07-07 14:47:08

論文瀏覽(8) Asynchronous Interaction Aggregation for Action Detection

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github：有webcam demo可以直接使用，但暫時沒有提供training代碼。論文解

清欢守护者

2020-07-07 14:47:08

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章