A simple yet effective baseline for 3d human pose estimation

A simple yet effective baseline for 3d human pose estimation

主要工作

在以往的人體3D關鍵點檢測的方法中,主要有兩種,一種是構造end-to-end的網絡,直接實現輸入普通圖像,輸出人體3D關鍵點;另一種是首先使用2D關鍵點檢測的方法,檢測出2D的關鍵點,然後使用匹配對對齊的方式構造出3D關鍵點。

這篇文章的工作非常簡單,但是也非常的有用。其主要工作就是構造一個網絡,實現2D人體關鍵點到3D關鍵點的映射。實際上,2D關鍵點到3D關鍵點的映射,就是一個迴歸過程,而現在使用神經網絡構造迴歸器是非常容易的,因此很容易想到使用訓練一個神經網絡,實現迴歸過程。因爲作者的方法比較簡單,所以作者自己也說這是一個baseline。具體的:

  1. 構造了一個高效的2D轉關鍵點轉3D關鍵點的 神經網絡

實現細節

網絡結構

這裏寫圖片描述

作者借鑑瞭如上圖所示的Resnet residual結構,作者稱之爲block,每個block中有兩個全連接層(Linear),每個全連接層後面都跟着batch normalization、ReLU、Dropout層。

除此之外,作者還在block前,加了一個全連接層,用來將輸入的16*2的關節點升維到1024維,同樣的,在網絡最後也加了一個全連接層,用來將1024維的數據降維到16*3

在網絡中,block的數量可多可少,這裏作者一共使用了兩個block。

網絡輸入和輸出

輸入: 2D關節點的座標,16*2表示的是16個關節點,每個關節點的座標是二維的

輸出:3D關節點的座標, 16*3

訓練細節

訓練數據: Human3.6M: http://vision.imar.ro/human3.6m/description.php

訓練參數: Epoch=200, Adam,batch_size=64,weight init=Kaiming initialization, lr=0.001

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章