A simple yet effective baseline for 3d human pose estimation
主要工作
在以往的人體3D關鍵點檢測的方法中,主要有兩種,一種是構造end-to-end的網絡,直接實現輸入普通圖像,輸出人體3D關鍵點;另一種是首先使用2D關鍵點檢測的方法,檢測出2D的關鍵點,然後使用匹配對對齊的方式構造出3D關鍵點。
這篇文章的工作非常簡單,但是也非常的有用。其主要工作就是構造一個網絡,實現2D人體關鍵點到3D關鍵點的映射。實際上,2D關鍵點到3D關鍵點的映射,就是一個迴歸過程,而現在使用神經網絡構造迴歸器是非常容易的,因此很容易想到使用訓練一個神經網絡,實現迴歸過程。因爲作者的方法比較簡單,所以作者自己也說這是一個baseline。具體的:
- 構造了一個高效的2D轉關鍵點轉3D關鍵點的 神經網絡
實現細節
網絡結構
作者借鑑瞭如上圖所示的Resnet residual結構,作者稱之爲block,每個block中有兩個全連接層(Linear),每個全連接層後面都跟着batch normalization、ReLU、Dropout層。
除此之外,作者還在block前,加了一個全連接層,用來將輸入的16*2
的關節點升維到1024維,同樣的,在網絡最後也加了一個全連接層,用來將1024維的數據降維到16*3
在網絡中,block的數量可多可少,這裏作者一共使用了兩個block。
網絡輸入和輸出
輸入: 2D關節點的座標,16*2
表示的是16個關節點,每個關節點的座標是二維的
輸出:3D關節點的座標, 16*3
訓練細節
訓練數據: Human3.6M: http://vision.imar.ro/human3.6m/description.php
訓練參數: Epoch=200, Adam,batch_size=64,weight init=Kaiming initialization, lr=0.001