A simple yet effective baseline for 3d human pose estimation

主要工作

在以往的人體3D關鍵點檢測的方法中，主要有兩種，一種是構造end-to-end的網絡，直接實現輸入普通圖像，輸出人體3D關鍵點；另一種是首先使用2D關鍵點檢測的方法，檢測出2D的關鍵點，然後使用匹配對對齊的方式構造出3D關鍵點。

這篇文章的工作非常簡單，但是也非常的有用。其主要工作就是構造一個網絡，實現2D人體關鍵點到3D關鍵點的映射。實際上，2D關鍵點到3D關鍵點的映射，就是一個迴歸過程，而現在使用神經網絡構造迴歸器是非常容易的，因此很容易想到使用訓練一個神經網絡，實現迴歸過程。因爲作者的方法比較簡單，所以作者自己也說這是一個baseline。具體的：

構造了一個高效的2D轉關鍵點轉3D關鍵點的神經網絡

實現細節

網絡結構

作者借鑑瞭如上圖所示的Resnet residual結構，作者稱之爲block，每個block中有兩個全連接層（Linear），每個全連接層後面都跟着batch normalization、ReLU、Dropout層。

除此之外，作者還在block前，加了一個全連接層，用來將輸入的16*2的關節點升維到1024維，同樣的，在網絡最後也加了一個全連接層，用來將1024維的數據降維到16*3

在網絡中，block的數量可多可少，這裏作者一共使用了兩個block。

網絡輸入和輸出

輸入： 2D關節點的座標，16*2表示的是16個關節點，每個關節點的座標是二維的

輸出：3D關節點的座標， 16*3

訓練細節

訓練數據： Human3.6M： http://vision.imar.ro/human3.6m/description.php

訓練參數： Epoch=200， Adam，batch_size=64，weight init=Kaiming initialization， lr=0.001

A simple yet effective baseline for 3d human pose estimation

A simple yet effective baseline for 3d human pose estimation

主要工作

實現細節

網絡結構

網絡輸入和輸出

訓練細節

SQL優化-20231016

opencv例程解讀——dft（離散傅里葉變換）

樸素貝葉斯分類及應用

markdown使用haroopad導出PDF

C++學習筆記（十五）：vector對象在內存空間中是如何增長的

亞馬遜EC2升級g++版本

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結