FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image

原創

2020-06-16 14:49

本文來源於2019A類會議CVPR的論文FSA-Net，對其中一部分進行翻譯

摘要：

本文提出了一種基於單個圖像的頭部姿態估計方法。以往的方法往往是通過landmark或depth估計來預測頭部姿態，計算量大。我們的方法是基於迴歸和特徵聚集。爲了得到一個緊湊的模型，我們採用了soft stagewise regression方案。現有的特徵聚集方法將輸入視爲一組特徵，從而忽略它們在特徵圖中的空間關係（我覺得在這裏可以使用膠囊模型）。我們建議在聚合之前學習空間分組特性的細粒度結構映射。細粒度結構（fine-grained structure）提供基於部件的信息和集合值。通過在空間位置上利用可學習和不可學習的重要性，可以生成不同的模型變量並形成互補的整體。實驗表明，該方法既能實現無標誌點方法，又能實現基於標誌點或深度估計的無標誌點方法。在只有一個RGB幀作爲輸入的情況下，我們的方法甚至優於利用多模態信息（RGB-D，RGB時間）估計橫擺角的方法。此外，我們的模型的內存開銷比以前的方法小100倍。

介紹：

頭部姿態研究很重要，其他的不多說了。

單幅圖像的頭部姿態估計是一個具有挑戰性的問題。頭部姿態是一個包含偏航角、俯仰角和橫滾角的三維矢量。從圖像估計頭部姿勢基本上需要學習二維和三維空間之間的映射。有些方法使用更多的方式，如深度圖像中的三維信息或視頻序列中的時間信息。深度圖像提供二維圖像中缺失的三維信息。視頻捕捉人類頭部的連續運動，並提供額外信息以幫助姿勢估計。然而，時間信息的學習通常是通過具有高計算成本的循環結構來實現的，而捕捉深度信息通常需要一些不總是可用的特殊攝像機。大多數單幀姿態估計方法都利用面部標誌點檢測來估計頭部姿態。然而，它會引起更多的計算，並導致更大的模型。因此，這些模型不適合在內存和計算資源有限的平臺上使用。本文提出了一種無標誌點直接回歸的單一圖像姿態估計的緊湊模型FSA網絡。對於一個緊湊的模型，該模型建立在軟階段迴歸方案的基礎上。

爲了獲得多尺度信息，和許多回歸方法一樣，我們的方法結合了來自不同層/階段的特徵圖。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image

OSError:Unable to open file （file signature not found）

將COCO格式數據轉爲VOC格式

存在多個python的虛擬環境，如何找到對應的pip進行下載

matplotlib.pyplot使用方法

FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結