FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image

本文來源於2019A類會議CVPR的論文FSA-Net,對其中一部分進行翻譯

摘要:

本文提出了一種基於單個圖像的頭部姿態估計方法。以往的方法往往是通過landmark或depth估計來預測頭部姿態,計算量大。我們的方法是基於迴歸和特徵聚集。爲了得到一個緊湊的模型,我們採用了soft stagewise regression方案。現有的特徵聚集方法將輸入視爲一組特徵,從而忽略它們在特徵圖中的空間關係(我覺得在這裏可以使用膠囊模型)。我們建議在聚合之前學習空間分組特性的細粒度結構映射。細粒度結構(fine-grained structure)提供基於部件的信息和集合值。通過在空間位置上利用可學習和不可學習的重要性,可以生成不同的模型變量並形成互補的整體。實驗表明,該方法既能實現無標誌點方法,又能實現基於標誌點或深度估計的無標誌點方法。在只有一個RGB幀作爲輸入的情況下,我們的方法甚至優於利用多模態信息(RGB-D,RGB時間)估計橫擺角的方法。此外,我們的模型的內存開銷比以前的方法小100倍。

介紹:

頭部姿態研究很重要,其他的不多說了。

單幅圖像的頭部姿態估計是一個具有挑戰性的問題。頭部姿態是一個包含偏航角、俯仰角和橫滾角的三維矢量。從圖像估計頭部姿勢基本上需要學習二維和三維空間之間的映射。有些方法使用更多的方式,如深度圖像中的三維信息或視頻序列中的時間信息。深度圖像提供二維圖像中缺失的三維信息。視頻捕捉人類頭部的連續運動,並提供額外信息以幫助姿勢估計。然而,時間信息的學習通常是通過具有高計算成本的循環結構來實現的,而捕捉深度信息通常需要一些不總是可用的特殊攝像機。大多數單幀姿態估計方法都利用面部標誌點檢測來估計頭部姿態。然而,它會引起更多的計算,並導致更大的模型。因此,這些模型不適合在內存和計算資源有限的平臺上使用。本文提出了一種無標誌點直接回歸的單一圖像姿態估計的緊湊模型FSA網絡。對於一個緊湊的模型,該模型建立在軟階段迴歸方案的基礎上。

爲了獲得多尺度信息,和許多回歸方法一樣,我們的方法結合了來自不同層/階段的特徵圖。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章