《Super-realtime facial landmark detection and shape fitting by deep regression of shape model parameters》
來源:德國亞琛工業大學
論文:https://arxiv.org/abs/1902.03459
源碼:https://github.com/justusschock/shapenet
前言
1)本文提出了一種高效特徵點檢測方法,一種結合CNN和PCA的基於模型的擬合算法
2)通過基於形狀(active shapes)擬合方法的激勵,本文使用PCA來進行人臉關鍵點建模; PCA被當着新型層類型使用在深度神經網絡中,而不是迭代優化來計算模型參數
3)整個架構允許對基於模型的人臉關鍵點檢測方法進行直接的端到端訓練
4)該方法不僅用於人臉特徵點檢測,還可以用於醫學圖像,紅外,貓等其他形狀擬合任務,只需要配置參數即可
框架
框架整體可理解爲3個部分 :
1) feature extraction layers
其CNN結構簡單,由C2DB和DN模塊堆疊;C2DB表示3x3卷積和relu,每block可能由多個(Frequency)C2DB組成;DN是下采樣和歸一化,採用的是stride爲2的3x3卷積+relu+norm來實現
在整個框架中充當特徵提取器,接受人臉圖像,迴歸輸出:PCA參數的預測權重()+同步的全局變換參數(1個縮放參數,1個旋轉參數,2個變換參數)
2)PCA
首先:
接受CNN輸出爲輸入
然後:
表示n個PCA特徵向量對應的特徵權值,它們對應進行線性組合,如下圖中:
紅色框中,那排人臉圖,表示n個PCA特徵向量,它是在預處理階段,由訓練集計算得到,在訓練中加載到內存的
藍色框中,人臉則是線性組合的結果
最後:
將線性組合結果進行全局變換
3)output
上一步中全局變換的結果就是最終結果
PCA維度
實驗證明該本文框架在PCA維度爲50時效果最好;維度從5到50呈上升趨勢,而增加到75反而影響效果,當然這能與數據標註存在噪聲有關,PCA壓縮丟棄這部分信息反而更好
實驗
作者在人臉數據集(300w indoor,300w outdoor),紅外人臉數據集(Thermal),貓臉數據集(Cats),醫學圖像數據集(JSRT lungs,PROMISE2)上都進行了實驗;
但論文並未提到與其他算法的比較,更加強調庫的簡單、通用和高效(GTX2080ti上410fps)