Deep Convolutional Network Cascade for Facial Point Detection閱讀筆記

原文鏈接: https://blog.csdn.net/u010359545/article/details/49613801

CVPR2013

摘要

本文提出了一種通過3級卷積神經網絡估計臉部關鍵點的新方法。在每一級,網絡的輸出都是魯棒且準確的。卷積網絡的深度結構能在初始階段中,從全部的臉部區域中提取出高級的特徵,這些有利於關鍵點的準確定位。有兩個主要的優點:1、整張臉的上下文信息都被利用到了,2、關鍵點的幾何學約束已經被暗含了。避免了局部優化方法帶來的缺點。網絡的後兩級被訓練用於局部優化初試預測值。

1、 介紹

臉部關鍵點檢測對人臉識別、分析來說至爲重要。主要的挑戰是when face images are taken with extreme poses, lightings, expressions, and occlusions, as shown in Figure 1.現有的方法主要分成兩類:分類查找窗口[3,4,1,20,28],和直接預測關鍵點位置(或形狀參數)[5,8,9,21,25,26]。對於第一種方法,爲每一個關鍵點訓練一個被稱爲component detector的分類器,是基於局部信息的。可能找到多個類似臉部關鍵點的候選區域或找到的候選區域不合適。在這種情況下,一個優化方法是加入形狀約束。和component detector相比,直接預測位置(或形狀參數)是更有效的,不需要掃描。迴歸經常被用於預測,基於靠近臉部關鍵點的局部區域或者整個圖像區域。同時需要添加空域約束。
這裏寫圖片描述
許多方法迭代地更新臉部關鍵點爲位置,好的初始化是關鍵的。平均shape或者從訓練集中採樣到的shape被作爲初試值,這些往往離目標位置很遠,然後更新到一個局部最小值。另外,許多方法面臨提取的特徵沒有判別力或者不夠可靠,所以上下文信息是很重要的。許多方法使用shape約束,這是相對較弱的。從整個臉部區域提取紋理信息是很有必要的。這需要更有力的分類器或迴歸器,因爲視覺複雜度隨着圖像區域的大小指數增長。
爲了解決這些問題,本文提出了一種級聯迴歸器的方法。用三級卷積網絡檢測臉部關鍵點。不同於現有的方法大致地估計臉部關鍵點的初試位置,我們的卷積網絡在第一級就做出了準確的估計。這有效地避免了局部最小值問題。卷積網絡把整張臉作爲輸入,最好地利用了上下文信息,並在深度構架的高層提取了全局的高級特徵,即使局部的低級特徵變得不可靠時也能有效地預測關鍵點位置。同時由於同時預測多個點,關鍵點的約束也被隱含其中。
剩餘的兩級卷積網絡用於提純初始估計。這兩級的卷積網絡是淺層的,它們的任務是低層的且他們的輸入被限制在一個小的初始點的小局部區域。詳細的試驗評估證明了本文的方法在準確性和可靠性的表現都是state-of-art的。

2、 級聯的卷積網絡

這裏寫圖片描述
Fig2.是本文方法的概要。有5個面部點,左眼中心(LE),右眼中心(RE),鼻子(N),左嘴角(LM),右嘴角(RM)。在第一級,我們使用3個深度卷積網絡,輸入區域分別包括整張臉(F1),眼和鼻子,鼻子和嘴。每個網絡同時估計多個面部點。對每一個面部點,多個網絡的預測求平均來減少變動。Fig3.闡述了F1的結構,包括4個卷積層,後面跟着是max pooling層,還有2個全連階層。EN1和NM1使用相同的深度結構,由於輸入區域的大小不同,每一層的大小不同。第2、3級的網絡把預測點局部的一小塊作爲輸入,且只允許在之前的預測上做微小改變。小塊的大小和搜索範圍隨着級數減小。後兩級的預測是被嚴格限制的,因爲局部的圖像有時是不可靠的。在後兩級,每個點的預測位置是由兩個取不同的patch大小的網絡的平均值得到的。第一級的目標是穩定地估計關鍵點位置,同時保證極少的大誤差。網絡的後兩級目標是得到高精度。後兩級的所有網絡使用一個相同的淺層結構。
這裏寫圖片描述

2.1網絡結構選擇

分析3個選擇網絡的重要因素。討論集中在最難訓練的第一級網絡。第一,第一級的網絡必須要深。從大的輸入區域中預測關鍵點是一個高級任務。更深的結構有利於形成全局的高級特徵,在低層,由於局部感受野,神經元提取的特徵是局部的。通過結合空間上相鄰的低層特徵,高層的神經元能從更大的區域提取特徵。此外,高層的特徵是高度非線性的,增加額外的層增強了從輸入到輸出的非線性,更有可能代表輸入和輸出的關係。
第二,對卷積層上的神經元,在雙曲正切激活函數後的絕對值校正(下一章)能有效提高效果。這在[14]中被體術。
第三,局部地共享權值有利於更好的表現。

2.2多級迴歸

我們發現幾種有效的方法結合多重卷積網絡。第一章是多級迴歸。臉部bounding box是僅有的先驗知識。一個面部點對bounding box的相對位置可能分部在一個很大的範圍,這是由於臉部檢測器的不穩定性和姿態的多樣性。所以第一級的輸入區域應該是足夠大來覆蓋所有可能的預測。但大的輸入區域是主要的不準確原因,因爲不相關的區域可能退化網絡最後的輸出。第一級的網絡輸出爲接下來的檢測提供了一個強大的先驗知識。真實的臉部點僞裝分佈在第一級預測的一個小領域內。所以第二級的檢測可以在一個小範圍內完成。但沒有上下文信息,局部區域的表現是不可靠的。爲了避免發散,我們不能級聯太多層,或者過多信任接下來的層。這些網絡只能在一個小範圍內調整初始預測。
爲了更好的提高檢測精度和可靠性,我們提出了每一級都有多個網絡共同地預測每一個點。這些網絡的不同在於輸入區域。最後的預測可以用公式表達如下:
這裏寫圖片描述
對n-級級聯,在i級有li個預測。第一級的預測是絕對位置,接下來的級的預測是調整。

3、 調整細節

輸入層I(h,w),2D的沒有用到顏色信息。卷積層CR(s,n,p,q)(卷積核大小,特徵層數,共享權值參數(局部共享權值))。(h,w,m)代表前一層的大小。卷積操作表示爲:
這裏寫圖片描述
激活函數爲雙曲正切函數。池化層表示爲P(s),s爲卷積區域長度。卷積結果乘以一個增益係數g,加上一個偏置b。公式表示如下:
這裏寫圖片描述
全連接層F(n),公式:
這裏寫圖片描述

結構:

這裏寫圖片描述

1、 輸入區域:

F1輸入整個臉,輸出5個點,EN1輸入上部和中部,輸出兩個眼睛和鼻子,NM1輸入中部和底部,輸出3個點。第二級和第三級的所有網絡使用前一層的預測爲中心的方形區域爲輸入,輸出一個增量預測。在這兩級,我們用兩個不同大小的區域來預測每個點,第三層的區域比第二層小。每一級的網絡精度輸入如Table2所示。
這裏寫圖片描述

2、 訓練

第一級,訓練和邊界相關的小塊,通過小的變換和旋轉增強數據。在接下來的級中,我們訓練以ground truth 位置隨機變換得到的位置爲中心的小塊,第二級在水平和豎直最大的shift爲0.05,第三級爲0.02,這個距離是以bounding box的大小爲基準。參數通過隨機初始化和隨機梯度下降法得到。LM算法用於估計學習律[19].

4、試驗

這裏寫圖片描述

5、參考文獻

[1] http://www.luxand.com/facesdk/. 6
[2] http://research.microsoft.com/en-us/projects/facesdk/. 6
[3] B. Amberg and T. Vetter. Optimal landmark detection usingshape models and branch and bound. In Proc. ICCV, 2011.1, 2
[4] P. N. Belhumeur, D. W. Jacobs, D. J. Kriegman, and N. Kumar.Localizing parts of faces using a consensus of exemplars.In Proc. CVPR, 2011. 1, 2, 6, 7
[5] X. Cao, Y. Wei, F. Wen, and J. Sun. Face alignment by explicitshape regression. In Proc. CVPR, 2012. 1, 2, 6, 7
[6] D. Ciresan, U. Meier, and J. Schmidhuber. Multi-columndeep neural networks for image classification. In Proc.CVPR, 2012. 2
[7] A. Coates, A. Y. Ng, and H. Lee. An analysis of singlelayernetworks in unsupervised feature learning. Journal of Machine Learning Research, 2011. 2
[8] T. F. Cootes, G. J. Edwards, and C. J. Taylor. Active appearance models. In Proc. ECCV, 1998. 1
[9] M. Dantone, J. Gall, G. Fanelli, and L. J. V. Gool. Real-time facial feature detection using conditional regression forests. In Proc. CVPR, 2012. 1, 2
[10] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. PAMI, 2013. 2
[11] L. Gu and T. Kanade. A generative shape regularization model for robust face alignment. In Proc. ECCV, 2008. 1
[12] G. B. Huang, H. Lee, and E. Learned-Miller. Learning hierarchical representations for face verification with convolutional deep belief networks. In Proc. CVPR, 2012. 4
[13] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical Report 07-49, University of Massachusetts, Amherst, 2007. 5
[14] K. Jarrett, K. Kavukcuoglu, M. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In Proc. ICCV, 2009. 2, 3
[15] O. Jesorsky, K. J. Kirchberg, and R. Frischholz. Robust face detection using the hausdorff distance. In Proc. AVBPA, 2001. 6
[16] K. Kavukcuoglu, P. Sermanet, Y.-L. Boureau, K. Gregor, M. Mathieu, and Y. LeCun. Learning convolutional feature hierarchies for visual recognition. In Proc. NIPS, 2010. 2
[17] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In Proc. NIPS, 2012. 2
[18] Q. Le, M. Ranzato, R. Monga, M. Devin, K. Chen, G. Corrado, J. Dean, and A. Ng. Building high-level features using large scale unsupervised learning. In Proc. ICML, 2012. 2
[19] Y. LeCun, L. Bottou, G. Orr, and K. Muller. Efficient backprop. In G. Orr and M. K., editors, Neural Networks: Tricks of the trade. Springer, 1998. 5
[20] L. Liang, R. Xiao, F. Wen, and J. Sun. Face alignment via component-based discriminative search. In Proc. ECCV, 2008. 1, 2, 6
[21] X. Liu. Generic face alignment using boosted appearance model. In Proc. CVPR, 2007. 1
[22] P. Luo, X. Wang, and X. Tang. Hierarchical face parsing via deep learning. In Proc. CVPR, 2012. 2
[23] S. Milborrow and F. Nicolls. Locating facial features with an extended active shape model. In Proc. ECCV, 2008. 1
[24] M. Osadchy, Y. L. Cun, and M. L. Miller. Synergistic face detection and pose estimation with energy-based models. Journal of Machine Learning Research, 2007. 2
[25] P. Sauer, T. Cootes, and C. Taylor. Accurate regression procedures for active appearance models. In Proc. BMVC, 2011. 1, 2
[26] M. Valstar, B. Martinez, X. Binefa, and M. Pantic. Facial point detection using boosted regression and graph models. In Proc. CVPR, 2010. 1, 2, 6
[27] H. Wu, X. Liu, and G. Doretto. Face alignment via boosted ranking model. In Proc. CVPR, 2008. 1
[28] X. Zhu and D. Ramanan. Face detection, pose estimation, and landmark localization in the wild. In Proc. CVPR, 2012. 1, 2, 5

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章