【翻譯】Convolutional Experts Network for Facial Landmark Detection

【翻譯】Convolutional Experts Network for Facial Landmark Detection

摘要: 約束局部模型(CLM)是一個成熟的面部標記點檢測方法系列。然而他們最近不如 級聯迴歸 方法流行。這部分是由於現有CLM局部檢測器無法對錶情,照明,面部毛髮,化妝等影響的非常複雜的標記點外觀進行建模。我們提出了一種新穎的局部檢測器 - 卷積專家網絡(CEN),它將端到端框架中的 神經結構和專家混合 的優點彙集在一起。我們進一步提出使用CEN作爲局部檢測器的卷積專家約束局部模型(CE-CLM)算法。我們證明,我們提出的CE-CLM算法在四個公開可用的數據集上大大地優於具有競爭力的面部標記點檢測的最先進的基線。我們的方法在挑戰性的個人側顏圖像上特別準確和魯棒。

  1. 引言

面部標記點檢測是面部表情分析,面部3D建模,面部屬性分析,多模態情感分析,情感識別和人物識別等多個研究領域的重要的 初步步驟 [10,22,42,30]。這是一個經過深入研究的大量註釋數據的問題,在過去幾年中引起了人們的興趣。

最近,面部標記點檢測最流行的方法之一是約束局部模型(CLM)家族[10,29]。他們使用局部檢測器單獨模擬每個面部標記點的外觀,並使用形狀模型執行約束優化。CLMs包含了許多其他方法缺乏的許多優點和擴展:1)對每個標記點的外觀進行建模使得CLM對閉塞穩健[1,29];對3D形狀模型和多視圖局部檢測器的自然擴展允許CLMs自然採用姿態變化[29,24]和具有里程碑意義的遮擋[3]; 3)基於期望最大化的模型導致視頻中的跟蹤平滑[29]。這使得他們成爲一個非常有吸引力的 面部標記點檢測和跟蹤 方法。

儘管有這些好處,CLM最近也被各種級聯迴歸模型超過了[38,48]。 我們認爲基於CLM的方法的相對性能不足是由於使用了局部檢測器,這些檢測器無法對局部標記點特徵的複雜變化進行建模魯棒準確的局部檢測器應該明確地建立這些不同的外觀原型存在於同一標記點對齊概率。

我們引入了一種稱爲卷積網絡的新型局部檢測器,它將端到端框架中的神經體系結構和混合專家的優勢彙集在一起​​[40]。CEN能夠學習專家的混合物,捕獲不同的外觀原型, 而不需要明確的屬性標籤 。爲了解決面部標記點檢測問題,我們提出了卷積專家約束局部模型(CE-CLM),它是使用CEN作爲局部檢測器的CLM模型。我們通過對四個可公開提供的數據集,300W [25],300V [31],IJB-FL [15] 和Menpo挑戰賽[44]的大量實驗來評估我們的CEN局部檢測器和CE-CLM面部標記點檢測算法的優點。後兩個數據集包括具有極高挑戰條件的側顏面部姿勢的大部分。此外,我們將後三種用於跨數據集實驗。

本文的結構如下:第2節討論CE-CLM的相關工作,第3節介紹了CE-CLM。在第4節中,我們對CEN局部檢測器進行了評估,並比較了CE-CLM與其他面部標記點檢測方法。我們在第5節總結論文。

  1. 相關工作

面部標記點檢測在數量上起着至關重要的作用研究領域和應用如面部特徵檢測[18],面部表情分析[22],情感認知和情緒分析[43,41,23,39]和3D面部重建[14]。對面部標記點檢測工作的全面綜述不在本文的範圍之內,我們提及讀者對該領域的近期評論[11,37]。

現代面部標記點檢測方法可以分爲兩大類: 基於模型和迴歸的 。基於模型的方法通常明確地模擬面部標記點的外觀和形狀,尤其是限制形狀的搜索空間並提供一種正則化形式。另一方面,基於迴歸的方法不需要明確的形狀模型,並且在外觀上直接執行標記點檢測。我們簡要介紹最近的模型和基於迴歸的方法。

基於模型的方法找到與圖像外觀相匹配的面部模型的最佳參數。基於模式的方法是約束局部模型[10,29]及其各種擴展,例如約束局部神經域[2]判別響應映射擬合[1],其使用判別分類器計算局部響應映射的方法並推斷標記點位置。另一個值得注意的基於模型的方法是使用基於樹的可變形部件模型[50]的混合來共同執行面部檢測,姿態估計和麪部標記點檢測。這種方法的擴展是高斯牛頓變形部分模型[36],它們使用高斯-牛頓優化聯合優化部分基於柔性外觀模型以及全局形狀。最近提出的3D密集面對準方法[49]使用CNN更新3D變形模型[6]的參數,並且在側顏面的面部標記點檢測上顯示出良好的性能。

基於迴歸的模型直接從外觀預測面部標記點位置。大多數這樣的方法採用 級聯迴歸框架 ,其中通過在 顯式形狀迴歸 中給出當前界限估計值,通過在外觀上應用迴歸因子來不斷改進標記點檢測[7]。級聯迴歸方法包括 監督梯度下降法(SDM) [38],其採用線性迴歸的SIFT [21]特徵來計算形狀更新和粗略到精細形狀搜索(CFSS)[48],其嘗試避免通過執行粗略到精細形狀搜索的局部最優。推出級聯迴歸(PO-CR)[35]是另一個級聯迴歸示例,更新形狀模型參數,而不是直接預測標記點位置。

最近的工作也用了深層次的學習技巧標記點檢測。粗到精的自動編碼器網絡[45]使用自動編碼器提取的視覺特徵進行線性迴歸。孫等人[32]提出了一種用於稀疏標記點檢測的基於CNN的級聯迴歸方法。同樣,Zhang等[47]提出在多任務學習框架中使用CNN來通過訓練網絡來學習面部特徵來改善面部標記點性能。最後,Trigeorgis等[34]提出了助記符下降方法,其使用經常性Neual網絡來對基於地理位置地點提取的基於CNN的視覺特徵進行級聯迴歸。

3 卷積專家CLM

卷積專家約束局部模型(CE-CLM)算法由兩個主要部分組成:使用卷積專家網絡的響應圖計算和形狀參數更新。在第一步中,獨立於其他標記點的位置來估計個別標記點對齊。在參數更新期間,所有標記點的位置被聯合更新,並使用點分佈模型對不對準的標記點和不規則形狀進行懲罰。我們優化以下目標:

公式一

式中p *是控制標記點位置的最佳參數集(參見等式3),其中p爲當前值估計。Di是計算輸入面部圖像I(3.1節)的位置xi中的標記i的對齊概率。R是點分佈模型(3.2節)實施的正則化。方程1的優化使用 非均勻正則化標記點平均移位算法(NU-RLMS) (第3.3節)進行。
圖二
Figure 1 圖2:卷積專家網絡模型概述。給定輸入圖像,並且基於標記點位置的估計,從中提取大小爲n×n的塊。該小區域通過卷積核形狀爲500×11×11的對比度歸一化卷積層,在相關運算之前進行Z分數歸一化,輸出500×n×n。之後,利用ReLU單位將響應圖輸入到200×1×1的卷積層。專家層的混合學習一個集合來捕獲ROI變化,並使用100×1×1 sigmoid概率決策內核的卷積層。輸出響應圖是使用S形激活的ME層中神經元的非負和非線性組合。

3.1.卷積專家網絡

CE-CLM算法的第一個也是最重要的一步是計算響應圖,通過評估各個像素位置的標記點對齊概率,幫助準確地定位個別標記點。在我們的模型中,這是由CNN完成的,它採用圍繞標記點位置的當前估計值的n×n像素區域作爲輸入,並且輸出在每個像素位置評估標記點校準概率的響應圖。有關圖示請參見圖2。

在CNN中,在形狀爲500×11×11的卷積層之間進行Z分數歸一化,然後計算輸入和內核之間的相關性。輸出響應圖然後與200×1×1個ReLU神經元的卷積層進行卷積。

CNN最重要的層次是能夠通過可以對不同標記點外觀原型進行建模的專家組合來建模最終對準概率。這是通過使用稱爲專家層混合(ME層)的特殊神經層來實現的,該層是使用S形激活的100×1×1的聚集層,輸出個體專家對對齊概率的投票(由於可以解釋sig-moid作爲概率)。然後將來自各個專家的這些響應圖與最後一層的非負權重組合,然後進行S形激活。這可以被看作是導致最終對齊概率的專家的組合。我們的實驗表明,ME層對於提出的卷積專家網絡的性能至關重要。

簡單來說,在公式1的迭代中,將CEN作爲輸入給出了圖像ROI,並輸出了評估單個標記點對齊的概率響應圖。因此,將標記點i擬合到位置xi遵循以下等式:
公式二
是標記點號碼i對齊的座標。圖像的位置xi處的圖像I# xi。響應映射π# i(大小n×n)然後用於最小化等式1。詳細的網絡訓練程序在4.1節中給出,包括在測試時間爲n選擇的參數。我們的實驗表明,使CNN模型更深入,不會改變網絡的性能。我們使用消融技術來研究第4.1節中ME層的影響。
3. 2. 點分佈模型

點分佈模型[9,29]用於兩者在CE-CLM框架中規劃標記點位置並規範形狀。最終檢測不規則形狀使用公式1中的術語R(p)對標記點進行懲罰。在以下PDM方程中,使用p = [s,t,w,q]對標記點位置_x_i = [_x_i
,_y_i]T進行參數化
公式三

式中x_i表示PDM的第_i個標記點的2D位置,並且p = {s,R,t,q}表示PDM參數,其由全局縮放s,旋轉R,平移t非剛性參數* q*組成。

3.2. NU-RLMS

方程1可以使用非均勻調節變化的Landmark Mean Shift(NU-RLMS)[2]。給定初始CE-CLM參數估計p,NU-RLMS迭代地找到更新參數Δp,使得p * = p0 +Δp接近等式1的解。NU-RLMS更新找到解決以下問題的解決方案:
這裏寫圖片描述
其中J是具有參數p的標記點位置的雅可比矩陣。Λ-1是p上的先驗矩陣具有高斯先驗N(q; 0,Λ),用於非剛性形狀,並且對於形狀參數是均勻的。等式4中的W是用於加權平均移位向量的加權矩陣:W =wi diag(c1; …; cn; c1; …; cn)和ci是基於相關係數的模型訓練期間計算的標記點檢測器精度。v = [vi]是使用高斯核密度估計器使用CEN的響應圖計算的平均移位向量:
這裏寫圖片描述
xc i是標記點位置和ρ的當前估計是一個超參數。這導致我們對NU-RLMS的更新規則
這裏寫圖片描述
4. 實驗

在我們的實驗中,我們首先評估其性能卷積專家網絡,並與LNF [2]和SVR [29]局部檢測器(patch專家)的性能進行比較。我們還評估了關鍵ME層對CEN性能的重要性。我們最終的面部標記點檢測實驗探索了我們的模型在兩個設置中的使用:圖像和視頻。我們所有的實驗都是針對具有挑戰性的公開數據集進行的,並與其中一些最新的基準進行比較

表1 :使用平方相關r2(較高)和RMSE(較低)的CEN,LNF [2]和SVR [29]的比較。爲了評估ME層的必要性,我們還與CEN(無ME層)進行比較,這是一個對ME層權重沒有非負約束的模型。性能下降表明ME層的關鍵作用。

探測器 r2 RMSE * 103
SVR[29] 21.31 66.8
LNF [2] 36.57 59.2
CEN 64.22 37.9
CEN(無ME層) 23.81 65.11

和跨數據集。CE-CLM和CEN訓練代碼可在1)https://github.com/A2Zadeh/ CE-CLM,2)multicomp.cs.cmu.edu/ceclm和3)作爲OpenFace [4]的一部分https://github.COM/ TadasBaltrusaitis / OpenFace。

4.1.CEN實驗

在本節中,我們首先描述CEN局部檢測器的訓練和推理方法。然後,我們比較CEN與LNF [2]和SVR [29]專家的性能,然後進行消融研究,以研究ME層的關鍵作用。

訓練過程:對於所有的實驗CEN對LFPW和Helen訓練集以及多PIE數據集進行了訓練。在訓練過程中,位於11×11卷積區域的中心,則標記點存在的概率較高。提取總共5×10# 5卷積區域用於訓練集,並選擇6×10# 4作爲測試集。我們每個標記點訓練了 28套CEN :七點方向±70°,±45°,±20°,0偏航;和四個尺度17,23,30和60像素的眼間距離。減少需要訓練的局部檢測器的數量我們以不同的偏航角度查看了局部檢測器,並且在正面視圖的左側和右側使用相同的專家。CEN的優化者是Adam([16])學習速度爲5×10# -4
,並訓練了100個輪次,小批量512(每個標記點大約有80萬個更新)。對於每個標記點,規模和視圖已經對CEN局部檢測器進行了訓練。訓練每個CEN模型在GeForce GTX Titan X上需要6個小時,但是一旦訓練過的推理可以快速完成並行化。我們比較LN局部檢測器與LNF和SVR貼片專家的性能改進。表1顯示了每個標記點的平均表現。由於對齊概率推論是一個迴歸任務,我們使用地面真實驗證集和局部檢測器輸出之間的平方相關(r2)和RMSE作爲精度的度量(對於r2而言更好,RMSE更好)。訓練和測試數據所有的型號都一樣。平均CEN局部檢測器比LNF好75.6%,比SVR高出近200%(以r2計算),這顯示出顯着的改善。雖然這是一個平均水平,但對於某些標記點,觀點和規模,性能改善超過了LNF超過100%。這是17像素雙眼距離尺度的具體情況,因爲CEN能夠基於圖像中更大的標記點鄰域的更大的外觀來建模標記點的位置(圖像中存在更多的上下文)。

我們還評估了ME層的重要性CEN模型。表1顯示了CEN和CEN(無ME層)之間的差異。我們表明,將連接權重的非負約束從最終決策層(基本上刪除了模型的專家混合能力)和再訓練網絡,顯着降低了性能,幾乎達到了SVR的水平。這表明ME層是至關重要的,也許是最重要的CEN模型的重要部分,在移除輸入支持區域時捕獲紋理,照明和外觀變化範圍,防止模型處理這些變化。

在圖3中,我們可以看出CEN的改進不同標記點的LNF局部探測器,如眼睛,嘴脣和臉部側顏。地面真相反應圖是以標記點位置爲中心的正態分佈。來自CEN的輸出響應圖顯示了對標記點的位置的更好的確定性,因爲其響應圖更集中在地面真相位置周圍。雖然LNF輸出沒有顯示這種集中的行爲。因此,我們得出結論,CEN的主要改進來自於準確的局部檢測,直接轉移到標記點檢測任務的改進。

4.2.CE-CLM實驗

在本節中,我們首先描述用於訓練的數據集並評估我們的CE-CLM方法。然後,我們簡要討論用於標記點檢測的可比較的最先進的方法。最後,我們提供圖像和視頻上的面部標記點檢測結果。

4.2.1數據集

我們在四個公開的數據集上評估了我們的CE-CLM:一個數據內評估(300-W)和三個跨數據集評估(Menpo,IJB-FL,300-VW)。我們認爲交叉數據集評估呈現與基線相比,CE-CLM泛化最強的一例。數據集將在下面進行更詳細的描述。

300-W [25,27]是四種不同面部的元數據集標記點數據集:Wild(AFW)[56],iBUG [26]和LFPW + Helen [5,20]數據集中的註釋面。我們使用完整的iBUG數據集和LFPW和HELEN的測試分區。這導致了135,224和330個圖像進行測試。它們都包含在野外的不受控制的臉部圖像:在室內和室外環境中,在不同的照明下,存在遮擋,不同姿勢以及來自不同質量的相機。我們使用LFPW和HELEN測試儀以及iBUG進行模型評估(因爲一些基線使用AFW進行訓練)。

Menpo基準挑戰[44]數據集是非常重要的,用於標記點檢測的綜合多姿態數據集在顯示任意姿勢的圖像中。訓練集由8979張圖像組成,其中2300張圖片標有39個標記點點;其餘圖像標有68個標記點。數據集的圖像主要是具有挑戰性的AFLW [19]數據集的重新註釋的圖像。

IJB-FL [15]是IJB-A [17] - 面部識別基準。它包含180個圖像的標籤(128個正面和52個側顏面)。這是包含非正面姿勢的圖像的挑戰性子集,具有嚴重的遮擋和較差的圖像質量。

300-VW [31]測試集包含64個標記爲68的視頻每個框架的面部標記點。測試視頻分爲三種類型:1)實驗室和自然光線充足的條件; 2)不受約束的條件,如不同的照明,黑暗的房間和曝光過度的照片; 3)完全無約束的條件,包括照明和護照,如手動閉塞。

4.2.2基線

我們將我們的方法與面向標記點檢測任務的一些已建立的基線進行了比較,包括級聯迴歸和基於模型的方法。在所有情況下,我們使用作者提供的實現1,這意味着我們與每個基線的最佳可用版本進行比較,並使用相同的方法。
CFSS [48] 粗到精細形狀搜索是最近的級聯迴歸方法。這是300-W競爭數據的當前最先進的方法[25,8]。該模型訓練了Helen和LFPW訓練集和AFW。
CLNF是約束局部模型的擴展使用連續條件神經領域作爲補丁專家[3]。該模型訓練了LFPW和Helen訓練集以及CMU Multi-PIE [12]。
PO-CR [35] - 是最近的級聯迴歸方法它更新形狀模型參數,而不是直接在投影空間中預測標記點位置。該模型訓練了LFPW和Helen訓練集。
DRMF - 區分響應圖擬合直接對補丁專家響應映射進行迴歸,而不是對參數空間進行優化。我們用由LFPW [5]和Multi-PIE [12]數據集訓練的作者[1]提供的實現。
3DDFA - 3D密集面對齊[49]已經顯示了側顏圖像中面部標記點檢測的最先進的性能。該方法使用300W的合成大面積圖像的擴展的300W-LP數據集[49]。
CFAN - 粗到細自動編碼器網絡[45],對LFPW,HELEN和AFW訓練的自動編碼器視覺特徵進行了級聯迴歸。
TCDCN - 任務約束深卷積網絡 - 工作[47]是面部標記點檢測的另一種深度學習方法,它使用多任務學習來提高標記點檢測性能。
SDM - 受監督的下降方法是非常受歡迎的級聯迴歸方法。我們使用在多PIE和LFW [13]數據集訓練的作者[38]的實現。
對所有上述基線進行了訓練,以檢測無面部側顏(49或51)的標記點,或以面對面(66或68)進行檢測。對於每個比較,我們使用最大的重疊標記點集,因爲所有方法共享49個特徵點的相同子集。爲了評估側顏圖像(存在於IJB-FL和Menpo數據集)中的檢測,我們使用地面真實圖像和檢測圖像中共享標記點的子集。由於Menpo個人側顏面的註釋與68標記點計劃略有不同,我們通過刪除兩個下標標記點並使用線性插值來遵循註釋曲線將4個眉毛標記點轉換爲5;和10個面部側顏標誌到9.這仍然是一個公平的比較,因爲沒有一個方法(包括我們的)在Menpo上受過訓練。

4.2.3實驗設置

我們使用與第4.1節所述相同的CEN多視圖和多尺度本地檢測器。我們的PDM訓練了多PIE和300W訓練數據集,使用運動中的非剛性結構[33]。對於模型擬合,我們使用多尺度方法,每個迭代使用更高級別的CEN。對於每次迭代,我們使用逐漸變小的感興趣區域{25×25,23×23,21×21,21×21}。對於NU-RLMS,我們基於訓練數據上的網格搜索設置σ= 1.85,r = 32,w = 2.5。給定了一個邊框,我們初步建立了七個不同的CE-CLM地標位置方向:正面,±30°偏航和±30°間距,±30°滾動(由於輪廓大,我們增加了Menpo和IJB-FL數據集的四個額外初始值±55°,±90°偏航面)。如果收斂最大後驗得分高於或低於驗證期間確定的閾值,我們可以提前停止和丟棄假設評估。這種早期停止將模型速度平均提高了四倍。在擬合期間,我們不會計算自封閉地標的響應圖,也不要將其用於參數更新。

爲了公平的模式比較,基線和我們的模型已經使用相同的協議進行了初始化。對於300-W數據集,我們使用挑戰組織者提供的邊界框初始化了所有方法。對於Menpo,我們使用多任務卷積神經網絡[46]面部檢測器初始化了方法,該檢測器能夠檢測96%圖像中的面部。我們執行了邊界框的仿射變換,以匹配68個面部地標周圍的邊界框。對於IJB-FL,我們通過在地面真實地標上添加噪聲(基於300-W數據集中的邊界框的噪聲屬性)來生成麪包圍框來初始化方法。對於300VW,我們使用多任務卷積神經網絡[46]面部檢測器檢測每個視頻的每第30幀的臉部。當在框架中沒有檢測到臉部時,我們使用最接近的框架,而成功檢測。我們從檢測到的邊界框執行線性映射,圍繞所有68個地標(如Menpo數據集)所做的一致。每個基線從檢測初始化,並允許使用先前檢測到的地標或使用新的邊界框追蹤30幀。

4.2.4標記點檢測結果

在這樣的工作中常見的是,我們使用每個圖像的 尺寸歸一化誤差的交換誤差曲線 來顯示標記點檢測精度。我們還會報告每個圖像誤差的標準化中值的大小。我們報告中值而不是平均值,因爲誤差不是正態分佈的,平均值非常容易出現異常值。對於僅包含接近正面(300-W和300V)的數據集,我們通過 眼間距離(IOD)來歸一化誤差 ,對於包含其中一個眼睛可能不可見的側顏面的圖像,我們改爲使用平均值面部寬度和高度。
300-W數據集上的標記點檢測結果可以在表2和圖4中可以看出,我們的方法在68和49點情景下都勝過所有基線(除了iBUG數據集49個標記點案例中的PO-CR)。CE-CLM的改進精度在包括面部側顏的68個標誌性案例中尤其明顯。這是一個更困難的設置,因爲臉部側顏的模糊性,並且很多方法(特別是基於級聯迴歸的方法)不能解決。
IJB-FL數據集上的標記點檢測結果可以在表4中可以看出,CE-CLM模型在這個艱鉅的任務上優於所有基線,對於側顏面具有很大的餘地。
Menpo數據集上的標記點檢測結果可以在 表3和圖5 中可以看出,CE-CLM模型也超越了這個艱鉅任務的所有基線。性能改進在側顏面上特別大,SDM,CFAN,DRMF和PO-CR方法完全無法處理。我們還優於最近設計的3DDFA模型,用於大型姿勢面配合。由於這些結果在跨數據集評估中,它們展示了我們的方法如何概括地看到數據的不可見性以及它在挑戰性面孔方面的表現(例如,參見圖7)
視頻上的標記點檢測和跟蹤結果300 VW數據集顯示在圖6中。CE-CLM始終優於所有三個類別中的所有基準,具有第1類最大的改進。最後,我們的方法勝過最近提出的iCCR標記點跟蹤方法,對其跟蹤的特定人物[28]。然而,由於這是一種視頻方式,這與我們的工作和其他基線獨立對待每個視頻幀不是一個公平的比較。請注意,我們的方法在正面和側顏面上表現良好而其他方法對於正面(CFSS,PO-CR)或側顏(3DDFA)表現良好。在不同類別的300 VW中,其他方法的性能也不盡相同,而CE-CLM始終如一地表現出優於其他方法。

  1. 結論

在本文中,我們介紹了卷積專家局部模型(CE-CLM)是CLM系列的新成員,它使用稱爲卷積專家網絡(CEN)的新型局部檢測器。我們提出的局部檢測器能夠通過內部學習檢測器的集合來處理不同的標記點外觀,從而對標記點外觀原型進行建模。這是通過專家層的混合來實現的,該層由決定神經元連接到非負權重到最終決策層。在我們的實驗中,我們表明這是CEN的重要組成部分,其優於以前引入的LNF和SVR的局部檢測器。由於這種更好的性能,CE-CLM能夠比面部標記點檢測的最先進的方法執行更好的準確性(圖4),並且更加堅固,特別是在側顏面的情況下(圖5) 。圖7顯示了在一組有挑戰性的圖像上的CE-CLM,CFSS和CLNF標記點檢測方法之間的可視比較。CE-CLM即使在極端側顏面上也能夠準確對齊標記點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章