【ICCV2019】probabilistic face embeddings 概率人臉嵌入

概率人臉嵌入PFE:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shi_Probabilistic_Face_Embeddings_ICCV_2019_paper.pdf

這篇博文主體爲對PFE的精細翻譯,附帶本人加的一些註釋


摘要

    通過比較隱語義空間的面部特徵,嵌入方法已經在人臉識別領域取得了成功。然而,在完全無約束的人臉設置中,嵌入模型學習到的人臉特徵可能是模棱兩可的,甚至可能不存在於輸入人臉中,從而導致噪聲結果。我們提出了概率人臉嵌入(PFEs),它將每個人臉圖像表示爲隱空間中的高斯分佈。高斯分佈的均值爲最可能的特徵值,而方差表示特徵值的不確定性。然後,利用不確定性信息自然地推導出用於匹配和融合PFE的概率解。通過對不同基準模型、訓練數據集和指標的實驗評測,表明該方法通過將決定性嵌入替換爲概率性嵌入(PFEs)可以提高人臉識別算法的性能。PFEs估計出的不確定性也是隱空間匹配精度的良好指標,對風險控制識別系統具有重要意義。

引言

        當人類被要求描述一個面部圖像時,他們不僅能夠描述面部特徵,而且還能描述出置信度。例如,如果眼睛在圖像中變得模糊,一個人將保持眼睛大小作爲一個不確定的信息,並關注其他特徵。此外,如果圖像完全損壞,並且無法識別任何屬性,則受試者可能會回答他/她無法識別此面部。這種不確定性(或置信度)估計在人類決策中是常見而重要的。

        另一方面,最先進的人臉識別系統中使用的表示通常情況下其置信度也是不可知的。這些方法依賴於一個嵌入模型(例如深層神經網絡)來爲每個隱特徵空間中的人臉圖像提供決定性的點表示[28、36、21、35、4]。隱空間中的一個點表示模型對給定圖像中面部特徵的估計。如果估計誤差是有界的,則兩點之間的距離可以有效地度量對應人臉圖像之間的語義相似度。但是由於低質量的輸入,預期的面部特徵在圖像中是模糊的或不存在的,嵌入點的大偏移是不可避免的,導致錯誤的識別(圖1a)。

        鑑於人臉識別系統已經在相對有限的人臉識別數據集(如LFW[10]和YTF[38])上實現了很高的識別精度,其中大多數面部特徵都可以清晰地觀察到,最近的人臉識別挑戰已經轉移到更無約的場景,包括監視視頻[19,24,13](見圖2)。在這些任務中,任何類型和程度的變化都可能存在於人臉圖像中,其中大部分由所表示的模型所學的面部特徵可能不存在。由於缺乏這些信息,因此不太可能找到始終能夠精確匹配這些面的特徵集。因此,在LFW上獲得99%以上準確率的最先進的人臉識別系統在IARPA Janus數據集上遭受了很大的性能下降[19,24,13]。

        爲了解決上述問題,我們提出了概率人臉嵌入(PFEs),它在每個輸入人臉圖像的隱空間中給出分佈估計,而不是點估計(圖1b)。該分佈的均值可以認爲最可能的隱特徵值,而分佈的跨度表示這些估計的不確定性。PFE可以從兩個方面解決無約束場景下的人臉識別問題:(1)在匹配(人臉比較)過程中,PFE對不確定的特徵(維度)進行懲罰,更注重高置信度的特徵。(2)對於低質量的輸入,PFE估計的置信度可用於拒絕輸入或主動請求人工幫助以避免錯誤識別。此外,還可以得到一個自然解,將一組人臉圖像的PFE表示聚合成一個新的不確定性分佈,以提高識別性能。PFE的實現是開源的。本文的貢獻可歸納如下:

1. 一種不確定性感知的概率人臉嵌入(PFE),它將人臉圖像表示爲分佈而不是點。

2. 一個用PFE方法自然地推導出用於人臉匹配和特徵融合的概率框架。

3. 一種簡單的方法,將現有的確定性嵌入轉換成PFEs,而不需要額外的訓練數據。

4. 綜合實驗表明,該方法能有效地濾除低質量的輸入,提高確定性嵌入的人臉識別性能,增強了人臉識別系統的魯棒性。

 

2. 相關工作

深度神經網絡中的不確定性學習。爲了提高判別式深度神經網絡的魯棒性和可解釋性,深度不確定性學習越來越受到重視[15,5,16]。不確定性主要有兩種類型:模型不確定性和數據不確定性。模型不確定性是在指給定訓練數據下模型參數的不確定性,可以通過收集額外的訓練數據來降低模型參數的不確定性[23、25、15、5]。數據不確定性是指輸出中的不確定性,其主要來源是輸入數據中固有的噪聲,因此不能用更多的訓練數據來消除這些不確定性[16]。本文研究的不確定性爲數據不確定性。儘管已經開發了用於估計不同任務(包括分類和迴歸)中數據不確定性的技術[16],但它們不適合我們的任務,因爲我們的目標空間不是由給定的標籤定義的。變分自編碼器[18] 也可以看作是估計數據不確定性的一種方法,但它主要用於生成目的。具體到人臉識別,一些研究[6,17,47]已經利用模型不確定性來分析和學習人臉表示,但據我們所知,我們的工作是第一個將數據不確定性3用於識別任務的工作。

概率人臉表示。將人臉建模爲概率分佈並不是一個新的想法。在人臉模板/視頻匹配領域中,存在豐富的文獻將人臉在特徵空間上建模成概率分佈[30, 1]、子空間[3]或流形[1, 11]。然而,這種方法的輸入是一組人臉圖像而不是單個人臉圖像,並且它們使用分佈間相似性或距離度量(例如KL散度)進行比較,這不會降低不確定性。同時,一些研究[20,9]試圖利用人臉零件的特徵建立給定人臉的模糊模型。相比之下,提出的PFE將每個人臉圖像表示爲DNN編碼的隱空間中的一個分佈,並且我們使用不確定性感知的對數似然分數來比較這些分佈。

質量感知池化。與上述方法相比,最近關於人臉模板/視頻匹配的工作旨在通過將所有人臉的深層特徵聚合到一個單一的壓縮向量中來利用CNN嵌入的顯著性[43、22、41、7]。在這些方法中,一個獨立的模塊學習預測圖像集中每個人臉的質量,然後爲加權特徵向量池進行規範化。我們證明在我們的框架下可以自然地導出一個解決方案,這不僅給出了質量感知池方法的概率解釋,而且還導致了一個更一般的解決方案,其中圖像集也可以建模爲PFE表示。

 

3. 決定性嵌入的侷限性

在這一部分中,我們將從理論和經驗兩個角度解釋決定性人臉嵌入的問題。設 表示圖像空間, 表示d維的隱特徵空間。理想的隱空間 應該只編碼使身份顯著的特徵,並從與身份無關的特徵中剝離出來。因此,每個身份都應該有一個唯一的內在碼z∈ ,它最能代表這個人,並且每個人臉圖像x∈ 都是從 採樣的觀測值。人臉嵌入的訓練過程可以看作是尋找這種隱空間Z 和學習逆映射的聯合過程。對於決定性嵌入,逆映射是Dirac delta函數 ,其中f是嵌入函數。顯然,對於任何空間 ,考慮到x中存在噪聲的可能性,恢復精確的z是不現實的,並且低質量輸入的嵌入點將不可避免地偏離其固有隱空間對應碼z(無論我們有多少訓練數據)。

問題是,這個偏移必須限定在一個範圍內,這樣類內距離纔不會大於類間距離。然而,這對於完全無約束環境下的人臉識別是不現實的,我們進行了一個實驗來說明這一點。讓我們從一個簡單的例子開始:給定一對相同的圖像,確定性嵌入總是將它們映射到同一點,因此它們之間的距離總是0,即使這些圖像不包含人臉。這意味着“一對圖像相似甚至相同並不一定意味着它們屬於同一個人的概率很高”。

爲了證明這一點,我們進行了一個實驗,通過手動降解高質量圖像並可視化它們的相似性得分。我們從LFW數據集 [10] 中隨機選擇每個主體的高質量圖像,並手動將高斯模糊、遮擋和隨機高斯噪聲插入到面部。特別地,我們線性增加高斯核的大小,遮擋率和噪聲的標準差來控制退化程度。在每個退化水平,我們用64層CNN提取特徵向量,這與最先進的人臉識別系統相當。特徵被規範化爲一個超球面嵌入空間。然後,報告了兩種類型的餘弦相似性:

(1)兩幅原始圖像與其各自的退化圖像之間的相似性

(2)不同身份的退化圖像之間的相似性。

圖3

如圖3所示,對於所有三種類型的退化,真實相似度得分都會減少到0,而冒名頂替者相似度得分會收斂到1.0!這表明在完全無約束的情況下,即使模型非常自信(非常高/低的相似性分數),也可能出現兩種類型的錯誤:

(1)低質量假冒圖像對被錯誤地接收;

(2)真實的混合質量圖像對被錯誤地拒絕;

爲了證實這一點,我們在IJB-A數據集上分別找到得分最高/最低的冒名頂替者/真實圖像對來測試模型。情況和我們假設的完全一樣(見圖4)。我們稱之爲特徵模糊困境,它是在確定性嵌入被強制估計模糊面的特徵時觀察到的。實驗還意味着存在一個暗空間,模糊的輸入人臉將會映射到這個暗空間,距離度量在這裏變得扭曲。

圖4

4. 概率人臉嵌入

爲了解決上述由數據不確定性引起的問題,我們提出將不確定性編碼到人臉表示中,並在匹配過程中加以考慮。具體地說,我們不是建立一個在隱空間中給出點估計的模型,而是估計隱空間中的分佈 來表示一個人臉的隱外觀。特別是,我們使用多元高斯分佈:

                                                                      

(1)

其中  都是由第 個輸入圖像 所預測的D維向量。在這裏,我們只考慮對角協方差矩陣,以減少面部表示的複雜性。此表示應具有以下屬性: 1. 中心 應編碼輸入圖像的最可能的面部特徵。2. 不確定性σ應編碼模型沿每個特徵維的置信度。

此外,我們希望使用單一網絡來預測分佈。考慮到新的訓練人臉嵌入的方法仍在開發中,我們的目標是開發一種方法,可以將現有的確定性面部嵌入網絡以簡單的方式轉換成PFEs。接下來,我們將首先介紹如何比較和融合PFEs表示來展示它們的優點,然後提出學習PFE的方法。

4.1 用PFE匹配

給定一對輸入圖像 的PFE表示,我們可以衡量它們屬於同一個人的“可能性”(因爲它們共享一個隱空間對應碼)。描述如下: ,這裏的 。特別地,

                        

 

(2)

我們可以用對數似然來代替,則可以轉化爲:

這裏的 指第l個維度下的 ,同理 也是。

注意,這種對稱性度量可以看作一種數學期望,即在一個獲得一個輸入隱空間碼z的條件下,另一個輸入隱空間碼也是z的可能性期望:

 

                                                                                   

(4)

 

我們把這個稱爲互相似然得分(MLS)。不同於KL散度,這個指標是無界的,並且不能看作爲距離度量。即當σ=0 的時候,平方歐式距離可以看作特殊情況下的MLS。

特性1:如果將 固定不變,則MLS可以看作一種特殊的平方歐式距離。

此外,當允許不確定性不同時,我們注意到MLS具有一些有趣的特性,使得它不同於距離度量:

1. 注意機制:方程(3)中括號中的第一項可視爲一個加權距離,它將較大的權重分配給較小的不確定維度。

2. 懲罰機制:方程式(3)中括號中的第二項可被視爲懲罰具有高不確定性維度的懲罰項。

3. 如果輸入 都有很大的不確定性,MLS將變低(因爲懲罰),而不管它們的平均值之間的距離。

4. 只有當兩個輸入都有很小的不確定性,並且它們的均值彼此接近時,MLS纔可能非常高。

最後兩個性質表明,如果網絡能夠有效地估計 ,PFE可以解決特徵模糊問題。

4.2 用PFE融合

在許多情況下,我們有一個模板(集)的人臉圖像,爲此我們需要建立一個緊湊的隱空間表示來進行匹配。使用PFEs,可以推導出隱空間表示的融合公式(圖5)。

使 爲來自同一個人的多個觀測(即臉部圖像), 爲第n次觀察後的後驗概率分佈。然後,假設所有觀測值都是條件獨立的(給定隱空間碼爲 )。可以看出:

                                          

 

 

(5)

其中α是標準化因子。爲了簡化表達,我們在接下來的推導中只考慮一維的情況;不過可以很容易地擴展到多維的情況。

如果假設p(z)是非信息先驗,即p(z) 是方差接近∞的高斯分佈,則方程(5)中的後驗分佈是具有較低不確定性的新高斯分佈(見A節)。此外,給定一組人臉圖像 ,融合表示的參數可以直接由下式給出:

                                                                          

 

(6)

                                                                             

 

(7)

在實踐中,由於條件獨立性假設通常不成立,例如視頻幀包含大量冗餘,等式(7)將被集合中的圖像數量所偏移。因此,我們取維數最小值來獲得新的不確定性。

與質量感知池化的關係。如果我們考慮這麼一種情況:所有的維度都共享相同的方差 ,我們使質量值 成爲網絡的輸出。則公式(6)可以被改寫爲:

                                                                                       

 

(8)

如果我們融合後不用不確定性模塊的輸出,這個算法就和近年來質量感知相關的方法[43,22,41]一樣了。(Note: σi爲常數時,融合後的PFE就與Quality-aware一樣了)

4.3 PFE的學習

注意,任何確定性嵌入函數f,如果適當優化,確實可以滿足PFEs的性質:(1)嵌入空間是一個分離的身份性顯著的潛空間,(2) 表示潛空間中給定輸入的最可能特徵。因此,在本文中,我們考慮了一種階段性的訓練策略:給定一個預先訓練好的嵌入模型f,我們固定它的參數,取 ,並優化一個附加的不確定性模塊來估計σ(x) 。當不確定性模塊在嵌入模型的同一數據集上進行訓練時,這種階段性的訓練策略比端到端的學習策略能更公平地比較PFE和原始嵌入 。(Note: 先預訓練μ(x) ,固定μ(x) 再訓練σ(x) )

不確定性模塊是一個具有2個全連接層的網絡,它們共享與瓶頸層相同的輸入。優化準則是最大化所有正例圖像對  的相互似然得分(MLS)。形式上,要最小化的損失函數是:

                                                                      

其中p是所有正例圖像對的集合,s在等式(3)中定義。在實際應用中,每小批都對損失函數進行了優化。直觀地說,這種損失函數可以理解爲最大化 的方法:如果所有可能的正例圖像對的隱空間分佈具有大的重疊,則隱空間目標 對於任何對應的x 都應該有一個大的可能性 。注意到由於μ(x) 是固定的,優化不會導致所有的 崩塌到一個點。

5. 實驗

在本節中,我們首先在標準人臉識別協議上測試所提出的PFE方法,以與確定性嵌入進行比較。然後我們進行定性分析,進一步瞭解PFE的行爲。由於篇幅有限,我們在補充材料中提供了實施細節。爲了全面評價PFEs的功效,我們在7個基準數據集上進行了實驗,包括衆所周知的LFW [10] 、YTF [38] 、MegaFace [14] 和其他4個無約束環境的基準數據集:

CFP [29] 包含500名受試者的7000張正面/側面照片。我們只測試了正臉部分的數據,它包括7000對正臉。

IJB-A [19] 是一個基於模板的基準數據集,包含25813張500人的人臉圖像。每個模板包括一組靜態照片或視頻幀。與以前的基準相比,IJB-A中的面具有更大的變化,並且呈現出更無約束的場景。

IJB-C [23] 是IJB-A的一個擴展,包含140740張3531名受試者的面部圖像。IJB-C的驗證協議包含更多的假冒圖像對,因此我們可以在較低的錯誤接受率(FAR)下計算真接受率(TAR)。(Note: 先定FAR,在不超過FAR的基礎上計算模型的TAR)

IJB-S [12] 是一個監控視頻基準,包含350個監控視頻,總共30小時,5656個註冊圖像,202個受試者的202個註冊視頻。這個數據集中的許多人臉都是極端姿勢或低質量的,這使得它成爲最具挑戰性的人臉識別開源數據集之一(如圖2所示)。

我們用CASIA-WebFace[44]和MS-Celeb-1M [8]作爲訓練集(我們將MS-Celeb-1M訓練集中和測試集主體相同的部分去除了)。

表1 在CASIA-WebFace上訓練的結果

“Original”表示決定性嵌入的結果。粗體字表示比較中更好的結果。“PFE”採用互相似然分數(MLS)來進行匹配。在IJB-A上預定的錯誤接受率爲0.1%。

表2 在MS-Celeb-1M上訓練的結果

5.1 在不同基礎嵌入方法上的實驗

由於我們的方法通過轉換現有的決定性嵌入,我們要評估它如何工作於不同的基礎嵌入方法,即用不同的損失函數訓練人臉表示。具體來說,我們實現了以下最新的損耗函數:Softmax + Center Loss [36]、Triplet Loss[28]、A-Softmax[21]和AM-Softmax[34]。爲了與前面的工作[21, 35] 保持一致,我們訓練了一個64層的殘差網絡 [21] ,其中每個網絡的損失函數都是以CASIA-WebFace數據集爲基本模型。所有的特徵都l2歸一化爲一個超球面嵌入空間。然後在CASIA-WebFace上對每個基本模型的不確定性模塊進行3000步的訓練。我們評估了四個基準:LFW[10]、YTF[38]、CFP-FP[28]和IJB-A[18]的性能,這四個基準在人臉識別方面提出了不同的挑戰。結果見表1。在所有情況下,PFE都比原來的表示方法有所改進,這表明所提出的方法在不同的嵌入和測試場景下都是健壯的。

5.2 與最先進的人臉識別方法比對

爲了與最先進的人臉識別方法進行比較,我們採用了不同的基礎模型,這是一個用AM-Softmax作爲損失函數訓練在MS-Celeb-1M上訓練的網絡。然後,我們固定模型的參數並且在同樣的數據集上單獨訓練不確定性模塊12000 步。在下面的實驗中,我們主要比較3個方法:

基準線。僅使用64層確定性嵌入的原始特徵以及餘弦相似性進行匹配。對於模板/視頻基準,使用平均池化。

使用PFE和方程(6)中的不確定性估計σ來聚合模板的特徵,但使用餘弦相似性進行匹配。如果不確定性模塊能夠有效地估計特徵的不確定性,那麼通過給置信度較高的特徵賦予更大的權重,融合不確定性模塊應該能夠優於平均池化的效果。

使用σ 進行融合和匹配(具有相互似然得分)。模板/視頻基於等式(6)和等式(7)進行融合。

在表2中,我們展示了三個相對簡單的基準數據集:LFW、YTF和MegaFace的結果。雖然LFW和YTF的精度已接近飽和,但所提出的PFE仍然提高了原始表示的性能。注意,MegaFace是一個有偏差的數據集:因爲所有的高質量圖像都是來自FaceScrub的,所以MegaFace中的正對都是高質量圖像,而負對最多隻包含一個低質量圖像10。因此,由特徵模糊困境(第3節)引起的兩種類型的錯誤都不會出現在MegaFace中,它自然傾向於決定性嵌入。然而,在這種情況下,PFE仍然保持性能。

在表3和表4中,我們展示了三個更具挑戰性的數據集:CFP、IJB-A和IJB-C的結果。這些數據集中的圖像在姿勢、遮擋等方面表現出更大的變化,面部特徵可能更加模糊。因此,我們可以看到,PFE在這三個基準上實現了更顯著的改進。特別是對於FAR=0.001%的IJB-C,PFE將錯誤率降低了64%。此外,簡單地將原始特徵與學習不確定性(PFEfuse )融合也有助於提高性能。

在表5中,我們報告了最新基準IJB-S的三個協議的結果。同樣,PFE能夠在大多數情況下提高性能。請注意,“監視到靜止”和“監視到預定”中的圖庫模板都包括高質量的正面照片,這些照片幾乎沒有什麼特徵模糊。因此,在這兩個協議中,我們只能看到一點性能差距。但是在最具挑戰性的“監視到監視”協議中,使用不確定性進行匹配可以獲得更大的改進。此外,PFEfuse+match 在所有開放集協議上都顯著提高了性能,這表明MLS對絕對成對得分的影響大於相對排名。

5.3 定性分析

爲什麼和什麼時候PFE可以提高性能?我們首先使用PFE表示和MLS在第3節重複相同的實驗。這裏使用同一個網絡作爲基本模型。如圖6所示,儘管低質量的假冒者對的分數仍在增加,但它們的收斂點低於大多數真實分數。同樣,交叉質量正例圖像對的得分收斂到一個高於大多數假冒者得分的點。這意味着第3節中討論的兩類錯誤可以通過PFE解決。圖7中的IJB-A結果進一步證實了這一點。圖8顯示了估計不確定度在LFW、IJB-A和IJB-S上的分佈。可以看到,不確定度的“方差”按以下順序增加:LFW<IJB-A<IJB-S。與第5.2節中的性能相比,PFE傾向於在圖像質量更多樣化的數據集上實現更大的性能改進。(Note: 在圖像質量層次不齊的數據集上PFE表現更佳)

DNN看到什麼而沒有看到什麼?爲了回答這個問題,我們在原始嵌入的基礎上訓練解碼器網絡,然後通過從給定x的估計分佈pzx 中採樣z將其應用於PFE。對於高質量圖像(圖9第1行),重建的圖像往往非常一致,沒有太大的變化,這意味着模型對圖像中的面部特徵是非常確定的。相反,對於較低質量的輸入(圖9第2行),可以從重建圖像中觀察到較大的變化。特別是,可以從圖像中清晰地識別的屬性(例如粗眉毛)仍然是一致的,而不能識別的屬性(例如眼睛形狀)具有較大的變化。對於錯誤檢測的圖像(圖9第3行),在重建圖像中可以觀察到顯著的變化:模型在給定圖像中看不到任何顯著特徵。(Note:  用可視化解釋PFE學到了什麼)

6. 風險控制的人臉識別

在許多情況下,我們可能期望比系統能夠達到的性能更高,或者我們可能希望在面對複雜的應用程序情況時,能夠控制系統的性能。因此,如果模型不自信,我們會期望它拒絕輸入圖像。一個常見的解決方案是用質量評估工具過濾圖像。我們證明PFE爲這個任務提供了一個自然的解決方案。我們從LFW和IJB-A數據集中獲取所有圖像,用於圖像級人臉驗證(我們不遵循原始協議)。系統可以“過濾”掉所有圖像的一部分,以保持更好的性能。然後,我們報告TAR@FAR=0.001%與“過濾率”之比。我們考慮了兩個過濾準則:(1)MTCNN的檢測分數[37]和(2)由我們的不確定性模塊預測的置信值。這裏第i 個樣本的置信度定義爲σi 在所有維度上的調和平均值的倒數。爲了公平起見,這兩種方法都使用原始的確定性嵌入表示和餘弦相似性進行匹配。爲了避免飽和的結果,我們使用在CASIA網頁上訓練的模型和AM-Softmax。結果如圖11所示。可以看出,預測的置信值是反映輸入圖像潛在識別精度的較好指標。這是一個預期的結果,因爲PFE是在特定模型的監督下訓練的,而外部質量估計器不知道模型用於匹配的特徵類型。具有高/低置信度/質量分數的示例圖像如圖10所示。(Note: 不確定性模塊可以當作圖像質量評估的自然解決方案)

7. 結論

我們提出了概率人臉嵌入(PFE),一種將人臉圖像在隱空間中以分佈形式來表達的方法。概率解可以由比較和聚合PFE得出。與決定性嵌入不同的是,在無約束人臉識別中,PFE並不受特徵模糊的影響。不同設定下各種定量和定性的研究都表明:如果把決定性嵌入改爲概率性嵌入,PFE能夠有效提高人臉識別表現性能。我們同樣也證明了PFE中不確定性模塊的輸出也是一個很好的圖像質量判別的指標。在未來的工作裏,我們還會進一步探索如何用端到端的方式學習PFE,以及如何去解釋人臉模板中的數據依賴性。(Note: 兩個好處,1. 提高FR性能;2. 提供圖像質量判斷的指標)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章