人臉識別-論文閱讀(8) : Attribute-Enhanced Face Recognition with Neural Tensor Fusion Networks

論文鏈接

動機

在很多困難場景下, 如大姿態, 基於深度學習的人臉識別性能會下降很多. 但我們觀察到,在這些困難場景下, 如大姿態, 人臉的屬性信息(facial attribute)如性別, 人種, 髮色, 眉毛形狀等是保持不變的. 很自然地,深度人臉識別的特徵(FRF)和屬性識別的特徵(FAF)具備互補性. 融合這兩種特徵可以提高人臉識別率. 我們嘗試了現有的融合策略,表現令人難以滿意. 我們提出一種基於張量(tensor)的特徵融合方式來融合FRF和FAF.
在這裏插入圖片描述
儘管每個維度的相似性得分各不相同,但是總的得分FRF、FAF保持相似,融合後更加相似。

貢獻

  1. 這是第一項系統地調查和驗證面部屬性是各種重要線索的工作人臉識別方案。特別是,我們研究了極端姿勢變化的人臉識別,即±90°
  2. 提出一種基於張量的融合框架,使用TUCKER張量分解的方式降低待優化的tensor的維度;
  3. 實驗結果表明融合功能比單個功能更好,從而證明面部屬性第一次有助於面部識別。
    測試的數據庫:MultiPIE(交叉姿勢,照明和表達)、CASIA NIR-VIS2.0(跨模態環境)和LFW(不受控制的環境)。

方法

兩個特徵用tensor連接可以用於特徵融合,融合的效果取決於tensor參數優化的效果,但tensor的維度很高, 難以優化, 我們使用TUCKER張量分解的方式降低待優化的tensor的維度,即使這樣優化仍然面臨着求導及正則化設計的困難。我們發現這個tensor優化問題可以與一個two-stream gated的神經網絡進行等價。發現這個等價後, 我們可以:

  1. 使用現有深度學習的優化工具進行優化, 如tensorflow, 而不需要手動設計複雜的tensor的優化。由於在tensorflow優化時可以用mini-batch, 這樣我們的優化天然就是scalable的 ;
  2. 融合部分可以與特徵學習的神經網絡進行端到端的學習,這篇論文提供的一個insight是,將tensor和深度學習進行等價。 這樣tensor領域的知識可以用來理解神經網絡, 反之亦然。

相關工作

人臉表示的兩種類型:手工特徵和深度學習特徵。
手工特徵有LBP和Gabor濾波器等,對於不同的身份表現不同,對於個人內部變化的表示相對不變,但是手工特徵在不受控的環境中表現不好。
一種方法是使用相當高維的特徵(對特徵進行密集採樣),另一種方法是使用更好的度量學習方法(各種score函數)去增強特徵表達。

1)使用面部屬性的人臉識別

定義65個面部屬性並提出二元屬性分類器SVM預測他們的存在與否

訓練數據使用精心設計的面部patch

融合以上輸出的分類器分數(即屬性向量)可用於人臉識別

2)特徵融合方法

簡單的融合方法可以分爲特徵級(早期融合)和分數級(後期融合)。分數級融合是融合相似性基於每個屬性的計算得分,通過簡單平均或堆疊另一個分類器。

子空間學習方法。首先連接特徵,然後將連接的特徵映射到子空間。

  • 有監督。Linear Discriminant Analysis (LDA) 和 Locality Preserving Projections (LPP)
  • 無監督。Canonical Correlational Analysis(CCA)和 Bilinear Models(BLM)

融合屬性和識別功能(方法細節)

1)單一特徵

我們從標準的多分類問題開始,假設我們有M個樣本、C個身份類別,分別提取D維 FRF 特徵 x(i)
在這裏插入圖片描述 Eq.(1)

2)多重特徵

假設我們除了D維FRF特徵還有B維FAR特徵 z(i)
在這裏插入圖片描述 Eq.(2)
×表示點乘,下標標識W在哪個軸上運算,W的size是D × C × B。

3)優化

在這裏插入圖片描述 Eq.(3)

Tucker 分解:爲了減少參數數量,我們設定了一個約束S。
在這裏插入圖片描述 Eq.(4)
在這裏插入圖片描述
在這裏插入圖片描述
建模的靈活性在於我們有三個與軸對應的超參數KD、KC、KB。

靈感來自一個出名的分解CP對張量的所有軸都有一個超參數K

在這裏插入圖片描述
解釋:
在這裏插入圖片描述是要學的參數,在這裏插入圖片描述是特徵,經過Eq.(7)的變換,得到fused feature是KC維。

Kronecker product 克羅內克積 :參考博客
如果A是一個 m × n 的矩陣,而B是一個 p × q 的矩陣,克羅內克積A /otimes B則是一個 mp × nq 的分塊矩陣
在這裏插入圖片描述
滿足乘法交換律和結合律,並且置換等價,即在這裏插入圖片描述 =在這裏插入圖片描述

4)門控雙流神經網絡(GTNN)

在這裏插入圖片描述

5)網絡結構

  • LeanFace:用於face recognition
    在這裏插入圖片描述

加Pooling和FC一共23層;
使用多任務損失:softmax loss和center loss聯合訓練;
激活函數是:maxout
在這裏插入圖片描述
假設網絡第i層有2個神經元x1、x2,第i+1層的神經元個數爲1個.原本只有一層參數,將ReLU或sigmoid等激活函數替換掉,引入Maxout,將變成兩層參數,參數個數增爲k倍。

優點:

  • Maxout的擬合能力非常強,幾乎可以擬合任意的凸函數。

  • Maxout具有ReLU的所有優點,線性、不飽和性。

  • 同時沒有ReLU的一些缺點。如:神經元的死亡。

  • AttNet:用於屬性檢測
    激活函數用的是Maxout
    損失用的是 hingeloss 在這裏插入圖片描述

在[24]中,定義了40個面部屬性的本體。 我們刪除不是普遍存在的屬性,例如’戴眼鏡’和’微笑’,總共留下17個屬性。
一旦訓練了每個網絡,從LeanFace(256D)和AttNet(256D)層提取的特徵被提取爲x和z,並輸入到GTNN用於融合然後進行人臉識別
在這裏插入圖片描述

6)討論

  • 非線性:跟之前討論過的基於平均、連接、子空間等方法不同的是,我們的方法是非線性的,對於複雜建模很有用;
  • 高階:考慮到了每對特徵之間的所有交互;

實驗

1)Multi-PIE數據集,包含4個不同會議、337個人的 750,000張不同圖像,姿勢,光照和表情變化豐富。在MPIE庫上, 其中對大姿態(偏轉超過45°)的提高最顯著。
在這裏插入圖片描述

在這裏插入圖片描述

2)在近紅外-可見光庫(CASIA NIR-VIS 2.0)上取得了目前最高的99.94%的識別率.NIR(近紅外圖片)和VIS(可見光圖片)來自不同的domain,通常大家認爲應該使用domain adaptatino技術來NIR-VIS識別. 但我們的訓練集全部來自VIS, 這說明只要訓練集足夠大(我們用了7M可見光圖片),domain shift可以自然被解決, 因爲大的VIS訓練集能抓住足夠多的細節, 這些細節NIR和VIS是共享的.

解釋 領域自適應domain adaptatino
遷移學習中的一種代表性方法,指的是利用信息豐富的源域樣本來提升目標域模型的性能。
領域自適應問題中兩個至關重要的概念:源域(source domain)表示與測試樣本不同的領域,但是有豐富的監督信息;目標域(target domain)表示測試樣本所在的領域,無標籤或者只有少量標籤。源域和目標域往往屬於同一類任務,但是分佈不同。
研究者提出了三種不同的領域自適應方法:1)樣本自適應,對源域樣本進行加權重採樣,從而逼近目標域的分佈。2)特徵層面自適應,將源域和目標域投影到公共特徵子空間。3)模型層面自適應,對源域誤差函數進行修改,考慮目標域的誤差。

在這裏插入圖片描述

3)在LFW上我們取得了99.65%的識別率, 超過了google的facenet (99.63%)
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章