L2-constrained Softmax Loss for Discriminative Face Verification

摘要:softmax損失優化出來的特徵不具有較高的類內相似度得分及較低的類間相似度得分。論文增加了特徵描述子的L2約束,使得特徵分佈在具有固定半徑的超球上。

 

大多數現有的使用softmax損失訓練的DCNN方法傾向於在高質量的數據上過擬合,對於困難人臉常分類錯誤。作者通過觀察發現,softmax損失學習到的特徵的L2-norm是人臉圖像質量的反映,高質量的人臉具有較大的L2-norm,模糊或極端姿態的人臉具有較小的L2-norm。論文對特徵的L2-norm加了約束,使得特徵分佈在具有固定半徑的超球上,第一可以讓模型對不同質量的人臉具有相同的關注度,第二可以使得相同id的特徵更近,不同id的特徵較遠。L2-softmax不需要與其他損失聯合訓練,就可以獲得較好的效果,但它又與度量學習如TPE,joint-Bayes等互補。

 

這篇論文與center-loss的不同點:第一是僅使用了一個損失函數,而center-loss與softmax loss聯合訓練;第二center loss引入了C×D個額外的參數,其中C是類別數目,D是特徵維度,而L2-softmax僅引入了一個定義固定L2-norm的參數,第三,center-loss可以與L2-softmax損失聯合使用,得到更好效果。

 

作者做了一個實驗驗證了softmax損失訓練的,高質量具有較大L2-norm的特徵性能最好,如下圖所示。

作者增加了特徵的L2-norm約束,將特徵約束在具有固定半徑的超球上。在超球上最小化softmax損失,等價於最大化正樣本間的餘弦相似度、最小化負樣本間的餘弦相似度,加強了特徵的驗證性能,L2-norm的softmax損失可以更好的對困難人臉建模。

 

方法描述

L2-softmax的形式爲:

還是在MNIST上對比L2-softmax的效果,下圖顯示了分別使用softmax和L2-softmax訓練LeNet的效果,輸出特徵爲2維,可以發現兩種特徵的區別:一是L2-softmax損失學到的特徵類內角度方差變小了,二是softmax損失學到的特徵具有更大的幅值,而特徵norm對L2-softmax損失影響較小。因此可以說L2-softmax學到的特徵拉近了同類特徵,拉遠了不同類特徵。

 

在網絡中,L2約束通過增加一個L2-norm層及一個scale層實現:

這個模塊加入到DCNN的倒數第二層之後,L2-norm層使用下式將特徵x歸一化到單位向量:

y=xx2

給定參數α,scale層將輸入單位向量縮放到固定的半徑,α可以與其他網絡參數同時訓練:

z=α∙y

訓練時,需要將損失的梯度傳過這個模塊,使用鏈式法則計算縮放因子α的梯度,即:

∂l∂yi=∂l∂zi∙α

∂l∂α=j=1D∂l∂ziyj

∂l∂xi=j=1D∂l∂yiyixi

∂yj∂xi=x22-xi2x23=-xixjx23

尺度因子要麼在訓練中固定一個值,要麼讓網絡學習。但是網絡學習到的α比較大,L2-約束較爲寬鬆。更好的方式是將α固定在較小的常量。但另一方面,非常小的α將導致訓練無法收斂,因爲小的α會導致超球的面積太小。論文提出了α的理論低值,假設類別數目C比特徵維度小2倍,這樣分佈在球面上的每兩類中心至少距離90°。假設分類器的權值Wi是指向類別中心的單位向量,正確分類特徵的平均softmax概率爲:

p=ewiTXij=1CewjTXi=eαeα+C-2+e-α

忽略e-α,平均概率變爲:

p=eαeα+C-2

下圖顯示了不同類別數目C,及不同尺度因子α對概率得分的影響,從圖中可以看出,爲了得到p=0.9的概率,大的C需要較大的α。給定p,α的下邊界爲:

αlow=logp(C-2)1-p

 

實驗結果

使用Face-ResNet進行實驗,該網絡包含27個卷積層,2個全連接層,在fc層厚增加L2-norm層及scale層,網絡結構爲:

 

實驗細節

訓練數據MS-Celeb-1M,(1)MS-Small,0.5M圖像,13403個人,(2)MS-Large,3.7M圖像,58207個人。Scale層,可訓練的α學習乘子及衰減乘子爲1,固定的α爲0。在LFW和IJB-A數據集上實驗,人臉裁切並矯正到128×128。

使用MS-small訓練,在LFW上的結果如下圖所示,L2-softmax相比softmax錯誤率下降62%:

在IJB-A數據集上的效果,TAR@FAR=0.0001提升了19%:

 

在MS-Large上訓練發現,理論的α低值不可靠,當訓練集比較大時,可訓練的α更可靠,(這裏計算的α低值爲30,但α=40,50時效果最好):

增加center loss同時監督的效果:

 

在LFW,YTF上與其他方法的對比:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章