【CVPR2018】MobileFaceNets Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices

【CVPR2018】MobileFaceNets Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices

  • 作者

  • 摘要

本文提出一類高效CNN模型MobileFaceNets,參數量小於100w,識別適合手機和嵌入式設備,進行實時準確的人臉驗證。首先簡單分析通用mobile網絡對人人臉驗證的缺陷,並且MobileFaceNets能夠克服該缺陷。同樣實驗條件下,MobileFaceNets獲得優秀性能,速度爲MobileNetV2的兩倍。用ArcFace loss在refined MS-Celeb-1M訓練後,單個4M的 MobileFaceNet在LFW上99.55%,比肩sota百兆CNN模型。最快的MobileFaceNet模型在手機上推理時間爲18ms。

 

  • 介紹

人臉驗證有重要應用價值,現有大的CNN模型不適用於手機,通用mobile模型又不適用於人臉驗證。本文貢獻:

  1. 在人臉特徵embedding的最後一個CNN層(非全局),使用一個全局的depthwise卷積層,替代全局平均持化層,或者全連接層,輸出特徵向量;
  2. 設計一類人臉特徵embedding CNNs,命名爲MobileFaceNets;
  3. 性能獲取SOTA;

 

  • 方法詳情

我們使用ArcFace loss訓練所有人臉驗證模型,在公開數據集上獲得實驗結果。

  1. 通用Mobile網絡缺陷

在MobileNetV1、ShuffleNet、MobileNetV2等通用小網絡,都用到全局平均池化層。對於人臉識別和驗證,有實驗表明該層造成準確率更低。但沒有理論推理驗證,再次我們根據感受野進行簡單分析。

一個標準的人臉驗證流程包括:人臉圖像預處理、訓模型提特徵、計算兩幅人臉的特徵距離。我們使用MTCNN(Zhang, K., Zhang, Z., Li, Z., Qiao, Y.: Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks. IEEE Signal Proc. Let., 23(10):1499–1503, 2016. )檢測人臉,然後對齊人臉,然後resize到112*112,RGB圖像歸一化(逐像素減127.6,在除以128),如下圖。

除去loss,我們使用MobileNetV2作爲人臉embedding CNN,爲了保持原始的224*224輸入,第一個卷積層的stride從1變2,定義最後一個卷積層的7*7輸出爲FMap-end。理論上FMap-end的中心單元和角落單元的感受野相同,但他們在輸入圖像的不同位置。[24]提出感受野中心的像素對輸出影響更大,影響符合高斯分佈,因此有效的感受野實際上更小。當輸入圖像已經對齊,角落單元攜帶更少的信息。因此不同單元對於特徵向量的重要性不同。

MobileNetV2的FMap-end是62720,維度太高,然後使用全局平均池化層降維生成特徵向量。Table2顯示性能降低。因爲他對每個單元都相同對待。

用全連接層替換全局平均池化層,會增加大量參數。即使特徵向量爲128維,全連接層會帶來8million參數。

 

  1. Global Depthwise Convolution

爲了區別對待FMap-end的不同單元,我們提出全局深度卷積層GDConv,kernel size與輸入相同,pad爲0,stride爲1。

F是輸入特徵圖W*H*M,K是深度卷積核W*H*M,G是輸出1*1*M,G的第m個通道只有一個元素。計算複雜度W*H*M。MobileNetV2用GDConv將7*7*1280轉爲1280維,需要62720個參數。實驗表明性能有提升。

  1. MobileFaceNet Architectures

    我們用了MobileNetV2的residual bottlenecks,具體結構如下表。Expansion factors比MobileNetV2小得多。使用PReLU,有輕微優勢。此外,在網絡開頭使用快速降採樣,在最後幾個卷積層使用一個較早的降維策略,一個線性1*1卷積層接在一個線性GDconv後。訓練使用BN。

MobileNetV2如下圖

我們進一步縮小輸入到96*96,並移除最後一個1*1卷積層,當做MobileFaceNet-M。再移除GDConv前的1*1卷積層,當做MobileFaceNet-S。

 

  • 實驗結果
  1. 訓練設置和準確率

weight decay爲4e-5,SGD,momentum爲0.9,batchsize爲512,學習率從0.1開始,分別在3.6w、5.2w、5.8w降10倍。6w訓完。

  1. MegaFace挑戰1 的評價

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章