2018 CVPR表情識別論文 A Compact Deep Learning Model for Robust Facial Expression Recognition 個人理解

該論文主要貢獻:

  1. 在準確度和模型大小之間平衡出一個精簡的FER模型,爲嵌入式設備提供了性價比較好的模型參考方案
  2. 在兩個標準數據集上驗證提出的方法是優於當前最好的方法
  3. 收集了三個不同場景的數據集用於驗證模型在多場景的性能
  4. 提出了一種光照增強策略,能夠減輕在結合不同數據集的數據上訓練的過擬合問題

    傳統的FER方法採用手工特徵如LBP、BoW、HoG、SIFT,也在一些數據集上取得了不錯的效果。基於序列的方法是通過從視頻中手工提取的特徵來對錶情變化進行建模。由於在真實環境中,光照和姿勢是多種多樣的,這爲傳統方法帶來了挑戰。本文使用一個較爲合適的CNN架構來解決這一問題。

1.模型框架:

         首先通過IntraFace檢測出的人臉關鍵點進行裁剪,然後將其resize成120x120,最後將其96x96的中心區域作爲卷積網絡的輸入進行預測。

2.網絡結構:

                                      該網絡使用較大的5x5的卷積核,且深度較淺,其中的PReLU爲ReLU激活函數。

3.處理動態序列表情的流程

     對於一個T幀的視頻流,將每一幀圖像送進網絡,得到T個預測概率序列,然後用GRU(Gated Recurrent Units)訓練模型S(x).該論文將GRU鏈接在預測概率之後,並接了一個softmax層。結構如下圖:

4.模型表現效果:

   

     可以看出改模型在上述兩個數據集上有着較高的表現,且模型參數也遠低於最好的Peak-Piloted,接着作者又進行了縮減參數後的tiny版本進行實驗。tiny版本參數量縮減到低於一半,其性能有着不是特別大的降低。

5.光照增強方案:

    該論文采用的方案爲直方圖均衡和線性映射相結合的方法。即在數據擴增時採用直方圖均衡、線性映射和兩者相結合的方法(見下圖的公式,論文中lamda的值設置爲0.5)。論文中使用該數據擴增方法在RAF數據集上的測試結果能夠達到0.67,DLP-CNN可以達到0.74,但是論文方法的參數量比其少87.45%。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章