人臉表情系列——人臉表情識別(Facial Expression Recognization/FER)

最近看了幾篇關於表情識別的論文,稍微記錄一下。

綜述推薦一篇CVPR2019的:Deep Facial Expression Recognition: A Survey

基於深度學習的表情識別流程爲:人臉識別+表情分類

目前存在的問題:1. 相比於目標檢測,人臉識別等任務數據不足,容易過擬合;2. 受光照等外界條件影響大;3. 類內差大(不同個體的臉部特徵和表情不同,也就是論文經常提到的identity information會帶來影響;另一方面姿態不同加強了識別難度,一個個體的不同pose信息過少,數據集中基本只有正面圖像);4. 相比於人臉識別,表情更加抽象細微。

目前針對這些難點有幾篇不錯的比較新的論文:

1. Joint Pose and Expression Modeling for Facial Expression Recognition

主體是利用CGAN生成多姿態和表情的人臉圖像,實現數據增強以提高表情識別正確率。CGAN的結構比較特殊,生成器爲一個autoencoder,編碼部分得到輸入圖像的identity representation,pose和expression作爲條件在編碼和解碼中間加入,解碼部分基於三者concatenate的code生成指定pose和expression的人臉圖像。判別器有兩個,一個用於判別編碼得到的identity representation,使其更加平滑;另一個判別解碼生成的人臉圖像,使其和輸入圖像更加一致。同時表情分類器也對生成圖像進行表情識別,得到的loss也參與GAN的更新。

2. Facial Expression Recognition by De-expression Residue Learning

也是以GAN爲主體的網絡結構,生成器也是一個autoencoder,輸入人臉圖像,生成該人臉的natural expression圖像,認爲在這個過程中實現瞭解耦和:neutral component和expression component。因爲最終生成了natural expression,認爲生成器後半部分使用的是neutral component,前半部分則是把expression component逐漸過濾,因此生成器前半部分和後半部分圖像大小對應的feature maps的差就是expression component,這個理論用於一個殘差網絡,學習的就是兩者之差即表情。

3. Photorealistic Facial Expression Synthesis by the Conditional Difference Adversarial Autoencoder 

和上面的殘差法有類似的地方,從標題的difference即可看出,也是基於autoencoder的結構,輸入一張表情圖像先進行encode,在latent space中與target expression的label進行concatenate,再進行decode生成該表情下的圖像。中間有加入short connection,該連接將整個autoencoder劃分爲三部分,中間一部分由於靠近latent space,具有更高級的特徵,表示表情信息,是從輸入圖像表情到輸出圖像表情的轉換過程,因此該部分的輸入輸出表示的就是兩個表情的difference;而第一部分和第三部分更靠近image level,只具備低級特徵,表示的是identity information。short connection保證了identity information的不變性,相當於殘差結構中的旁支,殘差則是剛纔所說的第二部分表示的difference。

以上只是簡單介紹,如果後續使用其中的理論再仔細學習吧。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章