ACM MM2020 | 一個卡通人臉識別的基準數據集

導讀
通過人臉識別技術對視頻中的人物信息進行結構化分析,目前已在愛奇藝公司的多個產品中應用,例如“奇觀”、“只看他”等,給用戶帶來了良好的交互體驗。爲了推動了人臉識別技術的快速發展,愛奇藝在2018年2019年相繼舉辦了多模態人物識別競賽。
與此同時,學術界、工業界對卡通人物識別領域的研究較少,爲了促進相關研究和帶來良好的用戶體驗,本文提出了iCartoonFace卡通識別數據集和對相關算法進行了研究,併成功落地到愛奇藝“奇觀”、“逗芽”等產品中。

摘要

本文提出了一個卡通人臉識別的基準數據集iCartoonFace,並設計了卡通和真人多任務域自適應策略來提高卡通人臉識別的性能。

論文鏈接:https://arxiv.org/pdf/1907.13394.pdf

背景

近年來,伴隨着卡通產業的迅猛發展,卡通視頻呈現出爆炸性增長。而實現對這些卡通視頻智能理解的第一步就是需要識別出這些視頻裏面的卡通人物身份信息。同時伴隨着人臉識別技術的發展,人物識別精度大幅提升,在Labeled Faces in the Wild(LFW)等圖片數據集上,人臉識別精度甚至超過了人類的識別能力。然而,對卡通人物身份的識別,卻鮮有研究,相關的數據集也比較少,如下表1。對於深度學習來說,這些已有的卡通識別數據集存在着數據量較小、噪聲比例較大的問題。因此構建一個大規模、高質量的卡通識別數據集,並對卡通人物身份信息進行識別,則至關重要。

表1 卡通人物識別相關數據集對比

iCartoonFace數據集

1) 數據集構建

爲了減輕標註人工的工作量,我們設計了一種半自動數據集構建框架來得到iCartoonFace數據集,如下圖1。我們的框架可以分爲以下三個階段:

  • 分層數據收集;從卡通專輯到卡通人物名稱,再到卡通人物圖片依次獲取;
  • 數據過濾過程:利用卡通人臉檢測、特徵提取器、特徵聚類等進行噪聲數據過濾,其中特徵提取器隨着標註數據的增多而性能不斷增強;
  • Q/A問答:標註人員根據特徵聚類的結果,回答兩張圖片是否是同一個人物。

圖1 半自動數據集構建框架

2)數據集統計信息

iCartoonFace識別數據集是一個大規模、高質量的卡通人物身份識別數據集,如圖2。iCartoonFace識別數據集的統計特性如下:

  • 大規模:iCartoonFace識別數據集包含5013個卡通人物、389,678張圖片,來源於1,302卡通專輯,是已知目前最大的手工標註卡通人物身份識別數據集;
  • 高質量:數據集手工標註完成之後,我們採用交叉驗證的方式保證數據集標註錯誤率在5%以內。所有圖片的分辨率高於100x100,超過65%的圖片分辨率高於200x200;
  • 多樣性和挑戰性:從圖3可以看到,不同的卡通人物具有非常相近的外形特徵,同一個的卡通人物由於的表情、遮擋、角度等影響導致外形具有非常大的差異性。

圖2 iCartoonFace識別數據集統計信息

3)數據集挑戰性

給定一張Probe集中的照片和至少包含一張相同卡通人物身份圖片的Gallery集,算法需要根據與給定圖片中卡通人物身份相似度對Gallery集中所有圖片進行排序。具體來說,Probe集中包含N個卡通人物、每個卡通人物有M張照片。對於每個卡通人物的M張照片,每次選取一張圖片作爲probe照片,然後把剩餘的M-1張,再單獨每一張和distractors一起組成Gallery集,然後進行比對,然後計算rank1精度。經過NM(M-1)次比對後,得到的平均rank1精度作爲本次任務的評價指標。

在iCartoonFace卡通識別數據集中,有四類代表性的挑戰,如圖3所示:

a. 類間相似度高: 來自不同人物ID的兩張圖片外觀看起來非常相似;

b. 視角變化: 同一個人物有不同角度的圖片;

c. 遮擋問題: 人物面部會受到場景中其他對象的遮擋;

d. 光線變化: 所有的這些識別問題中遇到的問題,都需要我們的識別算法具有足夠的魯棒性。

圖3 iCartoonFace卡通識別數據集代表性的挑戰

我們的方法

我們提出了卡通和真人多人物訓練框架如下圖4所示,主要分爲分類損失函數、未知身份拒絕損失函數和域遷移損失函數。

圖4 卡通和真人多任務訓練框架
  • 分類損失函數: 主要用來對卡通臉和真人臉進行分類,典型的表達式如下:

  • 未知身份拒絕損失函數: 在不同域之間進行無監督正則化投影,表達式如下:

  • 域遷移損失函數: 用來減低卡通和真人域之間的差異性,對他們的相關性進行約束,表達式如下:

實驗分析

1)哪種算法更適合卡通識別?

我們比較了SoftMax、SphereFace、CosFace、ArcFace、ArcFace+FL幾種算法的性能如下圖5所示。結果表明,ArcFace+FL的性能相比其他算法無論是在低Rank還是高Rank下都更優。

圖5 五種算法的CMC曲線圖

2)人臉識別的信息是否有助於卡通識別?

我們測試了對於卡通檢測和卡通識別兩個任務,人臉信息是否對卡通的檢測識別有幫助。從表2可以發現,與F-ArcFace(即ArcFace+FL)相比,本文提出的方法的人臉識別性能將略有提高,圖6同樣驗證了加入人臉識別的數據後卡通檢測的性能也能得到提高。

圖6 卡通檢測兩種算法的PR曲線

表2 算法的性能對照表

3)對於卡通識別來說上下文信息是否有用?

卡通臉是識別一個卡通人物身份的最主要區別部分。然而,在某些情況下僅僅依靠卡通人臉不足以區分不同的卡通人物。我們測試了算法在卡通人臉基礎上擴充不同比例下的性能如圖7所示,圖中表示了在包含更多的上下文信息下會獲得更高的識別性能。

圖7 在不同擴充比例下的CMC曲線

總結展望

愛奇藝開放了目前全球最大的手工標註卡通人物檢測數據集與識別數據集iCartoonFace,包含超過5000個卡通人物、40萬張以上高質量實景圖片,這使得對卡通人臉識別技術的研究擁有了強有力的數據土壤。針對卡通人物的特性進行更加深入的模型優化研究,設計卡通真人多任務學習框架,可以有效地提高卡通人物識別性能。未來,加深對卡通人物識別能力的研究,設計更加魯棒性的算法,從而可以處理遮擋、側臉、模糊、變身等多種情況,使得識別的人數更多、可識別的樣式更豐富,是一個非常有挑戰性的問題。

對卡通人物進行識別具有廣泛的應用場景,不僅可以用於視頻理解對視頻進行結構化分析,還可以在智能剪輯創作、圖片搜索、人物審覈、廣告等場景中得到廣泛應用。例如圖片搜索中加入卡通人物身份特徵,使得搜索更加準確,通過分析視頻中卡通人物的身份點位,可以提供給創作者進行智能剪輯,也可以用來對惡搞的諷刺漫畫或者卡通風格人物進行審覈辨識。

參考文獻

[1] Zheng, Yi, et al. “Cartoon Face Recognition: A Benchmark Dataset.” arXiv (2019): arXiv-1907.

[2] Liu, Yuanliu, et al. “iQIYI Celebrity Video Identification Challenge.” Proceedings of the 27th ACM International Conference on Multimedia. 2019.

[3] Liu, Yuanliu, et al. “iqiyi-vid: A large dataset for multi-modal person identification.” arXiv preprint arXiv:1811.07548 (2018).

[4] Brendan F Klare, Serhat S Bucak, Anil K Jain, and Tayfun Akgul. 2012. Towards automated caricature recognition. In 2012 5th IAPR International Conference on Biometrics (ICB). 139–146.

[5] Bahri Abaci and Tayfun Akgul. 2015. Matching caricatures to photographs. Signal, Image and Video Processing 9, 1 (2015), 295–303.

[6] Jing Huo, Wenbin Li, Yinghuan Shi, Yang Gao, and Hujun Yin. 2017. WebCaricature: a benchmark for caricature face recognition. arXiv preprint arXiv:1703.03230 (2017).

[7] Ashutosh Mishra, Shyam Nandan Rai, Anand Mishra, and CV Jawahar. 2016. IIITCFW: a benchmark database of cartoon faces in the wild. In European Conference on Computer Vision (ECCV). Springer, 35–47.

[8] Azuma Fujimoto, Toru Ogawa, Kazuyoshi Yamamoto, Yusuke Matsui, Toshihiko Yamasaki, and Kiyoharu Aizawa. 2016. Manga109 dataset and creation of metadata. In Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. ACM, 2.

[9] Weiyang Liu, YandongWen, Zhiding Yu, Ming Li, Bhiksha Raj, and Le Song. 2017. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 212–220.

[10] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, and Wei Liu. 2018. Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5265–5274.

[11] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4690–4699.

[12] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2980–2988.

[13] Haiming Yu, Yin Fan, Keyu Chen, He Yan, Xiangju Lu, Junhui Liu, and Danming Xie. 2019. Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCVW). 0–0.

本文轉載自公衆號愛奇藝技術產品團隊(ID:iQIYI-TP)。

原文鏈接

ACM MM2020 | 一個卡通人臉識別的基準數據集

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章