End-to-End Multimodal Emotion Recognition using Deep Neural Networks解讀

前言

這篇文章音視頻多模態融合的經典之作,中科院一區,並且公佈了tensorflow的源碼,值得一看。

摘要

自動情感識別是一項具有挑戰性的任務,因爲可以用各種形式表達情感。應用程序可以在許多領域中找到,包括多媒體檢索和人機交互。近年來,深度神經網絡已經在確定情緒狀態方面取得了巨大成功。受到這一成功的啓發,我們提出了一種使用聽覺和視覺模式的情緒識別系統。爲了捕捉各種說話風格的情感內容,需要提取強大的功能。爲此,我們利用卷積神經網絡(CNN)從語音中提取特徵,而對於視覺模態,使用50層的深度殘餘網絡。除了特徵提取的重要性之外,機器學習算法還需要對異常值不敏感,同時能夠對上下文建模。爲了解決這個問題,使用了長期的短期記憶網絡。然後,系統以端到端的方式進行訓練,同時利用每個流的相關性 - 我們在一致性相關係數方面設法顯着優於傳統方法,基於聽覺和視覺手工製作的特徵。在RECECA數據庫中預測AVEC 2016對情緒識別的研究挑戰的自發和自然情緒。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章