音視頻雙模態情感識別融合框架研究

前言

國內音視頻雙模態融合的相關期刊比較少,最近幾年的一共不到10篇,因此每一篇都需要好好讀一讀。國內的讀起來比較快,所以希望能夠通過國內的綜述快速知識體系,通過國內的高質量期刊和碩士論文了解研究方法和創新點,因爲他們在做相關研究時候肯定參照了不少外刊,通過對比可以知道這個圈子的大小,瞭解到經典的文章有哪些。

摘要

針對雙模態情感識別框架識別率低、可靠性差的問題,對情感識別最重要的兩個模態語音和面部表情進行了雙模態情感識別特徵層融合的研究。採用基於先驗知識的特徵提取方法和VGGNet-19 網絡分別對預處理後的音視頻信號進行特徵提取,以直接級聯的方式並通過PCA 進行降維來達到特徵融合的目的,使用BLSTM 網絡進行模型構建以完成情感識別。將該框架應用到AViD-Corpus 和SEMAINE 數據庫上進行測試,並和傳統情感識別特徵層融合框架以及基於VGGNet-19 或BLSTM 的框架進行了對比。實驗結果表明,情感識別的均方根誤差(RMSE)得到降低,皮爾遜相關係數(PCC)得到提高,驗證了文中提出方法的有效性。

正文

1引言

文章開頭介紹了多模態的優勢,並說明多模態中決策融合和特徵融合的區別和優勢,介紹了之前每個模態的相關工作。最後提出了特徵融合多模態中需要選擇合適的融合方法從特徵中得到信息,且如果數據量很少的情況下融合的特徵維度過高會導致準確率降低。這篇文章針對上面問題提出了下圖的架構,使用先驗知識提取音頻,vgg提取臉部表情特徵,經過時序同步後進行級聯,完成融合,在融合之後使用降維方法對融合特徵降維。在決策網絡中用BLISTM代替LSTM,捕捉上下文的信息更有效的進行識別。
在這裏插入圖片描述

2 音視頻預處理和特徵提取

音頻預處理:歸一屬性,加重,加窗,端點檢測去無聲,特徵提取,歸一化。
視頻特徵提取:去除遮擋畫面,圖像歸一化,68特徵點提取且人臉對齊,VGG提取表情特徵,歸一化。

3 特徵級聯,降維,融合網絡BLSTM建模

步驟一:爲了保持時序同步性,每三秒的音視頻輸出是音頻特徵維度加上三秒內90幀面部表情的維度總和。
步驟二: PCA降低上一步的數據維度
步驟三:由於面部表情和聲音是具有時序性的,因此採用BLSTM建模較好。

4 實驗

數據集是AViD-Corpus 數據庫和 SEMAINE 數據庫,兩個數據集都很長。

實驗過程與結果

採用了五種對比方法,使用RMSE和PCC作爲評價標準。得到如下的實驗結果;
在這裏插入圖片描述
在這裏插入圖片描述
最後通過一番對比闡述了自己的方法很好。

總結

爲了解決音視頻雙模態情感識別框架準確率低可靠性差的問題,本文基於傳統的情感識別方法,在面部表情特徵提取中採用了VGGNet-19 的方法,並在音視頻特徵級聯之後融入PCA 降維,最後結合BLSTM 網絡以同時考慮上下文信息,構建情感識別特徵層融合框架,使用 AViD-Corpus 數據庫和SEMAINE 數據庫對該算法進行驗證。結果顯示,本文提出框架對比現有框架,RMSE 得到下降,PCC 得到提升,有效提升了情感識別框架的準確性和可靠性。

讀後感

收穫:這是我最開始看的一篇融合的文章,對我啓發還是挺大的,明白怎麼去提取音視頻,怎麼去融合,怎麼選擇融合模型。但是看過一些比較好的論文之後感覺作者方法還需要再揣摩。此外作者的寫作思路很清晰,一步步的走到文章結束,其實感覺這篇論文工作可以寫10頁,但是被作者用7頁就理清了。寫作方法值得參考。
疑惑:1.音視頻維度怎麼級聯的呢?是直接將三秒內的音頻特徵加上90幀視頻特徵嗎?具體每個部分有多少呢? 2. 實驗具體細節介紹得不太詳細,數據維度變化沒有給出,感覺作者可能不是cs科班的,因爲在實驗環境介紹上感覺有點不專業(小聲bb)。3.參考文獻挺多的, 但是感覺有的參考文獻是不是沒怎麼看的。
思考:作者實驗中對比的參考文獻23是不是有代碼呢?需要讀一下該文章,瞭解之前工作是怎麼做的,如果有代碼就很好了。(半個小時後發現這個作者和我之前看的論文是一樣的,這篇論文是有代碼的,用tensorflow,已經公佈了。。。。)
End-to-end multimodal emotion recognition using deep neural networks

總結:總的來說挺好的,收穫和評價有助於自己的總結能力提高,別無他意。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章