1. 總覽

這是2017年的一篇文章，ACL的會議論文。

這篇文章講的是多模態的情感分析，在當前的研究中，通常把話語當成一個獨立的部分，而不考慮話語前後的視頻畫面的關係，但其實對於一句話，他前後的畫面變化其實也有一定的內在聯繫。

這篇文章提議出了一個基於lstm的模型，來使得這個話語能夠捕捉他們環境中的上下文信息。

結果顯示相較於之前的結果，此方法能夠提升5%~10%的準確率，並且穩定性和魯莽性更好。

2. 模型結構

模型包含兩部分，第一部分是單模態的上下文無關的特徵提取，第二部分是將第1部分提取到的特徵喂入到一個lstm（稱爲Contextual LSTM ）網絡中，使之能夠在特徵提取的時候運用到上下文的關係。最後將三個模態提取到的特徵進行特徵融合，最終預測得到結果。

文本的這些文本來自於這些說話的腳本，爲了去提取文本的特徵，作者引用了2014年Wrapped.提出的一個用於提取文本的CNN結構，首先將每一個句子都變成每一個單詞向量的集合，這些詞向量維度爲300維，使用word2vec進行編碼。然後經過多層卷積，+多個不同規格的卷積，最終得到特徵結果。

對於聲音特徵的提取使用Eyben 提出的openSMILE軟件進行特徵提取。他可以提取出聲音的強度和聲音亮度等特點，

作者使用Ji在2013年提出的3D-CNN（三維卷積）結構，用於提取視頻畫面的特徵，作者假定這個模型不僅能夠識別每一幀的特點，還能夠有效的去，識別給定幀數範圍畫面的改變。

視頻表示爲（c， f， h， w）的四維向量 c表示顏色的通道數目，設置爲3（RGB顏色三個通道）， f表示幀的數目，代表確定的幀， h 和 w 代表高和寬，確定像素點的位置。

使用三維的卷積進行特徵提取，然後使用max-pooling 進行降維，得到一個300維度的向量。

通過上面的上下文無關的特徵提取，我們提取到了每一個語句對應的文字，語音和視頻的單獨特徵表示，作者認爲這些語句之間的前後上下文關係需要被提取出來，於是對每一個模態提取出來的句子，再輸入到一個Contextual LSTM結構中得到一個上下文有關的特徵，並預測得到結果，

Contextual LSTM 首先將數據輸入到lstm中，得到了一個上下文有關的特徵，然後再經過全連接層得到一個預測結果，然後再進行一個solfmax得到預測概率。

其中作者嘗試了不同的LSTM，並分別進行了實驗。同時在細節上Dropout, 以防止過擬合。

對於特徵的融合也有兩種不同的方法，第1種是非層次化的框架結構，第2種是層次化的框架結構，

在非層次化的框架結構中，我們直接將之前三個模態分別提取出的特徵聯合起來，然後喂入一個LSTM中。

圖中顯示是第2種方法，是一個層次化的結構。

一共分爲兩個級別，第1個級別，我們將每一個模態提取出的特徵，單獨放入LSTM中，得到一個上下文有關的單模態的特徵向量表示，在第2個級別中，我們將第1個級別提出來的單模態的特徵向量表示進行連接，然後再喂入到一個LSTM中，最終得到預測結果

這裏模型的訓練，級別1和級別2是單獨分開的，不會相互影響，所以這並不是一個端對端的模型。

此模型使用了一個層次化的結構。模型也是分爲三個層次，第1個層次是單個模態之間的特徵提取，它提取的是一些上下文無關的特徵，這樣的話簡便了計算，同時也便於進行層次化處理。
當我們把每一個語句的每一個模態得到了一個上下文無關的特徵向量時，我們需要探索語句之間的上下文關係，這裏用到了lstm結構，這是一種常用的用於處理時序化數據以及探究語句之間的上下文關係的神經網絡結構。
在特徵融合方面，同樣使用層次化，使用一個更高層次也就是多模態層次，將每一個模態得出的結果，再喂lstm結構，然後得到一個最後的預測結果。但是這裏的話其實還是有一點小問題的，因爲不同模態之間他們之間並沒有先後關係。但是作者使用lstm，具體的原因沒有說到。
層次化的思想值得借鑑、
同時相較於之前的論文模型，模型對於視頻的處理也有了進一步的提高，增加了上下文的信息。
在文字語音視頻方面的底層的特徵提取方法，仍有提高的空間，例如在文字方面可以使用，bert模型進行一個無關上下文的特徵提取

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.