多模態個性分析論文閱讀筆記Investigating Audio,Video,and Text Fusion Methods for End-to-End Automatic Personality

1. 總攬

  • 提出了一個三模態的模型結構用於從視頻片段中預測大五性格
  • 不同模態使用CNN, 三個模態提取出的特徵使用 FC(全連接層)進行融合,特徵提取, 得到最終結果。
  • 結果顯示, 相較於使用單模態, 準確率提升9.4%,證明多個模態之間的相互作用可以進一步的得到更好的模型
  • 每個模態提取的特徵和每個個性特點之前有關聯性

2. 介紹

  • 人類對於判斷一個人的性格,往往不是通過單一方面的考慮, 例如單看行爲, 或者單聽聲音。而是各個方面的綜合考慮。因此對於預測個性也應該多個地方考量, 也就是多模態問題。
  • 個性的衡量標準有多個,這裏使用的是大五(THE BIG FIVE)模型 具體可見https://blog.csdn.net/qq874455953/article/details/104762978
  • 論文一個關心三個模態,聲音, 文字, 視頻畫面, 首先將三個模態分別進行研究以得到單獨模態對性格的關聯關係,然後研究如何有效地把三個模態得到的特徵進行融合,找到了一個較爲好的融合方法。

3. 方法論

  • 論文模型使用端對端的方式,對於每個特點,不進行多次訓練,也就是說,一次訓練數據可以得到5種個性特點的結果

3.1 Audio 特徵提取

主要是提取聲波的信息,不包括具體的內容, 將聲音的波形進行輸入,主要步驟如下:

  1. 將聲波通過採(8kHz)樣,得到標準輸入,爲了避免採樣過程中產生的偏差, 在每一輪訓練迭代中,對於每個樣本都隨機化它的振幅。
  2. 把輸入信號分成兩部分,第1部分是原有的波形,第2部分是每個時間的振幅的平方用於提取計算信號的強度的特徵。將數據喂到一連串的|CNN中進行提取
  3. 在CNN中得到的結果送入全局的平均池化中, 在送入到一個全連接層,最終提取到一個64維度的數據。

在這裏插入圖片描述

(第二個振幅平方數據在哪裏提取?)

3.2 Text 特徵提取

數據集中有語音的文字形式, 需要去提取這些文本之間的語義特徵,使用的是較爲傳統的 word2vec + CNN 結構進行提取。

  1. 將長文本分成句子(有點奇怪, 應該是單詞級別的嵌入),使用word2vec對單詞進行編碼, 每個單詞表示爲300維度的向量, 然後一個文本表示爲L×300的矩陣
  2. 將矩陣經過3個不同的CNN, 每個CNN 得到一個64維度的特徵, 合併爲192維的特徵向量,然後經過全連接得到一個64維度的特徵向量, 這就是文本的特徵提取過程。

在這裏插入圖片描述

3.3 Video 特徵提取

對於Video,作者沒有對整個視頻進行特徵提取, 因爲作者只是想得到一個外觀的特徵, 所以作者隨機選取一幀畫面,提取畫面特徵即可。作者對於畫面的提取使用 VGG模型

  1. 隨機從Video選取一幀畫面
  2. 將畫面輸入到VGG-16的預訓練模型中,得到一個512維度的特徵向量

在這裏插入圖片描述

3.4 特徵融合方法

3.4.1 決策級融合方法

使用的是集成學習算法,可以參考https://blog.csdn.net/qq874455953/article/details/106489735進行學習

首先每個模態可以得到 5個個性的預測分數, 然後一共三個模態, 這裏是想要求出每個模態對應的每個個個性的權重,最終結果的計算如下, 其中 w 表示權重, p表示對應的分數

在這裏插入圖片描述
最優權重使用MAE評估, 還是相對比較簡單。

優點在於可以通過這個方法來找到模態和對應個性的一個關聯,例如哪個模態,對於哪個個性特點有較大權重。

3.4.2 截斷全連接層

截斷全連接層有兩種處理模式。

此方法就是截斷每一個模態得出個性特點的那一層。

也就是說每一個模態都得出一個特徵向量,然後通過全連接層得到5個個性特點的對應分數,但是截斷全連接層得出5個個性特點的這一部分只使用每一個模態得出的特徵向量,然後將這三個特徵向量拼在一起。

**模式1:每個單模態特徵提取的神經網絡的權重是被固定的,也就是說它的模態訓練以及特徵融合訓練是分開的,在訓練特徵融合的全連接層時,不會影響到每個模態的特徵提取。

這個的目的主要是在於學習怎樣組合這些特徵是最優的。

**模式2:**與模式一不同,文本和聲音模態特徵提取的神經網絡權重是不固定的,是會隨着訓練特徵融合神經網絡時的反向傳播進行改變。

4. 實驗以及結論

具體的實驗的參數設置和細節不予贅述,實驗結果如下

對於決策及融合方法,權重如下:
在這裏插入圖片描述
對於實驗的最終結果,準確率結果如下:

MAE大小
在這裏插入圖片描述
準確率大小
在這裏插入圖片描述

其中 DCC 和 evolgen 是當前最好的結果,DLF表示使用決策級融合方法,NNLB表示固定權重,NNFB表示權重不固定。

5.個人總結

  • 首先使用新的數據集, 這是一個視頻數據集, 而視頻其實就包括三個模態: 文本、語音、畫面, 繼而使用多模態的分析方法
  • Audio方面:相對來說也不知道是什麼原因,反正輸入一個波形,最後得出一個特徵,但是具體來說,他爲什麼能夠去通過這個聲音特點來預測性格呢?
  • Text方面的提取有點粗糙, 結構相對簡單,這個地方我之前做個相對複雜的結果, 可能效果會得到提升
  • Video方面採用的是 只對畫面進行特徵提取, 作者爲了計算資源的利用 不考慮使用lstm對多幀畫面之間進行提取,也就是說不包括那一些短暫的畫面運動信息,這一塊的話,如果的計算機資源豐富的話,應該可以進行添加,查詢一下如何去處理視頻這樣一些論文,看看能否進行一些改進。
  • 相對來說文本和聲音他們的特徵提取了64,但是畫面的特徵提出了512,這三個特徵之間的差值有一點大,要看它的特徵融合方法有怎樣的創新之處。
  • 對於決策融合方法有三種方法,其中我之前做過的特徵融合模型中用到的就是第3種方法,第1種第2種有一定的借鑑意義,但相較於結果來說,固不固定權重其實差別並不是非常大,不固定權重結果會稍優。
  • 論文得到結果相較於最優結果還有一定的差距,說明他們的論文是有一定的改進空間,從他們的模型結構中也可以得到。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章