多模態個性分析論文閱讀筆記Investigating Audio,Video,and Text Fusion Methods for End-to-End Automatic Personality

文章目錄

1. 總攬

提出了一個三模態的模型結構用於從視頻片段中預測大五性格
不同模態使用CNN，三個模態提取出的特徵使用 FC（全連接層）進行融合，特徵提取，得到最終結果。
結果顯示，相較於使用單模態，準確率提升9.4%，證明多個模態之間的相互作用可以進一步的得到更好的模型
每個模態提取的特徵和每個個性特點之前有關聯性

2. 介紹

人類對於判斷一個人的性格，往往不是通過單一方面的考慮，例如單看行爲，或者單聽聲音。而是各個方面的綜合考慮。因此對於預測個性也應該多個地方考量，也就是多模態問題。
個性的衡量標準有多個，這裏使用的是大五（THE BIG FIVE）模型具體可見https://blog.csdn.net/qq874455953/article/details/104762978
論文一個關心三個模態，聲音，文字，視頻畫面，首先將三個模態分別進行研究以得到單獨模態對性格的關聯關係，然後研究如何有效地把三個模態得到的特徵進行融合，找到了一個較爲好的融合方法。

3. 方法論

論文模型使用端對端的方式，對於每個特點，不進行多次訓練，也就是說，一次訓練數據可以得到5種個性特點的結果

3.1 Audio 特徵提取

主要是提取聲波的信息，不包括具體的內容，將聲音的波形進行輸入，主要步驟如下：

將聲波通過採（8kHz）樣，得到標準輸入，爲了避免採樣過程中產生的偏差，在每一輪訓練迭代中，對於每個樣本都隨機化它的振幅。
把輸入信號分成兩部分，第1部分是原有的波形，第2部分是每個時間的振幅的平方用於提取計算信號的強度的特徵。將數據喂到一連串的|CNN中進行提取
在CNN中得到的結果送入全局的平均池化中，在送入到一個全連接層，最終提取到一個64維度的數據。

（第二個振幅平方數據在哪裏提取？）

3.2 Text 特徵提取

數據集中有語音的文字形式，需要去提取這些文本之間的語義特徵，使用的是較爲傳統的 word2vec +　CNN 結構進行提取。

將長文本分成句子（有點奇怪，應該是單詞級別的嵌入），使用word2vec對單詞進行編碼，每個單詞表示爲300維度的向量，然後一個文本表示爲L×300的矩陣
將矩陣經過3個不同的CNN，每個CNN 得到一個64維度的特徵，合併爲192維的特徵向量，然後經過全連接得到一個64維度的特徵向量，這就是文本的特徵提取過程。

3.3 Video 特徵提取

對於Video，作者沒有對整個視頻進行特徵提取，因爲作者只是想得到一個外觀的特徵，所以作者隨機選取一幀畫面，提取畫面特徵即可。作者對於畫面的提取使用 VGG模型

隨機從Video選取一幀畫面
將畫面輸入到VGG-16的預訓練模型中，得到一個512維度的特徵向量

3.4 特徵融合方法

3.4.1 決策級融合方法

使用的是集成學習算法，可以參考https://blog.csdn.net/qq874455953/article/details/106489735進行學習

首先每個模態可以得到 5個個性的預測分數，然後一共三個模態，這裏是想要求出每個模態對應的每個個個性的權重，最終結果的計算如下，其中 w 表示權重， p表示對應的分數

最優權重使用MAE評估，還是相對比較簡單。

優點在於可以通過這個方法來找到模態和對應個性的一個關聯，例如哪個模態，對於哪個個性特點有較大權重。

3.4.2 截斷全連接層

截斷全連接層有兩種處理模式。

此方法就是截斷每一個模態得出個性特點的那一層。

也就是說每一個模態都得出一個特徵向量，然後通過全連接層得到5個個性特點的對應分數，但是截斷全連接層得出5個個性特點的這一部分，只使用每一個模態得出的特徵向量，然後將這三個特徵向量拼在一起。

**模式1：每個單模態特徵提取的神經網絡的權重是被固定的，也就是說它的模態訓練以及特徵融合訓練是分開的，在訓練特徵融合的全連接層時，不會影響到每個模態的特徵提取。

這個的目的主要是在於學習怎樣組合這些特徵是最優的。

**模式2：**與模式一不同，文本和聲音模態特徵提取的神經網絡權重是不固定的，是會隨着訓練特徵融合神經網絡時的反向傳播進行改變。

4. 實驗以及結論

具體的實驗的參數設置和細節不予贅述，實驗結果如下

對於決策及融合方法，權重如下：

對於實驗的最終結果，準確率結果如下：

MAE大小

準確率大小

其中 DCC 和 evolgen 是當前最好的結果，DLF表示使用決策級融合方法，NNLB表示固定權重，NNFB表示權重不固定。

5.個人總結

首先使用新的數據集，這是一個視頻數據集，而視頻其實就包括三個模態：文本、語音、畫面，繼而使用多模態的分析方法
Audio方面：相對來說也不知道是什麼原因，反正輸入一個波形，最後得出一個特徵，但是具體來說，他爲什麼能夠去通過這個聲音特點來預測性格呢？
Text方面的提取有點粗糙，結構相對簡單，這個地方我之前做個相對複雜的結果，可能效果會得到提升
Video方面採用的是只對畫面進行特徵提取，作者爲了計算資源的利用不考慮使用lstm對多幀畫面之間進行提取，也就是說不包括那一些短暫的畫面運動信息，這一塊的話，如果的計算機資源豐富的話，應該可以進行添加，查詢一下如何去處理視頻這樣一些論文，看看能否進行一些改進。
相對來說文本和聲音他們的特徵提取了64，但是畫面的特徵提出了512，這三個特徵之間的差值有一點大，要看它的特徵融合方法有怎樣的創新之處。
對於決策融合方法有三種方法，其中我之前做過的特徵融合模型中用到的就是第3種方法，第1種第2種有一定的借鑑意義，但相較於結果來說，固不固定權重其實差別並不是非常大，不固定權重結果會稍優。
論文得到結果相較於最優結果還有一定的差距，說明他們的論文是有一定的改進空間，從他們的模型結構中也可以得到。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

多模態個性分析論文閱讀筆記Investigating Audio,Video,and Text Fusion Methods for End-to-End Automatic Personality

文章目錄

1. 總攬

2. 介紹

3. 方法論

3.1 Audio 特徵提取

3.2 Text 特徵提取

3.3 Video 特徵提取

3.4 特徵融合方法

3.4.1 決策級融合方法

3.4.2 截斷全連接層

4. 實驗以及結論

5.個人總結

認知提升的方法

C#開源的兩款功能強大的錄屏神器

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

前端 Vue yarn.lock文件：詳解和使用指南

Modality to Modality Translation: An Adversarial Representation Learning閱讀筆記

多模態的個性識別分析總結

論文閱讀筆記 - Automated Screening of Job Candidate Based on Multimodal Video Processing

基於深度學習的性格探測綜述閱讀筆記

使用pytorchviz進行模型可視化出現 NoneType object has no attribute grad_fn

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結