論文閱讀筆記 - Automated Screening of Job Candidate Based on Multimodal Video Processing

1. 總攬

這篇文章是2017年的IEEE的會議論文,這篇論文的目的是在於減少候選者的選擇時間,在招聘工作這種情形下,它的方法是通過基於視覺,聽覺以及文本的三個方面的線索,用於去選擇一個好的工作候選人,對於每一個方面的特徵提取,使用了深度學習的算法,最後結果顯示這個實驗結果相較於目前的,結果有着非常好的表現。

這篇文章的關鍵點在於三模態 、個性自動析, 下面將介紹三個模態分別使用的是怎樣的方法進行特徵提取以及多特徵融合是怎樣處理的。

2. 方法

提取的流程圖如下:

在這裏插入圖片描述

2.1 聲音特徵提取

作者認爲,情感分析和個性分析有一定的相似性,體現的情感

一般也顯示這個性的特點,因此他參考在進行聲音的情感分析時,所使用的提取的特徵。

我們提取出下列的特徵:

2.2 視頻特徵提取

作者認爲一個人的個性特點在視頻中體現的地方主要是對這個人的第一印象,因此他將重點放在如何去提取視頻中的人的第一印象的特徵

對於面部的特徵提取我們使用Open Face,它能夠提取大量的面部特徵,每一幀可以提取到416個特徵,這些特徵集既包括二維的面部素點的座標,三維的面部像素座標,同時他可以提取一些面部動作單元AU,以捕獲動態的變化,

其中AU在之前的使用中發現能夠有效的提取情感特徵,而與聲音特徵提取一樣,我們認爲情感方向也代表着個性,所以我們只提取AU特徵,

以下就是AU特徵的描述:

在這裏插入圖片描述
作者對於整個視頻也不是完全的去考慮到計算機資源較小,每個視頻使用簇聚集算法選取5個關鍵幀,用於進行提取。

2.3 文字特徵提取

使用 SentiWordNet 特徵集,這個特徵題包括一些單詞所對應的情感集中,例如情感爲積極和消極的權重,我們通過把文本進行分詞,然後對每個單詞去查詢有沒有對應的權重。我們得到權重的最小值,最大值,平均值以及和, 積極情感和消極情感各有4個。最終每一個樣本得出8個特徵。

2.4 特徵融合

在這裏插入圖片描述

對於特徵融合的話,使用多層神經感知網絡,每一個模態都得出對應的結果,然後每一個模態的結果乘以對應的權重算出總結果,其中經過研究調查認爲,文本佔0.07,語音佔0.35,視頻佔0.55。

3. 結論

在這裏插入圖片描述

  • 我們可以發現多模態融合的結果優於單模態的結果。

4. 總結

  • 對於之前的三四篇多模態的個性分析,它的流程基本上都是先從單一模塊得出特徵
  • 然後再從這多個模態得到的特徵中融合一個大特徵,最終進行分類預測,或者是每一個模態都會預測出對應的個性結果,然後將預測出的結果再進行進一步的提取處理,得到最後的預測結果。
  • 對於文本的提取的話,沒有使用深度學習的方法較爲簡單,使用的是一個相當於預訓練的一個模型,它記錄每一個單詞所對應的情感權重,主要是用於做情感分析,但是作者認爲情感和個性的表達有一定關係,所以他就用這些個性特點代替情感特點來進行分析。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章