前言
上週我閱讀了4篇關於多模態的個性分析論文,其實這些多麼他的個性論文和多模態的情感分析都是一個道理,都是通過多個模態來進行分類,這是我的4篇論文的閱讀筆記地址。
- Automatic Extraction of Personality from Text Challenges and Opportunities
https://blog.csdn.net/qq874455953/article/details/106441504 - Investigating Audio,Video,and Text Fusion Methods for End-to-End Automatic Personality
https://blog.csdn.net/qq874455953/article/details/106491738 - Automated Screening of Job Candidate Based on Multimodal Video Processing
https://blog.csdn.net/qq874455953/article/details/106536797 - Context-Dependent Sentiment Analysis in User-Generated Videos
https://blog.csdn.net/qq874455953/article/details/106521878
個性分析綜述地址:
- Recent Trends in Deep Learning Based Personality Detection
https://blog.csdn.net/qq874455953/article/details/104762978
總結
這4篇個性分析論文都是使用三個模態,他們的整個模型框架大致相似, 如下:
對於三模態, 視頻, 語音, 文本 一般的處理步驟如下
對於video
對於video爲兩種做法
- 只對畫面進行提取 使用過 Open Face、VGG-16的預訓練模型
- 對視頻進行提取 使用過: 3D-CNN + LSTM
對於text使用過:
- word2vec + CNN
- SentiWordNet 情感詞標記 不是深度學習方法
- CNN + LSTM
對於audio 使用過
- MFCC特徵 (較爲死板, 人爲制定的)
- openSmile
- 多層的CNN
對於特徵提取
- 層次化特徵融合 LSTM
- 多層神經感知網絡 +權重
- 全連接層 連接三個模態得到的特徵, 包括固定特徵提取的網絡參數, 和不固定特徵提取的網絡參數
總結
-
對於多模態的視頻和語音方面的特徵提取,這些方面我並不是很瞭解,到現在應該會有一些比較新的方法,所以我需要去找一些這些新的方法,找到他們的改進空間。
-
對於文本方向的特徵提取,應該可以使用一些最新的模型來提高結果,例如BERT,等, 例如 在Multimodal Categorization of Crisis Events in Social Media 裏面其實用到了BERT,上層加入Attention, 提升結果, 而圖像方面用一些經典的方法 DenseNet ResNet等等,應該可以提升效果