多模態的個性識別分析總結

前言

上週我閱讀了4篇關於多模態的個性分析論文,其實這些多麼他的個性論文和多模態的情感分析都是一個道理,都是通過多個模態來進行分類,這是我的4篇論文的閱讀筆記地址。

個性分析綜述地址:

總結

這4篇個性分析論文都是使用三個模態,他們的整個模型框架大致相似, 如下:

在這裏插入圖片描述
對於三模態, 視頻, 語音, 文本 一般的處理步驟如下

對於video

對於video爲兩種做法

  • 只對畫面進行提取 使用過 Open FaceVGG-16的預訓練模型
  • 對視頻進行提取 使用過: 3D-CNN + LSTM

對於text使用過:

  • word2vec + CNN
  • SentiWordNet 情感詞標記 不是深度學習方法
  • CNN + LSTM

對於audio 使用過

  • MFCC特徵 (較爲死板, 人爲制定的)
  • openSmile
  • 多層的CNN

對於特徵提取

  • 層次化特徵融合 LSTM
  • 多層神經感知網絡 +權重
  • 全連接層 連接三個模態得到的特徵, 包括固定特徵提取的網絡參數, 和不固定特徵提取的網絡參數

總結

  • 對於多模態的視頻和語音方面的特徵提取,這些方面我並不是很瞭解,到現在應該會有一些比較新的方法,所以我需要去找一些這些新的方法,找到他們的改進空間。

  • 對於文本方向的特徵提取,應該可以使用一些最新的模型來提高結果,例如BERT,等, 例如 在Multimodal Categorization of Crisis Events in Social Media 裏面其實用到了BERT,上層加入Attention, 提升結果, 而圖像方面用一些經典的方法 DenseNet ResNet等等,應該可以提升效果

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章