多模态个性分析论文阅读笔记Investigating Audio,Video,and Text Fusion Methods for End-to-End Automatic Personality

1. 总揽

  • 提出了一个三模态的模型结构用于从视频片段中预测大五性格
  • 不同模态使用CNN, 三个模态提取出的特征使用 FC(全连接层)进行融合,特征提取, 得到最终结果。
  • 结果显示, 相较于使用单模态, 准确率提升9.4%,证明多个模态之间的相互作用可以进一步的得到更好的模型
  • 每个模态提取的特征和每个个性特点之前有关联性

2. 介绍

  • 人类对于判断一个人的性格,往往不是通过单一方面的考虑, 例如单看行为, 或者单听声音。而是各个方面的综合考虑。因此对于预测个性也应该多个地方考量, 也就是多模态问题。
  • 个性的衡量标准有多个,这里使用的是大五(THE BIG FIVE)模型 具体可见https://blog.csdn.net/qq874455953/article/details/104762978
  • 论文一个关心三个模态,声音, 文字, 视频画面, 首先将三个模态分别进行研究以得到单独模态对性格的关联关系,然后研究如何有效地把三个模态得到的特征进行融合,找到了一个较为好的融合方法。

3. 方法论

  • 论文模型使用端对端的方式,对于每个特点,不进行多次训练,也就是说,一次训练数据可以得到5种个性特点的结果

3.1 Audio 特征提取

主要是提取声波的信息,不包括具体的内容, 将声音的波形进行输入,主要步骤如下:

  1. 将声波通过采(8kHz)样,得到标准输入,为了避免采样过程中产生的偏差, 在每一轮训练迭代中,对于每个样本都随机化它的振幅。
  2. 把输入信号分成两部分,第1部分是原有的波形,第2部分是每个时间的振幅的平方用于提取计算信号的强度的特征。将数据喂到一连串的|CNN中进行提取
  3. 在CNN中得到的结果送入全局的平均池化中, 在送入到一个全连接层,最终提取到一个64维度的数据。

在这里插入图片描述

(第二个振幅平方数据在哪里提取?)

3.2 Text 特征提取

数据集中有语音的文字形式, 需要去提取这些文本之间的语义特征,使用的是较为传统的 word2vec + CNN 结构进行提取。

  1. 将长文本分成句子(有点奇怪, 应该是单词级别的嵌入),使用word2vec对单词进行编码, 每个单词表示为300维度的向量, 然后一个文本表示为L×300的矩阵
  2. 将矩阵经过3个不同的CNN, 每个CNN 得到一个64维度的特征, 合并为192维的特征向量,然后经过全连接得到一个64维度的特征向量, 这就是文本的特征提取过程。

在这里插入图片描述

3.3 Video 特征提取

对于Video,作者没有对整个视频进行特征提取, 因为作者只是想得到一个外观的特征, 所以作者随机选取一帧画面,提取画面特征即可。作者对于画面的提取使用 VGG模型

  1. 随机从Video选取一帧画面
  2. 将画面输入到VGG-16的预训练模型中,得到一个512维度的特征向量

在这里插入图片描述

3.4 特征融合方法

3.4.1 决策级融合方法

使用的是集成学习算法,可以参考https://blog.csdn.net/qq874455953/article/details/106489735进行学习

首先每个模态可以得到 5个个性的预测分数, 然后一共三个模态, 这里是想要求出每个模态对应的每个个个性的权重,最终结果的计算如下, 其中 w 表示权重, p表示对应的分数

在这里插入图片描述
最优权重使用MAE评估, 还是相对比较简单。

优点在于可以通过这个方法来找到模态和对应个性的一个关联,例如哪个模态,对于哪个个性特点有较大权重。

3.4.2 截断全连接层

截断全连接层有两种处理模式。

此方法就是截断每一个模态得出个性特点的那一层。

也就是说每一个模态都得出一个特征向量,然后通过全连接层得到5个个性特点的对应分数,但是截断全连接层得出5个个性特点的这一部分只使用每一个模态得出的特征向量,然后将这三个特征向量拼在一起。

**模式1:每个单模态特征提取的神经网络的权重是被固定的,也就是说它的模态训练以及特征融合训练是分开的,在训练特征融合的全连接层时,不会影响到每个模态的特征提取。

这个的目的主要是在于学习怎样组合这些特征是最优的。

**模式2:**与模式一不同,文本和声音模态特征提取的神经网络权重是不固定的,是会随着训练特征融合神经网络时的反向传播进行改变。

4. 实验以及结论

具体的实验的参数设置和细节不予赘述,实验结果如下

对于决策及融合方法,权重如下:
在这里插入图片描述
对于实验的最终结果,准确率结果如下:

MAE大小
在这里插入图片描述
准确率大小
在这里插入图片描述

其中 DCC 和 evolgen 是当前最好的结果,DLF表示使用决策级融合方法,NNLB表示固定权重,NNFB表示权重不固定。

5.个人总结

  • 首先使用新的数据集, 这是一个视频数据集, 而视频其实就包括三个模态: 文本、语音、画面, 继而使用多模态的分析方法
  • Audio方面:相对来说也不知道是什么原因,反正输入一个波形,最后得出一个特征,但是具体来说,他为什么能够去通过这个声音特点来预测性格呢?
  • Text方面的提取有点粗糙, 结构相对简单,这个地方我之前做个相对复杂的结果, 可能效果会得到提升
  • Video方面采用的是 只对画面进行特征提取, 作者为了计算资源的利用 不考虑使用lstm对多帧画面之间进行提取,也就是说不包括那一些短暂的画面运动信息,这一块的话,如果的计算机资源丰富的话,应该可以进行添加,查询一下如何去处理视频这样一些论文,看看能否进行一些改进。
  • 相对来说文本和声音他们的特征提取了64,但是画面的特征提出了512,这三个特征之间的差值有一点大,要看它的特征融合方法有怎样的创新之处。
  • 对于决策融合方法有三种方法,其中我之前做过的特征融合模型中用到的就是第3种方法,第1种第2种有一定的借鉴意义,但相较于结果来说,固不固定权重其实差别并不是非常大,不固定权重结果会稍优。
  • 论文得到结果相较于最优结果还有一定的差距,说明他们的论文是有一定的改进空间,从他们的模型结构中也可以得到。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章