Recent trends in deep learning based personality detection

abstract

近年来，人格的自动预测受到了广泛关注。具体而言，从多重数据（多模态） 预测人格已成为情感计算领域的热门话题。在本文中，我们回顾了用于人格检测的重要机器学习模型，重点是基于深度学习的方法。这篇综述文章概述了最流行的人格检测方法，各种计算数据集，工业应用以及用于人格检测的最新机器学习模型，文章将重点关注多模态。人格检测是一个非常广泛而多样的主题：本次调查仅关注计算机方法方法，而没有进行关于人格检测的心理学研究。

1. introduction

人格是个人的行为，情感，动力和思想模式特征的组合。我们的人格对我们的生活有很大的影响，影响我们的生活选择，福祉，健康以及我们的喜好和欲望。因此，自动检测人格特征的能力具有许多重要的实际应用。伍德沃思精神神经病学调查表**（Papurt，1930年）**通常被称为第一个人格测验。它是在第一次世界大战期间为美国军方开发的，目的是对新兵进行创伤后应激障碍的筛查。如今，PCM 是一种广泛使用和被认可的人格模型。它是由Taibi Kahler在NASA资助下开发的，最初用于协助航天飞机宇航员的选择。现在，该模型主要用于个人咨询，用以帮助个人提高沟通效率。

除了直接确定一个人的人格之外，人们可能还想知道周围的人如何看待他们。与自动人格识别不同，感知人格分析的目标不是自己认为的真实人格，而是与之互动的人是如何看待他们的他们的人格。测试方法是， 被测者的周围的人填写人格问卷，然后确定该被测者人的感知人格。

1.1 人格衡量方法

表示人格的方法有很多种，有16PF (Cattell and Mead 2008), EPQ-R (Miles and Hempel 2004)， PEN (Eysenck 2012)， The Myers Briggs Type Indicator (MBTI)等，感兴趣的可以自己拓展

比较流行的就是Big-Five，将一个人的人格分为

开放性（openness）：具有想象、审美、情感丰富、求异、创造、智能等特质。
责任心（conscientiousness）：显示胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点。
外倾性（extroversion）：表现出热情、社交、果断、活跃、冒险、乐观等特质。
宜人性（agreeableness）：具有信任、利他、直率、依从、谦虚、移情等特质。
神经质性（neuroticism）：难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱等情绪的特质，即不具有保持情绪稳定的能力

1.2 应用前景

可以用作以下这些方面：


Enhanced personal assistants	应用于个人助手， Siri等，使之根据不同用户的不同人格产生个性化的回应
Recommendation systems	推荐系统
Word polarity detection	流行词的探测
Specialized health care and counseling	心理健康咨询
ForensicsIf	犯罪侦查，通过探测在场人员的人格，减少犯罪嫌疑人的范围
Job screening	帮助雇佣者找到更符合此工作（人格检测）的人
Psychological studies	心理学研究
Political forecasting	帮助政客提出更有效的拉票方案

1.3 伦理道德

讨论了人格探测的合法性，目前对于这方面的法律不健全，而且分析他人的人格是否是一种侵犯有待商榷。

2. Related works

2014年以前，使用 Naïve Bayes, kNN, mLR, Gaussian Process 这种浅学习技术进行分类
2014年后，逐步采用了深度学习模型来提升准确率
2016年，使用来**simage processing techniques（图像处理技术） and facial feature analysis（面部特征分析）**进行对图像上的人格分析
使用不同的人格衡量标准如， MBTI以及加入了不同的指标如， unhappy, weird, intelligent, confident,等等
2014年， Vinciarelli and Mohammadi 等人将人格探测分出来三个下游任务， -
Automatic Personality Perception (APP) 人格感知
Automatic Personality Synthesis (APS)
AutomaticPersonality Recognition (APR). 人格识别
2018年，使用多模态技术，将不同的数据（文本，图像）同时输入到模型中

3. Baseline methods

介绍一些基本的模型，结构和技术

3.1 文本

文本分为三个个方面

通过LIWC， MRC等文本特征提取技术以及简单的分类器（SVM， SMO）进行分类
通过fine-tune的词嵌入模型（GloVe or Word2Vec)结合深度神经网络（LSTM，GRU ）等进行分类
两者结合

3.2 音频

这个领域方法稍微少些，主要是利用一些标准的音频特征提取模型，例如Mel-Frequency Cepstral Coefficients (MFCC), Zero Crossing Rate (ZCR), Logfbank，然后再加上简单分类器SVM等

3.3 图像

首先是使用一些基本的CNN。
使用来一些fine-tuned的模型如，VGG-Face，EigenFace,等

3.4 多模态

将以上的两类或三类的数据，输入到一个多模态的模型中，比较常见的有Deep Residual Networks

目前流行的特征提取工具以及介绍

4. Detailed overview

4.1 文本

4.1.1 LIWC/MRC

LIWC是一个基于心理学的文本情感分析关键，它根据心理学研究将要单词分成不同的单词种类，然后计算每个种类的频率，将其作为模型输入，然后进行分类。
The PR2 system (Celli and Poesio 2014) 则是从LIWC/MRC进一步提取出特征，例如标点符号等，不同的是，只有提取的特征数值大于平均值，才能被用来进行分类，研究发现这些特征和人的人格具有相关性。这项技术虽然没有提升准确性，但是却有助于更有效的特征提取

4.1.2 Receptiviti API

这个是基于LIWC，相当于LIWC的API，通过提交文本，返回文本的特征提取结果，但是这个API对于社交媒体的文本的效果不是很好。

4.1.3 社交网络文本研究

当前，通过社交网络上的文本进行人格探测，非常流行 Kalghatgi et al. (2015)等人，将用户的社交习惯（平均使用表情数目）以及文本的语言学特征（平均文本长度）作为特征输入，然后输入到a Multi-Layer Perceptron (MLP).（多重感知器）进行分类预测

4.1.4 深度神经网络应用

对于新的数据集consciousness essay dataset (Pennebaker and King 1999)文本类型是文章， Majumder et al. (2017)等人使用CNN来进行文章的特征提取，下图是具体的网络结构，其中：每一篇文章，看成句子向量的集合，句子向量是通过对单词向量的卷积形成，单词使用Word2Vec进行词嵌入，最终得到的文档向量，　文档向量再加上LIWC和MRC提取的特征作为提取的最终结果，将此结果放入一个全连接层，接Sofmax，求出yes/no的概率。
Hernandez and Scott (2017) 等人，则另辟蹊径，将表示好的句向量，作为一个时间序列，输入到一个循环神经网络中（用了多种， RNN， LSTM，双向LSTM， GRU）
Liu et al. (2016) 等人则不用GloVe 和 Word2Vec，而是使用一个双向的GRU进行词嵌入，将单词向量组再输入到一个双向的RNN形成句向量，最终放到前馈神经网络进行预测分类。结果发现此模型在corpus of Tweets. 的结果较好。
Sun et al. (2018) 提出了Latent Sentence Group用来表示文章特征， LSG的提取是通过双向的LSTM，以及CNN得出的，文章细节可以看Who Am I? Personality Detection based on Deep Learning for Texts 阅读笔记

4.1.5 SenticNet 5

(Cambria et al. 2018)等人使用SentiNet5模型，此模型结合了情感分析的两类方法（基于统计模型和基于知识模型），利用此网络提取出的特征，放到SMO（序列最小优化算法）进行分类。

4.1.6 weighted ML-kNN（多标签学习）

Zuo (2013)等人认为，每个人格类别之间是有一定的关联的，　准确率提不高的原因在于５个类别，同时训练５个分类器，独立分类。于是他们选择多标签学习模型进行分类，提取出的特征权重，使用熵权理论得出。

4.1.7 其他信息作为特征加入

(Chittaranjan et al. 2011) 不局限於单纯的文本，他将研究方向转到来与人息息相关的手机信息上，他开发一个软件，提取用户的手机习惯（应用打开频率，音乐偏好等）作为提取的特征，然后使用了回归分析， SVM， C4.5等进行分类。
conversations作为特征，有时候是通过两个个体的聊天记录来进行人格探测，信息作为一个时序序列，被放到RNN中，**Su et al. (2016)提出了Hidden Markov Model HMM **模型通过输入两个人的对话记录，来进行人格探测。
Conversational Dialog Corpus作为数据集

4.2 语音

4.2.1 语音特点+分类器

语音可以分成七个组别intensity, pitch, loudness,
formants, spectrals, MFCC and other features），研究者用其中七个组别的语音，进行人格探测。(Polzehl et al. 2010).等人使用Praat软件对语音进行分析，提取特征，然后将特征喂入SVM分类器中，发现5大人格是有着内在联系的，其中一类发生变化，会引起其他四类发生显著变化。

4.2.2 非语言特点

有些研究者认为这些非语言特点（音韵，重复，暂停）更能体现人格特点， Valente et al. (2012) 对AMI corpus dataset数据集进行研究，他们将incorporating dialog act tags 特征（表示说话人的意图）作为一个新的特征放入到分类器中。

4.2.3 引入神经网络

**Palaz et al. (2015)**使用CNN来进行分类，与传统方法不同，传统是先提取特征向量，然后将提取的特征放入分类器。Palaz 直接将未经处理的音频波形当做输入。

4.2.4 帮助其他任务的模型

deception detection和人格探测任务很像， Levitan et al. (2016)使用AdaBoost， Random forest 等进行进行人格探测，然后将此结果作为deception detection的输入，同时结合了语言特点（LIWC），语调特点等特征进行deception 预测，结果变得更好

4.3 图像

4.3.1 图像分析

(Kamenskaya and Kukharev 2008)等人分析人脸生理特征（鼻子形状等），将其作为输入，进行人格分析
Cristani et al. (2013) 等人将人喜欢的图片（被他们点赞的图片） 作为输入，输入到lasso regressor回归中
Liu et al. (2016) 则认为，人们在推特上上传的简介照片 （Twitter profile picture.） 和人的人格有关，他们发现他们简介的照片的 审美特征 以及 面部特征和人的人格有相关性。
Ventura et al. (2017) 对CNN为什么能较好的提取特征做了研究，一直以来CNN被认为是一个黑盒，为什么能提取出好的特征的原理没法解释清楚， Ventura使CNN模型的活跃区域可视化，发现活跃区域集中在眼睛和鼻子这块，这些区域叫做 .Action Units ， 作者将Action Units区域的向量输入到分类器中进行人格探测，发现结果和最新模型达到的结果相近。
Gucluturk et al. (2017) 把图片分为 6 个区域（background region, hair region, skin region, eye region, nose region and mouth region），然后发现每个区域至少能探测到一个人格方向，每个人格方向都被不同区域探测，而且每个区域对人格方向的作用不同，例如，对应background 区域增加了extraversion的分数，但是降低 conscientiousness的分数
Rojas et al. (2011) 使用两个指标（1）脸的外观纹理，（2）面部点的位置，第一个指标分别通过EigenFaces和Histogram of Oriented Gradients 得到，这些提取的特征放到标准的分类器中，结果发现Histogram of Oriented Gradients 提取的效果更好

4.3.2 视频分析

第一印象和人格探测很相似， ChaLearn First Impressions dataset. 此数据集是关于第一印象的，数据量较大，可以用来做迁移学习

Chen et al. (2016) 尝试多种方法来 eliminating worker bias
Gurpinaret al. (2016a) 结合了在此数据集上训练的预训练模型来提取特征。
Biel (2012) 发现Vlog拍摄者的表情和他们的人格有关，Biel 使用Computer Expression Recognition Toolbox (CERT) 提取到拍摄者的表情，然后发现表情和对应的人格是相关的。
Eddine Bekhouche et al. (2017) 提出 Local
Phase Quantization (LPQ) and Binarized Statistical Image features (BSIF) 用来提取输入的视频，用来减少资源的消耗

4.4 双模态

4.4.1 图像和音频

Kindiroglu et al. (2017) 进行迁移学习，首先在较大的语料 VLOG corpus 训练自己模型，然后在ELEA corpus 来预测个体人格的extraversion 方向，在特征的选取上使用Maximum Relevance Minimum Redundancy (MRMR) ，获取此方向的提升
Gucluturk et al. (2017) 提出一个双流网络模型Deep Residual Networks (DRN) ，其中一个是视觉模态，一个是听觉模态。
(Zhang et al. 2016) 使用 Deep Bimodal Regression 模型刷新了ChaLearn Challenge 2016 的准确率，此模型包括三个部分，视觉模态回归，听觉模态回归，以及二者的特征结合进行预测。对于视觉模态部分，使用Descriptor Aggregation Network (DAN) ，也就是一个修改过的CNN网络结构，对于听觉模态，则是使用logfbank 进行特征提取。
Rai et al. (2016) 将15s的音频变成多个2-3s的小片段，增加了数据样本大小，得到较好的结果提升，使用FFMPEG 把音频从视频中分离，接上OpenSMILE 框架进行音频特征提取。此外他认为5个人格方面之前有一定的关联性，所以训练的特征是包括两个方面，一个是global component ，一个是对应人格的specific component ，六个模型共同预测5个人格方面
Subramaniam et al. (2016) 创新使用volumetric 3D convolution 进行特征提取
Yang et al. (2017) 提出了一个基于LSTM进行特征提取的网络，网络结构图如下
Zhao et al. (2019) 研究了人格特点对情感的影响。

==============================

Madzlan et al. (2014) 分析Vlogger的表情

4.4.2 音频和文本

An (2018) 结合音频和文本，对于音频，他使用low level descriptor(LLD)features 进行特征提取，对与文本 LIWC ， Dictionary of Affect in Language (DAL) 进行特征提取。然后将两者提取的特征结合起来放入MLP分类

4.5 三模态

三模态包括以上的三种形式。

(Gorbovaet al. 2017) 使用三模态网络，其中包括面部特征（OpenFace 提取），音频特征（MFCC,ZCR, OpenSMILE 提取） SenticNet 提取文本特征。
Poria et al. (2017) 使用层次化的网络结构进行特征提取分类。将三个模态提取的特征放入LSTM中。网络结构如图
Vo et al. (2018) 提出了使用 Discriminant Correlation Analysis(DCA) 减少输入大小，使得模型的计算量减少
(Kampman et al. 2018) 训练三通道输入输出多类别的模型，输入使用CNN进行提取。

5 Results and discussions

当前最好结果如图

基于深度学习的性格探测综述 阅读笔记