Recent trends in deep learning based personality detection

abstract

近年來，人格的自動預測受到了廣泛關注。具體而言，從多重數據（多模態） 預測人格已成爲情感計算領域的熱門話題。在本文中，我們回顧了用於人格檢測的重要機器學習模型，重點是基於深度學習的方法。這篇綜述文章概述了最流行的人格檢測方法，各種計算數據集，工業應用以及用於人格檢測的最新機器學習模型，文章將重點關注多模態。人格檢測是一個非常廣泛而多樣的主題：本次調查僅關注計算機方法方法，而沒有進行關於人格檢測的心理學研究。

1. introduction

人格是個人的行爲，情感，動力和思想模式特徵的組合。我們的人格對我們的生活有很大的影響，影響我們的生活選擇，福祉，健康以及我們的喜好和慾望。因此，自動檢測人格特徵的能力具有許多重要的實際應用。伍德沃思精神神經病學調查表**（Papurt，1930年）**通常被稱爲第一個人格測驗。它是在第一次世界大戰期間爲美國軍方開發的，目的是對新兵進行創傷後應激障礙的篩查。如今，PCM 是一種廣泛使用和被認可的人格模型。它是由Taibi Kahler在NASA資助下開發的，最初用於協助航天飛機宇航員的選擇。現在，該模型主要用於個人諮詢，用以幫助個人提高溝通效率。

除了直接確定一個人的人格之外，人們可能還想知道周圍的人如何看待他們。與自動人格識別不同，感知人格分析的目標不是自己認爲的真實人格，而是與之互動的人是如何看待他們的他們的人格。測試方法是， 被測者的周圍的人填寫人格問卷，然後確定該被測者人的感知人格。

1.1 人格衡量方法

表示人格的方法有很多種，有16PF (Cattell and Mead 2008), EPQ-R (Miles and Hempel 2004)， PEN (Eysenck 2012)， The Myers Briggs Type Indicator (MBTI)等，感興趣的可以自己拓展

比較流行的就是Big-Five，將一個人的人格分爲

開放性（openness）：具有想象、審美、情感豐富、求異、創造、智能等特質。
責任心（conscientiousness）：顯示勝任、公正、條理、盡職、成就、自律、謹慎、剋制等特點。
外傾性（extroversion）：表現出熱情、社交、果斷、活躍、冒險、樂觀等特質。
宜人性（agreeableness）：具有信任、利他、直率、依從、謙虛、移情等特質。
神經質性（neuroticism）：難以平衡焦慮、敵對、壓抑、自我意識、衝動、脆弱等情緒的特質，即不具有保持情緒穩定的能力

1.2 應用前景

可以用作以下這些方面：


Enhanced personal assistants	應用於個人助手， Siri等，使之根據不同用戶的不同人格產生個性化的迴應
Recommendation systems	推薦系統
Word polarity detection	流行詞的探測
Specialized health care and counseling	心理健康諮詢
ForensicsIf	犯罪偵查，通過探測在場人員的人格，減少犯罪嫌疑人的範圍
Job screening	幫助僱傭者找到更符合此工作（人格檢測）的人
Psychological studies	心理學研究
Political forecasting	幫助政客提出更有效的拉票方案

1.3 倫理道德

討論了人格探測的合法性，目前對於這方面的法律不健全，而且分析他人的人格是否是一種侵犯有待商榷。

2. Related works

2014年以前，使用 Naïve Bayes, kNN, mLR, Gaussian Process 這種淺學習技術進行分類
2014年後，逐步採用了深度學習模型來提升準確率
2016年，使用來**simage processing techniques（圖像處理技術） and facial feature analysis（面部特徵分析）**進行對圖像上的人格分析
使用不同的人格衡量標準如， MBTI以及加入了不同的指標如， unhappy, weird, intelligent, confident,等等
2014年， Vinciarelli and Mohammadi 等人將人格探測分出來三個下游任務， -
Automatic Personality Perception (APP) 人格感知
Automatic Personality Synthesis (APS)
AutomaticPersonality Recognition (APR). 人格識別
2018年，使用多模態技術，將不同的數據（文本，圖像）同時輸入到模型中

3. Baseline methods

介紹一些基本的模型，結構和技術

3.1 文本

文本分爲三個個方面

通過LIWC， MRC等文本特徵提取技術以及簡單的分類器（SVM， SMO）進行分類
通過fine-tune的詞嵌入模型（GloVe or Word2Vec)結合深度神經網絡（LSTM，GRU ）等進行分類
兩者結合

3.2 音頻

這個領域方法稍微少些，主要是利用一些標準的音頻特徵提取模型，例如Mel-Frequency Cepstral Coefficients (MFCC), Zero Crossing Rate (ZCR), Logfbank，然後再加上簡單分類器SVM等

3.3 圖像

首先是使用一些基本的CNN。
使用來一些fine-tuned的模型如，VGG-Face，EigenFace,等

3.4 多模態

將以上的兩類或三類的數據，輸入到一個多模態的模型中，比較常見的有Deep Residual Networks

目前流行的特徵提取工具以及介紹

4. Detailed overview

4.1 文本

4.1.1 LIWC/MRC

LIWC是一個基於心理學的文本情感分析關鍵，它根據心理學研究將要單詞分成不同的單詞種類，然後計算每個種類的頻率，將其作爲模型輸入，然後進行分類。
The PR2 system (Celli and Poesio 2014) 則是從LIWC/MRC進一步提取出特徵，例如標點符號等，不同的是，只有提取的特徵數值大於平均值，才能被用來進行分類，研究發現這些特徵和人的人格具有相關性。這項技術雖然沒有提升準確性，但是卻有助於更有效的特徵提取

4.1.2 Receptiviti API

這個是基於LIWC，相當於LIWC的API，通過提交文本，返回文本的特徵提取結果，但是這個API對於社交媒體的文本的效果不是很好。

4.1.3 社交網絡文本研究

當前，通過社交網絡上的文本進行人格探測，非常流行 Kalghatgi et al. (2015)等人，將用戶的社交習慣（平均使用表情數目）以及文本的語言學特徵（平均文本長度）作爲特徵輸入，然後輸入到a Multi-Layer Perceptron (MLP).（多重感知器）進行分類預測

4.1.4 深度神經網絡應用

對於新的數據集consciousness essay dataset (Pennebaker and King 1999)文本類型是文章， Majumder et al. (2017)等人使用CNN來進行文章的特徵提取，下圖是具體的網絡結構，其中：每一篇文章，看成句子向量的集合，句子向量是通過對單詞向量的卷積形成，單詞使用Word2Vec進行詞嵌入，最終得到的文檔向量，　文檔向量再加上LIWC和MRC提取的特徵作爲提取的最終結果，將此結果放入一個全連接層，接Sofmax，求出yes/no的概率。
Hernandez and Scott (2017) 等人，則另闢蹊徑，將表示好的句向量，作爲一個時間序列，輸入到一個循環神經網絡中（用了多種， RNN， LSTM，雙向LSTM， GRU）
Liu et al. (2016) 等人則不用GloVe 和 Word2Vec，而是使用一個雙向的GRU進行詞嵌入，將單詞向量組再輸入到一個雙向的RNN形成句向量，最終放到前饋神經網絡進行預測分類。結果發現此模型在corpus of Tweets. 的結果較好。
Sun et al. (2018) 提出了Latent Sentence Group用來表示文章特徵， LSG的提取是通過雙向的LSTM，以及CNN得出的，文章細節可以看Who Am I? Personality Detection based on Deep Learning for Texts 閱讀筆記

4.1.5 SenticNet 5

(Cambria et al. 2018)等人使用SentiNet5模型，此模型結合了情感分析的兩類方法（基於統計模型和基於知識模型），利用此網絡提取出的特徵，放到SMO（序列最小優化算法）進行分類。

4.1.6 weighted ML-kNN（多標籤學習）

Zuo (2013)等人認爲，每個人格類別之間是有一定的關聯的，　準確率提不高的原因在於５個類別，同時訓練５個分類器，獨立分類。於是他們選擇多標籤學習模型進行分類，提取出的特徵權重，使用熵權理論得出。

4.1.7 其他信息作爲特徵加入

(Chittaranjan et al. 2011) 不侷限於單純的文本，他將研究方向轉到來與人息息相關的手機信息上，他開發一個軟件，提取用戶的手機習慣（應用打開頻率，音樂偏好等）作爲提取的特徵，然後使用了迴歸分析， SVM， C4.5等進行分類。
conversations作爲特徵，有時候是通過兩個個體的聊天記錄來進行人格探測，信息作爲一個時序序列，被放到RNN中，**Su et al. (2016)提出了Hidden Markov Model HMM **模型通過輸入兩個人的對話記錄，來進行人格探測。
Conversational Dialog Corpus作爲數據集

4.2 語音

4.2.1 語音特點+分類器

語音可以分成七個組別intensity, pitch, loudness,
formants, spectrals, MFCC and other features），研究者用其中七個組別的語音，進行人格探測。(Polzehl et al. 2010).等人使用Praat軟件對語音進行分析，提取特徵，然後將特徵喂入SVM分類器中，發現5大人格是有着內在聯繫的，其中一類發生變化，會引起其他四類發生顯著變化。

4.2.2 非語言特點

有些研究者認爲這些非語言特點（音韻，重複，暫停）更能體現人格特點， Valente et al. (2012) 對AMI corpus dataset數據集進行研究，他們將incorporating dialog act tags 特徵（表示說話人的意圖）作爲一個新的特徵放入到分類器中。

4.2.3 引入神經網絡

**Palaz et al. (2015)**使用CNN來進行分類，與傳統方法不同，傳統是先提取特徵向量，然後將提取的特徵放入分類器。Palaz 直接將未經處理的音頻波形當做輸入。

4.2.4 幫助其他任務的模型

deception detection和人格探測任務很像， Levitan et al. (2016)使用AdaBoost， Random forest 等進行進行人格探測，然後將此結果作爲deception detection的輸入，同時結合了語言特點（LIWC），語調特點等特徵進行deception 預測，結果變得更好

4.3 圖像

4.3.1 圖像分析

(Kamenskaya and Kukharev 2008)等人分析人臉生理特徵（鼻子形狀等），將其作爲輸入，進行人格分析
Cristani et al. (2013) 等人將人喜歡的圖片（被他們點讚的圖片） 作爲輸入，輸入到lasso regressor迴歸中
Liu et al. (2016) 則認爲，人們在推特上上傳的簡介照片 （Twitter profile picture.） 和人的人格有關，他們發現他們簡介的照片的 審美特徵 以及 面部特徵和人的人格有相關性。
Ventura et al. (2017) 對CNN爲什麼能較好的提取特徵做了研究，一直以來CNN被認爲是一個黑盒，爲什麼能提取出好的特徵的原理沒法解釋清楚， Ventura使CNN模型的活躍區域可視化，發現活躍區域集中在眼睛和鼻子這塊，這些區域叫做 .Action Units ， 作者將Action Units區域的向量輸入到分類器中進行人格探測，發現結果和最新模型達到的結果相近。
Gucluturk et al. (2017) 把圖片分爲 6 個區域（background region, hair region, skin region, eye region, nose region and mouth region），然後發現每個區域至少能探測到一個人格方向，每個人格方向都被不同區域探測，而且每個區域對人格方向的作用不同，例如，對應background 區域增加了extraversion的分數，但是降低 conscientiousness的分數
Rojas et al. (2011) 使用兩個指標（1）臉的外觀紋理，（2）面部點的位置，第一個指標分別通過EigenFaces和Histogram of Oriented Gradients 得到，這些提取的特徵放到標準的分類器中，結果發現Histogram of Oriented Gradients 提取的效果更好

4.3.2 視頻分析

第一印象和人格探測很相似， ChaLearn First Impressions dataset. 此數據集是關於第一印象的，數據量較大，可以用來做遷移學習

Chen et al. (2016) 嘗試多種方法來 eliminating worker bias
Gurpinaret al. (2016a) 結合了在此數據集上訓練的預訓練模型來提取特徵。
Biel (2012) 發現Vlog拍攝者的表情和他們的人格有關，Biel 使用Computer Expression Recognition Toolbox (CERT) 提取到拍攝者的表情，然後發現表情和對應的人格是相關的。
Eddine Bekhouche et al. (2017) 提出 Local
Phase Quantization (LPQ) and Binarized Statistical Image features (BSIF) 用來提取輸入的視頻，用來減少資源的消耗

4.4 雙模態

4.4.1 圖像和音頻

Kindiroglu et al. (2017) 進行遷移學習，首先在較大的語料 VLOG corpus 訓練自己模型，然後在ELEA corpus 來預測個體人格的extraversion 方向，在特徵的選取上使用Maximum Relevance Minimum Redundancy (MRMR) ，獲取此方向的提升
Gucluturk et al. (2017) 提出一個雙流網絡模型Deep Residual Networks (DRN) ，其中一個是視覺模態，一個是聽覺模態。
(Zhang et al. 2016) 使用 Deep Bimodal Regression 模型刷新了ChaLearn Challenge 2016 的準確率，此模型包括三個部分，視覺模態迴歸，聽覺模態迴歸，以及二者的特徵結合進行預測。對於視覺模態部分，使用Descriptor Aggregation Network (DAN) ，也就是一個修改過的CNN網絡結構，對於聽覺模態，則是使用logfbank 進行特徵提取。
Rai et al. (2016) 將15s的音頻變成多個2-3s的小片段，增加了數據樣本大小，得到較好的結果提升，使用FFMPEG 把音頻從視頻中分離，接上OpenSMILE 框架進行音頻特徵提取。此外他認爲5個人格方面之前有一定的關聯性，所以訓練的特徵是包括兩個方面，一個是global component ，一個是對應人格的specific component ，六個模型共同預測5個人格方面
Subramaniam et al. (2016) 創新使用volumetric 3D convolution 進行特徵提取
Yang et al. (2017) 提出了一個基於LSTM進行特徵提取的網絡，網絡結構圖如下
Zhao et al. (2019) 研究了人格特點對情感的影響。

==============================

Madzlan et al. (2014) 分析Vlogger的表情

4.4.2 音頻和文本

An (2018) 結合音頻和文本，對於音頻，他使用low level descriptor(LLD)features 進行特徵提取，對與文本 LIWC ， Dictionary of Affect in Language (DAL) 進行特徵提取。然後將兩者提取的特徵結合起來放入MLP分類

4.5 三模態

三模態包括以上的三種形式。

(Gorbovaet al. 2017) 使用三模態網絡，其中包括面部特徵（OpenFace 提取），音頻特徵（MFCC,ZCR, OpenSMILE 提取） SenticNet 提取文本特徵。
Poria et al. (2017) 使用層次化的網絡結構進行特徵提取分類。將三個模態提取的特徵放入LSTM中。網絡結構如圖
Vo et al. (2018) 提出了使用 Discriminant Correlation Analysis(DCA) 減少輸入大小，使得模型的計算量減少
(Kampman et al. 2018) 訓練三通道輸入輸出多類別的模型，輸入使用CNN進行提取。

5 Results and discussions

當前最好結果如圖

基於深度學習的性格探測綜述 閱讀筆記