Automatic Extraction of Personality from Text Challenges and Opportunities 閱讀筆記
論文地址 https://ieeexplore.ieee.org/document/9005467/
摘要
在這項研究中,我們研究了從文本中提取人格特質的可能性。我們通過讓專家在來自多個在線來源的大量文本中註釋個性特徵來創建了一個大數據集。從這些帶註釋的文本中,我們選擇了一個樣本,並進行了進一步的註釋,得到了兩個數據集 (一個是大型低可靠性的數據集, 另一個是小型高可靠性的數據集)。然後我們使用這兩個數據集來訓練和測試幾種機器學習模型,以從文本中提取個性。最後,我們對來自不同領域的野生數據集進行了評估。我們的結果表明,基於小型高可靠性數據集的模型比基於大型低可靠性數據集的模型表現更好。而且基於小型高可靠性數據集的語言模型的性能要優於隨機Baseline方法。最後,結果表明,在野生數據集測試時,我們最好的模型的性能沒有比隨機基準更好。我們的結果表明,從文本中確定人格特徵仍然是一個挑戰,並且在野生數據集測試之前無法對模型性能做出明確的結論。
1. 介紹
THE BIG FIVE 模型, 把人的個性分爲5種類型:
開放性(openness):具有想象、審美、情感豐富、求異、創造、智能等特質。
責任心(conscientiousness):顯示勝任、公正、條理、盡職、成就、自律、謹慎、剋制等特點。
外傾性(extroversion):表現出熱情、社交、果斷、活躍、冒險、樂觀等特質。
宜人性(agreeableness):具有信任、利他、直率、依從、謙虛、移情等特質。
神經質性(neuroticism):難以平衡焦慮、敵對、壓抑、自我意識、衝動、脆弱等情緒的特質,即不具有保持情緒穩定的能力
在前幾年心理學專家和計算機專家聯合在一起用於從一些社交媒體的活動來探究個性,但是隨着Facebook劍橋分析醜聞, 使得種方式的研究遭到了懷疑,於是更多的研究傾向於從不同的一些資源中得到文本來提取個性。
近幾年這些工作得到了一些進展,可以從相關工作中看到,但是我們發現我們對於訓練好的模型,在一些野外的數據集上進行測試的時候,效果其實是非常有限的。
這篇文章旨在去討論三個問題
- 創造一個模型,它能夠有效的提取人格特點
- 探究 那些大數據集,但是質量不高和數據集小,但是質量很高的數據集上進行訓練出來的模型的效果進行比較
- 評估以上兩個數據集上訓練出來的模型 對於其他數據集表現,
2. 相關工作
2.1 迴歸方法
-
myPersonality 數據集
M. Kosinski 使用 組合邏輯迴歸和線性迴歸來對此數據集上的個性進行訓練,最好的結果是58.83%,
-
Bayesian MultinomialRegression model
S. Argamon, 使用貝葉斯多項迴歸,對一個長文本的數據集進行特徵提取,得到65.7的準確率了
-
微博數據集
使用多種迴歸方法,對微博的444個用戶的數據進行特徵提取,使用的是MAPE進行評估。
2.2 深度神經網絡
- Kalghatgi 使用神經網絡來分析推特用戶的文本信息, 來預測其性格特點。
- Pennebaker 使用深度神經網絡來對2469篇文章樣本,將進行分析,並且預測其發佈者的性格,文章過濾的所有句子詞數爲空的句子,並且分類標準是一個二分類問題
- T. Tandera, Hendro,等人,使用深度神經網絡,對兩個數據集進行訓練, 一個是myPersonality 的250個Facebook用戶發佈的10000個文本, 另一個則是使用ApplyMagicSauce 工具來分析150個Facebook用戶文本數據集。
3. 模型訓練
使用了 SVR 和 LM 來當做分類器, 進行特徵提取, 用爬蟲來收集數據,然後用學生來對數據進行標註,最後使用SVR和 LM 預訓練模型來進行預測, 其中 預訓練模型是使用了ULMFiT , 結果使用MAE, MSE來進行預測
其優點有
- 用於實現像CV領域的遷移學習,並可以用於任意NLP任務。
- 提出了一些訓練的策略,比如discriminative fine-tuning、slanted triangular learning rates、gradual unfreezing等。
- 在6個文本分類的任務上表現不俗,甚至提升了18~24%。
- 可以用少量樣本訓練。
- 有充足的源碼、預訓練模型等
其具體細節可以參考https://blog.csdn.net/Magical_Bubble/article/details/89493430
測試集的結果顯示:使用與訓練模型的表現會更好
4. 野生數據集上的個性探測
我們把訓練好的模型放到野生數據集上進行訓練,我們發現在小但可靠的數據集上的準確率要更大。
5. 結論
- 將少量高質量的訓練數據訓練出的模型性能優於基於大量單獨註釋數據的模型
- 該模型無法可靠地從文本中提取人們的個性
6. 心得
- 給出瞭如何去創建一個數據集, 其中的隨機選擇和數據爬取很有借鑑意義
- 啓示我們數據集還是很重要的, 寧願高質量,不用低質量。 不過BERT模型就是從大量語料中訓練出來的預訓練模型,質量的話也不算太高, 但是BERT效果很好, 所以這一點還需要考慮一下
- 總體來說並不是非常的有較爲新的方法