Abstract
背景:數量龐大的數據用戶產生了大量的社交媒體數據,減慢了個人和公衆情感分析的進度。
存在的挑戰:
- 社交媒體數據往往帶有噪聲,且是不完整和快速發展的,這就需要設計一個複雜的學習模型。
- 情感標籤難以收集,由於無法區分情感極性而進一步加劇了這個問題。
存在的機遇:
- 社交媒體數據在文字和用戶交互包含豐富的情感信息,有助於情感分析。
- 目前的研究對具有正連接和負連接的有符號社交網絡幾乎沒有注意。
主要工作:這篇文章研究了一個在有符號社交網絡中進行無監督情感分析的新問題。具體來說,在有符號社交網絡中引入了情感信息和隱含情感信號,並將其引入到情感模型中。
Introduction
這篇文章主要解決了以下兩個問題:
- 用戶之間積極和消極的互動是否顯示出不同的情感極性?
- 如何以無監督的方式明確模擬用戶之間的積極和消極的情感分析?
爲解決這兩個問題,提出了一個無監督情感分析框架SignedSenti,總結貢獻如下:
- 驗證了用戶之間積極和消極的互動有助於揭示文本中不同的情感極性;
- 提出了一個新的框架SignedSenti,用於在正面和負面用戶交互中利用文本術語中的顯式情感信號和隱式情緒信號
用於無監督的情緒分析; - 在真實世界的有符號社交網絡上驗證了SignedSenti框架的有效性。
Problem Statement
T={t1,t2,...tm} be a set ofm text posts;F={f1,f2,...fd} be a set ofd textual terms;U={u1,u2,...un} be a set ofn users;O={o1,o2,...od} be a set ofl items; text-item relation matrixO∈{0,1}m∗l whereOi,j=1 if text postti is about itemoj , otherwiseOi,j=0 .- User-Text relation matrix
T∈0,1n×m such thatTi,j=1 if text posttj is posted by userui ,Ti,j=0 otherwise. - User-User relation matrix
A∈Rn×n whereAij=1 ,Aij=−1 andAij=0 represent positive, negative and missing links from userui touj , respectively.
Definition 1 Positive Linked Set:
如果
Definition 2 Negative Linked Set:
如果
Assumption 1 Signed Link Based Partial Order:
具有正連接的兩個post的相似性大於具有負連接的兩個post相似性,即:
Data Analysis
- Epinions:商品評價數據,用戶可以通過評分去相信或不相信其他人的評價,當評分爲1,2,3分爲當做負連接,評分爲4,5,6當做正連接;
- Slashdot:論文評價數據,用戶可以標註其他人爲自己的朋友或敵人,即對應正負連接。
Proposed Framework-SignedSenti
Basic Model for Unsupervised Sentiment Analysis
無監督情感分析本質上是聚類問題,它的基本模型可由如下非負矩陣分解問題構建:
U∈Rm×k 爲text-sentiment cluster matrix,其中如果text postti 屬於類cj 則Uij=1 ,否則Uij=0 。(m 爲text post的總數,k 爲情感類的總數)V∈Rd×k 爲term-sentiment matrix, 其中每一行表示每個term在k 個情感類中的分佈情況。(d 爲term的總數)- 後半部分正則化項避免過擬合。
Sentiment Signals from Textual Terms
有些術語帶有強烈的情感色彩,如“wonderful” 和 “appealing”表達積極的情感, “terrible” 和“disappointed”表達負面的情感。
根據情感詞庫SentiWordNet,定義了term-sentiment indication matrix
爲了利用文本情感信號,我們強迫基本模型中的情緒矩陣
Exploiting Positive and Negative Interactions
如果
否則:
所以應該增加一個懲罰項來拉動
其中:
上述公式可改寫爲:
M 爲稀疏矩陣,其中Mij=Mji=Mkk=−1 和Mik=Mki=Mjj=1 ,其他爲0.
Objective Function of SignedSenti
- 參數
α 和β 分別控制來自terms和有符號社交網絡的情感信號的貢獻。
因上述目標函數難解,故放寬限制條件:
Optimization Algorithm for SignedSenti
固定V ,更新U :
固定U ,更新V :
算法框架:
Experiments
Experimental Setting
- 評估指標:聚類準確性
- 對比算法:
實驗結果:
實驗總結:提出的框架比其他算法效果更好!
-