Unsupervised Sentiment Analysis with Signed Social Networks--閱讀筆記

Abstract

背景:數量龐大的數據用戶產生了大量的社交媒體數據,減慢了個人和公衆情感分析的進度。

存在的挑戰:

  1. 社交媒體數據往往帶有噪聲,且是不完整和快速發展的,這就需要設計一個複雜的學習模型。
  2. 情感標籤難以收集,由於無法區分情感極性而進一步加劇了這個問題。

存在的機遇:

  1. 社交媒體數據在文字和用戶交互包含豐富的情感信息,有助於情感分析。
  2. 目前的研究對具有正連接和負連接的有符號社交網絡幾乎沒有注意。

主要工作:這篇文章研究了一個在有符號社交網絡中進行無監督情感分析的新問題。具體來說,在有符號社交網絡中引入了情感信息和隱含情感信號,並將其引入到情感模型中。

Introduction

這篇文章主要解決了以下兩個問題:

  1. 用戶之間積極和消極的互動是否顯示出不同的情感極性?
  2. 如何以無監督的方式明確模擬用戶之間的積極和消極的情感分析?

爲解決這兩個問題,提出了一個無監督情感分析框架SignedSenti,總結貢獻如下:

  1. 驗證了用戶之間積極和消極的互動有助於揭示文本中不同的情感極性;
  2. 提出了一個新的框架SignedSenti,用於在正面和負面用戶交互中利用文本術語中的顯式情感信號和隱式情緒信號
    用於無監督的情緒分析;
  3. 在真實世界的有符號社交網絡上驗證了SignedSenti框架的有效性。

Problem Statement

這裏寫圖片描述

  • T={t1,t2,...tm} be a set of m text posts;
  • F={f1,f2,...fd} be a set of d textual terms;
  • U={u1,u2,...un} be a set of n users;
  • O={o1,o2,...od} be a set of l items; text-item relation matrix O{0,1}ml where Oi,j=1 if text post ti is about item oj , otherwise Oi,j=0 .
  • User-Text relation matrix T0,1n×m such that Ti,j=1 if text post tj is posted by user ui , Ti,j=0 otherwise.
  • User-User relation matrix ARn×n where Aij=1 , Aij=1 and Aij=0 represent positive, negative and missing links from user ui to uj , respectively.

Definition 1 Positive Linked Set:
如果 uaub 存在正連接,其中user ua 發的post ti 關於item or ,且user ub 發的post tj 也關於item or ,則存在正連接,即:
這裏寫圖片描述

Definition 2 Negative Linked Set:
如果 uaub 存在負連接,其中user ua 發的post ti 關於item or ,且user ub 發的post tj 也關於item or ,則存在負連接,即:
這裏寫圖片描述

Assumption 1 Signed Link Based Partial Order:
具有正連接的兩個post的相似性大於具有負連接的兩個post相似性,即:
這裏寫圖片描述

Data Analysis

這裏寫圖片描述

  • Epinions:商品評價數據,用戶可以通過評分去相信或不相信其他人的評價,當評分爲1,2,3分爲當做負連接,評分爲4,5,6當做正連接;
  • Slashdot:論文評價數據,用戶可以標註其他人爲自己的朋友或敵人,即對應正負連接。

Proposed Framework-SignedSenti

Basic Model for Unsupervised Sentiment Analysis

無監督情感分析本質上是聚類問題,它的基本模型可由如下非負矩陣分解問題構建:
這裏寫圖片描述

  • URm×k 爲text-sentiment cluster matrix,其中如果text post ti 屬於類cjUij=1 ,否則Uij=0 。(m 爲text post的總數,k 爲情感類的總數)
  • VRd×k 爲term-sentiment matrix, 其中每一行表示每個term在k 個情感類中的分佈情況。(d 爲term的總數)
  • 後半部分正則化項避免過擬合。

Sentiment Signals from Textual Terms

有些術語帶有強烈的情感色彩,如“wonderful” 和 “appealing”表達積極的情感, “terrible” 和“disappointed”表達負面的情感。

根據情感詞庫SentiWordNet,定義了term-sentiment indication matrix PRd×k 去編碼單詞的情感極性,在這裏設置k=2 ,讓Pi1 記錄term fi 的正分數,Pi2 記錄term fi 的負分數。

爲了利用文本情感信號,我們強迫基本模型中的情緒矩陣V 通過最小化與P 一致:
這裏寫圖片描述

Exploiting Positive and Negative Interactions

如果tj (與ti 存在正連接)比tk (與ti 存在負連接)更接近ti 的情感,則存在:
這裏寫圖片描述

否則:
這裏寫圖片描述

所以應該增加一個懲罰項來拉動tj (與ti 存在正連接)比tk (與ti 存在負連接)更接近ti 的情感,即:
這裏寫圖片描述

其中:
這裏寫圖片描述

上述公式可改寫爲:
這裏寫圖片描述

  • M 爲稀疏矩陣,其中Mij=Mji=Mkk=1Mik=Mki=Mjj=1 ,其他爲0.
  • 這裏寫圖片描述

Objective Function of SignedSenti

這裏寫圖片描述

  • 參數αβ 分別控制來自terms和有符號社交網絡的情感信號的貢獻。

因上述目標函數難解,故放寬限制條件:
這裏寫圖片描述

Optimization Algorithm for SignedSenti

固定V ,更新U

這裏寫圖片描述

固定U ,更新V

這裏寫圖片描述

算法框架:

這裏寫圖片描述

Experiments

Experimental Setting

  • 評估指標:聚類準確性
  • 對比算法:
  • 這裏寫圖片描述

  • 實驗結果:

  • 這裏寫圖片描述

  • 實驗總結:提出的框架比其他算法效果更好!

  • -
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章