Unsupervised Sentiment Analysis with Signed Social Networks--閱讀筆記

原創

2018-09-04 20:06

Abstract

背景：數量龐大的數據用戶產生了大量的社交媒體數據，減慢了個人和公衆情感分析的進度。

存在的挑戰：

社交媒體數據往往帶有噪聲，且是不完整和快速發展的，這就需要設計一個複雜的學習模型。
情感標籤難以收集，由於無法區分情感極性而進一步加劇了這個問題。

存在的機遇：

社交媒體數據在文字和用戶交互包含豐富的情感信息，有助於情感分析。
目前的研究對具有正連接和負連接的有符號社交網絡幾乎沒有注意。

主要工作：這篇文章研究了一個在有符號社交網絡中進行無監督情感分析的新問題。具體來說，在有符號社交網絡中引入了情感信息和隱含情感信號，並將其引入到情感模型中。

Introduction

這篇文章主要解決了以下兩個問題：

用戶之間積極和消極的互動是否顯示出不同的情感極性？
如何以無監督的方式明確模擬用戶之間的積極和消極的情感分析？

爲解決這兩個問題，提出了一個無監督情感分析框架SignedSenti，總結貢獻如下：

驗證了用戶之間積極和消極的互動有助於揭示文本中不同的情感極性;
提出了一個新的框架SignedSenti，用於在正面和負面用戶交互中利用文本術語中的顯式情感信號和隱式情緒信號
用於無監督的情緒分析;
在真實世界的有符號社交網絡上驗證了SignedSenti框架的有效性。

Problem Statement

T={t1,t2,...tm} be a set of m text posts;
F={f1,f2,...fd} be a set of d textual terms;
U={u1,u2,...un} be a set of n users;
O={o1,o2,...od} be a set of l items; text-item relation matrix O∈{0,1}m∗l where Oi,j=1 if text post ti is about item oj , otherwise Oi,j=0 .
User-Text relation matrix T∈0,1n×m such that Ti,j=1 if text post tj is posted by user ui , Ti,j=0 otherwise.
User-User relation matrix A∈Rn×n where Aij=1 , Aij=−1 and Aij=0 represent positive, negative and missing links from user ui to uj , respectively.

Definition 1 Positive Linked Set:
如果 ua 和 ub 存在正連接，其中user ua 發的post ti 關於item or ，且user ub 發的post tj 也關於item or ，則存在正連接，即：

Definition 2 Negative Linked Set:
如果 ua 和 ub 存在負連接，其中user ua 發的post ti 關於item or ，且user ub 發的post tj 也關於item or ，則存在負連接，即：

Assumption 1 Signed Link Based Partial Order:
具有正連接的兩個post的相似性大於具有負連接的兩個post相似性，即：

Data Analysis

Epinions：商品評價數據，用戶可以通過評分去相信或不相信其他人的評價，當評分爲1，2，3分爲當做負連接，評分爲4，5，6當做正連接；
Slashdot：論文評價數據，用戶可以標註其他人爲自己的朋友或敵人，即對應正負連接。

Proposed Framework-SignedSenti

Basic Model for Unsupervised Sentiment Analysis

無監督情感分析本質上是聚類問題，它的基本模型可由如下非負矩陣分解問題構建：

U∈Rm×k 爲text-sentiment cluster matrix，其中如果text post ti 屬於類cj 則Uij=1 ，否則Uij=0 。（m 爲text post的總數，k 爲情感類的總數）
V∈Rd×k 爲term-sentiment matrix, 其中每一行表示每個term在k 個情感類中的分佈情況。（d 爲term的總數）
後半部分正則化項避免過擬合。

Sentiment Signals from Textual Terms

有些術語帶有強烈的情感色彩，如“wonderful” 和 “appealing”表達積極的情感， “terrible” 和“disappointed”表達負面的情感。

根據情感詞庫SentiWordNet，定義了term-sentiment indication matrix P∈Rd×k 去編碼單詞的情感極性，在這裏設置k=2 ，讓Pi1 記錄term fi 的正分數，Pi2 記錄term fi 的負分數。

爲了利用文本情感信號，我們強迫基本模型中的情緒矩陣V 通過最小化與P 一致：

Exploiting Positive and Negative Interactions

如果tj （與ti 存在正連接）比tk （與ti 存在負連接）更接近ti 的情感，則存在：

否則：

所以應該增加一個懲罰項來拉動tj （與ti 存在正連接）比tk （與ti 存在負連接）更接近ti 的情感，即：

其中：

上述公式可改寫爲：

M 爲稀疏矩陣，其中Mij=Mji=Mkk=−1 和 Mik=Mki=Mjj=1 ，其他爲0.

Objective Function of SignedSenti

參數α 和β 分別控制來自terms和有符號社交網絡的情感信號的貢獻。

因上述目標函數難解，故放寬限制條件：

Optimization Algorithm for SignedSenti

固定V ，更新U ：

固定U ，更新V ：

算法框架：

Experiments

Experimental Setting

評估指標：聚類準確性
對比算法:
實驗結果：
實驗總結：提出的框架比其他算法效果更好！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

泛統計理論初探——模型泛化能力增強技巧

數據挖掘-機器學習模型泛化增強技巧機器學習模型泛化能力增強技巧簡介在之前的文章中，我們已經介紹了三種提高模型泛化能力的方法，即前一篇文章介紹的L1正則化、L2正則化、DropOut方法。在本文中，我們將會從數據角度、模型

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——過擬合與欠擬合探討

數據挖掘-過擬合與欠擬合的簡介過擬合與欠擬合簡介在我們數據挖掘的學習中，經常會出現過擬合和欠擬合的情況。比如使用BP神經網絡進行預測的時候，可能會造成數據的過擬合；使用簡單的一元線性迴歸的進行預測的時候，可能會造成數據的欠擬合

喷火龙与水箭龟

2020-07-08 04:17:12

Mysql疑難雜症收集

Mysql疑難雜症收集 By Eagoo 　　　　一、可疑問題：　　　　　　　　mysql>show processlist; 　　　　

单线程的娃

2020-07-08 12:00:56

[深度之眼]LeNet/AlexNet/VGGNet/InceptionNet/ResNet實現fashion_mnist分類

本文使用五種經典卷積神經網絡，實現fashion_mnist十分類問題，並對比準確度和運行時間LeNet5 原理AlexNet8 原理VGGNet16 原理InceptionNet10 原理ResNet18 原理用到的包： im

2020-07-08 11:53:37

最近鄰搜索神器——一文讀懂局部敏感哈希LSH原理

什麼是LSH? LSH主要用來解決高維空間中點的近似最近鄰搜索問題,即Approximate Nearest Neighbor(ANN)。在實際的應用中我們所面對的數據是海量的,並且有着很高的維度。在對數據的各種操作中,查詢操作

2020-07-08 05:33:08

[B11]數據挖掘實戰：客戶流失預警系統

*這是一個數據挖掘的小項目，將從以下幾個方面來分析：數據清洗與格式轉換探索性數據分析特徵篩選特徵工程建立多種基礎模型，嘗試多種算法模型調參/提升模型評估測試/結論彙報分析與準備數據數據簡介 State:州名

学Python的莫小白

2020-07-08 05:05:48

數據調度平臺系統二大種類及其實現方法與流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 04:22:11

泛統計理論初探——常見正則化技巧簡介

數據挖掘-正則化方法簡介常見正則化方法介紹正則化方法是數據挖掘或者神經網絡應用裏常見的一種方法，該類方法其實是一種對於過擬合進行優化的思路，即當模型在訓練集和測試集的預測準確率差距非常大的時候，比如模型在訓練集預測準確率

喷火龙与水箭龟

2020-07-08 04:17:13

泛統計理論初探——探討梯度下降學習率優化技巧

數據挖掘-梯度下降學習率優化簡介學習率優化方法簡介本文準備介紹的主要內容是在梯度下降方法中，對於學習速率這個超參數的優化思路。在之前的三篇文章裏，分別介紹了對梯度本身的優化的常見策略和技巧，但是沒有對學習速率的優化進行介

喷火龙与水箭龟

2020-07-08 04:17:13

泛統計理論初探——DBSCAN方法簡介

數據挖掘-聚類算法之DBSCAN DBSCAN算法簡介在之前的文章裏，我們探討了最常見的一種聚類算法，即Kmeans算法，在本文中，我們將簡要介紹DBSCAN算法，同時將比較DBSCAN方法相對於Kmeans的優缺點。 DBSC

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——梯度下降新方法簡介

數據挖掘-梯度下降新方法簡介梯度下降新方法簡介在之前的兩篇文章裏，我們介紹了梯度下降方法的歷史和演變，從批量梯度下降、隨機梯度下降方法到後續的新方法如動量加速法、AdaGrad、RMSprop、Adadelta方法等，本

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——均值漂移算法初探

數據挖掘-均值漂移聚類算法均值漂移聚類算法簡介本文主要是介紹均值漂移聚類算法，又稱爲Mean-Shift-Cluster，該算法屬於無監督學習的聚類方法。主要從算法的使用場景、步驟、核心思路等角度去介紹算法。之前其實也介紹過一

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——再談梯度下降方法優化

數據挖掘-再談梯度下降優化方法再談梯度下降優化方法在上一篇文章，我們簡單的介紹了梯度下降方法和一些簡單的優化方法，比如隨機梯度下降方法可以對原有的梯度下降方法進行優化和加速，在這個基礎上又有小批量梯度下降方法和動量加速梯

喷火龙与水箭龟

2020-07-08 04:17:12

etl數據調度平臺系統類別的實現方法及工作流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 03:42:10

銀行核心系統：批量作業調度管理軟件平臺taskct

更多對etl調度工具taskctl的使用問題解析關注公衆號"taskctl"(ID:gh_79ababc7910b)裏面有詳細的使用手冊，歡迎過來查閱哦~ 技術討論羣：75273038 大數據開發平臺的核心組件之一：作業調度系統作業

taskctl调度工具

2020-07-08 03:42:10

24小時熱門文章

最新文章

最新評論文章