文本倾向性综述

1. 文本倾向性分析的定义和主要任务

Peter等人指出,文本倾向性分析(Sentiment Classification)就是对用户对某个事物(如产品)的看法或评论(在BLOG社区中是以blog entry的形式出现)文本的挖掘,从而得到该看法或评论是属于对该事物的积极或消极意见。所以,文本倾向性分析(Sentiment Classification)正是解决上述问题的关键技术。

Tetsuya Nasukawa等指出:文本倾向性分析中的主要任务有以下三个:(1)找出文档中能够体现情感的词或短语;(2)判断所找出的词或短语的倾向性极性以及强度;(3)找出所抽取的词或短语与主题的关系。

2.文本倾向性分析的主要方法

主要有基于语义的以及基于机器学习的文本倾向性研究两种。

1.基于语义的文本倾向性研究方法:
a 先对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,然后对抽取出来的形容词或短语逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到文章的总体文本倾向性。
b 预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典。然后将待估文档参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向性。

有的是基于词和短语模式,有的是基于语义模式库来分析。

2.基于机器学习的传统文本分类技术
先通过人工标注一些文档的倾向性,并将这些文档作为训练集,再通过机器学习的方法构造一个褒贬两类分类器。最后使用构造好的褒贬两类分类器对待估文档进行分类,即识别出该文档的倾向性。常用SVM(支持向量机)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章