文本傾向性綜述

1. 文本傾向性分析的定義和主要任務

Peter等人指出,文本傾向性分析(Sentiment Classification)就是對用戶對某個事物(如產品)的看法或評論(在BLOG社區中是以blog entry的形式出現)文本的挖掘,從而得到該看法或評論是屬於對該事物的積極或消極意見。所以,文本傾向性分析(Sentiment Classification)正是解決上述問題的關鍵技術。

Tetsuya Nasukawa等指出:文本傾向性分析中的主要任務有以下三個:(1)找出文檔中能夠體現情感的詞或短語;(2)判斷所找出的詞或短語的傾向性極性以及強度;(3)找出所抽取的詞或短語與主題的關係。

2.文本傾向性分析的主要方法

主要有基於語義的以及基於機器學習的文本傾向性研究兩種。

1.基於語義的文本傾向性研究方法:
a 先對待分析文本中的形容詞或能夠體現主觀色彩的短語進行抽取,然後對抽取出來的形容詞或短語逐一進行傾向性判斷並賦予一個傾向值,最後將上述所有傾向值累加起來得到文章的總體文本傾向性。
b 預先建立一個傾向性語義模式庫,有時還會附帶一個傾向性字典。然後將待估文檔參照語義模式庫做模式匹配,最後累加所有匹配模式對應的傾向性值從而得到整個文檔的傾向性。

有的是基於詞和短語模式,有的是基於語義模式庫來分析。

2.基於機器學習的傳統文本分類技術
先通過人工標註一些文檔的傾向性,並將這些文檔作爲訓練集,再通過機器學習的方法構造一個褒貶兩類分類器。最後使用構造好的褒貶兩類分類器對待估文檔進行分類,即識別出該文檔的傾向性。常用SVM(支持向量機)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章