論文閱讀《Thumbs up?Sentiment Classification using Machine Learning Techniques》

相關背景:

這篇論文發表於2002,那時大量的文本分類研究都是對文章的主題分類,例如判斷一篇文章是體育類還是財經類。然而隨着在線評論的網站大肆興起,爲了提供更言簡意賅的信息,就需要判斷人們針對某件事發表言論的是肯定的還是否定的,即情感分類。

當前研究:

傳統的對文章進行情感分類的做法有:

  1. 使用統計學的方法判斷文章的來源:例如考慮文章的作者,出版商以及作者所處的階層。
  2. 一個相關的領域是確定文章的類型,然而這些方法只能確定文章是用來表達觀點的,但無法識別出究竟是什麼觀點。
  3. 大多數情感分類的研究都是基於一定的先驗知識,通過人工來構建詞表。然而實驗表明依靠人的主觀經驗實現情感分析,效果並不是很好。

Motivation

這些方法要麼是基於統計學,要麼人爲構建詞表,然而效果並不盡如人意,因此這篇文章使用三種不考慮先驗知識的有監督的機器學習的方法(樸素貝葉斯,最大熵和支持向量機)測試在電影評論中情感分類的效果。

 

Baseline1:兩個人分別給出表達積極和消極情感的詞彙,然後在1400條評論集上測試分類的準確率。

Baseline2:詞彙表由人工和語料共同構建,共14個詞。

Accuracy:準確率

Ties:被同時判斷成積極和消極情感的概率

 

實驗結果:

 

創新點:

  1. 使用機器學習方法,從unigram and bigram,特徵出現的頻率or是否出現,詞性和位置角度研究分類準確率。
  2. 在預料預處理過程中,爲突出否定詞的作用:從否定詞開始到後面第一個標點結束,每一個單詞就加上NOT_標誌。

 

結論:

在不同的Features下使用SVM往往能取得較好的效果,然而準確率仍然沒有主題分類的高。一種常見的原因是很多評論會用到欲揚先抑或相反的手法,解決這個問題就要使特徵表示和文本更加切題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章