[輿情方向]自然語言情感傾向分析技術原型[第一期]

經過一個月的技術調查和編碼實踐,最終通過純詞法分析寫出了情感分析的技術原型,統計結果比較滿意,也算對自己一個月來研究成果的初步肯定。

首先該技術原型主要面向輿情,輿情的特點是語料來源廣泛,主題相關性不明顯,從網上抓取的輿情可以是任何形式任何主題的。正統的新聞,微博,論壇評論等等,因此判斷難度較大。國內情感分析成果主要應用於對特定領域的評論傾向分析來改善產品和做用戶調研。針對有主題相關性的語料,可以用目前非常優秀的SVM支撐向量機分類算法通過前期訓練,將訓練出的數學模型去預測未知語料,正確率最佳可達90%以上。

但是在輿情領域SVM這種算法就不盡如人意了,所以經過技術調查,我採用純詞法分析且基於情感詞典這樣一種與SVM恰恰相反的非學習監督方法完成了該技術原型,針對網上抓取的測試語料的判斷準確率爲:積極文本準確率在80%左右,消極文本因爲難度較大(後面會說道)準確率在70%左右。同時保證了錯誤率在%10左右。正誤率之比在10:1之上。先看圖說話。

環境:C+WindowsApi,VS2010,Windows7 x64

技術原型界面:

參數解釋:

    testText.txt:要測試的文本,因爲輿情文本一般較短,所以技術原型這裏將每句作爲一個語料單位。

    emDic.txt:使用的情感詞基準詞典。

    bDetail:是否展示判斷過程,即情感傾向分析的細節,0/1。

    sepValue:分類權值。用於正負面及未知的分類權值,測試最佳:0.8

分詞細節:

 

分類結果:

消極語料判錯原因分析(手動跟蹤了100多條文本分析過程得出):
  1)口語化嚴重(這本書與名著的距離好遠,不怎麼樣),
  2)表達隱晦,高級語法(暗喻,反諷),
  3)錯別字,
  4)文本過短(情感信息較少)。
  5)情感傾向不不明顯:如 還好。
  6)某些詞領域評價詞使用率較高,影響判斷:沒到貨等
  7)積極傾向,大於消極傾向(先抑後揚,人工分錯)
  8)情感詞修飾主體不一致(書內容描述)
錯誤文本舉例:

這本書叫《于丹心得》更好一些。(貶義)
看完這本書,我感覺于丹更像一位幼兒園老師。(貶義)
書看了一遍就送人了。(貶義)
說的真好。(貶義)

改進方向:

交叉對比:研究第二種方法可以兩種方法交叉對比來提高分類精度。

全自動學習機制:自動豐富詞庫,或者加入監督學習機制更新詞庫。

Just a display,還得繼續研究。。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章