中文詞性標註《Chinese part-of-speech tagging One-at-a-time or all-at-once word-based or Character-Based?》

Motivation

大多數基於語料的語言處理都集中於英文這種語言,很少有針對中文提出的詞性標註系統,本文想把對英文處理方面的技術應用到中文上來,實現對中文的詞性標註。由於中文句子之間沒有空格,因此在進行詞性標註之前必須對中文進行分詞,而分詞的質量又直接影響到詞性標註的結果。因此本文搭建一個和分詞結合的中文詞性標註系統。

 

核心思想:

本文用最大熵算法https://blog.csdn.net/ccblogger/article/details/81843304從中文分詞的處理結構和特徵表示方面尋找一個最優的分詞方法。

  • 處理結構:在進行詞性標註任務時,①分詞之後再詞性標註;②分詞和詞性標註同時進行。
  • 特徵表示:在詞性標註時,是以單詞爲單位進行標註還是以字符爲單位進行標註。在以字符爲單位時,一個單詞中的字符具有相同詞性。

 

實驗結果:

在分詞完成之後,用Beam search選擇每個單詞或字符可能的詞性,這裏N=3,即對於每個單詞選擇三個最有可能的標註,然後用最大熵算法計算最有可能的一組詞性。

從上面的表中可以看出,One-at-a-Time Word-Based模型在詞性標註問題上效果最差。All-At-Once Char-Based模型能夠取得最好的效果,但是會花費較大的開銷。而Once-at-a-Time Char-Based模型的效果接近All-At-Once Char-Based,但是開銷較少。因此All-At-Once Char-Based算法也是折中的選擇。

 

啓發:

  1. 和英文標註不同,中文詞性標註以字符爲單位的效果更好;
  2. 分詞和標註同時進行的效果比分開進行標註效果好,但會增加開銷;
  3. 添加更多的匹配特徵和後處理可以提高模型的準確率,但是匹配特徵的增加可能會帶來過擬合問題。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章