Motivation:
大多數基於語料的語言處理都集中於英文這種語言,很少有針對中文提出的詞性標註系統,本文想把對英文處理方面的技術應用到中文上來,實現對中文的詞性標註。由於中文句子之間沒有空格,因此在進行詞性標註之前必須對中文進行分詞,而分詞的質量又直接影響到詞性標註的結果。因此本文搭建一個和分詞結合的中文詞性標註系統。
核心思想:
本文用最大熵算法https://blog.csdn.net/ccblogger/article/details/81843304從中文分詞的處理結構和特徵表示方面尋找一個最優的分詞方法。
- 處理結構:在進行詞性標註任務時,①分詞之後再詞性標註;②分詞和詞性標註同時進行。
- 特徵表示:在詞性標註時,是以單詞爲單位進行標註還是以字符爲單位進行標註。在以字符爲單位時,一個單詞中的字符具有相同詞性。
實驗結果:
在分詞完成之後,用Beam search選擇每個單詞或字符可能的詞性,這裏N=3,即對於每個單詞選擇三個最有可能的標註,然後用最大熵算法計算最有可能的一組詞性。
從上面的表中可以看出,One-at-a-Time Word-Based模型在詞性標註問題上效果最差。All-At-Once Char-Based模型能夠取得最好的效果,但是會花費較大的開銷。而Once-at-a-Time Char-Based模型的效果接近All-At-Once Char-Based,但是開銷較少。因此All-At-Once Char-Based算法也是折中的選擇。
啓發:
- 和英文標註不同,中文詞性標註以字符爲單位的效果更好;
- 分詞和標註同時進行的效果比分開進行標註效果好,但會增加開銷;
- 添加更多的匹配特徵和後處理可以提高模型的準確率,但是匹配特徵的增加可能會帶來過擬合問題。