Chinese Word Segmentation as LMR Tagging
作者:Nianwen Xue,LibinShen
單位:Inst. for Research in Cognitive Science;UniversityofPennsylvania
出處:Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, July 2003, pp. 176-179.
主要內容:確定了標註體系LMR;MEMM方法;迭代次數與效果分析
這個算法基於MEMM模型。
因爲,MEMM有標註偏置問題,所以採用了左到右,右到左兩向分詞。
並使用Transformation—Based Learning去合併結果。
實事證明,兩向分詞並沒有顯著好於單向分詞。目前結果 Academia Sinica是95.9%,Hong Kong City是 91.6%
對於不同的訓練語料,迭代次數不同,過度擬合反而會使效果下降。