筆記-2003-Chinese Word Segmentation as Character Tagging

Chinese Word Segmentation as Character Tagging
不知道這篇是不是上一篇的擴寫,發表在不同雜誌上
作者:Nianwen Xue
單位:Inst. for Research in Cognitive Science

出處:Computational Linguistics and Chinese Language Processing Vol. 8, No. 1, February 2003, pp.29-48 The Association for Computational Linguistics and Chinese Language Processing

主要內容:LL,LR,MM,RR;要解決MEMM的轉移概率的問題

這篇論文報告了中文分詞使用有監督機器學習方法的效果。訓練語料由人工標註完成,效果 P 95.01%,R 94.94,訓練語料大小237K。
找分詞邊界不是問題,問題是找到無歧義的分詞邊界。
由此我們可以看到,Xue在寫這篇論文時,其實目的是爲了解決歧義。捎帶解決OOV。但是,實驗中卻強調了OOV,以至於後來的論文,這種字序列的學習方法都用於解決OOV
文章重點強調了分詞歧義的問題。論文中提到大篇幅提到三種分詞歧義,一個是交搭歧義、二是組合歧義、三是因爲語義理解產生的歧義(也是組合),用一段說明了OOV的影響。
FMM會因爲OOV的增加急劇下降,但是MEMM沒有。
標記是 LL,LR,MM,RR

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章