筆記-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation

Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation
作者: Ruiqiang Zhang,Genichiro Kikui ,Eiichiro Sumita
National Institute of Information and Communications Technology(國家信息和通信技術研究所),ATR Spoken Language Communication Research Laboratories
出處:roceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pages 193–196,New York, June 2006.c 2006 Association for Computational Linguistics

主要內容:CRF的標記單元是子串;標記符號I、O、B,還是3Tag;CRF與詞典結果的置信度

使用語料:Sighan bakeoff2005 四個全用了,PKU最好成績0.945

出發點:詞典得到高IV,CRF得到高OOV

步驟:

詞典方面:沒有具體說用什麼方法,就說衆所周知

CRF方面:1 利用訓練語料生成詞典,包含單字詞,多字詞,多字詞取“top”,這個“top”怎麼取,沒說

                    2 上文得到的詞典,再次切分訓練語料,將訓練語料切成substring的單元,切分基於FMM原則。

                    3 利用2得到的結果訓練CRF模型,然後也同樣處理測試語料,分詞。crf模型的特徵,只用到了字型和轉移概率,最大上下文爲+-2


置信度(如何融合兩個結果):


w是詞,tiob是w在CRF下的標註,tw是w在詞典fmm分詞下的標註。

所以,首先w是詞,寫到這裏還是是FMM下的詞,但是如果看論文的結果,個人覺得,w是IOB下的詞也可以,所以應該是雙向考慮。



是w在IOB體系下可能被標註成很多種形式,真正標成tiob的佔多少。


後邊那部分就是01函數,如果FMM與IOB體系標註的一樣,則是1,否則爲0

a=0.7(憑經驗),然後又取了一個值t=0.8 (憑經驗),如果CM>t 則用IOB體系的結果,如果 CM<t 則用FMM的結果。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章