筆記-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation

原創

2020-02-25 10:34

Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation
作者： Ruiqiang Zhang，Genichiro Kikui ，Eiichiro Sumita
National Institute of Information and Communications Technology（國家信息和通信技術研究所），ATR Spoken Language Communication Research Laboratories
出處：roceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pages 193–196,New York, June 2006.c 2006 Association for Computational Linguistics

主要內容：CRF的標記單元是子串；標記符號I、O、B，還是3Tag；CRF與詞典結果的置信度

使用語料：Sighan bakeoff2005 四個全用了，PKU最好成績0.945

出發點：詞典得到高IV，CRF得到高OOV

步驟：

詞典方面：沒有具體說用什麼方法，就說衆所周知

CRF方面：1 利用訓練語料生成詞典，包含單字詞，多字詞，多字詞取“top”，這個“top”怎麼取，沒說

2 上文得到的詞典，再次切分訓練語料，將訓練語料切成substring的單元，切分基於FMM原則。

3 利用2得到的結果訓練CRF模型，然後也同樣處理測試語料，分詞。crf模型的特徵，只用到了字型和轉移概率，最大上下文爲+-2

置信度（如何融合兩個結果）：

w是詞，tiob是w在CRF下的標註，tw是w在詞典fmm分詞下的標註。

所以，首先w是詞，寫到這裏還是是FMM下的詞，但是如果看論文的結果，個人覺得，w是IOB下的詞也可以，所以應該是雙向考慮。

是w在IOB體系下可能被標註成很多種形式，真正標成tiob的佔多少。

後邊那部分就是01函數，如果FMM與IOB體系標註的一樣，則是1，否則爲0

a=0.7（憑經驗），然後又取了一個值t=0.8 （憑經驗），如果CM>t 則用IOB體系的結果，如果 CM<t 則用FMM的結果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

筆記-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation

筆記-2007-基於有效子串標註的中文分詞

筆記-2004-Adaptive Chinese Word Segmentation

筆記-2003-Chinese Word Segmentation as Character Tagging

筆記-2003-Chinese Word Segmentation as LMR Tagging

fwscanf在vc6與2005上的差別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結