筆記-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New

Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection
作者:香港理工大學,北京大學,Xu Sun , Houfeng Wang, Wenjie Li
出處:Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 253–262,Jeju, Republic of Korea, 8-14 July 2012. 
高維特徵&改進online收斂算法

引言部分
中文分詞中的主要問題是分詞歧義。新詞是引起歧義的重要原因之一。典型的新詞,命名實體識別:例如組織機構名,地名,人名。
CRF、ME:將中文分詞作爲序列標註任務,已經是常規的分詞方式(Xue, 2003; Peng et al., 2004; Tseng et al., 2005; Asahara et al., 2005; Zhao et al.,2010)爲了取得高精度結果,更多統計量大的模型被用於分詞,例如Semi-Markov assumptions 或 latent variables(Andrew, 2006; Sun et al., 2009b)
感知機:semi-Markov perceptron methods 或 voting systems based on multiple semi-Markov perceptron segmenters (Zhang and Clark, 2007;Sun, 2010)
CRF模型普通特徵訓練已經很費時,如果增加高維特徵,將使訓練速度更慢。感知機的模型比CRF模型的訓練速度快,但是問題是,不輸出概率值,只輸出分類。
新詞發現也是中文分詞的重要任務,主要方法有(J. Nie and Jin, 1995; Chen and Bai, 1998;Wu and Jiang, 2000; Peng et al., 2004; Chen and Ma, 2002; Zhou, 2005; Goh et al., 2003; Fu and Luke, 2004; Wu et al., 2011)

使用語料
Sighan 2005 MSR,CU,PKU

正文
算法
其實還是利用CRF的方法。只是改進了算法的收斂方式ADF。一般常用的online方法是SGD,本文ADF是在此基礎上改進,包括stochastic meta descent (Vishwanathan et al., 2006) and periodic step-size adaptation online learning (Hsu et al., 2009)。原則是:高頻learning rate低,低頻learning rate 高;高頻已經被充分學習,低頻可提高收斂速度。

特徵
CRF的特徵與之前的論文比較,加入了詞典特徵:詞典一開始是由訓練語料生成,後來CRF對測試語料分詞,會產生一些新詞,這些新詞如果大於給定閾值,將被加入到詞典中。
被加入的詞典特徵包括:
從x0(包含x0)向左(6個字以內)是否是詞。從x0(包含x0)向右(6個字以內)是否是詞。從x0(不包含x0)向左(6個字以內)是否是詞。從x0(不包含x0)向右(6個字以內)是否是詞。

結果
分詞結果:MSR最好成績97.4,CU最好成績94.8,PKU最好成績95.4
訓練時間:ADF在大概10次迭代就可以達到SGD50次迭代的效果,時間可省2/3或3/4。
論文最後用ADF+詞典特徵+1次(不反覆迭代添加新詞)與使用SIGHAN2005的幾個系統做比較:Best05 (Tseng et al., 2005),CRF + rule-system (Zhang et al., 2006),Semi-Markov perceptron (Zhang and Clark, 2007) ,Semi-Markov CRF (Gao et al., 2007),Latent-variable CRF (Sun et al., 2009b),在MSR與PKU語料上成績最高。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章