筆記-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New

原創

2020-02-25 10:34

Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection
作者：香港理工大學，北京大學，Xu Sun , Houfeng Wang, Wenjie Li
出處：Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 253–262,Jeju, Republic of Korea, 8-14 July 2012.
高維特徵&改進online收斂算法

引言部分
中文分詞中的主要問題是分詞歧義。新詞是引起歧義的重要原因之一。典型的新詞，命名實體識別：例如組織機構名，地名，人名。
CRF、ME：將中文分詞作爲序列標註任務，已經是常規的分詞方式(Xue, 2003; Peng et al., 2004; Tseng et al., 2005; Asahara et al., 2005; Zhao et al.,2010)爲了取得高精度結果，更多統計量大的模型被用於分詞，例如Semi-Markov assumptions 或 latent variables(Andrew, 2006; Sun et al., 2009b)
感知機：semi-Markov perceptron methods 或 voting systems based on multiple semi-Markov perceptron segmenters (Zhang and Clark, 2007;Sun, 2010)
CRF模型普通特徵訓練已經很費時，如果增加高維特徵，將使訓練速度更慢。感知機的模型比CRF模型的訓練速度快，但是問題是，不輸出概率值，只輸出分類。
新詞發現也是中文分詞的重要任務，主要方法有(J. Nie and Jin, 1995; Chen and Bai, 1998;Wu and Jiang, 2000; Peng et al., 2004; Chen and Ma, 2002; Zhou, 2005; Goh et al., 2003; Fu and Luke, 2004; Wu et al., 2011)

使用語料
Sighan 2005 MSR，CU，PKU

正文
算法
其實還是利用CRF的方法。只是改進了算法的收斂方式ADF。一般常用的online方法是SGD，本文ADF是在此基礎上改進，包括stochastic meta descent (Vishwanathan et al., 2006) and periodic step-size adaptation online learning (Hsu et al., 2009)。原則是：高頻learning rate低，低頻learning rate 高；高頻已經被充分學習，低頻可提高收斂速度。

特徵
CRF的特徵與之前的論文比較，加入了詞典特徵：詞典一開始是由訓練語料生成，後來CRF對測試語料分詞，會產生一些新詞，這些新詞如果大於給定閾值，將被加入到詞典中。
被加入的詞典特徵包括：
從x0（包含x0）向左（6個字以內）是否是詞。從x0（包含x0）向右（6個字以內）是否是詞。從x0（不包含x0）向左（6個字以內）是否是詞。從x0（不包含x0）向右（6個字以內）是否是詞。

結果
分詞結果：MSR最好成績97.4，CU最好成績94.8，PKU最好成績95.4
訓練時間：ADF在大概10次迭代就可以達到SGD50次迭代的效果，時間可省2/3或3/4。
論文最後用ADF+詞典特徵+1次（不反覆迭代添加新詞）與使用SIGHAN2005的幾個系統做比較：Best05 (Tseng et al., 2005)，CRF + rule-system (Zhang et al., 2006)，Semi-Markov perceptron (Zhang and Clark, 2007) ，Semi-Markov CRF (Gao et al., 2007)，Latent-variable CRF (Sun et al., 2009b)，在MSR與PKU語料上成績最高。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

筆記-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New

筆記-2007-基於有效子串標註的中文分詞

筆記-2004-Adaptive Chinese Word Segmentation

筆記-2003-Chinese Word Segmentation as Character Tagging

筆記-2003-Chinese Word Segmentation as LMR Tagging

fwscanf在vc6與2005上的差別

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結