筆記-2012-Unsupervized Word Segmentation the case for Mandarin Chinese

 Unsupervized Word Segmentation the case for Mandarin Chinese

Pierre Magistry ,Benoit Sagot

法國的,2012在ACL上發表

左右熵,差值,歸一化

這篇是針對北理工那篇文章寫的,很佩服啊,人家法國人做中文分詞,還發在頂級會議,哎。

ESA那篇發在CL上,號稱是目前無監督學習最好的方法了。這篇論文的主人就不同意了,說你那個還要設置各種閾值,還要人爲確定迭代次數,1是太麻煩,2是自適應行不強,不同的語料,就要換不同的閾值。論文主人提出用最簡單的方法做無監督分詞。這個分詞是什麼呢?

“邊界熵”。就是左熵HL右熵HR,但是對其進行了兩個改進。(但是用的時候還是具體看一下原文,論文的左右熵定義與我們以前用的是相反的,這會導致結果嚴重不同,但是,這篇筆記中先不糾結左右熵的定義)

對邊界熵,先做一個差值:

@HR (X 0-n)=HR( X 0-n) - HR(X 0-n-1);

@HL (X 0-n)=HL( X 0-n) - HL(X 1-n);

然後又做了一次歸一化

~@HR(X 0-n)=@HR(X 0-n) -  平均值(@HR(長度與X相同的所有字符串));

最後就用這個~@HR(X 0-n),~@HL(X 0-n)動態規劃求解。

一個字符串 評價標準E=(~@HR(X 0-n)+~@HL(X 0-n))*字符串長度,E越大,越可能是個詞。

最後整句取路徑值最高的。

最好的結果Recall是CITYU上0.829,MSR上是0.818,取不同“元”結果不同,二元最好。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~·

這篇文章強調了一下,前人的工作(Chunyu Jie),無監督分詞的上限與下限:上限是0.85,下線是0.35。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章