Unsupervized Word Segmentation the case for Mandarin Chinese
Pierre Magistry ,Benoit Sagot
法國的,2012在ACL上發表
左右熵,差值,歸一化
這篇是針對北理工那篇文章寫的,很佩服啊,人家法國人做中文分詞,還發在頂級會議,哎。
ESA那篇發在CL上,號稱是目前無監督學習最好的方法了。這篇論文的主人就不同意了,說你那個還要設置各種閾值,還要人爲確定迭代次數,1是太麻煩,2是自適應行不強,不同的語料,就要換不同的閾值。論文主人提出用最簡單的方法做無監督分詞。這個分詞是什麼呢?
“邊界熵”。就是左熵HL右熵HR,但是對其進行了兩個改進。(但是用的時候還是具體看一下原文,論文的左右熵定義與我們以前用的是相反的,這會導致結果嚴重不同,但是,這篇筆記中先不糾結左右熵的定義)
對邊界熵,先做一個差值:
@HR (X 0-n)=HR( X 0-n) - HR(X 0-n-1);
@HL (X 0-n)=HL( X 0-n) - HL(X 1-n);
然後又做了一次歸一化
~@HR(X 0-n)=@HR(X 0-n) - 平均值(@HR(長度與X相同的所有字符串));
最後就用這個~@HR(X 0-n),~@HL(X 0-n)動態規劃求解。
一個字符串 評價標準E=(~@HR(X 0-n)+~@HL(X 0-n))*字符串長度,E越大,越可能是個詞。
最後整句取路徑值最高的。
最好的結果Recall是CITYU上0.829,MSR上是0.818,取不同“元”結果不同,二元最好。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~·
這篇文章強調了一下,前人的工作(Chunyu Jie),無監督分詞的上限與下限:上限是0.85,下線是0.35。