筆記-2011-A New Unsupervised Approach to Word Segmentation

原創

2020-02-25 10:34

A New Unsupervised Approach to Word Segmenation

Hanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan

北京理工大學，2011 發在CL上

長度、頻次、左右熵：無監督

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

這篇文章很長，大致結構如下：

頭：引言中提到很多人的工作

中間：選擇此係統結構與特徵的理論依據

ESA模型的三方面：理論+評價函數，篩選原則，調整原則

實驗最初設計，實驗數據，算法僞代碼，實驗細節設計，實驗結果與分析

全文涉及的重要定義，算法時空分析

尾：結尾詳細重現的前人的工作，而且全部與自己對比

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

ESA：Evaluation，Adjustment，Selection

A子串（可能多個字符）B子串（可能多個字符），評價指標有兩個，IV，CV

IV是AB成爲一個詞的可能性；CV有IV(A)、IV(B)，IRV(AB)組成，A、B分別成詞。

IV（AB）=(當前AB串頻/跟當前AB串長相同的所有串平均頻次)^當前串AB的長度；

LRV（左串A，右串B）=(當前左串A的右熵*當前右串B的左熵)/(跟當前左串A長度相同的所有串的平均右熵*跟當前右串B長度相同的所有串的平均左熵)

CV=IV（A）IV（B）LRV（A，B）；

如果，CV（A,B） > IV(AB)則AB分開。

子串的候選有要求：先用標點、數字、限制長度，LRV（閾值自己確定的）做了初選

一句話，子串的劃分有n(n+1)/2種，在做的時候，說是用了動態規劃的方法選擇誰切分。

迭代過程看的不是十分明白，目前的理解是：

進行N輪迭代，當分詞結果不再改變則終止。每輪迭代中都有Ｎ小輪迭代，這個Ｎ是人爲給定的。

每小輪迭代中，對於每句話，每次只選擇最確定的“分割點”（即每次只切１刀），Ｎ小輪迭代後一句話上有<N刀。

這樣，這句話被切碎了，形成了許多新的子串，子串數量、頻次、左右熵，重新計算。

從第二大輪起，單字、子串的計算方式與初始計算方式（用閾值卡的那些，只要連續字符串就算）就不一樣了。

S*=argmax E(Si) ； E（Si）=IV（S0）i=0時；E（Si）=CV（Si），i>0;

最好的召回率在MSR上獲得，結果是0.831

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.