A New Unsupervised Approach to Word Segmenation
Hanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan
北京理工大學,2011 發在CL上
長度、頻次、左右熵:無監督
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
這篇文章很長,大致結構如下:
頭:引言中提到很多人的工作
中間: 選擇此係統結構與特徵的理論依據
ESA模型的三方面: 理論+評價函數,篩選原則,調整原則
實驗最初設計,實驗數據,算法僞代碼,實驗細節設計,實驗結果與分析
全文涉及的重要定義,算法時空分析
尾:結尾詳細重現的前人的工作,而且全部與自己對比
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
ESA:Evaluation,Adjustment,Selection
A子串(可能多個字符)B子串(可能多個字符),評價指標有兩個,IV,CV
IV是AB成爲一個詞的可能性;CV有IV(A)、IV(B),IRV(AB)組成,A、B分別成詞。
IV(AB)=(當前AB串頻/跟當前AB串長相同的所有串平均頻次)^當前串AB的長度;
LRV(左串A,右串B)=(當前左串A的右熵*當前右串B的左熵)/(跟當前左串A長度相同的所有串的平均右熵*跟當前右串B長度相同的所有串的平均左熵)
CV=IV(A)IV(B)LRV(A,B);
如果,CV(A,B) > IV(AB)則AB分開。
子串的候選有要求:先用標點、數字、限制長度,LRV(閾值自己確定的)做了初選
一句話,子串的劃分有n(n+1)/2種,在做的時候,說是用了動態規劃的方法選擇誰切分。
迭代過程看的不是十分明白,目前的理解是:
進行N輪迭代,當分詞結果不再改變則終止。每輪迭代中都有N小輪迭代,這個N是人爲給定的。
每小輪迭代中,對於每句話,每次只選擇最確定的“分割點”(即每次只切1刀),N小輪迭代後一句話上有<N刀。
這樣,這句話被切碎了,形成了許多新的子串,子串數量、頻次、左右熵,重新計算。
從第二大輪起,單字、子串的計算方式與初始計算方式(用閾值卡的那些,只要連續字符串就算)就不一樣了。
S*=argmax E(Si) ; E(Si)=IV(S0)i=0時;E(Si)=CV(Si),i>0;
最好的召回率在MSR上獲得,結果是0.831