筆記-2011-A New Unsupervised Approach to Word Segmentation

A New Unsupervised Approach to Word Segmenation

Hanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan

北京理工大學,2011 發在CL上

長度、頻次、左右熵:無監督

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

這篇文章很長,大致結構如下:

頭:引言中提到很多人的工作

中間: 選擇此係統結構與特徵的理論依據

                ESA模型的三方面: 理論+評價函數,篩選原則,調整原則

                實驗最初設計,實驗數據,算法僞代碼,實驗細節設計,實驗結果與分析

                全文涉及的重要定義,算法時空分析

尾:結尾詳細重現的前人的工作,而且全部與自己對比

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

ESA:Evaluation,Adjustment,Selection

A子串(可能多個字符)B子串(可能多個字符),評價指標有兩個,IV,CV

IV是AB成爲一個詞的可能性;CV有IV(A)、IV(B),IRV(AB)組成,A、B分別成詞。

IV(AB)=(當前AB串頻/跟當前AB串長相同的所有串平均頻次)^當前串AB的長度;

LRV(左串A,右串B)=(當前左串A的右熵*當前右串B的左)/(跟當前左串A長度相同的所有串的平均右熵*跟當前右串B長度相同的所有串的平均左熵)

CV=IV(A)IV(B)LRV(A,B);

如果,CV(A,B) > IV(AB)則AB分開。

子串的候選有要求:先用標點、數字、限制長度,LRV(閾值自己確定的)做了初選

一句話,子串的劃分有n(n+1)/2種,在做的時候,說是用了動態規劃的方法選擇誰切分。

迭代過程看的不是十分明白,目前的理解是:

進行N輪迭代,當分詞結果不再改變則終止。每輪迭代中都有N小輪迭代,這個N是人爲給定的。

每小輪迭代中,對於每句話,每次只選擇最確定的“分割點”(即每次只切1刀),N小輪迭代後一句話上有<N刀。

這樣,這句話被切碎了,形成了許多新的子串,子串數量、頻次、左右熵,重新計算。

從第二大輪起,單字、子串的計算方式與初始計算方式(用閾值卡的那些,只要連續字符串就算)就不一樣了。

S*=argmax E(Si)  ;  E(Si)=IV(S0)i=0時;E(Si)=CV(Si),i>0;

最好的召回率在MSR上獲得,結果是0.831 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章