基於圖的分詞方法

基於有向圖的中文分詞算法, 該算法首先構造中文分詞有向圖,然後計算中文分詞有向圖)所有可能的切分路徑,最後利用了最少分詞原則、漢字之間的互信 息和詞語的頻率等信息給中文分詞有向圖)的每條切分路徑打分,分數最高的路徑就對應正確的切分結果。

中文分詞是中文信息處理中的重要環節。它在中文搜索引擎、機器翻譯、智能檢索中有着相當重要的地位,也是智能計 算、文獻標引、自然語言理解和處理的基礎。文中提出了一種基 於有向圖的中文分詞算法,該算法首先構造中文分詞有向圖, 然後計算中文分詞有向圖中所有可能的切分路徑,最後利用了 最少分詞原則、漢字之間的互信息和詞語的頻率等信息給中文 分詞有向圖中的每條切分路徑打分,分數最高的路徑就對應正 確的切分結果。

 

1關鍵技術

1.1中文分詞有向圖

設待切分的中文字串S=C1,$2,…,Cn,其中Ci(i=1,2,…, n)爲單個的字,11串的長度,n!1建立一個結點數爲n+1的 切分有向無環圖',各結點編號依次爲(0,(1,(2,…,(n

通過下列兩種方法建立G的所有可能的詞邊。

  1. 相鄰結點()-1,()之間建立有向邊<()-1()>,邊的長度

L),邊對應的詞默認爲C)()(1,2,…,n);

  1. ,=CCl$是一個詞,則結點K_1,(-之間建立有向 邊<(i_1,(>,邊的長度值爲L,,邊對應的詞爲w(0<i<j"n)

這樣,待切分的中文字串S中包含的所有詞與切分有向無環圖G中的邊一一對應,把該切分有向無環圖G稱爲中文字 串的中文分詞有向圖。例如、發展中國家”的中文分詞有向圖 如圖1所示。

最少分詞原則

中文字 分詞後 的詞數 少 於 字 的理 解,這稱爲最少分詞原則。

1.3漢字之間的互信息

互信息(mutual information):對有序漢字串01,漢字%,y 之間的互信息

/(0:y)=lb p0,1)

其中p(0i)0,1的鄰接同現概率,p(0),p(y)分別代表0,的獨立概率。

互信息 了漢字 之間 的 度 (1)/(0:1)>>0,則p(o,i)»p(0)p(i),此時 0,之間具有

可信的結合關係,並且/G5值越大0結合程度越強8

(2 /(4y!。,則 !,5!p(4)p !),此時 4,之間的結 合關係不明確;

(3 /(45<<0,則 p9,5<<p9)p 9),此時 4,之間基本 沒有結合關係,並且145值越小,結合程度越弱。

比如:字符串“重點工程”中相鄰漢字對之間的互信息如圖 2所示。

“重點工程”相鄰漢字對之間的互信息

 

可以看到:!重:點)=5.9>>0,說明漢字“重”、“點”之間結 合程度較強;9工:程)=6.3>>0,說明漢字“工”、“程”之間結合 程度也較強;而9點:工)=1.7!。,說明漢字“點”、“工”之間結 合關係不明確。顯然,可以利用漢字對之間的互信息來比較分 詞有向圖各切分路徑的概率大小。具體做法如下:每條切分路 徑是由許多個結點來連接起來的,以結點爲中心,可以計算結 點左右兩邊的兩個漢字對之間的互信息,互信息越大,說明這 兩個漢字對之間結合程度越強,被切分開的概率就越小,從而 切分路徑的概率就越小。

1.4切分路徑的選擇

每一條切分路徑對應中文字串的一種切分形式。切分路徑 的選擇就是計算每一條切分路徑的權重,權重最高的路徑就對 應中文字串的正確切分結果。那麼,路徑的權重和哪些因素有 關呢?經過分析發現:

(1)對中文字串分詞後得到的詞數越少越易於對該字串的 理解,這稱爲最少分詞原則。

假設切分路徑的邊條數爲8,那麼邊的條數對應中文字串 分詞以後的詞的個數,即分詞後得到的詞的個數爲8,權重計

式如下:

顯然,詞的個數越少,對該字串越易於理解,權重越大。

(2)根據中文字串中的漢字與漢字之間的互信息,漢字之 間的互信息體現了漢字之間聯繫的緊密程度,兩個漢字之間的 互信息越大,這兩個字被分開的可能性就越小。

假設:與結點i相鄰的兩個漢字分別爲LeftC 9)和 RightC(i,可以計算切分有向圖中和每個結點相鄰的兩個漢字 的互信息:

P(LeJjC(i)RightC(i))

P(LeftC(i))xP(RightC(i))

每條切分路徑的互信息 :

Mutuallnfo=— ",ILeftCi) :RightC(i))

i,i

其中n爲切分路徑中結點的個數。

顯然,Mutualinfo反映了切分路徑的各個斷點之間結合的 緊密程度。Mutualinfo值越大,說明各個斷點之間結合程度越 強,該路徑成爲正確切分路徑的概率就越小。所以,定義切分路 徑的互信息權重如下:

Powe rOfMutuallnfo=

Mutualinfo

93) 切分之 的詞 的 度,如 切分之 詞 語的使用頻度越高,說明該詞語被切分成詞串的概率就越高。 假設:切分後每個詞語的詞頻爲freqHt),那麼可以定義 切分路徑的詞頻權重如下:

PowerOfFreq=\

l爲切分之後的詞語個數。

最 , 可以 種 對切分路徑的 不 ,

義整個切分路徑的權重計算公式如下:

PowerOfPath=axPowe rOfNu8> er+/3xPowerOfMutualinfo+ yxPowerOfFreq

其中a、"、#分別爲調整因子,它們反映了每種情況對句子權重 的影響程度。並且滿足a+0+#=1

2算法描述

的基 有向圖的中 分詞 法, 中 分詞的 度, 法的 程 如下:

(1 斷句,按標點符號/空格等,生成若干個中文文本字串。

(2 對每一箇中文文本字串,做:

①構造中文文本字串的分詞有向圖;②計算有向圖中所有 的切分路徑;對每條切分路徑,根據1.4節中的方法計算每 條切分路徑的權重;選擇權重最大的切分路徑對應的切分形 式爲正確的分詞結果。

舉“重點工程”這個句子切分爲例,句子的中文分詞有向圖 如圖3所示。

當然,分詞系統也可以根據側重點不同,動態地調整a、"、 $這三個參數,以適應於不同的應用場合。

“重點工程”的中文分詞有向圖

互信息 詞 重 , 較最 分詞 則重 , 那麼上面的式子中的a、"、#可分爲取0.20.40.4。根據上面的 中文分詞有向圖可以計算出所有的切分路徑。

路徑1:重///

路徑2:重點//

路徑3:重點/工程

路徑4:重//工程

大中 系 所 的漢 詞 , 詞

108 783條詞項,主要是根據1981年人民日報語料庫統計 所得,較有實用性。假設語料庫的詞條總數爲CORPUS_N,通過 查詢詞庫,可路徑中各個詞的詞頻分別爲:

freq(=952/CORPUS_N

freq(重點=2683/CORPUS_N

freq(點=1789/CORPUS_N

freq(=121/CORPUS_N

freq(工程=4146/CORPUS_N

freq(=15/CORPUS_N

a=0.2、、3=0.4#=0.4,切分路徑的權重計算如下:

路徑1:

PowerOfPath=0.05+0.053 666 698 4+0.003 702 626 2=

0.107 369 324 693 700 45

路徑2

PowerOfPath=0.066 666 666 7+0.088 432 736 9+

0.004 511 362 8=0.159 610 766 382 648 96

路徑3

Power0fPath=0.1+0.100 282 810 6+0.185 405 510 1 =

0.385 688 320 669 448 7

4

Power0fPath=0.066 666 666 7+0.088 432 736 9+

0.124 889 773 9=0.279 989 177 473 124 3

經過比較,顯然路徑3的權重明顯大於其餘3條路徑的權 重,所以選擇路徑3。句子的正確切分結果爲:重點/工程。

當然,分詞系統也可以根據側重點不同,動態地調整a、"、 $這三個參數,以適應於不同的應用場合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章