基於圖的分詞方法

基於有向圖的中文分詞算法，該算法首先構造中文分詞有向圖，然後計算中文分詞有向圖)所有可能的切分路徑，最後利用了最少分詞原則、漢字之間的互信息和詞語的頻率等信息給中文分詞有向圖)的每條切分路徑打分,分數最高的路徑就對應正確的切分結果。

中文分詞是中文信息處理中的重要環節。它在中文搜索引擎、機器翻譯、智能檢索中有着相當重要的地位，也是智能計算、文獻標引、自然語言理解和處理的基礎。文中提出了一種基於有向圖的中文分詞算法，該算法首先構造中文分詞有向圖，然後計算中文分詞有向圖中所有可能的切分路徑,最後利用了最少分詞原則、漢字之間的互信息和詞語的頻率等信息給中文分詞有向圖中的每條切分路徑打分,分數最高的路徑就對應正確的切分結果。

1關鍵技術

1.1中文分詞有向圖

設待切分的中文字串S=C1,$2,…，Cn,其中Ci(i=1,2，…， n)爲單個的字,11爲串的長度,n!1。建立一個結點數爲n+1的切分有向無環圖'，各結點編號依次爲(0,(1,(2，…，(n。

通過下列兩種方法建立G的所有可能的詞邊。

相鄰結點()-1,()之間建立有向邊<()-1, ()>,邊的長度

值爲L),邊對應的詞默認爲C)()(1,2，…,n);

若,=CCl$是一個詞，則結點K_1,(-之間建立有向邊<(i_1,(>,邊的長度值爲L,，邊對應的詞爲w(0<i<j"n)。

這樣，待切分的中文字串S中包含的所有詞與切分有向無環圖G中的邊一一對應，把該切分有向無環圖G稱爲中文字串的中文分詞有向圖。例如、發展中國家”的中文分詞有向圖如圖1所示。

最少分詞原則

中文字分詞後的詞數少於字的理解，這稱爲最少分詞原則。

1.3漢字之間的互信息

互信息(mutual information)：對有序漢字串01,漢字%,y 之間的互信息

/(0:y)=lb p0,1)、

其中p(0，i)是0,1的鄰接同現概率,p(0),p(、y)分別代表0,1 的獨立概率。

互信息了漢字之間的度 (1)/(0：1)>>0,則p(o,i)»p(0)p(i)，此時 0,1 之間具有

可信的結合關係，並且/G: 5）值越大0結合程度越強8

（2） /（4：y）!。,則 p !,5）!p（4）p !）,此時 4,5 之間的結合關係不明確；

（3） /（4：5）<<0,則 p9,5）<<p9）p 9）,此時 4,5 之間基本沒有結合關係，並且1（4：5）值越小，結合程度越弱。

比如:字符串“重點工程”中相鄰漢字對之間的互信息如圖 2所示。

圖2 “重點工程”相鄰漢字對之間的互信息

可以看到：！重:點）=5.9>>0,說明漢字“重”、“點”之間結合程度較強;9工:程）=6.3>>0,說明漢字“工”、“程”之間結合程度也較強;而9點:工）=1.7!。,說明漢字“點”、“工”之間結合關係不明確。顯然，可以利用漢字對之間的互信息來比較分詞有向圖各切分路徑的概率大小。具體做法如下:每條切分路徑是由許多個結點來連接起來的，以結點爲中心，可以計算結點左右兩邊的兩個漢字對之間的互信息，互信息越大，說明這兩個漢字對之間結合程度越強，被切分開的概率就越小，從而切分路徑的概率就越小。

1.4切分路徑的選擇

每一條切分路徑對應中文字串的一種切分形式。切分路徑的選擇就是計算每一條切分路徑的權重,權重最高的路徑就對應中文字串的正確切分結果。那麼，路徑的權重和哪些因素有關呢？經過分析發現：

（1）對中文字串分詞後得到的詞數越少越易於對該字串的理解，這稱爲最少分詞原則。

假設切分路徑的邊條數爲8,那麼邊的條數對應中文字串分詞以後的詞的個數，即分詞後得到的詞的個數爲8,權重計

式如下:

顯然，詞的個數越少,對該字串越易於理解，權重越大。

（2）根據中文字串中的漢字與漢字之間的互信息，漢字之間的互信息體現了漢字之間聯繫的緊密程度，兩個漢字之間的互信息越大,這兩個字被分開的可能性就越小。

假設：與結點i相鄰的兩個漢字分別爲LeftC 9）和 RightC（i），可以計算切分有向圖中和每個結點相鄰的兩個漢字的互信息:

P(LeJjC(i)RightC(i))

P(LeftC(i))xP(RightC(i))

每條切分路徑的互信息 :

Mutuallnfo=— ",I（LeftC（i） :RightC（i））

n i,i

其中n爲切分路徑中結點的個數。

顯然,Mutualinfo反映了切分路徑的各個斷點之間結合的緊密程度。Mutualinfo值越大，說明各個斷點之間結合程度越強，該路徑成爲正確切分路徑的概率就越小。所以，定義切分路徑的互信息權重如下：

Powe rOfMutuallnfo=

Mutualinfo

93）切分之的詞的度，如切分之詞語的使用頻度越高,說明該詞語被切分成詞串的概率就越高。假設:切分後每個詞語的詞頻爲freq（Ht）,那麼可以定義切分路徑的詞頻權重如下：

PowerOfFreq=\ ）

l爲切分之後的詞語個數。

最，可以種對切分路徑的不，

義整個切分路徑的權重計算公式如下：

PowerOfPath=axPowe rOfNu8> er+/3xPowerOfMutualinfo+ yxPowerOfFreq

其中a、"、#分別爲調整因子，它們反映了每種情況對句子權重的影響程度。並且滿足：a+0+#=1。

2算法描述

的基有向圖的中分詞法，中分詞的度，法的程如下：

（1）斷句，按標點符號/空格等，生成若干個中文文本字串。

（2）對每一箇中文文本字串，做：

①構造中文文本字串的分詞有向圖;②計算有向圖中所有的切分路徑;③對每條切分路徑，根據1.4節中的方法計算每條切分路徑的權重;④選擇權重最大的切分路徑對應的切分形式爲正確的分詞結果。

舉“重點工程”這個句子切分爲例，句子的中文分詞有向圖如圖3所示。

當然，分詞系統也可以根據側重點不同，動態地調整a、"、 $這三個參數,以適應於不同的應用場合。

圖3 “重點工程”的中文分詞有向圖

互信息詞重，較最分詞則重，那麼上面的式子中的a、"、#可分爲取0.2、0.4、0.4。根據上面的中文分詞有向圖可以計算出所有的切分路徑。

路徑1:重/點/工/程

路徑2：重點/工/程

路徑3：重點/工程

路徑4：重/點/工程

大中系所的漢詞，詞

有108 783條詞項，主要是根據1981年人民日報語料庫統計所得,較有實用性。假設語料庫的詞條總數爲CORPUS_N,通過查詢詞庫,可知路徑中各個詞的詞頻分別爲：

freq（重）=952/CORPUS_N

freq（重點）=2683/CORPUS_N

freq（點）=1789/CORPUS_N

freq（工）=121/CORPUS_N

freq（工程）=4146/CORPUS_N

freq（程）=15/CORPUS_N

取a=0.2、、3=0.4、#=0.4，切分路徑的權重計算如下：

路徑1:

PowerOfPath=0.05+0.053 666 698 4+0.003 702 626 2=

0.107 369 324 693 700 45

路徑2：

PowerOfPath=0.066 666 666 7+0.088 432 736 9+

0.004 511 362 8=0.159 610 766 382 648 96

路徑3：

Power0fPath=0.1+0.100 282 810 6+0.185 405 510 1 =

0.385 688 320 669 448 7

4：

Power0fPath=0.066 666 666 7+0.088 432 736 9+

0.124 889 773 9=0.279 989 177 473 124 3

經過比較，顯然路徑3的權重明顯大於其餘3條路徑的權重，所以選擇路徑3。句子的正確切分結果爲:重點/工程。

當然，分詞系統也可以根據側重點不同，動態地調整a、"、 $這三個參數,以適應於不同的應用場合。

基於圖的分詞方法

GAN的三重理解境界

高併發架構演進之路（下）——一體化架構到微服務

python+Potrace實現自動作畫——程序員的浪漫

支付寶和bilibilli APP推薦的一些思考

高併發系統演進之路（上）--基礎篇

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結