中文分詞的一點研究

在中文分詞中,歧義性分詞是一個難點,其中如下一類分詞,比較具有代表性,如果能把這類句子能夠正確切分,相信能很好地提高分詞效果。
原句:沿海南方向逃跑
分詞a:沿海x 南方x 向x 逃跑x
分詞b:沿x 海南x 方向x 逃跑x
分詞c:沿海x 南x 方向x 逃跑x


原句:購買網球鞋
分詞a:購買x 網球x 鞋x
分詞b:購買x 網x 球鞋x


原句:中國有石油
分詞a:中國x 有x 石油x
分詞b:中x 國有x 石油x


原句:經常開會議
分詞a:經常x 開x 會議x 
分詞b:經常x 開會x 議x
分詞c: 經x 常開x 會議x



這類句子有個特點,整個詞長爲5,都被切分成3個詞,每個句子都含有1~2個歧義詞,他們的有效文本長度相等,詞元個數相同,詞元平均長度也相同,到底該如何切分呢?是切分成212型,221型還是122型呢?

通過學習MMSeg和IK Analyzer 兩種分詞軟件,發現兩個軟件都有可能誤判,但處理規則不同。

IK Analyzer的規則是提前確定好的,如果是在212和221中選擇,IK會選擇212(因爲詞文本跨度比較大),如果是在212和122中選擇,Ik會選擇212(因爲詞文本跨度大),如果是在221和122中選擇,IK會選擇122。

MMSeg的規則也是提前確定好的,但還留有一定的靈活性,在這種情況下,它會比較剩餘的單字的自由度(即字的詞頻)。由於詞典是開放的,我們可以通過微調字的頻率。來修正切詞結果。

從這一點上看,感覺MMSeg要比IK Analyzer好一些。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章