ICTCLAS分詞系統研究(八)--生成最終分詞結果

經過人名、地名等未登陸詞的識別之後,再次生成二叉分詞圖表,求取N-最短路徑。爲何再次執行這樣的循環,是因爲在得到初分結果後又增加了新的節點(比如:人名或地名)到結果鏈表中,需要再次求取最短路徑:

經過優化後的二叉分詞圖表:

  1 2 3 4 5 6 7 8 9 10 11
0 始##始@張 始##始@未##人                  
1     張@華 張@未##人              
2           未##人@說          
3         華@平            
4           未##人@說          
5           平@說          
6             說@的        
7               的@確實      
8                 確實@在    
9                   在@理  
10                     理@末##末
 

經過優化後的二叉分詞路徑:

序號 二叉分詞路徑
0 0 2 6 7 8 9 10 11 

至此,我們得到了最終的分詞路徑,正確的把人名識別出來,但在這個結果只有一部分詞正確標註了詞性,主要是未登陸詞,即源碼中以“未##X”表示的,其它的分詞並未成功的進行記性標記。所以需要再次調用記性標記這一次過程,把剩餘的詞的詞性成功標註出來。

經過優化後的分詞結果:

序號 分詞結果
0 張華平/nr 說/v 的/uj 確實/ad 在/p 理/n
發佈了65 篇原創文章 · 獲贊 5 · 訪問量 53萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章