經過人名、地名等未登陸詞的識別之後,再次生成二叉分詞圖表,求取N-最短路徑。爲何再次執行這樣的循環,是因爲在得到初分結果後又增加了新的節點(比如:人名或地名)到結果鏈表中,需要再次求取最短路徑:
經過優化後的二叉分詞圖表:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | |
0 | 始##始@張 | 始##始@未##人 | |||||||||
1 | 張@華 | 張@未##人 | |||||||||
2 | 未##人@說 | ||||||||||
3 | 華@平 | ||||||||||
4 | 未##人@說 | ||||||||||
5 | 平@說 | ||||||||||
6 | 說@的 | ||||||||||
7 | 的@確實 | ||||||||||
8 | 確實@在 | ||||||||||
9 | 在@理 | ||||||||||
10 | 理@末##末 |
經過優化後的二叉分詞路徑:
序號 | 二叉分詞路徑 |
0 | 0 2 6 7 8 9 10 11 |
至此,我們得到了最終的分詞路徑,正確的把人名識別出來,但在這個結果只有一部分詞正確標註了詞性,主要是未登陸詞,即源碼中以“未##X”表示的,其它的分詞並未成功的進行記性標記。所以需要再次調用記性標記這一次過程,把剩餘的詞的詞性成功標註出來。
經過優化後的分詞結果:
序號 | 分詞結果 |
0 | 張華平/nr 說/v 的/uj 確實/ad 在/p 理/n |