1、正向最大匹配:已有字典,最長詞長度爲m,判斷當前位置i到i+m中存在的最長的詞
2、反向最大匹配:相反
3、雙向最大匹配:正向和逆向同時進行,取效果最好的,效果最好的評價標準是:分詞結果詞的數量少,單個字少
4、HMM分詞。自己之前寫過,就是隱馬爾可夫過程,原地址貼過來了
https://blog.csdn.net/cuipanguo/article/details/82114083
5、我記得還有一種方法是凝固度和自由度來做新詞的發現
自由度:一個詞左右兩邊的詞的固定程度。一個詞左右的自由度越大,越有可能是一個詞,如果自由度很小,說明很容易和左邊和右邊組成一個新的詞。用熵來計算自由度。
凝固度:兩個詞同時使用的程度。越大,越有可能組成新的詞。