5、分詞算法

1、正向最大匹配:已有字典,最長詞長度爲m,判斷當前位置i到i+m中存在的最長的詞

2、反向最大匹配:相反

3、雙向最大匹配:正向和逆向同時進行,取效果最好的,效果最好的評價標準是:分詞結果詞的數量少,單個字少

4、HMM分詞。自己之前寫過,就是隱馬爾可夫過程,原地址貼過來了

https://blog.csdn.net/cuipanguo/article/details/82114083

5、我記得還有一種方法是凝固度和自由度來做新詞的發現

     自由度:一個詞左右兩邊的詞的固定程度。一個詞左右的自由度越大,越有可能是一個詞,如果自由度很小,說明很容易和左邊和右邊組成一個新的詞。用熵來計算自由度。

    凝固度:兩個詞同時使用的程度。越大,越有可能組成新的詞。

發佈了36 篇原創文章 · 獲贊 19 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章