如何選擇中文分詞

目前全文搜索用到的中文分詞,大都是開源和自己開發

相應的算法很多,到底選哪個來寫,各有各的看法。

我分享下我做過的供大家參考

沒用過詞性的中文分詞,因爲我的業務用不到。

用過的大部分開源的中文分詞,主要是基於字典對純數字,純英文,純中文,混合進行比對,效率看字典好壞,其字典設計,內存使用,比對次數,掃描文章次數等。
適合沒有明確搜索關鍵詞的全文搜索,其目標是搜索到。
缺點:由於字典和算法,實現後的中文分詞形成的索引大小差異比較大,很難衡量其準確性

寫過一個分詞,基本就是基於產品型號字典的比對。
特點:索引速度快,索引小。因爲字典和業務掛鉤很容易檢查其準確性。
缺點:只能基於業務。

中文分詞可以很簡單,網上找個開源的來用,也可以可以很複雜,自己寫,比如不同類型的字典所需信息整理蒐集。大量字典情況下,內存的使用,如何更快,準確切分是比較複雜的。

選擇中文分詞到底是找個開源的用,還是找個算法來寫,或者是自己按照業務來寫,主要基於
1:項目進度:時間
2:自己寫的把握:項目第一是穩,而不是快
3:業務需要
4:公司願意的投入:人力,物力,財力
5:大家補充 :D
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章