目前全文搜索用到的中文分詞,大都是開源和自己開發
相應的算法很多,到底選哪個來寫,各有各的看法。
我分享下我做過的供大家參考
沒用過詞性的中文分詞,因爲我的業務用不到。
用過的大部分開源的中文分詞,主要是基於字典對純數字,純英文,純中文,混合進行比對,效率看字典好壞,其字典設計,內存使用,比對次數,掃描文章次數等。
適合沒有明確搜索關鍵詞的全文搜索,其目標是搜索到。
缺點:由於字典和算法,實現後的中文分詞形成的索引大小差異比較大,很難衡量其準確性
寫過一個分詞,基本就是基於產品型號字典的比對。
特點:索引速度快,索引小。因爲字典和業務掛鉤很容易檢查其準確性。
缺點:只能基於業務。
中文分詞可以很簡單,網上找個開源的來用,也可以可以很複雜,自己寫,比如不同類型的字典所需信息整理蒐集。大量字典情況下,內存的使用,如何更快,準確切分是比較複雜的。
選擇中文分詞到底是找個開源的用,還是找個算法來寫,或者是自己按照業務來寫,主要基於
1:項目進度:時間
2:自己寫的把握:項目第一是穩,而不是快
3:業務需要
4:公司願意的投入:人力,物力,財力
5:大家補充 :D
如何選擇中文分詞
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
Solr7.3定時與JAVA操作?
java20150326
2020-07-04 20:37:15
Centos7下tomcat單機部署Solr7.3
java20150326
2020-07-04 20:37:15
solr高級????
java20150326
2020-07-04 20:37:15
Elasticsearch初探搜索與分析
致虚极POLE守静笃
2020-06-20 19:29:06
[pg]postgresql的中文分詞以及全文索引
码农下的天桥
2020-06-15 18:23:25
Java操作Elasticsearch
Only丶爱你
2020-02-23 14:52:46
Elasticsearch搜索安裝和使用
Only丶爱你
2020-02-23 14:52:46
用compass實現站內全文搜索引擎(一)
master_yao
2020-02-21 03:51:42
用compass實現站內全文搜索引擎(二)
master_yao
2020-02-21 03:51:42
全文搜索引擎 Lucene Solr ElasticSearch 關係?
林中静月下仙
2019-09-17 06:14:19
lucene原理及java實現
南荣牧歌
2019-07-02 14:57:51
lucene-4.8.0版本SSM框架配置
转让半包_辣条
2019-02-27 22:35:41
solr高級
java20150326
2018-11-28 13:06:22