[solr] solr5.5.2配置结巴分词工具

 

为什么选择结巴分词

  • 分词效率高
  • 词料库构建时使用的是jieba (python)

结巴分词Java版本

  • 下载
git clone https://github.com/huaban/jieba-analysis
  • 编译
  1. cd jieba-analysis

  2. mvn install

  • 注意
如果mvn版本较高,需要修改pom.xml文件,在plugins前面增加 

     或者直接下载jieba-analysis-1.0.2.jar:链接:https://pan.baidu.com/s/1kt3wE7v-hdrM_04asLyFGg  密码:boda

 

solr tokenizer版本

./gladlew build

集成到solr

拷贝上面两个jar包到solr的目录下:server/solr-webapp/webapp/WEB-INF/lib

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章