爲什麼選擇結巴分詞
- 分詞效率高
- 詞料庫構建時使用的是jieba (python)
結巴分詞Java版本
- 下載
git clone https://github.com/huaban/jieba-analysis
- 編譯
-
cd jieba-analysis
-
mvn install
- 注意
如果mvn版本較高,需要修改pom.xml文件,在plugins前面增加
或者直接下載jieba-analysis-1.0.2.jar:鏈接:https://pan.baidu.com/s/1kt3wE7v-hdrM_04asLyFGg 密碼:boda
solr tokenizer版本
- https://github.com/sing1ee/analyzer-solr (solr 5)編譯
./gladlew build
集成到solr
拷貝上面兩個jar包到solr的目錄下:server/solr-webapp/webapp/WEB-INF/lib