1.簡介
Solr是一個高性能,採用Java5開發,Solr基於Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更爲豐富的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化,並且提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。因爲中文的特殊性,在對中文文檔建立全文索引時,需要利用分詞工具進行分詞。
目前比較知名的分詞工具有:
IK,庖丁等.下面使用的是IK分詞
2.下載
solr鏈接:https://pan.baidu.com/s/1iitpaYgBVpXQSUABtkCm5Q
提取碼:tuuo
3.安裝
解壓文件即可。
在solr-5.4.0/bin
修改solr的權限
chmod 777 solr
在{SOLR_HOME}/bin運行:
./solr start -p 8984
可以在ip:8984端口上查看solr情況
關閉solr
./solr stop -all
創建core。
1.進入server/solr目錄創建coredir
cd /usr/local/solr/solr-5.4.0/server/solr
2.複製configsets中的sample*文件夾中的conf到coredir下
cd /usr/local/solr/solr-5.4.0/server/solr/configsets
cp -r sample_techproducts_configs/ /usr/local/solr/solr-5.4.0/server/solr
cd ..
mv sample_techproducts_configs/ mycore
3.在solr管理頁面上創建(添加)core
4.中文分詞配置
利用的ik分詞器。
ik-analyzer-solr5-5.x.jar
下載地址 https://pan.baidu.com/s/1MlzginuetwyONGQ5KbtnOg
提取碼:7g7z
步驟:
1.添加jar包
將jar包添加到{SOLR_HOME}/server/solr-webapp/webapp/WEB-INF/lib
2.修改配置,不要用插件打開文件修改(會造成如下錯誤).
建議使用 vi schema.xml
修改schema.xml 將下面內容放進schema.xml中即可。也可以修改字段中的‘text_ik’
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" />
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" />
</analyzer>
</fieldType>
配置解析:
text_ik表示你的停詞名稱,裏面所有的text_ik可以修改,但是要統一修改。
注意點!!!!!
防止出現下面錯修改conf目錄下的elevate.xml文件
解決問題的方法是 修改elevate.xml文件,將其中的id值設置爲數字,就可以了。
重啓solr
關閉solr
./solr stop -all
運行:
./solr start -p 8984
檢測:
進入solr管理頁面-->analysis 查看分詞結果
1.進入web頁面 ip:8984
2.選擇你添加的core
3.
4.結果
出現以上結果,恭喜你表示中文分詞成功。努力努力再努力......