一、下載mmseg4j,下載地址:https://code.google.com/p/mmseg4j/downloads/list,如果該地址無法下載,請在該地址下載:https://download.csdn.net/download/z36090106120/7913863,如果之前你沒有配置好solr,請參考:https://blog.csdn.net/WanTianwen/article/details/81987119
二、將需要用到的jar文件(mmseg4j-analysis-1.9.1.jar、mmseg4j-core-1.9.1.jar、mmseg4j-solr-1.9.1.jar)拷入到solr項目的lib目錄,我的該目錄爲:/usr/apache-tomcat-7.0.90/webapps/solr/WEB-INF/lib/,如果jar包在Windows服務器,可以使用SecureCR的rz命令進行上傳
三、編輯schema.xml,我的示例文件在:/usr/solr/collection1/conf/schema.xml,找到types節點,加入:
<!-- mmseg4j-->
<fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >
<analyzer>
<!--
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/usr/solr/my_dic"/>
-->
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
</analyzer>
</fieldType>
<!-- mmseg4j-->
然後搜索到name="title",將text_general換成text_mmseg4j_simple,如下:
<field name="title" type="text_mmseg4j_simple" indexed="true" stored="true" multiValued="true"/>
三、重啓tomcat服務器,先加入測試數據(Document Type我這裏使用的XML),訪問:http://192.168.0.101:8080/solr/#/collection1/query
XML數據爲
<doc>
<field name="id">1</field>
<field name="title">我老家浙江,我是學的計算機專業</field>
</doc>
<doc>
<field name="id">2</field>
<field name="title">我來自首都,我喜歡電腦,我馬上要開始開始進入人生的拼搏階段,美好生活從這裏開始</field>
</doc>
<doc>
<field name="id">3</field>
<field name="title">今天是一個美好的一天,陽光明媚</field>
</doc>
<doc>
<field name="id">4</field>
<field name="title">關於solr的安裝請關注我的博客</field>
</doc>
<doc>
<field name="id">5</field>
<field name="title">昨天我剛從上海回到北京,今天我需要安排給大家講一節新的計算計相關專業的課程</field>
</doc>
<doc>
<field name="id">6</field>
<field name="title">昨天我們部門舉行了一場重大的會議</field>
</doc>
四、檢測solr中文分詞是否配置完成,先進行Analysis測試,發現分詞成功
五、在進行query測試,發現已成功()
六、恭喜,solr配置中文分詞mmseg4j-1.9.1成功