solr 配置 mmseg4j 分詞器

# solr 配置 mmseg4j 分詞器

solr6.0.0
mmseg4j-solr-2.4.0.jar
mmseg4j-core-1.10.0.jar
solr 以 jetty 方式部署 (非tomcat)
mmseg4j [GitHub地址](https://github.com/chenlb/mmseg4j-solr)
# 將 mmseg4j-solr-2.4.0.jar 和 mmseg4j-core-1.10.0.jar 放入到 solr 根目錄下的 dist目錄下
# 在具體倉庫根目錄下的 solrconfig.xml 中 加入以下兩行
<lib dir="${solr.install.dir:../../../..}/dist/" regex="mmseg4j-core-\d.*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="mmseg4j-solr-\d.*\.jar" />
# 然後編輯 具體倉庫根目錄下的 managed-schema 文件 加入以下幾行(自定義字段域類型)
# mode 有三種模式 complex simple max-word
<fieldType name="text_complex" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
    </analyzer>
</fieldType>

<fieldType name="text_simple" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" />
    </analyzer>
</fieldType>

<fieldType name="text_max_word" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />  
    </analyzer>
</fieldType>
# 然後相關字段 使用剛配置的字段與類型 即可
<field name="name" type="text_max_word" indexed="true" stored="true" />
##### maven 打包 mmseg4j-solr-2.4.0 jar 包
eclipse oxygen
java8
# pom.xml 文件
<properties>
    <javadocExecutable>D:/dev/java/jdk/bin/javadoc</javadocExecutable>
    <JAVA_HOME>D:/dev/java/jdk</JAVA_HOME>
</properties>
<dependency>
    <groupId>jdk.tools</groupId>
    <artifactId>jdk.tools</artifactId>
    <version>1.7</version>
    <scope>system</scope>
    <systemPath>D:/dev/java/jdk/lib/tools.jar</systemPath>
</dependency>
# 註釋掉
maven-gpg-plugin
# 注意 maven 下載的 依賴 jar 包, 可能會有下載錯誤的情況, 刪除掉相關的 jar, 重新下
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章