【solr】——配置中文分析器

開篇


        本篇博客簡單的學習一下solr的使用,使用單機版。Solr安裝成功後並且啓動後可以通過ip:port /solr/進行訪問。

        Document即文檔是solr用來搜索的數據源,這些數據源是我們上傳到solr的。不同的應用程序數據庫可以通過配置schema.xml來添加要導入到solr中的字段。

 

正文


第一部分:中文分詞器

        正式開始介紹如何使用之前先配置一下中文分析器,要使用的分析器是IKAnalyzer,它是一款結合了詞典和文法分析算法的中文分詞組件,基於字符串匹配,支持用戶詞典擴展定義,支持細粒度和智能切分,先看如何配置然後看實際效果。

 

        第一步:把IKAnalyzer依賴的jar包添加到solr工程中。


        第二步:把分析器使用的擴展詞典添加到classpath中。

        第三步:在Schema.xml中需要自定義一個FieldType,可以在FieldType中指定中文分析器。Schema.xml路徑入下:

 

        該配置文件末尾添加如下配置:

<fieldType name="text_ik" class="solr.TextField">
  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

         啓動tomcat,通過瀏覽器訪問solr,輸入內容測試中文分詞器,效果圖如下:

 

第二部分:數據導入簡介

        在使用之前首先要向solr中導入測試的數據文件。有很多種方式將數據導入到Solr中:

                1、通過Data Import Handler(DIH)從數據庫中導入數據

                2、加載CSV文件(文件中的數據用逗號分隔),csv文件可以是Excel和Mysql導出的。

                3、Post json文檔

                4、通過Solr Cell索引二進制文檔,如word或者pdf。

                5、通過java或者solr支持的其他語言,用程序創建並導入到solr中。

 

小結


        本篇配置好了solr的中文分詞器,下篇博客結合程序使用solrj向solr中導入數據。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章