分佈式搜索elasticsearch中文分詞集成 .

elasticsearch官方只提供smartcn這個中文分詞插件,效果不是很好,好在國內有medcl大神(國內最早研究es的人之一)寫的兩個中文分詞插件,一個是ik的,一個是mmseg的,下面分別介紹下兩者的用法,其實都差不多的,先安裝插件,命令行:
安裝ik插件:

[plain]
plugin -install medcl/elasticsearch-analysis-ik/1.1.0  

下載ik相關配置詞典文件到config目錄

[plain]
cd config  
  1. wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate  
  2. unzip ik.zip  
  3. rm ik.zip  

安裝mmseg插件:

[plain]
bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0  

下載相關配置詞典文件到config目錄

[plain]
cd config  
  1. wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate  
  2. unzip mmseg.zip  
  3. rm mmseg.zip  

分詞配置

ik分詞配置,在elasticsearch.yml文件中加上

[html]
index:  
  1.   analysis:                     
  2.     analyzer:        
  3.       ik:  
  4.           alias: [ik_analyzer]  
  5.           type: org.elasticsearch.index.analysis.IkAnalyzerProvider  

[html]
index.analysis.analyzer.ik.type : “ik”  

這兩句的意義相同
mmseg分詞配置,也是在在elasticsearch.yml文件中

[html]
index:  
  1.   analysis:  
  2.     analyzer:  
  3.       mmseg:  
  4.           alias: [news_analyzer, mmseg_analyzer]  
  5.           type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider  

[html]
index.analysis.analyzer.default.type : "mmseg"  

mmseg分詞還有些更加個性化的參數設置如下

[html]
index:  
  1.   analysis:  
  2.     tokenizer:  
  3.       mmseg_maxword:  
  4.           type: mmseg  
  5.           seg_type: "max_word"  
  6.       mmseg_complex:  
  7.           type: mmseg  
  8.           seg_type: "complex"  
  9.       mmseg_simple:  
  10.           type: mmseg  
  11.           seg_type: "simple"  

這樣配置完後插件安裝完成,啓動es就會加載插件。

定義mapping

在添加索引的mapping時就可以這樣定義分詞器

[plain]
{  
  1.    "page":{  
  2.       "properties":{  
  3.          "title":{  
  4.             "type":"string",  
  5.             "indexAnalyzer":"ik",  
  6.             "searchAnalyzer":"ik"  
  7.          },  
  8.          "content":{  
  9.             "type":"string",  
  10.             "indexAnalyzer":"ik",  
  11.             "searchAnalyzer":"ik"  
  12.          }  
  13.       }  
  14.    }  
  15. }  

indexAnalyzer爲索引時使用的分詞器,searchAnalyzer爲搜索時使用的分詞器。

java mapping代碼如下:

[java]
XContentBuilder content = XContentFactory.jsonBuilder().startObject()  
  1.         .startObject("page")  
  2.           .startObject("properties")         
  3.             .startObject("title")  
  4.               .field("type""string")             
  5.               .field("indexAnalyzer""ik")  
  6.               .field("searchAnalyzer""ik")  
  7.             .endObject()   
  8.             .startObject("code")  
  9.               .field("type""string")           
  10.               .field("indexAnalyzer""ik")  
  11.               .field("searchAnalyzer""ik")  
  12.             .endObject()       
  13.           .endObject()  
  14.          .endObject()  
  15.        .endObject()  

定義完後操作索引就會以指定的分詞器來進行分詞。

 

附:

ik分詞插件項目地址:https://github.com/medcl/elasticsearch-analysis-ik

mmseg分詞插件項目地址:https://github.com/medcl/elasticsearch-analysis-mmseg

如果覺得配置麻煩,也可以下載個配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章