elasticsearch官方只提供smartcn這個中文分詞插件,效果不是很好,好在國內有medcl大神(國內最早研究es的人之一)寫的兩個中文分詞插件,一個是ik的,一個是mmseg的,下面分別介紹下兩者的用法,其實都差不多的,先安裝插件,命令行:
安裝ik插件:
下載ik相關配置詞典文件到config目錄
- wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate
- unzip ik.zip
- rm ik.zip
安裝mmseg插件:
下載相關配置詞典文件到config目錄
- wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate
- unzip mmseg.zip
- rm mmseg.zip
分詞配置
ik分詞配置,在elasticsearch.yml文件中加上
- analysis:
- analyzer:
- ik:
- alias: [ik_analyzer]
- type: org.elasticsearch.index.analysis.IkAnalyzerProvider
或
這兩句的意義相同
mmseg分詞配置,也是在在elasticsearch.yml文件中
- analysis:
- analyzer:
- mmseg:
- alias: [news_analyzer, mmseg_analyzer]
- type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider
或
mmseg分詞還有些更加個性化的參數設置如下
- analysis:
- tokenizer:
- mmseg_maxword:
- type: mmseg
- seg_type: "max_word"
- mmseg_complex:
- type: mmseg
- seg_type: "complex"
- mmseg_simple:
- type: mmseg
- seg_type: "simple"
這樣配置完後插件安裝完成,啓動es就會加載插件。
定義mapping
在添加索引的mapping時就可以這樣定義分詞器
- "page":{
- "properties":{
- "title":{
- "type":"string",
- "indexAnalyzer":"ik",
- "searchAnalyzer":"ik"
- },
- "content":{
- "type":"string",
- "indexAnalyzer":"ik",
- "searchAnalyzer":"ik"
- }
- }
- }
- }
indexAnalyzer爲索引時使用的分詞器,searchAnalyzer爲搜索時使用的分詞器。
java mapping代碼如下:
- .startObject("page")
- .startObject("properties")
- .startObject("title")
- .field("type", "string")
- .field("indexAnalyzer", "ik")
- .field("searchAnalyzer", "ik")
- .endObject()
- .startObject("code")
- .field("type", "string")
- .field("indexAnalyzer", "ik")
- .field("searchAnalyzer", "ik")
- .endObject()
- .endObject()
- .endObject()
- .endObject()
定義完後操作索引就會以指定的分詞器來進行分詞。
附:
ik分詞插件項目地址:https://github.com/medcl/elasticsearch-analysis-ik
mmseg分詞插件項目地址:https://github.com/medcl/elasticsearch-analysis-mmseg
如果覺得配置麻煩,也可以下載個配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf