Elasticsearch筆記六之中文分詞器及自定義分詞器

原創

2020-02-24 13:14

中文分詞器

在lunix下執行下列命令，可以看到本來應該按照中文”北京大學”來查詢結果es將其分拆爲”北”,”京”,”大”,”學”四個漢字，這顯然不符合我的預期。這是因爲Es默認的是英文分詞器我需要爲其配置中文分詞器。

curlHTTP://192.168.79.131:9200/shb01/_analyze?pretty=true -d'{"text":"北京大學"}'

Es整合ik不直接用ik官網的工具包，需要將ik工具包封裝成es插件才行，這個已經有人封裝好了可以在github上下載elasticsearch-analysis-ik

1：在github上下載ik插件源碼

https://github.com/medcl/elasticsearch-analysis-ik

2：下載後解壓縮在根目錄下使用maven對其進行編譯。

編譯後把target/release目錄下的elasticsearch-analysis-ik-1.3.0.zip上傳到/usr/local/elasticsearch-1.4.4/plugins/analysis-ik目錄下然後使用unzip解壓。

把下載的ik插件中config目錄下的文件拷貝到/usr/local/elasticsearch-1.4.4/config目錄下，這些文件時ik的配置文件，custom是自定義詞庫文件。

3：修改elasticsearch.yml文件，把ik分詞器設置爲es的默認分詞器

index.analysis.analyzer.default.type:ik

4：重啓es，注意es中的每個節點都要進行上述配置。

自定義分詞器

1：創建一個dic文件，編碼格式必須爲utf-8無BOM格式，每個詞一行多個詞需要換行。

2：將自定義的dic文件上傳到/usr/local/elasticsearch-1.4.4/config/custom目錄下

3：修改ik的配置文件/usr/local/elasticsearch-1.4.4/config/IKAnalyzer.cfg.xml，在其中指定自定義的dic文件。

4：重啓es

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於Flink和Drools的實時日誌處理

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！背景日誌系統接入的日誌種類多、格式複雜多樣，主流的有以下幾種日誌： Filebeat採集到的文本日誌，格式多樣 Winbeat採集到的

雲棲號資訊小哥

2020-07-10 16:13:52

如何預防 Elasticsearch 服務器入侵事件的發生

如果您身在技術圈，很可能在某個時刻已經正面遭遇過“服務器入侵”。即使您身處圈外，也可能會對致使私密個人數據最終落入不法之手的服務器/數據入侵和安全漏洞有所耳聞。此類數據可能包括信用信息、社會安全號碼，以及其他您想要保密且不希望落入

2020-07-08 06:52:10

ES的Query、Filter、Metric、Bucketing使用詳解

https://www.cnblogs.com/sunsky303/p/9443013.html 由於筆者在實際項目僅僅將ES用作索引數據庫，並沒有深入研究過ES的搜索功能。而且鑑於筆者的搜索引擎知識有限，本文將僅僅介紹ES簡單（非全

2020-07-08 05:50:47

Elasticsearch：ES 倒排索引爲什麼查詢速度會這麼快

https://www.jianshu.com/p/addefe15f3e9 0. 前言 Elasticsearch 是一個分佈式可擴展的實時搜索和分析引擎，它建立在全文搜索引擎 Apache Lucene™ 的基礎上。Elastic

2020-07-08 05:50:47

Elasticsearch入門必備——ES中的字段類型以及常用屬性

https://www.cnblogs.com/xing901022/p/5471419.html 字段中的索引和存儲其中需要說明的是： index定義字段的分析類型以及檢索方式如果是no，則無法通過檢索查詢到該字段；如果設置爲

2020-07-08 05:50:47

ElasticSearch那些事兒（一）

目錄一、簡介二、下載並運行ElasticSearch 三、在Windows上運行ElasticSearch 四、在docker上運行ElasticSearch Elasticsearch 是一個實時的分佈式搜索分析引擎，它能讓你以一

2020-07-08 01:45:20

認識Elasticsearch

一、概述簡介 Elasticsearch 是一個分佈式、RESTful 風格的搜索和數據分析引擎。它是基於Apache Lucene開發的，開發語言爲Java，使用Apache 開源協議進行開源。Elasticsearch的特點

爱做梦的锤子

2020-07-07 23:22:40

Elasticsearch基礎——概念和基本API操作

Elasticsearch 版本爲 7.1.0 ，本文的講解都是基於該版本文章中Elasticsearch將使用簡稱ES代替一、基本概念文檔——Document ES是面向文檔的搜索，文檔是ES所有可搜索數據的最小單元。

爱做梦的锤子

2020-07-07 23:22:40

ES特定場景性能優化

1. Overview 本文主要介紹一下Elasticsearch（後文簡稱ES）做相關基準測試的流程，及分享一些我們做過的一些測試結論。簡要說明下我們使用情況：寬表的用戶畫像OLAP分析場景，集羣規模200節點，數據量30T

2020-07-07 18:10:00

elasticsearch中IK分詞處理

嗯，弄完ANSJ分詞，今天上IK分詞。這裏elasticsearch是2.3.1，對應的IK爲1.9.1。 1.到https://github.com/medcl/elasticsearch-analysis-ik/releases?a

2020-07-07 11:21:08

elasticsearch分組並獲得分組裏面的結果 group_concat

GET /test_index/_search { "size": 0, "query": { "match_phrase": { "legalpersonname": "李斌" //搜索名稱爲李斌

2020-07-07 08:54:12

解決Elasticsearch啓動後，可以進行外網訪問

今天遇到一個問題就是在win10環境下，啓動Elasticsearch，但是隻能用127.0.0.1:9200或者localhost:9200進行訪問，輸入本機ip+端口就訪問不了，後來從網上找資料，發現需要修改配置文件，於是修改配置文件

2020-07-07 01:37:09

Please check the elasticsearch SSL settings under xpack.security.http.ssl.

es 集羣安全認證添加用戶密碼的時候，執行 ./bin/elasticsearch-setup-passwords interactive 報錯如下 # # 原因是需要註釋掉：yml 裏邊的配置添加完密碼以後再打開

2020-07-06 23:16:04

如何選elasticsearch 的版本

# # 建議看下這篇文章 https://blog.csdn.net/u013613428/article/details/103317806

2020-07-06 23:16:04

es 7.5.1版本集羣配置安全證書和開啓ssl加密通信

前提是：已經搭建起來集羣了，並且集羣可以正常運行。所有的節點都是健康的狀態。另外我所有的操作都是直接使用啓動es集羣的用戶做的，如果不是這個用戶的話，對生成的證書還需要賦予可執行權限。 # # 生成證書，給集羣添加證書認證生成

2020-07-06 23:15:54

24小時熱門文章

最新文章

最新評論文章