Linux和Windows下elasticsearch安装和使用ik分词器

下载IK分词器：https://github.com/medcl/elasticsearch-analysis-ik/releases

必须跟elasticsearch版本一致，可以选择版本下载，没有对应版本可以翻页找找看

开始安装

Windows下安装：

1.在elasticsearch的plugins目录下创建名为ik的目录；

2.再将下载的elasticsearch-analysis-ik-7.6.2.zip压缩包解压到这个新创建的ik目录下，只需要elasticsearch-analysis-ik-7.6.2.zip下的内容，不需要再生成一个elasticsearch-analysis-ik-7.6.2文件夹，如图所示：

Linux下安装同理：

单节点与Windows相同操作

集群：

1.停止集群中所有机器的elasticsearch进程，在所有机器上做这些操作：在elasticsearch的plugins目录下创建名为ik的目录，再将下载的elasticsearch-analysis-ik-7.6.2.zip压缩包复制到这个新创建的ik目录下；

2.在elasticsearch-analysis-ik-7.6.2.zip所在文件夹下，执行目录unzip elasticsearch-analysis-ik-7.6.2.zip进行解压；

3.确认elasticsearch-analysis-ik-7.6.2.zip已经复制到每个elasticsearch的plugins/ik目录下并解压后，将所有elasticsearch启动；

elasticsearch head上测试：

POST desktop_message/_analyze

{
  "text": "我是测试分词",
  "analyzer": "ik_max_word"
}

desktop_message为索引名称

1、ik_max_word

会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。

2、ik_smart
会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

结果：

{
  "tokens": [
    {
      "token": "我",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "是",
      "start_offset": 1,
      "end_offset": 2,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "测试",
      "start_offset": 2,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 2
    },
    {
      "token": "分词",
      "start_offset": 4,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 3
    }
  ]
}

结果截图：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Linux和Windows下elasticsearch安装和使用ik分词器

ollama使用

Window 安装 Python 失败 0x80070643，发生严重错误

TiDB Vector 太香啦：以图搜图初体验！

《最新出炉》系列入门篇-Python+Playwright自动化测试-41-录制视频

關於Oracle時間排序分頁的問題

logstash jdbc_driver_library問題

springboot使用jestClient整合elasticsearch

正則匹配字符串最後一個逗號，不是逗號不匹配

Elasticsearch中的嵌套查詢介紹及實例

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結