Elasticsearch7.x使用(五) ICU分詞插件

1、查看當前已經安裝的分詞插件

[elasticsearch@txvm2019 bin]$ ./elasticsearch-plugin list
analysis-icu
analysis-ik

引用網上對ICU分詞的介紹：
ICU Analysis插件是一組將Lucene ICU模塊集成到Elasticsearch中的庫。本質上，ICU的目的是增加對Unicode和全球化的支持，以提供對亞洲語言更好的文本分割分析。從Elasticsearch的角度來看，此插件提供了文本分析中的新組件，如下表所示:

常用分詞

1)普通分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "standard"
}

GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "keyword"
}

2)IK 分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "ik_max_word"
}

3) ICU 分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "icu_analyzer"
}

ICU分詞測試：

{
  "tokens" : [
    {
      "token" : "他是",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "<IDEOGRAPHIC>",
      "position" : 0
    },
    {
      "token" : "一個",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "<IDEOGRAPHIC>",
      "position" : 1
    },
    {
      "token" : "前端",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "<IDEOGRAPHIC>",
      "position" : 2
    },
    {
      "token" : "開發",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "<IDEOGRAPHIC>",
      "position" : 3
    },
    {
      "token" : "工程",
      "start_offset" : 8,
      "end_offset" : 10,
      "type" : "<IDEOGRAPHIC>",
      "position" : 4
    },
    {
      "token" : "師",
      "start_offset" : 10,
      "end_offset" : 11,
      "type" : "<IDEOGRAPHIC>",
      "position" : 5
    }
  ]
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Elasticsearch7.x使用(五) ICU分詞插件

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

Elasticsearch相關概念說明

Elasticsearch相關組件版本對照表

Redis集羣數據分片機制說明

Redis部署模式說明

Redis實現鎖機制

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結