Elasticsearch7.x使用(五) ICU分詞插件

1、查看當前已經安裝的分詞插件

[elasticsearch@txvm2019 bin]$ ./elasticsearch-plugin list
analysis-icu
analysis-ik

引用網上對ICU分詞的介紹:
ICU Analysis插件是一組將Lucene ICU模塊集成到Elasticsearch中的庫。 本質上,ICU的目的是增加對Unicode和全球化的支持,以提供對亞洲語言更好的文本分割分析。 從Elasticsearch的角度來看,此插件提供了文本分析中的新組件,如下表所示:

 

常用分詞

1)普通分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "standard"
}

GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "keyword"
}

2)IK 分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "ik_max_word"
}

3) ICU 分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "icu_analyzer"
}

ICU分詞測試:

{
  "tokens" : [
    {
      "token" : "他是",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "<IDEOGRAPHIC>",
      "position" : 0
    },
    {
      "token" : "一個",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "<IDEOGRAPHIC>",
      "position" : 1
    },
    {
      "token" : "前端",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "<IDEOGRAPHIC>",
      "position" : 2
    },
    {
      "token" : "開發",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "<IDEOGRAPHIC>",
      "position" : 3
    },
    {
      "token" : "工程",
      "start_offset" : 8,
      "end_offset" : 10,
      "type" : "<IDEOGRAPHIC>",
      "position" : 4
    },
    {
      "token" : "師",
      "start_offset" : 10,
      "end_offset" : 11,
      "type" : "<IDEOGRAPHIC>",
      "position" : 5
    }
  ]
}

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章