Elasticserach 自定义分词器

原創

我傲故我狂

2020-07-07 10:05

1）环境准备

启动Elasticsearch https://blog.csdn.net/qq_36918149/article/details/104221934
启动Kinbana https://blog.csdn.net/qq_36918149/article/details/104224625

2）Character Filter

演示一：
#去除html标签

POST _analyze
{
  "tokenizer":"keyword",
  "char_filter":["html_strip"],
  "text": "<b>hello world</b>"
}

结果，html标签已经被去除

演示二：
#使用char filter进行替换

POST _analyze
{
  "tokenizer": "standard",
  "char_filter": [
      {
        "type" : "mapping",
        "mappings" : [ "- => _"]
      }
    ],
  "text": "123-456, I-test! test-990 650-555-1234"
}

结果显示，“-” 已替换为“_”，并进行了分词

3）Tokenizer

演示：
#按路径分词

POST _analyze
{
  "tokenizer":"path_hierarchy",
  "text":"/user/ymruan/a/b/c/d/e"
}

结果：路径被依次进行了分词

4）Token Filter

演示一：

# whitespace与stop
GET _analyze
{
  "tokenizer": "whitespace",
  "filter": ["stop","snowball"],
  "text": ["The rain in Spain falls mainly on the plain."]
}

结果:连接词被去掉以后的分词结果

4）总结

过滤器过滤顺序：char filter - >tokenizer -> token filter。
本章节在实际应用中还需要，仔细看一下api文档。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Elasticsearch Index Template

1）環境準備啓動Elasticsearch https://blog.csdn.net/qq_36918149/article/details/104221934 啓動Kinbana https://blog.csdn.

我傲故我狂

2020-07-07 10:05:54

Elasticsearch Query String

1）、數據準備 https://blog.csdn.net/qq_36918149/article/details/104226994 2）、演示數據添加 PUT /users/_doc/1 { "name":"Ruan Yi

我傲故我狂

2020-07-07 10:05:45

Elasticsearch单机模式安装

Elasticsearch單機模式安裝 OS：CentOS Linux release 7.6 Elasticsearch：elasticsearch-7.2.1 JDK：elasticsearch7自帶JDK，無需配置 1 OS設置

一介神符师

2020-06-30 23:54:50

Elasticsearch笔记2

學習整理自官方文檔 Elasticsearch筆記2搜索所有文檔source filteringScript fieldsCount API修改settings修改index的mapping查詢數據match queryMul

2020-06-28 18:33:23

Elastic：在 Grok 中运用 custom pattern 来定义 pattern

在我之前的文章 “Elastic可觀測性 - 數據結構化及處理”，講述瞭如果把一個非結構化的數據變爲一個結構化的數據結構。其中Grok processor 是非常重要的一個。在今天的文章中，我們來更加深入地對它進行描述。今天的這個 Gro

Elastic 中国社区官方博客

2020-06-16 10:35:31

Elasticsearch深度分页问题以及Scroll查询的一些总结

背景介紹我們在 Elasticsearch API的基礎上實現了一個日誌查詢系統，支持最基本的時間範圍選擇以及關鍵詞搜索高亮，並且日誌展示的表格支持異步分頁。有天用戶反饋，查詢的時候頁面報錯 Result window is

2020-06-15 05:25:26

Logstash：运用 Elastic Stack 分析 CSDN 阅读量

在今天的文章中，我將來介紹一下如何使用 Elastic Stack 來分析 CSDN 的閱讀量。在這個教程中，我們將會學到：如何使用 http_poller 從 github 下載一個CSV，並把該數據導入到 Elasticsearch

Elastic 中国社区官方博客

2020-06-13 16:32:09

Elasticsearch摄取节点（五）——参数转换处理器

字節轉換處理器(Bytes Processor) 處理器作用將可讀的字節值(如1kb)轉換爲其實際的字節數值值(如1024)。可讀的字節單位包含“b”、“kb”、“mb”、“gb”、“tb”、“pb”。此單位不區分大小寫。如果

2020-06-12 20:37:45

Elasticsearch查询——Profile API（性能分析）

Profile API 性能分析平時開發的過程中我們可能需要對一些查詢操作進行優化，而優化之前的工作就是要對操作的性能進行分析，而ES提供了Profile API來幫助用戶進行性能分析。它讓用戶瞭解如何在較低的級別執行搜索請求，

2020-06-12 20:37:35

Elasticsearch查询——Sort（查询排序）

Sort 查詢排序測試索引 Elasticsearch針對普通數據、數組、嵌套對象、地理位置都提供了排序功能，爲了測試其排序方式我們需要可以能夠足夠數據類型的索引。所以創建了下面一個索引以及其映射 PUT offline_sal

2020-06-12 20:37:35

Elasticsearch映射——映射到底设置了什么？

關於版本內容版本 Elasticsearch版本 7.2.0 JAVA依賴版本 7.2.1 索引映射索引的映射相當於數據庫中的表結構，這裏我之前在相關文章中已經接單介紹過了Elasticsearch基礎

2020-06-12 20:37:35

Elasticsearch查询——highlight（高亮显示）

Highlighters 高亮顯示日常生活中我們使用搜索工具嘗試查詢一些信息的時候，常常可以看到返回的結果集中和我們查詢條件相符合的字段被特殊的顏色所標記，這就是結果高亮顯示。通過高亮顯示用戶可以明顯的發現查詢匹配的位置， E

2020-06-12 20:37:35

Logstash——Logstash将数据推送至Redis

redis 這篇主要介紹使用redis作爲output的目標可配置參數字段參數類型說明 batch boolean 當爲true的時候Redis批處理值併發送1個RPUSH命令而不是每個值發送一個命令以推送到

2020-06-12 20:37:35

Elasticsearch：使用布尔查询提高搜索的相关性

當你在Elasticsearch中執行搜索時，將對結果進行排序，以便與你的查詢相關的文檔排名很高。但是，可以認爲與一個應用程序相關的結果肯針對另一應用程序就沒有那麼相關。由於 Elasticsearch 超級靈活，因此可以對其進行微調

Elastic 中国社区官方博客

2020-06-11 18:55:33

Elastic：运用 Elastic Stack 分析 Spring boot 微服务日志 (二）

在我之前的文章“Elastic：運用 Elastic Stack 分析 Spring boot 微服務日誌 (一）”，我詳細講述瞭如何使用如下架構來進行對 Spring boot 應用進行日誌分析：細心的開發者可能已經發現：我們的 L

Elastic 中国社区官方博客

2020-06-11 18:55:33

24小時熱門文章

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

最新文章

最新評論文章