Elasticserach 自定義分詞器

原創

我傲故我狂

2020-07-07 10:05

1）環境準備

啓動Elasticsearch https://blog.csdn.net/qq_36918149/article/details/104221934
啓動Kinbana https://blog.csdn.net/qq_36918149/article/details/104224625

2）Character Filter

演示一：
#去除html標籤

POST _analyze
{
  "tokenizer":"keyword",
  "char_filter":["html_strip"],
  "text": "<b>hello world</b>"
}

結果，html標籤已經被去除

演示二：
#使用char filter進行替換

POST _analyze
{
  "tokenizer": "standard",
  "char_filter": [
      {
        "type" : "mapping",
        "mappings" : [ "- => _"]
      }
    ],
  "text": "123-456, I-test! test-990 650-555-1234"
}

結果顯示，“-” 已替換爲“_”，並進行了分詞

3）Tokenizer

演示：
#按路徑分詞

POST _analyze
{
  "tokenizer":"path_hierarchy",
  "text":"/user/ymruan/a/b/c/d/e"
}

結果：路徑被依次進行了分詞

4）Token Filter

演示一：

# whitespace與stop
GET _analyze
{
  "tokenizer": "whitespace",
  "filter": ["stop","snowball"],
  "text": ["The rain in Spain falls mainly on the plain."]
}

結果:連接詞被去掉以後的分詞結果

4）總結

過濾器過濾順序：char filter - >tokenizer -> token filter。
本章節在實際應用中還需要，仔細看一下api文檔。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Elasticsearch Index Template

1）環境準備啓動Elasticsearch https://blog.csdn.net/qq_36918149/article/details/104221934 啓動Kinbana https://blog.csdn.

我傲故我狂

2020-07-07 10:05:54

Elasticsearch Query String

1）、數據準備 https://blog.csdn.net/qq_36918149/article/details/104226994 2）、演示數據添加 PUT /users/_doc/1 { "name":"Ruan Yi

我傲故我狂

2020-07-07 10:05:45

Elasticsearch單機模式安裝

Elasticsearch單機模式安裝 OS：CentOS Linux release 7.6 Elasticsearch：elasticsearch-7.2.1 JDK：elasticsearch7自帶JDK，無需配置 1 OS設置

一介神符师

2020-06-30 23:54:50

Elasticsearch筆記2

學習整理自官方文檔 Elasticsearch筆記2搜索所有文檔source filteringScript fieldsCount API修改settings修改index的mapping查詢數據match queryMul

2020-06-28 18:33:23

Elastic：在 Grok 中運用 custom pattern 來定義 pattern

在我之前的文章 “Elastic可觀測性 - 數據結構化及處理”，講述瞭如果把一個非結構化的數據變爲一個結構化的數據結構。其中Grok processor 是非常重要的一個。在今天的文章中，我們來更加深入地對它進行描述。今天的這個 Gro

Elastic 中国社区官方博客

2020-06-16 10:35:31

Elasticsearch深度分頁問題以及Scroll查詢的一些總結

背景介紹我們在 Elasticsearch API的基礎上實現了一個日誌查詢系統，支持最基本的時間範圍選擇以及關鍵詞搜索高亮，並且日誌展示的表格支持異步分頁。有天用戶反饋，查詢的時候頁面報錯 Result window is

2020-06-15 05:25:26

Logstash：運用 Elastic Stack 分析 CSDN 閱讀量

在今天的文章中，我將來介紹一下如何使用 Elastic Stack 來分析 CSDN 的閱讀量。在這個教程中，我們將會學到：如何使用 http_poller 從 github 下載一個CSV，並把該數據導入到 Elasticsearch

Elastic 中国社区官方博客

2020-06-13 16:32:09

Elasticsearch攝取節點（五）——參數轉換處理器

字節轉換處理器(Bytes Processor) 處理器作用將可讀的字節值(如1kb)轉換爲其實際的字節數值值(如1024)。可讀的字節單位包含“b”、“kb”、“mb”、“gb”、“tb”、“pb”。此單位不區分大小寫。如果

2020-06-12 20:37:45

Elasticsearch查詢——Profile API（性能分析）

Profile API 性能分析平時開發的過程中我們可能需要對一些查詢操作進行優化，而優化之前的工作就是要對操作的性能進行分析，而ES提供了Profile API來幫助用戶進行性能分析。它讓用戶瞭解如何在較低的級別執行搜索請求，

2020-06-12 20:37:35

Elasticsearch查詢——Sort（查詢排序）

Sort 查詢排序測試索引 Elasticsearch針對普通數據、數組、嵌套對象、地理位置都提供了排序功能，爲了測試其排序方式我們需要可以能夠足夠數據類型的索引。所以創建了下面一個索引以及其映射 PUT offline_sal

2020-06-12 20:37:35

Elasticsearch映射——映射到底設置了什麼？

關於版本內容版本 Elasticsearch版本 7.2.0 JAVA依賴版本 7.2.1 索引映射索引的映射相當於數據庫中的表結構，這裏我之前在相關文章中已經接單介紹過了Elasticsearch基礎

2020-06-12 20:37:35

Elasticsearch查詢——highlight（高亮顯示）

Highlighters 高亮顯示日常生活中我們使用搜索工具嘗試查詢一些信息的時候，常常可以看到返回的結果集中和我們查詢條件相符合的字段被特殊的顏色所標記，這就是結果高亮顯示。通過高亮顯示用戶可以明顯的發現查詢匹配的位置， E

2020-06-12 20:37:35

Logstash——Logstash將數據推送至Redis

redis 這篇主要介紹使用redis作爲output的目標可配置參數字段參數類型說明 batch boolean 當爲true的時候Redis批處理值併發送1個RPUSH命令而不是每個值發送一個命令以推送到

2020-06-12 20:37:35

Elasticsearch：使用布爾查詢提高搜索的相關性

當你在Elasticsearch中執行搜索時，將對結果進行排序，以便與你的查詢相關的文檔排名很高。但是，可以認爲與一個應用程序相關的結果肯針對另一應用程序就沒有那麼相關。由於 Elasticsearch 超級靈活，因此可以對其進行微調

Elastic 中国社区官方博客

2020-06-11 18:55:33

Elastic：運用 Elastic Stack 分析 Spring boot 微服務日誌 (二）

在我之前的文章“Elastic：運用 Elastic Stack 分析 Spring boot 微服務日誌 (一）”，我詳細講述瞭如何使用如下架構來進行對 Spring boot 應用進行日誌分析：細心的開發者可能已經發現：我們的 L

Elastic 中国社区官方博客

2020-06-11 18:55:33

24小時熱門文章

最新文章

最新評論文章