ElasticSearch 字段定義 analyzer 的三個組成部分

原創

2020-03-23 02:53

字符過濾器：character-filter
接收原始的輸入文本，對字符序列進行過濾(如去掉HTML標籤，轉換阿拉伯數字等)
一個分析器可以有0或多個字符過濾器，按順序對輸入的文本序列進行過濾。
分詞器：tokenizer
將經過處理的文本流分解/分詞爲單個令牌/術語(token, term, word)。
標記器也要記錄每個term的順序/位置，以及該術語所表示的原始單詞的開始和結束字符偏移量。
一個分析器只能有一個分詞器。
詞條過濾器：token-filter
詞條過濾器接收詞條流，並可以對通過的詞條進行增刪改(如：將詞條轉小寫，刪除停止詞，引入同義詞條等)
詞條過濾器不可以更改每個詞條的位置或字符偏移量。
分析器可以有0或多個詞條過濾器。這些過濾器按順序過濾。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一場數據架構變革正在來臨

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-12-21 10:54:01

解讀數字化轉型下的數據安全：AI正在開闢新的可能性

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-19 14:03:54

雲原生數據庫企業Cockroach Labs再獲 2.73 億美元融資，估值高達50億美元

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-16 15:18:50

數千個數據庫、遍佈全國的物理機，京東物流全量上雲實錄 | 卓越技術團隊訪談錄

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1}},{"type":"blockquote","content":[{"type":"pa

2021-12-16 10:38:55

前車之鑑：聊聊我在基礎設施中掉過的坑

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-14 13:33:55

洞察數據庫變革趨勢，亞馬遜雲科技正在憑藉這項技術改變着遊戲規則

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-10 16:53:54

MongoDB發佈第三季度財報，雲數據庫收入增長加速

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-09 15:33:57

MySQL探祕(四):InnoDB的磁盤文件及落盤機制

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

程序员历小冰

2021-12-08 12:33:52

Oracle 大佬離職，怒噴 MySQL “糟糕的數據庫”

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-07 19:58:57

elastic search集成cloudera

https://www.elastic.co/downloads/hadoop

2022-12-19 09:37:34

使用elk搜索如何統計分詞後最多的詞

1、使用聚合索引，默認支持keyword類型。text需要修改配置，會影響效率其中analyzer可有可無，看創建索引時如何配置的，沒有的話會報錯，加上即可 PUT mam_cloud_video_dev/_mapping/_doc?in

2024-04-23 22:19:34

9n-triton部署bert模型實戰經驗

一、背景對於算法工程師來說，通常採用python語言來作爲工作語言，但是直接用python部署線上服務性能很差。這個問題困擾了我很久，爲了緩解深度學習模型工程落地性能問題，探索了Nvidia提供的triton部署框架，並在九數中臺上完成

2024-04-01 11:15:58

阿里雲PAI-靈駿大模型訓練工具 Pai-Megatron-Patch 正式開源！

Pai-Megatron-Patch是什麼 Pai-Megatron-Patch工具是阿里雲機器學習平臺PAI算法團隊研發，基於阿里雲智算服務PAI-靈駿平臺的大模型最佳實踐解決方案配套工具，旨在幫助大模型開發者快速上手靈駿產品，完成大語

2023-10-07 12:29:41

ElasticSearch的REST APIs 之索引設置管理

基於 ES 7.7, 官方文檔主要內容: Update index settings: 修改索引的設置 Get index settings: 獲取索引的設置 Analyze: 分析(分析器, 分詞器) 1. 修改索引的設置通過

2021-12-25 21:22:57

手把手教你用Pytorch-Transformers——實戰（二）

本文是《手把手教你用Pytorch-Transformers》的第二篇，主要講實戰手把手教你用Pytorch-Transformers——部分源碼解讀及相關說明（一）使用 PyTorch 的可以結合使用 Apex ，加速訓練和減小顯存

2021-12-25 21:19:08

24小時熱門文章

Golang爬蟲代理接入的技術與實踐

最新文章

最新評論文章