- 字符過濾器:
character-filter
接收原始的輸入文本,對字符序列進行過濾(如去掉HTML標籤,轉換阿拉伯數字等)
一個分析器可以有0或多個字符過濾器,按順序對輸入的文本序列進行過濾。 - 分詞器:
tokenizer
將經過處理的文本流分解/分詞爲單個令牌/術語(token, term, word)。
標記器也要記錄每個term的順序/位置,以及該術語所表示的原始單詞的開始和結束字符偏移量。
一個分析器只能有一個分詞器。 - 詞條過濾器:
token-filter
詞條過濾器接收詞條流,並可以對通過的詞條進行增刪改(如:將詞條轉小寫,刪除停止詞,引入同義詞條等)
詞條過濾器不可以更改每個詞條的位置或字符偏移量。
分析器可以有0或多個詞條過濾器。這些過濾器按順序過濾。
ElasticSearch 字段定義 analyzer 的三個組成部分
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
一場數據架構變革正在來臨
蔡芳芳
2021-12-21 10:54:01
解讀數字化轉型下的數據安全:AI正在開闢新的可能性
凌敏
2021-12-19 14:03:54
雲原生數據庫企業Cockroach Labs再獲 2.73 億美元融資,估值高達50億美元
Tina
2021-12-16 15:18:50
數千個數據庫、遍佈全國的物理機,京東物流全量上雲實錄 | 卓越技術團隊訪談錄
褚杏娟
2021-12-16 10:38:55
前車之鑑:聊聊我在基礎設施中掉過的坑
Mathew Duggan
2021-12-14 13:33:55
洞察數據庫變革趨勢,亞馬遜雲科技正在憑藉這項技術改變着遊戲規則
李冬梅
2021-12-10 16:53:54
MongoDB發佈第三季度財報,雲數據庫收入增長加速
Tina
2021-12-09 15:33:57
MySQL探祕(四):InnoDB的磁盤文件及落盤機制
程序员历小冰
2021-12-08 12:33:52
Oracle 大佬離職,怒噴 MySQL “糟糕的數據庫”
辛晓亮
2021-12-07 19:58:57
使用elk搜索 如何統計分詞後最多的詞
原創
2024-04-23 22:19:34
9n-triton部署bert模型實戰經驗
原創
2024-04-01 11:15:58
阿里雲PAI-靈駿大模型訓練工具 Pai-Megatron-Patch 正式開源!
原創
2023-10-07 12:29:41
ElasticSearch的REST APIs 之 索引設置管理
原創
2021-12-25 21:22:57
24小時熱門文章