ElasticSearch 字段定義 analyzer 的三個組成部分

  1. 字符過濾器:character-filter
    接收原始的輸入文本,對字符序列進行過濾(如去掉HTML標籤,轉換阿拉伯數字等)
    一個分析器可以有0或多個字符過濾器,按順序對輸入的文本序列進行過濾。
  2. 分詞器:tokenizer
    將經過處理的文本流分解/分詞爲單個令牌/術語(token, term, word)。
    標記器也要記錄每個term的順序/位置,以及該術語所表示的原始單詞的開始和結束字符偏移量。
    一個分析器只能有一個分詞器。
  3. 詞條過濾器:token-filter
    詞條過濾器接收詞條流,並可以對通過的詞條進行增刪改(如:將詞條轉小寫,刪除停止詞,引入同義詞條等)
    詞條過濾器不可以更改每個詞條的位置或字符偏移量。
    分析器可以有0或多個詞條過濾器。這些過濾器按順序過濾。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章