Elasticsearch让 keyword 和 term 忽略大小写

在 Elasticsearch 中处理字符串类型的数据时,如果我们想把整个数据作为一个完整的 term 存储,我们通常会将其类型( type) 设定为 keyword。而这种设定又会给我们带来麻烦,比如 Barbar两个实际都是 bar,但当我们去搜索 bar时却无法返回 Bar的文档。要解决这个问题,就需要 Normalizer出场了!

 


PUT test_normalizer
{
  "mappings": {
    "properties": {
        "foo":{
          "type":"keyword"
        }
      }
  }
}

PUT test_normalizer/_doc/1
{
  "foo":"bar"
}

PUT test_normalizer/_doc/2
{
  "foo":"Bar"
}


# 查询一 
GET test_normalizer/_search
{
  "query": {
    "match":{
      "foo":"bar"
    }
  }
}

# 查询二
GET test_normalizer/_search
{
  "query": {
    "match":{
      "foo":"BAr"
    }
  }
}
# 查询三
GET test_normalizer/_search
{
  "query": {
    "term":{
      "foo":"baR"
    }
  }
}

结果:

查询一:返回 id=1的数据

查询二、查询三:查询不到数据

原因:

  1. 写入 Elasticsearch时由于字段的 type是 keyword,分词结果为原始字符串(type=string时,是转为小写创建索引的)

  2. 查询 Query 时分词默认是采用和字段写时相同的配置,因此这里也就是 keyword,这查就是直接把内容去匹配了;从而查询一可以匹配到数据,查询二、三查询不到数据;

  3. 注意:term是代表完全匹配,即查询的关键词不会被分词处理;

 

解决方案:Normalizer


DELETE test_normalizer
# 自定义 normalizer

PUT test_normalizer
{
  "settings": {
    "analysis": {
      "normalizer": {
        "lowercase": {
          "type": "custom",
          "filter": ["lowercase"]
        }
      }
    }
  },
  "mappings": {
      "properties": {
        "foo": {
          "type": "keyword"
        },
        "foo_normalizer": {
          "type": "keyword",
          "normalizer": "lowercase"
        }
    }
  }
}

PUT test_normalizer/_doc/1
{
  "foo": "bar",
  "foo_normalizer": "bar"
}
PUT test_normalizer/_doc/2
{
  "foo": "Bar",
  "foo_normalizer": "Bar"
}

# 查询三
GET test_normalizer/_search
{
  "query": {
    "term":{
      "foo":"BaR"
    }
  }
}
# 查询四
GET test_normalizer/_search
{
  "query": {
    "term":{
      "foo_normalizer":"bAr"
    }
  }
}

1、normalizer是 keyword的一个属性,可以对 keyword生成的单一 Term再做进一步的处理,比如 lowercase,即做小写变换。使用方法和自定义分词器有些类似。

2、我们第一步是自定义了名为 lowercase的 normalizer,其中filter 类似自定义分词器中的 filter ,normalizer中可可用的filtr种类很少,详情大家可以查看官方文档。

3、通过 normalizer属性设定到指定字段type_normalizer中;

4、然后插入相同的2条文档。执行发现,查询三无结果返回,查询四返回2条文档。

 

流程说明:

  1. es文档写入时由于对字段指定了 normalizer,那该字段的 term都会被做小写处理

  2. 查询时搜索词同样采用有 normalizer的配置,因此处理后的 term也是小写的

  3. 这样写入数据和搜索都忽略大小写,就得到了我们上面的结果

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章