一个案例弄懂ElasticSearch分词匹配原理和同义词

基础:ES支持两种同义方式。一种是单向同义词,一种是双向同义词。

臀部,臀,屁股
斑=>斑,雀斑   
i-pod,i pod,i pad =>ipod

说明:对于臀部,臀,屁股。我们可以理解成相互完全等价。对于“斑”“雀斑”,如果文章分词后包含“斑”,会自动存入“斑”“雀斑”两个字词,这样搜索斑或者雀斑都会命中该文章。如果使用"i-pod","i pod","i pad"转为"ipod”,那就会出现一个问题就是在因为存储的是"ipod”,所以搜"i pad"就不会命中该文章了。不推荐使用这种方式。

 

需求:今天有一个需求,我们认为“超声提升”和“超声刀”是一种东西,想实现搜“超声提升”同时出现“超声提升”和“超声刀”的文章。

实践:

第一步、我们先在同义词配置了"超声提升,超声刀",这时候搜索的“超声提升”,发现无法召回超声刀的文章。这是因为虽然配置了同义词,因为旧的ES索引在建立的时候并不知道这对同义词,所以需要重跑索引。

第二步、我们重跑了文章的索引,这时候搜索的“超声提升”,仍然无法召回“超声刀”的文章。这是因为搜索“超声提升”,search_analyzer会把他分词成“超声”和“提升”,而索引中存的是“超声提升”,无法命中。所以需要搜索分词。

第三步、我们分析了“超声提升”,这个词没有比较分词。于是我们把“超声提升”加入分词dict。这样搜索“超声提升”就会按照“超声提升”去搜索。完美解决。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章