IK分詞器插件

IK分詞器插件

什麼是IK分詞器?

分詞:即把一段中文或者別的劃分成一個個的關鍵字,我們在搜索時候會把自己的信息進行分詞,會把數據庫中或者索引庫中的數據進行分詞,然後進行一個匹配操作,默認的中文分詞是將每個字看成一個詞,比如 “我愛小葉曲” 會被分爲"我","愛","小","葉","曲" 這顯然是不符合要求的,所以我們需要安裝中文分詞器ik來解決這個問題。

如果要使用中文,建議使用ik分詞器!

IK提供了兩個分詞算法:ik_smart 和 ik_max_word,其中 ik_smart 爲最少切分ik_max_word爲最細粒度劃分

安裝:

https://github.com/medcl/elasticsearch-analysis-ik

下載完畢之後,放入到我們的elasticsearch 插件即可!

重啓觀察ES,可以看到ik分詞器被加載了!

elasticsearch-plugin list 可以通過這個命令來查看加載進來的插件

使用kibana測試!

查看不同的分詞效果

其中 ik_smart 爲最少切分

ik_max_word爲最細粒度劃分!窮盡詞庫的可能!字典!

我們輸入 “超級喜歡賈宇光”

發現問題:“賈宇光” 被拆開了!

這種自己需要的詞,需要自己加到我們的分詞器的字典中!

ik 分詞器增加自己的配置!

重啓es,看細節!

再次測試一下狂神說,看下效果!

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章